1 ELEMENTI DI ELABORAZIONE DEI SEGNALI PER TELELOCALIZZAZIONE nota per il corso di Elaborazione dei Segnali per Telecomunicazioni a cura di F. Benedetto G. Giunta 1. Introduzione al problema della decisione I componenti di base di un problema riguardante la teoria della decisione sono mostrati nella figura 1. Il primo blocco è rappresentato dalla sorgente che genera un’uscita. Nel caso più semplice l’uscita è una tra due sole scelte possibili ed il problema si riconduce ad un quesito di decisone binaria. Tali uscite sono note come ipotesi e vengono denotate con i simboli H0 e H1. Nel particolare le due ipotesi servono per decidere la presenza o l’assenza di un certo target o segnale: H1 corrisponde alla presenza dell’obiettivo, H0 ovviamente, al caso opposto. Fig. 1: Componenti di un problema di decisione Il secondo componente che incontriamo nella nostra trattazione è rappresentato dal meccanismo di transizione probabilistica, il terzo è invece lo spazio d’osservazione. Il meccanismo di transizione probabilistica genera dei punti nello spazio d’osservazione in accordo con una qualche legge di probabilità nota, i.e. le due densità di probabilità condizionate pr/H1(R/H1) e pr/H0(R/H0). Il quarto componente è rappresentato dalla regola di decisione. Dopo aver osservato i risultati nello spazio di osservazione possiamo scegliere quale ipotesi sia vera F. Benedetto – G. Giunta Elementi di Elaborazione dei Segnali per Telelocalizzazione 2 sviluppando una regola di decisone che assegni ogni punto dello spazio di osservazione a ciascuna ipotesi rispettando le regioni di decisione (figura 2). Fig. 2: Regioni di decisione In questa trattazione ci limiteremo a considerare solamente un problema binario, cioè un problema in cui ad ognuna delle due uscite della sorgente corrisponde un’ipotesi. Ciascuna ipotesi viene poi mappata in un punto dello spazio d’osservazione. Assumendo che tale spazio corrisponda ad un set di N osservazioni: r1, r2, …, rN, possiamo pensare ciascun set come un punto in uno spazio N-dimensionale denotato da un vettore r: ⎡r1 ⎤ ⎢r ⎥ r=⎢ 2 ⎥ ⎢... ⎥ ⎢ ⎥ ⎣rN ⎦ (1) 1.1. Terminologia Radar Una volta scelte nello spazio d’osservazione le regioni Z0 e Z1, vengono a determinarsi i valori di tre densità di probabilità condizionate caratteristiche del problema radar in cui la prima ipotesi H1 corrisponde alla presenza di un target (segnale nel nostro caso), la seconda ipotesi H0 corrisponde all’assenza del target. Vengono così a definirsi tre differenti densità di probabilità condizionate di seguito riportate: F. Benedetto – G. Giunta Elementi di Elaborazione dei Segnali per Telelocalizzazione 3 PF = ∫ pr H 0 (R H 0 )dR (2) PD = ∫ pr H1 (R H1 )dR (3) PM = ∫ pr H1 (R H1 )dR = 1 − PD (4) Z1 Z1 Z0 Con ovvio riferimento alla teoria dei radar, i tre pedici servono ad indicare, rispettivamente: • PF probabilità di “falso allarme”, rileviamo la presenza di un target quando in realtà esso non esiste; • PD probabilità di “detection”, troviamo la presenza di un target reale; • PM probabilità di “miss”, non riusciamo a rilevare il target nonostante esso sia realmente presente. 2. Criterio di Neyman-Pearson In molte situazioni fisiche risulta molto difficile assegnare costi realistici alle decisioni effettuate o alle probabilità a priori, potendo così poi ricondursi il problema al più noto criterio di Bayes. Una semplice procedura per by-passare il problema è lavorare con le densità di probabilità condizionate PF e PD espresse dalle (2)-(4). In generale vogliamo rendere PF la più piccola possibile e PD la più grande possibile. Questo, però, in molte situazioni può essere un obiettivo conflittuale cosicché è conveniente fissare una probabilità costante e lavorare sull’altra cercando di minimizzarla (o massimizzarla). Il criterio di Neyman-Pearson lavora proprio sfruttando quest’ultimo assioma: si pone, cioè, PF = α’ ≤ α e si disegna un test con l’obiettivo di massimizzare PD (oppure di minimizzare PM) rispettando la condizione sopra espressa. La soluzione può ottenersi facilmente sfruttando i moltiplicatori di Lagrange. Costruiamo la funzione F, esprimibile come: F = PM + λ [PF − α '] (5) F = ∫ pr H1 (R H1 )dR + λ ⎡ ∫ pr H 0 (R H 0 )dR − α '⎤ ⎥⎦ ⎢⎣ Z1 Z0 (6) oppure Ovviamente, se PF = α’, allora minimizzare F corrisponde a minimizzare PM. F. Benedetto – G. Giunta Elementi di Elaborazione dei Segnali per Telelocalizzazione 4 La funzione F può ancora essere scritta nella seguente forma: ( ) F = λ 1−α ' + ∫ Z0 {p (R H ) − λp (R H )}dR r H1 1 r H0 (7) 0 Si osservi ora che per qualsiasi valore positivo di λ un criterio a rapporto di massima verosimiglianza minimizza la funzione F, così come è scritta nella forma della (7). Ciò segue direttamente dal fatto che, per minimizzare F, noi assegniamo un punto R alla regione Z0 solamente quando il termine tra parentesi è negativo; cosa che risulta essere del tutto equivalente al test seguente: Λ(R ) = pr H1 (R H1 ) pr H 0 (R H 0 ) <λ (8 a) Oppure, essendo ambo i membri della precedente positivi, ed essendo il logaritmo una funzione monotona del suo argomento, si può ancora scrivere il test nel modo seguente: ⎛ pr H (R H1 ) ⎞ 1 ⎟ < ln λ ln Λ(R ) = ln⎜ ⎜ pr H (R H 0 ) ⎟ 0 ⎝ ⎠ (8 b) La quantità a sinistra delle (8 a,b) è proprio il rapporto di verosimiglianza Λ(R). Nella seguente figura 3 (a, b) sono rappresentate le due forme equivalenti di diagrammi a blocchi per esprimere il medesimo test a massima verosimiglianza. Fig. 3: Test a massima verosimiglianza (parte a) e sua forma logaritmica (parte b) F. Benedetto – G. Giunta Elementi di Elaborazione dei Segnali per Telelocalizzazione 5 Naturalmente dobbiamo scegliere λ in modo da soddisfare la condizione iniziale che poneva PF = α’. Quindi introducendo nella nostra trattazione la densità di probabilità di Λ quando H0 è vera, otteniamo: ∞ PF = ∫ pΛ H 0 (Λ H 0 )dΛ = α ' (9) λ Risolvere la (9) rispetto a λ dà come risultato proprio il valore della soglia. Tale valore deve essere non negativo in quanto la densità di Λ risulta essere pari a zero per valori negativi di λ. Si osservi infine, che diminuire λ è equivalente all’aumentare Z1, cioè la regione dei punti in cui è vera l’ipotesa H1, il che equivale a dire che , al diminuire di λ aumenta la probabilità di “detection” PD. Di conseguenza si cerca di diminuire la soglia λ fino ad ottenere il più grande valore di α’ prossimo ad α. 3. Prestazioni Per completare la discussione riguardo il problema di decisione binaria non rimane che calcolare le performance del test a massima verosimiglianza. Per un test di Neyman-Pearson i valori di PF e di PD definiscono in modo completo le prestazioni del sistema. Assumiamo che sotto l’ipotesi H1 la sorgente generi un’uscita costante pari ad un valore m mentre generi 0 sotto l’ipotesi H0. Supponiamo inoltre che prima dell’osservazione le due uscite sia disturbate da un rumore di tipo additivo, gaussiano, a valor medio nullo e varianza σ2, in modo che le osservazioni rispetto alle due ipotesi siano: H1 : ri = m + ni H 0 : ri = (10) ni con: ⎛ X2 ⎞ ⎟ ⎜− 2 ⎟ ⎜ 1 pni ( X ) = e⎝ 2σ ⎠ 2π σ (11) e con i = 1, 2, …, N. F. Benedetto – G. Giunta Elementi di Elaborazione dei Segnali per Telelocalizzazione 6 La densità di probabilità di ri rispetto a ciascuna delle due ipotesi segue facilmente: ⎛ ⎜ − ⎜ 1 pri H1 (Ri H1 ) = pni (Ri − m) = e⎝ 2π σ ⎛ ⎜ ( Ri −m )2 ⎞⎟ 2σ 2 ⎟ ⎠ (12) Ri 2 ⎞⎟ − ⎜ 2σ 2 ⎟ 1 ⎠ pri H1 (Ri H 0 ) = pni (Ri ) = e⎝ 2π σ (13) Dalla figura 4, in cui è rappresentato schematicamente il problema binario precedentemente esposto, è facilmente deducibile l’osservazione, riassunta per comodità di esposizione nella formula (10). Fig. 4: Schema del problema di decisione binaria Poiché gli ni sono statisticamente indipendenti, la densità di probabilità di tutti gli ri è semplicemente il prodotto delle singole densità di probabilità: ⎛ ⎜ ( Ri − m )2 ⎞⎟ pr H1 (R H1 ) = ∏ − ⎜ 1 e⎝ 2π σ pr H 0 (R H 0 ) = ∏ − ⎜ 2σ 2 ⎟ 1 ⎠ e⎝ 2π σ N i =1 N i =1 F. Benedetto – G. Giunta ⎛ ⎜ 2σ 2 ⎟ ⎠ (14) Ri 2 ⎞⎟ (15) Elementi di Elaborazione dei Segnali per Telelocalizzazione 7 Dalle (14) e (15) segue il rapporto di massima verosimiglianza Λ(R) come definito in precedenza dalle (8) e pari, quindi, a: ⎛ ⎜ − ⎜ 1 e⎝ 2π σ N Λ(R ) = ∏ i =1 N 1 e 2π σ ∏ i =1 ( Ri − m )2 ⎞⎟ ⎟ ⎠ 2σ 2 ⎛ Ri 2 ⎜− ⎜ 2σ 2 ⎝ (16) ⎞ ⎟ ⎟ ⎠ Dopo aver cancellato i termini comuni, si può prendere il logaritmo di ambo i membri della (16) ottenendo: ln Λ(R ) = N m σ R− 2 ∑ i i =1 Nm2 2σ 2 (17) Introducendo il parametro η che tiene conto della soglia il test diventa, rispetto alle due ipotesi: H0: m σ N R− 2 ∑ i i =1 Nm2 < lnη 2σ 2 (18) Nm2 > lnη 2σ 2 (19) H1: m σ N R− 2 ∑ i i =1 Moltiplicando ambo i membri delle (18) e (19) per la quantità (σ mN 1 2 ) otteniamo rispettivamente: H0: l= 1 Nσ N ∑R < i =1 i σ Nm lnη + Nm 2σ (20) lnη + Nm 2σ (21) H1: l= 1 Nσ F. Benedetto – G. Giunta N ∑R i =1 i > σ Nm Elementi di Elaborazione dei Segnali per Telelocalizzazione 8 Come si nota, sotto l’ipotesi H0, l è ottenuta aggiungendo N variabili gaussiane indipendenti a valor medio nullo e varianza σ2 ed infine dividendo per (Nσ ) 2 12 . Ne segue, quindi, che l è gaussiana con valor medio nullo e varianza unitaria, cioè: l è N(0,1). Al contrario, sotto l’ipotesi H1, l è N(N1/2 σ/m,1). Fig. 5: Prob. d’errore: (a) – calcolo di PF; (b) – calcolo di PD Vengono mostrate nella figura 5 (a,b) le due densità di probabilità condizionate sopra citate allo scopo di calcolare i valori della PF e della PD per determinare le performance del test. Concludendo si ottiene il seguente valore per la probabilità di falso allarme ricordando che PF è semplicemente l’integrale di pl/H0(L/H0) alla destra della soglia (figura 5a): ⎛ x2 ⎞ ∞ PF = ∫ (lnη ) d + d F. Benedetto – G. Giunta 2 1 ⎜⎜⎝ − 2 ⎟⎟⎠ e dx 2π (22) Elementi di Elaborazione dei Segnali per Telelocalizzazione 9 essendo la distanza tra le medie delle due densità pari a: d = N1/2 σ/m. Dopo semplici manipolazioni matematiche si ottiene: ⎛ lnη d ⎞ + ⎟ PF = erfc⎜ 2⎠ ⎝ d (23) avendo sfruttato la funzione d’errore complementare definita come: ⎛ x2 ⎞ ∞ 1 ⎜⎜⎝ − 2 ⎟⎟⎠ e dx 2π erfc(Χ ) = ∫ Χ (24) Similmente, essendo PD la probabilità di detection l’integrale della pl/H1(L/H1) calcolato a destra della soglia, si ottiene (figura 5b): ⎛ ⎜ ∞ PD = ∫ η) (ln d +d 2 1 ⎜⎝ − e 2π ( x − d )2 ⎞⎟ 2 ⎟ ⎠ (25) dx ovvero, sfruttando come in precedenza la funzione d’errore complementare, si può scrivere: ⎛ lnη d ⎞ − ⎟ PD = erfc⎜ 2⎠ ⎝ d (26) Fig. 6: ROC – receiver operating characteristic F. Benedetto – G. Giunta Elementi di Elaborazione dei Segnali per Telelocalizzazione 10 In figura 6 è riportato il grafico di PD rispetto a PF per diversi valori di d al variare del parametro di soglia η. Per η = 0, ln η = -∞, si decide perciò sempre per l’ipotesi H1 ottenendo quindi PF = 1 e PD = 1. All’aumentare di η i valori delle due probabilità diminuiscono, finché, per η=∞, si decide sempre per l’ipotesi H0 ottenendo, quindi, PF = 0 e PD = 0. Fig. 7: Variazione di PD rispetto a d Com’era logico aspettarsi, dalla figura 6 si nota che le performance aumentano monotonicamente con d. Il risultato della figura 6 è meglio noto in letteratura con il nome di “receiver operating characteristic” (ROC); esso descrive completamente le prestazioni di un test al variare di un parametro di interesse. In figura 7 viene riportato un grafico che illustra la variazione di una probabilità, nello specifico la probabilità di detection PD, al variare del valore di d, mantenendo costante l’altra densità di probabilità, in questo caso proprio PF. F. Benedetto – G. Giunta Elementi di Elaborazione dei Segnali per Telelocalizzazione 11 Fig. 8: Proprietà e grafico di erfc(X) Nella figura 8, inoltre, vengono illustrate due condizioni fondamentali cui deve soddisfare ogni funzione complementare d’errore erfc(X), con X>0, e che per comodità vengono riportate di seguito anche in formule: 2 2 1 ⎞ − X2 1 ⎛ 1 ⎞ − X2 1 ⎛ < erfc( X ) < ⎜1 − 2 ⎟e ⎜ − 2 ⎟e 2π X ⎝ X ⎠ 2π X ⎝ X ⎠ 1 − erfc( X ) < e 2 F. Benedetto – G. Giunta X2 2 (27) (28) Elementi di Elaborazione dei Segnali per Telelocalizzazione 12 4. Considerazioni conclusive Per concludere, come già detto, ogni ROC definisce in maniera univoca e completa le prestazioni di un test di Neyman-Pearson, enunciamo quindi tre proprietà generali comuni ad ogni diagramma ROC: 1. Tutti i test a massima verosimiglianza possiedono un ROC le cui curve presentano tutte concavità rivolta verso il basso 2. Tutti i test a massima verosimiglianza possiedono un ROC le cui curve sono disposte al di sopra della linea per cui PD = PF 3. La pendenza di una curva di un ROC in un punto particolare risulta essere pari al valore della soglia η necessaria per raggiungere i valori di probabilità PD e PF di quel particolare punto. F. Benedetto – G. Giunta Elementi di Elaborazione dei Segnali per Telelocalizzazione