Neymann-Pearson test

annuncio pubblicitario
1
ELEMENTI DI ELABORAZIONE DEI SEGNALI PER TELELOCALIZZAZIONE
nota per il corso di Elaborazione dei Segnali per Telecomunicazioni a cura di
F. Benedetto G. Giunta
1.
Introduzione al problema della decisione
I componenti di base di un problema riguardante la teoria della decisione sono
mostrati nella figura 1.
Il primo blocco è rappresentato dalla sorgente che genera un’uscita. Nel caso più
semplice l’uscita è una tra due sole scelte possibili ed il problema si riconduce ad un
quesito di decisone binaria. Tali uscite sono note come ipotesi e vengono denotate con
i simboli H0 e H1. Nel particolare le due ipotesi servono per decidere la presenza o
l’assenza di un certo target o segnale: H1 corrisponde alla presenza dell’obiettivo, H0
ovviamente, al caso opposto.
Fig. 1: Componenti di un problema di decisione
Il secondo componente che incontriamo nella nostra trattazione è rappresentato dal
meccanismo di transizione probabilistica, il terzo è invece lo spazio d’osservazione. Il
meccanismo di transizione probabilistica genera dei punti nello spazio d’osservazione
in accordo con una qualche legge di probabilità nota, i.e. le due densità di probabilità
condizionate pr/H1(R/H1) e pr/H0(R/H0).
Il quarto componente è rappresentato dalla regola di decisione. Dopo aver osservato
i risultati nello spazio di osservazione possiamo scegliere quale ipotesi sia vera
F. Benedetto – G. Giunta
Elementi di Elaborazione dei Segnali per Telelocalizzazione
2
sviluppando una regola di decisone che assegni ogni punto dello spazio di
osservazione a ciascuna ipotesi rispettando le regioni di decisione (figura 2).
Fig. 2: Regioni di decisione
In questa trattazione ci limiteremo a considerare solamente un problema binario,
cioè un problema in cui ad ognuna delle due uscite della sorgente corrisponde
un’ipotesi. Ciascuna ipotesi viene poi mappata in un punto dello spazio d’osservazione.
Assumendo che tale spazio corrisponda ad un set di N osservazioni: r1, r2, …, rN,
possiamo pensare ciascun set come un punto in uno spazio N-dimensionale denotato
da un vettore r:
⎡r1 ⎤
⎢r ⎥
r=⎢ 2 ⎥
⎢... ⎥
⎢ ⎥
⎣rN ⎦
(1)
1.1. Terminologia Radar
Una volta scelte nello spazio d’osservazione le regioni Z0 e Z1, vengono a
determinarsi i valori di tre densità di probabilità condizionate caratteristiche del
problema radar in cui la prima ipotesi H1 corrisponde alla presenza di un target
(segnale nel nostro caso), la seconda ipotesi H0 corrisponde all’assenza del target.
Vengono così a definirsi tre differenti densità di probabilità condizionate di seguito
riportate:
F. Benedetto – G. Giunta
Elementi di Elaborazione dei Segnali per Telelocalizzazione
3
PF = ∫ pr H 0 (R H 0 )dR
(2)
PD = ∫ pr H1 (R H1 )dR
(3)
PM = ∫ pr H1 (R H1 )dR = 1 − PD
(4)
Z1
Z1
Z0
Con ovvio riferimento alla teoria dei radar, i tre pedici servono ad indicare,
rispettivamente:
•
PF probabilità di “falso allarme”, rileviamo la presenza di un target
quando in realtà esso non esiste;
•
PD probabilità di “detection”, troviamo la presenza di un target reale;
•
PM probabilità di “miss”, non riusciamo a rilevare il target nonostante
esso sia realmente presente.
2.
Criterio di Neyman-Pearson
In molte situazioni fisiche risulta molto difficile assegnare costi realistici alle decisioni
effettuate o alle probabilità a priori, potendo così poi ricondursi il problema al più noto
criterio di Bayes. Una semplice procedura per by-passare il problema è lavorare con le
densità di probabilità condizionate PF e PD espresse dalle (2)-(4). In generale vogliamo
rendere PF la più piccola possibile e PD la più grande possibile. Questo, però, in molte
situazioni può essere un obiettivo conflittuale cosicché è conveniente fissare una
probabilità costante e lavorare sull’altra cercando di minimizzarla (o massimizzarla).
Il criterio di Neyman-Pearson lavora proprio sfruttando quest’ultimo assioma: si
pone, cioè, PF = α’ ≤ α e si disegna un test con l’obiettivo di massimizzare PD (oppure
di minimizzare PM) rispettando la condizione sopra espressa.
La soluzione può ottenersi facilmente sfruttando i moltiplicatori di Lagrange.
Costruiamo la funzione F, esprimibile come:
F = PM + λ [PF − α ']
(5)
F = ∫ pr H1 (R H1 )dR + λ ⎡ ∫ pr H 0 (R H 0 )dR − α '⎤
⎥⎦
⎢⎣ Z1
Z0
(6)
oppure
Ovviamente, se PF = α’, allora minimizzare F corrisponde a minimizzare PM.
F. Benedetto – G. Giunta
Elementi di Elaborazione dei Segnali per Telelocalizzazione
4
La funzione F può ancora essere scritta nella seguente forma:
(
)
F = λ 1−α ' + ∫
Z0
{p (R H ) − λp (R H )}dR
r H1
1
r H0
(7)
0
Si osservi ora che per qualsiasi valore positivo di λ un criterio a rapporto di massima
verosimiglianza minimizza la funzione F, così come è scritta nella forma della (7). Ciò
segue direttamente dal fatto che, per minimizzare F, noi assegniamo un punto R alla
regione Z0 solamente quando il termine tra parentesi è negativo; cosa che risulta
essere del tutto equivalente al test seguente:
Λ(R ) =
pr H1 (R H1 )
pr H 0 (R H 0 )
<λ
(8 a)
Oppure, essendo ambo i membri della precedente positivi, ed essendo il logaritmo
una funzione monotona del suo argomento, si può ancora scrivere il test nel modo
seguente:
⎛ pr H (R H1 ) ⎞
1
⎟ < ln λ
ln Λ(R ) = ln⎜
⎜ pr H (R H 0 ) ⎟
0
⎝
⎠
(8 b)
La quantità a sinistra delle (8 a,b) è proprio il rapporto di verosimiglianza Λ(R).
Nella seguente figura 3 (a, b) sono rappresentate le due forme equivalenti di
diagrammi a blocchi per esprimere il medesimo test a massima verosimiglianza.
Fig. 3: Test a massima verosimiglianza (parte a) e sua forma logaritmica (parte b)
F. Benedetto – G. Giunta
Elementi di Elaborazione dei Segnali per Telelocalizzazione
5
Naturalmente dobbiamo scegliere λ in modo da soddisfare la condizione iniziale che
poneva PF = α’. Quindi introducendo nella nostra trattazione la densità di probabilità di
Λ quando H0 è vera, otteniamo:
∞
PF = ∫ pΛ H 0 (Λ H 0 )dΛ = α '
(9)
λ
Risolvere la (9) rispetto a λ dà come risultato proprio il valore della soglia. Tale
valore deve essere non negativo in quanto la densità di Λ risulta essere pari a zero per
valori negativi di λ.
Si osservi infine, che diminuire λ è equivalente all’aumentare Z1, cioè la regione dei
punti in cui è vera l’ipotesa H1, il che equivale a dire che , al diminuire di λ aumenta la
probabilità di “detection” PD. Di conseguenza si cerca di diminuire la soglia λ fino ad
ottenere il più grande valore di α’ prossimo ad α.
3.
Prestazioni
Per completare la discussione riguardo il problema di decisione binaria non rimane
che calcolare le performance del test a massima verosimiglianza. Per un test di
Neyman-Pearson i valori di PF e di PD definiscono in modo completo le prestazioni del
sistema.
Assumiamo che sotto l’ipotesi H1 la sorgente generi un’uscita costante pari ad un
valore m mentre generi 0 sotto l’ipotesi H0. Supponiamo inoltre che prima
dell’osservazione le due uscite sia disturbate da un rumore di tipo additivo, gaussiano,
a valor medio nullo e varianza σ2, in modo che le osservazioni rispetto alle due ipotesi
siano:
H1 : ri = m + ni
H 0 : ri =
(10)
ni
con:
⎛
X2 ⎞
⎟
⎜−
2 ⎟
⎜
1
pni ( X ) =
e⎝ 2σ ⎠
2π σ
(11)
e con i = 1, 2, …, N.
F. Benedetto – G. Giunta
Elementi di Elaborazione dei Segnali per Telelocalizzazione
6
La densità di probabilità di ri rispetto a ciascuna delle due ipotesi segue facilmente:
⎛
⎜
−
⎜
1
pri H1 (Ri H1 ) = pni (Ri − m) =
e⎝
2π σ
⎛
⎜
( Ri −m )2 ⎞⎟
2σ 2
⎟
⎠
(12)
Ri 2 ⎞⎟
−
⎜ 2σ 2 ⎟
1
⎠
pri H1 (Ri H 0 ) = pni (Ri ) =
e⎝
2π σ
(13)
Dalla figura 4, in cui è rappresentato schematicamente il problema binario
precedentemente esposto, è facilmente deducibile l’osservazione, riassunta per
comodità di esposizione nella formula (10).
Fig. 4: Schema del problema di decisione binaria
Poiché gli ni sono statisticamente indipendenti, la densità di probabilità di tutti gli ri è
semplicemente il prodotto delle singole densità di probabilità:
⎛
⎜
( Ri − m )2 ⎞⎟
pr H1 (R H1 ) = ∏
−
⎜
1
e⎝
2π σ
pr H 0 (R H 0 ) = ∏
−
⎜ 2σ 2 ⎟
1
⎠
e⎝
2π σ
N
i =1
N
i =1
F. Benedetto – G. Giunta
⎛
⎜
2σ 2
⎟
⎠
(14)
Ri 2 ⎞⎟
(15)
Elementi di Elaborazione dei Segnali per Telelocalizzazione
7
Dalle (14) e (15) segue il rapporto di massima verosimiglianza Λ(R) come definito in
precedenza dalle (8) e pari, quindi, a:
⎛
⎜
−
⎜
1
e⎝
2π σ
N
Λ(R ) =
∏
i =1
N
1
e
2π σ
∏
i =1
( Ri − m )2 ⎞⎟
⎟
⎠
2σ 2
⎛ Ri 2
⎜−
⎜ 2σ 2
⎝
(16)
⎞
⎟
⎟
⎠
Dopo aver cancellato i termini comuni, si può prendere il logaritmo di ambo i
membri della (16) ottenendo:
ln Λ(R ) =
N
m
σ
R−
2 ∑ i
i =1
Nm2
2σ 2
(17)
Introducendo il parametro η che tiene conto della soglia il test diventa, rispetto alle
due ipotesi:
H0:
m
σ
N
R−
2 ∑ i
i =1
Nm2
< lnη
2σ 2
(18)
Nm2
> lnη
2σ 2
(19)
H1:
m
σ
N
R−
2 ∑ i
i =1
Moltiplicando ambo i membri delle (18) e (19) per la quantità (σ mN 1 2 ) otteniamo
rispettivamente:
H0:
l=
1
Nσ
N
∑R <
i =1
i
σ
Nm
lnη +
Nm
2σ
(20)
lnη +
Nm
2σ
(21)
H1:
l=
1
Nσ
F. Benedetto – G. Giunta
N
∑R
i =1
i
>
σ
Nm
Elementi di Elaborazione dei Segnali per Telelocalizzazione
8
Come si nota, sotto l’ipotesi H0, l è ottenuta aggiungendo N variabili gaussiane
indipendenti a valor medio nullo e varianza σ2 ed infine dividendo per
(Nσ )
2 12
. Ne
segue, quindi, che l è gaussiana con valor medio nullo e varianza unitaria, cioè: l è
N(0,1). Al contrario, sotto l’ipotesi H1, l è N(N1/2 σ/m,1).
Fig. 5: Prob. d’errore: (a) – calcolo di PF; (b) – calcolo di PD
Vengono mostrate nella figura 5 (a,b) le due densità di probabilità condizionate
sopra citate allo scopo di calcolare i valori della PF e della PD per determinare le
performance del test.
Concludendo si ottiene il seguente valore per la probabilità di falso allarme
ricordando che PF è semplicemente l’integrale di pl/H0(L/H0) alla destra della soglia
(figura 5a):
⎛ x2 ⎞
∞
PF =
∫
(lnη ) d + d
F. Benedetto – G. Giunta
2
1 ⎜⎜⎝ − 2 ⎟⎟⎠
e
dx
2π
(22)
Elementi di Elaborazione dei Segnali per Telelocalizzazione
9
essendo la distanza tra le medie delle due densità pari a: d = N1/2 σ/m. Dopo
semplici manipolazioni matematiche si ottiene:
⎛ lnη d ⎞
+ ⎟
PF = erfc⎜
2⎠
⎝ d
(23)
avendo sfruttato la funzione d’errore complementare definita come:
⎛ x2 ⎞
∞
1 ⎜⎜⎝ − 2 ⎟⎟⎠
e
dx
2π
erfc(Χ ) = ∫
Χ
(24)
Similmente, essendo PD la probabilità di detection l’integrale della pl/H1(L/H1)
calcolato a destra della soglia, si ottiene (figura 5b):
⎛
⎜
∞
PD =
∫
η)
(ln
d +d 2
1 ⎜⎝ −
e
2π
( x − d )2 ⎞⎟
2
⎟
⎠
(25)
dx
ovvero, sfruttando come in precedenza la funzione d’errore complementare, si può
scrivere:
⎛ lnη d ⎞
− ⎟
PD = erfc⎜
2⎠
⎝ d
(26)
Fig. 6: ROC – receiver operating characteristic
F. Benedetto – G. Giunta
Elementi di Elaborazione dei Segnali per Telelocalizzazione
10
In figura 6 è riportato il grafico di PD rispetto a PF per diversi valori di d al variare del
parametro di soglia η. Per η = 0, ln η = -∞, si decide perciò sempre per l’ipotesi H1
ottenendo quindi PF = 1 e PD = 1.
All’aumentare di η i valori delle due probabilità diminuiscono, finché, per η=∞, si
decide sempre per l’ipotesi H0 ottenendo, quindi, PF = 0 e PD = 0.
Fig. 7: Variazione di PD rispetto a d
Com’era logico aspettarsi, dalla figura 6 si nota che le performance aumentano
monotonicamente con d. Il risultato della figura 6 è meglio noto in letteratura con il
nome di “receiver operating characteristic” (ROC); esso descrive completamente le
prestazioni di un test al variare di un parametro di interesse. In figura 7 viene
riportato un grafico che illustra la variazione di una probabilità, nello specifico la
probabilità di detection PD, al variare del valore di d, mantenendo costante l’altra
densità di probabilità, in questo caso proprio PF.
F. Benedetto – G. Giunta
Elementi di Elaborazione dei Segnali per Telelocalizzazione
11
Fig. 8: Proprietà e grafico di erfc(X)
Nella figura 8, inoltre, vengono illustrate due condizioni fondamentali cui deve
soddisfare ogni funzione complementare d’errore erfc(X), con X>0, e che per
comodità vengono riportate di seguito anche in formule:
2
2
1 ⎞ − X2
1 ⎛ 1 ⎞ − X2
1 ⎛
< erfc( X ) <
⎜1 − 2 ⎟e
⎜ − 2 ⎟e
2π X ⎝ X ⎠
2π X ⎝ X ⎠
1 −
erfc( X ) < e
2
F. Benedetto – G. Giunta
X2
2
(27)
(28)
Elementi di Elaborazione dei Segnali per Telelocalizzazione
12
4.
Considerazioni conclusive
Per concludere, come già detto, ogni ROC definisce in maniera univoca e completa le
prestazioni di un test di Neyman-Pearson, enunciamo quindi tre proprietà generali
comuni ad ogni diagramma ROC:
1.
Tutti i test a massima verosimiglianza possiedono un ROC le cui curve
presentano tutte concavità rivolta verso il basso
2.
Tutti i test a massima verosimiglianza possiedono un ROC le cui curve
sono disposte al di sopra della linea per cui PD = PF
3.
La pendenza di una curva di un ROC in un punto particolare risulta essere
pari al valore della soglia η necessaria per raggiungere i valori di probabilità PD e PF di
quel particolare punto.
F. Benedetto – G. Giunta
Elementi di Elaborazione dei Segnali per Telelocalizzazione
Scarica