Nessun titolo diapositiva

Corso di Sistemi di Telecomunicazione 1
A.A 2009/2010
TEORIA DELLA DECISIONE
Ref. ‘Detection, Estimation and Modulation
Theory, Part I’, H.L.Van Trees, ed. John
Wiley&Sons, Inc. 1968
Prof. Carlo S. Regazzoni
1
CONTENUTI
• Introduzione
• Test di ipotesi binaria
• Criteri di decisione
• Misure di prestazione: curve ROC
• M-ipotesi
2
INTRODUZIONE:
Il problema della decisione
• Componenti del problema della decisione:
1. Sorgente
2. Meccanismo probabilistico di rumore
3. Spazio dell’osservazione
4. Regola di decisione
H0
Sorgente
H1
Meccanismo
probabilistico
di rumore
Spazio
della
osservazione
Regola di
decisione
DECISIONE
3
INTRODUZIONE:
Il problema della decisione
• Sorgente
La sorgenete genera un’uscita che, nel caso più semplice
è una tra due possibili scelte H 0 e H 1
ESEMPIO
Un sistema di comunicazione digitale trasmette
informazioni mandando ‘0’ e ‘1’:
H 1 = è stato trasmesso ‘1’
H 0 = è stato trasmesso ‘0’
• Meccanismo probabilistico di rumore
Può essere visto come un dispositivo che sa
quale ipotesi è vera. Sulla base di questa
conoscenza, genera un punto nello spazio delle
osservazioni, in accordo con date leggi
probabilistiche.
• Spazio delle osservazioni: ESEMPIO
• Quando H1 è vera, la sorgente genera +1.
• Quando H0 è vera, la sorgente genera -1.
4
INTRODUZIONE:
Il problema della decisione
Un problema di decisione:
Fig. a: Modello
Fig. b: Densità di probabilità
• Una variabile casuale discreta indipendente n la cui
densità di probabilità è mostrata nella figura (b) è
aggiunta all’uscita della sorgente.
• L’osservazione r è data dalla somma dell’uscita della
sorgente con n.
• Sotto le due ipotesi abbiamo due possibili osservazioni
r le cui densità di probabilità sono mostrate in figura
(b).
• Regola di decisione
La regola di decisione assegna ogni punto dello spazio
dell’osservazione ad una delle ipotesi
5
IPOTESI BINARIA
• Ognuna delle due uscite della sorgente corrisponde
ad una ipotesi
• Ogni ipotesi viene mappata in un punto dello spazio
delle osservazioni
• Assumiamo che lo spazio delle osservazioni
corrisponde a un insieme di N osservazioni:
r1 , r2 ,...... , rN
 Ogni insieme può essere pensato come un punto in
uno spazio N-dimensionale e può essere denotato da
un vettore r:
 r1 
r 
 2
r  . 
 . 
r 
 N
• Il meccanismo probabilistico di rumore genera punti in
accordo con due densità di probabilità condizionali
 pr|H1 R | H1 
note pr|H 0 R | H 0 e
• OBIETTIVO: usare questa informazione per sviluppare
una buona regola di decisione
 vediamo diversi criteri di decisione
6
CRITERI DI DECISIONE
• Nell’ipotesi binaria sappiamo che una delle ipotesi H1
o H0 è vera.
• Confiniamo la discussione sulle regole di decisione
che sono richieste per prendere una decisione.
• Ogni volta che l’esperimento viene condotto, può
verificarsi una delle seguenti 4 situazioni:
1. H0 è vera - scelgo H0;
2. H0 è vera - scelgo H1;
3. H1 è vera - scelgo H1;
4. H1 è vera - scelgo H0;
• La prima e la terza alternativa corrispondono a scelte
corrette.
• La seconda e la quarta alternativa corrispondono a
scelte sbagliate.
• Lo scopo di un criterio di decisione è quello di dare una
importanza relativa ai possibili quattro eventi.
7
CRITERIO DI BAYES
• Il test di Bayes è basato si due assunzioni:
1. Prima assunzione
Le uscite sono governate da assegnazioni
probabilistiche, che sono denotate da P1 e P0 e sono
chiamate probabilità a priori.
Queste probabilità rappresentano l’informazione che
ha l’osservatore sulla sorgente, prima che
l’esperimento sia condotto.
2. Seconda assunzione
Ad ogni possibile azione viene associato un costo
C00, C10, C11, C01, dove il primo pedice indica l’ipotesi
scelta e il secondo l’ipotesi vera.
Ogni volta che l’esperimento viene eseguito, si paga
un certo costo.
C
C   00
C11
C01 

C10 
Cij  0
• Vogliamo progettare la nostra regola di decisione in
modo tale che il costo medio sia minimizzato.
8
CRITERIO DI BAYES
• Per minimizzare il costo medio, scriviamo un’espressione
per il costo aspettato (rischio):
R  C00 P0 Pr decido H 0 | H 0 vera  
C10 P0 Pr decido H1 | H 0 vera  
C11P1 Pr decido H1 | H1 vera  
C01P1 Pr decido H 0 | H1 vera 
• Siccome abbiamo assunto che la regola di decisione
possa decidere per H0 o per H1, questa può essere vista
come una regola che divide lo spazio di osservazione Z
in due parti, Z0 e Z1:
Decido per Z0
pr|H 0 R | H 0 
R
Sorgente
pr|H1 R | H1 
R
Z0
Z0
Z1
dove:
p0  pr H0vera
Decido per Z1
p0 pr  dec.H0 / H0vera  pr dec.H0 / H0vera
9
CRITERIO DI BAYES
• Possiamo scrivere l’espressione per il rischio in
termini di probabilità di transizione e di regioni di
decisione:
R  C00 P0 Z pr|H 0 ( R | H 0 )dR 
0
C10 P0 Z pr|H 0 ( R | H 0 )dR 
1
C11P1 Z pr|H1 ( R | H1 )dR 
1
(1)
C01P1 Z pr|H1 ( R | H1 )dR
0
• Assumiamo che il costo relativo ad una decisione
sbagliata sia più alto del costo relativo ad una
decisione corretta(data la stessa Hi vera):
C10  C00
C01  C11
(2)
• Per trovare il test di Bayes dobbiamo scegliere
le regioni di decisione in modo tale che il rischio
sia minimizzato
• Siccome vogliamo che una decisione venga comunque
presa, occorre che lo spazio di osservazione Z sia
tale che:
Z  Z0  Z1  Z0  Z1
10
CRITERIO DI BAYES
• La (1) può essere riscritta nel seguente modo:
R  C00 P0 Z pr|H 0 ( R | H 0 )dR  C10 P0 Z  Z pr|H 0 ( R | H 0 )dR 
0
0
 C11P1 Z  Z pr|H1 ( R | H1 )dR  C01P1 Z pr|H1 ( R | H1 )dR
0
0
• Osserviamo che:
Z pr|H 0 ( R | H 0 )dR  Z pr|H1 ( R | H1 )dR  1

 R  C10 P0  C11P1  Z [ P1( C01  C11 ) pr|H1 ( R | H1 )] 
0
(3)
- [ P0 ( C10  C00 ) pr|H ( R | H 0 )] dR
0

• I primi due termini rappresentano il costo fissato se
decido H1 sempree l’ integrale rappresenta il costo
controllato da quei punti R che assegniamo a Zo.
• L’assunzione (2) implica che i due termini dentro le
parentesi tonde siano positivi.
 tutti i valori di R per cui il secondo termine è più
grande del primo dovrebbero essere inclusi in Zo
perché danno contributo negativo all’integranda;
 tutti i valori di R per cui il primo termine è più
grande del secondo dovrebbero essere esclusi da Zo
(assegnati a Z1).
11
CRITERIO DI BAYES
• Le regioni di decisione sono definite dalla seguente
relazione:
SE
P1( C01  C11 ) pr|H1 ( R | H1 )  P0 ( C10  C00 ) pr|H 0 ( R | H 0 )
(4)
 ASSEGNIAMO R A Z1, QUINDI SCELGO L’IPOTESI
H1 E’ VERA.
• La (4) può essere riscritta nel seguente modo:
pr|H1 ( R | H1 ) H1 P0 ( C10  C00 )

( R ) 

pr|H 0 ( R | H 0 )
P1( C01  C11 )
(5)
H0
• (R) è chiamato rapporto di verosimiglianza ed è una
variabile aleatoria.
• La quantità a destra della (5) è la soglia del test:
P0 ( C10  C00 )

P1( C01  C11 )
12
CRITERIO DI BAYES
OSSERVAZIONI
• Il criterio di Bayes può essere riscritto come segue:
H1

( R ) 
(6)
H0
• Tutta l’elaborazione è contenuta nel calcolo del
rapporto di verosimiglianza e non dipende dalle
probabilità a priori o dall’assegnazione dei costi.
• Siccome il logaritmo naturale è una funzione
monotona ed entrambi i termini della (6) sono positivi,
un test equivalente è il seguente:
H1
 ln
ln ( R ) 
(7)
H0
13
CRITERIO DI BAYES
Esempio 1
• Ipotesi H1 uscita della sorgente = tensione m
• Ipotesi H0 uscita della sorgente = tensione 0
• Prima dell’osservazione la tensione è corrotta da un
rumore additivo.
• Campioniamo la forma d’onda in uscita ogni secondo
e otteniamo N campioni.
• Ogni campione di rumore è una variabile aleatoria
2
Gaussiana a media nulla e varianza 
• I campioni di rumore sono indipendenti tra di loro e
sono indipendenti dall’uscita della sorgente.
14
CRITERIO DI BAYES
Esempio 1
• Le osservazioni sotto le due ipotesi sono:
e
H1 : ri  m  ni
i  1,2, ... , N
H0 : ri  ni
i  1,2, ... , N
 X2 
1

pni ( X ) 
exp 
 2 2 
2 


• La densità di probabilità dell’osservazione sotto le
due ipotesi risulta essere:
 ( R  m )2 
1

pri|H1 ( Ri | H1 ) 
exp  i

2 
2 2 

e
 R2 
1
pri|H 0 ( Ri | H 0 ) 
exp  i 
 2 2 
2 


15
CRITERIO DI BAYES
Esempio 1
• Siccome i campioni di rumore sono statisticamente
indipendenti, è possibile scrivere:
 ( R  m )2 
1

pr|H1 ( R | H1 )  
exp  i

2 2 
i 1 2 

N
e
 R2 
1
pr|H 0 ( R | H 0 )  
exp  i 
 2 2 
i 1 2 


N
• Il rapporto di verosimiglianza risulta essere:
 ( R  m )2 
1

exp  i

2


2

i 1 2 


N
( R ) 
 R2 
1
exp  i 

 2 2 
i 1 2 


N
m N
Nm2
 ln ( R ) 
 Ri 
2
 i 1
2 2
16
CRITERIO DI BAYES
Esempio 1
• Il test di verosimiglianza è:
H
m N
Nm2 1
ln
 Ri 
2
2 
 i 1
2 H
0
o, equivalentemente:
H1
2

Nm

ln 

 Ri 
N
i 1
H0
m
2
• Il processore semplicemente somma i campioni
osservati e confronta la somma con una soglia.
• L’operazione:
N
l( R )   Ri
i 1
è chiamata statistica sufficiente.
17
CRITERIO DI BAYES
Esempio 2
• L’osservazione consiste di un insieme di N valori:
r1 ,r2 , ... , rN
che sono indipendenti, identicamente distribuiti, con
distribuzione Gaussiana a media nulla.
• Sotto l’ipotesi H1, i campioni osservati hanno varianza
 2 e sotto l’ipotesi Ho  2
1
0
• Siccome le variabili sono indipendenti:
N
 R2 
1
pr|H1 ( R | H1 )  
exp  i 
 2 2 
i 1 2 1

1 
 R2 
pr|H 0 ( R | H 0 )  
exp  i 
 2 2 
i 1 2  0

0 
N
1
• Il test di verosimiglianza diventa:
H
 0 1
1  1
1  N 2

 Ri N ln
 ln
2
2


2   0 1 i 1
1
H0
18
CRITERIO DI BAYES
Esempio 2
• In questo caso la statistica sufficiente è data da:
N
l( R )   Ri2
i 1
• Un test equivalente per
è:
2 0212 
 02 

l( R ) 
ln  N ln

2
2
2
1 
H 0 1   0 
H1
2
2
• Per 1   0 si ha invece:

2 0212 
 02

l( R ) 
N ln
 ln   
2  2 
2



H1 0

1 
1
H0
19
CRITERIO DI BAYES
Caso particolare:
ricevitore a minima probabilità di errore
• Supponiamo che:
C00  C11  0
C01  C10  1
• La funzione di rischio (1) diventa:
R  P0 Z pr|H 0 ( R | H 0 )dR  P1 Z pr|H1 ( R | H1 )dR
1
0
• L’espressione (8) rappresenta la probabilità totale
di fare un errore, che viene perciò minimizzata.
• Il test di verosimiglianza è:
H1
 ln P0  ln P0  ln(1  P0 )
ln ( R ) 
P1
H0
• Quando le due ipotesi sono equiprobabili, la soglia
è nulla. Questa ipotesi è generalmente vera
nei sistemi di comunicazione digitale. Questo tipo di
criterio viene normalmente chiamato ricevitore a
minima probabilità di errore.
 H1
P0  R

 H 1   P0
  P1
P1  R

 H0  H0

  MAP
P1 P  R  P0 P  R

 H1  
 H0 
20
(8)
CRITERIO MINIMAX
• Il criterio minimax è un caso particolare del test di
Bayes in cui le probabilità a priori non sono note.
• Introduciamo le seguenti quantità, con analogia al
problema del radar, in cui l’ipotesi H1 corrisponde
alla presenza di un target, e l’ipotesi Ho corrisponde
alla sua assenza:
PF  Z pr|H 0 ( R | H 0 )dR
1
(9)
PD  Z pr|H1 ( R | H1 )dR
1
(10)
PM  Z pr|H1 ( R | H1 )dR  1  PD
0
(11)
• PF è la probabilità di falso allarme (il target è
rilevato quando in realtà non c’è);
• PM è la probabilità di mancato allarme (il target non è
rilevato quando in realtà c’è);
• PD è la probabilità di detection (il target è rilevato
correttamente).
21
CRITERIO MINIMAX
• La funzione di rischio (3) può essere riscritta nel
seguente modo:
R  P0C10  P1C11  P1( C01  C11 )PM 
 P0 ( C10  C00 )( 1  PF )
(12)
• Poiché P0  1  P,1è possibile scrivere:
R(P1 )  C00 ( 1  PF )  C10 PF 
(13)
 P1 [( C11  C00 )  ( C01  C11 )PM  ( C10  C00 )PF ]
• In figura è riportata la funzione di rischio Bayesiana
in funzione di P1; si può osservare come P1 cambia le
regioni di decisione e quindi le probabilità PF e PM.
22
CRITERIO MINIMAX
• Fissiamo P1=P1* e costruiamo il corrispondente test di
Bayes;
• Fissiamo la soglia e ora assumiamo che P1 possa
cambiare;
• Denotiamo il rischio per questa soglia fissata come:
R F ( P1* , P1 )
• Siccome la soglia è fissata, allora PF e PM sono fissate
e la (13) rappresenta una retta;
• Se vediamo come è definita la soglia , osserviamo che
questa cambia continuamente al variare di P1
 ogni volta che P1  P1,*la soglia nel test di Bayes
sarà differente.
• Siccome il test di Bayes minimizza il rischio, allora:
R F ( P1* , P1 )  R B ( P1 ) RF ( P1* , P1* )  RB ( P1* )
• Se  è una variabile aleatoria continua con funzione
di distribuzione probabilistica strettamente monotona,
allora cambiando  viene cambiato il rischio;
• RB ha concavità verso il basso;
*
P

P
1.
• RF è tangente a RB nel punto 1
• Queste curve dimostrano l’effetto della conoscenza
errata delle probabilità a priori.
23
CRITERIO MINIMAX
• Il criterio minimax minimizza il massimo rischio
 P1 è scelto in modo da massimizzare il rischio RF.
ESEMPIO 1
Il massimo di Rb si ha in
P1=0  per minimizzare
il massimo rischio usiamo
il test di Bayes con P1=0.
ESEMPIO 2
Il massimo di Rb si ha in
P1=1  per minimizzare
il massimo rischio usiamo
il test di Bayes con P1=1.
24
CRITERIO MINIMAX
ESEMPIO 3
 R 

( 1  P )

P1*
*
1
P1* 
P1*  ?
• Il massimo di RB cade nell’intervallo (0,1), quindi
scegliamo RF orizzontale. Questop implica che il
coefficiente di P1 nella (13) deve essere nullo
(equazione del minimax)  t1c1
( C11  C00 )  ( C01  C11 )PM  ( C10  C00 )PF  0
• Nel caso particolare in cui
C01  CM
indicando:
C11  C00 , 0
C10  CF
l’equazione del minimax è:
CM PM  C F PF
25
CRITERIO DI NEYMAN-PEARSON
• In molti casi reali è difficile assegnare costi
realistici o probabilità a priori;
• Una procedura semplice per evitare questo problema
è lavorare con le probabilità condizionali PF e PD;
• In generale, vogliamo minimizzare PF e massimizzare
PD;
• In molti casi pratici questi due obiettivi sono in
conflitto
 un criterio ovvio consiste nel limitare una delle
probabilità e massimizzare o minimizzare l’altra.
• Il criterio di Neyman-Pearson la probabilità di falso
allarme:
PF  '  
e progetta un test per massimizzare la probabilità
di detection (o minimizzare la probabilità di
mancato allarme), con questo vincolo.
26
CRITERIO DI NEYMAN-PEARSON
• La soluzione è facilmente ottenuta usando i
moltiplicatori di Lagrange.; costruiamo la funzione F:
F  PM   [ PF  ' ]
o
F  Z Pr|H1 ( R | H1 )dR   [ Z Pr|H 0 ( R | H 0 )dR  ' ]
0
1
 F  ( 1  ' )  Z [ Pr|H1 ( R | H1 )  Pr|H 0 ( R | H 0 )] dR
0
• Se PF  ', minimizzare F equivale a minimizzare PM.
• Per ogni valore positivo di , un rapporto di
verosimiglianza minimizzerà F, infatti per
minimizzare F noi assegniamo un punto R a Zo solo
quando il termine tra parentesi è negativo; questo
equivale al test:
Pr|H1 ( R | H1 )
Pr|H 0 ( R | H 0 )

 assegno il punto a Zo
 F è minimizzata dal test di verosimiglianza:
H0
( R )


H1

27
CRITERIO DI NEYMAN-PEARSON
• Per soddisfare il vincolo scegliamo  in modo tale che:
PF  '
• Se indichiamo la densità di probabilità di  quando
Ho è vera come:
P|H 0 (  | H 0 )
allora deve essere:

PF   P|H 0 (  | H 0 )d  '

(14)
• Risolvendo la (14), si ottiene la soglia 
• Osserviamo che diminuire  è equivalente ad
aumentare Z1, la regione in cui decidiamo per H1;
 PD aumenta al diminuire di 
 diminuiamo  finché non otteniamo il valore più
alto possibile '  
28
PERFORMANCES:
Receiver Operating Characteristic
• Per il test di Neyman-Pearson i valori di PF e PD
specifica completamente le prestazioni del test;
• Osservando l’equazione (12), vediamo che il rischio di
Bayes RB è dato, se sono note le probabilità PF e PD
 ci concentriamo sul calcolo di PF e PD
• Riprendiamo l’esempio 1, in cui il test di
verosimiglianza è rappresentato da:
H1
2

Nm

ln 
 Ri 
N
i 1
H0
m
2
• Equivalentemente, il test di verosimiglianza può
essere espresso dalla seguente espressione:
H1
1 N
  ln  N m
l
 Ri 
N i 1
Nm
2
H0
• Sotto l’ipotesi Ho, l è ottenuto aggiungendo N
variabili indipendenti con varianza  2e quindi
N
dividendo per
 l ha distribuzione Gaussiana normalizzata N(0,1)
29
PERFORMANCES:
Receiver Operating Characteristic
• Sotto l’ipotesi H1, l ha distribuzione Gaussiana
con media N m  e varianza 1.
• Le densità di probabilità di l sono mostrate nella
seguente figura, in cui è riportata anche la soglia
del test di verosimiglianza:
30
PERFORMANCES:
Receiver Operating Characteristic
• La probabilità di falso allarme PF è l’integrale di
Pl|H 0 ( L | H 0 )
a destra della soglia, cioè:
 x2 
1
PF 
exp  dx

 2 
(ln ) / d  d / 2 2



dove:
d
Nm

• d rappresenta la distanza tra i valori medi delle due
densità di probabilità.
• Introduciamo la seguente notazione:
Qx   erfc( X ) 


X
 x2 
exp  dx
 2 
2


1
(15)
 ln d 
 PF  erfc 
 
2
 d
31
PERFORMANCES:
Receiver Operating Characteristic
• Analogamente, la probabilità di detection PD è
l’integrale di:
Pl|H1 ( L | H1 )
a destra della soglia; dopo qualche calcolo elementare
si può ottenere che:
 ln d 
 PD  erfc 
 
2
 d
32
PERFORMANCES:
Receiver Operating Characteristic
• Nella seguente figura abbiamo tracciato PF per diversi
valori di d al variare di .
• Quando  = 0, ln  -, quindi il ricevitore decide
sempre per H1, quindi PF = 1 e PD = 1;
• quando  -, il decisore sceglie sempre H0, per
cui PF = 0 e PD = 0.
33
PERFORMANCES:
Receiver Operating Characteristic
• Come ci si aspetta dalle figure delle densità di
probabilità, le prestazioni crescono monotonicamente
con d.
• Le curve tracciate nel lucido precedente vengono
chiamate curve ROC (Receiver Operating
Characteristic);
• le curve ROC descrivono completamente le prestazioni
del test in funzione dei parametri di interesse.
• CASO PARTICOLARE: volgiamo minimizzare la
probabilità di errore totale:
Pr(  )  P0 PF  P1PM
• Quando P1 = Po la probabilità di errore totale è:
 1
  x2 
1
dx  erfc  d 
Pr(  )  ( PF  PM )  
exp
 2 
2
2
d / 2 2


34
PERFORMANCES:
Receiver Operating Characteristic
LIMITI DI ERFC*
• Il calcolo dei limiti della funzione erfc* ci permettono
di discutere analiticamente il suo comportamento
approssimato.
• Per X > 0, risolvendo l’integrale (15) per parti, si trova
che:
 X2
1 
1   X 2 
1

 erfc( X ) 
exp 
1 
 exp 
 2 
2 X  X 2   2 
2 X


• Un altro limite è, sempre per X > 0:
 X2
1

erfc( X )  exp 
 2 
2


35
PERFORMANCES:
Receiver Operating Characteristic
• La seguente figura mostra le 4 curve di interesse:
• Notiamo che erfc* decresce esponenzialmente.
36
PERFORMANCES:
Receiver Operating Characteristic
Esempio
Riprendiamo l’esempio 2 del test di Bayes in cui
avevamo ricavato che:
H1
2 2 
2
2




0 1  ln  N ln 0   
l( R )   Ri2
2
  2  2 

i 1
1
0
1 
H
N
1   0
0
• Il calcolo delle prestazioni per N arbitrario è molto
difficile. Consideriamo per semplicità il caso di N=2.
• Sotto l’ipotesi Ho, i valori ri sono variabili indipendenti
Gaussiane a media nulla e con varianza uguale a  02 :
PF  Pr( l   / H 0 )  Pr( r12  r22   / H 0 )
• Per valutare l’espressione sopra, consideriamo le
coordinate polari:
r1  z cos
r2  zsin
z  r12  r22
r
  tan1 2
r1
37
PERFORMANCES:
Receiver Operating Characteristic
Esempio
2
 Z2 
dZ
 Pr( z   / H 0 )   d  Z
exp 
2
 2 2 
0
 2 0


2

1
• Integrando rispetto a  otteniamo:
 Z2 
dZ
PF   Z
exp 
2
 2 2 
 0



1
• Osserviamo che la statistica sufficiente l è uguale
a z2. Facendo un cambiamento di variabili, otteniamo:
  
 L 

dL  exp 
PF  
exp 
2
 2 2 
 2 2 
 2 0

0
 1
(16)
• Analogamente si trova che:
  

PD  exp 
 2 2 

1 
(17)
38
PERFORMANCES:
Receiver Operating Characteristic
Esempio
• Per costruire le curve ROC, combiniamo le equazioni
(16) e (17) per eliminare la soglia :
 02
PD  ( PF )
12
• Applicando il il logaritmo naturale si ha::
ln PD 
 02
12
ln PF
• Come ci si poteva aspettare, le prestazioni aumentano
in modo monotono con il rapporto:
 12
 02
39
PERFORMANCES:
Receiver Operating Characteristic
Proprietà
• Riprendiamo l’espressione (14) della probabilità di
falso allarme e denotiamo la soglia con ; abbiamo che:

PF   p|H 0 ( X | H 0 )dX

• Se PF() è una funzione continua di , è possibile
raggiungere un valore desiderato compreso tra 0 e 1
per la probabilità di falso allarme, scegliendo
opportunamente ;
• Supponendo vera l’ipotesi precedente (test di
verosimiglianza continuo), è possibile ricavare
alcune propietà generali delle curve ROC.
PROPRIETA’ 1
Tutti i test di verosimiglianza continui hanno curve
ROC con concavità verso il basso.
Se così non fosse, allora sarebbe meglio usare un test
discreto, e questo è in contraddizione con l’ottimalità
del test di verosimiglianza.
40
PERFORMANCES:
Receiver Operating Characteristic
Proprietà
PROPRIETA’ 2
Tutti i test di verosimiglianza continui hanno curve
ROC che stanno sopra la retta PF = PD.
Questo è un caso particolare della proprietà 1, perché
tutte le curve ROC contengono i punti (PF = 0, PD = 0) e
(PF = 1, PD = 1).
PROPRIETA’ 3
La pendenza in ogni punto delle curve ROC è uguale al
valore della soglia  richiesta per raggiungere le
probabilità PF e PD in quel punto.
Dim.

PD   p|H1 (  | H1 )d


PF   p|H 0 (  | H 0 )d

41
PERFORMANCES:
Receiver Operating Characteristic
Proprietà
Differenziando rispetto a  e facendo il rapporto
tra le due equazioni si ottiene:
dPD / d  p|H 1 (  | H1 ) dPD


dPF / d  p|H 0 (  | H0 ) dPF
(18)
Dobbiamo dimostrare che:
p|H 1 (  | H 1 )
p|H 0 (  | H 0 )

Poniamo:
 p|H (  | H 1 )

1
 (  )  R | ( R )     R
 
 p|H 0 (  | H 0 )

Quindi:
PD (  )  Pr ( R )   / H1 
 pr|H1 ( R | H1 )dR 
(  )
  ( R ) pr|H 0 ( R | H 0 )dR
(  )
L’ultima uguaglianza segue dalla definizione del
rapporto di verosimiglianza.
42
PERFORMANCES:
Receiver Operating Characteristic
Proprietà
Usando la definizione di (), l’ultimo integrale può
essere riscritto nel seguente modo:
E R  / H 0 in  

PD (  )   ( R ) pr|H 0 ( R | H 0 )dR    p|H 0 (  | H 0 )d 
 ( )

Differenziando rispetto a  otteniamo:
dPD
 p|H 0 (  | H 0 )
d
Tenendo conto dell’equazione (18) possiamo ottenere
il risultato desiderato.
PROPRIETA’ 4
Ogni volta che il massimo valore del rischio di Bayes è
interno all’intervallo (0,1) sull’asse P1, il punto del
minimax è dato dall’intersezione tra la curva ROC
appropriata e la retta
( C11  C00 )  ( C01  C11 )( 1  PD )  ( C10  C00 )PF  0
43
PERFORMANCES:
Receiver Operating Characteristic
Proprietà
Nella figura seguente, osserviamo il caso speciale
del minimax definito dalla seguente espressione:
C F PF  CM PM  CM ( 1  PD )
Osserviamo che la retta del minimax parte dal punto
(PF = 0, PD = 1) e interseca la linea PF = 1 nel punto:
CF
PF  1 
CM
44
M-IPOTESI
• Generalizziamo i concetti della teoria della decisione
al caso in cui noi dobbiamo scegliere una tra M ipotesi
possibili.
• Abbiamo una sorgente che genera M uscite;
• assumiamo di dovere fare comunque una scelta, quindi
ci sono M2 possibili alternative che possono
verificarsi ogni volta che l’esperimento viene eseguito;
• il criterio di Bayes assegna un costo ad ognuna di
queste alternative, assume un insieme di probabilità a
priori, P0, P1, … PM e minimizza il rischio;
• la generalizzazione di Neyman-Pearson è possibile,
ma in pratica viene poco usata, quindi vediamo solo
il caso del test di Bayes.
45
M-IPOTESI
• Indichiamo i costi con la notazione Cij, analogamente
al caso binario;
• Il modello è mostrato nella seguente figura:
Ho
Zo
Zo
Sorgente
Zo
Z1
HM-1
ZM-1
• L’espressione per il rischio è:
M 1 M 1
R  
 Pj Cij  pr|H j ( R | H j )dR
i 0 j 0
Zi
• Il minimo rischio viene determinato facendo variare
Zi (equivalent a def. La regola di decisione).
 i  Z j   i  j
M 1
    i  spazio osservaz
i 0
46
M-IPOTESI
=3
ESEMPIO:
• Si ha che:
Z0=Z – Z1 - Z2
perché le regioni sono disgiunte e coprono tutto Z
• Facendo qualche calcolo si ottiene:
Ci
j
 C ji
j ,i  j
R  P0C00  P1C11  P2C22 
  [ P2 ( C02  C22 ) pr|H 2 ( R | H 2 ) 
Z0
 P1( C01  C11 ) pr|H1 ( R | H1 )] dR 
  [ P0 ( C10  C00 ) pr|H 0 ( R | H 0 ) 
Z1
(19)
 P2 ( C12  C22 ) pr|H 2 ( R | H 2 )dR 
  [ P0 ( C20  C00 ) pr|H 0 ( R | H 0 ) 
Z2
 P1( C21  C11 ) pr|H1 ( R | H1 )dR 
47
M-IPOTESI
• Indicando le funzioni integrande con I0(R), I1(R) e
I2(R), abbiamo la seguente regola di decisione :
I 1(R  ) 
i ,R
se I0(R )  I1(R ) e I 2(R )  scelgo H0
se I 1(R)  I 0(R) e I 2(R)  scelgo H 1  1 
se I 2(R)  I0(R) e I1(R)  scelgo H 2
 2 
• Questi termini possono essere scritti in termini di
rapporti di verosimiglianza definendo:
1(R) 
 2(R) 
pr|H1 ( R | H1 )
pr|H 0 ( R | H 0 )
(20)
pr|H 2 ( R | H 2 )
pr|H 0 ( R | H 0 )
(In generale M-1 rapporti di verosimiglianza)
48
M-IPOTESI
• Usando le espressioni (19) e (20), si ottiene:
P1(C01  C11 )1(R)
H1 or H 2


P0(C10  C00 )  P2(C12  C02 ) 2(R)
H 0 or H 2
P2(C02  C22 ) 2(R)
H 2 or H1


P0(C20  C00 )  P1(C21  C01 )1(R)
H 0 or H1
P2(C12  C22 ) 2(R)
H 2 or H1


P0(C20  C10 )  P1(C21  C11 )1(R)
H 0 or H1
• Le regole di decisione corrispondono a tre linee nel
piano 1, 2 (in generale,
H 0 1 , M 1 ,quindi spazio(M  1 )  dim
 i sono def . in 
2
0
1
49