caricato da Michele Zotti

Teoria Bayesiana della Decisione: Elementi e Applicazioni

Elementi di teoria
bayesiana della
decisione
Teoria bayesiana della decisione
Classificazione cost-sensitive
Regola di rigetto
La curva ROC
Teoria bayesiana della
decisione: caratteristiche
La teoria bayesiana della decisione è un approccio
statistico fondamentale al problema del pattern
recognition.
Il suo obiettivo è quello di confrontare
quantitativamente diverse decisioni di
classificazione utilizzando le probabilità ed i costi
cha accompagnano tali decisioni.
Assunzioni fondamentali:
il problema della decisione è posto in termini
probabilistici
sono noti i valori di tutte le probabilità rilevanti per il
problema
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
1
F. Tortorella © 2009
Università degli Studi
di Cassino
Fondamenti
Consideriamo un problema a C classi, con etichette
ωj con j=1,2,…,C.
Etichettiamo con αi i=1,2,…,a le decisioni che è
possibile prendere.
Supponiamo di conoscere la probabilità P(ωj) che un
campione appartenga ad una certa classe
(probabilità a priori).
Conosciamo inoltre la funzione di costo (loss
function) λ(αi| ωj) che descrive il costo indotto
dall’aver preso la decisione αi quando il campione
appartiene alla classe ωj.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
2
F. Tortorella © 2009
Università degli Studi
di Cassino
Se non avessimo altre informazioni, la regola
di decisione sarebbe basata interamente
sulle P(ωj).
Supponiamo, invece, di poter utilizzare un
feature vector N-dimensionale x che, in
questo ambito, è formalizzabile come una
variabile aleatoria N-dimensionale.
Conosciamo inoltre la funzione di densità di
probabilità condizionata alla classe p(x| ωj).
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
3
F. Tortorella © 2009
Università degli Studi
di Cassino
Un esempio di densità di probabilità condizionate alle classi
con C=2.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
4
F. Tortorella © 2009
Università degli Studi
di Cassino
Teorema di Bayes
A partire dalle conoscenze descritte,
vorremmo stabilire quale sia la probabilità
P(ωj|x) (probabilità a posteriori )che il
campione descritto da un feature vector x
appartenga alla classe ωj.
E’ possibile ottenere questa informazione
grazie al teorema di Bayes per cui:
P(ω j x ) =
p( x ω j ) ⋅ P(ω j )
p(x)
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
5
C
dove p(x) = ∑ p( x ω j ) ⋅ P(ω j )
j =1
F. Tortorella © 2009
Università degli Studi
di Cassino
Teorema di Bayes
Grazie al teorema di Bayes, è
possibile risalire alla
probabilità che il feature vector
osservato x sia stato prodotto
da un campione appartenente
alla classe ωj (prob. a
posteriori) a partire dalla
probabilità a priori P(ωj) e dalle
verosimiglianze p(x| ωj).
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
6
Rev. Thomas Bayes
b. 1702, London
d. 1761, Tunbridge Wells,
Kent
F. Tortorella © 2009
Università degli Studi
di Cassino
Teorema di Bayes
Possiamo esprimere informalmente la
formula di Bayes come:
Prob. a posteriori=(prob. a priori) x verosimiglianza
evidenza
In questo modo è chiaro come la conoscenza del
valore (misura) x influisce sul nostro giudizio a
proposito dello stato di natura
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
7
F. Tortorella © 2009
Università degli Studi
di Cassino
Le probabilità a posteriori relative alle due classi viste prima,
assumendo P(ω1)=2/3 e P(ω2)=1/3 .
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
8
F. Tortorella © 2009
Università degli Studi
di Cassino
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
9
F. Tortorella © 2009
Università degli Studi
di Cassino
Decisione
La decisione tende naturalmente verso la
classe cui compete la probabilità a posteriori
maggiore:
Decidi ω1 se P(ω1|x) > P(ω2|x)
altrimenti decidi ω2
Questa regola di fatto minimizza la probabilità
di errore:
P(errore|x)=min{P(ω1|x) , P(ω2|x)}
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
10
F. Tortorella © 2009
Università degli Studi
di Cassino
Decisione
Da un punto di vista operativo, l’evidenza non entra
in gioco nella decisione che può quindi ridursi a:
Decidi ω1 se p(x|ω1)P(ω1) > p(x|ω2)P(ω2)
altrimenti decidi ω2
Situazioni particolari:
se p(x|ω1) = p(x|ω2) l’osservazione del valore x non
fornisce informazioni riguardo lo stato di natura ulteriori
rispetto alle prob. a priori
se P(ω1) = P(ω2) la decisione tiene conto solo della
verosimiglianza
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
11
F. Tortorella © 2009
Università degli Studi
di Cassino
Il costo atteso
A fronte dell’osservazione di un f.v. x, qual è
il costo che dobbiamo aspettarci nel caso
prendiamo una decisione αi ?
Tale costo (che va sotto il nome di rischio
condizionale, conditional risk) viene valutato
come:
C
R(αi x ) = ∑ λ(αi ω j ) ⋅ P(ω j x )
j=1
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
12
F. Tortorella © 2009
Università degli Studi
di Cassino
La regola di decisione
Una regola di decisione è una funzione α(x)
che indica quale azione intraprendere per
ogni possibile valore di x osservato.
In questo contesto, la regola di decisione
ottima è quella per cui si ha il minimo rischio
condizionale:
α(x) = argmin R(αi x )
1≤ j≤C
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
13
F. Tortorella © 2009
Università degli Studi
di Cassino
Regioni di decisione
La regola di
decisione induce
nello spazio delle
fatures un insieme
di regioni di
decisione.
R1
R2
R3
x∈Ri ⇔ α(x) = αi
R1
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
14
F. Tortorella © 2009
Università degli Studi
di Cassino
Problemi a due classi
Nel caso particolare di problemi a due classi,
indichiamo con αi la decisione per la classe
ωi con i=1,2.
Definiamo λij= λ(αi|ωj ). I rischi condizionali
sono:
R(α1|x)= λ11P(ω1|x)+ λ12P(ω2|x)
R(α2|x)= λ21P(ω1|x)+ λ22P(ω2|x)
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
15
F. Tortorella © 2009
Università degli Studi
di Cassino
Problemi a due classi
Scegliamo ω1 se R(α1|x) < R(α2|x), cioè se:
λ11P(ω1|x)+ λ12P(ω2|x) < λ21P(ω1|x)+ λ22P(ω2|x)
che equivale a:
(λ11-λ21)P(ω1|x) < (λ22-λ12)P(ω2|x)
Essendo (λ11-λ21)<0 e (λ22-λ12)<0, possiamo
moltiplicare i due membri per -1 e cambiare verso
alla disequazione:
(λ21-λ11)P(ω1|x) > (λ12-λ22)P(ω2|x)
ω
da cui:
P(ω x )
> λ12 − λ22
P(ω2 x ) ω< λ21 − λ11
1
1
2
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
16
F. Tortorella © 2009
Università degli Studi
di Cassino
Problemi a due classi
Ricordando il teorema di Bayes, la
condizione si può scrivere:
ω1
p( x ω1 ) > λ12 − λ22 P(ω 2 )
p( x ω2 ) ω< λ21 − λ11 P(ω1 )
2
dove il membro di sinistra si definisce
rapporto di verosimiglianza (likelihood ratio)
Test del rapporto di verosimiglianza
Likelihood Ratio Test (LRT)
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
17
F. Tortorella © 2009
Università degli Studi
di Cassino
Problemi a due classi
non cost-sensitive
Nel caso di classificazione non cost-sensitive
la decisione deve minimizzare il numero di
errori.
Questo caso ricade nel precedente a patto di
porre λ21=λ12=1 e λ11=λ22=0 (zero-one loss).
La condizione diventa quindi:
ω1
p( x ω1 ) > P(ω 2 )
p( x ω2 ) ω< P(ω1 )
2
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
18
F. Tortorella © 2009
Università degli Studi
di Cassino
Problemi a due classi
cost-sensitive
con λ21>λ12
0-1 loss
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
19
F. Tortorella © 2009
Università degli Studi
di Cassino
Probabilità minima di errore
E’ importante valutare quale sia la minima
probabilità di errore, che fornisce il miglior
risultato raggiungibile.
Consideriamo il problema a due classi.
Indichiamo con X un generico campione e
con x il f.v. corrispondente.
Siano inoltre R1 e R2 le due regioni di
decisione e T=R1∪R2 il dominio di x.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
20
F. Tortorella © 2009
Università degli Studi
di Cassino
Probabilità minima di errore
Problemi a due classi
Per una regola di decisione che genera le
due regioni di decisione R1 e R2 la probabilità
di errore è:
Pe = p(x ∈ R 2 , X ∈ ω1 ) + p(x ∈ R1, X ∈ ω 2 ) =
= p(x ∈ R 2 | ω1 )P(ω1 ) + p(x ∈ R1 | ω 2 )P(ω 2 ) =
= ∫ p(x | ω1 )dx ⋅P(ω1 ) + ∫ p(x | ω2 )dx ⋅P(ω2 ) =
R2
R1
= ∫ p(x | ω1 )P(ω1 )dx + ∫ p(x | ω2 )P(ω2 )dx
Rdi
Teoria e Tecniche
2 Pattern Recognition
Elementi di teoria della decisione
21
R1
F. Tortorella © 2009
Università degli Studi
di Cassino
Probabilità minima di errore
Problemi a due classi
La probabilità di errore è limitata
inferiormente:
Pe = ∫ p(x | ω1 )P(ω1 )dx + ∫ p(x | ω2 )P(ω 2 )dx ≥
R2
R1
≥ ∫ min{p(x | ω1 )P(ω1 ),p(x | ω2 )P(ω2 )}dx
T
La probabilità minima di errore è quindi:
Pe* = ∫ min{p(x | ω1 )P(ω1 ), p(x | ω2 )P(ω 2 )}dx
T
Quando viene ottenutaF. Tortorella
? © 2009
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
22
Università degli Studi
di Cassino
Ottimalità del classificatore
bayesiano
La probabilità di errore minima viene
raggiunta con la regola di decisione
bayesiana α(x) = argmax{P(ω1|x), P(ω2|x) }.
Di conseguenza, nei problemi a due classi, il
classificatore costruito con questa regola
(classificatore bayesiano) è il classificatore
ottimo.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
23
F. Tortorella © 2009
Università degli Studi
di Cassino
Probabilità minima di errore
Problemi a due classi
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
24
F. Tortorella © 2009
Università degli Studi
di Cassino
Probabilità minima di errore
Problemi multiclasse
In maniera analoga si può calcolare la
minima probabilità di errore per problemi a C
classi:
C
Pe = 1− P(correct) = 1− ∑ ∫ p(x | ωi )P(ωi )dx
i=1 Ri
Siccome :
C
∑ ∫ p(x | ω )P(ω )dx ≤ ∫ max{p(x | ω )P(ω )}dx
i
i=1 Ri
i
T
1≤i≤C
i
i
P = 1− ∫ max{p(x | ωi )P(ωi )}dxF. Tortorella © 2009
*
e
1≤i≤C
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
T
25
Università degli Studi
di Cassino
Ottimalità del classificatore
bayesiano
La probabilità di errore minima viene
raggiunta con la regola di decisione
bayesiana α(x) = argmax {P(ωi|x)}.
Di conseguenza, anche nei problemi
multiclasse, il classificatore bayesiano risulta
il classificatore ottimo.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
26
F. Tortorella © 2009
Università degli Studi
di Cassino
Altri criteri di decisione per
problemi a due classi
Abbiamo visto che, nel caso abbiamo una
conoscenza completa del problema
(probabilità a priori, costi), il likelihood ratio
test è il criterio di decisione ottimale in quanto
minimizza il rischio condizionale.
Altri criteri:
Criterio Minimax
Criterio di Neyman-Pearson
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
27
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
In alcune circostanze, potrebbe essere necessario
progettare un sistema di riconoscimento che debba
garantire buone prestazioni non per un valore
determinato delle probabilità a priori, ma su un
intervallo di valori possibili.
Esempi:
Non conosciamo esattamente la prob. a priori, ma
sappiamo che varia in un certo intervallo.
Durante la fase operativa del sistema, le prob. a priori
possono cambiare in modo impredicibile.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
28
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
In questo caso, un approccio ragionevole è
quello di progettare il classificatore in modo
da minimizzare i danni nel caso peggiore
(worst case).
Ciò equivale a minimizzare il valore massimo
del rischio al variare delle probabilità a priori.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
29
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
Consideriamo le regioni di decisione R1 ed R2
indotte da un criterio di decisione. Il rischio
relativo è:
R=
∫ [λ
P p (x ω1 ) + λ12 P2 p (x ω2 )]dx +
11 1
R1
dove
∫ [λ
P p (x ω1 ) + λ22 P2 p (x ω2 )]dx
21 1
R2
P1 = P(ω1 ) P2 = P(ω2 )
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
30
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
Considerando che ∫ p(x ω1 )dx = 1 − ∫ p(x ω1 )dx
R
R
otteniamo:
1
2
R(P1 ) = λ22 + (λ12 − λ22 )∫ p (x ω2 )dx +
R1


+ P1 (λ11 − λ22 ) + (λ21 − λ11 ) ∫ p (x ω1 )dx − (λ12 − λ22 ) ∫ p (x ω2 )dx 


R2
R1
Una volta stabilite le regioni di decisione, il
rischio è una funzione lineare di P1. Che cosa
significa ?
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
31
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
Rischio
Fissata P1, è definito il rischio condizionale complessivo.
Che cosa succede se P1cambia?
λ11
λ22
0.0
P1
1.0
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
32
P1
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
Rischio
λ22
Per alcuni valori di P1, il rischio
condizionale complessivo assume valori
inaccettabili.
λ11
0.0
P1
1.0
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
33
P1
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
Per limitare il massimo rischio ottenibile, si
sceglie un punto di lavoro tale che, al variare
di P1, il rischio non si modifichi.
Tale punto coincide con il punto di max del
rischio al variare di P1.
Di conseguenza, si sceglie il valore di P1 che
massimizza il rischio condizionale
complessivo.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
34
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
Rischio
λ11
λ22
Pmm
0.0
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
35
1.0
P1
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
In questo caso, il rischio diventa:
R(P1 ) = λ22 + (λ12 − λ22 ) ∫ p (x ω2 )dx =
R1
Si ottiene per:
λ11 + (λ21 − λ11 ) ∫ p(x ω1 )dx
R2
(λ11 − λ22 ) + (λ21 − λ11 ) ∫ p(x ω1 )dx − (λ12 − λ22 )∫ p(x ω2 )dx = 0
R2
R1
e, nel caso λ11=λ22
(λ21 − λ11 ) ∫ p(x ω1 )dx = (λ12 − λ22 )∫ p(x ω2 )dx
R2
R1
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
36
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio di Neyman-Pearson
R=
Ricordiamo che il criterio di Bayes minimizza
il rischio condizionale R
∫ [λ
P p (x ω1 ) + λ12 P2 p (x ω2 )]dx +
11 1
R1
∫ [λ
P p (x ω1 ) + λ22 P2 p (x ω2 )]dx
21 1
R2
che può scriversi:
R = λ11 P1δ1 + λ12 P2ε 2 + λ21 P1ε 1 + λ22 P2δ 2
dove:
δ1 = ∫ p(x ω1 )dx
R1
R2
ε 1 = ∫ p(x ω1 )dx
R2
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
δ 2 = ∫ p ( x ω 2 ) dx
37
ε 2 = ∫ p(x ω2 )dx
R1
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio di Neyman-Pearson
Mentre il criterio di Bayes ottimizza il rischio
condizionale complessivo, si potrebbe avere
l’esigenza di limitare la probabilità di errore
all’interno di una classe.
Esempio: è necessario che la probabilità di
errore sui campioni della classe ω2 sia minore
di α e che sia la minima possibile su ω1.
In altri termini, ε2<α e ε1 min!
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
38
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio di Neyman-Pearson
Utilizzando i moltiplicatori di Lagrange
possiamo scrivere la funzione obiettivo da
minimizzare come:


F = ε 1 + λ (ε 2 − α ) = ∫ p (x ω1 )dx + λ  ∫ p (x ω2 )dx − α 


R
R

Da notare:
2
1
Non sono presenti le probabilità a priori ed i costi
Le regioni di decisione sono da definire (soluzione
del problema di minimizzazione)
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
39
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio di Neyman-Pearson
La funzione obiettivo si può scrivere:
Per minimizzare la f.o. occorre minimizzare
l’integrale e ciò si ottiene rendendo definitivamente
negativo l’integrando, cioè:



F = ∫ p(x ω1 )dx + λ 1 − ∫ p (x ω2 )dx − α  = λ (1 − α ) + ∫ [ p (x ω1 ) − λp (x ω2 )]dx
 R

R2
R2
2


{
}
R2 = x p (x ω1 ) − λp (x ω2 ) < 0
che significa definire il criterio di decisione:
p (x ω1 ) >1
λ
<
p (x ω2 )
ω
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
40
ω2
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio di Neyman-Pearson
Il criterio ottenuto è basato sul confronto tra
likelihood ratio ed una soglia (simile al criterio
di Bayes)
Come otteniamo il valore della soglia λ ?
Imponendo che sia soddisfatto il vincolo
sull’errore.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
41
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio di Neyman-Pearson
Di fatto, bisogna scegliere λ in modo che
ε2=α’ <α
Come è possibile esprimere l’errore?
Consideriamo il LR Λ(x) come una v.a., in
quanto è una funzione della variabile
aleatoria x.
Consideriamo la pdf di Λ condizionata alla
classe ω2
p (Λ ω2 ) = p (Λ (x) x ∈ ω2 )
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
42
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio di Neyman-Pearson
In questo modo, l’errore è definibile come:
ε2 =
+∞
∫λ p(Λ ω )dΛ = α ′
2
Purtroppo una soluzione analitica non è
sempre possibile. Di solito, si cerca una
soluzione sperimentale o numerica.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
43
F. Tortorella © 2009
Università degli Studi
di Cassino
Classificazione con rigetto
Nella classificazione cost-sensitive, ci
possono essere casi in cui il costo di un
errore è così elevato che è conveniente
astenersi dal fornire una risposta piuttosto
che rischiare un errore.
In questi casi, alle decisioni possibili si
aggiunge la “decisione di non decidere”, detta
anche rigetto.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
44
F. Tortorella © 2009
Università degli Studi
di Cassino
Regola di decisione con
rigetto
La regola di decisione viene ampliata per
considerare il nuovo tipo di decisione (regola
di decisione con rigetto).
Le condizioni per le quali viene sospesa la
decisione vanno sotto il nome di regola di
rigetto (reject rule).
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
45
F. Tortorella © 2009
Università degli Studi
di Cassino
Classificazione con rigetto
Per il classificatore bayesiano, la probabilità
di errore su un campione x è
Pe(x) = 1-max{P(ωi|x)}.
Supponiamo di non voler procedere alla
classificazione se la Pe supera una soglia t
(Pe massima tollerabile).
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
46
F. Tortorella © 2009
Università degli Studi
di Cassino
Regola di decisione con rigetto
per il classificatore bayesiano
La regola di decisione diventa quindi:
ωi
se P(ωi|x) > P(ωj|x) ∀i≠j and
P(ωi|x) > 1-t
‘rigetto’
altrimenti
α(x) =
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
47
F. Tortorella © 2009
Università degli Studi
di Cassino
Regioni di rigetto
1-t=0.6
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
48
F. Tortorella © 2009
Università degli Studi
di Cassino
Curva error/reject
Al variare di t variano la probabilità di errore e la probabilità di rigetto
secondo una curva che si definisce curva error/reject
Pe
t=1
t=0
1
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
49
Pr
F. Tortorella © 2009
Università degli Studi
di Cassino
Classificazione con rigetto
Anche il rigetto avrà un suo costo (inferiore a
quello di un errore).
Assumiamo una funzione di costo del tipo:
c se i=j
λij=
e se i≠j
r se i=‘rigetto’
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
50
F. Tortorella © 2009
Università degli Studi
di Cassino
Classificazione con rigetto
Il rischio condizionale diventa:
R(α|x) =
r se α =‘rigetto’
c P(ωi|x) +e (1- P(ωi|x)) se α=ωi
Quindi la regola di decisione diventa:
ωi
se P(ωi|x) > P(ωj|x) ∀i≠j and
P(ωi|x) > (e-r)/(e-c)
‘rigetto’
altrimenti Regola di Chow
α(x) =
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
51
F. Tortorella © 2009
Università degli Studi
di Cassino
Classificazione con rigetto:
problemi a due classi
Consideriamo un problema a due classi costsensitive con costi non uniformi ed opzione di
rigetto.
Come si particolarizza il criterio di decisione ?
Partiamo dal criterio generale definito in base
ai rischi condizionali:
R(α 0 ) = λ0
R(α1 ) = λ11 P (ω1 x) + λ12 P (ω2 x)
R(α ) = λ P(ω1 x) + λ22 P (ω2 x)
2 Recognition
21
Teoria e Tecniche di Pattern
Elementi di teoria della decisione
52
F. Tortorella © 2009
Università degli Studi
di Cassino
Classificazione con rigetto:
problemi a due classi
La condizione per decidere l’assegnazione
alla classe ω1 è R(α1 ) = min{R(α1 ), R(α 2 )} e
R(α1 ) ≤ R (α 0 ) da cui:
p (x ω1 ) λ12 − λ0 P2
≥
p (x ω2 ) λ0 − λ11 P1
Analogamente per l’assegnazione alla classe
ω 2:
p (x ω1 ) λ0 − λ22 P2
≤
p (x ω2 ) λ21 − λ0 P1
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
53
© 2009
(Tortorella
α1 ),degli
R
(Studi
α 2 )}
con R (α 2 ) = min{RF.Università
di Cassino
Classificazione con rigetto:
problemi a due classi
Infine, la condizione per il rigetto è:
λ0 − λ22 P2 p (x ω1 ) λ12 − λ0 P2
<
<
λ21 − λ0 P1 p(x ω2 ) λ0 − λ11 P1
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
54
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni discriminanti
Una rappresentazione utile dei classificatori è
in termini di un insieme di funzioni
discriminanti gi(x) i=1,…,C.
Un campione con f.v. x viene assegnato alla
classe ωi se gi(x) > gj(x) j≠i.
In questo modo, un classificatore è visto
come un sistema che calcola C funzioni
discriminanti e che sceglie la classe con il
valore più ampio.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
55
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni discriminanti
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
56
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni discriminanti
Un classificatore bayesiano può essere facilmente
rappresentato in termini di funzioni discriminanti ed in
diversi modi.
Caso generale: gi(x) = -R(αi|x)
Non cost-sensitive: gi(x) = P(ωi|x)
In generale, la scelta delle funzioni discriminanti non
è unica. Può essere usata ogni funzione monotona di
P(ωi|x):
gi(x) = p(x|ωi) P(ωi)
gi(x) = ln P(ωi|x)= ln p(x|ωi) + ln P(ωi)
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
57
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni discriminanti
Le funzioni discriminanti definiscono
immediatamente le regioni di decisione:
{
Ri (x ) = x g i (x ) > g j (x ) ∀j ≠ i
}
La frontiera di decisione tra due classi ωi e ωj
è definita come:
{
Γij (x ) = x g i (x ) = g j (x ) j ≠ i
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
58
}
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni discriminanti
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
59
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni discriminanti per
classificatori a due classi
Per il classificatore a due classi (dichotomizer)
è consueto definire un’unica funzione
discriminante:
ω1
g(x) ≡ g1 (x) − g 2 (x) > 0
<
ω2
In tal modo, la decisione avviene in base al
segno della g(x)
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
60
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni discriminanti per
classificatori a due classi
Sono possibili diverse definizioni :
g(x) = P(ω1 x ) − P(ω2 x )
p( x ω1 )
P(ω1 )
g(x) = ln
+ ln
p( x ω2 )
P(ω2 )
Non
cost-sensitive
λ21 − λ11
P(ω1 )
g(x) = ln
+ ln
+ ln
λ12 − λ22
p( x ω2 )
P(ω2 )cost-sensitive
p( x ω1 )
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
61
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni di densità normali
Un caso notevole è dato dalle funzioni di
densità gaussiane (o normali).
La ragione per questa particolarità è legata al
fatto che la densità gaussiana è un modello
appropriato in situazioni in cui il f.v. x per la
classe ωi è una versione rumorosa di un
prototipo µi.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
62
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni di densità normali
Nel caso di f.v. a d dimensioni, le densità
sono definite come:
 1

T −1
p(x|ωi ) = Ai exp − (x − µ i ) Σ i (x − µ i )
 2

Ai =
µ i = E [x|ωi ]
1
( 2π)
d/ 2
Σi
1/ 2
Vettore delle medie
[
Σ i = E (x-µ i )(x-µ i )T|ωi
Matrice di covarianza
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
63
F. Tortorella © 2009
Università degli Studi
di Cassino
]
Funzioni di densità normali
Consideriamo i singoli componenti di µ e Σ.
Se il f.v. è x = ( x1 , x2 ,..., xd ) possiamo scrivere
il vettore delle medie come:
µ = (µ1 , µ 2 ,..., µ d )
dove:
µi = E [xi ]
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
64
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni di densità normali
Analogamente per la matrice di covarianza:
σ 11 σ 12
σ 21 σ 22
Σ=


σ d 1 σ d 2
[
σ 1d 
σ 2d 



σ dd 
]
σ ij = E (xi − µi )(x j − µ j )
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
65
F. Tortorella © 2009
Università degli Studi
di Cassino
Proprietà della matrice di
covarianza
Matrice simmetrica: σ ij = σ ji
Gli elementi sulla diagonale sono le varianze delle
componenti: σ ii = σ i2
Gli elementi fuori dalla diagonale sono le covarianze
delle componenti e σ ij ≤ σ iσ j
Se xi e xj tendono a crescere insieme, allora σij>0.
Se xi tende a crescere quando xj tende a
decrescere, allora σij<0.
Se xi e xj sono statisticamente indipendenti, allora
σij=0.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
66
F. Tortorella © 2009
Università degli Studi
di Cassino
Proprietà della matrice di
covarianza
xj
xj
xj
σ ij = −σ iσ j
xi
xi
σ ij < 0 σ ij < σ iσ j
xj
σ ij = 0
xi
xj
σ ij > 0 σ ij < σ iσ j
σ ij = σ iσ j
xi
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
67
xi
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni di densità normali
I campioni estratti da una popolazione con
pdf normale tendono a disporsi in una singola
“nuvola”.
Il centro della regione è definito dal vettore
delle medie, mentre la forma della regione è
determinata dalla matrice di covarianza.
I punti che hanno lo stesso valore per la pdf
appartengono a curve su cui il termine
1
(x − µ i )T Σ i−1(x − µ i ) è costante.
2
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
68
F. Tortorella © 2009
Università degli Studi
di Cassino
Funzioni di densità normali
d=2
1
T −1
(
x
−
µ
)
Σ i (x − µ i )
i
Il termine 2
viene spesso indicato
come quadrato della
distanza di
Mahalanobis
p(x|ωi) costante
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
69
F. Tortorella © 2009
Università degli Studi
di Cassino
Classificatore bayesiano con
densità normali
Nel caso di classificazione non cost-sensitive,
le funzioni discriminanti possono essere poste:
g i (x) = ln p (x ωi ) + ln P (ωi )
Se le densità sono normali:
d
1
1
T −1
gi(x) = − (x − µi ) Σi (x − µi )- ln Σi − ln 2π + ln P(ωi )
2
2
2
In generale, il classificatore ottimale è un
classificatore quadratico.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
70
F. Tortorella © 2009
Università degli Studi
di Cassino
1
1
d
gi(x) = − (x − µi )T Σi−1(x − µi )- ln Σi − ln 2π + ln P(ωi ) =
2
2
2
1
1
d
= − xT Σi−1x + µiT Σi−1µi − µiT Σi−1x − xT Σi−1µi - ln Σi − ln 2π + ln P(ωi ) =
2
2
2
[
]
= µiT Σi−1x = xT Σi−1µi perchè è uno scalare
−
=
[
]
d
1 T −1
1
x Σi x + µiT Σi−1µi − 2µiT Σi−1x - ln Σi − ln 2π + ln P(ωi ) =
2
2
2
µiT Σi−1
= µi
T
( )
T −1
Σi
perchè Σi
(
simmetrica; = µi
T
( ) =(
−1 T
Σi
)
−1 T
Σi µi
)
1  T −1
d
T −1
−1 T  1
− x Σi x + µi Σi µi − 2 Σi µi x - ln Σi − ln 2π + ln P(ωi )
2
2
 2
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
71
F. Tortorella © 2009
Università degli Studi
di Cassino
Densità normali
σ2I
caso Σi=σ
Se le features sono statisticamente
indipendenti e hanno uguale varianza σ2, la
forma di gi(x) si semplifica:
1
2d
−1
Σ i = σ (costante risp. a i)
Σi = 2 I
σ
x − µi
(x − µ i ) (x − µ i )
g i(x) = −
+ ln P(ωi ) = −
2
2σ
2σ 2
T
2
+ ln P(ωi )
distanza euclidea
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
72
F. Tortorella © 2009
Università degli Studi
di Cassino
Densità normali
σ2I
caso Σi=σ
Valutiamo la gi(x):
1 T
g i(x) = − 2 x x − 2µTi x + µTi µ i + ln P(ωi )
2σ
Se si considera che xTx è indipendente da i,
si ottiene un classificatore lineare (linear
machine):
µTi x µTi µ i
T
g i(x) =
−
+
ln
P(ω
)
=
w
i
i x + wi0
2
2
σ
2σ
[
]
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
73
F. Tortorella © 2009
Università degli Studi
di Cassino
Densità normali
σ2I
caso Σi=σ
d=1
d=2
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
74
d=3
F. Tortorella © 2009
Università degli Studi
di Cassino
Densità normali
σ2I
caso Σi=σ
Definiamo le frontiere di decisione
g i ( x ) − g j ( x) = 0
g i(x) − g j(x) = (w i − w j ) x + (w i 0 − w j 0 ) = 0
T
Nel caso in esame l’equazione della frontiera
T
si può scrivere w (x − x 0 ) = 0 dove:
w = µi − µ j
σ2
1
x 0 = (µ i + µ j ) −
2
µi − µ j
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
75
2
P(ωi )
(µi − µ j )
ln
P(ω j )
F. Tortorella © 2009
Università degli Studi
di Cassino
Al cambiare delle P(ωi) le frontiere di decisione si spostano
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
76
F. Tortorella © 2009
Università degli Studi
di Cassino
Densità normali
caso Σi= Σ
Anche in questo caso, la forma delle gi(x) si
semplifica:
1
1
d
T −1
g i(x) = − (x − µ i ) Σ i (x − µ i )- ln Σ i + ln P(ωi ) − ln 2π
2
2
2
1
T −1
g i(x) = − (x − µ i ) Σ (x − µ i ) + ln P(ωi )
2
w i = Σ −1µ i
g i(x) = w x + wi 0 1
T
i
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
77
wi 0 = − µTi ΣF.−1Tortorella
µ i + ©ln2009P(ωi )
2
Università degli Studi
di Cassino
Densità normali
caso Σi= Σ
Anche in questo caso l’equazione della
T
(x − x 0 ) = 0 dove:
w
frontiera si può scrivere
w = Σ (µ i − µ j )
−1
 P(ωi )

ln

P
(
ω
)
1
j 

(µ i − µ j )
x 0 = (µ i + µ j ) −
T
−1
2
(µ i − µ j ) Σ (µ i − µ j )
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
78
F. Tortorella © 2009
Università degli Studi
di Cassino
Le frontiere di decisione non sono più ortogonali a µi-µj
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
79
F. Tortorella © 2009
Università degli Studi
di Cassino
Criteri di decisione per problemi a
due classi: Valutazione
Finora abbiamo visto diversi (equivalenti)
criteri di decisione per problemi a due classi:
ω1
Likelihood ratio: pp((xx ωω )) <> λλ
1
2
Log-Likelihood ratio:
− λ22 P(ω2 )
21 − λ11 P (ω1 )
12
ω2
ω1
 p(x ω1 )  >  λ12 − λ22 P(ω2 ) 
 ln

ln
 <  λ − λ P(ω ) 
(
)
p
x
ω
2 
1 
 21 11

ω
2
In generale, il criterio di decisione è del tipo:
ω1
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
80
L ( x) > γ
<
ω2
F. Tortorella © 2009
Università degli Studi
di Cassino
Criteri di decisione per problemi a
due classi: Valutazione
La soglia utilizzata è definita sulla base delle
probabilità a priori delle classi e della matrice dei
costi.
Il primo membro, invece, è indipendente da tali
parametri.
Nel valutare il criterio di decisione, quindi, dovremo
tenere conto di questo e decidere che cosa valutare:
L’accuratezza del classificatore (in termini di rischio o
probabilità di errore) per una data combinazione di costi e
probabilità a priori (per un dato decision bias)
La capacità intrinseca del classificatore a discriminare tra
le due classi, indipendentemente dal decision bias.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
81
F. Tortorella © 2009
Università degli Studi
di Cassino
Criteri di decisione per problemi a
due classi: Valutazione
Consideriamo il rischio condizionale in
funzione della soglia γ:
R (γ ) = λ11 P1δ1 (γ ) + λ12 P2ε 2 (γ ) + λ21 P1ε 1 (γ ) + λ22 P2δ 2 (γ )
che, come noto, si può scrivere:
R (γ ) = λ11 P1δ1 (γ ) + λ12 P2ε 2 (γ ) + λ21 P1 [1 − δ1 (γ )] + λ22 P2 [1 − ε 2 (γ )]
o
R (γ ) = λ11 P1 [1 − ε 1 (γ )] + λ12 P2 [1 − δ 2 (γ )] + λ21 P1ε 1 (γ ) + λ22 P2δ 2 (γ )
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
82
F. Tortorella © 2009
Università degli Studi
di Cassino
Criteri di decisione per problemi a
due classi: Valutazione
Nella formulazione del rischio si identificano
due tipi di contributi:
λij , Pi : legati al particolare problema, indipendenti
dal classificatore
δ1 (γ ) ε 2 (γ ) δ 2 (γ ) ε 1 (γ ) : intrinseci al classificatore,
indipendenti dal problema
Per ottenere una valutazione della qualità di
discriminazione intrinseca al classificatore si
possono valutare gli andamenti di δ1 (γ ) ε 2 (γ ) o
di δ 2 (γ ) ε1 (γ ) al variare di γ.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
83
F. Tortorella © 2009
Università degli Studi
di Cassino
Denominazioni
(uno, nessuno e centomila…)
La classificazione a due classi è presente in
molti contesti diversi (hypothesis testing,
tecniche radar, diagnosi medica,…) e ciò ha
portato a definire i vari errori e corrette
classificazioni in diversi modi:
Type I, type II error
PF (false alarm),PM (miss),PD (detection)(PH hit),
PCR (correct rejection)
TPR, FPR, TNR, FNR (True Positive, False
Positive, True Negative, False Negative)
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
84
F. Tortorella © 2009
Università degli Studi
di Cassino
FNR, PM
TPR, PH, PD
TNR, PCR
FPR, PF
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
85
F. Tortorella © 2009
Università degli Studi
di Cassino
Denominazioni
Scegliamo di adottare la notazione che adopera le
seguenti denominazioni:
TPR=1-FNR
FPR=1-TNR
Sulla base delle caratteristiche del problema
possiamo adottare una delle due convenzioni:
TPR(γ)= δ1 (γ )
FPR(γ)= ε 2 (γ )
TPR(γ)= δ 2 (γ ) FPR(γ)= ε 1 (γ )
Questi valori si possono visualizzare graficamente
su un piano (piano della curva ROC o ROC space).
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
86
F. Tortorella © 2009
Università degli Studi
di Cassino
Il piano ROC
1
FPR(γ)
Date le relazioni:
FNR(γ)
FNR(t) = 1 − TPR(γ )
TPR
FPR(t) = 1 − TNR(γ )
per caratterizzare
completamente le prestazioni
del classificatore in
corrispondenza della soglia t
sono sufficienti due valori,
es.: FPR(γ) e TPR(γ)
TNR(γ)
TPR(γ)
0
0
1
FPR
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
87
F. Tortorella © 2009
Università degli Studi
di Cassino
La curva ROC
1.0
Al variare di t, si ottiene
una sequenza di coppie
0.8
(FPR(γ), TPR(γ) che
fornisce la curva ROC
0.6
(Receiver Operating
Characteristic ) del
0.4
classificatore.
TPR
0.2
0.0
0.0
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
88
0.2
0.4
0.6
0.8
FPR F. Tortorella © 2009
Università degli Studi
di Cassino
1.0
La curva ROC
1.0
Punto di
lavoro
ideale
γ → -∞
Tutti ω2
0.8
TPR
0.6
0.4
Classificatore
casuale
γ → +∞
Tutti ω1
0.2
0.0
0.0
0.2
0.4
0.6
FPR
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
89
0.8
1.0
F. Tortorella © 2009
Università degli Studi
di Cassino
La curva ROC
1.0
C3
Più la curva è
spostata verso
l’angolo in alto a
sinistra, migliori
sono le prestazioni
del classificatore
relativo.
C2
0.8
C1
TPR
0.6
Prestazioni
migliori
0.4
0.2
0.0
0.0
0.2
0.4
0.6
FPR
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
90
0.8
1.0
F. Tortorella © 2009
Università degli Studi
di Cassino
Proprietà della curva ROC
relativa al LRT
La curva ROC ha concavità rivolta verso il
basso.
È al di sopra della retta TPR=FPR.
La pendenza della curva in un particolare
punto è uguale al valore della soglia
λ − λ P(ω )
η=
richiesta per ottenere TPR e FPR
λ − λ P(ω )
di quel punto (supponendo TPR(γ)= δ1 (γ ) e
FPR(γ)= ε 2 (γ ) ) (dimostrazione in Van Trees,
vol. 1, § 2.2)
12
22
2
21
11
1
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
91
F. Tortorella © 2009
Università degli Studi
di Cassino
Rette isoscosto
Assumiamo TPR(γ)= δ1 (γ ) e FPR(γ)= ε 2 (γ ) e
consideriamo la definizione del rischio
condizionale in funzione della soglia γ:
R (γ ) = λ11 P1δ1 (γ ) + λ12 P2ε 2 (γ ) + λ21 P1 [1 − δ1 (γ )] + λ22 P2 [1 − ε 2 (γ )]
Il rischio associato ad un punto (FPR,TPR)
sul piano ROC sarà quindi:
λ11 P1 ⋅ TPR + λ12 P2 ⋅ FPR + λ21P1 [1 − TPR ] + λ22 P2 [1 − FPR ]
che può scriversi:
P1 ⋅ (λ11 − λ21 ) ⋅ TPR + P2 ⋅ (λ12 − λ22 ) ⋅ FPR + P1 ⋅ λ21 + P2 ⋅ λ22
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
92
F. Tortorella © 2009
Università degli Studi
di Cassino
Rette isoscosto
Perché due punti (FPR1,TPR1) e
(FPR2,TPR2) abbiano lo stesso rischio
associato, si deve avere:
P1 ⋅ (λ11 − λ21 ) ⋅ TPR1 + P2 ⋅ (λ12 − λ22 ) ⋅ FPR1 =
P1 ⋅ (λ11 − λ21 ) ⋅ TPR2 + P2 ⋅ (λ12 − λ22 ) ⋅ FPR2
da cui:
TPR2 − TPR1 P2 (λ12 − λ22 )
= ⋅
FPR2 − FPR1 P1 (λ21 − λ11 )
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
93
F. Tortorella © 2009
Università degli Studi
di Cassino
Rette isocosto
L’equazione definisce la pendenza di una
retta isocosto. In altre parole, tutti i punti
(FPR,TPR) del piano ROC sulla retta
TPR − TPR1 P2 (λ12 − λ22 )
= ⋅
FPR − FPR1 P1 (λ21 − λ11 )
avranno associato lo stesso rischio
condizionale.
Ogni combinazione di probabilità a priori e di
costi definisce un fascio di rette isocosto.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
94
F. Tortorella © 2009
Università degli Studi
di Cassino
Rette isocosto
1.0
Le rette del fascio che
sono disposte più in
alto e a sinistra sono
quelle cui compete il
rischio minore.
0.8
TPR
0.6
Rischio
crescente
0.4
R = P1 ⋅ (λ11 − λ21 ) ⋅ TPR0 + P1 ⋅ λ21 + P2 ⋅ λ22
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
95
0.2
0.0
0.0
0.2
0.4
FPR
0.6 F. Tortorella
0.8 © 2009 1.0
Università degli Studi
di Cassino
Definizione della soglia ottima
Data una combinazione di probabilità a priori
e di costi, qual è il punto di lavoro ottimale
sulla curva ROC ?
Tale punto deve giacere
sulla curva ROC
sulla retta del fascio più “in alto e a sinistra”
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
96
F. Tortorella © 2009
Università degli Studi
di Cassino
Definizione della soglia ottima
non realizzabile
1.0
ottima
0.8
subottima
TPR
0.6
Rischio
crescente
0.4
0.2
0.0
0.0
0.2
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
97
0.4
0.6
FPR
0.8
1.0
F. Tortorella © 2009
Università degli Studi
di Cassino
Definizione della soglia ottima
Criterio di Bayes
Il punto di lavoro ottimo è definito dalla retta
del fascio (identificato da probabilità a priori e
costi) tangente alla curva ROC.
La soglia ottima è di conseguenza quella
associata al punto di lavoro ottimo trovato.
Nel caso stiamo considerando il LRT,
ritroviamo il criterio di Bayes.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
98
F. Tortorella © 2009
Università degli Studi
di Cassino
Definizione della soglia ottima
1.0
0.8
0.6
TPR
Al variare del
rapporto tra
le probabilità
delle classi
e/o dei costi
cambia la
pendenza e
quindi la
soglia ottima.
0.4
0.2
0.0
0.0
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
99
0.2
0.4
0.6
FPR
0.8 F. Tortorella
1.0 © 2009
Università degli Studi
di Cassino
Criterio di Neyman-Pearson
In questo contesto, il criterio di NeymanPearson specifica un FPR (o un FNR)
massimo accettabile.
Di conseguenza, la definizione del punto di
lavoro ottimo in accordo al criterio NP è
facilmente identificato dall’intersezione tra la
curva ROC e la retta FPR=FPRmax
(FNR=FNRmax).
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
100
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio di Neyman-Pearson
1.0
0.8
1-FNRmax
TPR
0.6
0.4
FPRmax
0.2
0.0
0.0 Recognition
0.2
Teoria e Tecniche di Pattern
Elementi di teoria della decisione
101
0.4
0.6
FPR
0.8
1.0 F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
Ricordiamo che la condizione che forniva il
punto di lavoro ottimo in accordo al criterio
minimax era definito dalla relazione:
(λ11 − λ22 ) + (λ21 − λ11 )ε1 − (λ12 − λ22 )ε 2 = 0
Mantenendo la consueta assunzione
TPR= δ1 (γ ) e FPR= ε 2 (γ ) , la relazione diventa:
(λ11 − λ22 ) + (λ21 − λ11 ) ⋅ (1 − TPR ) − (λ12 − λ22 ) ⋅ FPR = 0
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
102
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
Semplificando, la relazione identifica nel
piano ROC la retta :
(λ21 − λ11 ) ⋅ TPR + (λ12 − λ22 ) ⋅ FPR + λ22 − λ21 = 0
Di conseguenza, il punto di ottimo per il
criterio minimax è dato dall’intersezione della
retta sopra definita con la curva ROC.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
103
F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
1.0
λ21 − λ22
λ21 − λ11
0.8
TPR
0.6
λ21 − λ22
λ12 − λ11
0.4
0.2
0.0
0.0 Recognition
0.2
Teoria e Tecniche di Pattern
Elementi di teoria della decisione
104
0.4
0.6
FPR
0.8
1.0 F. Tortorella © 2009
Università degli Studi
di Cassino
Criterio Minimax
1.0
Caso λ11=λ22=0
0.8
λ21
= 1.5
λ12
TPR
0.6
λ21
= 0.5
λ12
0.4
0.2
0.0
0.0
λ21
= 1.0
λ12
λ21
= 0.2
λ12
0.2
0.4
0.6
FPR
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
105
0.8
1.0
F. Tortorella © 2009
Università degli Studi
di Cassino
Stima della curva ROC
Come ricavare la curva ROC quando la regola di
decisione è realizzata da un classificatore e non
sulla base delle pdf condizionate ?
Consideriamo un problema a due classi (definiamole
genericamente “classe dei positivi” e “classe dei
negativi”).
Supponiamo di avere un classificatore che riceve in
ingresso un campione i e fornisce una stima f(i)
dell’appartenenza del campione alla classe dei
positivi.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
106
F. Tortorella © 2009
Università degli Studi
di Cassino
Stima della curva ROC
Supponiamo inoltre che sia disponibile un
insieme S formato da P campioni “positivi” ed
N campioni “negativi” (l’insieme non è stato
usato per costruire il classificatore).
Sottoponiamo i campioni di S al classificatore
e, per ogni campione i, valutiamo la risposta
f(i).
f(i)
i
classificatore
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
107
F. Tortorella © 2009
Università degli Studi
di Cassino
Stima della curva ROC
Un modo semplice è quello di considerare un
insieme di soglie {tk} con min(f(i))≤tk≤max(f(i))
e valutare FPR e TPR per ognuna delle soglie,
ricavando un insieme di punti sperimentali.
In questo modo, però, si possono ottenere
risultati inaccurati.
Alternativa: algoritmi che impiegano come
possibili soglie tutti i valori forniti dal
classificatore.
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
108
F. Tortorella © 2009
Università degli Studi
di Cassino
Generazione della curva ROC
su un insieme di campioni
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
109
F. Tortorella © 2009
Università degli Studi
di Cassino
Stima della curva ROC.
Pdf condizionate alle classi di f()
0.18
p(f|y=-1)
p(f|y=+1)
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
-5
-4
-3
-2
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
110
-1
0
1
2
3
F. Tortorella © 2009
Università degli Studi
di Cassino
Stima della curva ROC
La curva ottenuta non è
continua e presenta delle
concavità locali.
Tuttavia, quanto detto in
precedenza sulla
definizione del punto di
lavoro ottimo resta valido.
L’unica differenza è che i
punti da considerare sono
quelli appartenenti al
convex hull della curva
ROC.
1.0
0.8
0.6
TPR
0.4
0.2
0.0
0.0
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
111
0.2
0.4
FPR
0.6
0.8© 2009
F. Tortorella
Università degli Studi
di Cassino
1.0
Scelta della soglia ottima
non realizzabile
ottima
1.0
0.8
subottima
0.6
TPR
La soglia
ottimale si
ricava in
corrispondenza
del punto di
tangenza tra il
fascio di rette
ed il convex
hull della curva
ROC.
0.4
Rischio crescente
ROC curve
Convex Hull
0.2
0.0
Teoria e Tecniche di Pattern Recognition
0.0
Elementi di teoria della decisione 112
0.2
0.4
0.6
FPR
F. Tortorella © 2009
Università degli
0.8
1.0 Studi
di Cassino
La curva ROC: valutazione dei
classificatori
1.0
C3
Attraverso la curva
ROC è possibile
stabilire quale sia il
classificatore
migliore solo se c’è
una dominanza su
tutto l’insieme dei
punti di lavoro.
C2
0.8
C1
TPR
0.6
Prestazioni
migliori
0.4
0.2
Es. C3 > C2 > C1
0.0
0.0
0.2
0.4
0.6
Teoria e Tecniche
di Pattern
Recognition
FPR
Elementi di teoria della decisione
113
0.8
1.0
F. Tortorella © 2009
Università degli Studi
di Cassino
La curva ROC: valutazione dei
classificatori
1.0
In questo caso non si
può affermare con
chiarezza quale sia il
classificatore
migliore.
C1
0.8
C2
TPR
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
Teoria e Tecniche
di Pattern
Recognition
FPR
Elementi di teoria della decisione
114
0.8
1.0
Tuttavia è possibile
realizzare un
confronto tra i due
classificatori in
termini di Area
sottesa alla curva
ROC (AUC).
F. Tortorella © 2009
Università degli Studi
di Cassino
L’AUC come parametro sintetico
per la valutazione
L’AUC varia tra 0.5 (classificatore completamente casuale) e 1.0
(classificatore ideale).
Come interpretare i valori intermedi ? Che cosa possiamo
concludere se AUC1>AUC2 ?
L’AUC ha un preciso significato: fornisce la probabilità
P(f(X)>f(Y)), dove f(X) e f(Y) sono le uscite del classificatore in
corrispondenza di due campioni casualmente prelevati dalla
classe negativa e dalla classe positiva, rispettivamente.
Probabilità di corretto ordinamento: P(f(X)>f(Y)) non significa
che i campioni sono classificati entrambi correttamente, ma che
1. esiste un valore della soglia per cui X e Y sono classificati
correttamente
2. non esiste alcun valore della soglia per cui X e Y sono classificati
erroneamente
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
115
F. Tortorella © 2009
Università degli Studi
di Cassino
Dimostrazione informale del
significato dell’AUC
Valutiamo il rettangolo sotteso
alla curva mostrato in figura.
L’area è uguale a:
1.0
Pr ( f ( X ) > γ X ∈ PosClass )
Pr ( f ( X ) > γ )* Pr (γ − ∆γ < f (Y ) ≤ γ )
Essendo f(X) e f(Y)
indipendenti il prodotto è
uguale a:
Pr ( f ( X ) > γ , γ − ∆γ < f (Y ) ≤ γ )
0.8
TPR
0.6
Pr (γ − ∆γ < f (Y ) ≤ γ Y ∈ NegClass )
0.4
e quindi sommando le aree di
tutti i rettangoli sottesi alla
curva, si ottiene
Pr ( f (Y ) > γ Y ∈ NegClass )
0.2
Pr ( f (Y ) > γ − ∆γ Y ∈ NegClass )
Pr ( f ( X ) > f (Y ) )
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
116
0.0
0.0
0.2
0.4
0.6
FPR
F. Tortorella
© 2009
0.8
1.0
Università degli Studi
di Cassino
AUC e accuratezza a confronto
L’AUC fornisce la probabilità di corretto ordinamento una valutazione
diversa dall’accuratezza (accuracy), che è legata alla probabilità di
errore del classificatore.
In many applications, the overall classification error rate is not the most
pertinent performance measure, criteria such as ordering or ranking seem
more appropriate. Consider for example the list of relevant documents
returned by a search engine for a specific query.
That list may contain several thousand documents, but, in practice, only
the top fifty or so are examined by the user. Thus, a search engine’s
ranking of the documents is more critical than the accuracy of its
classification of all documents as relevant or not. More generally, for a
binary classifier assigning a real-valued score to each object, a better
correlation between output scores and the probability of correct
classification is highly desirable.
C. Cortes* and M. Mohri, AUC Optimization vs. Error Rate Minimization,
Advances in Neural Information Processing Systems (NIPS 2003)
F. Tortorella
© 2009
(*)
Google
Labs
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
117
Università degli Studi
di Cassino
Calcolo dell’AUC
Dalla definizione, un modo per calcolare l’AUC è
quello di eseguire il calcolo numerico dell’integrale
della curva sperimentale
Un metodo alternativo viene dall’osservazione che
l’AUC coincide con la statistica di Wilcoxon-MannWhitney che stima direttamente la probabilità
P(f(X)>f(Y)) P N
∑∑ I ( X , Y )
i
i =1 j =1
N ⋅P
j
if
1

I ( x, y ) = 0.5 if
0
if

x>y
x= y
x< y
Statistica di Wilcoxon-Mann-WhitneyF. Tortorella © 2009
Teoria e Tecniche di Pattern Recognition
Elementi di teoria della decisione
118
Università degli Studi
di Cassino