Elementi di teoria bayesiana della decisione Teoria bayesiana della decisione Classificazione cost-sensitive Regola di rigetto La curva ROC Teoria bayesiana della decisione: caratteristiche La teoria bayesiana della decisione è un approccio statistico fondamentale al problema del pattern recognition. Il suo obiettivo è quello di confrontare quantitativamente diverse decisioni di classificazione utilizzando le probabilità ed i costi cha accompagnano tali decisioni. Assunzioni fondamentali: il problema della decisione è posto in termini probabilistici sono noti i valori di tutte le probabilità rilevanti per il problema Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 1 F. Tortorella © 2009 Università degli Studi di Cassino Fondamenti Consideriamo un problema a C classi, con etichette ωj con j=1,2,…,C. Etichettiamo con αi i=1,2,…,a le decisioni che è possibile prendere. Supponiamo di conoscere la probabilità P(ωj) che un campione appartenga ad una certa classe (probabilità a priori). Conosciamo inoltre la funzione di costo (loss function) λ(αi| ωj) che descrive il costo indotto dall’aver preso la decisione αi quando il campione appartiene alla classe ωj. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 2 F. Tortorella © 2009 Università degli Studi di Cassino Se non avessimo altre informazioni, la regola di decisione sarebbe basata interamente sulle P(ωj). Supponiamo, invece, di poter utilizzare un feature vector N-dimensionale x che, in questo ambito, è formalizzabile come una variabile aleatoria N-dimensionale. Conosciamo inoltre la funzione di densità di probabilità condizionata alla classe p(x| ωj). Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 3 F. Tortorella © 2009 Università degli Studi di Cassino Un esempio di densità di probabilità condizionate alle classi con C=2. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 4 F. Tortorella © 2009 Università degli Studi di Cassino Teorema di Bayes A partire dalle conoscenze descritte, vorremmo stabilire quale sia la probabilità P(ωj|x) (probabilità a posteriori )che il campione descritto da un feature vector x appartenga alla classe ωj. E’ possibile ottenere questa informazione grazie al teorema di Bayes per cui: P(ω j x ) = p( x ω j ) ⋅ P(ω j ) p(x) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 5 C dove p(x) = ∑ p( x ω j ) ⋅ P(ω j ) j =1 F. Tortorella © 2009 Università degli Studi di Cassino Teorema di Bayes Grazie al teorema di Bayes, è possibile risalire alla probabilità che il feature vector osservato x sia stato prodotto da un campione appartenente alla classe ωj (prob. a posteriori) a partire dalla probabilità a priori P(ωj) e dalle verosimiglianze p(x| ωj). Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 6 Rev. Thomas Bayes b. 1702, London d. 1761, Tunbridge Wells, Kent F. Tortorella © 2009 Università degli Studi di Cassino Teorema di Bayes Possiamo esprimere informalmente la formula di Bayes come: Prob. a posteriori=(prob. a priori) x verosimiglianza evidenza In questo modo è chiaro come la conoscenza del valore (misura) x influisce sul nostro giudizio a proposito dello stato di natura Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 7 F. Tortorella © 2009 Università degli Studi di Cassino Le probabilità a posteriori relative alle due classi viste prima, assumendo P(ω1)=2/3 e P(ω2)=1/3 . Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 8 F. Tortorella © 2009 Università degli Studi di Cassino Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 9 F. Tortorella © 2009 Università degli Studi di Cassino Decisione La decisione tende naturalmente verso la classe cui compete la probabilità a posteriori maggiore: Decidi ω1 se P(ω1|x) > P(ω2|x) altrimenti decidi ω2 Questa regola di fatto minimizza la probabilità di errore: P(errore|x)=min{P(ω1|x) , P(ω2|x)} Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 10 F. Tortorella © 2009 Università degli Studi di Cassino Decisione Da un punto di vista operativo, l’evidenza non entra in gioco nella decisione che può quindi ridursi a: Decidi ω1 se p(x|ω1)P(ω1) > p(x|ω2)P(ω2) altrimenti decidi ω2 Situazioni particolari: se p(x|ω1) = p(x|ω2) l’osservazione del valore x non fornisce informazioni riguardo lo stato di natura ulteriori rispetto alle prob. a priori se P(ω1) = P(ω2) la decisione tiene conto solo della verosimiglianza Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 11 F. Tortorella © 2009 Università degli Studi di Cassino Il costo atteso A fronte dell’osservazione di un f.v. x, qual è il costo che dobbiamo aspettarci nel caso prendiamo una decisione αi ? Tale costo (che va sotto il nome di rischio condizionale, conditional risk) viene valutato come: C R(αi x ) = ∑ λ(αi ω j ) ⋅ P(ω j x ) j=1 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 12 F. Tortorella © 2009 Università degli Studi di Cassino La regola di decisione Una regola di decisione è una funzione α(x) che indica quale azione intraprendere per ogni possibile valore di x osservato. In questo contesto, la regola di decisione ottima è quella per cui si ha il minimo rischio condizionale: α(x) = argmin R(αi x ) 1≤ j≤C Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 13 F. Tortorella © 2009 Università degli Studi di Cassino Regioni di decisione La regola di decisione induce nello spazio delle fatures un insieme di regioni di decisione. R1 R2 R3 x∈Ri ⇔ α(x) = αi R1 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 14 F. Tortorella © 2009 Università degli Studi di Cassino Problemi a due classi Nel caso particolare di problemi a due classi, indichiamo con αi la decisione per la classe ωi con i=1,2. Definiamo λij= λ(αi|ωj ). I rischi condizionali sono: R(α1|x)= λ11P(ω1|x)+ λ12P(ω2|x) R(α2|x)= λ21P(ω1|x)+ λ22P(ω2|x) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 15 F. Tortorella © 2009 Università degli Studi di Cassino Problemi a due classi Scegliamo ω1 se R(α1|x) < R(α2|x), cioè se: λ11P(ω1|x)+ λ12P(ω2|x) < λ21P(ω1|x)+ λ22P(ω2|x) che equivale a: (λ11-λ21)P(ω1|x) < (λ22-λ12)P(ω2|x) Essendo (λ11-λ21)<0 e (λ22-λ12)<0, possiamo moltiplicare i due membri per -1 e cambiare verso alla disequazione: (λ21-λ11)P(ω1|x) > (λ12-λ22)P(ω2|x) ω da cui: P(ω x ) > λ12 − λ22 P(ω2 x ) ω< λ21 − λ11 1 1 2 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 16 F. Tortorella © 2009 Università degli Studi di Cassino Problemi a due classi Ricordando il teorema di Bayes, la condizione si può scrivere: ω1 p( x ω1 ) > λ12 − λ22 P(ω 2 ) p( x ω2 ) ω< λ21 − λ11 P(ω1 ) 2 dove il membro di sinistra si definisce rapporto di verosimiglianza (likelihood ratio) Test del rapporto di verosimiglianza Likelihood Ratio Test (LRT) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 17 F. Tortorella © 2009 Università degli Studi di Cassino Problemi a due classi non cost-sensitive Nel caso di classificazione non cost-sensitive la decisione deve minimizzare il numero di errori. Questo caso ricade nel precedente a patto di porre λ21=λ12=1 e λ11=λ22=0 (zero-one loss). La condizione diventa quindi: ω1 p( x ω1 ) > P(ω 2 ) p( x ω2 ) ω< P(ω1 ) 2 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 18 F. Tortorella © 2009 Università degli Studi di Cassino Problemi a due classi cost-sensitive con λ21>λ12 0-1 loss Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 19 F. Tortorella © 2009 Università degli Studi di Cassino Probabilità minima di errore E’ importante valutare quale sia la minima probabilità di errore, che fornisce il miglior risultato raggiungibile. Consideriamo il problema a due classi. Indichiamo con X un generico campione e con x il f.v. corrispondente. Siano inoltre R1 e R2 le due regioni di decisione e T=R1∪R2 il dominio di x. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 20 F. Tortorella © 2009 Università degli Studi di Cassino Probabilità minima di errore Problemi a due classi Per una regola di decisione che genera le due regioni di decisione R1 e R2 la probabilità di errore è: Pe = p(x ∈ R 2 , X ∈ ω1 ) + p(x ∈ R1, X ∈ ω 2 ) = = p(x ∈ R 2 | ω1 )P(ω1 ) + p(x ∈ R1 | ω 2 )P(ω 2 ) = = ∫ p(x | ω1 )dx ⋅P(ω1 ) + ∫ p(x | ω2 )dx ⋅P(ω2 ) = R2 R1 = ∫ p(x | ω1 )P(ω1 )dx + ∫ p(x | ω2 )P(ω2 )dx Rdi Teoria e Tecniche 2 Pattern Recognition Elementi di teoria della decisione 21 R1 F. Tortorella © 2009 Università degli Studi di Cassino Probabilità minima di errore Problemi a due classi La probabilità di errore è limitata inferiormente: Pe = ∫ p(x | ω1 )P(ω1 )dx + ∫ p(x | ω2 )P(ω 2 )dx ≥ R2 R1 ≥ ∫ min{p(x | ω1 )P(ω1 ),p(x | ω2 )P(ω2 )}dx T La probabilità minima di errore è quindi: Pe* = ∫ min{p(x | ω1 )P(ω1 ), p(x | ω2 )P(ω 2 )}dx T Quando viene ottenutaF. Tortorella ? © 2009 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 22 Università degli Studi di Cassino Ottimalità del classificatore bayesiano La probabilità di errore minima viene raggiunta con la regola di decisione bayesiana α(x) = argmax{P(ω1|x), P(ω2|x) }. Di conseguenza, nei problemi a due classi, il classificatore costruito con questa regola (classificatore bayesiano) è il classificatore ottimo. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 23 F. Tortorella © 2009 Università degli Studi di Cassino Probabilità minima di errore Problemi a due classi Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 24 F. Tortorella © 2009 Università degli Studi di Cassino Probabilità minima di errore Problemi multiclasse In maniera analoga si può calcolare la minima probabilità di errore per problemi a C classi: C Pe = 1− P(correct) = 1− ∑ ∫ p(x | ωi )P(ωi )dx i=1 Ri Siccome : C ∑ ∫ p(x | ω )P(ω )dx ≤ ∫ max{p(x | ω )P(ω )}dx i i=1 Ri i T 1≤i≤C i i P = 1− ∫ max{p(x | ωi )P(ωi )}dxF. Tortorella © 2009 * e 1≤i≤C Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione T 25 Università degli Studi di Cassino Ottimalità del classificatore bayesiano La probabilità di errore minima viene raggiunta con la regola di decisione bayesiana α(x) = argmax {P(ωi|x)}. Di conseguenza, anche nei problemi multiclasse, il classificatore bayesiano risulta il classificatore ottimo. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 26 F. Tortorella © 2009 Università degli Studi di Cassino Altri criteri di decisione per problemi a due classi Abbiamo visto che, nel caso abbiamo una conoscenza completa del problema (probabilità a priori, costi), il likelihood ratio test è il criterio di decisione ottimale in quanto minimizza il rischio condizionale. Altri criteri: Criterio Minimax Criterio di Neyman-Pearson Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 27 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax In alcune circostanze, potrebbe essere necessario progettare un sistema di riconoscimento che debba garantire buone prestazioni non per un valore determinato delle probabilità a priori, ma su un intervallo di valori possibili. Esempi: Non conosciamo esattamente la prob. a priori, ma sappiamo che varia in un certo intervallo. Durante la fase operativa del sistema, le prob. a priori possono cambiare in modo impredicibile. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 28 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax In questo caso, un approccio ragionevole è quello di progettare il classificatore in modo da minimizzare i danni nel caso peggiore (worst case). Ciò equivale a minimizzare il valore massimo del rischio al variare delle probabilità a priori. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 29 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax Consideriamo le regioni di decisione R1 ed R2 indotte da un criterio di decisione. Il rischio relativo è: R= ∫ [λ P p (x ω1 ) + λ12 P2 p (x ω2 )]dx + 11 1 R1 dove ∫ [λ P p (x ω1 ) + λ22 P2 p (x ω2 )]dx 21 1 R2 P1 = P(ω1 ) P2 = P(ω2 ) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 30 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax Considerando che ∫ p(x ω1 )dx = 1 − ∫ p(x ω1 )dx R R otteniamo: 1 2 R(P1 ) = λ22 + (λ12 − λ22 )∫ p (x ω2 )dx + R1 + P1 (λ11 − λ22 ) + (λ21 − λ11 ) ∫ p (x ω1 )dx − (λ12 − λ22 ) ∫ p (x ω2 )dx R2 R1 Una volta stabilite le regioni di decisione, il rischio è una funzione lineare di P1. Che cosa significa ? Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 31 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax Rischio Fissata P1, è definito il rischio condizionale complessivo. Che cosa succede se P1cambia? λ11 λ22 0.0 P1 1.0 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 32 P1 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax Rischio λ22 Per alcuni valori di P1, il rischio condizionale complessivo assume valori inaccettabili. λ11 0.0 P1 1.0 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 33 P1 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax Per limitare il massimo rischio ottenibile, si sceglie un punto di lavoro tale che, al variare di P1, il rischio non si modifichi. Tale punto coincide con il punto di max del rischio al variare di P1. Di conseguenza, si sceglie il valore di P1 che massimizza il rischio condizionale complessivo. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 34 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax Rischio λ11 λ22 Pmm 0.0 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 35 1.0 P1 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax In questo caso, il rischio diventa: R(P1 ) = λ22 + (λ12 − λ22 ) ∫ p (x ω2 )dx = R1 Si ottiene per: λ11 + (λ21 − λ11 ) ∫ p(x ω1 )dx R2 (λ11 − λ22 ) + (λ21 − λ11 ) ∫ p(x ω1 )dx − (λ12 − λ22 )∫ p(x ω2 )dx = 0 R2 R1 e, nel caso λ11=λ22 (λ21 − λ11 ) ∫ p(x ω1 )dx = (λ12 − λ22 )∫ p(x ω2 )dx R2 R1 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 36 F. Tortorella © 2009 Università degli Studi di Cassino Criterio di Neyman-Pearson R= Ricordiamo che il criterio di Bayes minimizza il rischio condizionale R ∫ [λ P p (x ω1 ) + λ12 P2 p (x ω2 )]dx + 11 1 R1 ∫ [λ P p (x ω1 ) + λ22 P2 p (x ω2 )]dx 21 1 R2 che può scriversi: R = λ11 P1δ1 + λ12 P2ε 2 + λ21 P1ε 1 + λ22 P2δ 2 dove: δ1 = ∫ p(x ω1 )dx R1 R2 ε 1 = ∫ p(x ω1 )dx R2 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione δ 2 = ∫ p ( x ω 2 ) dx 37 ε 2 = ∫ p(x ω2 )dx R1 F. Tortorella © 2009 Università degli Studi di Cassino Criterio di Neyman-Pearson Mentre il criterio di Bayes ottimizza il rischio condizionale complessivo, si potrebbe avere l’esigenza di limitare la probabilità di errore all’interno di una classe. Esempio: è necessario che la probabilità di errore sui campioni della classe ω2 sia minore di α e che sia la minima possibile su ω1. In altri termini, ε2<α e ε1 min! Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 38 F. Tortorella © 2009 Università degli Studi di Cassino Criterio di Neyman-Pearson Utilizzando i moltiplicatori di Lagrange possiamo scrivere la funzione obiettivo da minimizzare come: F = ε 1 + λ (ε 2 − α ) = ∫ p (x ω1 )dx + λ ∫ p (x ω2 )dx − α R R Da notare: 2 1 Non sono presenti le probabilità a priori ed i costi Le regioni di decisione sono da definire (soluzione del problema di minimizzazione) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 39 F. Tortorella © 2009 Università degli Studi di Cassino Criterio di Neyman-Pearson La funzione obiettivo si può scrivere: Per minimizzare la f.o. occorre minimizzare l’integrale e ciò si ottiene rendendo definitivamente negativo l’integrando, cioè: F = ∫ p(x ω1 )dx + λ 1 − ∫ p (x ω2 )dx − α = λ (1 − α ) + ∫ [ p (x ω1 ) − λp (x ω2 )]dx R R2 R2 2 { } R2 = x p (x ω1 ) − λp (x ω2 ) < 0 che significa definire il criterio di decisione: p (x ω1 ) >1 λ < p (x ω2 ) ω Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 40 ω2 F. Tortorella © 2009 Università degli Studi di Cassino Criterio di Neyman-Pearson Il criterio ottenuto è basato sul confronto tra likelihood ratio ed una soglia (simile al criterio di Bayes) Come otteniamo il valore della soglia λ ? Imponendo che sia soddisfatto il vincolo sull’errore. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 41 F. Tortorella © 2009 Università degli Studi di Cassino Criterio di Neyman-Pearson Di fatto, bisogna scegliere λ in modo che ε2=α’ <α Come è possibile esprimere l’errore? Consideriamo il LR Λ(x) come una v.a., in quanto è una funzione della variabile aleatoria x. Consideriamo la pdf di Λ condizionata alla classe ω2 p (Λ ω2 ) = p (Λ (x) x ∈ ω2 ) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 42 F. Tortorella © 2009 Università degli Studi di Cassino Criterio di Neyman-Pearson In questo modo, l’errore è definibile come: ε2 = +∞ ∫λ p(Λ ω )dΛ = α ′ 2 Purtroppo una soluzione analitica non è sempre possibile. Di solito, si cerca una soluzione sperimentale o numerica. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 43 F. Tortorella © 2009 Università degli Studi di Cassino Classificazione con rigetto Nella classificazione cost-sensitive, ci possono essere casi in cui il costo di un errore è così elevato che è conveniente astenersi dal fornire una risposta piuttosto che rischiare un errore. In questi casi, alle decisioni possibili si aggiunge la “decisione di non decidere”, detta anche rigetto. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 44 F. Tortorella © 2009 Università degli Studi di Cassino Regola di decisione con rigetto La regola di decisione viene ampliata per considerare il nuovo tipo di decisione (regola di decisione con rigetto). Le condizioni per le quali viene sospesa la decisione vanno sotto il nome di regola di rigetto (reject rule). Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 45 F. Tortorella © 2009 Università degli Studi di Cassino Classificazione con rigetto Per il classificatore bayesiano, la probabilità di errore su un campione x è Pe(x) = 1-max{P(ωi|x)}. Supponiamo di non voler procedere alla classificazione se la Pe supera una soglia t (Pe massima tollerabile). Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 46 F. Tortorella © 2009 Università degli Studi di Cassino Regola di decisione con rigetto per il classificatore bayesiano La regola di decisione diventa quindi: ωi se P(ωi|x) > P(ωj|x) ∀i≠j and P(ωi|x) > 1-t ‘rigetto’ altrimenti α(x) = Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 47 F. Tortorella © 2009 Università degli Studi di Cassino Regioni di rigetto 1-t=0.6 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 48 F. Tortorella © 2009 Università degli Studi di Cassino Curva error/reject Al variare di t variano la probabilità di errore e la probabilità di rigetto secondo una curva che si definisce curva error/reject Pe t=1 t=0 1 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 49 Pr F. Tortorella © 2009 Università degli Studi di Cassino Classificazione con rigetto Anche il rigetto avrà un suo costo (inferiore a quello di un errore). Assumiamo una funzione di costo del tipo: c se i=j λij= e se i≠j r se i=‘rigetto’ Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 50 F. Tortorella © 2009 Università degli Studi di Cassino Classificazione con rigetto Il rischio condizionale diventa: R(α|x) = r se α =‘rigetto’ c P(ωi|x) +e (1- P(ωi|x)) se α=ωi Quindi la regola di decisione diventa: ωi se P(ωi|x) > P(ωj|x) ∀i≠j and P(ωi|x) > (e-r)/(e-c) ‘rigetto’ altrimenti Regola di Chow α(x) = Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 51 F. Tortorella © 2009 Università degli Studi di Cassino Classificazione con rigetto: problemi a due classi Consideriamo un problema a due classi costsensitive con costi non uniformi ed opzione di rigetto. Come si particolarizza il criterio di decisione ? Partiamo dal criterio generale definito in base ai rischi condizionali: R(α 0 ) = λ0 R(α1 ) = λ11 P (ω1 x) + λ12 P (ω2 x) R(α ) = λ P(ω1 x) + λ22 P (ω2 x) 2 Recognition 21 Teoria e Tecniche di Pattern Elementi di teoria della decisione 52 F. Tortorella © 2009 Università degli Studi di Cassino Classificazione con rigetto: problemi a due classi La condizione per decidere l’assegnazione alla classe ω1 è R(α1 ) = min{R(α1 ), R(α 2 )} e R(α1 ) ≤ R (α 0 ) da cui: p (x ω1 ) λ12 − λ0 P2 ≥ p (x ω2 ) λ0 − λ11 P1 Analogamente per l’assegnazione alla classe ω 2: p (x ω1 ) λ0 − λ22 P2 ≤ p (x ω2 ) λ21 − λ0 P1 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 53 © 2009 (Tortorella α1 ),degli R (Studi α 2 )} con R (α 2 ) = min{RF.Università di Cassino Classificazione con rigetto: problemi a due classi Infine, la condizione per il rigetto è: λ0 − λ22 P2 p (x ω1 ) λ12 − λ0 P2 < < λ21 − λ0 P1 p(x ω2 ) λ0 − λ11 P1 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 54 F. Tortorella © 2009 Università degli Studi di Cassino Funzioni discriminanti Una rappresentazione utile dei classificatori è in termini di un insieme di funzioni discriminanti gi(x) i=1,…,C. Un campione con f.v. x viene assegnato alla classe ωi se gi(x) > gj(x) j≠i. In questo modo, un classificatore è visto come un sistema che calcola C funzioni discriminanti e che sceglie la classe con il valore più ampio. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 55 F. Tortorella © 2009 Università degli Studi di Cassino Funzioni discriminanti Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 56 F. Tortorella © 2009 Università degli Studi di Cassino Funzioni discriminanti Un classificatore bayesiano può essere facilmente rappresentato in termini di funzioni discriminanti ed in diversi modi. Caso generale: gi(x) = -R(αi|x) Non cost-sensitive: gi(x) = P(ωi|x) In generale, la scelta delle funzioni discriminanti non è unica. Può essere usata ogni funzione monotona di P(ωi|x): gi(x) = p(x|ωi) P(ωi) gi(x) = ln P(ωi|x)= ln p(x|ωi) + ln P(ωi) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 57 F. Tortorella © 2009 Università degli Studi di Cassino Funzioni discriminanti Le funzioni discriminanti definiscono immediatamente le regioni di decisione: { Ri (x ) = x g i (x ) > g j (x ) ∀j ≠ i } La frontiera di decisione tra due classi ωi e ωj è definita come: { Γij (x ) = x g i (x ) = g j (x ) j ≠ i Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 58 } F. Tortorella © 2009 Università degli Studi di Cassino Funzioni discriminanti Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 59 F. Tortorella © 2009 Università degli Studi di Cassino Funzioni discriminanti per classificatori a due classi Per il classificatore a due classi (dichotomizer) è consueto definire un’unica funzione discriminante: ω1 g(x) ≡ g1 (x) − g 2 (x) > 0 < ω2 In tal modo, la decisione avviene in base al segno della g(x) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 60 F. Tortorella © 2009 Università degli Studi di Cassino Funzioni discriminanti per classificatori a due classi Sono possibili diverse definizioni : g(x) = P(ω1 x ) − P(ω2 x ) p( x ω1 ) P(ω1 ) g(x) = ln + ln p( x ω2 ) P(ω2 ) Non cost-sensitive λ21 − λ11 P(ω1 ) g(x) = ln + ln + ln λ12 − λ22 p( x ω2 ) P(ω2 )cost-sensitive p( x ω1 ) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 61 F. Tortorella © 2009 Università degli Studi di Cassino Funzioni di densità normali Un caso notevole è dato dalle funzioni di densità gaussiane (o normali). La ragione per questa particolarità è legata al fatto che la densità gaussiana è un modello appropriato in situazioni in cui il f.v. x per la classe ωi è una versione rumorosa di un prototipo µi. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 62 F. Tortorella © 2009 Università degli Studi di Cassino Funzioni di densità normali Nel caso di f.v. a d dimensioni, le densità sono definite come: 1 T −1 p(x|ωi ) = Ai exp − (x − µ i ) Σ i (x − µ i ) 2 Ai = µ i = E [x|ωi ] 1 ( 2π) d/ 2 Σi 1/ 2 Vettore delle medie [ Σ i = E (x-µ i )(x-µ i )T|ωi Matrice di covarianza Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 63 F. Tortorella © 2009 Università degli Studi di Cassino ] Funzioni di densità normali Consideriamo i singoli componenti di µ e Σ. Se il f.v. è x = ( x1 , x2 ,..., xd ) possiamo scrivere il vettore delle medie come: µ = (µ1 , µ 2 ,..., µ d ) dove: µi = E [xi ] Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 64 F. Tortorella © 2009 Università degli Studi di Cassino Funzioni di densità normali Analogamente per la matrice di covarianza: σ 11 σ 12 σ 21 σ 22 Σ= σ d 1 σ d 2 [ σ 1d σ 2d σ dd ] σ ij = E (xi − µi )(x j − µ j ) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 65 F. Tortorella © 2009 Università degli Studi di Cassino Proprietà della matrice di covarianza Matrice simmetrica: σ ij = σ ji Gli elementi sulla diagonale sono le varianze delle componenti: σ ii = σ i2 Gli elementi fuori dalla diagonale sono le covarianze delle componenti e σ ij ≤ σ iσ j Se xi e xj tendono a crescere insieme, allora σij>0. Se xi tende a crescere quando xj tende a decrescere, allora σij<0. Se xi e xj sono statisticamente indipendenti, allora σij=0. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 66 F. Tortorella © 2009 Università degli Studi di Cassino Proprietà della matrice di covarianza xj xj xj σ ij = −σ iσ j xi xi σ ij < 0 σ ij < σ iσ j xj σ ij = 0 xi xj σ ij > 0 σ ij < σ iσ j σ ij = σ iσ j xi Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 67 xi F. Tortorella © 2009 Università degli Studi di Cassino Funzioni di densità normali I campioni estratti da una popolazione con pdf normale tendono a disporsi in una singola “nuvola”. Il centro della regione è definito dal vettore delle medie, mentre la forma della regione è determinata dalla matrice di covarianza. I punti che hanno lo stesso valore per la pdf appartengono a curve su cui il termine 1 (x − µ i )T Σ i−1(x − µ i ) è costante. 2 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 68 F. Tortorella © 2009 Università degli Studi di Cassino Funzioni di densità normali d=2 1 T −1 ( x − µ ) Σ i (x − µ i ) i Il termine 2 viene spesso indicato come quadrato della distanza di Mahalanobis p(x|ωi) costante Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 69 F. Tortorella © 2009 Università degli Studi di Cassino Classificatore bayesiano con densità normali Nel caso di classificazione non cost-sensitive, le funzioni discriminanti possono essere poste: g i (x) = ln p (x ωi ) + ln P (ωi ) Se le densità sono normali: d 1 1 T −1 gi(x) = − (x − µi ) Σi (x − µi )- ln Σi − ln 2π + ln P(ωi ) 2 2 2 In generale, il classificatore ottimale è un classificatore quadratico. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 70 F. Tortorella © 2009 Università degli Studi di Cassino 1 1 d gi(x) = − (x − µi )T Σi−1(x − µi )- ln Σi − ln 2π + ln P(ωi ) = 2 2 2 1 1 d = − xT Σi−1x + µiT Σi−1µi − µiT Σi−1x − xT Σi−1µi - ln Σi − ln 2π + ln P(ωi ) = 2 2 2 [ ] = µiT Σi−1x = xT Σi−1µi perchè è uno scalare − = [ ] d 1 T −1 1 x Σi x + µiT Σi−1µi − 2µiT Σi−1x - ln Σi − ln 2π + ln P(ωi ) = 2 2 2 µiT Σi−1 = µi T ( ) T −1 Σi perchè Σi ( simmetrica; = µi T ( ) =( −1 T Σi ) −1 T Σi µi ) 1 T −1 d T −1 −1 T 1 − x Σi x + µi Σi µi − 2 Σi µi x - ln Σi − ln 2π + ln P(ωi ) 2 2 2 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 71 F. Tortorella © 2009 Università degli Studi di Cassino Densità normali σ2I caso Σi=σ Se le features sono statisticamente indipendenti e hanno uguale varianza σ2, la forma di gi(x) si semplifica: 1 2d −1 Σ i = σ (costante risp. a i) Σi = 2 I σ x − µi (x − µ i ) (x − µ i ) g i(x) = − + ln P(ωi ) = − 2 2σ 2σ 2 T 2 + ln P(ωi ) distanza euclidea Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 72 F. Tortorella © 2009 Università degli Studi di Cassino Densità normali σ2I caso Σi=σ Valutiamo la gi(x): 1 T g i(x) = − 2 x x − 2µTi x + µTi µ i + ln P(ωi ) 2σ Se si considera che xTx è indipendente da i, si ottiene un classificatore lineare (linear machine): µTi x µTi µ i T g i(x) = − + ln P(ω ) = w i i x + wi0 2 2 σ 2σ [ ] Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 73 F. Tortorella © 2009 Università degli Studi di Cassino Densità normali σ2I caso Σi=σ d=1 d=2 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 74 d=3 F. Tortorella © 2009 Università degli Studi di Cassino Densità normali σ2I caso Σi=σ Definiamo le frontiere di decisione g i ( x ) − g j ( x) = 0 g i(x) − g j(x) = (w i − w j ) x + (w i 0 − w j 0 ) = 0 T Nel caso in esame l’equazione della frontiera T si può scrivere w (x − x 0 ) = 0 dove: w = µi − µ j σ2 1 x 0 = (µ i + µ j ) − 2 µi − µ j Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 75 2 P(ωi ) (µi − µ j ) ln P(ω j ) F. Tortorella © 2009 Università degli Studi di Cassino Al cambiare delle P(ωi) le frontiere di decisione si spostano Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 76 F. Tortorella © 2009 Università degli Studi di Cassino Densità normali caso Σi= Σ Anche in questo caso, la forma delle gi(x) si semplifica: 1 1 d T −1 g i(x) = − (x − µ i ) Σ i (x − µ i )- ln Σ i + ln P(ωi ) − ln 2π 2 2 2 1 T −1 g i(x) = − (x − µ i ) Σ (x − µ i ) + ln P(ωi ) 2 w i = Σ −1µ i g i(x) = w x + wi 0 1 T i Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 77 wi 0 = − µTi ΣF.−1Tortorella µ i + ©ln2009P(ωi ) 2 Università degli Studi di Cassino Densità normali caso Σi= Σ Anche in questo caso l’equazione della T (x − x 0 ) = 0 dove: w frontiera si può scrivere w = Σ (µ i − µ j ) −1 P(ωi ) ln P ( ω ) 1 j (µ i − µ j ) x 0 = (µ i + µ j ) − T −1 2 (µ i − µ j ) Σ (µ i − µ j ) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 78 F. Tortorella © 2009 Università degli Studi di Cassino Le frontiere di decisione non sono più ortogonali a µi-µj Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 79 F. Tortorella © 2009 Università degli Studi di Cassino Criteri di decisione per problemi a due classi: Valutazione Finora abbiamo visto diversi (equivalenti) criteri di decisione per problemi a due classi: ω1 Likelihood ratio: pp((xx ωω )) <> λλ 1 2 Log-Likelihood ratio: − λ22 P(ω2 ) 21 − λ11 P (ω1 ) 12 ω2 ω1 p(x ω1 ) > λ12 − λ22 P(ω2 ) ln ln < λ − λ P(ω ) ( ) p x ω 2 1 21 11 ω 2 In generale, il criterio di decisione è del tipo: ω1 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 80 L ( x) > γ < ω2 F. Tortorella © 2009 Università degli Studi di Cassino Criteri di decisione per problemi a due classi: Valutazione La soglia utilizzata è definita sulla base delle probabilità a priori delle classi e della matrice dei costi. Il primo membro, invece, è indipendente da tali parametri. Nel valutare il criterio di decisione, quindi, dovremo tenere conto di questo e decidere che cosa valutare: L’accuratezza del classificatore (in termini di rischio o probabilità di errore) per una data combinazione di costi e probabilità a priori (per un dato decision bias) La capacità intrinseca del classificatore a discriminare tra le due classi, indipendentemente dal decision bias. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 81 F. Tortorella © 2009 Università degli Studi di Cassino Criteri di decisione per problemi a due classi: Valutazione Consideriamo il rischio condizionale in funzione della soglia γ: R (γ ) = λ11 P1δ1 (γ ) + λ12 P2ε 2 (γ ) + λ21 P1ε 1 (γ ) + λ22 P2δ 2 (γ ) che, come noto, si può scrivere: R (γ ) = λ11 P1δ1 (γ ) + λ12 P2ε 2 (γ ) + λ21 P1 [1 − δ1 (γ )] + λ22 P2 [1 − ε 2 (γ )] o R (γ ) = λ11 P1 [1 − ε 1 (γ )] + λ12 P2 [1 − δ 2 (γ )] + λ21 P1ε 1 (γ ) + λ22 P2δ 2 (γ ) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 82 F. Tortorella © 2009 Università degli Studi di Cassino Criteri di decisione per problemi a due classi: Valutazione Nella formulazione del rischio si identificano due tipi di contributi: λij , Pi : legati al particolare problema, indipendenti dal classificatore δ1 (γ ) ε 2 (γ ) δ 2 (γ ) ε 1 (γ ) : intrinseci al classificatore, indipendenti dal problema Per ottenere una valutazione della qualità di discriminazione intrinseca al classificatore si possono valutare gli andamenti di δ1 (γ ) ε 2 (γ ) o di δ 2 (γ ) ε1 (γ ) al variare di γ. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 83 F. Tortorella © 2009 Università degli Studi di Cassino Denominazioni (uno, nessuno e centomila…) La classificazione a due classi è presente in molti contesti diversi (hypothesis testing, tecniche radar, diagnosi medica,…) e ciò ha portato a definire i vari errori e corrette classificazioni in diversi modi: Type I, type II error PF (false alarm),PM (miss),PD (detection)(PH hit), PCR (correct rejection) TPR, FPR, TNR, FNR (True Positive, False Positive, True Negative, False Negative) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 84 F. Tortorella © 2009 Università degli Studi di Cassino FNR, PM TPR, PH, PD TNR, PCR FPR, PF Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 85 F. Tortorella © 2009 Università degli Studi di Cassino Denominazioni Scegliamo di adottare la notazione che adopera le seguenti denominazioni: TPR=1-FNR FPR=1-TNR Sulla base delle caratteristiche del problema possiamo adottare una delle due convenzioni: TPR(γ)= δ1 (γ ) FPR(γ)= ε 2 (γ ) TPR(γ)= δ 2 (γ ) FPR(γ)= ε 1 (γ ) Questi valori si possono visualizzare graficamente su un piano (piano della curva ROC o ROC space). Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 86 F. Tortorella © 2009 Università degli Studi di Cassino Il piano ROC 1 FPR(γ) Date le relazioni: FNR(γ) FNR(t) = 1 − TPR(γ ) TPR FPR(t) = 1 − TNR(γ ) per caratterizzare completamente le prestazioni del classificatore in corrispondenza della soglia t sono sufficienti due valori, es.: FPR(γ) e TPR(γ) TNR(γ) TPR(γ) 0 0 1 FPR Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 87 F. Tortorella © 2009 Università degli Studi di Cassino La curva ROC 1.0 Al variare di t, si ottiene una sequenza di coppie 0.8 (FPR(γ), TPR(γ) che fornisce la curva ROC 0.6 (Receiver Operating Characteristic ) del 0.4 classificatore. TPR 0.2 0.0 0.0 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 88 0.2 0.4 0.6 0.8 FPR F. Tortorella © 2009 Università degli Studi di Cassino 1.0 La curva ROC 1.0 Punto di lavoro ideale γ → -∞ Tutti ω2 0.8 TPR 0.6 0.4 Classificatore casuale γ → +∞ Tutti ω1 0.2 0.0 0.0 0.2 0.4 0.6 FPR Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 89 0.8 1.0 F. Tortorella © 2009 Università degli Studi di Cassino La curva ROC 1.0 C3 Più la curva è spostata verso l’angolo in alto a sinistra, migliori sono le prestazioni del classificatore relativo. C2 0.8 C1 TPR 0.6 Prestazioni migliori 0.4 0.2 0.0 0.0 0.2 0.4 0.6 FPR Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 90 0.8 1.0 F. Tortorella © 2009 Università degli Studi di Cassino Proprietà della curva ROC relativa al LRT La curva ROC ha concavità rivolta verso il basso. È al di sopra della retta TPR=FPR. La pendenza della curva in un particolare punto è uguale al valore della soglia λ − λ P(ω ) η= richiesta per ottenere TPR e FPR λ − λ P(ω ) di quel punto (supponendo TPR(γ)= δ1 (γ ) e FPR(γ)= ε 2 (γ ) ) (dimostrazione in Van Trees, vol. 1, § 2.2) 12 22 2 21 11 1 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 91 F. Tortorella © 2009 Università degli Studi di Cassino Rette isoscosto Assumiamo TPR(γ)= δ1 (γ ) e FPR(γ)= ε 2 (γ ) e consideriamo la definizione del rischio condizionale in funzione della soglia γ: R (γ ) = λ11 P1δ1 (γ ) + λ12 P2ε 2 (γ ) + λ21 P1 [1 − δ1 (γ )] + λ22 P2 [1 − ε 2 (γ )] Il rischio associato ad un punto (FPR,TPR) sul piano ROC sarà quindi: λ11 P1 ⋅ TPR + λ12 P2 ⋅ FPR + λ21P1 [1 − TPR ] + λ22 P2 [1 − FPR ] che può scriversi: P1 ⋅ (λ11 − λ21 ) ⋅ TPR + P2 ⋅ (λ12 − λ22 ) ⋅ FPR + P1 ⋅ λ21 + P2 ⋅ λ22 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 92 F. Tortorella © 2009 Università degli Studi di Cassino Rette isoscosto Perché due punti (FPR1,TPR1) e (FPR2,TPR2) abbiano lo stesso rischio associato, si deve avere: P1 ⋅ (λ11 − λ21 ) ⋅ TPR1 + P2 ⋅ (λ12 − λ22 ) ⋅ FPR1 = P1 ⋅ (λ11 − λ21 ) ⋅ TPR2 + P2 ⋅ (λ12 − λ22 ) ⋅ FPR2 da cui: TPR2 − TPR1 P2 (λ12 − λ22 ) = ⋅ FPR2 − FPR1 P1 (λ21 − λ11 ) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 93 F. Tortorella © 2009 Università degli Studi di Cassino Rette isocosto L’equazione definisce la pendenza di una retta isocosto. In altre parole, tutti i punti (FPR,TPR) del piano ROC sulla retta TPR − TPR1 P2 (λ12 − λ22 ) = ⋅ FPR − FPR1 P1 (λ21 − λ11 ) avranno associato lo stesso rischio condizionale. Ogni combinazione di probabilità a priori e di costi definisce un fascio di rette isocosto. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 94 F. Tortorella © 2009 Università degli Studi di Cassino Rette isocosto 1.0 Le rette del fascio che sono disposte più in alto e a sinistra sono quelle cui compete il rischio minore. 0.8 TPR 0.6 Rischio crescente 0.4 R = P1 ⋅ (λ11 − λ21 ) ⋅ TPR0 + P1 ⋅ λ21 + P2 ⋅ λ22 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 95 0.2 0.0 0.0 0.2 0.4 FPR 0.6 F. Tortorella 0.8 © 2009 1.0 Università degli Studi di Cassino Definizione della soglia ottima Data una combinazione di probabilità a priori e di costi, qual è il punto di lavoro ottimale sulla curva ROC ? Tale punto deve giacere sulla curva ROC sulla retta del fascio più “in alto e a sinistra” Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 96 F. Tortorella © 2009 Università degli Studi di Cassino Definizione della soglia ottima non realizzabile 1.0 ottima 0.8 subottima TPR 0.6 Rischio crescente 0.4 0.2 0.0 0.0 0.2 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 97 0.4 0.6 FPR 0.8 1.0 F. Tortorella © 2009 Università degli Studi di Cassino Definizione della soglia ottima Criterio di Bayes Il punto di lavoro ottimo è definito dalla retta del fascio (identificato da probabilità a priori e costi) tangente alla curva ROC. La soglia ottima è di conseguenza quella associata al punto di lavoro ottimo trovato. Nel caso stiamo considerando il LRT, ritroviamo il criterio di Bayes. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 98 F. Tortorella © 2009 Università degli Studi di Cassino Definizione della soglia ottima 1.0 0.8 0.6 TPR Al variare del rapporto tra le probabilità delle classi e/o dei costi cambia la pendenza e quindi la soglia ottima. 0.4 0.2 0.0 0.0 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 99 0.2 0.4 0.6 FPR 0.8 F. Tortorella 1.0 © 2009 Università degli Studi di Cassino Criterio di Neyman-Pearson In questo contesto, il criterio di NeymanPearson specifica un FPR (o un FNR) massimo accettabile. Di conseguenza, la definizione del punto di lavoro ottimo in accordo al criterio NP è facilmente identificato dall’intersezione tra la curva ROC e la retta FPR=FPRmax (FNR=FNRmax). Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 100 F. Tortorella © 2009 Università degli Studi di Cassino Criterio di Neyman-Pearson 1.0 0.8 1-FNRmax TPR 0.6 0.4 FPRmax 0.2 0.0 0.0 Recognition 0.2 Teoria e Tecniche di Pattern Elementi di teoria della decisione 101 0.4 0.6 FPR 0.8 1.0 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax Ricordiamo che la condizione che forniva il punto di lavoro ottimo in accordo al criterio minimax era definito dalla relazione: (λ11 − λ22 ) + (λ21 − λ11 )ε1 − (λ12 − λ22 )ε 2 = 0 Mantenendo la consueta assunzione TPR= δ1 (γ ) e FPR= ε 2 (γ ) , la relazione diventa: (λ11 − λ22 ) + (λ21 − λ11 ) ⋅ (1 − TPR ) − (λ12 − λ22 ) ⋅ FPR = 0 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 102 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax Semplificando, la relazione identifica nel piano ROC la retta : (λ21 − λ11 ) ⋅ TPR + (λ12 − λ22 ) ⋅ FPR + λ22 − λ21 = 0 Di conseguenza, il punto di ottimo per il criterio minimax è dato dall’intersezione della retta sopra definita con la curva ROC. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 103 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax 1.0 λ21 − λ22 λ21 − λ11 0.8 TPR 0.6 λ21 − λ22 λ12 − λ11 0.4 0.2 0.0 0.0 Recognition 0.2 Teoria e Tecniche di Pattern Elementi di teoria della decisione 104 0.4 0.6 FPR 0.8 1.0 F. Tortorella © 2009 Università degli Studi di Cassino Criterio Minimax 1.0 Caso λ11=λ22=0 0.8 λ21 = 1.5 λ12 TPR 0.6 λ21 = 0.5 λ12 0.4 0.2 0.0 0.0 λ21 = 1.0 λ12 λ21 = 0.2 λ12 0.2 0.4 0.6 FPR Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 105 0.8 1.0 F. Tortorella © 2009 Università degli Studi di Cassino Stima della curva ROC Come ricavare la curva ROC quando la regola di decisione è realizzata da un classificatore e non sulla base delle pdf condizionate ? Consideriamo un problema a due classi (definiamole genericamente “classe dei positivi” e “classe dei negativi”). Supponiamo di avere un classificatore che riceve in ingresso un campione i e fornisce una stima f(i) dell’appartenenza del campione alla classe dei positivi. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 106 F. Tortorella © 2009 Università degli Studi di Cassino Stima della curva ROC Supponiamo inoltre che sia disponibile un insieme S formato da P campioni “positivi” ed N campioni “negativi” (l’insieme non è stato usato per costruire il classificatore). Sottoponiamo i campioni di S al classificatore e, per ogni campione i, valutiamo la risposta f(i). f(i) i classificatore Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 107 F. Tortorella © 2009 Università degli Studi di Cassino Stima della curva ROC Un modo semplice è quello di considerare un insieme di soglie {tk} con min(f(i))≤tk≤max(f(i)) e valutare FPR e TPR per ognuna delle soglie, ricavando un insieme di punti sperimentali. In questo modo, però, si possono ottenere risultati inaccurati. Alternativa: algoritmi che impiegano come possibili soglie tutti i valori forniti dal classificatore. Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 108 F. Tortorella © 2009 Università degli Studi di Cassino Generazione della curva ROC su un insieme di campioni Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 109 F. Tortorella © 2009 Università degli Studi di Cassino Stima della curva ROC. Pdf condizionate alle classi di f() 0.18 p(f|y=-1) p(f|y=+1) 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 -5 -4 -3 -2 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 110 -1 0 1 2 3 F. Tortorella © 2009 Università degli Studi di Cassino Stima della curva ROC La curva ottenuta non è continua e presenta delle concavità locali. Tuttavia, quanto detto in precedenza sulla definizione del punto di lavoro ottimo resta valido. L’unica differenza è che i punti da considerare sono quelli appartenenti al convex hull della curva ROC. 1.0 0.8 0.6 TPR 0.4 0.2 0.0 0.0 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 111 0.2 0.4 FPR 0.6 0.8© 2009 F. Tortorella Università degli Studi di Cassino 1.0 Scelta della soglia ottima non realizzabile ottima 1.0 0.8 subottima 0.6 TPR La soglia ottimale si ricava in corrispondenza del punto di tangenza tra il fascio di rette ed il convex hull della curva ROC. 0.4 Rischio crescente ROC curve Convex Hull 0.2 0.0 Teoria e Tecniche di Pattern Recognition 0.0 Elementi di teoria della decisione 112 0.2 0.4 0.6 FPR F. Tortorella © 2009 Università degli 0.8 1.0 Studi di Cassino La curva ROC: valutazione dei classificatori 1.0 C3 Attraverso la curva ROC è possibile stabilire quale sia il classificatore migliore solo se c’è una dominanza su tutto l’insieme dei punti di lavoro. C2 0.8 C1 TPR 0.6 Prestazioni migliori 0.4 0.2 Es. C3 > C2 > C1 0.0 0.0 0.2 0.4 0.6 Teoria e Tecniche di Pattern Recognition FPR Elementi di teoria della decisione 113 0.8 1.0 F. Tortorella © 2009 Università degli Studi di Cassino La curva ROC: valutazione dei classificatori 1.0 In questo caso non si può affermare con chiarezza quale sia il classificatore migliore. C1 0.8 C2 TPR 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 Teoria e Tecniche di Pattern Recognition FPR Elementi di teoria della decisione 114 0.8 1.0 Tuttavia è possibile realizzare un confronto tra i due classificatori in termini di Area sottesa alla curva ROC (AUC). F. Tortorella © 2009 Università degli Studi di Cassino L’AUC come parametro sintetico per la valutazione L’AUC varia tra 0.5 (classificatore completamente casuale) e 1.0 (classificatore ideale). Come interpretare i valori intermedi ? Che cosa possiamo concludere se AUC1>AUC2 ? L’AUC ha un preciso significato: fornisce la probabilità P(f(X)>f(Y)), dove f(X) e f(Y) sono le uscite del classificatore in corrispondenza di due campioni casualmente prelevati dalla classe negativa e dalla classe positiva, rispettivamente. Probabilità di corretto ordinamento: P(f(X)>f(Y)) non significa che i campioni sono classificati entrambi correttamente, ma che 1. esiste un valore della soglia per cui X e Y sono classificati correttamente 2. non esiste alcun valore della soglia per cui X e Y sono classificati erroneamente Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 115 F. Tortorella © 2009 Università degli Studi di Cassino Dimostrazione informale del significato dell’AUC Valutiamo il rettangolo sotteso alla curva mostrato in figura. L’area è uguale a: 1.0 Pr ( f ( X ) > γ X ∈ PosClass ) Pr ( f ( X ) > γ )* Pr (γ − ∆γ < f (Y ) ≤ γ ) Essendo f(X) e f(Y) indipendenti il prodotto è uguale a: Pr ( f ( X ) > γ , γ − ∆γ < f (Y ) ≤ γ ) 0.8 TPR 0.6 Pr (γ − ∆γ < f (Y ) ≤ γ Y ∈ NegClass ) 0.4 e quindi sommando le aree di tutti i rettangoli sottesi alla curva, si ottiene Pr ( f (Y ) > γ Y ∈ NegClass ) 0.2 Pr ( f (Y ) > γ − ∆γ Y ∈ NegClass ) Pr ( f ( X ) > f (Y ) ) Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 116 0.0 0.0 0.2 0.4 0.6 FPR F. Tortorella © 2009 0.8 1.0 Università degli Studi di Cassino AUC e accuratezza a confronto L’AUC fornisce la probabilità di corretto ordinamento una valutazione diversa dall’accuratezza (accuracy), che è legata alla probabilità di errore del classificatore. In many applications, the overall classification error rate is not the most pertinent performance measure, criteria such as ordering or ranking seem more appropriate. Consider for example the list of relevant documents returned by a search engine for a specific query. That list may contain several thousand documents, but, in practice, only the top fifty or so are examined by the user. Thus, a search engine’s ranking of the documents is more critical than the accuracy of its classification of all documents as relevant or not. More generally, for a binary classifier assigning a real-valued score to each object, a better correlation between output scores and the probability of correct classification is highly desirable. C. Cortes* and M. Mohri, AUC Optimization vs. Error Rate Minimization, Advances in Neural Information Processing Systems (NIPS 2003) F. Tortorella © 2009 (*) Google Labs Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 117 Università degli Studi di Cassino Calcolo dell’AUC Dalla definizione, un modo per calcolare l’AUC è quello di eseguire il calcolo numerico dell’integrale della curva sperimentale Un metodo alternativo viene dall’osservazione che l’AUC coincide con la statistica di Wilcoxon-MannWhitney che stima direttamente la probabilità P(f(X)>f(Y)) P N ∑∑ I ( X , Y ) i i =1 j =1 N ⋅P j if 1 I ( x, y ) = 0.5 if 0 if x>y x= y x< y Statistica di Wilcoxon-Mann-WhitneyF. Tortorella © 2009 Teoria e Tecniche di Pattern Recognition Elementi di teoria della decisione 118 Università degli Studi di Cassino