Premessa La teoria della decisione di Bayes fornisce una delle metodologie fondamentali per il riconoscimento di forme inteso come “pattern classification”. E’ basata sull’ipotesi fondamentale che il problema di decisione/classificazione possa essere formulato in termini probabilistici. Le probabilità coinvolte possono essere note o stimate. La teoria di Bayes consente di tenere in conto sia le probabilità legate alle diverse decisioni che i loro “costi” (o “rischi”) in modo da prendere la decisione più “utile” (o meno “costosa/rischiosa”) in senso probabilistico. RICONOSCIMENTO DI FORME Fondamenti di Teoria della Decisione Inizieremo ad illustrare i fondamenti della teoria della decisione Bayesiana assumendo che tutte le “probabilità” coinvolte nel problema di decisione siano note Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 1 Concetti noti: Il criterio di decisione MAP Corso di Riconoscimento di Forme a.a. 2006/07 Ipotizziamo che la fase di elaborazione d’immagine abbia estratto (con il processo detto di “segmentazione”) le sagome dei pesci, ed un modulo di “feature extraction” abbia calcolato la luminosità media delle regioni che coincidono con tali sagome. Vogliamo attribuire alla classe salmone/branzino ciascuna delle tre regioni/sagome estratte Prof. Ing. F. Roli 2 •Supponiamo innanzitutto che non sia possibile definire in modo deterministico il prossimo tipo di pesce che arriverà sul nastro trasportatore •Il prossimo pesce che arriverà sul nastro può essere un salmone od un branzino con una certa probabilità. Nella teoria della decisione di Bayes questa situazione si formalizza con il concetto di “stati di natura” (“classi”). Nel nostro esempio abbiamo due stati/classi: 1 e 2 •Lo stato di natura , = 1 o = 2 , è una variabile aleatoria Le due classi/stati potrebbero, ad es., essere equiprobabili (stesse probabilità a priori): P( 1) = P( 2) (equiprobabilità delle classi/stati) P( Fondamenti di Teoria della Decisione Prof. Ing. F. Roli Esempio branzino/salmone: Criterio MAP Rivediamo il criterio di decisione MAP, visto nei corsi di telecomunicazioni per il progetto del ricevitore ottimo, considerando di nuovo l’esempio “giocattolo” relativo alla classificazione di salmoni e branzini…. Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione 3 1) + P( 2) = 1 (se non ci sono altri tipi di pesci) Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 4 Esempio branzino/salmone Esempio di p(x | •Supponiamo di dover decidere senza poter esaminare il pesce che arriva sul nastro. L’unica regola di decisione razionale è: Decidi per 1 se P( 1) > P( 2), altrimenti decidi per 2 •Ovviamente questa regola di decisione “cieca” può funzionare solo se P( 1) >> P( 2), o viceversa, e le decisioni/classi hanno gli stessi “costi” Nella maggioranza dei casi dobbiamo esaminare l’oggetto (“pattern”) prima di classificarlo •Possiamo acquisire delle “misure” (“feature”) per descrivere il “pattern” •Ad es. una misura continua x (riflettanza luminosa del pesce). • Poichè diversi esemplari avranno diversi valori di riflettanza luminosa, descriveremo x come una variabile aleatoria la cui distribuzione p(x | i) dipende dal tipo del pesce Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 5 i) monodimensionale •p(x | i) è la funzione di densità di probabilità di x dato lo stato/classe (class-conditional probability density function) Se x è la “luminosità” media della regione d’immagine associata all’oggetto di classe i, allora la differenza fra le p(x | i) descrive le differenze “attese” di luminosità fra i due tipi di pesce Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli Regola di Bayes Esempio di P( i| x) monodimensionale •Supponiamo di conoscere sia le probabilità a priori P( j) dei due tipi di pesce che le loro funzioni di densità condizionale p(x | j), j=1,2 •Se misuriamo la luminosità x di un pesce, per “classificarlo” possiamo usare la naturale regola probabilistica: p( j , x) = P( j | x) p(x) = p(x | j) P( j) •Che possiamo riscrivere come regola di Bayes: Esempio di P( i| x) per cui P( P( j | x) = p(x | j) 1)=2/3 e P( 6 2)=1/3 P ( j) / p(x) Probabilità a Posteriori = (Verosimiglianza * Probabilità a Priori) / Evidenza Notare che: p ( x ) = 2 j =1 Corso di Riconoscimento di Forme a.a. 2006/07 p(x | j )P ( j Fondamenti di Teoria della Decisione ) Prof. Ing. F. Roli 7 Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 8 Criterio MAP •Se le funzioni di densità condizionale sono note, la regola di decisione più razionale è quella a Massima Probabilità a Posteriori (MAP, maximum a posteriori probability): Se P( Se P( | x) > P( 1 | x) < P( 1 | x) allora è più razionale scegliere 2 | x) allora è più razionale scegliere 2 1 •Altra formulazione del criterio MAP: Se p(x | 1) P( 1) > p(x | 2) P( 2) allora la classe vera è altrimenti la classe vera è 2 p( x / l ( x) = p( x / Test di verosimiglianza 2 Confronto il rapporto di verosimiglianza l(x) con una soglia che non dipende da x Criterio MAP e ML 1 > < ) 2) 1 1 P( 2 ) = P( 1 ) 2 •Questa regola è razionale nel senso che minimizza l’errore per un certo x: P(errore | x) = P( 1 | x) se decidiamo per 2 P(errore | x) = P( 2 | x) se decidiamo per 1 •Notare che l’ “evidenza” p(x) non conta. Casi particolari: •Se p(x| 1)=p(x| 2), allora decido solo sulla base delle probabilità a priori delle classi •Se P( 1)=P( 2), allora decido solo sulla base delle verosimiglianze (Criterio ML, Maximum Likelihood) •E si dimostra che minimizza anche l’errore medio: P(errore) = + + P(errore, x )dx = P(errore x) p( x)dx Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 9 Corso di Riconoscimento di Forme a.a. 2006/07 Interpretazione geometrica: regioni di decisione R1 = {x R: l(x) > } e R2 = {x R: l(x) < } (un campione x tale che l(x) = può essere inserito arbitrariamente in R1 o in R2). 2), Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 10 MAP e ML con più classi Un test di verosimiglianza è definito non appena siano noti il rapporto di verosimiglianza l(x) e la soglia . Fissato il test di verosimiglianza sono univocamente definite le regioni di decisione R1 e R2 nello spazio R del parametro x. –Fissate le densità di probabilità p(x| 1) e p(x| pertanto univocamente determinate dalla soglia N.B. Confronto il rapporto di verosimiglianza con il rapporto fra i “priors” R le regioni R1 e R2 sono Esempio con Gaussiane Ovviamente la regola di decisione MAP a più classi è: x i P( i | x) > P ( j | x) i j, i=1,...,c E la regola ML viene di conseguenza Dal punto di vista della soglia di decisione , è ovvio che ci saranno più soglie. Definite, di volta in volta, fra le due classi s e t tali che: P( s | x) > P( i | x) P( t | x) > P ( i | x) s, t i, s t i=1,...,c Nell’esempio riportato, le soglie di decisione saranno in corrispondenza di x12 e x23 R1 = R 1( ) R2 = R2( ) R1 Corso di Riconoscimento di Forme a.a. 2006/07 R2 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 11 Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 12 Elementi di calcolo della probabilità di errore Elementi di calcolo della probabilità di errore •Nel caso semplice a due classi: P(errore) = P{x R2 , 1} + P{x R1 , 2 } = = P ( 1 ) P{x R2 | 1} + P( 2 ) P{x R1 | 2 } = = P ( 1 ) p ( x | 1 )dx + P ( 2 ) p( x | 2 )dx R2 •Nel caso a più classi è più semplice passare attraverso il calcolo della probabilità di classificazione corretta: R1 Nella pratica si ha spesso un errore aggiuntivo (“reducible error”) perché la soglia ottimale è difficile da stimare Fondamenti di Teoria della Decisione 13 Prof. Ing. F. Roli i | x) > P ( i=1 j | x) i j, i=1,...,c P ( errore / Ri )P( i 14 Prof. Ing. F. Roli Pertanto possiamo scrivere la probabilità di errore come: = i Fondamenti di Teoria della Decisione c p( x / i i = 1 C [ Ri ] c i =1 Corso di Riconoscimento di Forme a.a. 2006/07 P ( errore ) = La probabilità di errore si può scrivere come: P ( errore ) = i=1 MAP e minimizzazione della probabilità di errore Vediamo ora in dettaglio perché la regola MAP seguente garantisce di minimizzare la probabilità di errore. P( i=1 Fattibile solo per Gaussiane monodimensionali con stessa varianza ! MAP e minimizzazione della probabilità di errore i c E’ chiaro che il calcolo della probabilità di errore richiede di calcolare degli integrali multipli (in generale in Rd) estesi alle regioni di decisione, Provare a fare i conti ! il che è un problema analiticamente complesso. =x* è subottima, e infatti genera un errore “aggiuntivo” x c P(errore) = 1 P(corretto) La soglia ottimale è =xB (soglia ottima Bayesiana, per cui ho l’errore minimo, detto Bayes error) Corso di Riconoscimento di Forme a.a. 2006/07 c P(corretto) = P{x Ri , i } = PP i {x Ri / i } = Pi p(x| i )dx c P( i =1 ) i) 1 )P( i )dx = c i ) dx = 1 p( x / P( i =1 Ri i ) p( x / i ) dx Ri Da cui si vede che minimizzare la probabilità di errore è equivalente a massimizzare la probabilità di corretta classificazione: Dove: P ( errore / i )= p( x / i )dx c P( C [ Ri ] C [Ri] è l’insieme delle regioni “complemento” di Ri, cioè C[ Ri ] = i =1 c UR j j =1, j i Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 15 i ) p(x / i ) dx Ri Ma questo significa che le regioni di decisione Ri vanno definite in modo tale che P( j | x) = p(x | j)P ( j) sia massima, il che dimostra che la regola MAP minimizza la probabilità di errore. Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 16 Cenno alla maggiorazione della probabilità di errore •Date le difficoltà di calcolo, esistono dei metodi, calcolabili più semplicemente, per avere una maggiorazione della probabilità di errore •Chernoff bound Ora generalizzeremo i concetti visti in corsi precedenti: •Bhattacharyya bound 1. Consentendo l’uso di più di una misura (“feature space”): x = (x1, x2,…., xd) vettore a “d” elementi Per chi è interessato si veda il Capitolo 2.8 del libro Pattern Classification, di R. O. Duda, P. E. Hart, e D. G. Stork, John Wiley & Sons, 2000 •Anche se più semplici si tratta comunque di formule calcolabili analiticamente solo nel caso Gaussiano, che comunque danno delle maggiorazioni spesso poco precise; quindi poco utili nella pratica, a meno che la maggiorazione non mi dia un errore già accettabile per la mia applicazione. Inoltre se le distribuzioni non sono Gaussiane la maggiorazione può risultare inaffidabile. Per tali motivi nel seguito del corso vedremo alcuni metodi sperimentali che si utilizzano per stimare la probabilità di errore di un algoritmo di classificazione. Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 17 Dall’errore al rischio P ( errore / x i c )= P( j =1, j i j | x) = 1 P( i | x) In certe applicazioni gli errori possono avere costi diversi, e quindi le relative probabilità vanno pesate diversamente. Se i costi possono essere diversi la sommatoria di cui sopra non è più definibile come una “probabilità”. Si parla pertanto di rischio R( i / x) i | x) = c j =1 w ij P ( Corso di Riconoscimento di Forme a.a. 2006/07 2. Consentendo la presenza di più di due classi 3. Introducendo il concetto di “rischio”, come generalizzazione del concetto di errore 4. Consentendo di “non decidere”, se decidere è troppo costoso/rischioso ed è fattibile rinviare la decisione o farla prendere da un “altro” (opzione di “rigetto”) Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 18 Teoria del Minimo Rischio Dalla formula dell’errore per un generico pattern x è facile vedere che stiamo assumendo che tutti gli errori, o meglio le probabilità di commettere un errore perché j i , abbiano lo stesso “costo” unitario. R( Teoria della Decisione di Bayes j | x) I pesi wij rappresentano i costi degli errori. In seguito li indicheremo come ( i / j) Notare che wii può essere diverso da zero (“guadagno”) Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 19 •Il criterio MAP non tiene conto degli eventuali “rischi/costi” associati ai diversi errori di classificazione •In molte applicazioni questo criterio di decisione è del tutto inappropriato, perché le decisioni/“azioni” relative a diverse classificazioni possono avere costi molto diversi •La teoria del minimo rischio (detta anche teoria dell’utilità in campo economico) tiene conto sia delle probabilità degli eventi che dei costi associati alle diverse decisioni/azioni Formulazione del problema: –insieme delle classi: = { 1, 2, ..., c}; –insieme delle azioni/decisioni possibili classificazione: A = { 1, 2, ..., a}; in funzione della Per noi l’azione/decisione sarà quasi sempre una classificazione Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 20 Teoria del Minimo Rischio Esempio di matrice dei costi per Intrusion Detection Systems I costi delle azioni che è possibile intraprendere dipendono dalle classificazioni e sono definiti da una matrice dei costi : ! ( 1 | 1) # ( | ) 2 1 =# # M # ( | ) % a 1 ( 1 | 2 ) L ( 1 | c )" ( 2 | 2 ) L ( 2 | c )$ $ M O M $ ( a | 1) L ( a | c )$& La funzione ( i| j ) indica la “perdita/costo” che si avrebbe compiendo l’azione i quando lo stato di natura/classe è j Esempio di matrice dei costi per l’intrusione in un sistema informatico ={ 1= intrusione in atto, 2= 2=traffico normale}; A= { 1= continuo a erogare servizio}; ! 0 = # % 21 12 0 " $ & blocco il “server”, Sistema informatico bancario: Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione 12 << 21 Prof. Ing. F. Roli 21 Criterio di decisione a rischio minimo c j =1 ( i| j )P( x i R( R( j| x) ' R( i| x) i = 1, 2, ..., R i | x) < R ( j | x) i j, i=1,...,a Fondamenti di Teoria della Decisione 0 2 2 1 2 Attacco 3 User to Root 0 2 2 2 Attacco Remote to Local 4 2 0 2 2 Attacco Probing 1 2 2 0 2 Denial of Service 3 2 2 1 0 Traffico Normale Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione 22 Prof. Ing. F. Roli Prof. Ing. F. Roli Esaminiamo il caso azione=classificazione •Sia i particolare di due sole l’azione di decidere che la classe corretta è ij= ( i | j) il costo di scegliere i classi R( 1 x) = 11 P( 1 x) + R( 2 x) = 21 P( 1 x) + 12 se il vero stato di natura P( 22 23 decidere 1 se R( Corso di Riconoscimento di Forme a.a. 2006/07 1 |x) < R( 2 e i 2 P( 2 x) x) •La regola di decisione fondamentale è: Dato il pattern x si sceglie l’azione i a rischio minimo. Abbiamo così una regola di decisione per ogni pattern x. Corso di Riconoscimento di Forme a.a. 2006/07 Denial of Service •Possiamo riscrivere il rischio condizionato come: Criterio di decisione a rischio minimo: j Attacco Probing •Sia è j j | x) = E { ( i | )| x} Il rischio condizionato può essere visto come un costo medio xa Attacco Attacco User to Remote Root to Local Rischio minimo per classificazione binaria •Supponiamo di voler eseguire l’azione seguito i in all’osservazione di un pattern x. Dato che non sappiamo quale è il vero stato di natura, ma conosciamo P( j|x), possiamo dire che il rischio condizionato associato all’azione i è R( i |x) = Traffico Normale |x), e viceversa per Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 2 24 Rischio minimo per classificazione binaria Classificazione a minimo errore e matrice dei costi 0-1 •In termini di probabilità a posteriori: Nella classificazione l’azione i viene interpretata come l’assegnazione del “pattern” x alla classe i. decido se 1 ( 21 11 )P( 1 x) > ( 12 )P( 22 x) 2 Una funzione di costo semplice e naturale in questi casi è: •Applicando la regola di Bayes otteniamo: decido 1 se ( 11 ) p ( x 21 1) > ( 1 ) P( 22 ) p ( x 12 2 ) P( ( 2) •Inoltre è ragionevole assumere che 21> 11. Mettendo in p ( x 1 ) p ( x 2 ) la evidenza il rapporto di verosimiglianza regola di Bayes può essere interpretata come segue: 1 p( x p( x se l (x) = Corso di Riconoscimento di Forme a.a. 2006/07 1) 2) > ( ( ) P( 11 ) P ( 12 2) 22 21 Fondamenti di Teoria della Decisione 1) R ( 1 i | x) = i i , j = 1, ..., c j Matrice dei costi 0-1 o “zero-one loss function” c ( j=1 = = | j )P ( | x) j | x) = 1 j P( Fondamenti di Teoria della Decisione i se P( i | x) > P( j | x) Classificazione a minimo errore e “regioni” di decisione j = 12 22 21 11 Se Esempi Se . P( 2 ) = P( 1 ) = = allora x 0 1 1 0 0 1 Corso di Riconoscimento di Forme a.a. 2006/07 2 0 a llo r a a llo ra 12 21 i Se gli errori su 1 costano di più allora la soglia diventa più restrittiva e di conseguenza si riduce R1 In termini di rapporto di verosimiglianza: Se 26 Prof. Ing. F. Roli Con la matrice dei costi 0-1 la regola di decisione è la classica MAP (maximum a posteriori probability): Assegno x a | x) i i Corso di Riconoscimento di Forme a.a. 2006/07 Classificazione a minimo errore i P ( j 25 Prof. Ing. F. Roli 0 i = j Tutti gli errori hanno lo stesso costo unitario. Il rischio con questa funzione di costo è esattamente la probabilità media di errore: Decido per 1 se il rapporto di verosimiglianza eccede una soglia che è indipendente dall’osservabile x decido j) = i, se: 1 = = Fondamenti di Teoria della Decisione p( x | p( x | P ( P ( 2 1 2P ( P ( Prof. Ing. F. Roli 1) 2) > ) = ) 2 1 ) ) La classe 1 deve essere tanto più “verosimile” quanto più 12 > 21 a = b In Figura a è la soglia per il caso di P( La soglia b è relativa al caso 12 > Corso di Riconoscimento di Forme a.a. 2006/07 2) e 12 = 21 =1 21 La regione R1 ovviamente si riduce se 27 1)=P( 12 > Fondamenti di Teoria della Decisione 21 Prof. Ing. F. Roli 28 Nota su “test” di verosimiglianza e “regioni” di decisione Un test di verosimiglianza riporta il problema della decisione in uno spazio delle “feature” d-dimensionale ad un test mono dimensionale sulla singola grandezza scalare , senza bisogno di conoscere esplicitamente le regioni di decisione. Esempio di problemi nell’uso del minimo rischio nella rivelazione attacchi informatici ={ 1= intrusione in atto, 2= 2=traffico normale}; A= { continuo a erogare servizio}; ! 0 Matrice dei costi: = # % 21 12 0 1= blocco il “server”, " $ & La regola di decisione a minimo rischio è: –Le regioni di decisione possono essere anche sottoinsiemi molto complessi dello spazio delle “feature” (anche non connessi, vedremo degli esempi in seguito), ma un loro calcolo esplicito non è essenziale per la classificazione di un dato campione x. –Per classificare x è sufficiente calcolare l(x) e confrontarne il valore con la soglia . blocco il "server" se l (x) = p ( x attacco) > p ( x normale) E’ ovviamente ragionevole che sia: 12 << 12 21 P( normale) = P (attacco) 21 Come fissare i costi ? Come fissare le probabilità priori ? Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 29 Problemi nell’uso del minimo rischio nella rivelazione attacchi informatici Come fissare i costi ? Corso di Riconoscimento di Forme a.a. 2006/07 21 l ( x) = R = R ( ( x ) x ) p ( x ) dx 1 P (normale) = * P* P (attacco) R= •E mi accorgo che poter stimare P* mi aiuta a decidere i costi 12 << 21 per avere un Prof. Ing. F. Roli ( i| j ) p(x / j )P( j )dx •Questa verifica ci consentirà anche di introdurre alcuni concetti importanti nelle applicazioni (probabilità di falso e mancato allarme), e di vedere un problema di classificazione binaria come un problema di “test di ipotesi” (“hypothesis testing”) Per vedere la teoria in un caso concreto, consideriamo il problema della verifica d’identità mediante riconoscimento di impronte •Se non posso stimare P* ? Vedremo il criterio del Minimax Fondamenti di Teoria della Decisione c •E’ interessante verificare che il criterio di decisione “locale” (cioè applicato per ogni pattern x) a minimo rischio minimizza il rischio globale su tutto lo spazio delle “feature” •Metto bene in evidenza la relazione fra le probabilità a priori ed i costi Corso di Riconoscimento di Forme a.a. 2006/07 a i =1 j =1 p ( x / attacco) 1 > * P* = p( x / normale) •Tanto più P* è grande, tanto più dovrò scegliere algoritmo sensibile agli attacchi 30 Minimizzazione del rischio globale Se riscrivo le cose nel seguente modo: 12 Prof. Ing. F. Roli •Dato che l’azione intrapresa dipende dall’osservazione del pattern x attraverso la funzione (x), il Rischio Globale è Come fissare le probabilità priori ? = Fondamenti di Teoria della Decisione 31 Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 32 Verifica d’ipotesi nel riconoscimento d’impronte •La verifica dell’ipotesi d’identità viene fatta sulla base di d misure, dette minuzie, estratte dall’immagine dell’impronta Si deve decidere fra due ipotesi (classi): Dante Rossi •Genuino •Impostore Sono Dante Rossi ! A. Neri B. Verdi C. Bianchi D. Rossi E. Gialli Database di impronte digitali MINUTIAE EXTRACTION Regioni di decisione Verification Score MINUTIAE VERIFICATION Fondamenti di Teoria della Decisione Prof. Ing. F. Roli + 21P( genuino/ impostore) Pim ( postore)+ 22P( genuino/ genuino) P(genuino) R1 R1 Pgenuino ( |impostore) = ps ( |impostore)ds =PMA, Pgenuino ( |genuino) = ps ( |genuinods ) =1 PMA PFA) Pimp + 12PFAPgen + 21PMAPimp + 22(1 PMA)Pgen R2 R1) l’utente è un impostore Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione 34 Prof. Ing. F. Roli Riscrivendo il rischio in forma integrale: R= p(s|impostore)ds Pimp + 11 + R1 p(s|impostore)ds Pimp + 21 p(s|genuino)ds Pgen 22 R2 poichè p(s|impostore)ds = 1 R2 R= p(s|genuino)ds Pgen + 12 R1 R1 p(s|impostore)ds Pimp + 11 R1 R2 p(s|genuino)ds R1 p(s|genuino)ds Pgen + 12 R1 p(s|impostore)ds + 21Pimp 21Pimp + 22Pgen + 22Pgen p(s|genuino)ds = 22Pgen R1 Pimp( 11 21)p(s|impostore) + Pgen( 12 22 )p(s|genuino)ds R1 Per minimizzare il rischio l’integrando deve essere negativo Pgen=P(genuino); Pimp=P(impostore); Prof. Ing. F. Roli p(s|genuino)ds = 1 p(s|impostore)ds R1 PMA: Probabilità di Mancato Allarme (o False Acceptance Rate, FAR) Fondamenti di Teoria della Decisione Altrimenti (s + 21Pimp PFA: Probabilità di Falso Allarme (o False Reject Rate, FRR) Corso di Riconoscimento di Forme a.a. 2006/07 Se s appartiene a R2 allora l’identità è verificata (genuino) R2 Pim ( postore|impostore) = ps ( |impostore)ds =1 PFA, Pim ( postore|genuino) = ps ( |genuinods ) =PFA (1 Ora ipotizziamo che p(s/genuino) e p(s/impostore) siano perfettamente note Minimizzazione rischio globale ( postore)+ 12P( impostore/ genuino) P(genuino)+ R = E{rischio} = 11P( impostore/ impostore) Pim 11 Impostori 33 Il decisore ottimale deve definire le regioni R1 e R2 in modo tale da minimizzare il rischio globale atteso: R= •Sulla base di queste distribuzioni vengono definite le regioni di decisione R1 e R2 Ipotizziamo che lo spazio S degli “score” d’identità sia suddiviso in due regioni R1 e R2 tali che: Probabilità di falso e mancato allarme R2 Genuini •Si confrontano le minuzie delle impronte La decisione è presa sulla base dello “score”, numero reale fra 0 ed 1 Corso di Riconoscimento di Forme a.a. 2006/07 •Esempio di distribuzioni campionarie degli “score” dei genuini e degli impostori 35 Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 36 Minimizzazione rischio globale Pimp ( Criterio di decisione Minimax 21 )p(s|impostore) + Pgen ( 12 11 Pimp ( 11 )p(s|impostore) > Pgen ( 12 21 p(s|impostore) Pgen ( > p(s|genuino) Pimp ( 12 22 ) 21 11 ) •In alcuni casi reali le probabilità a priori possono variare nel tempo, od essere difficilmente stimabili (attacchi informatici, spamming, ecc.). Serve allora una strategia di classificazione che possa funzionare anche in assenza della conoscenza delle probabilità a priori 22 )p(s|genuino) < 0 22 )p(s|genuino) Ma l’ultima è la regola di decisione “locale” a minimo rischio da applicare ad ogni “pattern” “s” Abbiamo quindi dimostrato che tale regola, se applicata ad ogni pattern s, minimizza il rischio globale •Un approccio (utilizzato in molti problemi dell’ingegneria) è quello di dimensionare la soluzione sul “caso peggiore” •Progettiamo il classificatore in modo da minimizzare il rischio nel caso peggiore al variare delle probabilità a priori •Minimax: Minimizzo il rischio Massimo •E’ chiaro che si tratta di un progetto sul caso “peggiore”. Sarà sovradimensionato, e quindi con prestazioni peggiori delle migliori ottenibili, quando non mi trovo nel caso peggiore Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione 37 Prof. Ing. F. Roli Criterio di decisione Minimax Consideriamo un problema a due classi e le regioni di decisione (inizialmente non note) R1 e R2. Il rischio globale si può scrivere come: ( R= 11 * P1 * p ( x 1 )+ 12 * P2 * p ( x 2 ) )dx + P2 = P( ( 21 * P1 * p ( x 1 )+ 22 * P2 * p ( x 2 ) )dx 2 ) )2 Sapendo che P2=1- P1 e che R (P1 ) = 22 +( 12 22 ) p( x p(x 11 22 )+ ( 21 11 ) =1 )1 2 p( x ) dx + 1 )d x 1 N.B. obiettivo dei passaggi algebrici è esprimere R in funzione di P1 e ridurre il numero di integrali )dx + ( 22 )2 Corso di Riconoscimento di Forme a.a. 2006/07 p(x )2 )1 ! + P1 #( %# 1 )d x Fondamenti di Teoria della Decisione 12 ) p( x )1 Prof. Ing. F. Roli " ) dx $ 2 &$ 39 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 38 Criterio di decisione Minimax R ( P1 ) = 22 +( 12 22 ) ! " ... + ...$ 2 ) dx + P1 * #... + #% )2 )1 $ & p( x )1 P1 = P( 1 ) )1 + Corso di Riconoscimento di Forme a.a. 2006/07 Ricordiamo che i costi e le probabilità a priori definiscono univocamente la soglia , che assieme alle densità definisce le regioni di decisione R1 e R2 ed il rischio. p( x / l ( x) = p( x / 1 1) > 2) < 2 R1 = { x : l ( x ) > ( ( 12 21 ) P( 11 ) P ( 22 ) = ) 1 2 } , R2 = { x : l ( x ) < } •Nel caso in esame al variare di P1 varierà la soglia (P1), le relative regioni di decisione, e quindi il rischio. Questo non mi consente di controllare il rischio. Problema: poiché P1 è incognita vorrei controllare il rischio a cui vado incontro, nel senso di poterlo valutare una volta per tutte Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 40 Criterio di classificazione Minimax R (P1 ) = Minimax: Rischio in funzione di P( ! " + * + + ) dx P ... ... ... # $ 12 2 1 # $& )1 ) ) 2 1 % 14444 4244444 3 22 + ( 22 ) p( x - Rmm , minimax risk Questa equazione mostra che una volta definite le regioni di decisione (R1 e R2), il rischio globale è lineare in P1. Se R1 e R2 sono tali che il termine in parentesi quadre è nullo, allora il rischio è indipendente dalle probabilità a priori. Questa è la soluzione minimax, ed il rischio minimax, Rmm, è: R mm = 22 + ( 12 22 ) p(x 2 11 + ( 11 ) 21 ) p(x 11 Nei casi pratici di classificazione si ha 22= 11=0 22 0 0,2 0,4 0,6 0,8 1 P1 Dalla formula precedente di R(P1) è facile vedere che: ) dx = )1 = 1) 1 ) dx P1 = 0 implica che la regione R1 è vuota, e quindi R= 22 P1 = 1 implica che la regione R2 è vuota, e quindi R= 11 2 Verificate per esercizio questa uguaglianza Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione 41 Prof. Ing. F. Roli Minimax: Retta di Rischio - Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli Minimax: retta a rischio massimo - R(P*1) - max - 11 0,2 0,4 0,6 max 11 P1* 22 P1 * 22 0 42 P1 0,8 1 0 P1 0,2 0,4 0,6 0,8 1 Supponiamo che in un certo istante si abbia P( 1)=P1*=0.6 , e quindi il rischio associato alle regioni di decisione R1(P1*) e R2(P1*) sia R(P1*) A questo punto è chiaro che per evitare di avere variazioni incontrollate del rischio conviene scegliere il valore di P1* che determina la retta a pendenza nulla Se poi nel tempo P1 varia, dalla formula precedente si vede che il rischio varierà linearmente, essendo le regioni di decisione determinate sulla base di P1*=0.6 In questo modo minimizzo il massimo rischio che si ha al variare delle probabilità a priori delle classi (Minimax). Qualsiasi altra scelta produce infatti una retta di rischio che può dare dei valori di rischio superiori al variare di P1* Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 43 Le relative regioni di decisione R1(P1*) e R2(P1*) danno il rischio massimo Rmax Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 44 Minimax: retta a rischio massimo - - Calcolo empirico della retta a rischio massimo ! #( 11 22 ) + ( 21 11 ) p(x 1)dx + ( 22 12 ) p(x #% )2 )1 max 11 P1 * 22 P1 0 0,2 0,4 0,6 0,8 1 Per trovare le regioni di decisione R1( ) e R2( ) della retta Minimax: ! #( #% 11 22 ) +( 21 11 ) p(x 1 )dx + ( " 12 ) p( x 2 )dx$ = 0 $& )1 22 )2 E’ quindi necessario determinare le regioni di decisione che soddisfano questa equazione Cosa fattibile in alcuni casi trattabili analiticamente, ma difficile in molti casi pratici Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli )2 1 ) dx p( x 2 ) dx =0 )1 p( x 1 ) dx )2 = p( x 2 ) dx )1 La soglia . è quella che rende uguali le due probabilità di errore (PFA=PMA). Nel riconoscimento di impronte viene detta soglia EER (Equal Error Rate) Genuini Impostori Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Notare che la soglia . che rende uguali le due probabilità di errore (PFA=PMA) non coincide necessariamente con la soglia ottima Bayesiana. Sto infatti usando il criterio Minimax, e non il criterio “puro” del minimo rischio Prof. Ing. F. Roli R1 = { x : l ( x ) > *} , R 2 = { x : l ( x ) < *} Notare che: * ( ( 12 21 ) P( 11 ) P ( 22 E’ come se cercassimo la soglia ottima . senza usare la conoscenza della probabilità a priori e dei costi ! 2) 1) Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 46 Calcolo empirico della retta a rischio massimo: Caso generale Per matrici di costo 0-1 p( x Se notiamo che i due integrali sono gli errori commessi su ciascuna delle due classi (come abbiamo visto in alcune applicazioni tali errori sono detti PFA e PMA), allora è chiaro che questi errori sono controllabili mediante la scelta della soglia . Ed in linea di principio posso cercare un valore . che soddisfi l’equazione precedente. Tale valore identificherà le regioni R1( .) e R2( .). 45 Calcolo empirico retta a rischio massimo per costi 0-1 " 2 )dx$ = 0 $& 47 ! #( #% 11 22 ) + ( 21 11 ) 1 )dx + ( p(x 22 )2 12 ) p(x )1 " ) dx $ =0 2 $& In generale per poter effettuare il calcolo empirico ho bisogno di un “classificatore” del quale posso controllare le regioni di decisione R1 e R2. Cosa non sempre fattibile facilmente Nel caso di costi 0-1 posso cercare di variare i “parametri” del classificatore in modo da ottenere: p( x )2 1 ) dx = p( x 2 ) dx )1 Praticamente significa che vario i parametri e poi stimo le due probabilità d’errore per cercare di renderle uguali Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 48 Criterio di decisione di Neyman-Pearson Quando non sono noti nè le probabilità a priori nè i valori da attribuire alle componenti della matrice di rischio, si può utilizzare il criterio di decisione di Neyman-Pearson. Questo criterio è anche utilizzato nelle applicazioni dove si vuole fissare una certa probabilità di falso allarme e minimizzare poi la probabilità di mancato allarme (es. nelle applicazioni radar o nel riconoscimento biometrico) – Si fissa una certa PFA (prob. di falso allarme) desiderata, PFA = . – Il criterio di Neyman-Pearson minimizza la PMA sotto il vincolo PFA = . – A tal fine si introduce un moltiplicatore di Lagrange / 0, minimizzando il seguente funzionale per il caso a due classi: ! " F = PMA + ( PFA ) = p ( x | 1 ) d x + # p( x | 2 ) d x $= #% R1 $& R2 ! " p( x | 2 ) d x = p( x | 1 ) d x + #1 $= #% R2 $& R2 = (1 )+ [ p( x | 1) p( x | 2 )]d x Criterio di Neyman-Pearson nel caso a due classi Il problema è quello di definire il dominio R2 che risolve il problema di minimo vincolato. – Trascurando il termine costante nel funzionale, il problema di minimizzazione è pertanto: min [ p( x | 11 R2 0 R R2 1 PFA = p( x | 1 R1 1) p( x | 2 )dx 2 )]dx = – Entrambi i termini integrandi in parentesi quadra sono positivi: si ha quindi il minimo quando la funzione integranda è negativa per ogni x R2. Pertanto R2 = {x R: p(x| 1) < p(x| 2)} = {x R: l(x) < }. – Ne consegue il seguente criterio di decisione: l( x ) = p( x | p( x | 1) 2 ) ¤ 1 2 R2 Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 49 Criterio di Neyman-Pearson: calcolo della soglia Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 50 Neyman-Pearson: esempio nel caso biometrico Il metodo di Neyman-Pearson genera nuovamente un test di verosimiglianza. La soglia del test coincide col moltiplicatore e si calcola imponendo la condizione di vincolo. – Poiché PFA = PFA( ), l’equazione PFA = identifica implicitamente i valori ammissibili di . – Più esplicitamente, introducendo la variabile aleatoria l= l(x) (funzione di x), si ha: Genuini Impostori + PFA = P{l ( x) > | 2 } = pl (l| 2 )dl = 2 = dove + pl (l | 2 * ) dl = * Non è detto che variando PFA vari con continuità (soprattutto quando si usano distribuzioni “stimate” dai dati). Nella pratica si cerca di soddisfare “sperimentalmente” il vincolo PFA ' Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 51 In questo caso è semplice trovare una soglia calcolata sulle distribuzioni stimate che mi dia una PFA ' . Non faccio altro che provare sperimentalmente tante soglie fino a che non trovo quella che rispetta il vincolo. Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 52 Neyman-Pearson e curva ROC Criterio di decisione con opzione di rigetto Per analizzare le prestazioni al variare della soglia si utilizza la curva ROC (Receiver Operating Characteristic). •Anche nel caso ottimale di classificatore che mi fornisce l’errore minimo di Bayes (soglia xB in figura), non è detto che questo livello di errore sia applicativamente accettabile. La curva ROC rappresenta l’andamento della PD in funzione della PFA al variare della soglia. PD Consente di analizzare come può •Esempio: “screening” per diagnosi medica. Voglio che il numero di “falsi negativi” sia pari a zero variare il compromesso fra le probabilità di falso e mancato allarme •E’ abbastanza intuitivo che questo implica Con il criterio di Neyman-Pearson al variare della soglia ottengo diverse PFA e diversi valori della probabilità PD di corretta rilevazione (PD=1- PMA). 1 La curva ROC è tanto migliore quanto più posso ottenere una PFA piccola ed una PD grande. La ROC ideale è la funzione “rettangolo” Esempi di ROC Corso di Riconoscimento di Forme a.a. 2006/07 Modo “ovvio” di non sbagliare è “non decidere” PFA 1 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 53 Classificazione con opzione di rigetto x d x R CLASSIFICATORE o, Corso di Riconoscimento di Forme a.a. 2006/07 La matrice i ! ( 0 | 1) # ( | ) 1 1 =# # M # ( | ) % c 1 Rigetto classe che contiene i “rigetti” Fondamenti di Teoria della Decisione E’ chiaro che questo implica che sia razionale “astenersi”, e che ci sia una ulteriore fase di decisione (manuale od automatica) Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 54 dei costi, di dimensione (c+1) c, sarà pertanto: Prof. Ing. F. Roli 55 ( 0 | 2 ) L ( 0 | c )" ( 1 | 2 ) L ( 1 | c )$ $ M O M $ ( c | 1) L ( c | c )$& Il criterio di decisione è sempre quello a minimo rischio: x i R( i | x) < R ( j | x) i j, i=0,1,..,c La differenza sostanziale è che in alcuni casi può essere meno rischioso non decidere, cioè rigettare, quando: R( Corso di Riconoscimento di Forme a.a. 2006/07 Per ridurre la probabilità di errore si può decidere di astenersi dalla decisione (opzione di rigetto) Matrice dei costi e minimo rischio con rigetto E’ intuitivo che l’opzione di rigetto implica che si debba aggiungere una decisione/classificazione in più rispetto alla precedente formulazione del problema di classificazione: –insieme delle classi: = { 1, 2, ..., c}; –insieme delle azioni/decisioni possibili in funzione della classificazione: A = { o, 1, 2, ..., a}; –nel caso della pura classificazione: A = { o, 1, 2, ..., c}; Ho quindi una classe in più : che sbagliare è molto costoso (almeno oltre un certo livello di errore), e quindi è necessario cautelarsi 0 | x) < R ( Corso di Riconoscimento di Forme a.a. 2006/07 j | x) j Fondamenti di Teoria della Decisione 0 Prof. Ing. F. Roli 56 Classificazione binaria con costi uguali Classificazione binaria con costi uguali Vediamo il caso con due sole classi e costi uguali rispetto alle classi: = Costo rigetto = r Il rischio totale R si può scrivere come: R = r r ( 0 | 1) ( 0 | 2) c e = ( 1 | 1) + ( 1| 2) + c e ( 2 | 2) ( 2 | 1) Costo errore = e Costo classificazione corretta = = c (spesso { R1 = { x R2 = { x R : R( 0 R : R( 1 R : R( Corso di Riconoscimento di Forme a.a. 2006/07 2 | x) < R ( | x) < R ( | x) < R( j j j | x) j | x) j | x) j Fondamenti di Teoria della Decisione + } 1} 2} 0 Prof. Ing. F. Roli + 57 Il compromesso errore-rigetto r P ( rigetto ) + e P (errore) + c P (corretto ) poichè P ( rigetto) + P (errore) + P (corretto) = 1 possiamo scrivere R=( r c ) P ( rigetto ) + ( e [P (erro re, x c [ P ( c o r r e tto , x r e c ! #P( #% 1) c ) P (errore) ! #P( %# 1) ) + P (erro re, x 1 1 )dx + P ( p(x / ! #P( #% 1) 2 2 ) + P ( c o r r e tto , x 2 ) p(x / R0 p(x / 1 )dx + P ( 2 ) R2 p(x / 1 )dx + P ( 2 ) 2 )] = " ) d x +$ + 2 $& " ) d x + $+ 2 &$ p(x / " $ ) d x + 2 $& R2 Corso di Riconoscimento di Forme a.a. 2006/07 )]+ )]+ p(x / R1 R1 Fondamenti di Teoria della Decisione 58 Prof. Ing. F. Roli Nelle applicazioni le specifiche di progetto sono spesso del tipo: minimizzare la probabilità di errore con P(rigetto) minore of uguale a “r” (es. errore<1% con rigetto<15%) Questi requisiti possono essere soddisfatti dalla regola di decisione, con opzione di rigetto, di Chow (C.K. Chow, 1957, 1970): i Si parla di compromesso errore-rigetto (error-reject trade-off) Il compromesso è anche chiaro da P(corretto)=1-P(rigetto)-P(errore) Praticamente questo significa che posso ridurre l’errore aumentando il rigetto, e viceversa. Come è ovvio intuitivamente. Fondamenti di Teoria della Decisione 1 ) + P ( r ig e tto , x R0 se m ax P ( Da quest’ultima formulazione del rischio globale risulta chiaro che ogni valore del rischio può essere ottenuto fissando il “rigetto” o l’“errore”, e facendo variare l’altra quantità Corso di Riconoscimento di Forme a.a. 2006/07 1 Compromesso errore-rigetto e regola di Chow E quindi, dall’equazione precedente: R= [ P ( r ig e tto , x e c=0) Applicando il criterio del minimo rischio si avranno tre regioni di decisione: R0 = x r Prof. Ing. F. Roli 59 i / x) / T altrim enti rigetta x con T = e r e c x i •T è la soglia di rigetto •T varia fra 0 e 1perchè c ' r •Per T=0 ( e= r) ho la classica regola MAP Si dimostra (C.K. Chow, 1957) che questa regola di decisione minimizza l’errore (o massimizza l’accuratezza) per ogni ogni valore della probabilità di rigetto Intuitivamente si capisce che la regola di Chow minimizza l’errore rigettando i pattern la cui classificazione non è abbastanza “affidabile” Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 60 Esempio di uso regola di Chow Esempi compromesso errore-rigetto Errore P( 1|x) •Curva ideale P( 2|x) •Al crescere della soglia T cresce il rigetto e diminuisce l’errore (compromesso errore-rigetto) T Rigetto x R R0 1 R2 Esempi di compromesso accuratezza-rigetto per diversi algoritmi di riconoscimento di caratteri (OCR) •Due classi Gaussiane •Soglia di rigetto T definisce la regione di rigetto R0 •L’esempio fa capire che si può ridurre a zero l’errore pur di aumentare la soglia T fino a che la regione R0 non contiene tutti i pattern errati. Cioè rigetto tutti gli errori Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 61 Corso di Riconoscimento di Forme a.a. 2006/07 Funzioni discriminanti e superfici/regioni di decisione x i R( i | x) < R( j i | x) i j, i=1,...,c i •Per il caso generale possiamo porre gi(x)=-R( i|x) ; la massima funzione discriminante corrisponde al minimo rischio. •Per il caso ad errore minimo: gi(x)=P( 1/x) •In particolare per la classificazione a minimo errore le seguenti scelte sono equivalenti: g i ( x) = P ( i x) = p(x p(x g i ( x) = p ( x i g i ( x) = ln ( p ( x Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 63 Corso di Riconoscimento di Forme a.a. 2006/07 ) P( i i ) P( i ) c j =1 se Corso di Riconoscimento di Forme a.a. 2006/07 62 •La scelta di gi(x) non è univoca; possiamo sostituire ogni gi(x) con f(gi(x)), dove f( ) è una funzione monotona crescente. •Un modo alternativo di rappresentare i classificatori è basato sull’uso di un insieme di funzioni discriminanti gi(x), i=1,..,c. •Assegnamo x alla classe gi(x)> gj(x) per ogni j i Prof. Ing. F. Roli Funzioni discriminanti e superfici/regioni di decisione Allo stato attuale un “classificatore” è per noi una “macchina” che prende in ingresso il pattern x e lo classifica secondo l’algoritmo del minimo rischio: x Fondamenti di Teoria della Decisione i j ) P( i )) ) ) ) + ln (P ( Fondamenti di Teoria della Decisione j ) Prof. Ing. F. Roli 64 Funzioni discriminanti e superfici/regioni di decisione •Nel caso di due sole classi è possibile definire un’unica funzione discriminante g(x)5 g1(x)- g2(x) •Le funzioni discriminanti dividono lo spazio delle “feature” in c regioni di decisione R1 … Rc. •Se g(x)>0 si decide per •I confini di separazione fra le regioni (“decision boundaries”) sono definiti dall’equazione gi(x)=gj(x) fra le due funzioni discriminati a valore massimo g ( x) = P ( g (x) = ln •Esempio in due dimensioni, due classi con distribuzioni Gaussiane delle classi. Le superfici di decisione sono iperboli. La regione R2 non è semplicemente connessa. Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 65 Principali fonti bibliografiche Capitoli 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, del libro Pattern Classification, di R. O. Duda, P. E. Hart, e D. G. Stork, John Wiley & Sons, 2000 Cap. 1 del libro Statistical Pattern Recognition di Andrew Webb, John Wiley & Sons, 2002 C.K. Chow, On optimum error and reject trade-off, IEEE Trans. on Information Theory 16 (1970) 41-46 Fonti varie rielaborate dal docente Corso di Riconoscimento di Forme a.a. 2006/07 1, altrimenti per 2 •Fra le varie forme in cui possiamo esprimere la g(x), per un problema a due classi le seguenti sono le più convenenti: •Se gi(x)> gj(x) per ogni j i, allora x Ri, e viene assegnato alla classe i. Corso di Riconoscimento di Forme a.a. 2006/07 Funzione discriminante per due classi Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 67 1 x) P ( p(x p (x 2 x) ) P( + ln P( 2) 1 ) 2) 1 •Un classificatore che lavora su un problema a due classi viene anche detto classificatore dicotomico Corso di Riconoscimento di Forme a.a. 2006/07 Fondamenti di Teoria della Decisione Prof. Ing. F. Roli 66