Facoltà di Scienze MM. FF. NN. Università di Verona A.A. 2012-13 Teoria e Tecniche del Riconoscimento Teoria della decisione di Bayes Teoria e Tecniche del Riconoscimento 1 Rev. Thomas Bayes, F.R.S (1702-1761) Teoria e Tecniche del Riconoscimento 2 Introduzione • Approccio statistico fondamentale di classificazione di pattern • Ipotesi: 1. Il problema di decisione è posto in termini probabilistici; 2. Tutte le probabilità rilevanti sono conosciute; • Goal: Discriminare le differenti regole di decisione usando le probabilità ed i costi ad esse associati; Teoria e Tecniche del Riconoscimento 3 Un esempio semplice • • Sia w lo stato di natura da descrivere probabilisticamente; Siano date: 1. Due classi w1 and w2 per cui sono note a) P( w w1 ) = 0.7 b) P( w w2 ) = 0.3 = Probabilità a priori o Prior 2. Nessuna misurazione. • Regola di decisione: – Decidi w1 se P(w1) > P(w2); altrimenti decidi w2 • Più che decidere, indovino lo stato di natura. Teoria e Tecniche del Riconoscimento 4 Altro esempio – Formula di Bayes • Nell’ipotesi precedente, con in più la singola misurazione x, v.a. dipendente da w j , posso ottenere p( x | w j ) j 1, 2 = Likelihood , o Probabilità stato-condizionale ossia la probabilità di avere la misurazione x sapendo che lo stato di natura è w j. Fissata la misurazione x più è alta p( x | w j ) più è probabile che w j sia lo stato “giusto”. Teoria e Tecniche del Riconoscimento 5 Altro esempio – Formula di Bayes (2) • Note P (w j ) e p( x | w j ) , la decisione dello stato di natura diventa, per Bayes p(w j , x) P(w j | x) p( x) p( x | w j ) P(w j ) ossia P(w j | x) • P (w j ) p( x | w j ) P(w j ) p ( x) p( x | w j ) P(w j ) , dove: = Prior • P( x | w j ) = Likelihood • P(w j | x) = Posterior J • p( x) p( x | w j )P(w j ) j 1 = Evidenza Teoria e Tecniche del Riconoscimento 6 Regola di decisione di Bayes P(w j | x) • • p( x | w j ) P(w j ) likelihood prior posterior evidence p ( x) Ossia il Posterior o probabilità a posteriori è la probabilità che lo stato di natura sia w j data l’osservazione x. Il fattore più importante è il prodotto likelihood prior ; l’evidenza p (x ) è semplicemente un fattore di scala, che assicura che P(w j | x) 1 j • Dalla formula di Bayes deriva la regola di decisione di Bayes: Decidi w1 se P(w1|x) > P(w2|x) , w2 altrimenti Teoria e Tecniche del Riconoscimento 7 Regola di decisione di Bayes (2) • Per dimostrare l’efficacia della regola di decisione di Bayes: 1) Definisco la probabilità d’errore annessa a tale decisione: P (error | x) P(w1 | x) se decido w2 P(w2 | x) se decido w1 2) Dimostro che la regola di decisione di Bayes minimizza la probabilità d’errore. Decido w1 se P(w1 | x) P(w2 | x) e viceversa. 3) Quindi se voglio minimizzare la probabilità media di errore su tutte le osservazioni possibili, P(error ) P(error , x)dx P(error | x) p( x)dx se per ogni x prendo P(error|x) più piccola possibile mi assicuro la probabilità d’errore minore (come detto il fattore p(x) è ininfluente). Teoria e Tecniche del Riconoscimento 8 Regola di decisione di Bayes (3) In questo caso tale probabilità d’errore diventa P(error|x)=min[P(w1|x), P(w2|x)]; Questo mi assicura che la regola di decisione di Bayes Decidi w1 se P(w1|x)> P(w2|x) , w2 altrimenti minimizza l’errore! • Regola di decisione equivalente: – La forma della regola di decisione evidenzia l’importanza della probabilità a posteriori, e sottolinea l’ininfluenza dell’evidenza, un fattore di scala che mostra quanto frequentemente si osserva un pattern x; eliminandola, si ottiene la equivalente regola di decisione: Decidi w1 se p(x|w1)P(w1)> p(x|w2)P(w2) , w2 altrimenti Teoria e Tecniche del Riconoscimento 9 Teoria della decisione • Il problema può essere scisso in una fase di inferenza in cui si usano i dati per addestrare un modello p(wk|x) e una seguente fase di decisione, in cui si usa la posterior per fare la scelta della classe • Un’alternativa è quella di risolvere i 2 problemi contemporaneamente e addestrare una funzione che mappi l’input x direttamente nello spazio delle decisioni, cioè delle classi funzioni discriminanti Teoria e Tecniche del Riconoscimento 10 Funzioni discriminanti • Uno dei vari metodi per rappresentare classificatori di pattern consiste in un set di funzioni discriminanti gi(x), i=1...c • Il classificatore assegna il vettore di feature x alla classe wi se gi(x) > gj(x) per ogni j i Teoria e Tecniche del Riconoscimento 11 Funzione discriminanti (2) • Esistono molte funzioni discriminanti equivalenti. Per esempio, tutte quelle per cui i risultati di classificazione sono gli stessi – Per esempio, se f è una funzione monotona crescente, allora gi (x) f ( gi (x)) – Alcune forme di funzioni discriminanti sono più semplici da capire o da calcolare Teoria e Tecniche del Riconoscimento 12 Funzione discriminanti (3) • L’effetto di ogni decisione è quello di dividere lo spazio delle features in c superfici di separazione o decisione, R1, ..., Rc – Le regioni sono separate con confini di decisione, linee descritte dalle funzioni discriminanti. – Nel caso a due categorie ho due funzioni discriminanti, g1,g2 per cui assegno x a w1 se g1 > g2 o g1-g2>0 – Usando g ( x) g1 ( x) g 2 ( x) g ( x) P (w1 | x) P (w 2 | x) p ( x | w1 ) P (w1 ) g ( x) ln ln p (x | w 2 ) P (w 2 ) ho una sola funzione discriminante! Teoria e Tecniche del Riconoscimento 13 La densità normale • La struttura di un classificatore di Bayes è determinata da: – Le densità condizionali p(x | wi ) – Le probabilità a priori P(wi ) • Una delle più importanti densità è la densità normale o Gaussiana multivariata; infatti: – è analiticamente trattabile; – più importante, fornisce la migliore modellazione di problemi sia teorici che pratici • il teorema del Limite Centrale asserisce che “sotto varie condizioni, la distribuzione della somma di d variabili aleatorie indipendenti tende ad un limite particolare conosciuto come distribuzione normale”. Teoria e Tecniche del Riconoscimento 14 La densità normale (2) • La funzione Gaussiana ha altre proprietà – La trasformata di Fourier di una funzione Gaussiana è una funzione Gaussiana; – È ottimale per la localizzazione nel tempo o in frequenza • Il principio di indeterminazione stabilisce che la localizzazione non può avvenire simultaneamente in tempo e frequenza Teoria e Tecniche del Riconoscimento 15 Densità normale univariata • Iniziamo con la densità normale univariata. Essa è completamente specificata da due parametri, media m e varianza s2, si indica con N(m, s2 ) e si presenta nella forma 2 1 1 xm p ( x) exp 2 s 2 s Media m E[ x] xp( x)dx 2 2 s E [( x m ) ] Varianza 2 ( x m ) p ( x) dx • Fissata media e varianza la densità Normale è quella dotata di massima entropia; L’entropia misura l’incertezza di una distribuzione o la quantità d’informazione necessaria in media per descrivere la variabile aleatoria associata, ed è data da H ( p( x)) p( x) ln p( x) dx Teoria e Tecniche del Riconoscimento 16 Densità normale multivariata • La generica densità normale multivariata a d dimensioni si presenta nella forma 1 T 1 p(x) exp ( x m ) S ( x m ) 1/ 2 d /2 2 2 S 1 in cui m vettore di media a d componenti S matrice d x d di covarianza, dove |S | = determinante della matrice S -1 = matrice inversa d=1 d=2 t t S ( x μ ) ( x μ ) ( x μ ) ( x μ ) p(x)dx – Analiticamente – Elemento per elemento s ij ( xi m i )( x j m j ) Teoria e Tecniche del Riconoscimento 17 Densità normale multivariata (2) • Caratteristiche della matrice di covarianza – Simmetrica – Semidefinita positiva (|S| 0) 2 – sii= varianza di x i (= s i ) – sij= covarianza tra xi e xj (se xi e xj sono statisticamente indipendenti sij= 0) – Se s ij 0 i j p(x) è il prodotto della densità univariata per x componente per componente. – Se • p (x) N (μ, S) • A matrice d x k • y=Atx p(y ) N ( At μ, At SA) Teoria e Tecniche del Riconoscimento 18 Densità normale multivariata (3) • CASO PARTICOLARE: k = 1 – p(x) N (μ,Σ) – a vettore d x 1 di lunghezza unitaria – y=atx – y è uno scalare che rappresenta la proiezione di x su una linea in direzione definita da a – at S a è la varianza di x su a • In generale S ci permette di calcolare la dispersione dei dati in ogni superficie, o sottospazio. Teoria e Tecniche del Riconoscimento 19 Densità normale multivariata (4) • Siano (trasf. sbiancante, whitening transform) F la matrice degli autovettori di S in colonna; – L la matrice diagonale dei corrispondenti autovalori; La trasformazione Aw = FL1/2 , applicata alle coordinate dello – • spazio delle feature, assicura una distribuzione con matrice di covarianza = I (matrice identica) • La densità N(m, S ) d-dimensionale necessita di d + d(d+1)/2 parametri per essere definita • Ma cosa rappresentano graficamente FeL? Media individuata dalle coordinate di m Teoria e Tecniche del Riconoscimento 20 Densità normale multivariata (5) Gli assi principali degli iperellissoidi sono dati dagli Le lunghezze degli assi principali degli iperellissoidi sono dati dagli autovalori di S (descritti da L) autovettori di S (descritti da F) Gli iperellissoidi sono quei luoghi dei punti per i quali la distanza di x da m r 2 (x m)t S 1 (x m) detta anche distanza di Mahalanobis, è costante Teoria e Tecniche del Riconoscimento 21 Funzioni discriminanti - Densità Normale • Tornando ai classificatori Bayesiani, ed in particolare alle funzioni discriminanti, analizziamo la funzione discriminante come si traduce nel caso di densità Normale gi (x) ln p(x | wi ) ln P(wi ) 1 d 1 t 1 g i (x) (x μ i ) Σ i (x μ i ) ln 2 ln Σ i ln P(wi ) 2 2 2 • A seconda della natura di S, la formula soprascritta può essere semplificata. Vediamo alcuni esempi. Teoria e Tecniche del Riconoscimento 22 Funzioni discriminanti - Densità Normale Si=s2I • È il caso più semplice in cui le feature sono statisticamente indipendenti (sij= 0, ij ), ed ogni classe ha la stessa varianza (caso 1-D): g i ( x) g i ( x) x μi 2s 2 2 ln P(w i ) x x 2μ x μ μ ln P(w ) 1 t t i t i 2s 2 dove il termine x t x, uguale per ogni x, i i può essere ignorato giungendo alla forma : g i (x) w ti x w i 0 , dove wi 1 s μi e w i0 2 1 2s t μ i μ i ln P (w i ) 2 Teoria e Tecniche del Riconoscimento 23 Funzioni discriminanti - Densità Normale Si=s2I (2) • Le funzioni precedenti vengono chiamate funzioni discriminanti lineari (o linear machine) – I confini di decisione sono dati da gi(x)=gj(x) per le due classi con più alta probabilità a posteriori – In questo caso particolare abbiamo: 2 w t (x x 0 ) 0 dove w μi μ j NB: se s2<< μ i μ j la posizione del confine di decisione è insensibile ai prior! 1 s2 x 0 (μ i μ j ) 2 μi μ j 2 P (wi ) ln (μ i μ j ) P (w j ) Teoria e Tecniche del Riconoscimento 24 Funzioni discriminanti - Densità Normale Si=s2I (3) • • Le funzioni discriminanti lineari definiscono un iperpiano passante per x0 ed ortogonale a w: dato che w μ i μ j , l’iperpiano che separa Ri da Rj è ortogonale alla linea che unisce le medie. Dalla formula precedente si nota che, a parità di varianza, il prior maggiore determina la classificazione. 1-D Teoria e Tecniche del Riconoscimento 25 Funzioni discriminanti - Densità Normale Si=s2I (4) 1-D 2-D Teoria e Tecniche del Riconoscimento 26 Funzioni discriminanti - Densità Normale Si=s2I (5) 2-D 3-D Teoria e Tecniche del Riconoscimento 27 Funzioni discriminanti - Densità Normale Si=s2I (6) 1 s2 x 0 (μ i μ j ) 2 μi μ j 2 P(wi ) ln (μ i μ j ) P(w j ) • NB.: Se le probabilità prior P(wi), i=1,...,c sono uguali, allora il termine logaritmico può essere ignorato, riducendo il classificatore ad un classificatore di minima distanza. • In pratica, la regola di decisione ottima ha una semplice interpretazione geometrica – Assegna x alla classe la cui media m è più vicina Teoria e Tecniche del Riconoscimento 28 Funzioni discriminanti - Densità Normale Si=s2I (7) 2-D 1-D Teoria e Tecniche del Riconoscimento 29 Funzioni discriminanti - Densità Normale Si=s2I (8) 2-D 3-D Teoria e Tecniche del Riconoscimento 30 Funzioni discriminanti - Densità Normale Si= S • Un altro semplice caso occorre quando le matrici di covarianza per tutte le classi sono uguali, ma arbitrarie. • In questo caso l’ordinaria formula 1 d 1 t 1 g i (x) (x μ i ) S i (x μ i ) ln 2 ln Σ i ln P(wi ) 2 2 2 può essere semplificata con 1 g i (x) (x μ i )t S 1 (x μ i ) ln P(wi ) 2 che è ulteriormente trattabile, con un procedimento analogo al caso precedente (sviluppando il prodotto ed eliminando il termine xt Σ 1x) Teoria e Tecniche del Riconoscimento 31 Funzioni discriminanti - Densità Normale Si= S (2) • Otteniamo così funzioni discriminanti ancora lineari, nella forma: g i (x) w ti x wi 0 dove w i Σ 1μ i 1 t 1 wi 0 μ i Σ μ i ln P (w i ) 2 • Poiché i discriminanti sono lineari, i confini di decisione sono ancora iperpiani Teoria e Tecniche del Riconoscimento 32 Funzioni discriminanti - Densità Normale Si= S (3) • Se le regioni di decisione Ri ed Rj sono contigue, il confine tra esse diventa: Teoria e Tecniche del Riconoscimento 33 Funzioni discriminanti - Densità Normale Si= S (4) • Poiché w in generale (differentemente da prima) non è il vettore che unisce le 2 medie (w = mi - mj), l’iperpiano che divide Ri da Rj non è quindi ortogonale alla linea tra le medie; comunque, esso interseca questa linea in x0 • Se i prior sono uguali, allora x0 si trova in mezzo alle medie, altrimenti l’iperpiano ottimale di separazione si troverà spostato verso la media meno probabile. Teoria e Tecniche del Riconoscimento 34 Funzioni discriminanti - Densità Normale Si= S (5) 2-D Teoria e Tecniche del Riconoscimento 35 Funzioni discriminanti - Densità Normale Si= S (6) 3-D Teoria e Tecniche del Riconoscimento 36 Funzioni discriminanti - Densità Normale Si arbitraria • Le matrici di covarianza sono differenti per ogni categoria; • Le funzioni discriminanti sono inerentemente quadratiche; Teoria e Tecniche del Riconoscimento 37 Funzioni discriminanti Densità Normale Si arbitraria (2) • Nel caso 2-D le superfici di decisione sono iperquadriche: – Iperpiani – Coppia di iperpiani – Ipersfere – Iperparaboloidi – Iperiperboloidi di vario tipo • Anche nel caso 1-D, per la varianza arbitraria, le regioni di decisione di solito sono non connesse. Teoria e Tecniche del Riconoscimento 38 Funzioni discriminanti Densità Normale Si arbitraria (3) Teoria e Tecniche del Riconoscimento 39 Funzioni discriminanti Densità Normale Si arbitraria (4) Teoria e Tecniche del Riconoscimento 40 Funzioni discriminanti Densità Normale Si arbitraria (5) Teoria e Tecniche del Riconoscimento 41 Funzioni discriminanti Densità Normale Si arbitraria (6) Teoria e Tecniche del Riconoscimento 42 Funzioni discriminanti Densità Normale Si arbitraria (7) Teoria e Tecniche del Riconoscimento 43 Funzioni discriminanti Densità Normale Si arbitraria (8) Teoria e Tecniche del Riconoscimento 44