Teoria Decisionale Bayesiana 1 [email protected] Introduzione • Consideriamo l’esempio del salmone/spigola – Stato della natura, probabilità a priori • Lo stato della natura è una variabile aleatoria • La scelta del salmone e del branzino è equiprobabile – P(ω1) = P(ω2) (probabilità a priori uniforme) – P(ω1) + P( ω2) = 1 (esclusività e esaustività) 2 [email protected] • Regola di decisione con la sola informazione a priori – Decidi ω1 se P(ω1) > P(ω2) altrimenti decidi ω2 • Uso della classe – informazione condizionale • P(x | ω1) e P(x | ω2) descrivono le differenze in luminosità tra le popolazioni di branzini e salmoni. 3 [email protected] 4 [email protected] • Posteriori, verosimiglianza, evidenza – P(ω j | x) = P(x | ω j ) ⋅ P (ω j ) P(x) – Dove nel caso a due classi 2 P ( x) = ∑ P ( x | ω j ) P(ω j ) j =1 Verosimiglianza ⋅ Prob. Priori – Prob. Posteriori = Evidenza 5 [email protected] 6 [email protected] • Decisione date le probabilità a posteriori x è un’osservazione per cui: se P(ω1 | x) > P(ω2 | x) se P(ω1 | x) < P(ω2 | x) il vero stato naturale = ω1 il vero stato naturale = ω2 Pertanto: ogni qualvolta osserviamo un particolare x, la probabilità di commettere errore è data da: P(errore | x) = P(ω1 | x) se decidiamo ω2 P(errore | x) = P(ω2 | x) se decidiamo ω1 7 [email protected] • Minimizzare la probabilità di errore • Decidi ω1 se P(ω1 | x) > P(ω2 | x); altrimenti decidi ω2 Pertanto: P(errore | x) = min [P(ω1 | x), P(ω2 | x)] (Decisione di Bayes) 8 [email protected] Teoria Decisionale Bayesiana – Features Continue • Generalizziamo le idee precedenti – Uso di più di una feature (attributo) – Uso più di due classi da riconoscere – Non solo decido lo stato della natura ma permetto anche la scelta di eventuali azioni – Introdurre una loss-function (funzione di errore/perdita) che risulta più generale della probabilità di errore 9 [email protected] • Scegliere azioni piuttosto che principalmente classificare ci permettere di introdurre la possibilità di rigettare • Rifiutare di prendere una decisione quando si è certi di essere in casi molto dubbi! • La funzione errore ci permette di calcolare quanto ci costa intraprendere ciascuna singola azione 10 [email protected] Siano {ω1, ω2,…, ωc} l’insieme di c stati della natura (o “categorie/classi”) Siano {α1, α2,…, αa} l’insieme delle possibili azioni Sia λ(αi | ωj) la perdita/errore inferito nell’intraprendere l’azione αi quando lo stato della natura è ωj 11 [email protected] Rischio totale R = Somma di tutti R(αi | x) per i = 1,…,a Rischio Condizionato Minimizzare R Minimizzare R(αi | x) per i = 1,…, a c R(α i | x) = ∑ λ (α i | ω j ) P(ω j | x) j =1 per i = 1,…,a 12 [email protected] Una regola di decisione generale è la funzione α(x) Che ci dice quale azione intraprendere per ogni possibile osservazione Per ogni osservazione α(x) assume uno dei valori α1, α2,…, αa R = ∫ R(α i | x) p (x)dx 13 [email protected] Seleziona l’azione αi per cui R(αi | x) è minimo R è minimo, ed R in questo caso è chiamato Rischio di Bayes = migliori performance che possono essere raggiunte! 14 [email protected] • Classificazione a due classi α1 : decidi ω1 α2 : decidi ω2 λij = λ(αi | ωj) Perdita ottenuta nel decidere ωi quando il vero stato della natura ωj Rischio Condizionato: R(α1 | x) = λ11P(ω1 | x) + λ12P(ω2 | x) R(α2 | x) = λ21P(ω1 | x) + λ22P(ω2 | x) 15 [email protected] La nostra regola è la seguente: se R(α1 | x) < R(α2 | x) azione α1: “decidi ω1” è intrapresa Questo risulta nella seguente regola: decidi ω1 se: (λ21- λ11) P(x | ω1) P(ω1) > (λ12- λ22) P(x | ω2) P(ω2) altrimenti decidi ω2 16 [email protected] Rapporto di verosimiglianza: La precedente regola “decidi ω1” è equivalente alla seguente regola (con il vincolo che λ21>λ11): P ( x | ω1 ) λ12 − λ22 P(ω2 ) se > . P ( x | ω2 ) λ21 − λ11 P(ω1 ) Allora intraprendi l’azione α1 (decidi ω1) altrimenti intraprendi α2 (decidi ω2) 17 [email protected] Proprietà di decisione ottimale “Se il rapporto di verosimiglianza eccede una certa soglia indipendente dal pattern di input x, noi possiamo intraprendere azioni ottimali” 18 [email protected] Esercizio Seleziona la decisione ottimale in cui: Ω = {ω1, ω2} P(x | ω1) P(x | ω2) P(ω1) = 2/3 P(ω2) = 1/3 N(2, 0.5) (distribuzione Normale) N(1.5, 0.2) ⎡1 2⎤ λ=⎢ ⎥ ⎣3 4 ⎦ 19 [email protected] • Minimum-Error-Rate Classification • Classificatori, Funzioni Discriminanti e Superfici Decisionali • La Densità Normale 20 [email protected] Minimum-Error-Rate Classification • Nei problemi di classificazione, le azioni sono decisioni circa le classi di appartenenza Se l’azione αi è eseguita ed il vero stato della natura è ωj allora: la decisione è corretta se i = j ma in errore se i ≠ j • Trova una regola di decisione che minimizza la probabilità di errore che è denominato error rate 21 [email protected] • Introduzione della funzione penalità/errore zero-uno: ⎧0 i = j λ (α i | ω j ) = ⎨ ⎩1 i ≠ j i, j = 1,..., c Perciò il rischio condizionato è: c R(α i | x) = ∑ λ (α i | ω j ) P(ω j | x) j =1 = ∑ P(ω j | x) = 1 − P(ωi | x) j ≠i “Il rischio corrispondente a questa funzione errore è la probabilità media di errore” 22 [email protected] • Minimizzare il rischio significa massimizzare P(ωi | x) (poiché R(αi | x) = 1 – P(ωi | x)) • Per il minimo error rate – Decidi ωi se P (ωi | x) > P(ωj | x) ∀j ≠ i 23 [email protected] • Regioni di decisione e funzione errore zero-uno: λ12 − λ22 P(ω2 ) P( x | ω1 ) = θ λ allora decidi ω1 se : > θλ Sia . λ21 − λ11 P(ω1 ) P( x | ω2 ) • Se λ è la funzione errore zero-uno che significa: ⎛ 0 1⎞ ⎟⎟ λ = ⎜⎜ ⎝1 0 ⎠ allora θ λ = 1 ⋅ P(ω2 ) = θa P(ω1 ) ⎛0 2 ⎞ 2 P(ω2 ) ⎟⎟ allora θ λ = se λ = ⎜⎜ = θb P(ω1 ) ⎝1 0 ⎠ La soglia aumenta se noi classifichiamo pattern di ω2 come ω1 24 [email protected] 25 [email protected] Classificatori, Funzioni Discriminanti e Superfici di Decisione • Il caso multi-categoria – Insiemi di funzioni discriminanti gi(x), i = 1,…, c – Il classificatore assegna un vettore di feature x alla classe ωi se è valida la seguente relazione: gi(x) > gj(x) ∀j ≠ i 26 [email protected] 27 [email protected] • Sia gi(x) = - R(αi | x) (massimo discriminante corrisponde al minimo rischio!) • Per il minimo errore, otteniamo gi(x) = P(ωi | x) (massima discriminazione corrisponde alla massima probabilità a posteriori!) gi(x) ≡ P(x | ωi) P(ωi) gi(x) = ln P(x | ωi) + ln P(ωi) (ln: logaritmo naturale!) 28 [email protected] • Spazio delle feature diviso in c regioni di decisione se gi(x) > gj(x) ∀j ≠ i allora x è in Ri (Ri significa assegna x a ωi) • Il caso a due categorie – Un classificatore è una “dicotomizzatore” dicotomizzatore che ha due funzioni discriminanti g1 e g2 Sia g(x) ≡ g1(x) – g2(x) Decidi ω1 se g(x) > 0 ; Altrimenti decidi ω2 29 [email protected] Quindi il classificatore a due classi può essere visto come una macchina che calcola una singola funzione discriminante g(x), che classifica x in base al segno algebrico del risultato – Il calcolo di g(x) g( x ) = P ( ω 1 | x ) − P ( ω 2 | x ) P( x | ω1 ) P( ω1 ) = ln + ln P( x | ω 2 ) P( ω 2 ) 30 [email protected] 31 [email protected] La Densità Normale • La struttura di un classificatore di Bayes è determinata da 9p(x|ωi) 9P(ωi) Di tutte le funzioni densità di probabilità investigate quella che ha ricevuto maggior interesse è la Gaussiana La densità multivariata è un modello appropriato per casi reali in cui: – x è un vettore di feature a valori continui per una data classe ωi – x è generalmente è una versione corrotta del vettore prototipo μi 32 [email protected] La Densità Normale • Densità Univariata – – – – Densità analiticalmente trattabile Densità continua Parecchi processi sono asintoticamente Gaussiani Caratteri scritti a mano, segnali vocali sono prototipi corrotti da processi random (teorema centrale del limite). limite Ossia l’effetto aggregato della somma di un numero di piccoli ed indipendenti disturbi conduce alla distribuzione Gaussiana P( x ) = 2 ⎡ 1 1⎛ x−μ⎞ ⎤ exp ⎢ − ⎜ ⎟ ⎥, 2π σ ⎢⎣ 2 ⎝ σ ⎠ ⎥⎦ Dove: μ = media (o valore atteso) di x σ2 = deviazione quadratica attesa o varianza 33 [email protected] 34 [email protected] • Vi è una stretta relazione tra la distribuzione normale e l’entropia H ( p ( x)) = − ∫ p ( x) log p ( x)dx • Tra tutte le funzioni densità continue, quella Gaussiana N(μ ,σ2) ha la massima entropia H = 0.5 + log 2 ( 2π σ ) bits 35 [email protected] • Densità Multivariata – Densità Normale Multivariata in d dimensioni è: P( x ) = 1 ( 2π ) d/2 Σ 1/ 2 ⎡ 1 ⎤ t −1 exp ⎢ − ( x − μ ) Σ ( x − μ )⎥ ⎣ 2 ⎦ dove: x = (x1, x2, …, xd)t (t trasposto) μ = (μ1, μ2, …, μd)t media Σ = d*d matrice di covarianza |Σ| e Σ-1 sono determinante e inversa rispettivamente 36 [email protected] Combinazioni lineari di variabili aleatorie congiunte normalmente distribuite, indipendenti o meno, sono normalmente distribuite Se p(x)~N(μ ,∑), A(d×k) matrice y=Atx vettore k-dimensionale, allora p(y)~N(Atμ,At∑A) Aw = ΦΛ−1/ 2 autovettori Nel caso speciale in cui k=1, A è un vettore di lunghezza unitaria a allora y=atx è uno scalare che rappresenta la proiezione di x su una linea nella direzione di a at∑a rappresenta la varianza della proiezione di x su a In generale la conoscenza della matrice di varianza ci permette di calcolare la dispersione dei dati in qualsiasi direzione, oppure in qualsiasi sottospazio 37 [email protected] autovalori La densità normale multivariata è interamente specificata da d+d(d+1)/2 parametri ossia gli elementi del vettore media μ e gli elementi indipendenti della matrice ∑ Campioni ottenuti da una stessa popolazione di oggetti normalmente distribuiti, tendono a formare una nebulosa (cluster) individuata da μ e ∑ (centro e dispersione) La quantità r 2 = ( x − μ )t Σ −1 ( x − μ ) definisce la distanza quadrata di Mahalobis 38 [email protected] Funzioni Discriminanti per la densità Normale Teoria di Decisione Bayesiana– Features Discrete 39 [email protected] Funzioni Discriminanti per la distribuzione Normale • Abbiamo visto che il minimo errore di classificazione può essere ottenuto dalla funzione discriminante gi(x) = ln P(x | ωi) + ln P(ωi) • Caso Normale Multivariato 1 d 1 −1 g i ( x) = − ( x − μi )t ∑i ( x − μi ) − ln 2π − ln Σ i + ln P(ωi ) 2 2 2 40 [email protected] • Caso Σi = σ2·I (I matrice Identità) g i ( x) = wit x + wi 0 (funzione lineare discriminante) dove : μi 1 t wi = 2 ; wi 0 = − 2 μi μi + ln P(ωi ) σ 2σ (ωi 0 è chiamata la soglia per la i - esima categoria!) 41 [email protected] – Un classificatore che usa funzioni lineari discriminanti è chiamato “una macchina lineare” lineare – Le superfici di decisione per una macchina lineare sono pezzi di iperpiani definiti da : gi(x) = gj(x) che per il nostro particolare caso si può riscrivere come: w t (x − x 0 ) = 0 dove w = μ i − μ j 42 [email protected] 43 [email protected] – L’iperpiano che separa Ri e Rj σ2 1 x0 = ( μ i + μ j ) − 2 μi − μ j 2 P( ω i ) ln ( μi − μ j ) P( ω j ) sempre ortogonale alla linea congiungente le medie! 1 se P(ωi ) = P (ω j ) allora x0 = ( μi + μ j ) 2 44 [email protected] 45 [email protected] 46 [email protected] • Caso Σi = Σ (la covarianza di tutte le classi sono identiche ma altrimenti arbitrarie!) L’iperpiano che separa Ri e Rj w = Σ −1 (μ i − μ j ) [ ] Rj ln P ( ω i ) / P ( ω j ) 1 x0 = ( μ i + μ j ) − .( μ i − μ j ) t −1 2 ( μ i separa − μ j ) Σ ( μand i −μj ) è (l’iperpiano che Ri generalmente non ortogonale alla linea congiungente le medie!) 47 [email protected] 48 [email protected] 49 [email protected] • Caso Σi = arbitratio – Le matrici di covarianza sono differenti per ciascuna categoria g i ( x ) = x tWi x + wit x + wi 0 dove : 1 −1 Wi = − Σi 2 w i = Σ i−1 μ i w i0 1 t −1 1 = − μ i Σ i μ i − ln Σ i + ln P (ω i ) 2 2 (Iperquadriche che sono: iperpiani, coppie di iperpiani, ipersfere, iper-ellissoidi, iper-paraboloidi, iper-iperparaboloidi) 50 [email protected] 51 [email protected] 52 [email protected] Esempio Assumiamo: Quindi impostando g1(x) = g2(x) Otteniamo l’intorno decisionale Nota che il vertice dell’iperbola passa per (3 , 1.83) e non per il punto medio (3 , 2). Perchè? 53 [email protected] Probabilità di Errore e Integrali Possiamo ottenere maggiori dettagli se analizziamo la sorgente di errori che si possono commettere in un classificatore di Bayes Consideriamo il caso a due categorie, quindi due possibili errori: R2 X in R1 X in ma il vero stato della natura è ω1 ma il vero stato della natura è ω2 54 [email protected] Probabilità di Errore e Integrali 55 [email protected] Receiver Operating Characteristic (ROC – Curve) Usata in psicologia sperimentale e rilevazione radar Supponiamo di voler rilevare un singolo impulso molto debole (per esempio radar) Il nostro rilevatore osserva in qualche istante un segnale interno di tensione x, media dei valori μ2 quando il segnale esterno è presente media dei valori μ1 quando il segnale esterno NON è presente P(x|ωi)~N(μi ,σ2) 56 [email protected] Receiver Operating Characteristic (ROC – Curve) P(x|ωi)~N(μi ,σ2) 57 [email protected] Receiver Operating Characteristic (ROC – Curve) Consideriamo che non conosciamo x* e neppure le medie e varianze delle distribuzioni Vogliamo trovare un parametro per capire se l’impulso è presente o meno nel rilevatore in una forma indipendente da x*. Una tale misura è denominata con discriminability Essa descrive la proprietà invariante del segnale interno causato dal rumore e dalla forza del segnale ma non dalla strategia della decisione (x*) 58 [email protected] Receiver Operating Characteristic (ROC – Curve) Definiamo il potere discriminante come segue Un valore grande di d’ sarebbe desiderabile Pur non conoscendo x*, μ1, μ2 e σ conosciamo la decisione del sistema e lo stato della natura (quando è presente un impulso o meno) 59 [email protected] Receiver Operating Characteristic (ROC – Curve) 60 [email protected] Receiver Operating Characteristic (ROC – Curve) Se abbiamo un gran numero di osservazioni e conosciamo x* possiamo calcolare queste probabilità sperimentalmente. Le prime due particolarmente Possiamo rappresentare con un grafico 2D le prob. di falsi allarmi e corretta decisione (hit). Se invece variamo x* (ovvero d’), anche le due prob. varieranno 61 [email protected] Receiver Operating Characteristic (ROC – Curve) 62 [email protected] Bayes Decision Theory – Discrete Features • Le componenti di x sono binarie o a valori interi, x può assumere solo uno degli m valori discreti v1, v2, …, vm • Caso di feature binarie indipendenti per un problema a 2 categorie Sia x= [x1, x2, …, xd ]t in cui ciascuna xi può essere 0 oppure 1, con probabilità: pi = P(xi = 1 | ω1) qi = P(xi = 1 | ω2) 63 [email protected] Bayes Decision Theory – Discrete Features d P( x | ω1 ) = ∏ pixi (1 − pi )1− xi i =1 d P ( x | ω2 ) = ∏ qixi (1 − qi )1− xi Rapporto di verosimiglianza i =1 ⎛p ⎞ P( x | ω1 ) = ∏ ⎜⎜ i ⎟⎟ P( x | ω2 ) i =1 ⎝ qi ⎠ d g ( x) = xi ⎛ 1 − pi ⎞ ⎜⎜ ⎟⎟ ⎝ 1 − qi ⎠ 1− xi P( x | ω1 ) P(ω1 ) + ln P( x | ω2 ) P(ω2 ) ⎡ p 1 − pi ⎤ P (ω1 ) + ln = ∑ ⎢ xi ln i + (1 − xi ) ln ⎥ qi 1 − qi ⎦ P(ω2 ) i =1 ⎣ d 64 [email protected] • La funzione discriminante in questo caso è: d g ( x) = ∑ wi xi + w0 i =1 dove : pi (1 − qi ) wi = ln qi (1 − pi ) i = 1,..., d e: 1 − pi P(ω1 ) + ln w0 = ∑ ln 1 − qi P (ω2 ) i =1 d decidi ω1 se g(x) > 0 e ω2 se g(x) ≤ 0 65 [email protected] Esempio Problema a 2 classi con 3 features binarie. Costruiamo l’intorno decisionale di Bayes nel caso P(ω1)=P(ω2)=0.5 e pi=0.8 e qi=0.5 per i=1,2,3 3 Dalle equazioni precedenti calcoliamo g ( x) = ∑ wi xi + w0 wi = ln i =1 pi (1 − qi ) 0.8(0.8 − 0.5) = ln = 1.3863 0.5(1 − 0.8) qi (1 − pi ) 3 w0 = ∑ ln i =1 3 1 − pi P(ω1 ) + ln 1 − qi P(ω2 ) = ∑ ln i =1 1 − 0.8 0.5 + ln = 1.2 1 − 0.5 0.5 66 [email protected]