Teoria Decisionale Bayesiana
1
[email protected]
Introduzione
• Consideriamo l’esempio del salmone/spigola
– Stato della natura, probabilità a priori
• Lo stato della natura è una variabile aleatoria
• La scelta del salmone e del branzino è equiprobabile
– P(ω1) = P(ω2) (probabilità a priori uniforme)
– P(ω1) + P( ω2) = 1 (esclusività e esaustività)
2
[email protected]
• Regola di decisione con la sola informazione a
priori
– Decidi ω1 se P(ω1) > P(ω2) altrimenti decidi ω2
• Uso della classe – informazione condizionale
• P(x | ω1) e P(x | ω2) descrivono le differenze in
luminosità tra le popolazioni di branzini e salmoni.
3
[email protected]
4
[email protected]
• Posteriori, verosimiglianza, evidenza
–
P(ω j | x) =
P(x | ω j ) ⋅ P (ω j )
P(x)
– Dove nel caso a due classi
2
P ( x) = ∑ P ( x | ω j ) P(ω j )
j =1
Verosimiglianza ⋅ Prob. Priori
– Prob. Posteriori =
Evidenza
5
[email protected]
6
[email protected]
• Decisione date le probabilità a posteriori
x è un’osservazione per cui:
se P(ω1 | x) > P(ω2 | x)
se P(ω1 | x) < P(ω2 | x)
il vero stato naturale = ω1
il vero stato naturale = ω2
Pertanto:
ogni qualvolta osserviamo un particolare x, la
probabilità di commettere errore è data da:
P(errore | x) = P(ω1 | x) se decidiamo ω2
P(errore | x) = P(ω2 | x) se decidiamo ω1
7
[email protected]
• Minimizzare la probabilità di errore
• Decidi ω1 se P(ω1 | x) > P(ω2 | x);
altrimenti decidi ω2
Pertanto:
P(errore | x) = min [P(ω1 | x), P(ω2 | x)]
(Decisione di Bayes)
8
[email protected]
Teoria Decisionale Bayesiana –
Features Continue
• Generalizziamo le idee precedenti
– Uso di più di una feature (attributo)
– Uso più di due classi da riconoscere
– Non solo decido lo stato della natura ma
permetto anche la scelta di eventuali azioni
– Introdurre una loss-function (funzione di
errore/perdita) che risulta più generale della
probabilità di errore
9
[email protected]
• Scegliere azioni piuttosto che principalmente
classificare ci permettere di introdurre la
possibilità di rigettare
• Rifiutare di prendere una decisione quando si è
certi di essere in casi molto dubbi!
• La funzione errore ci permette di calcolare quanto
ci costa intraprendere ciascuna singola azione
10
[email protected]
Siano {ω1, ω2,…, ωc} l’insieme di c stati della
natura (o “categorie/classi”)
Siano {α1, α2,…, αa} l’insieme delle possibili
azioni
Sia λ(αi | ωj) la perdita/errore inferito
nell’intraprendere l’azione αi quando lo stato
della natura è ωj
11
[email protected]
Rischio totale
R = Somma di tutti R(αi | x) per i = 1,…,a
Rischio Condizionato
Minimizzare R
Minimizzare R(αi | x) per i = 1,…, a
c
R(α i | x) = ∑ λ (α i | ω j ) P(ω j | x)
j =1
per i = 1,…,a
12
[email protected]
Una regola di decisione generale è la funzione α(x)
Che ci dice quale azione intraprendere per ogni
possibile osservazione
Per ogni osservazione α(x) assume uno dei valori
α1, α2,…, αa
R = ∫ R(α i | x) p (x)dx
13
[email protected]
Seleziona l’azione αi per cui R(αi | x) è minimo
R è minimo, ed R in questo caso è chiamato
Rischio di Bayes = migliori performance che
possono essere raggiunte!
14
[email protected]
• Classificazione a due classi
α1 : decidi ω1
α2 : decidi ω2
λij = λ(αi | ωj)
Perdita ottenuta nel decidere ωi quando il vero stato della
natura ωj
Rischio Condizionato:
R(α1 | x) = λ11P(ω1 | x) + λ12P(ω2 | x)
R(α2 | x) = λ21P(ω1 | x) + λ22P(ω2 | x)
15
[email protected]
La nostra regola è la seguente:
se R(α1 | x) < R(α2 | x)
azione α1: “decidi ω1” è intrapresa
Questo risulta nella seguente regola:
decidi ω1 se:
(λ21- λ11) P(x | ω1) P(ω1) >
(λ12- λ22) P(x | ω2) P(ω2)
altrimenti decidi ω2
16
[email protected]
Rapporto di verosimiglianza:
La precedente regola “decidi ω1” è equivalente alla seguente
regola (con il vincolo che λ21>λ11):
P ( x | ω1 ) λ12 − λ22 P(ω2 )
se
>
.
P ( x | ω2 ) λ21 − λ11 P(ω1 )
Allora intraprendi l’azione α1 (decidi ω1)
altrimenti intraprendi α2 (decidi ω2)
17
[email protected]
Proprietà di decisione ottimale
“Se il rapporto di verosimiglianza eccede una
certa soglia indipendente dal pattern di input
x, noi possiamo intraprendere azioni ottimali”
18
[email protected]
Esercizio
Seleziona la decisione ottimale in cui:
Ω = {ω1, ω2}
P(x | ω1)
P(x | ω2)
P(ω1) = 2/3
P(ω2) = 1/3
N(2, 0.5) (distribuzione Normale)
N(1.5, 0.2)
⎡1 2⎤
λ=⎢
⎥
⎣3 4 ⎦
19
[email protected]
• Minimum-Error-Rate Classification
• Classificatori, Funzioni Discriminanti e
Superfici Decisionali
• La Densità Normale
20
[email protected]
Minimum-Error-Rate Classification
• Nei problemi di classificazione, le azioni sono
decisioni circa le classi di appartenenza
Se l’azione αi è eseguita ed il vero stato della natura è ωj
allora:
la decisione è corretta se i = j ma in errore se i ≠ j
• Trova una regola di decisione che minimizza la
probabilità di errore che è denominato error rate
21
[email protected]
• Introduzione della funzione penalità/errore zero-uno:
⎧0 i = j
λ (α i | ω j ) = ⎨
⎩1 i ≠ j
i, j = 1,..., c
Perciò il rischio condizionato è:
c
R(α i | x) = ∑ λ (α i | ω j ) P(ω j | x)
j =1
= ∑ P(ω j | x) = 1 − P(ωi | x)
j ≠i
“Il rischio corrispondente a questa funzione errore è la
probabilità media di errore”
22
[email protected]
• Minimizzare il rischio significa massimizzare
P(ωi | x)
(poiché R(αi | x) = 1 – P(ωi | x))
• Per il minimo error rate
– Decidi ωi se P (ωi | x) > P(ωj | x) ∀j ≠ i
23
[email protected]
• Regioni di decisione e funzione errore zero-uno:
λ12 − λ22 P(ω2 )
P( x | ω1 )
= θ λ allora decidi ω1 se :
> θλ
Sia
.
λ21 − λ11 P(ω1 )
P( x | ω2 )
• Se λ è la funzione errore zero-uno che significa:
⎛ 0 1⎞
⎟⎟
λ = ⎜⎜
⎝1 0 ⎠
allora θ λ = 1 ⋅
P(ω2 )
= θa
P(ω1 )
⎛0 2 ⎞
2 P(ω2 )
⎟⎟ allora θ λ =
se λ = ⎜⎜
= θb
P(ω1 )
⎝1 0 ⎠
La soglia aumenta se noi classifichiamo pattern di ω2 come ω1
24
[email protected]
25
[email protected]
Classificatori, Funzioni
Discriminanti e Superfici di
Decisione
• Il caso multi-categoria
– Insiemi di funzioni discriminanti gi(x), i = 1,…, c
– Il classificatore assegna un vettore di feature x alla
classe ωi
se è valida la seguente relazione:
gi(x) > gj(x) ∀j ≠ i
26
[email protected]
27
[email protected]
• Sia gi(x) = - R(αi | x)
(massimo discriminante corrisponde al minimo rischio!)
• Per il minimo errore, otteniamo
gi(x) = P(ωi | x)
(massima discriminazione corrisponde alla massima
probabilità a posteriori!)
gi(x) ≡ P(x | ωi) P(ωi)
gi(x) = ln P(x | ωi) + ln P(ωi)
(ln: logaritmo naturale!)
28
[email protected]
• Spazio delle feature diviso in c regioni di decisione
se gi(x) > gj(x) ∀j ≠ i allora x è in Ri
(Ri significa assegna x a ωi)
• Il caso a due categorie
– Un classificatore è una “dicotomizzatore”
dicotomizzatore che ha due
funzioni discriminanti g1 e g2
Sia g(x) ≡ g1(x) – g2(x)
Decidi ω1 se g(x) > 0 ; Altrimenti decidi ω2
29
[email protected]
Quindi il classificatore a due classi può essere visto
come una macchina che calcola una singola funzione
discriminante g(x), che classifica x in base al segno
algebrico del risultato
– Il calcolo di g(x)
g( x ) = P ( ω 1 | x ) − P ( ω 2 | x )
P( x | ω1 )
P( ω1 )
= ln
+ ln
P( x | ω 2 )
P( ω 2 )
30
[email protected]
31
[email protected]
La Densità Normale
• La struttura di un classificatore di Bayes è
determinata da
9p(x|ωi)
9P(ωi)
Di tutte le funzioni densità di probabilità investigate quella che ha
ricevuto maggior interesse è la Gaussiana
La densità multivariata è un modello appropriato per
casi reali in cui:
– x è un vettore di feature a valori continui per una data classe ωi
– x è generalmente è una versione corrotta del vettore prototipo μi
32
[email protected]
La Densità Normale
• Densità Univariata
–
–
–
–
Densità analiticalmente trattabile
Densità continua
Parecchi processi sono asintoticamente Gaussiani
Caratteri scritti a mano, segnali vocali sono prototipi corrotti da processi
random (teorema centrale del limite).
limite Ossia l’effetto aggregato della somma
di un numero di piccoli ed indipendenti disturbi conduce alla distribuzione
Gaussiana
P( x ) =
2
⎡
1
1⎛ x−μ⎞ ⎤
exp ⎢ − ⎜
⎟ ⎥,
2π σ
⎢⎣ 2 ⎝ σ ⎠ ⎥⎦
Dove:
μ = media (o valore atteso) di x
σ2 = deviazione quadratica attesa o varianza
33
[email protected]
34
[email protected]
• Vi è una stretta relazione tra la distribuzione
normale e l’entropia
H ( p ( x)) = − ∫ p ( x) log p ( x)dx
• Tra tutte le funzioni densità continue, quella
Gaussiana N(μ ,σ2) ha la massima entropia
H = 0.5 + log 2 ( 2π σ ) bits
35
[email protected]
• Densità Multivariata
– Densità Normale Multivariata in d dimensioni è:
P( x ) =
1
( 2π )
d/2
Σ
1/ 2
⎡ 1
⎤
t
−1
exp ⎢ − ( x − μ ) Σ ( x − μ )⎥
⎣ 2
⎦
dove:
x = (x1, x2, …, xd)t (t trasposto)
μ = (μ1, μ2, …, μd)t media
Σ = d*d matrice di covarianza
|Σ| e Σ-1 sono determinante e inversa rispettivamente
36
[email protected]
Combinazioni lineari di variabili aleatorie congiunte normalmente
distribuite, indipendenti o meno, sono normalmente distribuite
Se p(x)~N(μ ,∑),
A(d×k) matrice
y=Atx vettore k-dimensionale,
allora p(y)~N(Atμ,At∑A)
Aw = ΦΛ−1/ 2
autovettori
Nel caso speciale in cui k=1, A è un vettore di
lunghezza unitaria a allora
y=atx
è uno scalare che rappresenta la proiezione di x
su una linea nella direzione di a
at∑a rappresenta la varianza della proiezione di
x su a
In generale la conoscenza della matrice di
varianza ci permette di calcolare la
dispersione dei dati in qualsiasi
direzione, oppure in qualsiasi
sottospazio
37
[email protected]
autovalori
La densità normale multivariata è interamente specificata da d+d(d+1)/2 parametri
ossia gli elementi del vettore media μ e gli elementi indipendenti della matrice ∑
Campioni ottenuti da una stessa popolazione di oggetti normalmente distribuiti,
tendono a formare una nebulosa (cluster) individuata da μ e ∑ (centro e
dispersione)
La quantità
r 2 = ( x − μ )t Σ −1 ( x − μ )
definisce la distanza quadrata di Mahalobis
38
[email protected]
Funzioni Discriminanti per la densità Normale
Teoria di Decisione Bayesiana– Features Discrete
39
[email protected]
Funzioni Discriminanti per la
distribuzione Normale
• Abbiamo visto che il minimo errore di
classificazione può essere ottenuto dalla funzione
discriminante
gi(x) = ln P(x | ωi) + ln P(ωi)
• Caso Normale Multivariato
1
d
1
−1
g i ( x) = − ( x − μi )t ∑i ( x − μi ) − ln 2π − ln Σ i + ln P(ωi )
2
2
2
40
[email protected]
• Caso Σi = σ2·I
(I matrice Identità)
g i ( x) = wit x + wi 0 (funzione lineare discriminante)
dove :
μi
1 t
wi = 2 ; wi 0 = − 2 μi μi + ln P(ωi )
σ
2σ
(ωi 0 è chiamata la soglia per la i - esima categoria!)
41
[email protected]
– Un classificatore che usa funzioni lineari discriminanti
è chiamato “una macchina lineare”
lineare
– Le superfici di decisione per una macchina lineare
sono pezzi di iperpiani definiti da :
gi(x) = gj(x)
che per il nostro particolare caso si può riscrivere come:
w t (x − x 0 ) = 0 dove w = μ i − μ j
42
[email protected]
43
[email protected]
– L’iperpiano che separa Ri e Rj
σ2
1
x0 = ( μ i + μ j ) −
2
μi − μ j
2
P( ω i )
ln
( μi − μ j )
P( ω j )
sempre ortogonale alla linea congiungente le
medie!
1
se P(ωi ) = P (ω j ) allora x0 = ( μi + μ j )
2
44
[email protected]
45
[email protected]
46
[email protected]
• Caso Σi = Σ (la covarianza di tutte le classi
sono identiche ma altrimenti arbitrarie!)
L’iperpiano che separa Ri e Rj
w = Σ −1 (μ i − μ j )
[
]
Rj
ln P ( ω i ) / P ( ω j )
1
x0 = ( μ i + μ j ) −
.( μ i − μ j )
t
−1
2
( μ i separa
− μ j ) Σ ( μand
i −μj ) è
(l’iperpiano
che
Ri
generalmente non ortogonale alla linea
congiungente le medie!)
47
[email protected]
48
[email protected]
49
[email protected]
• Caso Σi = arbitratio
– Le matrici di covarianza sono differenti per ciascuna
categoria
g i ( x ) = x tWi x + wit x + wi 0
dove :
1 −1
Wi = − Σi
2
w i = Σ i−1 μ i
w i0
1 t −1
1
= − μ i Σ i μ i − ln Σ i + ln P (ω i )
2
2
(Iperquadriche che sono: iperpiani, coppie di iperpiani,
ipersfere, iper-ellissoidi, iper-paraboloidi, iper-iperparaboloidi)
50
[email protected]
51
[email protected]
52
[email protected]
Esempio
Assumiamo:
Quindi impostando
g1(x) = g2(x)
Otteniamo l’intorno decisionale
Nota che il vertice dell’iperbola passa per (3 , 1.83) e non per il punto medio (3 , 2).
Perchè?
53
[email protected]
Probabilità di Errore e Integrali
Possiamo ottenere maggiori dettagli se analizziamo la sorgente di
errori che si possono commettere in un classificatore di Bayes
Consideriamo il caso a due categorie, quindi due possibili errori:
R2
X in R1
X in
ma il vero stato della natura è ω1
ma il vero stato della natura è ω2
54
[email protected]
Probabilità di Errore e Integrali
55
[email protected]
Receiver Operating Characteristic (ROC – Curve)
Usata in psicologia sperimentale e rilevazione radar
Supponiamo di voler rilevare un singolo impulso molto debole (per
esempio radar)
Il nostro rilevatore osserva in qualche istante
un segnale interno di tensione x,
media dei valori μ2 quando il segnale esterno è presente
media dei valori μ1 quando il segnale esterno NON è presente
P(x|ωi)~N(μi ,σ2)
56
[email protected]
Receiver Operating Characteristic (ROC – Curve)
P(x|ωi)~N(μi ,σ2)
57
[email protected]
Receiver Operating Characteristic (ROC – Curve)
Consideriamo che non conosciamo
x* e neppure le medie e varianze delle distribuzioni
Vogliamo trovare un parametro per capire se
l’impulso è presente o meno nel rilevatore in una
forma indipendente da x*.
Una tale misura è denominata con discriminability
Essa descrive la proprietà invariante del segnale
interno causato dal rumore e dalla forza del segnale
ma non dalla strategia della decisione (x*)
58
[email protected]
Receiver Operating Characteristic (ROC – Curve)
Definiamo il potere discriminante come segue
Un valore grande di d’ sarebbe desiderabile
Pur non conoscendo x*, μ1, μ2 e σ conosciamo la
decisione del sistema e lo stato della natura (quando
è presente un impulso o meno)
59
[email protected]
Receiver Operating Characteristic (ROC – Curve)
60
[email protected]
Receiver Operating Characteristic (ROC – Curve)
Se abbiamo un gran numero di osservazioni e
conosciamo x* possiamo calcolare queste probabilità
sperimentalmente. Le prime due particolarmente
Possiamo rappresentare con un grafico 2D le prob.
di falsi allarmi e corretta decisione (hit).
Se invece variamo x* (ovvero d’), anche le due prob.
varieranno
61
[email protected]
Receiver Operating Characteristic (ROC – Curve)
62
[email protected]
Bayes Decision Theory – Discrete
Features
• Le componenti di x sono binarie o a valori interi, x
può assumere solo uno degli m valori discreti
v1, v2, …, vm
• Caso di feature binarie indipendenti per un problema
a 2 categorie
Sia x= [x1, x2, …, xd ]t in cui ciascuna xi può essere 0
oppure 1, con probabilità:
pi = P(xi = 1 | ω1)
qi = P(xi = 1 | ω2)
63
[email protected]
Bayes Decision Theory – Discrete
Features
d
P( x | ω1 ) = ∏ pixi (1 − pi )1− xi
i =1
d
P ( x | ω2 ) = ∏ qixi (1 − qi )1− xi
Rapporto di verosimiglianza
i =1
⎛p ⎞
P( x | ω1 )
= ∏ ⎜⎜ i ⎟⎟
P( x | ω2 ) i =1 ⎝ qi ⎠
d
g ( x) =
xi
⎛ 1 − pi ⎞
⎜⎜
⎟⎟
⎝ 1 − qi ⎠
1− xi
P( x | ω1 )
P(ω1 )
+ ln
P( x | ω2 )
P(ω2 )
⎡
p
1 − pi ⎤
P (ω1 )
+
ln
= ∑ ⎢ xi ln i + (1 − xi ) ln
⎥
qi
1 − qi ⎦
P(ω2 )
i =1 ⎣
d
64
[email protected]
• La funzione discriminante in questo caso è:
d
g ( x) = ∑ wi xi + w0
i =1
dove :
pi (1 − qi )
wi = ln
qi (1 − pi )
i = 1,..., d
e:
1 − pi
P(ω1 )
+ ln
w0 = ∑ ln
1 − qi
P (ω2 )
i =1
d
decidi ω1 se g(x) > 0 e ω2 se g(x) ≤ 0
65
[email protected]
Esempio
Problema a 2 classi con 3 features binarie.
Costruiamo l’intorno decisionale di Bayes nel caso P(ω1)=P(ω2)=0.5 e
pi=0.8 e qi=0.5 per i=1,2,3
3
Dalle equazioni precedenti calcoliamo g ( x) = ∑ wi xi + w0
wi = ln
i =1
pi (1 − qi )
0.8(0.8 − 0.5)
= ln
= 1.3863
0.5(1 − 0.8)
qi (1 − pi )
3
w0 = ∑ ln
i =1
3
1 − pi
P(ω1 )
+ ln
1 − qi
P(ω2 )
= ∑ ln
i =1
1 − 0.8
0.5
+ ln
= 1.2
1 − 0.5
0.5
66
[email protected]