Facoltà di Scienze MM. FF. NN.
Università di Verona
A.A. 2013-14
Teoria e Tecniche del
Riconoscimento
Teoria della decisione di Bayes
Teorie e Tecniche del Riconoscimento
1
Rev. Thomas Bayes, F.R.S (1702-1761)
Teorie e Tecniche del Riconoscimento
2
Introduzione
• Approccio statistico fondamentale di classificazione di
pattern
• Ipotesi:
1. Il problema di decisione è posto in termini probabilistici;
2. Tutte le probabilità rilevanti sono conosciute;
• Goal:
Discriminare le differenti regole di decisione usando
le probabilità ed i costi ad esse associati;
Teorie e Tecniche del Riconoscimento
3
Un esempio semplice
•
•
Sia w lo stato di natura da descrivere probabilisticamente;
Siano date:
1. Due classi w1 and w2 per cui sono note
a) P( w  w1 ) = 0.7
b) P( w  w2 ) = 0.3
= Probabilità a priori o Prior
2. Nessuna misurazione.
• Regola di decisione:
– Decidi w1 se P(w1) > P(w2); altrimenti decidi w2
• Più che decidere, indovino lo stato di natura.
Teorie e Tecniche del Riconoscimento
4
Altro esempio – Formula di Bayes
•
Nell’ipotesi precedente, con in più la singola misurazione
x, v.a. dipendente da w j , posso ottenere
p( x | w j ) j 1, 2
= Likelihood , o
Probabilità stato-condizionale
ossia la probabilità di avere
la misurazione x sapendo che
lo stato di natura è w j.
Fissata la misurazione x più è
alta p( x | w j ) più è probabile
che w j sia lo stato “giusto”.
Teorie e Tecniche del Riconoscimento
5
Altro esempio – Formula di Bayes (2)
•
Note P (w j ) e p( x | w j ) , la decisione dello stato di natura diventa,
per Bayes
p(w j , x)  P(w j | x) p( x)  p( x | w j ) P(w j )
ossia
P(w j | x) 
• P (w j )
p( x | w j ) P(w j )
p ( x)
 p( x | w j ) P(w j ) , dove:
= Prior
• P( x | w j ) = Likelihood
• P(w j | x) = Posterior
J
• p( x)   p( x | w j )P(w j )
j 1
= Evidenza
Teorie e Tecniche del Riconoscimento
6
Regola di decisione di Bayes
P(w j | x) 
•
•
p( x | w j ) P(w j )
likelihood  prior
posterior 
evidence
p ( x)
Ossia il Posterior o probabilità a posteriori è la probabilità che lo
stato di natura sia w j data l’osservazione x.
Il fattore più importante è il prodotto likelihood  prior ;
l’evidenza p (x ) è semplicemente un fattore di scala, che assicura che
 P(w
j
| x)  1
j
•
Dalla formula di Bayes deriva la regola di decisione di Bayes:
Decidi
w1 se P(w1|x) > P(w2|x) , w2 altrimenti
Teorie e Tecniche del Riconoscimento
7
Regola di decisione di Bayes (2)
•
Per dimostrare l’efficacia della regola di decisione di Bayes:
1) Definisco la probabilità d’errore annessa a tale decisione:
P (error | x) 

P(w1 | x)
se decido
w2
P(w2 | x)
se decido
w1
2) Dimostro che la regola di decisione di Bayes minimizza la
probabilità d’errore.
Decido w1 se P(w1 | x)  P(w2 | x) e viceversa.
3) Quindi se voglio minimizzare la probabilità media di errore su
tutte le osservazioni
possibili,


P(error )   P(error , x)dx   P(error | x) p( x)dx


se per ogni x prendo P(error|x) più piccola possibile mi assicuro la
probabilità d’errore minore (come detto il fattore p(x) è ininfluente).
Teorie e Tecniche del Riconoscimento
8
Regola di decisione di Bayes (3)
In questo caso tale probabilità d’errore diventa
P(error|x)=min[P(w1|x), P(w2|x)];
Questo mi assicura che la regola di decisione di Bayes
Decidi w1 se P(w1|x)> P(w2|x) , w2 altrimenti
minimizza l’errore!
•
Regola di decisione equivalente:
–
La forma della regola di decisione evidenzia l’importanza della
probabilità a posteriori, e sottolinea l’ininfluenza dell’evidenza, un
fattore di scala che mostra quanto frequentemente si osserva un
pattern x; eliminandola, si ottiene la equivalente regola di decisione:
Decidi
w1 se p(x|w1)P(w1)> p(x|w2)P(w2) , w2 altrimenti
Teorie e Tecniche del Riconoscimento
9
Teoria della decisione
• Il problema può essere scisso in una fase di inferenza in cui si usano i
dati per addestrare un modello p(wk|x) e una seguente fase di
decisione, in cui si usa la posterior per fare la scelta della classe
• Un’alternativa è quella di risolvere i 2 problemi contemporaneamente
e addestrare una funzione che mappi l’input x direttamente nello
spazio delle decisioni, cioè delle classi  linear machine, che usa
funzioni discriminanti lineari
Teorie e Tecniche del Riconoscimento
10
Funzioni discriminanti
• Uno dei vari metodi per rappresentare classificatori di pattern consiste in
un set di funzioni discriminanti gi(x), i=1...c
• Il classificatore finale, ossia la linear machine assegna il vettore di
feature x alla classe wi se
gi(x) > gj(x) per ogni j  i
Teorie e Tecniche del Riconoscimento
11
Funzione discriminanti (2)
•
Esistono molte funzioni discriminanti equivalenti. Per esempio, tutte
quelle per cui i risultati di classificazione sono gli stessi
– Per esempio, se f è una funzione monotona crescente, allora
gi (x)  f ( gi (x))
– Alcune forme di
funzioni discriminanti
sono più semplici da
capire o da calcolare
Teorie e Tecniche del Riconoscimento
12
Funzione discriminanti (3)
• L’effetto di una funzione discriminante è quello di dividere lo spazio
delle features in c superfici di separazione o decisione, R1, ..., Rc
– Le regioni sono separate con confini di
decisione, linee descritte dalle funzioni
discriminanti.
– Nel caso a due categorie ho due
funzioni discriminanti, g1,g2, per cui
assegno x a w1 se g1 > g2 o g1-g2>0
– Usando
g ( x)  g1 ( x)  g 2 ( x)
g ( x)  P (w1 | x)  P (w 2 | x)
p ( x | w1 )
P (w1 )
g ( x)  ln
 ln
p (x | w 2 )
P (w 2 )
ottengo una linear machine
Teorie e Tecniche del Riconoscimento
13
La densità normale
• La struttura di un classificatore di Bayes è determinata da:
– Le densità condizionali p(x | wi )
– Le probabilità a priori P(wi )
• Una delle più importanti densità è la densità
normale o Gaussiana multivariata; infatti:
– è analiticamente trattabile;
– più importante, fornisce la migliore
modellazione di problemi sia teorici che pratici
• il teorema del Limite Centrale asserisce
che “sotto varie condizioni, la
distribuzione della somma di d variabili
aleatorie indipendenti tende ad un limite
particolare conosciuto come distribuzione
normale”.
Teorie e Tecniche del Riconoscimento
Intervallo Inform.
 
  2
68%
  2.5
99%
95%
14
La densità normale (2)
• La funzione Gaussiana ha altre proprietà
– La trasformata di Fourier di una funzione Gaussiana
è una funzione Gaussiana;
– È ottimale per la localizzazione nel tempo o in
frequenza
Teorie e Tecniche del Riconoscimento
15
Densità normale univariata
• Iniziamo con la densità normale univariata. Essa è completamente
specificata da due parametri, media  e varianza 2, si indica con
N(, 2 ) e si presenta nella forma
2

1
 1 x  

p ( x) 
exp  
 
2 

 2   

Media   E[ x] 

 xp( x)dx

2
2


E
[(
x


)
]
Varianza

2
(
x


)
p ( x) dx


• Fissata media e varianza la densità Normale è quella dotata di massima
entropia;
 L’entropia misura l’incertezza di una distribuzione o la quantità
d’informazione necessaria in media per descrivere la variabile
aleatoria associata, ed è data da

H ( p( x))   p( x) ln p( x) dx
Teorie e Tecniche del Riconoscimento
16
Densità normale multivariata
• La generica densità normale multivariata a d dimensioni si
presenta nella forma
 1

T 1
p(x) 
exp

(
x


)
S
(
x


)


1/ 2
d /2
 2

2  S
1
in cui
   vettore di media a d componenti
 S  matrice d x d di covarianza, dove
 |S | = determinante della matrice
 S -1 = matrice inversa
d=1
d=2

t
t

S


(
x

μ
)
(
x

μ
)

(
x

μ
)
(
x

μ
)
p(x)dx
– Analiticamente

– Elemento per elemento  ij  ( xi   i )( x j   j )
Teorie e Tecniche del Riconoscimento
17
Densità normale multivariata (2)
• Caratteristiche della matrice di covarianza
– Simmetrica
– Semidefinita positiva (|S|  0)
2
– ii= varianza di x i (=  i )
– ij= covarianza tra xi e xj (se xi e xj sono statisticamente
indipendenti ij= 0)
– Se  ij  0 i  j p(x) è il prodotto della densità univariata per x
componente per componente.
– Se
• p (x)  N (μ, S)
• A matrice d x k
• y=Atx
 p(y )  N ( At μ, At SA)
Teorie e Tecniche del Riconoscimento
18
Densità normale multivariata (3)
• CASO PARTICOLARE: k = 1
– p(x)  N (μ,Σ)
– a vettore d x 1 di lunghezza unitaria
– y=atx
– y è uno scalare che rappresenta la proiezione di x su una
linea in direzione definita da a
– at S a è la varianza di x su a
• In generale S ci permette di
calcolare la dispersione dei
dati in ogni superficie,
o sottospazio.
Teorie e Tecniche del Riconoscimento
19
Densità normale multivariata (4)
• Siano (trasf. sbiancante, whitening transform)
F la matrice degli autovettori di S in colonna;
– L la matrice diagonale dei corrispondenti autovalori;
La trasformazione Aw = FL1/2 , applicata alle coordinate dello
–
•
spazio delle feature, assicura una distribuzione con matrice di covarianza
= I (matrice identica)
• La densità N(, S ) d-dimensionale
necessita di d + d(d+1)/2 parametri per
essere definita
• Ma cosa rappresentano graficamente
FeL?
Media
individuata dalle
coordinate di 
Teorie e Tecniche del Riconoscimento
20
Densità normale multivariata (5)
Gli assi principali degli
iperellissoidi sono dati dagli
Le lunghezze degli assi
principali degli iperellissoidi
sono dati dagli autovalori di
S (descritti da L)
autovettori di S (descritti da F)
Gli iperellissoidi sono quei luoghi dei
punti per i quali la distanza di x da 
r 2  (x  )t S 1 (x  )
detta anche distanza di Mahalanobis,
è costante
Teorie e Tecniche del Riconoscimento
21
Funzioni discriminanti - Densità Normale
• Tornando ai classificatori Bayesiani, ed in particolare alle
linear machine, analizziamo la funzione discriminante come si
traduce nel caso di densità Normale
gi (x)  ln p(x | wi )  ln P(wi )
1
d
1
t
1
g i (x)   (x  μ i ) Σ i (x  μ i )  ln 2  ln Σ i  ln P(wi )
2
2
2
• A seconda della natura di S, la funzione discriminante può
essere semplificata. Vediamo alcuni esempi.
Teorie e Tecniche del Riconoscimento
22
Funzioni discriminanti - Densità Normale Si=2I
• È il caso più semplice in cui le feature sono statisticamente
indipendenti (ij= 0, ij ), ed ogni classe ha la stessa varianza
(caso 1-D):
g i ( x)  
g i ( x)  
x  μi
2
2
2
 ln P(w i )
x x  2μ x  μ μ  ln P(w )
1
t
t
i
t
i
2 2
dove il termine x t x, uguale per ogni x,
i
i
può essere ignorato giungendo alla forma :
g i (x)  w ti x  w i 0 ,
dove
wi 
1

μi e w i0  
2
1
2
t
μ
i μ i  ln P (w i )
2
Teorie e Tecniche del Riconoscimento
23
Funzioni discriminanti - Densità Normale Si=2I (2)
• Le funzioni precedenti vengono chiamate funzioni
discriminanti lineari
• I confini di decisione sono dati da gi(x)=gj(x) per le due
classi con più alta probabilità a posteriori
– In questo caso particolare abbiamo:
w (x  x 0 )  0
t
dove
w  μi  μ j
2
μi  μ j
NB: se
la posizione del confine di
decisione è insensibile ai prior!
1
2
x 0  (μ i  μ j ) 
2
μi  μ j
2<<
2
P (wi )
ln
(μ i  μ j )
P (w j )
Teorie e Tecniche del Riconoscimento
24
Funzioni discriminanti - Densità Normale Si=2I (3)
•
•
Le funzioni discriminanti lineari definiscono un iperpiano
passante per x0 ed ortogonale a w:
dato che w  μ i  μ j , l’iperpiano che separa Ri da Rj è
ortogonale alla linea che unisce le medie.
Dalla formula precedente si nota che, a parità di varianza, il
prior maggiore determina la classificazione.
1-D
Teorie e Tecniche del Riconoscimento
25
Funzioni discriminanti - Densità Normale Si=2I (4)
1-D
2-D
Teoria e Tecniche del Riconoscimento
Teorie e Tecniche del Riconoscimento
26
Funzioni discriminanti - Densità Normale Si=2I (5)
2-D
3-D
Teoria e Tecniche del Riconoscimento
Teorie e Tecniche del Riconoscimento
27
Funzioni discriminanti - Densità Normale Si=2I (6)
1
2
x 0  (μ i  μ j ) 
2
μi  μ j
2
P(wi )
ln
(μ i  μ j )
P(w j )
• NB.: Se le probabilità prior P(wi), i=1,...,c sono uguali,
allora il termine logaritmico può essere ignorato,
riducendo il classificatore ad un classificatore di
minima distanza.
• In pratica, la regola di decisione ottima ha una semplice
interpretazione geometrica
– Assegna x alla classe la cui media  è più vicina
Teorie e Tecniche del Riconoscimento
28
Funzioni discriminanti - Densità Normale Si=2I (7)
2-D
1-D
Teorie e Tecniche del Riconoscimento
29
Funzioni discriminanti - Densità Normale Si=2I (8)
2-D
3-D
Teorie e Tecniche del Riconoscimento
30
Funzioni discriminanti - Densità Normale Si= S
•
Un altro semplice caso occorre quando le matrici di
covarianza per tutte le classi sono uguali, ma arbitrarie.
•
In questo caso l’ordinaria formula
1
d
1
t 1
g i (x)   (x  μ i ) S i (x  μ i )  ln 2  ln Σ i  ln P(wi )
2
2
2
può essere semplificata con
1
g i (x)   (x  μ i )t S 1 (x  μ i )  ln P(wi )
2
che è ulteriormente trattabile, con un procedimento analogo
al caso precedente (sviluppando il prodotto ed eliminando il
termine xt Σ 1x)
Teorie e Tecniche del Riconoscimento
31
Funzioni discriminanti - Densità Normale Si= S (2)
• Otteniamo così funzioni discriminanti ancora lineari, nella
forma:
g i (x)  w ti x  wi 0
dove
w i  Σ 1μ i
1 t 1
wi 0   μ i Σ μ i  ln P (w i )
2
• Poiché i discriminanti sono lineari, i confini di decisione sono
ancora iperpiani
Teorie e Tecniche del Riconoscimento
32
Funzioni discriminanti - Densità Normale Si= S (3)
•
Se le regioni di decisione Ri ed Rj sono contigue, il confine
tra esse diventa:
Teorie e Tecniche del Riconoscimento
33
Funzioni discriminanti - Densità Normale Si= S (4)
• Poiché w in generale (differentemente da prima) non è il
vettore che unisce le 2 medie (w = i - j), l’iperpiano
che divide Ri da Rj non è quindi ortogonale alla linea tra
le medie; comunque, esso interseca questa linea in x0
• Se i prior sono uguali, allora x0 si trova in mezzo alle
medie, altrimenti l’iperpiano ottimale di separazione si
troverà spostato verso la media meno probabile.
Teorie e Tecniche del Riconoscimento
34
Funzioni discriminanti - Densità Normale Si= S (5)
2-D
Teorie e Tecniche del Riconoscimento
35
Funzioni discriminanti - Densità Normale Si= S (6)
3-D
Teorie e Tecniche del Riconoscimento
36
Funzioni discriminanti - Densità Normale Si arbitraria
•
Le matrici di covarianza sono differenti per ogni categoria;
•
Le funzioni discriminanti sono inerentemente quadratiche;
Teorie e Tecniche del Riconoscimento
37
Funzioni discriminanti
Densità Normale Si arbitraria (2)
• Nel caso 2-D le superfici di decisione sono iperquadriche:
– Iperpiani
– Coppia di iperpiani
– Ipersfere
– Iperparaboloidi
– Iperiperboloidi di vario tipo
• Anche nel caso 1-D, per la varianza arbitraria, le regioni di
decisione di solito sono non connesse.
Teorie e Tecniche del Riconoscimento
38
Funzioni discriminanti
Densità Normale Si arbitraria (3)
Teorie e Tecniche del Riconoscimento
39
Funzioni discriminanti
Densità Normale Si arbitraria (4)
Teorie e Tecniche del Riconoscimento
40
Funzioni discriminanti
Densità Normale Si arbitraria (5)
Teorie e Tecniche del Riconoscimento
41
Funzioni discriminanti
Densità Normale Si arbitraria (6)
Teorie e Tecniche del Riconoscimento
42
Funzioni discriminanti
Densità Normale Si arbitraria (7)
Teorie e Tecniche del Riconoscimento
43
Funzioni discriminanti
Densità Normale Si arbitraria (8)
Teorie e Tecniche del Riconoscimento
44