PATTERN RECOGNITION
PR-1
• L’obiettivo del Pattern Recognition è quello di progettare un
sistema (CLASSIFICATORE) che assegni automaticmente il
valore di una misura alla classe corrispondente
• Lo spazio degli ingressi è suddiviso in regioni mediante
superfici di decisione
x2
x2
Superficie
di decisione
Superficie
di decisione
x1
Classificazione senza errori
(insiemi linearmente separabili)
x2
x1
Classificazione senza errori
(insiemi non linearmente separabili)
Superficie
di decisione
x1
Classificazione con errori
(insiemi non linearmente separabili)
PR-2
• Il problema centrale è quello di definire la forma e la posizione della
superficie di decisione in modo da minimare l’errore commesso dal
classificatore
• CODIFICA: La risposta desiderata sarà un insieme di valori
(generalmente interi)
– Elementi differenti della medesima classe avranno lo stesso valore
dell’uscita desiderata
– Molto utilizzata la codifica binaria
– Codifica a k cifre  sino a 2k classi
Sistema Adattativo
Possiamo usare ancora
x
ADALINE e LMS per
realizzare un classificatore
lineare - Es:
ADALINE
> 0 classe 1
+1
y
-1
LMS
+
-
< 0 classe 2
d (-1,+1)
• Buone prestazioni se il problema è linearmente separabile
• I concetti usati per la regressione possono essere in gran parte
riutilizzati nel pattern-recognition
Formulazione Statistica
PR-3
Un classificatore è ottimo se attribuisce il dato x alla classe Ci che
massimizza la probabilità a posteriori P(Ci|x) cioè
x  Ci se PCi x  PC j x   j  i
Problema: la probabilità a posteriori non può essere misurata
direttamente
px Ci  PCi 
PCi x  
REGOLA DI BAYES
P x 
con:
P(Ci ):
probabilità a priori della classe Ci
p(x|Ci ): verosimiglianza (likelihood) che il dato x sia prodotto dalla classe Ci
P(x):
fattore di normalizzazione
NOTA: Questi valori possono essere calcolati partendo dai dati misurati,
purché si assuma nota la loro funzione densità di probabilità pdf
Spesso si assume una distribuzione Gaussiana e i soli dati
occorrenti sono la media e la varianza
Assumiamo una distribuzione Gaussiana
p x  
1
e
2
1   x   2
 
2   2



PR-4
2
con:
N
N
2
1
1
    xi ;     xi   
N i 1
N i 1
Generalmente si assume una certa probabilità a priori P(Ci).
Sarà:
PC   1
prob. a posteriori

Es:
i
i
P(x|C1) P(C1)
1
2 P(x|C2) P(C2)
1 soglia
2
• La soglia corrisponde a valori uguali di probabilità a posteriori
• La classificazione non è immune da errori
• Minore è la sovrapposizione migliore è l’accuratezza della
classificazione
PR-5
• La teoria statistica prova che è facile costruire un classificatore
ottimo a partire dalla conoscenza dei dati, purché si assuma per
essi una distribuzione Gaussiana
• Limiti dell’approccio:
– assunzione della pdf dei dati di input
– necessità di un numero sufficiente di dati per stimare con
sufficiente precisione le funzioni discriminanti
• Dobbiamo cercare di costruire dei classificatori che non
necessitino di alcuna assunzione sulle pdf dei cluster di dati
RETE NEURALE ARTIFICIALE
è uno dei tipi più interessanti di classificatori