PATTERN RECOGNITION PR-1 • L’obiettivo del Pattern Recognition è quello di progettare un sistema (CLASSIFICATORE) che assegni automaticmente il valore di una misura alla classe corrispondente • Lo spazio degli ingressi è suddiviso in regioni mediante superfici di decisione x2 x2 Superficie di decisione Superficie di decisione x1 Classificazione senza errori (insiemi linearmente separabili) x2 x1 Classificazione senza errori (insiemi non linearmente separabili) Superficie di decisione x1 Classificazione con errori (insiemi non linearmente separabili) PR-2 • Il problema centrale è quello di definire la forma e la posizione della superficie di decisione in modo da minimare l’errore commesso dal classificatore • CODIFICA: La risposta desiderata sarà un insieme di valori (generalmente interi) – Elementi differenti della medesima classe avranno lo stesso valore dell’uscita desiderata – Molto utilizzata la codifica binaria – Codifica a k cifre sino a 2k classi Sistema Adattativo Possiamo usare ancora x ADALINE e LMS per realizzare un classificatore lineare - Es: ADALINE > 0 classe 1 +1 y -1 LMS + - < 0 classe 2 d (-1,+1) • Buone prestazioni se il problema è linearmente separabile • I concetti usati per la regressione possono essere in gran parte riutilizzati nel pattern-recognition Formulazione Statistica PR-3 Un classificatore è ottimo se attribuisce il dato x alla classe Ci che massimizza la probabilità a posteriori P(Ci|x) cioè x Ci se PCi x PC j x j i Problema: la probabilità a posteriori non può essere misurata direttamente px Ci PCi PCi x REGOLA DI BAYES P x con: P(Ci ): probabilità a priori della classe Ci p(x|Ci ): verosimiglianza (likelihood) che il dato x sia prodotto dalla classe Ci P(x): fattore di normalizzazione NOTA: Questi valori possono essere calcolati partendo dai dati misurati, purché si assuma nota la loro funzione densità di probabilità pdf Spesso si assume una distribuzione Gaussiana e i soli dati occorrenti sono la media e la varianza Assumiamo una distribuzione Gaussiana p x 1 e 2 1 x 2 2 2 PR-4 2 con: N N 2 1 1 xi ; xi N i 1 N i 1 Generalmente si assume una certa probabilità a priori P(Ci). Sarà: PC 1 prob. a posteriori Es: i i P(x|C1) P(C1) 1 2 P(x|C2) P(C2) 1 soglia 2 • La soglia corrisponde a valori uguali di probabilità a posteriori • La classificazione non è immune da errori • Minore è la sovrapposizione migliore è l’accuratezza della classificazione PR-5 • La teoria statistica prova che è facile costruire un classificatore ottimo a partire dalla conoscenza dei dati, purché si assuma per essi una distribuzione Gaussiana • Limiti dell’approccio: – assunzione della pdf dei dati di input – necessità di un numero sufficiente di dati per stimare con sufficiente precisione le funzioni discriminanti • Dobbiamo cercare di costruire dei classificatori che non necessitino di alcuna assunzione sulle pdf dei cluster di dati RETE NEURALE ARTIFICIALE è uno dei tipi più interessanti di classificatori