interpretazione cognitiva della scena basata su

1
UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA
Facoltà di Scienze Matematiche, Fisiche e Naturali
Corso di Laurea Specialistica in Informatica
INTERPRETAZIONE COGNITIVA DELLA SCENA BASATA
SU APPRENDIMENTO NEURALE STDP
Relatore: Prof. Domenico G. Sorrenti
Correlatore: Dott. Axel Furlan
Tesi di Laurea di: Francesco Visin
Matricola: 705000
[email protected]
349.1277058
Data seduta prova nale:
Luglio 2011
Scopo di questa tesi è l'ideazione, la progettazione e la realizzazione di un
sistema di apprendimento e riconoscimento di elementi in una scena per
mezzo di una rete neurale articiale biologicamente plausibile. Nel tentativo
di superare i limiti degli strumenti già esistenti in questo ambito e di muoversi
nella direzione del
life-long learning,
ci si è posti l'ulteriore obiettivo che la
rete apprendesse in maniera completamente non supervisionata.
Uno dei problemi principali nell'ambito della visione articiale è il riconoscimento di oggetti. Per poter interagire in modo ecace con l'ambiente
è fondamentale che i sistemi informatici siano dotati di un sistema di visione
articiale in grado di segmentare gli oggetti, identicarli e classicarli correttamente all'interno di categorie generiche indipendentemente dalla posizione,
dalla scala e dall'illuminazione (K. Welke, E. Oztop, A. Ude, R. Dillmann,
G. Cheng, 2006; S. Edelman, N. Intrator, 2003). Negli ultimi decenni questo
campo ha suscitato un forte interesse per la comunità scientica, ma solo recentemente sono stati ottenuti dei risultati positivi.(Dickinson, 2008) Nonostante siano stati proposti numerosi approcci (A. Agarwal, B. Triggs, 2006;
D. J. Crandall, D. P. Huttenlocher, 2006; R. Fergus, P. Perona, A. Zisserman, 2003; K. Grauman, T. Darrell, 2005; F. J. Huang, Y. LeCun, 2006; B.
2
Leibe, A. Leonardis, and B. Schiele, 2004; K. Mikolajczyk, B. Leibe, and B.
Schiele, 2006; J. Mutch, D. G. Lowe, 2006; A. Opelt, A. Pinz, A. Zisserman,
2006S. Savarese, J. Winn, A. Criminisi, 2006; S. Ullman, B. Epshtein, 2006)
la maggior parte di questi ottengono buoni risultati solamente all'interno di
un dominio limitato ed il numero di classi che possono essere riconosciute in
modo computazionalmente eciente è in genere molto basso.
Solitamente
questi metodi richiedono una forte supervisione della fase apprendimento
da parte dell'uomo, ad esempio fornendo al sistema delle maschere che indichino la segmentazione delle immagini di training. Un approccio di questo
tipo è arontabile quando si vuole discriminare tra poche categorie ma non
è chiaramente sostenibile nel caso di un sistema di riconoscimento su larga
scala. La netta separazione della fase di apprendimento da quella di utilizzo,
inoltre, limita l'applicazione di questi metodi ai soli problemi stabiliti nel
corso della progettazione del sistema.
Il cervello dei primati è in grado di identicare in circa
magine proiettata per soli
20ms
150−200ms un'im-
(S. J. Thorpe et al., 1996; R. VanRullen,
S. J. Thorpe, 2000; M. Fabre-Thorpe, D. Fize, G. Richard, S. J. Thorpe,
1998; Vogels, 1999), riesce a memorizzare centinaia di classi di oggetti e può
espandere la sua conoscenza con facilità quando incontra nuove categorie.
Allo stato dell'arte nessun sistema è in grado di ottenere prestazioni paragonabili a quelle umane in termini di velocità di apprendimento, tempi di
riconoscimento, essibilità, numero di elementi che il sistema è in grado di
apprendere, invarianza del riconoscimento rispetto alla rotazione, alla scala,
alle interazioni con gli altri oggetti (i.e.: occlusione parziale) ed alle diverse
condizioni di illuminazione. Dalla presentazione del primo modello di neurone articiale (W. McCulloch, W. Pitts, 1943) sono stati proposti numerose
tipologie di reti neurali e di algoritmi di apprendimento (A. L. Hodgkin, A.
Huxley, 1952; F. Rosenblatt, 1958; P. J. Werbos, 1974; J. Hopeld, 1982;
D. E. Rumelhart, G. E. Hinton, R. J. Williams, 1986; T. Kohonen, 1979; J.
Eggert, J. L. van Hemmen, 2001). Il successo di questo genere di algoritmi
dipende da una rappresentazione eciente, compatta, robusta e generalizzabile che possa essere appresa in modo rapido e incrementale, all'interno di
una continua interazione col mondo.
Per realizzare il sistema di apprendimento e riconoscimento oggetto di
3
questa tesi si è scelto di utilizzare le reti di
spiking neurons, una particolare
classe di reti neurali articiali che codicano le informazioni trasmesse dai
neuroni nella variazione delle dierenze temporali tra gli spike.
Il sistema
integrate and re addestrati con
STDP (Spike-timing dependent plasticity), un
implementato si basa su neuroni di tipo
il metodo di apprendimento
paradigma di modica delle sinapsi che si ritiene possa essere alla base dell'apprendimento nel cervello (G. Bi, M. Poo, 2001; Sjöström et al., 2008; H.
D. I. Abarbanel, R. Huerta, M. I. Rabinovich, 2002; W. Gerstner, W. Kistler,
2002) che ha condotto a risultati interessanti in letteratura (W. Gerstner et
al.
1996; S. Song, K. D. Miller, L. F. Abbott, 2000; T. Masquelier, S. J.
Thorpe, 2007; R. Legenstein, D. Pecevski, W. Maass, 2008; M. Gilson M,
A. N. Burkitt, D. B. Grayden, D. A. Thomas, J. L. van Hemmen, 2009; T.
Masquelier, E. Hugues, G. Deco, S. J. Thorpe, 2009; T. Masquelier, S. J.
Thorpe, 2010; E. Larson, B. P. Perrone, K. Sen, C. P. Billimoria, 2010; M.
Gilson, A. N. Burkitt, D. B. Grayden, D. A. Thomas, J. L. van Hemmen,
2010).
Questo algoritmo di apprendimento si fonda sui meccanismi di
potentiation
(LTP) e di
long-term depression
long-term
(LTD), due regole di aggiorna-
mento dei pesi neurali che dipendono dalla dierenza temporale tra gli spike
(i.e.: impulsi) del neurone pre-sinaptico e quelli del neurone post-sinaptico.
Si consideri un neurone che riceve in ingresso numerose connessioni provenienti da altri neuroni:
deniamo questo neurone neurone post-sinaptico
in quanto si trova a valle della sinapsi (i.e.: il collegamento tra due neuroni) e i neuroni connessi in ingresso neuroni pre-sinaptici. Se uno dei neuroni pre-sinapici invia un impulso pochi millisecondi prima che il neurone
post-sinaptico superi la propria soglia ed emetta uno spike, la connessione
(i.e.: il peso) tra questi due neuroni viene potenziata (LTP). Al contrario,
se l'impulso di un neurone pre-sinaptico raggiunge il neurone post-sinaptico
immediatamente dopo che questo ha sparato (i.e.: emesso uno spike) il collegamento tra i due neuroni sarà inibito (LTP). L'entità del potenziamento
o dell'inibizione messa in atto è inversamente proporzionale alla dierenza
di tempo tra lo spike pre-sinaptico e quello post-sinaptico.
I neuroni sono stati disposti secondo un'architettura di tipo gerarchico divisa per livelli: il primo livello, direttamente connesso all'immagine, è l'unico
4
strato non neurale dell'intero sistema e si occupa di eettuare il riconoscimen-
edge detection )
to dei contorni (
operando un'approssimazione del gradiente
dell'intensità dell'immagine. Si è preferito svolgere questa operazione in modo non neurale per ridurre i tempi di addestramento, ma è stato dimostrato
che è possibile ottenere lo stesso risultato con reti neurali (Y. LeCun, Y.
Bengio, 1998).
I livelli successivi sono composti da strati di neuroni che
ricevono segnali dal livello sottostante e propagano le proprie uscite verso il
livello superiore. I neuroni di ogni livello vengono creati secondo una logica
just in time :
quando nessuno dei modelli neurali memorizzati è adeguato
per rappresentare una particolare conformazione degli ingressi viene creato
un nuovo neurone i cui pesi sono parzialmente deniti sulla base dell'input
ed in parte secondo una distribuzione gaussiana. Questa procedura è fondamentale per permettere l'allargamento della base di conoscenza quando
vengono presentati elementi non ancora appresi.
L'ultimo meccanismo che governa il funzionamento del sistema è una
stima dell'interesse delle diverse aree dell'immagine.
Questo elemento si è
reso necessario per limitare la creazione incontrollata di modelli neurali in
aree poco signicative dell'immagine. Come metrica dell'interesse dell'area
di immagine analizzata da un neurone ci si è basati sull'intensità totale degli
ingressi del neurone, e sulla varianza degli stimoli all'interno del
eld
receptive
(i.e.: la zona da cui il neurone riceve i segnali): se l'intensità totale e la
varianza degli stimoli ricevuti dal neurone sono inferiori a una soglia, viene
impedita la creazione di un nuovo modello neurale nel caso in cui nessuno di
quelli noti sia adeguato.
Data la complessità del problema e l'ampiezza del lavoro di ricerca e progettazione che sono alla base di questo progetto, nel contesto di questa tesi
non è stato possibile analizzare a fondo le potenzialità del modello proposto
e trovare la calibrazione ottimale dell'alto numero di parametri che ne determinano il funzionamento. Si è tuttavia realizzato un prototipo preliminare
che è stato testato su un dataset di più di 200 immagini; i risultati di questi
esperimenti sono illustrati ed analizzati nella parte nale di questa tesi, che si
conclude con una disamina delle possibili prospettive future di questo studio.