1 UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea Specialistica in Informatica INTERPRETAZIONE COGNITIVA DELLA SCENA BASATA SU APPRENDIMENTO NEURALE STDP Relatore: Prof. Domenico G. Sorrenti Correlatore: Dott. Axel Furlan Tesi di Laurea di: Francesco Visin Matricola: 705000 [email protected] 349.1277058 Data seduta prova nale: Luglio 2011 Scopo di questa tesi è l'ideazione, la progettazione e la realizzazione di un sistema di apprendimento e riconoscimento di elementi in una scena per mezzo di una rete neurale articiale biologicamente plausibile. Nel tentativo di superare i limiti degli strumenti già esistenti in questo ambito e di muoversi nella direzione del life-long learning, ci si è posti l'ulteriore obiettivo che la rete apprendesse in maniera completamente non supervisionata. Uno dei problemi principali nell'ambito della visione articiale è il riconoscimento di oggetti. Per poter interagire in modo ecace con l'ambiente è fondamentale che i sistemi informatici siano dotati di un sistema di visione articiale in grado di segmentare gli oggetti, identicarli e classicarli correttamente all'interno di categorie generiche indipendentemente dalla posizione, dalla scala e dall'illuminazione (K. Welke, E. Oztop, A. Ude, R. Dillmann, G. Cheng, 2006; S. Edelman, N. Intrator, 2003). Negli ultimi decenni questo campo ha suscitato un forte interesse per la comunità scientica, ma solo recentemente sono stati ottenuti dei risultati positivi.(Dickinson, 2008) Nonostante siano stati proposti numerosi approcci (A. Agarwal, B. Triggs, 2006; D. J. Crandall, D. P. Huttenlocher, 2006; R. Fergus, P. Perona, A. Zisserman, 2003; K. Grauman, T. Darrell, 2005; F. J. Huang, Y. LeCun, 2006; B. 2 Leibe, A. Leonardis, and B. Schiele, 2004; K. Mikolajczyk, B. Leibe, and B. Schiele, 2006; J. Mutch, D. G. Lowe, 2006; A. Opelt, A. Pinz, A. Zisserman, 2006S. Savarese, J. Winn, A. Criminisi, 2006; S. Ullman, B. Epshtein, 2006) la maggior parte di questi ottengono buoni risultati solamente all'interno di un dominio limitato ed il numero di classi che possono essere riconosciute in modo computazionalmente eciente è in genere molto basso. Solitamente questi metodi richiedono una forte supervisione della fase apprendimento da parte dell'uomo, ad esempio fornendo al sistema delle maschere che indichino la segmentazione delle immagini di training. Un approccio di questo tipo è arontabile quando si vuole discriminare tra poche categorie ma non è chiaramente sostenibile nel caso di un sistema di riconoscimento su larga scala. La netta separazione della fase di apprendimento da quella di utilizzo, inoltre, limita l'applicazione di questi metodi ai soli problemi stabiliti nel corso della progettazione del sistema. Il cervello dei primati è in grado di identicare in circa magine proiettata per soli 20ms 150−200ms un'im- (S. J. Thorpe et al., 1996; R. VanRullen, S. J. Thorpe, 2000; M. Fabre-Thorpe, D. Fize, G. Richard, S. J. Thorpe, 1998; Vogels, 1999), riesce a memorizzare centinaia di classi di oggetti e può espandere la sua conoscenza con facilità quando incontra nuove categorie. Allo stato dell'arte nessun sistema è in grado di ottenere prestazioni paragonabili a quelle umane in termini di velocità di apprendimento, tempi di riconoscimento, essibilità, numero di elementi che il sistema è in grado di apprendere, invarianza del riconoscimento rispetto alla rotazione, alla scala, alle interazioni con gli altri oggetti (i.e.: occlusione parziale) ed alle diverse condizioni di illuminazione. Dalla presentazione del primo modello di neurone articiale (W. McCulloch, W. Pitts, 1943) sono stati proposti numerose tipologie di reti neurali e di algoritmi di apprendimento (A. L. Hodgkin, A. Huxley, 1952; F. Rosenblatt, 1958; P. J. Werbos, 1974; J. Hopeld, 1982; D. E. Rumelhart, G. E. Hinton, R. J. Williams, 1986; T. Kohonen, 1979; J. Eggert, J. L. van Hemmen, 2001). Il successo di questo genere di algoritmi dipende da una rappresentazione eciente, compatta, robusta e generalizzabile che possa essere appresa in modo rapido e incrementale, all'interno di una continua interazione col mondo. Per realizzare il sistema di apprendimento e riconoscimento oggetto di 3 questa tesi si è scelto di utilizzare le reti di spiking neurons, una particolare classe di reti neurali articiali che codicano le informazioni trasmesse dai neuroni nella variazione delle dierenze temporali tra gli spike. Il sistema integrate and re addestrati con STDP (Spike-timing dependent plasticity), un implementato si basa su neuroni di tipo il metodo di apprendimento paradigma di modica delle sinapsi che si ritiene possa essere alla base dell'apprendimento nel cervello (G. Bi, M. Poo, 2001; Sjöström et al., 2008; H. D. I. Abarbanel, R. Huerta, M. I. Rabinovich, 2002; W. Gerstner, W. Kistler, 2002) che ha condotto a risultati interessanti in letteratura (W. Gerstner et al. 1996; S. Song, K. D. Miller, L. F. Abbott, 2000; T. Masquelier, S. J. Thorpe, 2007; R. Legenstein, D. Pecevski, W. Maass, 2008; M. Gilson M, A. N. Burkitt, D. B. Grayden, D. A. Thomas, J. L. van Hemmen, 2009; T. Masquelier, E. Hugues, G. Deco, S. J. Thorpe, 2009; T. Masquelier, S. J. Thorpe, 2010; E. Larson, B. P. Perrone, K. Sen, C. P. Billimoria, 2010; M. Gilson, A. N. Burkitt, D. B. Grayden, D. A. Thomas, J. L. van Hemmen, 2010). Questo algoritmo di apprendimento si fonda sui meccanismi di potentiation (LTP) e di long-term depression long-term (LTD), due regole di aggiorna- mento dei pesi neurali che dipendono dalla dierenza temporale tra gli spike (i.e.: impulsi) del neurone pre-sinaptico e quelli del neurone post-sinaptico. Si consideri un neurone che riceve in ingresso numerose connessioni provenienti da altri neuroni: deniamo questo neurone neurone post-sinaptico in quanto si trova a valle della sinapsi (i.e.: il collegamento tra due neuroni) e i neuroni connessi in ingresso neuroni pre-sinaptici. Se uno dei neuroni pre-sinapici invia un impulso pochi millisecondi prima che il neurone post-sinaptico superi la propria soglia ed emetta uno spike, la connessione (i.e.: il peso) tra questi due neuroni viene potenziata (LTP). Al contrario, se l'impulso di un neurone pre-sinaptico raggiunge il neurone post-sinaptico immediatamente dopo che questo ha sparato (i.e.: emesso uno spike) il collegamento tra i due neuroni sarà inibito (LTP). L'entità del potenziamento o dell'inibizione messa in atto è inversamente proporzionale alla dierenza di tempo tra lo spike pre-sinaptico e quello post-sinaptico. I neuroni sono stati disposti secondo un'architettura di tipo gerarchico divisa per livelli: il primo livello, direttamente connesso all'immagine, è l'unico 4 strato non neurale dell'intero sistema e si occupa di eettuare il riconoscimen- edge detection ) to dei contorni ( operando un'approssimazione del gradiente dell'intensità dell'immagine. Si è preferito svolgere questa operazione in modo non neurale per ridurre i tempi di addestramento, ma è stato dimostrato che è possibile ottenere lo stesso risultato con reti neurali (Y. LeCun, Y. Bengio, 1998). I livelli successivi sono composti da strati di neuroni che ricevono segnali dal livello sottostante e propagano le proprie uscite verso il livello superiore. I neuroni di ogni livello vengono creati secondo una logica just in time : quando nessuno dei modelli neurali memorizzati è adeguato per rappresentare una particolare conformazione degli ingressi viene creato un nuovo neurone i cui pesi sono parzialmente deniti sulla base dell'input ed in parte secondo una distribuzione gaussiana. Questa procedura è fondamentale per permettere l'allargamento della base di conoscenza quando vengono presentati elementi non ancora appresi. L'ultimo meccanismo che governa il funzionamento del sistema è una stima dell'interesse delle diverse aree dell'immagine. Questo elemento si è reso necessario per limitare la creazione incontrollata di modelli neurali in aree poco signicative dell'immagine. Come metrica dell'interesse dell'area di immagine analizzata da un neurone ci si è basati sull'intensità totale degli ingressi del neurone, e sulla varianza degli stimoli all'interno del eld receptive (i.e.: la zona da cui il neurone riceve i segnali): se l'intensità totale e la varianza degli stimoli ricevuti dal neurone sono inferiori a una soglia, viene impedita la creazione di un nuovo modello neurale nel caso in cui nessuno di quelli noti sia adeguato. Data la complessità del problema e l'ampiezza del lavoro di ricerca e progettazione che sono alla base di questo progetto, nel contesto di questa tesi non è stato possibile analizzare a fondo le potenzialità del modello proposto e trovare la calibrazione ottimale dell'alto numero di parametri che ne determinano il funzionamento. Si è tuttavia realizzato un prototipo preliminare che è stato testato su un dataset di più di 200 immagini; i risultati di questi esperimenti sono illustrati ed analizzati nella parte nale di questa tesi, che si conclude con una disamina delle possibili prospettive future di questo studio.