Modelli simulativi per le Scienze Cognitive Paolo Bouquet (Università di Trento) Marco Casarotti (Università di Padova) Caratteristiche 1. Topologia 2. Connettività Classi di reti • etero- vs. auto-associative • singolo strato vs. multistrato • feed-forward vs. ricorrenti Reti etero- vs. auto-associative Etero-associative • Le unità di input sono DISTINTE dalle unità di output • Compito: associare coppie di vettori DIVERSI (input ed output) Auto-associative • Possiedono un unico strato di unità interamente connesse tra loro: ciascuna unità riceve input dall’ambiente esterno e dalle altre unità • Dinamica temporale: l’attivazione della rete varia nel tempo (rilassamento) e la risposta viene misurata quando la differenza d’attivazione tra il tempo t ed il tempo t-1 è sufficientemente piccola (equilibrio) • Vengono utilizzate per la memorizzazione e ricostruzione di pattern Reti a singolo strato vs. multistrato A singolo strato di sinapsi • Percettroni: reti etero-associative senza unità nascoste, pertanto con un solo strato di pesi. • Un singolo strato di pesi NON consente di apprendere l’associazione tra pattern di ingresso e pattern d’uscita quando il mapping sottostante è troppo complesso. Reti multistrato • MLP (Multi-Layer Perceptron): reti etero-associative con unità nascoste, pertanto con più di uno strato di pesi. • La risposta delle rete viene ottenuta calcolando l’attivazione di uno strato di unità alla volta Reti feed-forward vs. ricorrenti Reti feed-forward • Architetture in cui ciascun nodo riceve connessioni SOLO dai nodi degli strati inferiori • L’elaborazione dell’informazione procede in un’unica direzione • Non possiedono una dinamica temporale e non possono essere utilizzate per compiti che richiedono l’estrazione della struttura temporale presente nell’informazione d’ingresso Reti ricorrenti • Architetture con connessioni ricorrenti: una connessione ricorrente permette la ricezione del segnale da neuroni dello stesso strato o di strati superiori • Se un nodo riceve connessioni da tutti nodi della rete si dice “completamente” connesso Reti feed-forward vs. ricorrenti [2] • Attivazione di un nodo che possiede connessioni ricorrenti: ai ( wij x tj c ril qlt 1 i ) j l t 1 dove ql sono le attivazioni dello stesso strato o di uno strato superiore al tempo t-1, ril sono le connessioni ricorrenti e c è una costante. • Le reti auto-associative sono, per definizione, reti ricorrenti Codifica e rappresentazioni I valori di attivazione dei nodi della rete dipendono dalla funzione d’attivazione utilizzata: •Codifica binaria: {0, 1} • Codifica bipolare: {-1, 1} • Valori continui: per esempio nell’intervallo [0, 1] o [-1, 1] La scelta della funzione d’attivazione influenza le prestazioni e l’applicabilità del modello. Alcuni algoritmi d’apprendimento vincolano la scelta della funzione d’attivazione. Codifica dell’informazione d’ingresso • Codifica locale: ciascuna unità d’ingresso corrisponde ad un determinato oggetto • Codifica distribuita: molte unità d’ingresso contribuiscono a rappresentare ogni singolo oggetto Codifica locale Ciascuna unità d’ingresso corrisponde ad un determinato oggetto. Svantaggi: • richiede un alto numero di unità, uguale al numero di oggetti da rappresentare • non consente generalizzazioni, in quanto richiede la conoscenza anticipata del numero di oggetti • è fragile, in quanto la perdita di un’unità d’ingresso determina la perdita dell’oggetto corrispondente • non è biologicamente plausibile Codifica distribuita Molte unità d’ingresso contribuiscono a rappresentare ogni singolo oggetto. Può essere utilizzata per codificare oggetti o caratteristiche di oggetti. In questo caso, le unità d’ingresso codificano la presenza o il grado di una certa caratteristica. Di conseguenza, ciascun oggetto è codificato attraverso l’attivazione di una o più unità e ciascuna unità può essere utilizzata per rappresentare oggetti diversi (codifica grezza). Vantaggi: • Robustezza al rumore e resistenza alle lesioni • Possibilità di rappresentare nuovi oggetti senza aumentare il numero di unità d’ingresso • Facilita la classificazione e la generalizzazione Campi recettivi Un esempio di codifica grezza è dato dai campi recettivi sovrapposti, come quelli presenti nella corteccia visiva primaria. Supponiamo di voler utilizzare una rete neurale per distinguere forme semplici presentate su una retina artificiale bidimensionale. Si divida la retina in gruppi di pixel di dimensioni uguali e parzialmente sovrapposti. Ciascuna di queste zone definisce il campo recettivo di un’unità d’ingresso la cui attivazione è una funzione dell’attivazione dei pixel presenti nel campo recettivo. È possibile dimostrare che l’accuratezza a con cui la rete è in grado di distinguere gli oggetti presentati sulla retina, dipende dal raggio r di ciascun campo recettivo e dal numero n di campi recettivi che coprono lo spazio visivo (Rumelhart, Hinton & Williams, 1986): a ≈ rn Spazio della rappresentazione Dato uno strato di input con n unità che codificano attraverso valori continui una certa caratteristica, possiamo rappresentare un certo oggetto (pattern) come un punto nello spazio multi-dimensionale con tante dimensioni quante sono le unità di input: ciascuna dimensione corrisponde al campo di variazione dell’unità (caratteristica). Oggetti simili tenderanno ad occupare posizioni vicine nello spazio della rappresentazione. Normalizzazione Quando i dati in ingresso non sono omogenei, situazione tipica con dati reali prelevati con dispositivi di registrazione, è necessario ricorrere alla normalizzazione, che consiste nel far si che la lunghezza di ciascun vettore (pattern di ingresso) sia uguale a 1, dividendo ciascun componente del vettore per la sua “norma”: xi ' x2 n x j 1 2 j La soglia ed il bias Output La soglia di attivazione λ di un’unità può essere considerata come un peso sinaptico di valore λ in arrivo da un’ unità aggiuntiva con attivazione costante -1. Il peso viene definito BIAS e l’unità aggiuntiva UNITA’ DI BIAS ed indicati rispettivamente con w0 e x0 w0 Unità di bias Input esterno Valutazione e analisi di una rete neurale Le prestazioni di una rete neurale vengono generalmente esaminate calcolando un indice dell’errore compiuto. Tale indice varia a seconda del paradigma d’apprendimento e, in generale, degli scopi della simulazione. Vediamo alcuni degli strumenti di valutazione utilizzati nella modellistica neuro-computazionale e cognitiva: • Confronto tra la curva d’apprendimento della rete artificiale e la quella dei soggetti umani • Percentuale e tipo di errori compiuti • Differenza tra risposta desiderata e risposta della rete (rms) • Confronto tra il numero di cicli (reti ricorrenti) richiesti per raggiungere il criterio di risposta e i tempi di reazione dei soggetti umani • Analisi delle proprietà di risposta delle unità nascoste (reti multistrato) Proprietà delle unità nascoste Le proprietà di risposta delle unità nascoste forniscono un indice molto utile sul tipo di soluzione impiegato dalla rete per risolvere il compito. In generale, vengono presentati vari tipi di stimoli (per esempio forme diverse) alle unità di input e vengono registrate le attivazioni corrispondenti delle unità nascoste; vengono poi ricostruite le curve di risposta (profili) che possono evidenziare specifiche selettività per determinate caratteristiche dello stimolo. Neuroscienza computazionale: i profili di risposta delle unità nascoste vengono confrontati con quelli dei neuroni reali coinvolti nei processi che vengono indagati nelle simulazioni. Zipser & Andersen (1988): hanno dimostrato che una rete addestrata a eseguire trasformazioni sensorimotorie sviluppa proprietà di risposta nelle unità nascoste simili a quelle descritte nei neuroni della corteccia parietale inferiore. Analisi dei pesi sinaptici In modelli con un limitato numero di connessioni sinaptiche, può essere utile analizzare la configurazione dei pesi sinaptici al termine dell’apprendimento e/o durante l’apprendimento, per valutarne l’evoluzione. Lesioni Nelle simulazioni di deficit neuropsicologici, vengono provocate lesioni alla rete neurale artificiale eliminando dei pesi sinaptici o aggiungendo del rumore all’attivazione di alcune unità. Vengono successivamente analizzate le prestazioni delle rete lesionata e confrontate con quelle dei pazienti neuropsicologici.