Diapositiva 1 - Università di Trento

Modelli simulativi
per le Scienze Cognitive
Paolo Bouquet
(Università di Trento)
Marco Casarotti
(Università di Padova)
Caratteristiche
1. Topologia
2. Connettività
Classi di reti
• etero- vs. auto-associative
• singolo strato vs. multistrato
• feed-forward vs. ricorrenti
Reti etero- vs. auto-associative
Etero-associative
• Le unità di input sono DISTINTE dalle unità di output
• Compito: associare coppie di vettori DIVERSI (input ed output)
Auto-associative
• Possiedono un unico strato di unità interamente connesse tra loro: ciascuna
unità riceve input dall’ambiente esterno e dalle altre unità
• Dinamica temporale: l’attivazione della rete varia nel tempo (rilassamento) e
la risposta viene misurata quando la differenza d’attivazione tra il tempo t ed
il tempo t-1 è sufficientemente piccola (equilibrio)
• Vengono utilizzate per la memorizzazione e ricostruzione di pattern
Reti a singolo strato vs. multistrato
A singolo strato di sinapsi
• Percettroni: reti etero-associative senza unità nascoste, pertanto con un solo
strato di pesi.
• Un singolo strato di pesi NON consente di apprendere l’associazione tra
pattern di ingresso e pattern d’uscita quando il mapping sottostante è troppo
complesso.
Reti multistrato
• MLP (Multi-Layer Perceptron): reti etero-associative con unità nascoste,
pertanto con più di uno strato di pesi.
• La risposta delle rete viene ottenuta calcolando l’attivazione di uno strato di
unità alla volta
Reti feed-forward vs. ricorrenti
Reti feed-forward
• Architetture in cui ciascun nodo riceve connessioni SOLO dai nodi degli
strati inferiori
• L’elaborazione dell’informazione procede in un’unica direzione
• Non possiedono una dinamica temporale e non possono essere utilizzate
per compiti che richiedono l’estrazione della struttura temporale presente
nell’informazione d’ingresso
Reti ricorrenti
• Architetture con connessioni ricorrenti: una connessione ricorrente
permette la ricezione del segnale da neuroni dello stesso strato o di strati
superiori
• Se un nodo riceve connessioni da tutti nodi della rete si dice
“completamente” connesso
Reti feed-forward vs. ricorrenti [2]
• Attivazione di un nodo che possiede connessioni ricorrenti:
ai  ( wij x tj  c  ril qlt 1  i )
j
l
t 1
dove ql sono le attivazioni dello stesso strato o di uno strato superiore al
tempo t-1, ril sono le connessioni ricorrenti e c è una costante.
• Le reti auto-associative sono, per definizione, reti ricorrenti
Codifica e rappresentazioni
I valori di attivazione dei nodi della rete dipendono dalla funzione d’attivazione
utilizzata:
•Codifica binaria: {0, 1}
• Codifica bipolare: {-1, 1}
• Valori continui: per esempio nell’intervallo [0, 1] o [-1, 1]
La scelta della funzione d’attivazione influenza le prestazioni e l’applicabilità del
modello. Alcuni algoritmi d’apprendimento vincolano la scelta della funzione
d’attivazione.
Codifica dell’informazione d’ingresso
• Codifica locale: ciascuna unità d’ingresso corrisponde ad un determinato
oggetto
• Codifica distribuita: molte unità d’ingresso contribuiscono a rappresentare
ogni singolo oggetto
Codifica locale
Ciascuna unità d’ingresso corrisponde ad un determinato oggetto.
Svantaggi:
• richiede un alto numero di unità, uguale al numero di oggetti da
rappresentare
• non consente generalizzazioni, in quanto richiede la conoscenza anticipata
del numero di oggetti
• è fragile, in quanto la perdita di un’unità d’ingresso determina la perdita
dell’oggetto corrispondente
• non è biologicamente plausibile
Codifica distribuita
Molte unità d’ingresso contribuiscono a rappresentare ogni singolo
oggetto.
Può essere utilizzata per codificare oggetti o caratteristiche di oggetti. In
questo caso, le unità d’ingresso codificano la presenza o il grado di una
certa caratteristica. Di conseguenza, ciascun oggetto è codificato attraverso
l’attivazione di una o più unità e ciascuna unità può essere utilizzata per
rappresentare oggetti diversi (codifica grezza).
Vantaggi:
• Robustezza al rumore e resistenza alle lesioni
• Possibilità di rappresentare nuovi oggetti senza aumentare il numero di
unità d’ingresso
• Facilita la classificazione e la generalizzazione
Campi recettivi
Un esempio di codifica grezza è dato dai campi recettivi sovrapposti, come
quelli presenti nella corteccia visiva primaria.
Supponiamo di voler utilizzare una rete neurale per distinguere forme semplici
presentate su una retina artificiale bidimensionale. Si divida la retina in gruppi
di pixel di dimensioni uguali e parzialmente sovrapposti. Ciascuna di queste
zone definisce il campo recettivo di un’unità d’ingresso la cui attivazione è una
funzione dell’attivazione dei pixel presenti nel campo recettivo.
È possibile dimostrare che l’accuratezza a con cui la rete è in grado di
distinguere gli oggetti presentati sulla retina, dipende dal raggio r di ciascun
campo recettivo e dal numero n di campi recettivi che coprono lo spazio visivo
(Rumelhart, Hinton & Williams, 1986):
a ≈ rn
Spazio della rappresentazione
Dato uno strato di input con n unità che codificano attraverso valori continui
una certa caratteristica, possiamo rappresentare un certo oggetto (pattern)
come un punto nello spazio multi-dimensionale con tante dimensioni quante
sono le unità di input: ciascuna dimensione corrisponde al campo di variazione
dell’unità (caratteristica). Oggetti simili tenderanno ad occupare posizioni
vicine nello spazio della rappresentazione.
Normalizzazione
Quando i dati in ingresso non sono omogenei, situazione tipica con dati reali
prelevati con dispositivi di registrazione, è necessario ricorrere alla
normalizzazione, che consiste nel far si che la lunghezza di ciascun vettore
(pattern di ingresso) sia uguale a 1, dividendo ciascun componente del
vettore per la sua “norma”:
xi
'
x2 
n
x
j 1
2
j
La soglia ed il bias
Output
La soglia di attivazione λ di un’unità
può essere considerata come un peso
sinaptico di valore λ in arrivo da un’
unità aggiuntiva con attivazione
costante -1. Il peso viene definito BIAS
e l’unità aggiuntiva UNITA’ DI BIAS
ed indicati rispettivamente con w0 e x0
w0
Unità di bias
Input esterno
Valutazione e analisi di una rete neurale
Le prestazioni di una rete neurale vengono generalmente esaminate calcolando
un indice dell’errore compiuto. Tale indice varia a seconda del paradigma
d’apprendimento e, in generale, degli scopi della simulazione.
Vediamo alcuni degli strumenti di valutazione utilizzati nella modellistica
neuro-computazionale e cognitiva:
• Confronto tra la curva d’apprendimento della rete artificiale e la quella dei
soggetti umani
• Percentuale e tipo di errori compiuti
• Differenza tra risposta desiderata e risposta della rete (rms)
• Confronto tra il numero di cicli (reti ricorrenti) richiesti per raggiungere il
criterio di risposta e i tempi di reazione dei soggetti umani
• Analisi delle proprietà di risposta delle unità nascoste (reti multistrato)
Proprietà delle unità nascoste
Le proprietà di risposta delle unità nascoste forniscono un indice molto utile
sul tipo di soluzione impiegato dalla rete per risolvere il compito.
In generale, vengono presentati vari tipi di stimoli (per esempio forme diverse)
alle unità di input e vengono registrate le attivazioni corrispondenti delle unità
nascoste; vengono poi ricostruite le curve di risposta (profili) che possono
evidenziare specifiche selettività per determinate caratteristiche dello stimolo.
Neuroscienza computazionale: i profili di risposta delle unità nascoste
vengono confrontati con quelli dei neuroni reali coinvolti nei processi che
vengono indagati nelle simulazioni.
Zipser & Andersen (1988): hanno dimostrato che una rete addestrata a
eseguire trasformazioni sensorimotorie sviluppa proprietà di risposta nelle
unità nascoste simili a quelle descritte nei neuroni della corteccia parietale
inferiore.
Analisi dei pesi sinaptici
In modelli con un limitato numero di connessioni sinaptiche, può essere utile
analizzare la configurazione dei pesi sinaptici al termine dell’apprendimento
e/o durante l’apprendimento, per valutarne l’evoluzione.
Lesioni
Nelle simulazioni di deficit neuropsicologici, vengono provocate lesioni alla
rete neurale artificiale eliminando dei pesi sinaptici o aggiungendo del
rumore all’attivazione di alcune unità.
Vengono successivamente analizzate le prestazioni delle rete lesionata e
confrontate con quelle dei pazienti neuropsicologici.