05_Apprendimento _Comportamento

Apprendimento e comportamento
Abbiamo già introdotto il condizionamento classico di Pavlov e la
legge dell’effetto di Thorndike.
Pavlov e Thondike concepivano l’apprendimento come un
meccanismo adattivo all’interno di una prospettiva evolutiva.
Metre la selezione naturale funziona bene in un ambiente stabile
(ambiente ancestrale) l’apprendimento è efficace in un
ambiente in cambiamento (ambiente individuale)
1
Procedura di Pavlov
(rinforzo→stimolo neutro)
L a procedura di Pavlov è basata sull’associazione tra due stimoli
ambientali, uno stimolo che provoca naturalmente una risposta
e uno neutro. Alla fine della procedura di condizionamento è lo
stimolo neutro che produce la risposta.
La procedura di Pavlov è chiamata condizionamento classico o
rispondente.
Il rinforzo (stimolo ambientale efficace) segue lo stimolo neutro.
2
Procedura di Thorndike
(risposta → rinforzo)
Si aumenta la probabilità di un comportamento rinforzandolo: lo
stimolo ambientale segue il comportamento.
Puzzle Box.
La procedura di Thondike è stata chiamata in seguito
condizionamente operante o strumentale.
Il rinforzo (stimolo ambientale efficace) segue la risposta.
4
Confronto tra Pavlov e Thorndike
Lo stimolo precede la
risposta
L’effetto è una
conseguenza della risposta
L’animale è passivo
L’animale è attivo
Condizioni necessarie per l’apprendimento:
requisito di contiguità temporale
Terminologia:
Uno stimolo ambientale (Stimolo Incondizionato, SI) elicita
naturalmente una risposta (Risposta Incondizionata, RI).
Uno stimolo neutro (Stimolo Condizionato, SC) viene presentato
assieme allo stimolo ambientale.
Dopo un numero suffiente di presentatzioni SC da solo produce
la risposta che a questo punto prende il nome di Risposta
Condizionata (RC).
7
Condizionamento retrogrado e
anterogrado
8
∆t=t(SI)-t(SC) ≤ 0
(∆t è negativo quando la relazione è retrograda!)
Quindi ...
Solo il condizionamento anterogrado funziona.
I processi fondamentali del condizionameto classico avvengono
in un intervallo di tempo molto breve.
Osservazioni analoghe valgono per il condizionamento operante.
10
Il condizionamento applicato al
comportamento umano
Le fobie. L’oggetto fobico è di fatto uno stimolo condizionato. Però ci sono
alcuni oggetti che funzionano più di altri (as es I ragni o I serpenti). Perchè?
Questi oggetti non sono stimoli neutri, ma sono già connotati biologicamente.
Attacchi di panico. Sono spiegati attraverso il condizionamento classico. Uno
stimolo neutro causa un attacco di panico perchè è stato associato ad uno
stimolo aversivo.
Il caso delle tossicodipendenze. Sono state molto studiate applicando lo
schema interpretativo del condizionamento classico. Il contesto in cui si
assume la droga (SC) viene associato alla droga (SI). Normalmente si instaura
un’assuefazione. I problemi nascono quando cambia il contesto. Una dose
inefficace in un contesto può essere mortale in un contesto nuovo.
11
Il comportamento superstizioso
(Skinner, 1948)
La nostra vita è piena di comportamenti superstiziosi (premiamo il bottone
dell’ascensore anche se è già stato premuto da qualcun altro ed è illuminato).
Non c’è nessun legame causale tra il comportamento e suoi effetti. Ma noi
siamo convinti che ci sia una relazione.
Esperimento.
Compito: devi massimizzare il punteggio premendo dei bottoni. Bisogna
trovare le sequenze che ti fanno realizzare più punti.
Il punti vengono aumentati a caso o a intervalli regolari senza alcuna relazione
con la pressione dei bottoni.
Si instaura velocemente un comportamento superstizioso.
In generale quando si dà un rinforzo intermittente è facile che si intaurino
comportamenti superstiziosi (dei rituali)
12
Osservazioni sulle condizioni
dell’apprendimento
Occorre che la coppia stimolo-rinforzo (condizionamento
classico) o la coppia risposta-rinforzo (condizionamento
operante):
1. siano presentate più volte
2. siano contigui temporalmente.
Ci sono casi di apprendimento in cui l’associazione viene
presentata una sola volta (fobie, alcuni comportamenti
superstiziosi)
Ci sono casi in cui la contiguità temporale non è una condizione
necessaria.
13
Comportamento discrepante
(Kamin, 1969)
L’apprendimento si verifica quando il rinforzo induce un
cambiamento nel comportamento, cioè se evoca una risposta
nuova. Se c’è già un’associazione simolo- rinforzo (oppure
risposta-rinforzo) il condizionamento non ha luogo.
Procedura di blocking.
Uno stimolo S1 (rumore) viene associato ad un rinforzo (soffio
nell’occhio del coniglio).
Dopo che il condizionamento si introduce un secondo stimolo S2
(luce). S1 e S2 vengono presentati assieme e ad essi segue il
rinforzo. S2 non assume il ruolo di SC. Vedere la figura per
l’esperimento di controllo.
14
(suono)
Attenzione: La figura sul libro è sbagliata!
Osservazione
Valore adattivo dell’apprendimento. Il meccanismi di
apprendimento servono a far fronte ai cambiamenti inaspettati
che avvengono nell’ambiente (il fattore sorpresa). Se gli eventi
sono attesi non succede nulla perchè sappiamo già quello che
dobbiamo fare.
16
Risultati dell’apprendimento
Acquisizione ed estinzione di comportamenti
Generalizzazione
Discriminazione di uno stimolo
Punizioni
17
Esempio della Gabbia di Skinner come situazione
tipica di apprendimento
Acquisizione
Come si addestra un animale.
Esempio del topo nella gabbia di Skinner (ma la procedura è generalizzabile
ad ogni tipo di addestramento).
1. Il topo viene inserito nella gabbia. L’ambiente elicita delle risposte di
esplorazione e di abituazione all’ambiente. Caratteristiche specifiche
dell’ambiente causano risposte specifiche (ad es la risposta di orientamento).
Si attende che il topo si abitui all’ambiente.
2. L’addestratore somministra un po’ di cibo per assicurasi che sia un rinforzo
efficae con quel topo specifico e predominante rispetto ai rinforzi già
presenti nell’ambiente (può succedere se non c’è stata abituazione).
3. L’addestratore rinforza (presentando il cibo immediatamente dopo) la
risposta che si vuole condizionare (ad esempio schiacciare la leva).
19
Shaping (modellaggio)
A volte la risposta che si vuole condizionare non si presenta
naturalmente. Allora si condiziona nel repertorio
comportamentale dell’animale quella risposta che è più vicina al
comportamento desiderato.
Si può in seguito raffinare questa risposta condizionata,
selezionando tra le varie risposte quella più appropriata con un
nuova procedura di condizionamento.
Si continua così fino al conseguimento del risultato che ci si è
prefissato.
In queste procedure occorre molta pazienza, ma sono efficaci
(anche con i bambini piccoli e i disabili). Provate ad addestrare il
cane o il gatto di casa.
21
Problema
Avete un neonato che non dorme di notte. Si sveglia ogni 10
minuti e pinge come un aquila. Come fate per risolvere il
problema utilizzando il condizionamento (classico o operante),
lo shaping e tutti e mezzi che la vostra inventiva mette a
disposizione?
Esistono un libretti che spiegano come fare.
Metodo Ferber: Ogni bambino può imparare a dormire.
Metodo Estivil: Fate la nanna.
22
Modellaggio automatico
La conoscenza di fare dei progressi e di avvicinarsi alla meta
prefissata costituiscono un feed-back positivo (rinforzo) che
intaura una procedura di modellaggio automatico.
NB. Verificare I concetti di controllo a feed-back e feed-forward.
Il concetto di feed-back (retrorazione, comportamento atteso o
desiderato, comportamento osservato, comparatore).
E’ il meccanismo che mantiene la temperatura costante ad un
valore prefissato a casa vostra. Il termostato è basato su un
controllo a retoazione.
L’altro tipo di controllo che vi capiterà di incontrare a quello a
feed-forward.
23
Le avversioni gustative
(Garcia e Koelling, 1966)
Sono un esempio interessante di interazione tra la selezione
naturale e l’acquisizione di un comportamento.
E’ un esempio di condizionamento in cui la condizione di
contiguità temporale non è necessaria.
L’animale ingerisce del cibo con un gusto caratteristico (ad es
limone). In seguito gli viene iniettato cloruro di litio che provoca
una forte nausea. Il condizionamento avviene anche quando la
nausea segue il pasto anche ore dopo.
La chemioterapia provoca spesso delle avversioni gustative
condizionate.
24
Meccanismi neurali del rinforzo
condizionato
Lo stimolo condizionato può essere interpretato e utilizzato
come rinforzo in una procedura di condizionamento operante.
Viene cioè presentato dopo la risposta da condizionare.
Si può distinguere tra rinforzo primario (che rinforza
naturalemte una risposta comportamentale) e rinforzo
secondario (che inizialmente era uno stimolo neutro che è stato
condizionato a trasformarsi in rinforzo).
Rinforzo primario e secondario attivano gli stessi circuiti neurali
all’interno del cervello (sistema dopaminergico dell’area
tegmentale-ventrale del mesencefalo)
25
Estinzione
Esiste il fenomeno contrario all’apprendimento. Capita di
disimparare qualcosa che sppiamo fare. La cosa curiosa è che
alcune cose si possono disimparare, ad es una lingua, ma altre
no come il saper andar in bicicletta. Le abilità che non si possono
disimparare sono classificate come conoscenze procedurali (vedi
il capitolo sulla memoria).
NB. Vedremo studiando la memoria che in realtà non si
disimparano i contenuti ma come recuperarli.
Le cause per cui si disimpara possono essere molteplici. I
comportamentisti hanno studiato a fondo il fenomeno
dell’estinzione.
27
Definizione di estinzione
Un comportamento condizionato si indebolisce
progressivamente quando cessa di essere rinforzato.
Consideriamo la figura seguente.
28
A
B
C
Condizionamento del movimento della mebrana nittitante nel coniglio
Regole generali
Da B si ricava la prima regola:
Un comportamento acquisito può essere mantenuto
efficacemente anche con un rinforzo intermittente (o parziale).
(svantaggio: si possono instaurare comportamenti superstiziosi)
Da C si ricava la seconda regola:
I comportamenti mantenuti attraverso un rinforzo parziale sono
più resistenti all’estinzione.
30
Un comportamento estinto è
dimenticato?
La risposta è no.
Infatti il comportamento estinto si può recuperare a volte
completamente con un solo rinforzo.
Inoltre ci sono fenomeni di recupero spontaneo.
31
Generalizzazione e discriminazione
Fenomeno della generalizzazione. C’e una certa
tolleranza per le caratteristiche di S1: stimoli “simili”ad
S1 producono la risposta condizionata.
Questa tolleranza può essere misurata anche attraverso
una procedura di discriminazione.
I piccioni vedono la differenza tra verde smeraldo e
verde pino? Come posso ottenere una risposta?
Psicofisica e capacità sensoriali negli animali
Generalizzazione dello stimolo
Si condizionano i piccioni a beccare un disco giallo-verde (550 nm).
Una volta stabilizzato il condizionamento se si prenta un disco di
colore diverso cosa succede?
In questo modo si può studiare la sensibilità sensoriale dei piccioni:
quanto è generalizzabile quel colore specifico, in altre parole qundo il
piccione comincia a discriminare, cioè a “pensare” che il colore che
vede è diverso da quello a cui è stato condizionato?
La curva delle risposte è simile a quella che si ottiene negli
esperimenti di psicofisica con gli umani (PSE, CE e jnd, vedi figura).
33
Quella che vedete è una tipica distribuzione normale (tipica di tutte le
procedure di misura). E molto usata anche la cumulata di questa
distribuzione, cioè l’integrale della normale.
Discriminazione dello stimolo
Lo studio della sensibilità visiva negli animali può essere affrontata
usando una procedura complementare a quella precedentemente
illustrata: attraverso dei rinforzi posso spronare un piccione a
distinguere tra due stimoli e verificare fino a che punto posso
spingermi perchè il piccione continui a discriminare i due dischi (stimoli
discriminativi).
Condiziono un piccione a beccare il solito disco giallo-verde (550 nm).
Ogni tanto presento un dico giallo (555 nm) che però non rinforzo. In
seguito presentando a caso i due dischi cosa succederà. Il piccione ad
esempio beccherà furiosamente il disco giallo-verde (200
risposte/min) ma solo poche volte il disco giallo (25 risposte/min). Se il
colore non condizionato è molto diverso non beccherà mai il disco.
35
Domanda ...
Che cosa mi dicono le due procedure sulla sensibilità dei piccioni
a discriminare i colori?
Le informazioni sulla sensibilità sensoriale del piccione sono
diverse. In un caso sto misurando la sua capacità discriminativa
potenziale, mentre nell’altro caso la loro capacità di discriminare
in condizioni ambientali “naturali” (generalizzazione).
36
Discriminazioni contestuali
La procedura di discrimanzione differenziale appena vista è un
caso tipico di procedura con contingenza a tre termini.
Il condizionamento classico o operante (stimolo-rinforzo, oppure
risposta-rinforzo) è una procedura con contingenza a due
termini.
E’ possibile realizzare una procedura con contigenza a quattro o
più termini. In quest’ultimo caso si parla di discriminazione
contestuale (vedi figura).
37
La risposta dipende dal colore e dalla forma.
Classi di equivalenza
Umani e animali imparano le discrinazioni con contingenza a
quattro termini.
Negli umani tali procedure portano alla formazioni di classi di
equivalenza (proprietà transitiva: se S1=S2 e S2=S3, allora
S1=S3). Non è chiaro se succede anche con gli animali.
Metodo per insegnare a leggere ai bambini con ritardo mentale
(vedi figura)
39
parola detta=Figura
La punizione
Terminologia:
Rinforzo: aumenta la probabilità della risposta
Punizione: diminuisce la probabilità della risposta
Positivo: presenza dell’effetto
Negativo: assenza dell’effetto
41
Risposta-rinforzo-effetto
Se mettiamo assieme il condizionamento classico e quello operante
abbiamo la seguente situazione:
Ogni stimolo (rinforzo) è preceduto da una risposta (operante) e
seguito da una risposta (incondizionata/condizionata). Più
semplicemente potremmo parlare della sequenza: risposta-rinforzoeffetto (oppure comportamento-rinforzo-effetto, dove l’effetto è il
risultato di un condizionamento classico).
Normalmente risposta ed effetto non interagiscono tra di loro
(premere la leva non interagisce con la salivazione).
Tuttavia se l’effetto è una punizione siamo in presenza di una
situazione conflittuale.
42
Procedura di soppressione del
condizionamento (Estes e Skinner, 1941)
L’interazione tra risposta ed effetto è stata studiata attraverso la
procedura della risposta emotiva condizionata (REC).
Una punizione scatena una reazione emotiva che può essere
interpretata come risposta incondizionata conseguente allo stimolo
incondizionato (punizione). Quindi riassumento avremo questa
concatenazione:
risposta operante →rinforzo → punizione (SI) → risposta
incondizionata (RI).
Nella REC si associa uno stimolo neutro (SC) a una punizione (SI) e lo si
presenta occasionalmente quando l’animale mette in atto un
comportamento operante rinforzato (risposta operante →rinforzo )
43
Risposta operante e incondizionata
Risposta ed effetto sono normalmente identici. La presentazione
di un disco (SI) induce naturalmente il piccione a beccarlo (RI).
Questo comportamento di beccare il disco (risposta operante) è
lo stesso che viene rinforzato.
Nel caso della punizione si crea un conflitto tra risposta
operante e risposta incondizionata generata dalla punizione. Le
cose si complicano se consideriamo la possibilità che esistano
punizioni condizionate (SC nella terminologia del
condizionamento classico).
Ad esempio ogni volta che si somministra la scossa elettrica (SI)
si accende una luce rossa (SC). La luce rossa assume il ruolo di
punizione condizionata.
44
Rinforzo e punizione
Riprendiamo lo schema da cui siamo partiti.
Rinforzo e punizione non sono la stessa cosa (un rinforzo
negativo non è una punizione).
Il rinforzo aumenta la probabilità di una risposta operante o
perchè fa cessare uno stimolo avversivo (rinforzo negativo) o
perchè premia direttamente il comportamento (rinforzo
positivo). Anche una punizione può essere negativa nel senso
che fa cessare uno stimolo positivo (possibile rinforzo).
Vedi figura.
45
Quesito
Fare degli esempi di:
Rinforzo positivo
Rinforzo negativo
Punizione positiva
Punizione negativa
Soluzioni al quesito
Rinforzo positivo: cibo, perché il verificarsi di un effetto aumenta
la probabilità della risposta
Rinforzo negativo: l’abolizione di un effetto indesiderato atteso
(ad es. una scarica elettrica) aumenta la probabilità di una
risposta
Punizione positiva: scarica elettrica, perché il verificarsi
dell’effetto diminuisce la probabilità della risposta
Punizione negativa: l’abolizione di un effetto desiderato atteso
(ad es. il cibo) diminuisce la probabilità della risposta
In pratica ... efficacia della punizione
La punizione ha conseguenze indesiderate
1. Gli stimoli presenti durante la punizione possono diventare stimoli
condizionati per le emozioni negative legate alla punizione
2. La punizione sopprime comportamenti indesiderati ma non
promuove comportamenti sostitutivi desiderati
Quindi è preferibile rinforzare le risposte desiderate e ignorare quelle
indesiderate (modellaggio). Il rinforzo negativo ha senso in alcune
situazioni.
Tecnica del Time-Out (punizione negativa, soppressione di uno stimolo
rinforzante) per comportamenti pericolosi (restrizione fisica,
isolamento, allontanamento per un tempo limitato)
49
L’Insight
La soluzione dei problemi negli animali
(pensiero produttivo nella terminologia
di Duncker) è stata studiata da Wolfang
Köhler (1887 –1967) mentre era
internato a Tenerife durante la prima
guerra mondiale (certe imprecisioni
presenti nel vostro libro non sono
accettabili!).
50
Pensiero produttivo
Karl Dunker (1903-1940). Esempi di Insight
51
Meccanismi neuronali del rinforzo
Leggete il vostro manuale.
Da sapere:
Studi di Eric Kandel sull’Alypsia
Apprendimento latente, mappe cognitive (Tolmann) e
ippocampo.
I meccanismi neuronali del condizionamento sono anche
implicati nella memoria (e allora?).
55
I comportamenti umani complessi
Il problema dei comportamentisti è quello di spiegare
comportamenti complessi a partire dai comportamenti semplici
ed elementari: I comportamenti complessi sono una catena di
riflessi elementari associati attraverso le procedure di
condizionamento.
I modelli a reti neurali (a cui forse accenneremo più avanti)
assumono un puntio di vista analogo.
56
Il controllo verbale
Skinner (1984) distingueva tra comportamenti guidati dalle
contingenze (rinforzi) e comportamenti guidati da regole
(controllo verbale, istruzioni).
Sono possibili esperimenti divertenti utilizzando regole false.
In generale. L’apprendimento di un comportamento guidato da
istruzioni è efficace se ci sono dei rinforzi reali durante
l’apprendimento.
57
L’apprendimento per osservazione
I comportamentisti si sono interessati a lungo dell’imitazione che
l’osservatore spesso mette in atto spontaneamente.
L’apprendimento per osservazione è basato sull’imitazione.
Questo tema è ritornato di moda con la scoperta dei neuroni
specchio (vedi Rizzolatti e Craighero, 2004).
E’ possibile condizionare il comportamento di imitazione. E’ una
tecnica effcacemente usata con I disabili mentali.
58
Neuroni specchio
59
Esempio dell’apprendimento di un
esercizio ginnico
1. Spiegazione verbale (istruzioni)
2. Esecuzione durante le istruzioni verbali
3. Osservazione
4. Immaginazione
60
Per concludere …
Le tecniche di condizionamento possono essere molto utili per
progettare degli esperimenti che hanno delle finalità diverse
dallo studio dell’apprendimento. Vi illustro un esempio. Ne
vedremo altri durante il corso.
61
Un esempio di esperimento eseguito sfruttando
le procedure di condizionamento
La generalizzazione è fatta sulla base del significato e non sulla somiglianza
nel suono o nell’ortografia (Razran, 1939).
Condizionamento:
S1: [style, urn, freeze, surf] (stile, urna, congelare, cresta d’onda)
S2: succo di limone
Riposta: Salivazione
Una volta terminata la procedura di condizionamento cosa succede se si
presenta: [stile, earn, frieze, serf], cioè parole somiglianti nel suono e
nell’ortografia, ma di significato diverso (scaletta, guadagnare, fregio, servo)?
Cosa succede se si presenta: [fashion, vase, chill, wave], cioè parole diverse
nel suono e nell’ortografia ma simli nel significato (moda, vaso, freddo,
onda)?
62