COMUNICATO STAMPA Vedere una perdita come un guadagno: conoscere il contesto di scelta fa cambiare i circuiti cerebrali che elaborano l’esito delle nostre decisioni Lo rivela uno studio dei ricercatori del CIMeC apparso oggi sulla rivista Nature Communications TRENTO (Italia) – Tramite punizione o ricompensa? Il dibattito su quale sia la strategia di apprendimento più efficace continua. Come reagiamo all’esito delle nostre azioni e delle nostre scelte, sociali o squisitamente economiche, infatti, influenza le nostre decisioni future. È dunque naturale che si indaghino questi meccanismi, con l’obiettivo di capire anche quale sia la strategia di apprendimento più rapida ed efficace. Di questo si è occupato uno studio appena apparso su Nature Communications del neuroeconomista Giorgio Coricelli del Centro Mente/Cervello dell’Università degli Studi di Trento e collaboratori che hanno cercato di affrontare i due principali problemi irrisolti dell’apprendimento per punizione che è tanto efficace quanto quello per ricompensa. I DUE ASPETTI DA CHIARIRE: COMPUTAZIONALE E ANATOMICO Negli ultimi anni si sono fatti moltissimi progressi nella comprensione delle basi neuronali e computazionali dell’apprendimento per rinforzo basato sulle ricompense (reinforcement learning). Di contro, i meccanismi computazionali e neuronali dell’apprendimento per punizione, in cui bisogna apprendere il modo migliore per evitare la perdita maggiore, non sono ancora stati chiariti. Il primo problema è computazionale, infatti, l’apprendimento basato sulla punizione presenta un apparente paradosso: «Quando si evita una punizione con successo, la risposta strumentale (cioè l’azione che permette di evitare la punizione) non è più rinforzata. Come conseguenza, i modelli teorici d’apprendimento di base predicono una performance migliore per l’apprendimento per ricompensa (dove l’azione che conduce ad una ricompensa viene scelta con maggiore probabilità in futuro, i.e. rinforzo positivo) rispetto all’apprendimento per evitamento della punizione, contrariamente al fatto che i soggetti umani mostrano la stessa performance di apprendimento nei due contesti» spiega il professor Giorgio Coricelli. Il secondo problema è neuroanatomico: «Un dibattito aperto nelle neuroscienze cognitive riguarda il fatto che le stesse aree cerebrali (lo striato e la corteccia ventrale prefrontale) rappresentino sia valori positivi che negativi, o alternativamente che l’apprendimento e la codifica dell’apprendimento per punizione avvenga in un sistema neuronale opposto (“opponent system”, composto dall’insula e la corteccia dorso mediana prefrontale) a quello della ricompensa». L’IPOTESI DI LAVORO: TUTTO DIPENDE DAL CONTESTO I ricercatori hanno ipotizzato che una soluzione dei due problemi possa venire considerando la contestualizzazione del valore, in altre parole dalla capacità del cervello di contestualizzare le opzioni di scelta, cioè di valutarle in modo relativo alle altre opzioni presenti nel contesto decisionale. Quindi, per esempio, una perdita minore in un contesto di perdite potrebbe essere considerata come un risultato positivo, alla stregue di una ricompensa. Inoltre, «risultati divergenti di studi di risonanza magnetica funzionale relativi alle differenze tra apprendimento per ricompensa vs. apprendimento per punizione potrebbero essere riconciliati dal fatto che in assenza di informazione contestuale, la punizione e le ricompense potrebbero essere computate da due sistemi separati; mentre, in seguito all’acquisizione dell’informazione contestuale (cioè l’identificazione chiara del contesto di scelta) la rappresentazione del valore assegnato ad ogni opzione di scelta convergerebbe su un unico sistema composto dalla corteccia frontale e dallo striato». LO STUDIO Nel corso dell’esperimento, partecipanti sani sono stati sottoposti alla risonanza magnetica funzionale durante un compito comportamentale di apprendimento, riguardante una serie di scelte tra due opzioni (due simboli che indicavano due slot machines, un compito chiamato in inglese: two-armed bandit), in cui una delle due opzioni è migliore rispetto all’altra, e seguito da un compito di verifica dell’apprendimento dei valori di ogni opzione di scelta. Nel contesto delle ricompense, con l’opzione migliore si poteva vincere 0.5€ il 75% delle volte o altrimenti ottenere 0€ e con l’altra opzione si vinceva 0.5€ solo il 25% delle volte; mentre nel contesto delle punizioni, con l’opzione migliore si perdeva -0.5€ il 25% delle volte e 75% si otteneva 0€ e con l’opzione più sfavorevole si perdeva -0.5€ il 75% e 0€ per il 25% delle volte in cui si sceglieva tale opzione. Il compito presentava due caratteristiche fondamentali: in primo luogo il compito confrontava l’apprendimento per ricompensa (in cui i risultati possibili erano 0.5€ o 0€) con quello per punizione (in cui i risultati possibili erano -0.5€ o 0€); in secondo luogo, in contesti di scelta specifici, venivano presentati i risultati dell’opzione scelta e di quella rifiutata, questo per indurre una valutazione relativa del risultato ottenuto con quello che si sarebbe potuto ottenere con la scelta alternativa (outcome controfattuale). Questa procedura sperimentale (cioè il confronto tra informazione parziale e informazione completa) è stata introdotta per indurre l’apprendimento del valore medio del contesto di scelta (cioè il valore del contesto, “context value”). RISULTATI: DALL’INSULA ALLO STRIATO «Abbiamo trovato evidenza comportamentale e neuronale coerente con l’idea che presentare sia il risultato dell’opzione scelta sia quello dell’opzione non scelta (outcome controfattuale) favorisca l’apprendimento di un “reference point” specifico del contesto» hanno spiegato il responsabile dello studio Giorgio Coricelli e il primo autore dello studio Stefano Palminteri dell’Institute of Cognitive Neuroscience (ICN) dell’University College London (UCL). «A conferma delle predizioni del nostro modello computazionale dei valori relativi, i risultati comportamentali illustrano come i partecipanti abbiano imparato ugualmente bene nei contesti di ricompense o punizioni». Inoltre, il circuito che elabora l’esito della nostra scelta cambia e diventa quello della ricompensa perché, anche se di fatto non vinciamo, non perdiamo tanto quanto avremmo potuto. Inoltre, i dati di risonanza hanno permesso di riconciliare dati sperimentali di studi precedenti che erano considerati contraddittori. «Infatti, l’aumento osservato della discriminazione tra i due contesti (di ricompense e di punizioni) nella condizione di informazione completa si è visto essere associato ad uno spostamento dell’elaborazione neuronale dell’outcome negativo (i.e. punizione) dall’insula verso lo striato ventrale, a dimostrazione della codifica della punizione e delle ricompense nella stessa struttura neuronale». Quindi il cervello è in grado di contestualizzare le opzioni di scelta e di utilizzare efficientemente un'unica procedura di apprendimento sia nel contesto delle ricompense che in quello delle punizioni. Palminteri, S., Khamassi, M., Joffily, M., Coricelli, G. (2015). Contextual modulation of value signals in reward and punishment learning. Nature Communications (in press) 10.1038/ncomms9096 GIORGIO CORICELLI Giorgio Coricelli è professore associato in Economia e Psicologia presso la University of Southern California a Los Angeles e professore ordinario del Centro Interdipartimentale Mente/Cervello (CIMeC) dell’Università degli Studi di Trento, dove è responsabile di un progetto di ricerca Europeo (ERC), un consolidator grant di quasi 2 milioni di euro dal titolo “Transfer learning within and between brains” (http://r.unitn.it/en/cimec/ldmg). Il professor Coricelli si occupa di neuroeconomia, un approccio multidisciplinare (economia, psicologia e neuroscienza) allo studio del comportamento economico. La sua ricerca riguarda il ruolo delle emozioni, come il rimpianto, e dei processi cognitivi in contesti di scelte individuali e sociali. I sui studi sono stati pubblicati in importanti riviste internazionali come Science, Nature Neuroscience e PNAS.