Il pensiero artificiale: `e possibile? Una visione di

Davide Briani
Liceo Scientifico E. Curiel, classe 5G
Padova, 7 luglio 2012
Il pensiero artificiale: è possibile?
Una visione di insieme sul dibattito odierno
2
Indice
I
Prefazione
0.1
II
7
Preambolo e materie coinvolte . . . . . . . . . . . . . . . . . .
Pensiero e intelligenza artificiale
9
11
1 Introduzione
13
1.1 L’Intelligenza Artificiale . . . . . . . . . . . . . . . . . . . . . 13
1.2 L’I.A. nella storia . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Il contributo di Turing e le reti neurali . . . . . . . . . . . . . 14
2 IA: La questione filosofica
2.1 Il test di Turing . . . . . . . . . . . . . .
2.1.1 La critica relativa all’incapacità .
2.1.2 L’obiezione matematica . . . . .
2.1.3 La critica sulla consapevolezza . .
2.2 Searle: la rappresentazione . . . . . . . .
2.3 Heidegger: il Dasein e l’essere nel mondo
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 La coscienza e il rapporto tra mente e corpo
3.1 Cos’è la coscienza? . . . . . . . . . . . . . . .
3.1.1 La visione fisicalista . . . . . . . . . .
3.1.2 La visione non-fisicalista . . . . . . . .
3.2 Conclusioni . . . . . . . . . . . . . . . . . . .
4 Le reti neurali artificiali
4.1 Struttura del neurone biologico . . . . . . . .
4.2 Il neurone artificiale . . . . . . . . . . . . . . .
4.3 Struttura di una rete . . . . . . . . . . . . . .
4.4 Principali componenti di un neurone artificiale
4.4.1 Pesi sinaptici . . . . . . . . . . . . . .
4.4.2 Funzioni di somma e di attivazione . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
18
18
19
19
20
23
.
.
.
.
29
31
32
35
38
.
.
.
.
.
.
41
42
43
44
47
47
47
4
INDICE
4.4.3 Funzioni di trasferimento e di limitazione . .
4.4.4 Rumore e temperatura del neurone . . . . .
4.4.5 Funzione di output: competizione . . . . . .
4.4.6 Funzione di errore . . . . . . . . . . . . . . .
4.4.7 Funzione di apprendimento . . . . . . . . .
Tipologie di apprendimento . . . . . . . . . . . . .
4.5.1 Apprendimento supervisionato . . . . . . . .
4.5.2 Apprendimento non supervisionato . . . . .
4.5.3 Apprendimento per rinforzo . . . . . . . . .
4.5.4 Velocità di apprendimento . . . . . . . . . .
4.5.5 Regole principali per l’apprendimento . . . .
Considerazioni sulle reti neurali . . . . . . . . . . .
4.6.1 Successi e insuccessi . . . . . . . . . . . . .
4.6.2 Campi di utilizzo . . . . . . . . . . . . . . .
Esempio di utilizzo . . . . . . . . . . . . . . . . . .
4.7.1 Matematica: Approssimazione della funzione
4.5
4.6
4.7
5 IA:
5.1
5.2
5.3
III
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
seno
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
50
51
51
52
52
52
54
55
55
56
58
58
60
61
61
il contributo di Gödel
65
I teoremi di incompletezza . . . . . . . . . . . . . . . . . . . . 66
Interpretazioni e dibattito . . . . . . . . . . . . . . . . . . . . 69
Conclusione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Riferimenti
73
Bibliografia
75
Sitografia
77
Filmografia
78
Elenco delle figure
1.1
Alan Turing (1912-1954) . . . . . . . . . . . . . . . . . . . . . 14
2.1
2.2
2.3
2.4
2.5
John Searle (1932) . . . . . .
Marvin Minsky (1927) . . . .
Hubert Dreyfus (1929) . . . .
Anirban Bandyopadhyay . . .
Martin Heidegger (1889-1976)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
22
23
24
24
3.1
3.2
3.3
3.4
3.5
3.6
Joseph E. LeDoux (1949) . . . .
Renato Cartesio (1596-1650) . .
Hilary Putnam (1926) . . . . .
Galileo Galilei (1564-1642) . . .
Vincenzo Tagliasco (1941-2008)
Riccardo Manzotti . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
31
33
33
36
37
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
Struttura di un neurone naturale . . . . . . . . . . . . . .
Struttura di un neurone artificiale . . . . . . . . . . . . . .
Esempio di rete neurale multistrato . . . . . . . . . . . . .
Il modello del Percettrone . . . . . . . . . . . . . . . . . .
Funzioni di trasferimento più comuni . . . . . . . . . . . .
Set di punti P(input, output) per l’apprendimento di sin(x)
Output dell’approssimazione della rete neurale a sin(x) . .
Confronto tra l’approssimazione di sin(x) e sin(x) . . . . .
Diminuzione dell’errore quadratico medio della rete . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
44
45
46
49
62
63
63
64
5.1
5.2
5.3
5.4
5.5
5.6
Kurt Gödel (1906-1978) . . .
Bertrand Russell (1872-1970)
Douglas Hofstadter (1945) . .
Roger Penrose (1931) . . . . .
Piergiorgio Odifreddi (1950) .
Jean-Yves Girard (1947) . . .
.
.
.
.
.
.
.
.
.
.
.
.
66
67
68
68
70
71
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
ELENCO DELLE FIGURE
Parte I
Prefazione
7
0.1. PREAMBOLO E MATERIE COINVOLTE
0.1
9
Preambolo e materie coinvolte
Il testo sviluppato si prefigura come il frutto di un approfondimento personale su un tema di notevole interesse per l’autore; un esito di tale ricerca è
stato quello di notare come, partendo da un quesito apparentemente estraneo
all’attività didattica affrontata durante il quinto anno di studi, la strada si
ricolleghi invece ad alcuni temi ed autori del programma svolto.
Le macchine possono pensare?
Questo interrogativo conduce a questioni care ai ricercatori delle scienze
cognitive, come quella dell’intelligenza e della coscienza artificiali. Sebbene
di ampio respiro, l’argomento viene trattato sviluppando i punti principali
che lo caratterizzano, cercando di offrire una trattazione chiara e agevole.
Per quanto il tema venga esposto nei suoi caratteri più generali, alcune
materie e aree di studio vengono maggiormente toccate, come Matematica
e Filosofia. Nel tentativo di trovare una risposta alla domanda iniziale circa
la possibilità di un pensiero artificiale, il testo contiene riferimenti a idee e
concezioni di personaggi anche illustri: Heidegger, Gödel, Minsky, Galilei,
Turing, Searle, Cartesio, Odifreddi; si parte dunque dal dualismo cartesiano tra materia e spirito per giungere agli odierni orientamenti della ricerca
scientifica e filosofica. All’interno dello scenario moderno e del ventaglio
delle concezioni correnti riguardo l’intelligenza artificiale viene esplicitato il
contributo di diversi pensatori: cosı̀ per alcuni come Tagliasco o Manzotti
la quantificazione galileiana della realtà è una visione distorta e riduttiva e
occorrono nuovi strumenti di indagine per studiare il pensiero, mentre altri
come Turing o Minsky ritengono possibile giungere a vere menti artificiali; il
Teorema di incompletezza di Gödel si posiziona come un nodo fondamentale
del dibattito circa l’impossibilità delle macchine di affrontare problemi che
gli umani sono in grado di risolvere; il Dasein di Heidegger è quell’ essere nel
mondo che da alcuni viene contestato a macchine incapaci di interagire adeguatamente con l’ambiente esterno e di possedere un sufficiente background
culturale o senso comune. Obliquamente al ventaglio di riflessioni filosofiche
e, per cosı̀ dire, astratte prendono posto le reti neurali artificiali, sistemi di
elementi adattivi a somiglianza dei neuroni naturali che seguendo modelli
matematici tentano di riprodurre la capacità dell’uomo di imparare a partire
dagli input dell’ambiente esterno e di agire di conseguenza.
Per semplicità, nella stesura del testo si è cercato di operare delle suddivisioni in sezioni e paragrafi, correlati da formule, immagini, grafici e alcuni
esempi.
10
Parte II
Pensiero e intelligenza
artificiale
11
Capitolo 1
Introduzione
1.1
L’Intelligenza Artificiale
L’Intelligenza Artificiale è una disciplina sviluppata in un periodo relativamente recente che si prefigge due scopi: lo studio dei principi e dei meccanismi che sono alla base dell’intelligenza umana e la realizzazione di prodotti
artificiali in grado di riprodurre comportamenti intelligenti.
1.2
L’I.A. nella storia
L’espressione intelligenza artificiale venne coniata per la prima volta in un
seminario tenutosi nel 1956 a Dartmouth, negli Stati Uniti. In quell’occasione
Marvin Minsky, uno dei fondatori della disciplina, definı̀ l’IA come la scienza
che fa fare alle macchine cose che richiederebbero intelligenza se fossero fatte
dagli uomini. Alcuni studiosi non sono d’accordo, perché considerano l’IA
non una vera e propria scienza, ma un’area di ricerca tecnologica. La definizione di Minsky ha comunque il pregio di chiarire gli scopi dell’IA: costruire
macchine in grado di dare prestazioni intelligenti.
Ad ogni modo, l’idea di costruire artefatti o automi che si comportano
come uomini o animali risale addirittura all’antico Egitto. Ci è stato infatti
tramandato che venivano costruite statue di divinità azionate da congegni
elementari come leve e girelle. L’abilità nel costruire automi ebbe però il suo
massimo sviluppo dal Rinascimento in poi; si racconta che Leonardo da Vinci
avesse costruito un leone animato, ma il più famoso costruttore di automi fu
Vaucanson che nel Settecento fabbricò un suonatore meccanico di flauto che
era in grado di eseguire diversi pezzi musicali e un canarino meccanico che
mangiava e digeriva.
13
14
CAPITOLO 1. INTRODUZIONE
Nel Seicento si diffuse la moda dei giochi idraulici e degli automi da giardino. Fu proprio osservando gli automi idraulici nei giardini di Fontainbleau
che Cartesio concepı̀ l’idea che il corpo umano fosse una macchina. La filosofia di Cartesio, che opera la famosa distinzione fra res extensa e res cogitans,
cioè fra il meccanicismo del corpo e la spiritualità della mente, è perfettamente compatibile con la costruzione di automi: i corpi umani e animali
sono riproducibili meccanicamente, il pensiero invece appartiene alla sfera
spirituale e non è pertanto riproducibile.
Fu Thomas Hobbes a contestare questa concezione spiritualistica del pensiero contrapponendovi una concezione materialistica; egli affermava, infatti,
che ragionare equivale a calcolare, in altre parole a fare operazioni di somma
o sottrazione fra idee o nomi. L’idea che il ragionamento sia un calcolo e sia
pertanto riproducibile meccanicamente, è condivisa dai moderni studiosi di
IA. Ma per poter arrivare ai primi tentativi di realizzazione dell’IA stessa,
la scienza è dovuta giungere alla costruzione dei calcolatori elettronici e ha
dovuto interrogarsi sul significato del termine intelligenza.
1.3
Il contributo di Turing e le reti neurali
Nel cammino che conduce alla ricerca odierna sull’intelligenza e sugli automi, è necessario ricordare
il contributo dato da Alan Turing, uno dei “padri”
del calcolo automatico. Egli sviluppò le basi teoriche dell’informatica nel 1936, introducendo un
modello di “macchina calcolatrice programmabile” chiamata appunto macchina di Turing. Per
la realizzazione di questo modello egli prese spunto da analogie con il cervello e nel 1950 pubblicò
la sua teoria scrivendo un articolo ove sostenne
la possibilità di realizzare un programma che perFigura 1.1: Alan Turing mettesse a un computer di comportarsi in maniera
(1912-1954)
intelligente.
Lo sviluppo delle reti neurali artificiali, nuovo
campo di ricerca che tentava di ideare modelli artificiali del cervello umano,
fu di poco successivo alla pubblicazione della macchina di Turing. Infatti
agli inizi degli anni ’40, alcuni pionieri del campo dell’intelligenza artificiale
cominciarono a studiare le potenzialità e le capacità derivanti dalla interconnessione di numerosi elementi semplici basati sul modello fisiologico semplificato di un neurone. Cominciò allora ad avviarsi la ricerca e lo studio
delle reti neurali artificiali ed un primo esempio di rete si ebbe già nel 1943,
1.3. IL CONTRIBUTO DI TURING E LE RETI NEURALI
15
quando McCulloch e Pitts proposero un primo modello di neurone artificiale
e la connessione di un gruppo di queste unità. Le teorie di McCulloch e Pitts
mancavano però di un passo fondamentale: la possibilità di apprendimento.
Per questo nel 1949 lo psicologo Hebb propose un semplice meccanismo di
apprendimento ispirandosi al sistema nervoso.
Vari ricercatori e studiosi si ispirarono alle idee di Turing ed infatti durante la conferenza di Dartmouth si mostrò anche il primo programma che
realizzava dimostrazioni automatiche di teoremi: il programma LT. Dalla
data della conferenza il dibattito sulla intelligenza artificiale si fece sempre
più vivo, anche se le reti neurali restarono in secondo piano: lo sviluppo di
queste nuove teorie iniziò infatti a rallentare tra il 1970 e il 1980, a causa di
critiche di altri studiosi che le consideravano di “basso rigore scientifico”. Nel
1985 ci fu poi un grandissimo rilancio dato dalla pubblicazione di un nuovo
algoritmo di apprendimento detto “di retro-propagazione dell’errore” (error
back-propagation) da parte di Rumelhart.
Per quanto riguarda il dibattito sulla intelligenza artificiale esso prese vita
dividendosi in due rami, tutt’ora presenti: quello dell’intelligenza artificiale
forte e dell’intelligenza artificiale debole. La prima sostiene che un computer
opportunamente programmato e sufficientemente potente possa mostrare un
comportamento intelligente del tutto indistinguibile da quello umano. La
seconda sostiene invece che un computer possa sı̀ mostrare un comportamento
intelligente, ma in modo solo apparente, che non sarà mai paragonabile a
quello umano.
Nel capitolo successivo la trattazione verrà focalizzata sull’aspetto teorico dell’argomento e sull’odierno dibattito circa la possibilità di un pensiero
artificiale paragonabile o uguale a quello umano. Uno sguardo al campo più
concreto delle reti neurali verrà proposto solo in un secondo tempo.
16
CAPITOLO 1. INTRODUZIONE
Capitolo 2
IA: La questione filosofica
La filosofia della mente è una disciplina il cui scopo è lo studio della mente, della coscienza, delle funzioni cognitive e del loro rapporto con il cervello.
Non solo, lo studio si rivolge anche alle relazioni che intercorrono tra la mente
e il corpo o il mondo. Con la ricerca odierna gli sforzi si sono inevitabilmente diretti anche verso i tipi di intelligenza che possiamo definire artificiali,
soprattutto quelli che presentano caratteristiche tali da ipotizzare per essi la
possibilità di riprodurre il cervello umano, se non addirittura la vita.
Solitamente, riguardo a questo tema, ciò che interessa ai filosofi è il confronto tra due architetture, quella umana e quella delle macchine: tradizionalmente il problema è stato formulato come “le macchine possono pensare?”.
Da una parte, alcuni hanno cercato di dimostrare che l’IA è impossibile e
che le macchine non hanno alcuna possibilità di agire in modo intelligente,
dall’altra il pensiero artificiale è visto come possibile. Perché domande come
quella posta abbiano un senso occorre ad ogni modo determinare prima cosa
significhi pensare. Ironicamente infatti, nonostante tutti siano d’accordo che
gli esseri umani siano intelligenti, nessuno è ancora riuscito a dare una definizione soddisfacente di intelligenza. Per questo si è soliti individuare, come
già detto, due “schieramenti” principali tra gli studiosi in questo campo:
• il primo, detto “Intelligenza artificiale forte”, viene sostenuto soprattutto dai funzionalisti e ritiene che un computer correttamente programmato possa raggiungere un livello di intelligenza non distinguibile
da quello umano. L’idea alla base di questa teoria risale a quella dell’empirista inglese Thomas Hobbes, il quale sosteneva che ragionare
non è nient’altro che calcolare: la mente umana consisterebbe cioè in
un insieme di processi e calcoli eseguiti dal cervello.
• il secondo, detto “Intelligenza artificiale debole”, sostiene che un computer non sarà mai in grado di eguagliare la mente umana, ma potrà
17
18
CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA
arrivare a simulare solo alcuni aspetti di essa, non riuscendo a riprodurli
tutti contemporaneamente.
La vera Intelligenza Artificiale, almeno secondo alcuni, potrebbe dunque essere raggiungibile solo da sofisticati robot in grado di muoversi ed interagire
con l’ambiente che li circonda grazie a sensori. La ricerca odierna, anche
relativamente al campo delle reti neurali artificiali, è infatti indirizzata verso
questa ipotesi. Le macchine dovranno essere quindi in grado di imparare
e apprendere dalle proprie esperienze tramite mezzi propri. Alcuni studiosi
inoltre ritengono che anche nei robot intelligenti occorra creare una “infanzia” che gli consenta di mettere a punto autonomi processi di apprendimento
e adattamento all’ambiente.
Il quesito iniziale di fondo, “le macchine possono pensare”, non sembra
comunque poter ricevere una risposta chiara.
2.1
Il test di Turing
Alan Turing, nel suo celebre Computing Machinery and Intelligence (Turing, 1950), suggerı̀ che invece di chiederci se le macchine possono pensare
dovremmo chiederci se possono superare un test comportamentale di intelligenza, che da allora è stato chiamato test di Turing. Il test, detto anche gioco
dell’imitazione, consiste nel sostenere una conversazione (attraverso messaggi digitati su una tastiera) con un interlocutore per cinque minuti. Alla fine
la persona che ha posto le domande deve indovinare se la conversazione ha
avuto luogo con un programma oppure con un essere umano; il programma
passa il test se riesce a ingannare il suo interlocutore tre volte su dieci.1
Turing prese anche in esame una grande varietà di eventuali obiezioni alla
possibilità che esistano macchine pensanti, tra cui praticamente tutte quelle
sollevate nel mezzo secolo successivo alla pubblicazione del suo articolo.
2.1.1
La critica relativa all’incapacità
L’argomentazione derivante dall’incapacità si basa sull’asserzione che “una
macchina non potrà mai fare X”. Come esempi di X Turing ha elencato le
seguenti capacità: essere gentile, pieno di risorse, bello, amichevole, avere
iniziativa, senso dello humor, riconoscere ciò che è giusto e sbagliato, fare
errori, innamorarsi, godersi una coppa di fragole e gelato, far sı̀ che qualcuno
1
A. M. Turing, Macchine calcolatrici e intelligenza, in V. Somenzi - R. Cordeschi (a
cura di) La filosofia degli automi. Origini dell’intelligenza artificiale, Boringhieri, Torino,
1986, pp. 157-158
2.1. IL TEST DI TURING
19
la apprezzi, imparare dall’esperienza, usare le parole correttamente, essere
l’oggetto del proprio pensiero, esibire una diversità di comportamenti pari a
quella di un essere umano, fare qualcosa di veramente nuovo.
Turing dovette usare il proprio intuito per indovinare quello che sarebbe
stato possibile fare in futuro, ma noi ora abbiamo la comodità di poter guardare indietro a ciò che i computer hanno già fatto e dato quello che sappiamo
oggi sui computer, non ci sorprende che si comportino cosı̀ bene in problemi
combinatori come gli scacchi. Ma gli algoritmi possono eseguire attività che
apparentemente richiedono una capacità di giudizio umana o, per dirla come Turing, la capacità di “apprendere dall’esperienza” e di “riconoscere ciò
che è giusto e sbagliato”; è chiaro che i computer possono fare molte cose
altrettanto bene o meglio degli uomini, tra cui alcune che si pensa richiedano
una grande quantità di intuizione e comprensione umana. Ciò non significa,
naturalmente, che i computer ricorrano all’intuizione e alla comprensione: il
punto è che spesso ci si sbaglia quando si ipotizzano processi mentali richiesti
per produrre un determinato comportamento. Ovviamente, è anche vero che
ci sono molte attività in cui i computer non sono ancora in grado di “eccellere”, tra cui quella richiesta da Turing: sostenere una conversazione ad
argomento libero. Questo tuttavia potrebbe rivelarsi un problema destinato
a essere lentamente dimenticato in seguito ai successi della ricerca nel campo
dell’intelligenza artificiale, delle reti neurali e degli automi.
2.1.2
L’obiezione matematica
Turing prese in esame anche le considerazioni e le conseguenze insite nel
Teorema di incompletezza di Gödel (1931), il quale dimostra come certe
asserzioni matematiche risultino indecidibili in particolari sistemi formali.
Poggiandosi sulle affermazioni del teorema, alcuni critici vedono le macchine
come sistemi formali limitati e naturalmente inferiori all’intelligenza umana.
Un capitolo a parte è tuttavia stato riservato in questo testo per una
introduzione al famoso teorema e al relativo dibatto, la cui trattazione viene
dunque momentaneamente rinviata.
2.1.3
La critica sulla consapevolezza
Un’altra possibile e comune obiezione che stata sollevata sul fatto che una
macchina sia effettivamente in grado di pensare è quella relativa alla consapevolezza del proprio pensiero e della proprie azioni, una obiezione resa
famosa anche dall’esperimento mentale ideato da Searle che verrà presentato nel prossimo paragrafo. In sostanza, come Turing aveva previsto, alcuni
affermano che una macchina che passi il test da lui ideato non stia in realtà
20
CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA
pensando ma stia unicamente producendo una simulazione del pensiero. Già
Turing citò il Professor Geoffrey Jefferson (1949): “Finché una macchina
non sarà in grado di scrivere una poesia o comporre una melodia grazie a
pensieri ed emozioni provate, non sarà possibile convenire che le macchine
equivalgono il cervello - ossia, non solo scrivere la poesia ma sapere di averla
scritta.”. A tale obiezione Turing rispose semplicemente con un’ulteriore domanda: perché dobbiamo insistere nell’esigere dalle macchine più di quanto
chiediamo a noi umani? Nella vita di tutti i giorni, dopotutto, non abbiamo
nessuna evidenza diretta circa la sussistenza di stati mentali interni negli altri umani. Ciò nonostante siamo soliti dare per scontata la convenzione che
ciascuno pensi.
2.2
Searle: la rappresentazione
L’esperimento di Turing, in ogni caso, è un test comportamentistico, il cui fine
non è prettamente quello di identificare se e dove ci possa essere intelligenza
ma piuttosto di valutare il grado di abilità del sistema artificiale nel dare
risposte consone alle richieste presentate. Il test è difatti senza dubbio anche
in buona parte soggettivo poiché è proprio l’interrogante il giudice supremo
che deve decidere se ha di fronte un uomo o una macchina. L’interrogativo
iniziale Può una macchina pensare? non sembra quindi, almeno per alcuni,
poter trovare una adeguata risposta tramite il gioco dell’imitazione.
Al riguardo, il filosofo John Searle replicò
con un famoso esperimento mentale, denominato
esperimento della stanza cinese. Urge ora una rapida esposizione dello stesso: “Supponiamo che io
mi trovi chiuso in una stanza con un grande foglio
di carta tutto coperto di ideogrammi cinesi. Supponiamo inoltre che io non conosca il cinese (ed
è proprio cosı̀), scritto o parlato, e che io non sia
nemmeno sicuro di riuscire a distinguere la scrittura cinese dalla scrittura diciamo, giapponese o
da sgorbi privi di significato: per me gli ideogrammi cinesi sono appunto sgorbi privi di significato. Figura 2.1: John Searle
(1932)
Ora supponiamo che, dopo questo primo foglio in
cinese, mi venga fornito un secondo foglio scritto
nella stessa scrittura, e con esso un insieme di regole per correlare il secondo foglio col primo. Le regole sono scritte in inglese e io capisco queste
regole come qualsiasi altro individuo di madrelingua inglese. Esse mi permettono di correlare un insieme di simboli formale con un altro insieme di
2.2. SEARLE: LA RAPPRESENTAZIONE
21
simboli formali; qui formale significa semplicemente che io posso identificare
i simboli soltanto in base alla loro forma grafica. Supponiamo ancora che
mi venga data una terza dose di simboli cinesi insieme con alcune istruzioni, anche queste in inglese, che mi permettono di correlare certi elementi di
questo terzo foglio coi primi due, e che queste regole mi insegnino a tracciare
certi simboli cinesi aventi una certa forma in risposta a certi tipi di forme
assegnatomi nel terzo foglio. A mia insaputa le persone che mi forniscono
tutti questi simboli chiamano il contenuto del primo foglio scrittura, quello
del secondo storia e quello del terzo domande. Inoltre chiamano risposte alle
domande i simboli che io do loro in risposta al contenuto del terzo foglio e
chiamano programma l’insieme delle regole in inglese che mi hanno fornito.
[...] Nessuno, stando solo alle mie risposte, può rendersi conto che non so
neanche una parola di cinese. [...] Dal punto di vista esterno, cioè dal punto
di vista di qualcuno che legga le mie risposte, le risposte alle domande in
cinese e a quelle in inglese sono altrettanto buone. Ma nel caso del cinese,
a differenza dell’inglese, io do le risposte manipolando simboli formali non
interpretati. Per quanto riguarda il cinese, mi comporto né più né meno che
come un calcolatore: eseguo operazioni di calcolo su elementi specificati per
via formale. Per quanto riguarda il cinese, dunque, io sono semplicemente
un’istanziazione (ossia un’entità totalmente corrispondente al suo tipo astratto) del programma del calcolatore”. 2 Ciò che in sostanza il filosofo tentò di
dimostrare tramite questo esperimento mentale è che la sintassi formale non
implica di per sé la presenza di contenuti mentali; cioè poiché i programmi
sono definiti in termini puramente formali o sintattici e che la mente possiede
un contenuto mentale intrinseco, ne consegue che essa non può consistere in
un semplice programma. Una macchina quindi non sarà veramente in grado
di pensare come un umano.
Riguardo questa considerazione è tuttavia possibile fare qualche osservazione e critica. Innanzitutto bisogna dire che l’argomentazione poggia su una
semplice verità logica: sintassi e semantica non si equivalgono e la sintassi
non può costituire e generare la semantica. Il che sembra ovvio e razionale.
Ciò che va notato però è che la stanza cinese è un luogo virtuale privo di qualsiasi collegamento con i significati e quindi incapace di significare; non si può
dire, infatti, che qualora effettivamente la mente fosse un programma, esso
dovrebbe limitarsi a manipolare simboli senza effettuare alcuna associazione
con la realtà cosciente. Essa potrebbe cioè manipolare simboli e nel contempo operare con gli oggetti ad essi associati e quindi acquistare coscienza degli
stessi.
Secondo alcuni studiosi inoltre, gli esperimenti di Turing e di Searle non
2
J. R. Searle, Il mistero della coscienza, Raffaello Cortina, 1998
22
CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA
dimostrano con certezza alcunché. Ad esempio per Marvin Minsky, pioniere
nel campo della I.A., il test di Turing è solo una riflessione sul fatto che il
termine “intelligenza” viene solitamente adoperato per indicare realtà molto
diverse tra loro. Si possono ottenere macchine intelligenti e che siano in grado
di passare il test proposto ma che hanno poco in comune con le persone. Per
questo Minsky ritiene che non sia di grande importanza definire l’intelligenza
bensı̀ concentrarsi sul cammino della ricerca, nel tentativo di arrivare a una
più ampia conoscenza del problema. In questa ottica, l’esperimento mentale
di Searle si prefigura come un incentivo allo studio dei processi cognitivi,
umani e non. Occorre analizzare a fondo anche il linguaggio e soprattutto i
significati correlati; più che la sintassi occorrono nuove idee di semantica e
semiotica, sebbene la ricerca in questo campo comprenda una ristretta fascia
di studiosi.
Dunque il problema della rappresentazione
costituisce effettivamente un nodo fondamentale
nello sviluppo di una intelligenza artificiale. Secondo alcuni però le macchine sarebbero in grado
di raggiungere notevoli livelli di intelligenza e di
pensiero, il vero problema risiede nel processo di
rappresentazione in quanto metodo per lavorare
e prendere coscienza della realtà. Ciò che suggerisce Minsky è che se si vuole una macchina che
rifletta su determinati oggetti bisogna che abbia
modo di rappresentarli. Se a tale scopo si utilizzano soltanto dei simboli collegati tra loro in Figura 2.2: Marvin Minsky (1927)
maniera disordinata, ogni volta che si rappresenta un dato inedito sarà necessario un nuovo tipo
di programma che lo interpreti. Risulta necessario sia per il cervello che per i
computer sviluppare modi diversi di rappresentare la conoscenza ed essere in
grado di selezionare elementi della conoscenza e tramite questi estrapolarne
di nuovi. A tal fine si deve a Minksy l’introduzione del concetto di frame,
un metodo relativamente semplice di rappresentare le caratteristiche di un
oggetto. Nel processo di rappresentazione vengono creati frame differenti che
possono essere collegati tra loro in modo da permettere al sistema di mutare il
punto di osservazione, guardare a un oggetto da una determinata prospettiva
per passare poi a un’altra inquadratura. Questo è appunto uno dei settori di
studio che tengono impegnati scienziati e ingegneri nel tentativo di produrre
macchine capaci di conoscenze più complete. Uno dei problemi principali
di costoro è infatti quello di riuscire a realizzare un ragionamento impiegando diversi tipi di rappresentazione contemporaneamente. La mente umana,
invece, è capace di passare continuamente da un modo di rappresentazione
2.3. HEIDEGGER: IL DASEIN E L’ESSERE NEL MONDO
23
all’altro. L’esempio più semplice è quello di un uomo che osserva un oggetto
nel suo insieme o in ciascun suo particolare.
Riprendendo un esempio già proposto poco fa, è possibile pensare di realizzare un programma che, pur manipolando simboli, operi nel contempo con
gli oggetti associati ad essi e acquisti di conseguenza coscienza di essi: per
chiarire le idee si immagini un semplice sistema formale costituito da tre
simboli {A, B, C} e si introduca una funzione biunivoca chiamata f (x) che
associ a ciascuno di essi una immagine, ad esempio un vaso, un mucchio di
terra e un fiore. A questo punto è possibile ammettere che ∀C =⇒ ∃A, B,
ossia per ogni fiore C deve esistere un vaso A pieno di terra B. A questo
punto è possibile compiere una osservazione: la regola è espressa secondo il
linguaggio formale della logica ma in virtù delle associazioni mentali è possibile immaginare la situazione pensando direttamente alla sovrapposizione
di f (A), f (B) e f (C); oppure, in termini meno astratti, si può immaginare
un quadretto in cui compare raffigurato un vaso con un fiore. Secondo questa concezione, la conoscenza si articola in più livelli differenti e può essere
possibile e completa anche artificialmente; il significato e la semantica non
compaiono nell’esperimento della stanza cinese perché viene lasciato spazio
unicamente alla sintassi e alla manipolazione di simboli; l’interpretazione non
può essere messa in relazione con l’oggetto. Secondo alcuni, Searle, nella sostanza, sarebbe riuscito al massimo a postulare l’impossibilità di una mente
priva di semantica ma il pensiero e la rappresentazione a più livelli sono obiettivi possibili e concreti. Questo è il sogno che i sostenitori dell’intelligenza
artificiale cercano di realizzare.
2.3
Heidegger: il Dasein e l’essere nel mondo
Quando gli studi in fatto di intelligenze artificiali e
macchine arriveranno al punto di produrre sistemi
non distinguibili dall’uomo in quanto a comportamento, come aveva predetto Turing, probabilmente le critiche teoriche riguardo la possibilità della
loro concretizzazione semplicemente svaniranno.
Fino ad ora però il dibattito è stato senza dubbio vivo e numerose critiche sono state presentate.
Riguardo il problema della rappresentazione vi è
chi, come detto, tenta di dimostrare l’analogia tra
mente e calcolatore, ma vi è pure chi, come il filoFigura 2.3: Hubert Drey- sofo Dreyfus, ritiene che le macchine nonostante i
fus (1929)
passi avanti della ricerca siano inferiori all’uomo.
24
CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA
Questi pensa infatti che l’intelligenza umana sia
più olistica di quella artificiale. Se l’affermazione viene riferita all’attuale sviluppo del campo delle reti neurali artificiali quali emulatori delle capacità del
cervello umano, essa risulta veritiera in quanto al momento nessun modello
matematico-ingegneristico di rete neurale ispirato alla teoria connessionista
sembra in grado di riprodurre con efficacia il carattere olistico, situazionale
e corporeo dell’intelligenza umana. Questo significa che per eguagliare l’uomo, le macchine dovrebbero avere bisogni, desideri, emozioni, sensazioni, cioè
possedere un corpo simile al nostro, con tutta la sua naturale complessità.
Sebbene tentativi di riprodurre il cervello
umano anche con strutture organizzate di neuroni biologici vengano correntemente effettuate e
sembrino lasciar spazio a notevoli possibilità, la ricerca odierna è certamente ancora lontana dal riprodurre completamente l’intelligenza dell’uomo,
la quale sembra essere motivata sia dalla totalità
dell’organismo corporeo che dalla totalità dell’ambiente socio-culturale. Esperimenti come quello
del ricercatore indiano Anirban Bandyopadhyay,
che è riuscito a ideare e realizzare un cervello bioAnirban
logico costituito da una gelatina di molecole orga- Figura 2.4:
Bandyopadhyay
niche che funziona a bassa energia, riproducono
in maniera sorprendente la struttura del cervello
umano e rivelano già grosse potenzialità, tuttavia non riescono per ora ad
offrire altro se non il proprio interessante e utile aspetto applicativo, ad esempio nel campo della nano-chirurgia.3
Quale ingrediente manca a questi sistemi affinché dispongano di una intelligenza completa,
perché possano fare esperienza di un pensiero
come il nostro?
Alcuni filosofi e studiosi concordano nel dire
che una componente fondamentale perché ciò accada sia proprio la coscienza da parte della macchina di essere al mondo, di interagire con la realtà
e l’ambiente esterno. Ciò significa che, riprendendo il pensiero heideggeriano, un sistema per essere intelligente deve innanzitutto essere, ovvero
Figura 2.5: Martin Heiessere vivo, essere nel mondo. Come propone-
degger (1889-1976)
3
V. Kasam, I neuroni di Anı̀, Il Sole 24 Ore, 3 giugno 2012, p. 31
2.3. HEIDEGGER: IL DASEIN E L’ESSERE NEL MONDO
25
va Heidegger dando avvio all’indagine ontologica
della realtà, la questione fondamentale riguarda
il rapporto tra il nostro essere ciò che siamo e il nostro essere nel mondo;
come viene esplicitato in “Essere e Tempo” dal filosofo, si verifica un vero e
proprio rovesciamento del concetto cartesiano Cogito, ergo sum che diviene
Sum, ergo cogito: “...Cartesio a cui si attribuisce con la scoperta del cogito
sum, l’avvio della problematica filosofica moderna, indagò, entro certi limiti,
il cogitare dell’ego. Per contro lasciò del tutto indiscusso il sum, benché lo
presenti come non meno originario del cogito. L’analitica pone il problema
ontologico dell’essere del sum. Quando questo sarà determinato, e solo allora, risulterà comprensibile anche il modo di essere delle cogitationes”. 4
E’ il Dasein il concetto fondamentale che caratterizza la natura dell’uomo
come animale sociale; significa esistenza anche come vita, come agire ed essere nel mondo. L’essere è il livello fondamentale che si pone come base per
la comprensione del mondo; la coscienza e l’intenzionalità vanno pensate a
partire dall’essere, cosicché il problema della mente diviene sostanzialmente
un problema ontologico.
Per Heidegger la storia della filosofia è la storia della “dimenticanza dell’essere”, a partire da Platone e dall’idea che sia possibile conoscere l’universo oggettivamente fino a Cartesio e al suo “Cogito, ego sum”; occorre invece
presupporre uno sfondo di pratiche quotidiane alle quali non corrispondono
rappresentazioni mentali; l’uomo, cioè, vive autenticamente quando riesce a
“incontrare” il mondo non solo teoreticamente ma anche praticamente: l’uomo esprime le proprie capacità e abilità nell’interazione con gli strumenti, i
mezzi, gli oggetti e gli altri esseri umani. Come è stato osservato da Dreyfus,
la visione heideggeriana della natura dell’uomo come non rappresentazionale
e non formalizzabile in quanto essere-nel-mondo, in quanto Dasein, mette
in discussione le ipotesi circa la creazione di una mente artificiale tramite
sofisticata tecnologia. Proprio il Dasein è ciò che è impossibile simulare per
una macchina: la specificità dell’essere è data dal suo relazionarsi al mondo
esterno, non solo nel rapporto tra stati mentali e realtà oggettiva, ma nel
modo in cui l’essere “incontra” il mondo. Ad esempio quando giochiamo a
tennis o guidiamo un’auto non prestiamo attenzione al nostro agire o all’oggetto, sia esso una racchetta o una macchina, ma siamo concentrati sul fine
dell’azione. In altre parole non abbiamo bisogno di una chiara percezione
di stare guidando una macchina o della esistenza stessa della macchina; il
nostro agire, il nostro “incontrare” la realtà non passa attraverso la parte
cosciente del cervello. Si potrebbe affermare dunque, seguendo la visione di
Heidegger e Dreyfus, che la coscienza non è una condizione necessaria per
4
M. Heidegger, Essere e Tempo, trad. it. di P. Chiodi, Longanesi, Milano, 1976, p. 69
26
CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA
entrare in relazione con il mondo ma è piuttosto il Dasein e l’essere nel mondo
a costituire quello sfondo ontologico necessario perché si possano manifestare
le nostre capacità e la nostra coscienza.
Affinché sia possibile il pensiero artificiale, quindi, le macchine dovrebbero
possedere perlomeno una qualche forma di Dasein, di senso comune. Quest’ultimo sembra sempre più poter essere la chiave, o almeno un ingrediente
essenziale, per la concretizzazione delle ipotesi dei fautori dell’intelligenza
artificiale. Scienziati impegnati in questo campo, infatti, concentrano sforzi
sempre maggiori allo scopo di riuscire a fornire alle proprie macchine una forma seppur limitata di senso comune, un background culturale che permetta
di inserirle e farle “vivere” in un ambiente tramite sensori e mezzi di comunicazione che riproducono le abilità innate dell’uomo garantite dai “cinque
sensi”. Uno dei problemi maggiori incontrati lungo questa via è costituito
dal fatto che spesso si tende a ridurre i processi di conoscenza e di sviluppo
dell’intelligenza al problema della memoria: alcuni studiosi di I.A. sostengono che disponendo di tempo e capacità sarà possibile accumulare moltissime
informazioni e costruire sulla base di queste macchine molto simili agli esseri
umani. Ma una tale forma di conoscenza risulterebbe in ogni caso limitata e parziale perché, secondo alcuni come Dreyfus, i meccanismi stessi delle
macchine sono limitati. Ad esempio, per comprendere cos’è un martello, un
computer non dovrebbe fare riferimento ad un database costituito di chiodi, muri, persone, case, legno, ferro, prove di resistenza, ecc., ma accedere
solamente ai fatti di possibile rilevanza nel contesto specifico in cui esso sta
operando. Per fare questo però il computer dovrebbe riprodurre il contesto
umano, dovrebbe essere in grado di “essere in una situazione”, di “sentirsi
situato”. E questo costituisce un problema notevole.
Il fatto è che la pretesa di riprodurre ciò che fa la mente umana esattamente nello stesso modo in cui essa lo fa manca di concretezza e il livello
tecnologico odierno disponibile non sembra poter concedere speranza a tale
ipotesi. Come già accennato, una scelta possibile è quella, semplicistica, di
ridurre il problema della conoscenza a quello della memoria; tuttavia sebbene
sia possibile creare sistemi artificiali “intelligenti” sotto alcuni aspetti, come
una macchina che gioca a scacchi, il processo avviene per via meramente
computazionale e per quanto sia vero che esistono programmi capaci di calcolare milioni di mosse ad una velocità per noi impensabile, ciò non ci dice
nulla sul modo in cui gli esseri umani giocano a scacchi.
Da quanto detto, seppure sia meglio ricordare che non è possibile essere
certi di una determinata teoria, sembra allora che scienziati e ricercatori si
debbano accontentare di cercare di riprodurre in un unico sistema contemporaneamente più caratteristiche e abilità possibili del cervello umano, ma
2.3. HEIDEGGER: IL DASEIN E L’ESSERE NEL MONDO
27
senza la convinzione di poter riprodurre artificialmente il suo esatto funzionamento. Se vengono poste queste premesse, nulla vieta di compiere grandi
passi avanti e di arrivare a risultati importanti. Lo stesso campo delle reti
neurali, per quanto sia ora limitato ad un impiego pratico e utilitaristico, si
pone come una delle basi per la produzione di robot di nuova generazione, che
interagiscono col mondo e imparano dall’esperienza reale senza bisogno di un
“insegnante” umano. La ricerca riguardo tipologie di reti neurali artificiali
auto-organizzanti che imparano e si costituiscono da sole tramite unsupervised learning dà i suoi frutti. Di questo argomento verrà discusso più avanti
in un capitolo a sé stante.
Come è stato evidenziato, la visione di Heidegger circa la mente e l’esperienza umana si basa sul livello fondamentale e fondante del Dasein, concetto
antecedente alla stessa coscienza. Tuttavia è stato anche sottolineato che non
è possibile essere del tutto certi di tale teoria; per questo motivo una parte
consistente della comunità scientifica ha sentito e sente tuttora il bisogno
di indagare la questione della coscienza, delle emozioni e dell’intenzionalità:
l’interrogativo ricorrente è se queste esistano, se siano necessarie per l’intelligenza e il pensiero, e che ruolo possiedano nel rapporto tra mente e corpo,
tra soggetto e realtà esterna. Un dibattito questo di largo respiro che si fa
via via sempre più acceso e frequente; per tale motivo l’autore di questo testo
ritiene opportuno inserire un capitolo a parte atto a riprendere, per sommi
capi, ipotesi e critiche fiorite negli ultimi decenni all’interno della comunità
scientifica internazionale. La trattazione viene dunque lasciata al prossimo
capitolo.
28
CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA
Capitolo 3
La coscienza e il rapporto tra
mente e corpo
Sonny: Mio padre ha provato ad insegnarmi le emozioni umane. Sono...
difficili.
Spooner: L’uomo che ti ha progettato?
Sonny: Sı̀.
Spooner: Allora perché l’hai ucciso?
Sonny: Non ho ucciso il dottor Lanning.
Spooner: E perché ti nascondevi sul luogo del delitto?
Sonny: Avevo paura.
Spooner: I robot non provano paura. Non provano niente. Non hanno fame,
non devono dormire.
Sonny: Io sı̀. Ho persino sognato, alcune volte.
Spooner: Gli esseri umani sognano quando dormono. Anche i cani sognano.
Ma tu no. Tu sei solo una macchina. Un’imitazione della vita. Un robot può
scrivere una sinfonia? Un robot può trasformare una tela bianca in un’opera,
un capolavoro?
Sonny: Lei può farlo?
tratto dal film “Io, robot” (2004), regia di Alex Proyas.
Le parole attribuite al robot Sonny nel film “I, robot” di Proyas sembrano
riprendere, con una punta di fantasia, il dibattito odierno sull’intelligenza artificiale. Sono in molti infatti a chiedersi se una macchina sarà mai in grado
di provare emozioni; ma cosa sono le emozioni? E cos’è la coscienza, entità
che il fantascientifico Sonny sembra possedere? Questi quesiti arrovellano la
mente dell’uomo da generazioni eppure far luce sul mistero che la coscienza
rappresenta sembra essere più arduo di quanto si possa pensare. Alla fine
29
30CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO
del secolo scorso, Thomas Huxley affermava che:“come avvenga che qualcosa
di cosı̀ sorprendente come uno stato di coscienza sia il risultato della stimolazione del tessuto nervoso è tanto inspiegabile quanto la comparsa del genio
quando Aladino, nella favola, strofina la lampada”.1 In tempi più recenti invece, il mistero che avvolge la coscienza e il meccanismo del pensiero umano
ha ispirato ampi filoni di letteratura fantascientifica; ancora di più, robot e
strutture aritificiali coscienti e intelligenti compaiono in numerosi film come
HAL 9000 in 2001: Odissea nello spazio, Pensiero Profondo in Guida galattica per autostoppisti, Skynet nella serie cinematografica di Terminator, le
macchine in Matrix, Numero 5 in Corto Circuito, e molti altri.
Ma nella realtà, è effettivamente concretizzabile il sogno di una intelligenza artificiale che
possieda, come l’uomo, una coscienza? Nel film
A.I. Artificial Intelligence, David è addirittura un
bambino robot in grado di amare, odiare, provare sentimenti. Tuttavia l’incertezza propria della
ricerca attuale può essere in buona parte esplicitata tramite le parole di Le Doux nel suo Il sé
sinaptico:“La mente descritta dalla scienza cognitiva è in grado, per esempio, di giocare perfettamente a scacchi, e può persino essere programmata per barare. Ma non è afflitta dal senso di colpa Figura 3.1: Joseph E.
LeDoux (1949)
quando bara, o distratta dall’amore, dalla rabbia
o dalla paura. Né è automotivata da una vena
competitiva oppure dall’invidia e dalla compassione”.2
Ma se le conoscenze attuali non ci permettono di concretizzare macchine
che vadano molto al di là della semplice capacità combinatoria che consente
loro di giocare a scacchi, allora fino a che punto è possibile l’analogia tra
mente umana e calcolatore? Nell’analisi di tale rapporto bisogna tenere in
considerazione le emozioni, il contenuto mentale? Nell’ambito descritto dal
problema, si giunge facilmente a chiedersi come sia possibile fornire ad un
sistema artificiale ciò che noi chiamiamo con i nomi di coscienza, emozioni e
intenzionalità.
Sicuramente la tentazione di ricondurre il problema all’analisi fisiologica e di spiegare tali concetti tramite processi fisici e chimici che avvengono
all’interno del corpo umano, semplifica enormemente la questione. Secondo
Edelman occorre notare però che:“l’analogia tra mente e calcolatore cade in
difetto per molte ragioni. Il cervello si forma secondo principi che ne ga1
2
Thomas Henry Huxley, The elements of physiology and hygiene, 1868, p. 178
Joseph LeDoux, Il sé sinaptico, Raffaello Cortina, Milano, 2002, p. 34
3.1. COS’È LA COSCIENZA?
31
rantiscono la varietà e anche la degenerazione; a differenza di un calcolatore
non ha una memoria replicativa; ha una storia ed è guidato dai valori; forma categorie in base a criteri interni e a vincoli che agiscono su molte scale
diverse, non mediante un programma costruito secondo una sintassi ”.3
L’indagine riguardo la coscienza non si esaurisce tuttavia in queste parole
e richiede uno scenario di visioni più complesso. Per questo verranno ora
esposti alcuni orientamenti di pensiero che tentanto di trovare una risposta
al quesito principale:
3.1
Cos’è la coscienza?
Cercare una risposta alla domanda “Cos’è la coscienza ed è essa necessaria
per parlare di intelligenza e pensiero?” significa impegnarsi ad affrontare
il problema del rapporto tra cervello fisico e psiche e a studiare i meccanismi e le proprietà che li mettono in relazione. Per comprendere come una
macchina possa essere in grado di provare emozioni, di percepire sensazioni
e di compiere esperienze coscienti, bisogna prima determinare come ciò sia
possibile nell’uomo. Ciò che viene indicato come il presupposto a coscienza
e sensazioni è il concetto di mente; l’analisi di quest’ultimo da parte degli
studiosi al fine di comprendere il meccanismo di funzionamento dell’intelligenza umana presenta un problema che ha rappresentato fin dall’antichità
uno spunto per la riflessione intorno alla natura e alle proprietà del pensiero
umano. Il problema principale che ha impegnato gli scienziati soprattutto
negli ultimi secoli è quello del rapporto tra mente e corpo: cos’è la mente e
che relazione c’è fra essa ed il corpo? La mente agisce sul corpo o è il corpo
ad agire sulla mente?
Il punto di partenza principale di tutte queste
problematiche può essere rintracciato in Cartesio
che delineò una divisione tra il soggetto conoscente e la realtà conosciuta caratterizzando il pensiero come essenza del mentale. Si istituı̀ in tal modo un dualismo ontologico tra la mente e il corpo,
l’una considerata come res cogitans, sostanza immateriale e misteriosa, l’altro come res extensa,
sostanza corporea. Con res cogitans si intende
quindi la realtà psichica a cui Cartesio attribuisce
le seguenti qualità: inestensione, libertà e consapevolezza. La res extensa rappresenta invece la Figura 3.2: Renato Cartesio (1596-1650)
3
Gerald M. Edelman, Sulla materia della mente, Adelphi, Milano, 1993, p. 236
32CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO
realtà fisica, che è estesa, limitata e inconsapevole. Un dualismo interazionista, quello cartesiano,
che presentava non pochi punti deboli, come il processo non chiarito secondo
il quale la mente agisce sul corpo attraverso un punto di contatto tra le due
sostanze tra loro incommensurabili: la ghiandola pineale. L’errore gnoseologico insito nella visione dualistica cartesiana è stato più volte sottolineato
nell’ultimo secolo da molti studiosi, tra cui Antonio Damasio che ha dedicato
all’argomento un intero libro.4 I filosofi moderni preferiscono al dualismo ontologico un dualismo delle proprietà o delle funzioni, in base al quale mente
e corpo sono compenetrati e coniugati funzionalmente ma non costituiscono
due sostanze separate. Si possono invece distinguere due tipi di “stati esperienziali”, i neurostati e gli psicostati ; i primi fenomeni cerebrali e i secondi
fenomeni mentali.
Il dualismo di Cartesio è stato portato dai suoi successori alle estreme conseguenze con determinate forme di anti-sostanzialismo, moderato in Locke,
il quale sosteneva la funzione essenziale della coscienza indipendentemente
dalla sostanza, radicale in Hume, che pensò il soggetto conoscente come un
fascio di percezioni, e trascendentale in Kant, con la teoria “dell’io puro”.
Una volta raggiunti tali limiti, si percepı̀ la fallacia dei tentativi compiuti
nel comprendere maggiormente il rapporto mente/corpo. Si tentò allora di
superare gli ostacoli posti in essere dal dualismo cartesiano attraverso nuove strade, ad esempio rinunciando al carattere originale di una delle due
sostanze. Si sono determinate cosı̀ due tipologie di pensiero dominanti all’interno delle scienze che studiano il cervello, l’intelligenza e i processi cognitivi:
quella del fisicalismo e quella del mentalismo o del non-fisicalismo.
3.1.1
La visione fisicalista
Secondo i fisicalisti, al problema mente-corpo è possibile trovare soluzione
riconducendo gli stati mentali agli stati cerebrali, operando una sorta di riduzionismo materialista e fisicalista. Seguendo tale concezione, l’esperienza
cosciente e le emozioni sono giustificabili come conseguenze di determinati
processi chimici e fisici del corpo umano, di determinate configurazioni neuronali all’interno del cervello, di determinati stimoli e impulsi elettro-chimici.
Il mentale è presentato come epifenomenico del cerebrale. Si assiste cosı̀ ad
una rinascita del materialismo dell’identità tra mente e cervello, la cui forma
più estrema è rappresentata dall’eliminativismo, il quale rifiuta l’idea della traducibilità del linguaggio mentale, semanticamente inconsistente e ricco
4
A. Damasio, L’errore di Cartesio, Adelphi, Milano, 1995
3.1. COS’È LA COSCIENZA?
33
di espressioni prive di riferimento, con quello fisicalistico (Paul e Patricia
Churchland).
Assieme al fisicalismo, inoltre, sono nate poi
tendenze quali il connessionismo, che mira a riprodurre l’intelligenza attraverso la simulazione
di reti neurali, e il funzionalismo, che trova il
suo massimo esponente in Hilary Putnam, il quale
considera gli eventi mentali come condizioni causali tra input e output caratterizzate da funzioni:
secondo la teoria, due sistemi qualsiasi possiedono
gli stessi stati mentali se caratterizzati da processi causali isomorfi; una macchina potrebbe perciò
avere gli stessi stati mentali di un uomo. Il conFigura 3.3: Hilary Put- nessionismo, o connettivismo, è tuttavia ancora
nam (1926)
per molti solo uno dei metodi possibili e necessari
per ricostruire la fisionomia del cervello e del pensiero umano, in quanto produce modelli neurali in cui il numero di connessioni
tra i vari elementi non può essere eccessivo e gli oggetti vengono rappresentati tramite numeri, valori e coefficienti, che però non riescono a fornire una
rappresentazione soddisfacente di molti fattori in quanto non precisamente
quantificabili.
Questa visione della realtà deve sicuramente
qualcosa a Galileo Galilei e al cammino da lui indicato, nell’affrontare lo studio della natura iniziando da ciò che appare semplice ed essenziale.
Nessuno ha vietato in passato di procedere nello
studio in senso olistico senza dividere l’universo
in parti semplici e più facilmente comprensibili,
come ad esempio sosteneva Goethe dicendo che la
natura non ha “né nocciolo né buccia ed è data
tutta insieme”. Il problema è che per questa via
in passato lo studio si è sempre rivelato arduo e
non sono stati compiuti progressi in tale direzione. Figura 3.4: Galileo Galilei (1564-1642)
La dottrina galileiana insegna invece un metodo
rivelatosi efficace e fecondo di risultati: occorre
studiare i fenomeni fisici liberandoli da tutti gli impedimenti “esterni e accidentari”, tenere in considerazione solo gli aspetti quantitativi della realtà che
ci circonda e porre in secondo piano gli aspetti qualitativi assieme a emozioni,
impressioni e coscienza.
I fisicalisti moderni, tuttavia, pur aderendo a un materialismo di stampo
galileiano nel risolvere il problema mente/corpo operando un riduzionismo
34CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO
della mente a processi fisici e concentrando gli sforzi degli studi su questi
ultimi, ritengono spiegabili su tale base anche eventi mentali, pensiero intelligente ed esperienza cosciente. Il fondamento di questa concezione risiede
nel supporto fornito dalle scienze della complessità, che a partire da Poincaré, individuano la complessità e l’impredicibilità come legate e conseguenti
al determinismo delle equazioni di Newton; l’illusione illuministica di poter
prevedere con certezza il futuro di un sistema svanisce cioè grazie alla scoperta negli anni ’70 del caos deterministico, ossia il cui stato è determinato
univocamente da quello iniziale. Si giunge cosı̀ a comprendere che l’apparente
contraddizione insita nel rapporto tra mente e corpo nasce dalle barriere psicologiche dovute a secoli di tradizione che hanno considerato determinismo
e caos come concetti contrapposti; allo stesso modo il supporre che l’irrazionalità della mente e del pensiero umano sia incompatibile con i calcolatori, è
una idea basata su una confusione tra livelli: un meccanismo semplice e senza
errori ad un certo livello potrebbe costituire la base di una manipolazione di
simboli ad un livello superiore che appare complessa, caotica e senza spiegazione. Sulla base di ciò, alcuni affermano dunque che poiché anche il cervello
umano è formato da elementi semplici quali i neuroni che non commettono
errori allora potrebbe essere plausibile dire che entità considerate astratte e
inspiegabili come il pensiero e la coscienza siano in realtà il risultato di un
processo deterministico dovuto al livello neuronale sottostante. Allo stesso
modo quindi si ritiene che l’hardware di una macchina, esente da errori, abbia i requisiti necessari per costituire la base di comportamenti ad alto livello
che sembrino intelligenti e che rappresentino stati tipicamente umani come
l’indecisione, la dimenticanza, la capacità di giudizio, l’intenzionalità.
Allora le macchine possono pensare e provare emozioni? Da quanto detto, la risposta tende sicuramente verso il positivo. Se pensiamo all’essere
umano, il fisicalismo insegna che ciò che noi chiamiamo emozione in fondo è
soltanto un particolare stato mentale che si sovrappone alla configurazione
precedente alterandone alcune caratteristiche allo scopo di preparare l’organismo ad attuare una precisa procedura. Ad esempio, se un uomo ode
la parola “Attento”, all’interno del suo corpo avvengono numerose reazioni
organiche, alcune delle quali sono associate a forti emozioni - secrezione di
adrenalina, blocco della digestione, liberazione del glucosio immagazzinato,
e cosı̀ via. Tutto ciò avviene allo scopo di far fronte a una situazione di
probabile pericolo imminenente; questo non significa però che l’emozione sia
qualcosa di impalpabile e di origine ignota. Cosı̀ come per noi le emozioni
sono conseguenze di processi fisici allora, ritengono alcuni fisicalisti, anche
per le macchine possono sussistere meccanismi paragonabili. Per spiegare
il concetto è possibile addurre un semplice esempio. Si immagini che esista
una macchina molto sensibile ai colori visibili intorno ad essa e che svolga la
3.1. COS’È LA COSCIENZA?
35
funzione di regolare la temperatura di una stanza; se il colore verde risulta
visibile, quest’ultima verrà aumentata. All’inizio lo stato interno del sistema
è caratterizzato da una temperatura ambientale di 20◦ C, il che può essere
paragonato ad un uomo che cammina per strada con 60 pulsazioni cardiache
al minuto. All’improvviso un evento inatteso si presenta sulla scena: un tavolo verde per la macchina e una donna di notevole bellezza per l’uomo. A
questo punto le pulsazioni al minuto del cuore umano aumenteranno a causa
del maggior afflusso di adrenalina e l’uomo avrà l’impressione di provare una
forte emozione; allo stesso modo nella macchina l’evento improvviso provocherà una variazione del valore da attribuire alla temperatura e essa “proverà
un’emozione”, ossia si ritroverà con uno stato interno differente da quello memorizzato in precedenza. Insomma è come se ci fossero inizialmente 20◦ C, o
60 pulsazioni al minuto, ma per determinati processi e ragioni la variazione di
tale valore induce la consapevolezza di un evento particolarmente importante. Ecco dunque, a grandi linee, uno dei modi tramite cui vengono spiegati
la coscienza e il pensiero intelligente nel riduzionismo fisicalista, il quale non
vuole criticare l’importanza o l’utilità delle emozioni ma l’immaterialità che
a esse viene da molti attribuita. Le emozioni infatti appartengono alla sfera
più primordiale dell’encefalo e a una fase molto antica dell’evoluzione; Joseph LeDoux ne “Il Sé sinaptico” sottolinea a tale proposito proprio il ruolo
svolto dall’amigdala nella decodifica delle emozioni e in particolare della paura, un sistema che deve essere stato di grande aiuto ai vertebrati quando la
corteccia cerebrale non era ancora sviluppata. Alla luce di queste considerazioni l’emozione è uno stato mentale magari peculiarmente più immediato e
sconvolgente di altri, ma rimane sempre un “semplice” stato mentale.
3.1.2
La visione non-fisicalista
Dalla parte opposta rispetto ai fisicalisti, che tentano di spiegare come stati
fisici possano contemporaneamente essere anche stati mentali, gli esternalisti
cercano di superare il cosiddetto “Fossato Galileiano” rifiutando una separazione tra mondo mentale e mondo esterno. Si può e si deve analizzare
la mente e il mondo qualitativo non limitandosi a oggetti, processi e sistemi quantificabili. L’esternalismo non nega, in generale, il fatto che senza
il cervello e il sistema nervoso non si ha nessuna mente, esso mette però
in discussione che il cervello sia sufficiente a produrre la mente e che esso
sia l’unico fondamento fisico per i processi e i contenuti mentali. Oltre alla
posizione principale che rivolge all’approccio riduzionista la critica di non
spiegare efficacemente la coscienza, vi sono comunque varie sfumature all’interno dell’esternalismo. Alcuni affermano che la mente è indipendente da
fattori esterni ma avviene sostanzialmente all’interno del cervello, altri che
36CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO
la mente dipende necessariamente da o è identica a processi fisici, in parte
o totalmente esterni al sistema nervoso. Atri ancora poi rifiutano l’idea che
il contenuto della mente sia fatto di rappresentazioni e ipotizzano che l’uomo percepisca direttamente il mondo esterno. Sostenitori dell’esternalismo
semantico suggeriscono una visione cauta seconda la quale i meccanismi che
corrispondo alla mente si trovano all’interno del corpo ma il contenuto semantico non sopravviene nel cervello bensı̀ nelle relazioni sociali, culturali e
linguistiche.
Ad ogni modo, in generale gli studiosi non fisicalisti tendono a far leva sulla difficoltà di descrivere la coscienza per dipingere il riduzionismo come una
scienza in difficoltà e in imbarazzo, motivo per cui essa ha sempre rinnegato
la possibilità di una effettiva esistenza della coscienza e ha lasciato intoccato
il suo dominio; la coscienza è intrinsecamente soggettiva ma la scienza studia
programmaticamente gli enti oggettivi e i fatti quantitativi, esprimibili con
grandezze numeriche, che sono stati considerati come i soli veramente importanti. Occorre dunque rivalutare il valore dell’aspetto qualitativo e della
coscienza fenomenica, poiché essa, secondo alcuni come i ricercatori Manzotti e Tagliasco, “contraddistingue il nostro stato di veglia, contraddistingue
il nostro stesso esserci di persone. Ansi, potremmo persino concordare sul
fatto che, senza l’esperienza cosciente, noi siamo assenti nel senso più pieno del termine. [...] sentiamo che [...] la vita da sola non è sufficiente a
garantire l’integrità della persona”.5 Perché sia possibile l’intelligenza e il
pensiero occorre dunque che esista anche la coscienza, vista come precedente
allo sviluppo cognitivo stesso della persona.
Secondo gli stessi Manzotti e Tagliasco, da notare, macchine intelligenti non sono tuttavia da
escludere definitivamente. I due evidenziano però
il fatto che non è possibile giungere a realizzazioni
concrete di esse se si parla di Artificial Intelligence nel senso che è stato conferito al termine fino
ad ora. La parola artificiale implica infatti un
programma di lavoro di tipo ingegneristico che ha
Figura 3.5:
Vincenzo sempre riscosso successo grazie agli aspetti appliTagliasco (1941-2008)
cativi; ma ora secondo i due studiosi la coscienza
è diventata un problema scientifico e non solo un
problema filosofico, perciò se si vuole giungere a risultati concreti e soddisfacenti servono nuovi strumenti, occorre parlare anche di intenzionalità e di
Artificial Consciousness, una branca di studio che solo nell’ultimo venten5
Riccardo Manzotti e Vincenzo Tagliasco, Essere e fare: perché l’approccio riduzionista
non spiega la coscienza in “L’arsenale”, La Spezia, Dicembre 2002, p. 3
3.1. COS’È LA COSCIENZA?
37
nio ha cominciato a produrre un certo dibattito. Argomento di discussione
è certamente la concezione che l’intelligenza abbia bisogno di una volontà
che la guidi e che la razionalità debba essere mossa da fini e motivazioni
che non possono essere il prodotto delle elaborazioni interne di un sistema
chiuso. La coscienza in quanto intenzionalità è basilare dunque affinché una
macchina possa essere in grado di pensare e avere comportamenti intelligenti;
per questo “il problema della realizzabilità della coscienza artificiale ha avuto
all’inizio la forma della costruzione di un agente intenzionale [...] tuttavia
senza una teoria della coscienza e quindi dell’intenzionalità, era impossibile
riconoscere in una struttura artificiale la presenza di genuine capacità intenzionali. E infatti la domanda sui correlati neurali della coscienza resta
aperta sia nel campo biologico sia nel campo, finora ipotetico, dell’artificialità”.6 Secondo i due esternalisti fautori della “Teoria della Mente allargata”,
la coscienza è stata la grande assente della ricerca scientifica nel Novecento e un prerequisito per lo studio della mente, al fine della sua costruzione
in strutture artificiali, è l’identificazione fra la mente e la mente cosciente:
una precisazione non superflua che nelle parole dei due ricercatori acquista
il significato di critica nei confronti dei ricercatori degli ultimi cinquant’anni
che hanno cercato di spiegare la mente senza far uso della coscienza, esito
estremo delle contraddizioni interne del dualismo seicentesco.
Un ulteriore punto sottolineato è che essere
coscienti non significa essere vivi. La distinzione
si basa sul fatto che essere in vita vuol dire essere costituiti da molecole basate sulla replicazione
del DNA mentre essere coscienti significa essere
in grado di poter fare esperienza del mondo; vi
è pertanto una sottile linea di demarcazione tra
i due concetti che lascia spazio alla possibilità di
supporre una struttura artificiale capace di produrre un soggetto dotato di esperienze coscienti.
Dunque una coscienza, e intelligenza, artificiale
è ipotizzabile e in sintesi, “è possibile che il secolare empasse in cui si è imbattuta la scienza,
Figura 3.6:
Riccardo
nello spiegare la natura della mente cosciente, sia
Manzotti
causato non tanto dalla natura del problema in
sé quanto dalle ipotesi che acriticamente si sono
accettate sulla natura della realtà. Cambiando queste, e sottoponendole al
vaglio dell’evidenza, è possibile che si guadagni una migliore comprensione
6
Riccardo Manzotti e Vincenzo Tagliasco, Si può parlare di coscienza artificiale?,
Dicembre 2001, pp. 4-5
38CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO
tanto della coscienza quanto della realtà”.7
Secondo i non-fisicalisti, insomma, è necessario abbracciare una prospettiva più ampia ed è ormai riconosciuto il fatto che non esistano dati osservativi
neutri, assolutamente indipendenti da qualsiasi punto di vista e quantificabili esattamente secondo le categorie galileiane. Ogni osservazione è sempre
condizionata dall’orientamento e dalle aspettative dell’osservatore, dalla soggettività umana. Ad aumentare la complessità del problema si aggiunge
inoltre il fatto che ogni organismo raccoglie anche informazioni dall’ambiente
in modo apparentemente inconscio e automatico; ma tali informazioni non
sono esplicitabili e riconducibili ad affermazioni ben definite, cosı̀ da poter
essere comunicate tramite il linguaggio ad altri individui. Secondo questa visione dunque gli strumenti che la scienza ha utilizzato fino ad adesso non sono
sufficienti per abbracciare completamente la realtà, compresa la coscienza e
il pensiero in sé. E mettere in discussione l’idea che la mente possa essere
completamente spiegata sulla base di processi fisici e fenomeni cerebrali a noi
noti apre un notevole vuoto conoscitivo. Ma una posizione coraggiosa come
questa potrebbe anche aprire spazi di possibilità del tutto nuovi. Occorre
dunque riconoscere il ruolo della coscienza nella costituzione della mente e
del pensiero, biologici e artificiali, e valicare i limiti delle attuali prospettive.
La mente presenta caratteristiche assolutamente particolari rispetto a qualunque altra tipologia di eventi che avvengono nell’universo e ciò autorizza
ad avanzare dei dubbi relativamente alla fondatezza della convinzione che le
categorie concettuali di cui oggi disponiamo siano sufficienti per spiegare i
fenomeni della mente.
3.2
Conclusioni
Come si è mostrato, il ventaglio di opinioni riguardo al tema dell’intelligenza
artificiale è molto ampio e vario. Rispondere ad un quesito come “è possibile
il pensiero nelle macchine?” nasconde dunque un sentiero impervio attraverso le concezioni della realtà e della vita più disparate e non sembra possibile
tutt’oggi avvicinarci a risposte e risultati concreti. Il dibattito sull’intelligenza è vivo e attuale, come lo è pure quello sulla coscienza: vi è chi dice che
il pensiero e l’intelligenza non possono prescindere da essa e chi sostiene che
essa non sia che il risultato di meri processi fisici e biologici, di stati cerebrali.
Marvin Minsky, ad esempio, ritiene che il concetto stesso di coscienza venga
male interpretato. Secondo lo studioso, bisogna tenere in considerazione due
punti: il primo è che la coscienza è costituita da numerosi aspetti diversi
7
Riccardo Manzotti e Vincenzo Tagliasco, si può parlare di coscienza artificiale?,
Dicembre 2001, p. 11
3.2. CONCLUSIONI
39
vagamente collegati tra loro e il secondo è che si tende a racchiudere questi
aspetti in un’unica parola, mentre il termine “coscienza” non dovrebbe esistere. Bisognerebbe distinguere tra “reattivo”, “riflessivo” e “autoriflessivo”,
e parlare di cancellazione dei contenuti della memoria a breve termine nel
momento in cui si inseriscono nuovi dati. Secondo Minsky non si comprende
dunque la coscienza perchè essa è solo una parola vuota; il problema non
consiste nel domandarsi allora cosa sia la coscienza ma qual’è il meccanismo
per il quale il cervello costruisce una rappresentazione di se stesso, in che
modo il processo successivo confronta le diverse rappresentazioni e identifica
le differenze.
In sintesi, non è dunque ancora possibile sapere se in futuro riusciremo
ad ottenere forme di intelligenza non umane, che possano essere paragonate
agli uomini in quanto a proprietà, caratteristiche, comportamenti e pensiero.
La ricerca è tuttavia costante e un ruolo di non poca importanza è svolto comunque dalla neurofisiologia; le scoperte nel campo alimentano sempre nuovi
modelli e teorie, come quelli delle reti neurali, e rafforzano l’interconnessione
tra scienze cognitive e ricerca neurologica. Nonostante la scarsità di risposte sicure in questo ambito, per completezza il prossimo capitolo è dedicato
dunque a una esposizione che, senza presunzione di esaustività, delineerà i
caratteri principali dei modelli connessionisti e di reti neurali.
40CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO
Capitolo 4
Le reti neurali artificiali
Nel seguente capitolo verranno introdotti in linee generali alcuni modelli artificiali adoperati nel campo delle cosiddette reti neurali artificiali nell’effettuare studi ed esperimenti sulla facoltà del cervello umano di apprendimento
e di interazione col mondo esterno. L’argomento possiede principalmente
un risvolto applicativo e di carattere ingegneristico in quanto tali modelli
vengono spesso utilizzati in svariati ambiti pratici e sono in grado di offrire
comportamenti intelligenti e comodi.
Al giorno d’oggi, i progressi nel campo della ricerca biologica lasciano
intravedere una prima comprensione del meccanismo del pensiero umano.
Questa ricerca dimostra che il cervello immagazzina informazioni sotto forma
di schemi, spesso modelli piuttosto complicati. Questo processo di immagazzinare in schemi e di utilizzare questi ultimi per risolvere problemi, è oggetto
di studio di un nuovo campo in matematica e informatica.
L’esatto funzionamento del cervello è ancora un mistero, sebbene alcuni
aspetti di esso sono ormai noti. In particolare, l’elemento più semplice che
lo costituisce è uno specifico tipo di cellula che, a differenza del resto del
corpo, non sembra rigenerarsi. Poiché questo tipo di cellula è l’unica parte
del nostro corpo che non viene lentamente sostituita, si presume che sia ciò
che offre la capacità di ricordare, pensare e applicare precedenti esperienze
a ogni nostra azione. Queste cellule, che raggiungono i cento miliardi di
unità, sono note come neuroni. Ognuno di questi è in grado di connettersi
con altri duecentomila neuroni, sebbene il numero di connessioni si aggiri
tipicamente tra mille e diecimila. Grazie ad essi, il nostro cervello ha un
grande potenziale: il suo potere, oltre che nella programmazione genetica e
nell’apprendimento, risiede proprio nell’alto numero di queste cellule e nelle
multiple interconnessioni che le mettono in collegamento.
Sulla base di queste informazioni è possibile quindi ipotizzare l’esistenza
41
42
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
di una rete neurale artificiale che potrebbe essere definita come un modello
di elaborazione parallela dell’informazione, basato sulla teoria del connessionismo ed ispirato al sistema nervoso naturale. Una rete neurale artificiale
cioè rappresenta un modello matematico astratto relativamente semplice basato sulla struttura neurale del cervello. Quest’ultimo, nella pratica, impara
dall’esperienza. E assurge a tale compito anche molto bene: anche semplici
animali sono capaci di funzioni attualmente impossibili per i computer, che
dimostrano di avere evidenti problemi nel riconoscere anche schemi semplici
e ancora di più nel generalizzare tali schemi o eventi del passato in azioni
future. Nonostante ciò le reti neurali artificiali costituiscono un campo attivo
e in crescita della ricerca scientifica.
Da un punto di vista matematico una ANN (Artificial Neural Network )
può essere pensata come un approssimatore di funzioni, ovvero uno strumento atto a ricostruire una funzione tramite la composizione di unità elementari,
ciascuna delle quali in grado di eseguire poche e semplici computazioni. Data
la complessità della struttura di una qualsiasi rete neurale, le operazioni e il
procedimento effettuati all’interno della stessa risultano essere non deterministici; essa cioè fornisce risultati di cui, nella pratica, non è possibile dare
spiegazione.
Di seguito viene dedicato un breve spazio per una breve introduzione
al modello più generale di rete neurale artificiale e vengono esposti alcuni
aspetti principali dell’argomento che delineano le basi su cui poggia la matematica nel tentativo di riprodurre i processi che avvengono nel cervello
umano durante l’apprendimento.
4.1
Struttura del neurone biologico
I singoli neuroni sono complicati, possiedono una miriade di parti, sottosistemi e meccanismi di controllo. Trasmettono informazioni tramite un canale di percorsi elettrochimici. Ci sono oltre un centinaio di differenti classi
di neuroni a seconda del metodo di classificazione utilizzato. Essi, con le loro
interconnessioni, formano un processo che non è binario, stabile o sincrono.
In breve, non è nulla di simile ai computer attualmente disponibili, o anche
alle stesse reti neurali artificiali. Queste ultime infatti, sebbene cerchino di
replicare solo gli elementi più semplici di questo organismo, lo fanno in modo
primitivo. Tuttavia per l’ingegnere che cerca di risolvere problemi, il calcolo
neurale costituisce un nuovo approccio computazionale, non un tentativo di
ricreare artificialmente il cervello umano.
Ad ogni modo, ogni neurone presenta alcune caratteristiche generali. Fondamentalmente, un neurone biologico riceve gli input, o informazioni, pro-
4.2. IL NEURONE ARTIFICIALE
43
Figura 4.1: Struttura di un neurone naturale
venienti da altre fonti, li combina tramite un qualche processo, esegue un’operazione generalmente non lineare sul risultato ottenuto e invia il prodotto
finale. Negli esseri umani ci sono molte varianti di questo tipo base di neurone, eppure tutti hanno gli stessi quattro componenti di base. Questi sono
noti con i loro nomi biologici: dendriti, soma, assoni e sinapsi.
I dendriti sono estensioni filamentose del soma che fungono da canali di
ingresso e ricevono dati e informazioni esterni attraverso le sinapsi di altri
neuroni. Il soma processa poi questi segnali in arrivo nel tempo; il risultato
viene trasformato in un output e inviato ad altri neuroni attraverso l’assone
e le sinapsi. Recenti dati sperimentali hanno fornito un’ulteriore prova che
i neuroni biologici sono strutturalmente più complessi rispetto alla spiegazione semplicistica riportata; per semplicità l’argomento non verrà tuttavia
approfondito in questa sede.
4.2
Il neurone artificiale
Attualmente, sebbene tentativi in tal senso siano concreti, l’obiettivo della
ricerca nel campo delle reti neurali artificiali non è in genere il grandioso progetto di replicazione del cervello umano. Piuttosto, i ricercatori tentano di
comprendere le capacità naturali per cui le persone sono in grado di elaborare
soluzioni tecniche a problemi che non sono stati risolti con sistemi tradizionali. Per fare questo, le unità di base delle reti neurali, i neuroni artificiali,
simulano le quattro funzioni fondamentali delle controparti naturali.
In figura vari input connessi al neurone sono rappresentati tramite il simbolo matematico N (n). Ognuno di questi è moltiplicato per un peso di con-
44
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
Figura 4.2: Struttura di un neurone artificiale
nessione. Questi pesi sono rappresentati con W (n). Nel caso più semplice,
questi prodotti sono semplicemente sommati, calcolati per una funzione di
trasferimento o attivazione ottenendo un risultato, quindi un output. Questa implementazione è sempre possibile anche con altre strutture di rete che
utilizzano differenti funzioni di somma e di trasferimento.
4.3
Struttura di una rete
All’interno di una rete neurale, i singoli neuroni possono essere interconnessi
in una miriade di modi e configurazioni diverse. Biologicamente, essi sono i
componenti microscopici che formano un sistema tridimensionale dinamico,
interattivo e auto-costituente. Per quanto riguarda invece le reti artificiali e i
circuiti integrati, essi sono strumenti bidimensionali con un limitato numero
di strati e di connessioni, a causa soprattutto del tipo di tecnologia disponibile
al giorno d’oggi.
Correntemente, le reti neurali artificiali non sono altro che sistemi formati
da uno o più strati di neuroni artificiali, che sono connessi l’uno con l’altro.
In generale, tutte le reti neurali artificiali hanno una struttura simile a quella
riportata in figura: alcuni neuroni sono interfacciati con il mondo reale, o
comunque con l’esterno, in modo da ricevere dei dati come input; altri neuroni
comunicano dei dati all’esterno; il resto dei neuroni appartiene al resto degli
strati intermedi nascosti.
Una rete neurale è in ogni caso ben più di un semplice ammasso di neuroni.
Alcuni ricercatori, che avevano inizialmente provato a connettere dei neuroni
casualmente, non ebbero infatti molto successo. Ora è risaputo che anche i
cervelli delle lumache sono dispositivi organizzati secondo una struttura. E
4.3. STRUTTURA DI UNA RETE
45
Figura 4.3: Esempio di rete neurale multistrato
uno dei modi più semplici per formare una struttura è quello di creare strati
di elementi. Sono l’organizzazione dei neuroni in strati, le connessioni tra
questi strati e le funzioni di somma e trasferimento che caratterizzano una
rete neurale funzionante. Queste proprietà generali sono infatti comuni a
tutti i tipi di rete.
Sebbene vi siano reti utili formate da un solo strato, o anche un solo
elemento, la maggior parte delle applicazioni richiede reti che contengono
almeno i tre strati usuali - di ingresso, nascosto e di uscita (input, hidden
e output layer). Infatti, semplici tipi monostrato di rete come quello del
percettrone, formato da un unico neurone dotato di n ingressi e una uscita,
presentano serie limitazioni. Ad esempio, il percettrone, o perceptron, può
essere considerato come il più semplice modello di rete neurale feed-forward,
ed è nella sostanza un algoritmo di classificazione che associa ad un input x,
di valore reale, un output f (x) di valore binario. Matematicamente:
f (x) =
1
0
se wx + b > 0
altrimenti
dove w è un vettore di pesi di valore reale, wx è il prodotto scalare e b
è il bias, una costante aggiuntiva che non dipende da nessuno dei valori di
input.
46
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
Figura 4.4: Il modello del Percettrone
L’algoritmo del percettrone però permette di affrontare unicamente funzioni linearmente separabili; per esempio la funzione logica XOR non può
essere implementata da un percettrone. Dunque, nonostante l’iniziale entusiasmo suscitato dalla proposta di tale modello da parte di Frank Rosenblatt
nel 1958, dopo che Marvin Minsky e Seymour Papert ne dimostrarono i limiti l’interesse scemò rapidamente. Di fatto, una rete costituita a più strati
di percettroni sarebbe stata in grado di risolvere problemi più complessi, ma
la complessità computazionale richiesta dall’addestramento mantenne questa
strada impraticabile almeno fino al decennio successivo.
In molte reti multistrato, ogni neurone appartenente ad uno strato nascosto riceve segnali da tutti i neuroni dello strato precedente, solitamente
uno strato di input. Dopo che un neurone ha eseguito la sua funzione trasmette l’output prodotto a tutti i neuroni dello strato successivo, ad esempio
uno strato di output. Con l’aggiunta di uno o più strati intermedi all’interno della rete, è possibile gestire funzioni più complesse e suddividere lo
spazio del problema in superfici chiuse piuttosto che aperte come nel caso del
percettrone.
In conclusione, il tipo di rete del percettrone nella pratica risulta ormai
poco utilizzato, in favore da modelli costituiti da più strati.
Le reti neurali possono poi essere suddivise in due tipologie principali, a
seconda del tipo di connessioni stabilite tra i vari neuroni: esistono reti feedforward e reti ricorrenti (recurrent). Nelle prime, il flusso dei dati presenta
un’unico verso, dalle unità di input a quelle di output e può estendersi per più
strati di neuroni; non sono presenti però connessioni feedback di ritorno con
verso opposto a quello del flusso. Una rete ricorrente può invece contenere
ogni tipo di connessione, anche feedback.
Tipici esempi di reti feed-forward sono il Perceptron e l’Adaline, mentre
esempi di reti ricorrenti sono state presentate da Anderson (Anderson, 1977),
Kohonen (Kohonen, 1977) e Hopfield (Hopfield, 1982).
4.4. PRINCIPALI COMPONENTI DI UN NEURONE ARTIFICIALE 47
In questo testo la trattazione verrà limitata a reti feed-forward.
4.4
Principali componenti di un neurone artificiale
Le reti neurali artificiali, come si è già detto, sono ispirate e basate sulle controparti biologiche. Odierne ricerche nel campo della fisiologia del cervello
hanno portato solo ad una limitata conoscenza riguardo al funzionamento
dei neuroni e della stessa intelligenza; scienziati e ricercatori stanno lavorando in entrambi i campi biologico e ingegneristico allo scopo di decifrare
ulteriormente i meccanismi chiave per i quali l’uomo è in grado di imparare e
produrre delle reazioni alle esperienze di ogni giorno. Vengono dunque creati
modelli e strutture di reti sempre migliori e più specifiche, differenti tra loro.
In ogni caso, tutte le reti seguono la stessa struttura generale e in ogni
neurone artificiale, sia esso di input, output o appartenente ad uno strato
nascosto, vi sono dei componenti che caratterizzano il suo funzionamento e ne
costituiscono solitamente la base operativa. Questi sono: i pesi sinaptici o di
connessione, la funzione di somma, la funzione di trasferimento, la funzione
di attivazione, la funzione di output, la funzione di errore e la funzione di
apprendimento.
4.4.1
Pesi sinaptici
Un neurone riceve generalmente molti input simultaneamente; ognuno di
questi ha un relativo peso sinaptico (synaptic weight) che gli conferisce il
giusto impatto, la giusta importanza, sulla funzione di somma. Questi pesi
svolgono lo stesso tipo di lavoro operato dalle sinapsi dei neuroni biologici e
dalla forza variabile delle connessioni. In entrambi i casi, a certi input viene
attribuita maggiore importanza rispetto ad altri cosicché essi abbiano un
impatto maggiore nel momento in cui vengono appunto confrontati i valori
attraverso la funzione somma e combinati per produrre un risultato finale.
I pesi sono dunque coefficienti modificabili che all’interno della rete determinano l’intensità di un segnale attraverso una specifica connessione.
4.4.2
Funzioni di somma e di attivazione
La prima operazione che viene svolta da un’unità neuronale in seguito alla
ricezione dei segnali in input è l’esecuzione di una somma pesata di questi valori, tenendo conto del peso di connessione relativo a ciascuno di essi.
48
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
Una funzione (summation function) quindi somma tutti gli input, moltiplicati ciascuno per il proprio peso sinaptico, restituendo al neurone un singolo
determinato valore finale. Gli input e i pesi sinaptici corrispondenti, per un
determinato neurone k, possono essere pensati come vettori, rappresentati
come (y1 , y2 ... yn ) e (w1,k , w2,k ... wn,k ). La somma viene spesso calcolata
semplicemente moltiplicando ogni elemento del vettore y per il corrispondente elemento del vettore w e sommando tra loro tutti i prodotti risultanti. Il
risultato è un numero, non un vettore. L’input totale per un unità k può
essere dunque definita semplicemente come la somma pesata degli output yj
di ciascun unità connessa j:
sk (t) =
X
wj,k (t)yj (t)
j
Il valore di sk (t), indicato con P , viene detto valore di propagazione
(propagation value) o anche post-synaptic potential.
Il contributo per pesi di connessione wj,k positivi o di alto valore viene
considerato come una eccitazione del neurone, mentre pesi di connessione
negativi o di basso valore rappresentano una inibizione. In realtà, oltre a
questo caso semplice di somma pesata, la funzione somma potrebbe eseguire
operazioni più complesse che possono produrre risultati differenti: la media, il
valore minimo, il valore massimo, o funzioni quali OR o AND. La scelta di una
determinata funzione di somma rispetto ad altre dipende dall’architettura e
dalla funzione della rete neurale in questione.
Alcuni tipi di rete dispongono inoltre di ulteriori funzioni che vengono
applicate al risultato prima che questo venga passato alla funzione di trasferimento. Chiamate funzioni di attivazione (activation function), il loro
scopo è quello di permettere all’output della funzione di somma di variare in
relazione al tempo. La funzione di attivazione potrebbe anche confrontare il
valore in entrata con una certa soglia fissata denominata threshold e indicata
spesso con il simbolo θ, allo scopo di rendere la rete più resistente e meno
vulnerabile a piccole variazioni di valori di input.
yk (t) = f (P − θ)
Poiché tuttavia questo componente è principalmente oggetto di ricerca
e di studio, molte implementazioni di reti neurali utilizzano la funzione di
identità, che equivale a non applicare una funzione di attivazione.
La funzione di attivazione potrebbe ad ogni modo costituire un componente dell’intera rete piuttosto che di ciascun neurone.
4.4. PRINCIPALI COMPONENTI DI UN NEURONE ARTIFICIALE 49
4.4.3
Funzioni di trasferimento e di limitazione
Il risultato della funzione di somma, molto spesso la somma pesata, è passato
in seguito ad una funzione di trasferimento (transfer function). Quest’ultima trasforma l’input in un output reale per mezzo di un certo algoritmo,
che generalmente produce un valore uguale a 0 o ad 1, a -1 o a 1, oppure
compreso in certo intervallo. Nella funzione di trasferimento, come nel caso
della funzione di attivazione, l’output può essere comparato rispetto a una
determinata soglia limite o threshold ; se il valore ottenuto è maggiore del
threshold, il neurone genera un segnale, altrimenti no. In entrambi i casi,
il comportamento del neurone è significativo e incide sul risultato finale e
sull’apprendimento dell’intera rete neurale.
L’output prodotto dalla funzione di trasferimento è solitamente lo stesso
poi del neurone, che diventa successivamente input di altri neuroni o output
esterno della rete neurale.
Figura 4.5: Funzioni di trasferimento più comuni
In Figura 2.5 sono rappresentate alcune delle funzioni di trasferimento
più comuni: lineare continua, a scalino (a) o a rampa (b), sigmoide o logistica (c), tangente iperbolica (d). La funzione di trasferimento è di solito
non lineare. L’impiego di funzioni lineari comporta infatti delle limitazioni
perché l’output è semplicemente proporzionale all’input; le funzioni lineari
non sono di grande utilità. Nel caso della curva sigmoidale, la funzione tende
ad un valore massimo ed un valore minimo agli asintoti. Solitamente questa
curva viene chiamata sigmoide quando le immagini delle funzione, o output,
50
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
sono comprese tra 0 e 1, e tangente iperbolica per valori compresi tra -1 e 1.
L’interessante proprietà di queste curve è che sia la funzione che la sua derivata sono continue. Grazie anche a questa caratteristica, la sigmoide risulta
adatta in molti casi e facilmente implementabile, risultando spesso la funzione di trasferimento preferita. L’output del neurone in tale caso risulterebbe
essere:
yk (t) = F(sk (t)) =
1
1 + e−sk (t)
Oltre alla funzione di trasferimento, l’output potrebbe essere soggetto a
ulteriori processi che ne modificano o limitano il valore. Il processo di scaling
lo moltiplica semplicemente per un fattore di volte, e aggiunge poi un offset.
Il limiting è invece il meccanismo che garantisce che l’output non superi certi
limiti; questo processo è adoperabile in aggiunta all’opera di limitazione già
operata dalla funzione di trasferimento.
4.4.4
Rumore e temperatura del neurone
In alcuni casi, prima di applicare la funzione di trasferimento all’input totale
di un neurone, può venire aggiunto del rumore casuale, la cui fonte e la cui
quantità è determinata dal metodo di apprendimento della specifica struttura
di rete. Tale rumore è solitamente chiamato temperatura a causa del fenomeno fisico per il quale le persone, nel momento in cui diventano troppo calde
o fredde, vedono diminuita la loro capacità di pensare. Aggiungendo livelli
differenti di rumore al risultato della funzione somma, è possibile allora realizzare funzioni di trasferimento che imitino maggiormente il comportamento
e le caratteristiche naturali del cervello.
L’output di una unità può quindi essere fornito da una funzione stocastica
dell’input totale del neurone. In questo caso l’input non causa deterministicamente l’attivazione del neurone ma determina la probabilità che lo stesso
riceva un alto valore di attivazione:
p(yk (t) ← 1) =
1
1+
e−sk (t)/T
in cui il valore della temperatura T è un parametro che determina il tasso
di crescita, ossia la pendenza, della funzione di probabilità.
Ad ogni modo l’uso di temperatura è tuttora un’area di ricerca e non
viene adoperato in molte applicazioni ingegneristiche.
4.4. PRINCIPALI COMPONENTI DI UN NEURONE ARTIFICIALE 51
4.4.5
Funzione di output: competizione
Ogni neurone artificiale produce un solo segnale di output, che tuttavia può
trasmettere a un grande numero di altri neuroni, proprio come avviene con
i neuroni biologici. Nel caso più semplice, l’output equivale direttamente
al risultato della funzione di trasferimento. Alcuni tipi di rete, comunque,
modificano tale valore allo scopo di tener conto anche della competizione che
può essere valutata tra neuroni vicini. In alcuni tipi di rete cioè, potrebbe
essere possibile volere che un neurone inibisca l’influenza degli altri neuroni
dello stesso strato. Questa pratica è chiamata anche lateral inhibition. Il suo
uso più frequente è nello strato di output. I neuroni competono l’uno contro
l’altro, inibendosi a meno che non abbiano una grande influenza.
Ad esempio, nel caso del riconoscimento di un testo scritto, se la probabilità che un carattere sia una P è 0.85 e la probabilità che esso sia una F è
0.65, la rete sceglierà la probabilità più alta e inibirà tutte le altre; può fare
ciò tramite competizione - lateral inhibition.
La competizione può avvenire a uno o a due livelli. Nel primo, essa determina quali neuroni artificiali saranno attivi, o produrranno un output. Nel
secondo, la competizione aiuterà a individuare quali neuroni parteciperanno
maggiormente nel processo di apprendimento o adattamento della rete.
4.4.6
Funzione di errore
In molti tipi di reti, viene calcolata la differenza tra l’output fornito correntemente dalla rete e l’output corretto desiderato. Questo errore (raw error )
viene quindi trasformato dalla funzione di errore (error function) per essere
compatibile con il particolare tipo di rete. Nei casi più semplici, questo errore
viene usato direttamente, in altri l’errore viene elevato al quadrato tenendo
in conto il segno, in altri ancora viene elevato al cubo; è possibile anche
che esso venga modificato per adattarlo a scopi specifici. L’errore del neurone artificiale è successivamente propagato nella funzione di apprendimento
di un altro neurone. Solitamente, l’errore corrente è propagato all’indietro
ad uno strato precedente. Questo valore comunque può essere sempre l’errore corrente, l’errore corrente limitato o trasformato da un certo processo
(spesso dalla derivata della funzione di trasferimento), o qualche altro tipo
di errore a seconda del caso. Normalmente questo valore, dopo essere stato
trasformato dalla funzione di apprendimento, viene utilizzato per modificare
le connessioni sinaptiche modificandone il peso in funzione di esso.
52
4.4.7
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
Funzione di apprendimento
Lo scopo della funzione di apprendimento (learning function) è quello di
modificare il peso di connessione delle sinapsi fra i neuroni, cosicché, col
procedere del tempo, i valori in input per ogni neurone siano più corretti
possibile in vista di produrre un output finale della rete minimizzando l’errore globale. Questo processo di modifica dei pesi di connessioni di input
per ottenere un certo prodotto desiderato può essere chiamato funzione di
adattamento, come anche metodo di apprendimento. Esistono principalmente due metodi, o tipologie, di apprendimento: supervisionato (supervised ) e
non supervisionato (unsupervised ). L’apprendimento supervisionato richiede
un insegnante. L’insegnante può essere un set di dati di addestramento (training set) o un osservatore che classifica il rendimento della rete. In entrambi
i casi, la presenza di un insegnante determina un apprendimento per rinforzo
o reinforcement learning. Quando invece non vi è un insegnante, il sistema
deve auto-organizzarsi grazie ad alcune caratteristiche intrinseche della rete;
questo è il metodo di apprendimento non supervisionato.
4.5
Tipologie di apprendimento
4.5.1
Apprendimento supervisionato
Nel supervised learning viene fornito un set di esempi costituiti da un certo
numero di input e un certo numero di output (x, y), x ∈ X, y ∈ Y e il fine
è quello di trovare una funzione f : X → Y nelle classe di funzioni ammesse
che corrisponda al set di esempi. In altre parole, lo scopo è quello di inferire
la mappatura, cioè la funzione, implicata da tali specifici dati.
A tal fine, gli input di un esempio vengono propagati attraverso la rete e successivamente viene confrontato l’output fornito dalla rete con quello
desiderato, indicato dall’esempio. In tal modo si trova l’errore globale di
computazione effettuato dalla rete, valore che verrà adoperato per modificare i pesi delle connessioni tra neuroni, pesi che di solito vengono inizialmente impostati con valori casuali. Nel ciclo successivo l’errore risulterà allora
minore.
La funzione di errore si riferisce in questo caso all’errore tra l’approssimazione della funzione prodotta dalla rete e la corretta mappatura della
funzione, ovvero quella dettata dal set input-output. Ogni esempio del learning set viene propagato dunque attraverso la rete affinché essa si modifichi
allo scopo di approssimare la funzione richiesta. L’intero set di esempi viene
inoltre passato più volte; ogni ciclo viene denominato epoca di apprendi-
4.5. TIPOLOGIE DI APPRENDIMENTO
53
mento. L’errore medio della rete dovrebbe man mano diminuire e l’output
dovrebbe corrispondere sempre più a quello desiderato.
La rete neurale, utilizzando un metodo di apprendimento supervisionato,
necessita insomma di un periodo di apprendimento prima di divenire utile. In
tale periodo vengono appunto presentati determinati input e output, ovvero
set di input e di output, tramite i quali la rete assume la struttura più adatta
al fine richiesto.
La fase di apprendimento può essere in sé anche piuttosto lunga, giungendo a richiedere anche settimane. Questo periodo può considerarsi completato
una volta che la rete ha acquisito una sufficiente accuratezza nella risposta
finale. Una volta terminato l’apprendimento i valori dei pesi vengono solitamente fissati; in altri casi viene lasciata la possibilità che essi vengano modificati leggermente, in modo che la rete possa adattarsi a condizioni soggette
a cambiamento.
Un ultimo importante controllo viene effettuato una volta che una rete restituisce buone risposte per il learning set fornito; si tratta di verificare come
la rete si comporti con dati mai visti in precedenza. Se gli output forniti dal
sistema per il set di prova non risultano accettabili, la fase di apprendimento
non può considerarsi ultimata; questo è infatti un passaggio critico in quanto ci si accerta che la rete non abbia semplicemente memorizzato un certo
numero di esempi ma non abbia assimilato lo schema più generale desiderato.
Problemi legati ai dati
L’utilizzo del supervised learning comporta tuttavia alcuni problemi, spesso
di non poca rilevanza.
Prima di tutto, per eseguire l’apprendimento occorrono dei dati, che però
possono essere costosi da ottenere. Inoltre, una volta raccolti, potrebbero
risultare poco rappresentativi in quanto concentrati in un’area particolare
del dominio della funzione da approssimare e potrebbero dunque non fornire
indicazioni sufficientemente generali; o ancora, potrebbero esser affetti da
errore.
I dati dovrebbero essere in buona quantità per ottenere risultati soddisfacenti. Essi dovrebbe essere inoltre presentati in modo vario: se infatti la
rete viene addestrata con un unico esempio più volte, tutti i pesi, adattati
specialmente per tale esempio, potrebbero essere drasticamente alterati nell’assimilare l’esempio successivo; l’esempio precedente potrebbe quindi essere
dimenticato nell’impararne uno nuovo. La rete dunque deve apprendere più
esempi differenti contemporaneamente e trovare la configurazione migliore dei
pesi per l’intero set di esempi, non specializzandosi su alcuni in particolare.
54
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
Un’ulteriore problema da tenere presente risiede nel fatto che troppe epoche, ossia troppe propagazioni dello stesso learning set, possono generare
over-fitting, ovvero una eccessiva specializzazione della rete sulle istanze contenute in quello specifico set. Anche in questo caso il risultato sarebbe una
cattiva approssimazione della funzione ricercata.
Come i dati di input e di output vengono rappresentati costituisce poi
un’altra variabile da tenere in considerazione per il fruttuoso addestramento
di una rete neurale. Questa infatti è in grado di operare unicamente con valori numerici; è doveroso dunque assicurarsi che i dati forniti, soprattutto se
provenienti da un ambiente esterno come il mondo reale, vengano opportunamente convertiti in valori che la rete possa interpretare correttamente. Ad
esempio, per segnali forniti da telecamere e sensori occorre trovare un tipo
di rappresentazione efficace che possa essere correttamente letto e utilizzato
per l’apprendimento della rete neurale.
4.5.2
Apprendimento non supervisionato
L’unsupervised learning è principalmente l’oggetto di studio nella ricerca
accademica e rappresenta una promessa per lo sviluppo delle reti neurali.
Grazie infatti a tale metodo è possibile pensare che un giorno i computer
possiederanno la capacità di apprendere da soli. Attualmente, l’apprendimento non supervisionato è limitato a reti neurali conosciute con il nome
di self-organizing maps (SOM) e non gode di un largo utilizzo applicativo;
i risultati ottenuti nel campo della ricerca provano comunque l’efficacia di
tali reti in alcuni ambiti, come quello militare, dove spesso non si hanno a
disposizione set di esempi sui quali addestrare una rete neurale.
Le reti neurali aderenti a questo paradigma non necessitano di influenze
e guide esterne per aggiustare i pesi interni e migliorare la propria risposta.
Esse ricercano regolarità, schemi o tendenze nei segnali di input e apportano
delle modifiche relativamente alla funzione della rete. Nonostante non vi siano indicazioni da parte di un insegnante esterno riguardo l’errore commesso
dalla rete, essa possiede ugualmente informazioni che le permettono di autoorganizzarsi; queste sono costituite dalla tipologia stessa di rete e dalle regole
di apprendimento. In questo modo le reti neurali addestrate tramite unsupervised learning si organizzano facendo esclusivamente riferimento ad un insieme di dati che include le sole variabili d’ingresso. Tali dati sono raggruppati
dal sistema e vengono individuati degli opportuni cluster rappresentativi dei
dati stessi, facendo uso tipicamente di metodi probabilistici.
4.5. TIPOLOGIE DI APPRENDIMENTO
4.5.3
55
Apprendimento per rinforzo
Nel reinforcement learning un opportuno algoritmo si prefigge lo scopo di
individuare un certo modus operandi, a partire da un processo di osservazione dell’ambiente esterno; ogni azione ha un impatto sull’ambiente, il quale
produce una retroazione che guida l’algoritmo stesso nel processo d’apprendimento. I particolari algoritmi adoperati per il reinforcement learning presuppongono cioè un agente, dotato di una qualche capacità di percezione, che
interagisca con un ambiente esterno e che compia azioni, memorizzando le
conseguenze provocate. Per alcune azioni il sistema riceverà degli incentivi,
per altre invece dei disincentivi.
L’apprendimento per rinforzo è focalizzato su situazioni di apprendimento in tempo reale, in cui occorre stabilire un equilibrio tra esplorazione di situazioni ed eventi ignoti e sfruttamento della conoscenza corrente,
precedentemente acquisita.
4.5.4
Velocità di apprendimento
La velocità con cui una rete neurale artificiale completa il periodo di addestramento dipende da diversi fattori controllabili. Ovviamente con una
velocità minore il periodo di apprendimento risulterà più lungo; con una velocità maggiore però la rete può non essere in grado di fornire la precisione
ottenuta da un sistema addestrato più lentamente. Un apprendimento più
lento infatti consente di arrivare a risultati più accurati.
In generale, riguardo al processo di addestramento, oltre al tempo devono
essere considerati altri importanti fattori come la complessità del sistema
neurale, la grandezza, l’applicazione richiesta e la scelta di un determinato
paradigma, la precisione desiderata, il tipo di apprendimento e le regole da
seguire. Tutti questi fattori svolgono un ruolo significativo nel determinare il
tempo necessario per effettuare l’addestramento della rete. Il cambiamento
di ciascuno di essi può comportare una notevole estensione di tale periodo o
anche una scarsa precisione.
Allo scopo di controllare la velocità e l’accuratezza ottenute dal periodo di
addestramento, molte funzioni di apprendimento tengono conto di un valore,
chiamato tasso di apprendimento o learning rate, rappresentato matematicamente come una costante numerica arbitraria solitamente indicata con il
simbolo η, che influisce sulla rapidità con cui la rete si organizza; esistono
però vantaggi e svantaggi relativamente al valore di tale costante. Se questo
infatti è numero piccolo, le modifiche apportate ai pesi di connessione saranno
lievi e il periodo di apprendimento della rete risulterà più lungo; con valori di
η più alti il processo di apprendimento si svolgerà più rapidamente. Occorre
56
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
tenere presente però che una velocità minore comporta comunque risultati
più precisi, mentre un apprendimento rapido può non essere in grado di raggiungere un grado di accuratezza accettabile. Dal punto di vista matematico,
il valore di η è solitamente impostato tra 0 e 1 (0 < η ≤ 1). Se il learning
rate fosse maggiore di 1, l’algoritmo di apprendimento potrebbe facilmente
eccedere nel modificare i pesi di connessione, causando di conseguenza un’oscillazione della rete. Per piccoli valori invece, l’errore totale corrente del
sistema non verrà corretto con la stessa velocità ma vi è una buona probabilità di arrivare alla migliore convergenza verso il minimo della funzione di
errore. Lavoro di ricerca è appunto quello di trovare un compromesso tra le
due facce della medaglia e arrivare a valori di η ottimali.
4.5.5
Regole principali per l’apprendimento
Matematicamente, l’apprendimento della rete neurale consiste nella ricerca di
un minimo, precisamente del minimo assoluto, della funzione di errore in uno
spazio n-dimensionale. Il fine è quello di minimizzare l’errore effettuato dalla
rete neurale nel tentativo di ricercare e approssimare la funzione desiderata.
Per eseguire tale operazione e consentire l’apprendimento, esistono numerose regole e algoritmi, molte delle quali sono evoluzioni della regola più
conosciuta e più vecchia, la regola di Hebb. Ad ogni modo, la conoscenza
umana riguardo il funzionamento delle reti neurali biologiche, certamente più
complesso dei paradigmi proposti, è attualmente molto limitata. Alcuni delle
regole sviluppate e più conosciute sono riportate di seguito:
Una funzione di errore utilizzata comunemente è l’errore quadratico medio
o mean-squared error. Quando si cerca di minimizzare l’errore tramite tale
funzione adoperando la tecnica della discesa del gradiente (gradient descent
algorithm) per la classe di reti multistrato chiamata multilayer perceptrons,
si ottiene l’algoritmo backpropagation.
Hebb’s Rule
Il primo sforzo effettuato nel tentativo di introdurre un paradigma di apprendimento è dovuto a Donald Hebb, psicologo e studioso canadese, e ha portato
alla definizione dell’omonima regola col suo libro The Organization of Behaviour nel 1949. L’algoritmo di apprendimento Hebbiano si basa sul semplice
principio che se un neurone riceve un input da un altro neurone e se entrambi
registrano un alto valore di attivazione, la loro interconnessione deve essere
rafforzata: If a neuron receives an input from another neuron, and if both
are higly active, the weigth between the neurons should be strengthened .
4.5. TIPOLOGIE DI APPRENDIMENTO
57
Hopfield’s Law
Risulta simile alla regola di Hebb con l’eccezione che viene specificata l’intensità del rafforzamento o dell’inibizione: If the desired output and the input are
both active or both inactive, increment the connection weigth by the learning
rate, otherwise decrement the weight by the learning rate.
Delta Rule
Questo metodo costituisce un’ulteriore variazione della regola Hebbiana ed
è una fra le più utilizzate. L’idea seguita è quella di modificare continuamente le intensità delle connessioni di input di un neurone al fine di ridurre
la differenza, il delta, tra l’output desiderato e l’output corrente del neurone
in questione. La regola si basa cioè sulla constatazione che se l’errore della
rete, cioè l’errore delta dello strato di neuroni output, cambia al modificarsi
dei pesi allora può essere inteso come una funzione degli stessi pesi. Tale
funzione, quale può essere l’errore quadratico medio o mean-squared error,
assumerà un valore minimo per determinati punti, corrispondenti a configurazioni di pesi, che possono essere cercati con i metodi di ricerca del minimo
di una funzione, basandosi sullo studio della sua derivata; viene quindi utilizzata, solitamente, la derivata della funzione di trasferimento dei neuroni.
Ad ogni iterazione, i pesi di connessione dei neuroni input degli strati precedenti vengono dunque modificati di una percentuale η (learning rate), dove
piccoli valori di η comportano un apprendimento più lento ma spesso più accurato. In altre parole, questo errore viene propagato all’indietro uno strato
per volta, finché non viene raggiunto il primo strato di input. Tuttavia, il
fatto di correggere i pesi e di muoversi nella direzione indicata dalla derivata,
non significa necessariamente che verrà raggiunto il minimo della funzione di
errore: se l’incremento, la correzione del valore dei pesi, è un valore troppo
alto, esiste il rischio di saltare il minimo; vi è la possibilità cioè di incappare
in minimi locali anziché trovare i valori per cui la funzione di errore ammette
il minimo globale.
Gradient Descent Rule
La regola della discesa del gradiente è simile alla regola del Delta in quanto
viene sempre utilizzata la derivata della funzione di trasferimento per modificare l’errore prima che sia applicato ai pesi di connessione. In questo caso
però una costante proporzionale additiva relativa al learning rate è aggiunta
al fattore finale di modifica dei pesi.
58
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
Quando si cerca di minimizzare l’errore per la classe di reti multistrato chiamata multilayer perceptrons adoperando questo metodo, si ottiene
l’algoritmo backpropagation.
Kohonen’s Law
Questa procedura, sviluppata da Teuvo Kohonen, è ispirata al processo di
apprendimento nei sistemi biologici: un neurone deve competere per l’opportunità di imparare o aggiornare il proprio peso. Il neurone con l’output
maggiore viene considerato vincitore e ha la possibilità di inibire gli altri neuroni come anche di eccitare quelli vicini. Solo il vincitore può restituire un
output, e solo il neurone vincitore e i suoi vicini possono aggiustare i proprio
pesi di connessione.
In aggiunta, la quantità di neuroni vicini può variare durante il periodo
di addestramento. Il procedimento comune è quello di definire inizialmente
un alto numero di neuroni vicini, e di abbassarlo mano a mano che si procede
con l’addestramento.
Questa procedura di apprendimento costituisce in genere tipologie di reti
neurali auto-organizzanti, come le self-organizing maps.
4.6
4.6.1
Considerazioni sulle reti neurali
Successi e insuccessi
In fatto di intelligenza artificiale, apprendimento e simulazione del comportamento umano, le reti neurali hanno goduto di un crescente successo in un
buon numero di campi, ed in modo significativo. Questo perché esse sono,
in base alla progettazione, analizzatori di modelli - possono individuare le
tendenze e le caratteristiche importanti, anche tramite informazioni relativamente complesse. Inoltre possono lavorare con informazioni anche non
perfette, ad esempio immagini sfocate, che rappresentavano in precedenza
difficoltà insormontabili. Le reti neurali sono cosı̀ in grado di leggere testi scritti a mano, individuare i potenziali siti per l’estrazione di petrolio,
prevedere il mercato azionario, anche imparare a guidare.
È interessante notare come le reti neurali sembrino essere adatte per le
stesse cose cui lo siamo noi. La loro forza risiede nel complesso lavoro svolto
in parallelo dalle singole unità elementari, una elaborazione tollerante agli
errori e capace di apprendimento; le loro debolezze si notano invece in fatto
di ragionamento formale e di seguire una regola o una logica ferrea. Sebbene
negli esseri umani si riscontrino entrambe le forme di funzionamento intellettivo, si pensa in genere che essi posseggano eccezionali capacità di pattern
4.6. CONSIDERAZIONI SULLE RETI NEURALI
59
recognition, ossia di riconoscimento di schemi e modelli. Al contrario, la
nostra limitata capacità di elaborazione delle informazioni spesso ci rende
non poi cosı̀ perfetti di fronte a compiti che richiedono logica e ragionamenti
astratti.
I critici affermano che l’incapacità di una rete neurale di imparare qualcosa come la logica, che ha regole precise e prefissate, dimostra come essa non
possa rappresentare una spiegazione di come funziona la mente. I sostenitori
hanno replicato che gran parte del problema risiede nel fatto che l’abilità di
seguire una regola astratta richiede molti più nodi, ovvero neuroni, rispetto
a quelli implementati nelle attuali reti neurali artificiali. Al giorno d’oggi
alcuni tentativi vengono effettuati allo scopo di ottenere reti di dimensioni
maggiori ma il carico computazionale aumenta drasticamente quando vengono aggiunti sempre più nodi; il tentativo risulta dunque assai arduo. Un
altro gruppo di critici ritiene che le reti neurali siano modelli troppo semplicistici per essere considerate rappresentazioni accurate del funzionamento
del cervello umano. Sebbene posseggano alcune proprietà simili a quelle dei
neuroni biologici (forza di connessione, inibizione / eccitazione, ecc), emergono molti altri fattori che potrebbero essere significativi per il funzionamento
del cervello. Il sistema nervoso utilizza ad esempio molti neurotrasmettitori diversi, e le reti neurali artificiali non tengono conto di queste differenze.
Neuroni diversi hanno diverse velocità di conduzione, diversa energia, anche
diverse posizioni nello spazio, che potrebbero risultare significative. Inoltre,
il cervello non è inizialmente formato da un confuso, randomizzato, reticolato
di connessioni con forza casuale; è presente una grande organizzazione anche
durante lo sviluppo fetale. Uno qualsiasi o anche tutti questi fattori potrebbero rivelarsi come assolutamente essenziali per il funzionamento del cervello,
e senza il loro inserimento all’interno dei modelli di reti neurali artificiali, è
possibile che questi ultimi finiscano per risultare mere semplificazioni.
Una delle obiezioni fondamentali che sono state avanzate nei confronti
delle reti back-propagation è che gli esseri umani sembrano imparare anche
in assenza di un esplicito maestro, che corregga i nostri output e modelli
le nostre risposte e reazioni. Perché le reti neurali abbiano successo come
modello e strumento di conoscenza, è indispensabile che esse producano una
simulazione di apprendimento più biologicamente, o psicologicamente, plausibile. In realtà, la ricerca è stata rivolta verso un nuovo tipo di rete neurale
nota come Unsupervised neural network, o rete neurale non supervisionata,
che sembra apprendere in modo efficace in assenza di un insegnante esterno.
In conclusione, quindi, le reti neurali artificiali costituiscono un ottimo
strumento applicabile in svariati campi, compreso quello dell’intelligenza artificiale; tuttavia a causa dell’odierno livello tecnologico e conoscitivo non è
60
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
ancora possibile pretendere di riprodurre il cervello umano e con esso una
forma artificiale di pensiero che sia in grado di eguagliare la nostra.
Le reti neurali artificiali presentano intrinsecamente pregi e difetti che
le rendono un argomento di discussione controverso all’interno del dibattito
nella comunità scientifica. Da una parte esse si rivelano sicuramente utili, in
quanto possono essere impiegate in contesti dove i dati a disposizione sono
parzialmente errati o dove non esistono modelli analitici in grado di affrontare
il problema; possono quindi trattare con dati soggetti a “rumore”; vengono
utilizzate con efficacia nel riconoscimento di immagini e di suoni, come pure
nel campo delle previsioni, siano esse finanziarie o meteorologiche. Dall’altra
parte i risultati ottenuti mediante le reti neurali artificiali, sebbene efficienti,
non sono chiaramente spiegabili ed è possibile ottenere un risultato valido
senza essere in grado di comprendere precisamente come esso sia stato generato: a volte infatti si usa dire che le reti neurali si comportano come una
“scatola nera” (black box). Oltre a comportamenti imprevedibili poi, come è
stato opportunamente già evidenziato, le reti neurali artificiali agiscono efficacemente in ambiti ove è richiesto un ragionamento “in parallelo” riguardo
determinate informazioni che risulta essere non deterministico, ma mostrano
la loro debolezza in contesti di rigida logica formale.
4.6.2
Campi di utilizzo
Finora le reti neurali artificiali hanno riscosso un particolare successo grazie
ai risvolti pratici che esse hanno garantito e le applicazioni sono varie. I
campi in cui esse vengono sfruttate maggiormente sono ad esempio:
• Diagnosi e previsioni mediche
• Previsioni meteorologiche e astronomiche
• Studio della borsa e previsioni finanziarie
• Riconoscimento ottico di caratteri e simboli scritti a mano
• Sistemi biometrici e riconoscimento di volti umani o oggetti
• Analisi delle onde sonore e riconoscimento vocale
• Robotica e controllo di processi industriali
• Bio-informatica e ricerca di pattern in proteine e acidi nucleici
• Sismologia e previsioni di terremoti
4.7. ESEMPIO DI UTILIZZO
4.7
4.7.1
61
Esempio di utilizzo
Matematica: Approssimazione della funzione seno
Per dare in definitiva un’idea applicativa delle reti neurali viene ora esposto
un semplice esperimento, nel quale una rete neurale è istruita affinché possa
predire il grafico della funzione matematica goniometrica sin(x) a partire da
pochi valori iniziali disponibili. Verranno mostrati di seguito i dati derivanti
da un processo di addestramento, effettuato dall’autore del testo stesso, di
una rete feed-forward dotata di tre strati che tenterà di effettuare una approssimazione della funzione. Per conseguire tale scopo, la rete sarà costituita
da un neurone di input, un neurone di output e quattro neuroni dello strato
nascosto; la rete verrà addestrata fornendo un limitato numero di valori x,
ciascuno dei quali associato alla rispettiva immagine sin(x) della funzione
seno.
Poiché la funzione sin(x), da approssimare, ha codominio [−1; 1], per
semplicità viene utilizzata come funzione di trasferimento la tangente iperx −e−x
bolica tanh(x) = eex +e
−x , che ammette anch’essa codominio [−1; 1] ed è quindi
possibile lavorare con valori negativi fino a -1.
Come insieme di esempi, vengono forniti alla rete neurale 17 valori distinti,
espressi in radianti, e i rispettivi valori assunti dalla funzione seno:
x
0
π
6
f (x)
0
1
2
π
4
π
3
√
√
2
2
3
2
π
2
2
π
3
...
4
π
3
√
1
3
2
3
π
2
5
π
3
√
... −
3
2
7
π
4
√
−1 −
3
2
√
−
2
2
11
π
6
2π
− 12
0
La rete viene dunque addestrata ripetendo un processo del genere: al neurone di ingresso della rete viene indicato un valore x tra quelli scelti quale
input e il corrispettivo valore sin(x) quale risultato finale da generare partendo da x. La rete cioè viene istruita sul fatto che ogni volta che riceverà il
valore x essa dovrà restituire il valore corrispondente calcolato per la funzione
seno; essa può quindi utilizzare ora il valore x attribuito al neurone di ingresso per calcolare i valori dei neuroni degli strati successivi tramite le direttive
e gli algoritmi forniti dalla stessa propria struttura: i pesi di connessione
iniziali tra i neuroni, le funzioni di trasferimento scelte e cosı̀ via. Per un
dato input ingresso, cosı̀, la rete arriva ad un determinato output generato
dal neurone di uscita, valore questo che deve essere confrontato con quello
corretto sin(x), in modo da determinare l’eventuale livello di discrepanza tra
il risultato desiderato e quello generato in quel dato momento del processo
di apprendimento.
62
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
Figura 4.6: Set di punti P(input, output) per l’apprendimento di sin(x)
Questo procedimento viene applicato a tutti i 17 valori scelti inizialmente;
inoltre, una volta terminato, viene ripetuta nuovamente l’intera operazione
con ciascun valore per molte altre volte (epoche), al fine di insegnare al meglio
alla rete come riprodurre l’effetto della funzione seno su tutto il range di
valori che si possono presentare nell’intervallo [0; 2π]. Questa fase ha termine
quando la rete è riuscita a raggiungere un sufficiente grado di precisione nel
predire la corretta immagine sin(x) per un dato valore x, oppure quando il
numero di epoche effettuate supera un certo limite imposto in modo che il
tempo impiegato durante il processo non sia eccessivo.
Una volta ultimato il periodo di apprendimento è possibile verificare come la rete sia in grado effettivamente di restituire per i 17 valori di esempio
una buona approssimazione della funzione goniometrica da riprodurre, senza
conoscere tuttavia la relazione che li lega. Non solo, essa risulta possedere
un comportamento “intelligente” anche nel calcolare il valore della funzione
sin(x) anche per input mai incontrati prima. In Figura 4.7 è rappresentato il
grafico generato dalla rete calcolando la funzione in ciascun punto dell’intervallo [0; 2π]. Come si può notare, il grafico segue con buona approssimazione
l’andamento della funzione seno; la rete neurale artificiale è stata istruita con
efficacia ed è ora in grado di svolgere un lavoro utile: in questo contesto si è
voluto unicamente presentare un semplice esempio sul funzionamento di un
modello, quest’ultimo tuttavia risulta davvero comodo in contesti in cui non
è possibile, ad esempio, avere a disposizione tutti i valori che una funzione
4.7. ESEMPIO DI UTILIZZO
63
assume in un determinato intervallo.
Il grado di precisione fornito dalla rete neurale è posto maggiormente
in evidenza poi nella figura successiva, dove vengono confrontati il grafico
corretto della funzione seno e il grafico approssimato.
Figura 4.7: Output dell’approssimazione della rete neurale a sin(x)
Figura 4.8: Confronto tra l’approssimazione di sin(x) e sin(x)
64
CAPITOLO 4. LE RETI NEURALI ARTIFICIALI
Nel grafico presentato di seguito viene mostrato l’aumento di precisione
della rete neurale artificiale nel predire il corretto risultato per l’input ricevuto in rapporto al numero di epoche eseguite durante la fase di apprendimento.
Figura 4.9: Diminuzione dell’errore quadratico medio della rete
L’esempio riportato è sicuramente semplicistico e riduttivo ma al fine del
carattere generale scelto per la trattazione di questo argomento si spera che
esso sia risultato opportuno e abbia lasciato intravedere il funzionamento dei
meccanismi che stanno alla base del modello delle reti neurali artificiali, qui
presentato nella sua forma più semplice e intuitiva.
Capitolo 5
IA: il contributo di Gödel
Allo stato attuale di conoscenza, le relazioni tra cervello e computer risultano
piuttosto superficiali: una delle critiche maggiori avanzate è che il cervello
è un organo elettrochimico con un gran numero di connessioni, che opera
massicciamente con azioni parallele e globali (olistiche), a bassa velocità e
basso costo energetico, capace di generare in continuazione nuovi elementi e
nuove connessioni; il computer e le macchine in generale sono al contrario
sistemi elettronici a connessioni fisse, operanti quasi solo sequenzialmente e
localmente, ad alta velocità. Per questo motivo oggi non si pone tanto il
problema di identificare cervello e computer come sistemi di struttura simile
quanto quello di paragonarli in fatto di comportamenti e prestazioni; si tende
quindi a un paragone a livello software e non hardware. L’accento si è dunque
spostato sulla parola simulazione, lasciando in secondo piano il tentativo di
comprendere se il cervello umano sia o no un computer. La questione è
diventata allora simulare il comportamento del cervello umano: è possibile
riuscire in questo intento?
Riguardo il cervello, le ricerche di Sperry hanno mostrato che le attività
dei due emisferi sono complementari e differenziate. L’emisfero sinitro è
preposto al pensiero astratto e alle attività di comunicazione, di scrittura e di
calcolo; l’emisfero destro è collegato alle attività percettive, di riconoscimento
e artistiche. Mentre il primo gruppo di attività costituisce il campo in cui
le macchine eccellono, il secondo è quello in cui i successi dell’Intelligenza
Artificiale sono più scarsi e difficili. Il problema dunque assume connotati
nuovi e si parla allora della possibilità di simulare l’attività dell’emisfero
destro mediante l’emisfero sinistro.
La questione odierna in ultima analisi non è altro che una rivisitazione in
chiave moderna del dibattito degli anni ’20 del secolo scorso tra formalisti e
intuizionisti, gli uni capeggiati da Hilbert gli altri da Brouwer. La questione
riguardava la possibilità di comprimere il ragionamento matematico all’in65
66
CAPITOLO 5. IA: IL CONTRIBUTO DI GÖDEL
terno di sistemi formali costituiti da assiomi e rigide regole di deduzione: è
possibile per un sistema formale, partendo dagli assiomi posti a fondamento
dello stesso, dedurre e dimostrare tutte le possibili conseguenze che gli assunti iniziali implicano? O esistono tipologie di ragionamenti e proposizioni la
cui verità non può essere decisa all’interno del sistema? Gödel si introduce in
questo dibattito facendo luce sulla questione e fornendo un apporto sostanziale. Il suo teorema di incompletezza, che spesso viene individuato come due
teoremi distinti, rappresentò nel 1931, anno della pubblicazione, un risultato
importantissimo e a tratti sorprendente, portando inevitabilmente con se una
serie di notevoli conseguenze, critiche e interpretazioni erronee.
5.1
I teoremi di incompletezza
Nel 1931 apparve, su un periodico scientifico tedesco, un lavoro relativamente breve titolato Über
formal unentscheidbare Sätza der “Principia mathematica” und verwandter Systeme (Sulle proposizioni formalmente indecidibili dei Principia mathematica e di sistemi affini). L’autore era Kurt
Gödel, allora giovane matematico venticinquenne
dell’Università di Vienna; i Principia mathematica citati sono i tre volumi del trattato di Alfred
North Whitehead e Bertrand Russell sulla logica
matematica e sui fondamenti della matematica.
Nel suo famoso articolo, Gödel sviluppò un Figura 5.1: Kurt Gödel
(1906-1978)
lavoro difficile, affrontando un problema centrale dei fondamenti della matematica. Se nel 1925
Hilbert cercava di provare la validità dell’affermazione che un sistema formalizzato è coerente, egli sei anni più tardi dimostrò, procedendo esattamente
nella direzione opposta, che il sistema descritto nei Principia Mathematica
tollera l’introduzione di enunciati veri ma non derivabili in tutti i modelli.
Tralasciando la sofisticata dimostrazione che il matematico utilizzò nella sua
prova, si possono enunciare i due principali risultati a cui egli arrivò, che
fanno parte dei cosiddetti “teoremi limitativi” e precisano alcune proprietà
che i sistemi formali non possono avere. Come premessa, è comunque utile
ricordare che un sistema assiomatico, cioè basato su principi detti assiomi,
è coerente se non è possibile trarre dal sistema due teoremi contradditori,
ovvero se non è possibile dedurre due proposizioni che si contraddicano; un
sistema assiomatico è invece completo se è possibile dimostrare a partire dagli
assiomi la verità o falsità di ogni proposizione all’interno del sistema.
5.1. I TEOREMI DI INCOMPLETEZZA
67
Il Primo Teorema di incompletezza di Gödel
afferma che: In ogni teoria matematica T sufficientemente espressiva da contenere l’aritmetica,
esiste una formula ϕ tale che, se T è coerente,
allora né ϕ né la sua negazione ¬ϕ sono dimostrabili in T. Ovvero, operando qualche semplificazione, possiamo dire che: In ogni formalizzazione coerente della matematica che sia sufficientemente potente da poter assiomatizzare la teoria
elementare dei numeri naturali — vale a dire, sufBertrand
ficientemente potente da definire la struttura dei Figura 5.2:
Russell (1872-1970)
numeri naturali dotati delle operazioni di somma
e prodotto — è possibile costruire una proposizione sintatticamente corretta che non può essere né dimostrata né confutata
all’interno dello stesso sistema.
Intuitivamente, la dimostrazione del primo teorema ruota attorno alla
possibilità di definire una formula logica ϕ che nega la propria dimostrabilità: si prova quindi che, affinché T sia coerente, né ϕ né ¬ϕ possono essere
dimostrabili. È dunque cruciale che T consenta di codificare formule autoreferenziali, che parlano cioè di sé stesse: questa richiesta è garantita dal
fatto che T è espressiva almeno quanto l’aritmetica o più in generale che T
sia in grado di rappresentare tutte le funzioni ricorsive primitive. Merito
di Gödel fu dunque l’aver esibito tale proposizione e la vera potenza di tale
teorema è che vale “per ogni teoria affine”, cioè per qualsiasi teoria formalizzata, forte quanto l’aritmetica elementare. In particolare Gödel dimostrò che
l’aritmetica stessa risulta incompleta: vi sono dunque delle realtà vere ma
non dimostrabili; la loro dimostrabilità richiederebbe infatti l’introduzione di
un nuovo assioma accanto a quelli posti a fondamento del sistema, ma anche
in questo caso per ogni nuovo assioma introdotto sarebbe sempre possibile
escogitare una nuova proposizione vera ma non dimostrabile.
Questo teorema, che esprime uno dei più discussi limiti della matematica, è ad ogni modo uno dei più frequentemente fraintesi. È un teorema
proprio della logica formale, e se estrapolato da questo contesto può prestarsi facilmente a interpretazioni erronee. Si vedrà in seguito, infatti, come la
pubblicazione del teorema abbia ispirato, ad esempio, autori nel tentare di
dimostrare o confutare la possibilità di poter costruire macchine in grado di
comportamenti intelligenti paragonabili a quelli umani; è il caso questo del
dibattito tra Douglas Höfstadter e Roger Penrose, fiorito negli anni ’80 grazie alle rispettive pubblicazioni di Gödel, Escher e Bach e La nuova mente
dell’imperatore.
68
CAPITOLO 5. IA: IL CONTRIBUTO DI GÖDEL
Il Secondo Teorema di incompletezza completa e sviluppa il lavoro iniziato con il Primo Teorema e si dimostra formalizzando una parte della
dimostrazione di quest’ultimo; esso afferma: Sia
T una teoria matematica sufficientemente espressiva da contenere l’aritmetica: se T è coerente,
non è possibile provare la coerenza di T all’interno di T. Ciò significa che nessun sistema coerente
può essere utilizzato per dimostrare la sua stessa
coerenza, nemmeno se si prende in considerazione
Figura 5.3:
Douglas il sistema dell’aritmetica elementare. In aggiunHofstadter (1945)
ta, secondo quanto viene dimostrato dal lavoro di
Gödel, la coerenza di un sistema non può essere
dimostrata da un sottoinsieme coerente del sistema; quindi il sistema dell’aritmetica elementare non può essere utilizzato nemmeno per dimostrare la
coerenza di sistemi più potenti.
Il significato delle conclusioni di Gödel è di
grande portata in quanto esse mostrano che la
prospettiva di trovare per ogni sistema deduttivo una dimostrazione assoluta di coerenza che
soddisfi alle richieste finitistiche delle proposte di
Hilbert, per quanto non logicamente possibile, è
molto improbabile. I risultati ottenuti non escludono infatti la possibilità di costruire una dimostrazione finitistica assoluta di coerenza per l’aritmetica, ma mostrano che non è possibile alcuna
prova che sia rappresentabile nell’ambito dell’aritmetica; oggi però nessuno ha un’idea chiara del Figura 5.4: Roger Penrose (1931)
probabile aspetto di una prova finitistica non suscettibile di una rappresentazione o formulazione
aritmetica. Le conclusioni ottenute mostrano poi anche che esiste un numero
finito di proposizioni aritmetiche vere che non possono essere formalmente
dedotte da alcun insieme di assiomi mediante un insieme chiuso di regole di
inferenza. Proprio questo aspetto ha fatto sorgere la questione se sia possibile costruire costruire una macchina che faccia concorrenza al cervello umano
in fatto di intelligenza matematica. Si può dire infatti che le macchine odierne possiedono un insieme fissato di regole memorizzato all’interno di esse;
queste regole, secondo Ernest Nagel e James R. Newman, corrispondono alle regole di inferenza stabilite nella procedura assiomatica formalizzata, ma
“come Gödel dimostrò nel suo teorema di incompletezza, vi sono innumerevoli problemi che esulano dalle possibilità di un metodo assiomatico fissato,
5.2. INTERPRETAZIONI E DIBATTITO
69
e che tali macchine non possono risolvere. [...] Assegnato un certo problema, una macchina di questo tipo potrebbe essere costruita per risolverlo; ma
non è possibile costruire una macchina che risolva ogni problema. Il cervello
umano, in realtà, possiede le sue intrinseche limitazioni, [...] ma anche cosı̀,
il cervello umano sembra possedere una struttura di regole di operazione la
quale è di gran lunga più potente della struttura delle macchine che al giorno
d’oggi vengono correntemente concepite”.1
5.2
Interpretazioni e dibattito
Proprio quest’ultimo ragionamento enunciato costituisce la base e la sostanza
della critica mossa da filosofi come J. R. Lucas (1961), i quali ritengono che il
teorema dimostri come le macchine siano mentalmente inferiori agli umani. Il
teorema può essere infatti cosı̀ esposto: per ogni sistema formale assiomatico
F abbastanza potente da poter essere aritmetizzato, è possibile costruire una
cosiddetta “formula di Gödel” G(F ) tale che essa sia una formula di F , ma
non possa essere dimostrata in F ; se F è coerente, allora G(F ) è vera. In
base a questo assunto, Lucas e Penrose hanno asserito che poiché le macchine
sono sistemi formali limitati dal teorema di incompletezza, esse non possono
stabilire la verità della loro formula di Gödel.
Questa affermazione, però, si presenta come il risultato di un ragionamento parzialmente errato. Il teorema di incompletezza si applica infatti
soltanto ai sistemi formali abbastanza potenti da poter essere aritmetizzati.
Essi comprendono anche le macchine di Turing, e il ragionamento di Lucas è
in parte basato sull’assunzione che le macchine e i computer siano macchine
di Turing. La sua è una buona approssimazione, ma non è corretta; le macchine di Turing sono modelli infiniti mentre le macchine sono finite, e ognuna
di queste ultime può quindi essere descritta come un sistema, molto ampio,
in logica proposizionale, che non è soggetto al teorema di Gödel.
Inoltre è possibile rivolgere altre due osservazioni e critiche a Lucas. Primo, secondo il ragionamento da lui attuato nessuno vieta di considerare una
proposizione del tipo: Lucas non può coerentemente affermare che questa
proposizione sia vera. Se Lucas asserisse questa proposizione, allora si contraddirebbe, quindi Lucas non può coerentemente affermarla, e dunque essa
deve essere vera. In tal modo si dimostra che esiste una proposizione che
Lucas non può coerentemente affermare mentre altre persone, e macchine,
possono; ma questo non sminuisce l’intelligenza di Lucas. Secondo, anche se
si accettasse il fatto che le macchine possiedono delle limitazioni riguardo ciò
1
Ernest Nagel e James R. Newman, La prova di Gödel, Bollati Boringhieri, Torino,
2003, p. 107
70
CAPITOLO 5. IA: IL CONTRIBUTO DI GÖDEL
che esse possono dimostrare, non v’è nessuna prova che gli esseri umani siano
immuni da tali limitazioni; è impossibile infatti dimostrare che l’uomo non
è soggetto al teorema di incompletezza di Gödel, perché ogni prova rigorosa
confuterebbe se stessa, in quanto richiederebbe una formalizzazione dell’abilità umana che viene però dichiarata come non formalizzabile. Il lavoro
compiuto da Gödel non significa ad ogni modo che vi siano “limiti ineluttabili alla ragione umana”, ma piuttosto che le risorse dell’intelletto umano
non sono state, né possono essere, formalizzate completamente, e che esistono sempre nuovi principi di dimostrazione che attendono di essere inventati
o scoperti.
Anche secondo il parere di Marvin Minsky, non vi sono dunque provati limiti nell’approccio computazionale allo studio dell’intelligenza artificiale
e non c’è ragione di pensare che le macchine siano inferiori o totalmente
differenti dal cervello, il quale presenta anch’esso punti deboli.[17]
Riguardo poi la questione sollevata da Penrose, secondo cui il cervello può risolvere problemi
per i quali un algoritmo generale non può esistere,
Piergiorgio Odifreddi commenta: “Dove risiede
dunque tale problema? Semplicemente nell’essersi scordati di aver usato la consistenza del sistema
per dedurne la verità della formula che dice di se
stessa di non essere dimostrabile. D’altra parte,
se il sistema fosse inconsistente, ogni formula sarebbe dimostrabile, e quindi anche la precedente:
essa sarebbe dunque falsa, in quel caso. In altre
parole, noi abbiamo riconosciuto soltanto la verità Figura 5.5: Piergiorgio
Odifreddi (1950)
condizionale (sotto l’ipotesi di consistenza) di una
formula, non quella assoluta. E non c’è nessuna
presunzione (neppure da parte di Penrose) di pensare che la mente umana
sappia riconoscere la consistenza di sistemi formali. Il secondo Teorema di
Gödel mette anzi in guardia sulla difficoltà di tale problema: la sua soluzione richiede, per ciascun sistema formale consistente, mezzi al di fuori del
sistema stesso”.[18]
5.3
Conclusione
Il risultato ottenuto da Gödel, soprattutto con il secondo teorema, rappresenta sicuramente un punto d’arrivo di significativo impatto oltre che sul
pensiero matematico e informatico, anche sul pensiero filosofico del secolo
passato. Esso però viene utilizzato spesso erroneamente come punto di ap-
5.3. CONCLUSIONE
71
poggio nel sostenere la possibilità da una parte, o l’impossibilità da un’altra,
che le macchine abbiano la potenzialità di eguagliare il tipo di intelligenza
propria degli esseri umani; la scoperta principale del lavoro del matematico
di Brno è infatti la distinzione tra verità e dimostrabilità, non l’inferiorità di
determinati sistemi rispetto ad altri.
I Teoremi di Gödel non giungono quindi come
un ciclone a distruggere malinconicamente le costruzioni edificate dal sogno formalista perché, se
è vero che segnano la fine del programma finitista
di Hilbert, come fa notare il logico francese JeanYves Girard la coerenza interna di una teoria non
è tutto e la scienza non sa che farsene di teorie
coerenti mal fatte o senza valore predittivo. Un
eventuale successo del programma avrebbe stabilito la completezza della matematica reale, il che
vuol anche dire la sua chiusura:“Inutile discuteFigura 5.6: Jean-Yves re di altri assiomi, nulla ci è sfuggito.” Inoltre il
Girard (1947)
programma avrebbe portato a una meccanizzazione completa della matematica. [...] Piuttosto che
dispiacerci che Gödel ci abbia allontanati dalla soluzione finale, rallegriamoci
per gli spazi da lui lasciati alla creatività.2
2
Jean-Yves Girard, Il sogno del segno o il fallimento del riduzionismo in “La prova di
Gödel”, Bollati Boringhieri, Torino, 2003, pp. 118-120
72
CAPITOLO 5. IA: IL CONTRIBUTO DI GÖDEL
Parte III
Riferimenti
73
Bibliografia
[1] C. R. Alavala. Fuzzy logic and neural networks: basic concepts & applications. New Age Internetional Publishers, New Dheli, 1 edition,
Settembre 2007.
[2] D. Anderson and G. McNeill. Artificial neural networks technology.
Kaman Sciences Corporation, New York, 1 edition, Agosto 1992.
[3] Z. Barnett. A senseless conversation. Think, (X):9–21, Settembre 2011.
[4] M. F. Delaurenti. Controlli non convenzionali di alimentatori a
commutazione. PhD thesis, Politecnico di Torino, 2004.
[5] L. Dreyfus. Heidegger, husserl e la filosofia della mente. In E. Carli, editor, Cervelli che parlano. Il dibattito su mente, coscienza e intelligenza
artificiale, pages 87–108. Bruno Mondadori, Milano, Gennaio 2003.
[6] E. R. Kandel, J. H. Schwartz, and T. M. Jessell. Principles of neural
science. McGraw-Hill, New York, 4 edition, 2000.
[7] B. Krose and P. van der Smagt. An introduction to Neural Networks.
University of Amsterdam, Amsterdam, 8 edition, Novembre 1996.
[8] R. Manzotti and S. Gozzano.
Networks, (3/4), 2004.
Verso una scienza della coscienza.
[9] R. Manzotti and V. Tagliasco. Essere e fare. L’Arsenale, Dicembre 2002.
[10] R. Manzotti and V. Tagliasco. Si può parlare di coscienza artificiale?
Sistemi intelligenti, (XIV):89–108, Aprile 2002.
[11] E. Nagel and J. R. Newman. La prova di Gödel. Bollati Boringhieri,
Torino, 2 edition, Aprile 2003.
[12] F. Rieke, D. Warland, R. de Ruyter van Steveninck, and W. Bialek. Spikes: exploring the neural code. The MIT Press, Cambridge,
Massachusetts, 1 edition, 1999.
75
76
BIBLIOGRAFIA
[13] S. J. Russel and P. Norvig. Artificial Intelligence: a modern approach.
Prentice Hall, 3 edition, Dicembre 2009.
Sitografia
[14] G. Filippelli. Reti neurali e astronomia. Società Italiana di Matematica Applicata e Industriale. http://maddmaths.simai.eu/var/
reti-neurali-e-astronomia, data ultima consultazione: 02/07/12.
[15] S. Manganiello. An introduction to neural networks with an implementation using Neural++ library. Maggio 2009. http://blacklight.
gotdns.org/~tut/neural.pdf, data ultima consultazione: 02/07/12.
[16] P. Marino. Le reti neurali artificiali. Ente Ospedaliero S. de Bellis, 2001. http://www.irccsdebellis.it/html/Reti_Neurali/SITO_
RetiNeurali.htm, data ultima consultazione: 02/07/12.
[17] M. Minsky. Le frontiere dell’intelligenza artificiale. Rai Radiotelevisione
Italiana, Ottobre 1999. http://www.mediamente.rai.it/biblioteca/
biblio.asp?id=372&tab=int, data ultima consultazione: 02/07/12.
[18] P. Odifreddi. Il teorema di Gödel e l’I.A. Università di Bologna, Marzo 1992. http://www.scienzagiovane.unibo.it/intartificiale/
odifreddi/godel_ia.html, data ultima consultazione: 02/07/12.
[19] M. Volta. Controllo e gestione dei Sistemi Ambientali: Reti neurali.
Università degli Studi di Brescia. http://automatica.ing.unibs.it/
mco/cgsa/neurali/, data ultima consultazione: 02/07/12.
77
78
SITOGRAFIA
Filmografia
[20] J. Badham. Short Circuit. 20th Century Fox, 1986.
[21] J. Cameron. The Terminator. Orion Pictures, 1984.
[22] A. Proyas. I, robot. 20th Century Fox, 2004.
[23] S. Spielberg and S. Kubrick. A.I. Artificial Intelligence. Warner Bros.
Pictures, 2001.
[24] A. Wachowski and L. Wachowski. The Matrix. Warner Bros. Pictures,
1999.
[25] A. Wachowski and L. Wachowski. The Matrix Reloaded. Warner Bros.
Pictures, 2003.
[26] A. Wachowski and L. Wachowski. The Matrix Revolutions. Warner
Bros. Pictures, 2003.
79