Davide Briani Liceo Scientifico E. Curiel, classe 5G Padova, 7 luglio 2012 Il pensiero artificiale: è possibile? Una visione di insieme sul dibattito odierno 2 Indice I Prefazione 0.1 II 7 Preambolo e materie coinvolte . . . . . . . . . . . . . . . . . . Pensiero e intelligenza artificiale 9 11 1 Introduzione 13 1.1 L’Intelligenza Artificiale . . . . . . . . . . . . . . . . . . . . . 13 1.2 L’I.A. nella storia . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3 Il contributo di Turing e le reti neurali . . . . . . . . . . . . . 14 2 IA: La questione filosofica 2.1 Il test di Turing . . . . . . . . . . . . . . 2.1.1 La critica relativa all’incapacità . 2.1.2 L’obiezione matematica . . . . . 2.1.3 La critica sulla consapevolezza . . 2.2 Searle: la rappresentazione . . . . . . . . 2.3 Heidegger: il Dasein e l’essere nel mondo . . . . . . . . . . . . . . . . . . 3 La coscienza e il rapporto tra mente e corpo 3.1 Cos’è la coscienza? . . . . . . . . . . . . . . . 3.1.1 La visione fisicalista . . . . . . . . . . 3.1.2 La visione non-fisicalista . . . . . . . . 3.2 Conclusioni . . . . . . . . . . . . . . . . . . . 4 Le reti neurali artificiali 4.1 Struttura del neurone biologico . . . . . . . . 4.2 Il neurone artificiale . . . . . . . . . . . . . . . 4.3 Struttura di una rete . . . . . . . . . . . . . . 4.4 Principali componenti di un neurone artificiale 4.4.1 Pesi sinaptici . . . . . . . . . . . . . . 4.4.2 Funzioni di somma e di attivazione . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 18 18 19 19 20 23 . . . . 29 31 32 35 38 . . . . . . 41 42 43 44 47 47 47 4 INDICE 4.4.3 Funzioni di trasferimento e di limitazione . . 4.4.4 Rumore e temperatura del neurone . . . . . 4.4.5 Funzione di output: competizione . . . . . . 4.4.6 Funzione di errore . . . . . . . . . . . . . . . 4.4.7 Funzione di apprendimento . . . . . . . . . Tipologie di apprendimento . . . . . . . . . . . . . 4.5.1 Apprendimento supervisionato . . . . . . . . 4.5.2 Apprendimento non supervisionato . . . . . 4.5.3 Apprendimento per rinforzo . . . . . . . . . 4.5.4 Velocità di apprendimento . . . . . . . . . . 4.5.5 Regole principali per l’apprendimento . . . . Considerazioni sulle reti neurali . . . . . . . . . . . 4.6.1 Successi e insuccessi . . . . . . . . . . . . . 4.6.2 Campi di utilizzo . . . . . . . . . . . . . . . Esempio di utilizzo . . . . . . . . . . . . . . . . . . 4.7.1 Matematica: Approssimazione della funzione 4.5 4.6 4.7 5 IA: 5.1 5.2 5.3 III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . seno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 50 51 51 52 52 52 54 55 55 56 58 58 60 61 61 il contributo di Gödel 65 I teoremi di incompletezza . . . . . . . . . . . . . . . . . . . . 66 Interpretazioni e dibattito . . . . . . . . . . . . . . . . . . . . 69 Conclusione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Riferimenti 73 Bibliografia 75 Sitografia 77 Filmografia 78 Elenco delle figure 1.1 Alan Turing (1912-1954) . . . . . . . . . . . . . . . . . . . . . 14 2.1 2.2 2.3 2.4 2.5 John Searle (1932) . . . . . . Marvin Minsky (1927) . . . . Hubert Dreyfus (1929) . . . . Anirban Bandyopadhyay . . . Martin Heidegger (1889-1976) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 22 23 24 24 3.1 3.2 3.3 3.4 3.5 3.6 Joseph E. LeDoux (1949) . . . . Renato Cartesio (1596-1650) . . Hilary Putnam (1926) . . . . . Galileo Galilei (1564-1642) . . . Vincenzo Tagliasco (1941-2008) Riccardo Manzotti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 31 33 33 36 37 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Struttura di un neurone naturale . . . . . . . . . . . . . . Struttura di un neurone artificiale . . . . . . . . . . . . . . Esempio di rete neurale multistrato . . . . . . . . . . . . . Il modello del Percettrone . . . . . . . . . . . . . . . . . . Funzioni di trasferimento più comuni . . . . . . . . . . . . Set di punti P(input, output) per l’apprendimento di sin(x) Output dell’approssimazione della rete neurale a sin(x) . . Confronto tra l’approssimazione di sin(x) e sin(x) . . . . . Diminuzione dell’errore quadratico medio della rete . . . . . . . . . . . . . . . . . . . . . . 43 44 45 46 49 62 63 63 64 5.1 5.2 5.3 5.4 5.5 5.6 Kurt Gödel (1906-1978) . . . Bertrand Russell (1872-1970) Douglas Hofstadter (1945) . . Roger Penrose (1931) . . . . . Piergiorgio Odifreddi (1950) . Jean-Yves Girard (1947) . . . . . . . . . . . . . . . 66 67 68 68 70 71 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 ELENCO DELLE FIGURE Parte I Prefazione 7 0.1. PREAMBOLO E MATERIE COINVOLTE 0.1 9 Preambolo e materie coinvolte Il testo sviluppato si prefigura come il frutto di un approfondimento personale su un tema di notevole interesse per l’autore; un esito di tale ricerca è stato quello di notare come, partendo da un quesito apparentemente estraneo all’attività didattica affrontata durante il quinto anno di studi, la strada si ricolleghi invece ad alcuni temi ed autori del programma svolto. Le macchine possono pensare? Questo interrogativo conduce a questioni care ai ricercatori delle scienze cognitive, come quella dell’intelligenza e della coscienza artificiali. Sebbene di ampio respiro, l’argomento viene trattato sviluppando i punti principali che lo caratterizzano, cercando di offrire una trattazione chiara e agevole. Per quanto il tema venga esposto nei suoi caratteri più generali, alcune materie e aree di studio vengono maggiormente toccate, come Matematica e Filosofia. Nel tentativo di trovare una risposta alla domanda iniziale circa la possibilità di un pensiero artificiale, il testo contiene riferimenti a idee e concezioni di personaggi anche illustri: Heidegger, Gödel, Minsky, Galilei, Turing, Searle, Cartesio, Odifreddi; si parte dunque dal dualismo cartesiano tra materia e spirito per giungere agli odierni orientamenti della ricerca scientifica e filosofica. All’interno dello scenario moderno e del ventaglio delle concezioni correnti riguardo l’intelligenza artificiale viene esplicitato il contributo di diversi pensatori: cosı̀ per alcuni come Tagliasco o Manzotti la quantificazione galileiana della realtà è una visione distorta e riduttiva e occorrono nuovi strumenti di indagine per studiare il pensiero, mentre altri come Turing o Minsky ritengono possibile giungere a vere menti artificiali; il Teorema di incompletezza di Gödel si posiziona come un nodo fondamentale del dibattito circa l’impossibilità delle macchine di affrontare problemi che gli umani sono in grado di risolvere; il Dasein di Heidegger è quell’ essere nel mondo che da alcuni viene contestato a macchine incapaci di interagire adeguatamente con l’ambiente esterno e di possedere un sufficiente background culturale o senso comune. Obliquamente al ventaglio di riflessioni filosofiche e, per cosı̀ dire, astratte prendono posto le reti neurali artificiali, sistemi di elementi adattivi a somiglianza dei neuroni naturali che seguendo modelli matematici tentano di riprodurre la capacità dell’uomo di imparare a partire dagli input dell’ambiente esterno e di agire di conseguenza. Per semplicità, nella stesura del testo si è cercato di operare delle suddivisioni in sezioni e paragrafi, correlati da formule, immagini, grafici e alcuni esempi. 10 Parte II Pensiero e intelligenza artificiale 11 Capitolo 1 Introduzione 1.1 L’Intelligenza Artificiale L’Intelligenza Artificiale è una disciplina sviluppata in un periodo relativamente recente che si prefigge due scopi: lo studio dei principi e dei meccanismi che sono alla base dell’intelligenza umana e la realizzazione di prodotti artificiali in grado di riprodurre comportamenti intelligenti. 1.2 L’I.A. nella storia L’espressione intelligenza artificiale venne coniata per la prima volta in un seminario tenutosi nel 1956 a Dartmouth, negli Stati Uniti. In quell’occasione Marvin Minsky, uno dei fondatori della disciplina, definı̀ l’IA come la scienza che fa fare alle macchine cose che richiederebbero intelligenza se fossero fatte dagli uomini. Alcuni studiosi non sono d’accordo, perché considerano l’IA non una vera e propria scienza, ma un’area di ricerca tecnologica. La definizione di Minsky ha comunque il pregio di chiarire gli scopi dell’IA: costruire macchine in grado di dare prestazioni intelligenti. Ad ogni modo, l’idea di costruire artefatti o automi che si comportano come uomini o animali risale addirittura all’antico Egitto. Ci è stato infatti tramandato che venivano costruite statue di divinità azionate da congegni elementari come leve e girelle. L’abilità nel costruire automi ebbe però il suo massimo sviluppo dal Rinascimento in poi; si racconta che Leonardo da Vinci avesse costruito un leone animato, ma il più famoso costruttore di automi fu Vaucanson che nel Settecento fabbricò un suonatore meccanico di flauto che era in grado di eseguire diversi pezzi musicali e un canarino meccanico che mangiava e digeriva. 13 14 CAPITOLO 1. INTRODUZIONE Nel Seicento si diffuse la moda dei giochi idraulici e degli automi da giardino. Fu proprio osservando gli automi idraulici nei giardini di Fontainbleau che Cartesio concepı̀ l’idea che il corpo umano fosse una macchina. La filosofia di Cartesio, che opera la famosa distinzione fra res extensa e res cogitans, cioè fra il meccanicismo del corpo e la spiritualità della mente, è perfettamente compatibile con la costruzione di automi: i corpi umani e animali sono riproducibili meccanicamente, il pensiero invece appartiene alla sfera spirituale e non è pertanto riproducibile. Fu Thomas Hobbes a contestare questa concezione spiritualistica del pensiero contrapponendovi una concezione materialistica; egli affermava, infatti, che ragionare equivale a calcolare, in altre parole a fare operazioni di somma o sottrazione fra idee o nomi. L’idea che il ragionamento sia un calcolo e sia pertanto riproducibile meccanicamente, è condivisa dai moderni studiosi di IA. Ma per poter arrivare ai primi tentativi di realizzazione dell’IA stessa, la scienza è dovuta giungere alla costruzione dei calcolatori elettronici e ha dovuto interrogarsi sul significato del termine intelligenza. 1.3 Il contributo di Turing e le reti neurali Nel cammino che conduce alla ricerca odierna sull’intelligenza e sugli automi, è necessario ricordare il contributo dato da Alan Turing, uno dei “padri” del calcolo automatico. Egli sviluppò le basi teoriche dell’informatica nel 1936, introducendo un modello di “macchina calcolatrice programmabile” chiamata appunto macchina di Turing. Per la realizzazione di questo modello egli prese spunto da analogie con il cervello e nel 1950 pubblicò la sua teoria scrivendo un articolo ove sostenne la possibilità di realizzare un programma che perFigura 1.1: Alan Turing mettesse a un computer di comportarsi in maniera (1912-1954) intelligente. Lo sviluppo delle reti neurali artificiali, nuovo campo di ricerca che tentava di ideare modelli artificiali del cervello umano, fu di poco successivo alla pubblicazione della macchina di Turing. Infatti agli inizi degli anni ’40, alcuni pionieri del campo dell’intelligenza artificiale cominciarono a studiare le potenzialità e le capacità derivanti dalla interconnessione di numerosi elementi semplici basati sul modello fisiologico semplificato di un neurone. Cominciò allora ad avviarsi la ricerca e lo studio delle reti neurali artificiali ed un primo esempio di rete si ebbe già nel 1943, 1.3. IL CONTRIBUTO DI TURING E LE RETI NEURALI 15 quando McCulloch e Pitts proposero un primo modello di neurone artificiale e la connessione di un gruppo di queste unità. Le teorie di McCulloch e Pitts mancavano però di un passo fondamentale: la possibilità di apprendimento. Per questo nel 1949 lo psicologo Hebb propose un semplice meccanismo di apprendimento ispirandosi al sistema nervoso. Vari ricercatori e studiosi si ispirarono alle idee di Turing ed infatti durante la conferenza di Dartmouth si mostrò anche il primo programma che realizzava dimostrazioni automatiche di teoremi: il programma LT. Dalla data della conferenza il dibattito sulla intelligenza artificiale si fece sempre più vivo, anche se le reti neurali restarono in secondo piano: lo sviluppo di queste nuove teorie iniziò infatti a rallentare tra il 1970 e il 1980, a causa di critiche di altri studiosi che le consideravano di “basso rigore scientifico”. Nel 1985 ci fu poi un grandissimo rilancio dato dalla pubblicazione di un nuovo algoritmo di apprendimento detto “di retro-propagazione dell’errore” (error back-propagation) da parte di Rumelhart. Per quanto riguarda il dibattito sulla intelligenza artificiale esso prese vita dividendosi in due rami, tutt’ora presenti: quello dell’intelligenza artificiale forte e dell’intelligenza artificiale debole. La prima sostiene che un computer opportunamente programmato e sufficientemente potente possa mostrare un comportamento intelligente del tutto indistinguibile da quello umano. La seconda sostiene invece che un computer possa sı̀ mostrare un comportamento intelligente, ma in modo solo apparente, che non sarà mai paragonabile a quello umano. Nel capitolo successivo la trattazione verrà focalizzata sull’aspetto teorico dell’argomento e sull’odierno dibattito circa la possibilità di un pensiero artificiale paragonabile o uguale a quello umano. Uno sguardo al campo più concreto delle reti neurali verrà proposto solo in un secondo tempo. 16 CAPITOLO 1. INTRODUZIONE Capitolo 2 IA: La questione filosofica La filosofia della mente è una disciplina il cui scopo è lo studio della mente, della coscienza, delle funzioni cognitive e del loro rapporto con il cervello. Non solo, lo studio si rivolge anche alle relazioni che intercorrono tra la mente e il corpo o il mondo. Con la ricerca odierna gli sforzi si sono inevitabilmente diretti anche verso i tipi di intelligenza che possiamo definire artificiali, soprattutto quelli che presentano caratteristiche tali da ipotizzare per essi la possibilità di riprodurre il cervello umano, se non addirittura la vita. Solitamente, riguardo a questo tema, ciò che interessa ai filosofi è il confronto tra due architetture, quella umana e quella delle macchine: tradizionalmente il problema è stato formulato come “le macchine possono pensare?”. Da una parte, alcuni hanno cercato di dimostrare che l’IA è impossibile e che le macchine non hanno alcuna possibilità di agire in modo intelligente, dall’altra il pensiero artificiale è visto come possibile. Perché domande come quella posta abbiano un senso occorre ad ogni modo determinare prima cosa significhi pensare. Ironicamente infatti, nonostante tutti siano d’accordo che gli esseri umani siano intelligenti, nessuno è ancora riuscito a dare una definizione soddisfacente di intelligenza. Per questo si è soliti individuare, come già detto, due “schieramenti” principali tra gli studiosi in questo campo: • il primo, detto “Intelligenza artificiale forte”, viene sostenuto soprattutto dai funzionalisti e ritiene che un computer correttamente programmato possa raggiungere un livello di intelligenza non distinguibile da quello umano. L’idea alla base di questa teoria risale a quella dell’empirista inglese Thomas Hobbes, il quale sosteneva che ragionare non è nient’altro che calcolare: la mente umana consisterebbe cioè in un insieme di processi e calcoli eseguiti dal cervello. • il secondo, detto “Intelligenza artificiale debole”, sostiene che un computer non sarà mai in grado di eguagliare la mente umana, ma potrà 17 18 CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA arrivare a simulare solo alcuni aspetti di essa, non riuscendo a riprodurli tutti contemporaneamente. La vera Intelligenza Artificiale, almeno secondo alcuni, potrebbe dunque essere raggiungibile solo da sofisticati robot in grado di muoversi ed interagire con l’ambiente che li circonda grazie a sensori. La ricerca odierna, anche relativamente al campo delle reti neurali artificiali, è infatti indirizzata verso questa ipotesi. Le macchine dovranno essere quindi in grado di imparare e apprendere dalle proprie esperienze tramite mezzi propri. Alcuni studiosi inoltre ritengono che anche nei robot intelligenti occorra creare una “infanzia” che gli consenta di mettere a punto autonomi processi di apprendimento e adattamento all’ambiente. Il quesito iniziale di fondo, “le macchine possono pensare”, non sembra comunque poter ricevere una risposta chiara. 2.1 Il test di Turing Alan Turing, nel suo celebre Computing Machinery and Intelligence (Turing, 1950), suggerı̀ che invece di chiederci se le macchine possono pensare dovremmo chiederci se possono superare un test comportamentale di intelligenza, che da allora è stato chiamato test di Turing. Il test, detto anche gioco dell’imitazione, consiste nel sostenere una conversazione (attraverso messaggi digitati su una tastiera) con un interlocutore per cinque minuti. Alla fine la persona che ha posto le domande deve indovinare se la conversazione ha avuto luogo con un programma oppure con un essere umano; il programma passa il test se riesce a ingannare il suo interlocutore tre volte su dieci.1 Turing prese anche in esame una grande varietà di eventuali obiezioni alla possibilità che esistano macchine pensanti, tra cui praticamente tutte quelle sollevate nel mezzo secolo successivo alla pubblicazione del suo articolo. 2.1.1 La critica relativa all’incapacità L’argomentazione derivante dall’incapacità si basa sull’asserzione che “una macchina non potrà mai fare X”. Come esempi di X Turing ha elencato le seguenti capacità: essere gentile, pieno di risorse, bello, amichevole, avere iniziativa, senso dello humor, riconoscere ciò che è giusto e sbagliato, fare errori, innamorarsi, godersi una coppa di fragole e gelato, far sı̀ che qualcuno 1 A. M. Turing, Macchine calcolatrici e intelligenza, in V. Somenzi - R. Cordeschi (a cura di) La filosofia degli automi. Origini dell’intelligenza artificiale, Boringhieri, Torino, 1986, pp. 157-158 2.1. IL TEST DI TURING 19 la apprezzi, imparare dall’esperienza, usare le parole correttamente, essere l’oggetto del proprio pensiero, esibire una diversità di comportamenti pari a quella di un essere umano, fare qualcosa di veramente nuovo. Turing dovette usare il proprio intuito per indovinare quello che sarebbe stato possibile fare in futuro, ma noi ora abbiamo la comodità di poter guardare indietro a ciò che i computer hanno già fatto e dato quello che sappiamo oggi sui computer, non ci sorprende che si comportino cosı̀ bene in problemi combinatori come gli scacchi. Ma gli algoritmi possono eseguire attività che apparentemente richiedono una capacità di giudizio umana o, per dirla come Turing, la capacità di “apprendere dall’esperienza” e di “riconoscere ciò che è giusto e sbagliato”; è chiaro che i computer possono fare molte cose altrettanto bene o meglio degli uomini, tra cui alcune che si pensa richiedano una grande quantità di intuizione e comprensione umana. Ciò non significa, naturalmente, che i computer ricorrano all’intuizione e alla comprensione: il punto è che spesso ci si sbaglia quando si ipotizzano processi mentali richiesti per produrre un determinato comportamento. Ovviamente, è anche vero che ci sono molte attività in cui i computer non sono ancora in grado di “eccellere”, tra cui quella richiesta da Turing: sostenere una conversazione ad argomento libero. Questo tuttavia potrebbe rivelarsi un problema destinato a essere lentamente dimenticato in seguito ai successi della ricerca nel campo dell’intelligenza artificiale, delle reti neurali e degli automi. 2.1.2 L’obiezione matematica Turing prese in esame anche le considerazioni e le conseguenze insite nel Teorema di incompletezza di Gödel (1931), il quale dimostra come certe asserzioni matematiche risultino indecidibili in particolari sistemi formali. Poggiandosi sulle affermazioni del teorema, alcuni critici vedono le macchine come sistemi formali limitati e naturalmente inferiori all’intelligenza umana. Un capitolo a parte è tuttavia stato riservato in questo testo per una introduzione al famoso teorema e al relativo dibatto, la cui trattazione viene dunque momentaneamente rinviata. 2.1.3 La critica sulla consapevolezza Un’altra possibile e comune obiezione che stata sollevata sul fatto che una macchina sia effettivamente in grado di pensare è quella relativa alla consapevolezza del proprio pensiero e della proprie azioni, una obiezione resa famosa anche dall’esperimento mentale ideato da Searle che verrà presentato nel prossimo paragrafo. In sostanza, come Turing aveva previsto, alcuni affermano che una macchina che passi il test da lui ideato non stia in realtà 20 CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA pensando ma stia unicamente producendo una simulazione del pensiero. Già Turing citò il Professor Geoffrey Jefferson (1949): “Finché una macchina non sarà in grado di scrivere una poesia o comporre una melodia grazie a pensieri ed emozioni provate, non sarà possibile convenire che le macchine equivalgono il cervello - ossia, non solo scrivere la poesia ma sapere di averla scritta.”. A tale obiezione Turing rispose semplicemente con un’ulteriore domanda: perché dobbiamo insistere nell’esigere dalle macchine più di quanto chiediamo a noi umani? Nella vita di tutti i giorni, dopotutto, non abbiamo nessuna evidenza diretta circa la sussistenza di stati mentali interni negli altri umani. Ciò nonostante siamo soliti dare per scontata la convenzione che ciascuno pensi. 2.2 Searle: la rappresentazione L’esperimento di Turing, in ogni caso, è un test comportamentistico, il cui fine non è prettamente quello di identificare se e dove ci possa essere intelligenza ma piuttosto di valutare il grado di abilità del sistema artificiale nel dare risposte consone alle richieste presentate. Il test è difatti senza dubbio anche in buona parte soggettivo poiché è proprio l’interrogante il giudice supremo che deve decidere se ha di fronte un uomo o una macchina. L’interrogativo iniziale Può una macchina pensare? non sembra quindi, almeno per alcuni, poter trovare una adeguata risposta tramite il gioco dell’imitazione. Al riguardo, il filosofo John Searle replicò con un famoso esperimento mentale, denominato esperimento della stanza cinese. Urge ora una rapida esposizione dello stesso: “Supponiamo che io mi trovi chiuso in una stanza con un grande foglio di carta tutto coperto di ideogrammi cinesi. Supponiamo inoltre che io non conosca il cinese (ed è proprio cosı̀), scritto o parlato, e che io non sia nemmeno sicuro di riuscire a distinguere la scrittura cinese dalla scrittura diciamo, giapponese o da sgorbi privi di significato: per me gli ideogrammi cinesi sono appunto sgorbi privi di significato. Figura 2.1: John Searle (1932) Ora supponiamo che, dopo questo primo foglio in cinese, mi venga fornito un secondo foglio scritto nella stessa scrittura, e con esso un insieme di regole per correlare il secondo foglio col primo. Le regole sono scritte in inglese e io capisco queste regole come qualsiasi altro individuo di madrelingua inglese. Esse mi permettono di correlare un insieme di simboli formale con un altro insieme di 2.2. SEARLE: LA RAPPRESENTAZIONE 21 simboli formali; qui formale significa semplicemente che io posso identificare i simboli soltanto in base alla loro forma grafica. Supponiamo ancora che mi venga data una terza dose di simboli cinesi insieme con alcune istruzioni, anche queste in inglese, che mi permettono di correlare certi elementi di questo terzo foglio coi primi due, e che queste regole mi insegnino a tracciare certi simboli cinesi aventi una certa forma in risposta a certi tipi di forme assegnatomi nel terzo foglio. A mia insaputa le persone che mi forniscono tutti questi simboli chiamano il contenuto del primo foglio scrittura, quello del secondo storia e quello del terzo domande. Inoltre chiamano risposte alle domande i simboli che io do loro in risposta al contenuto del terzo foglio e chiamano programma l’insieme delle regole in inglese che mi hanno fornito. [...] Nessuno, stando solo alle mie risposte, può rendersi conto che non so neanche una parola di cinese. [...] Dal punto di vista esterno, cioè dal punto di vista di qualcuno che legga le mie risposte, le risposte alle domande in cinese e a quelle in inglese sono altrettanto buone. Ma nel caso del cinese, a differenza dell’inglese, io do le risposte manipolando simboli formali non interpretati. Per quanto riguarda il cinese, mi comporto né più né meno che come un calcolatore: eseguo operazioni di calcolo su elementi specificati per via formale. Per quanto riguarda il cinese, dunque, io sono semplicemente un’istanziazione (ossia un’entità totalmente corrispondente al suo tipo astratto) del programma del calcolatore”. 2 Ciò che in sostanza il filosofo tentò di dimostrare tramite questo esperimento mentale è che la sintassi formale non implica di per sé la presenza di contenuti mentali; cioè poiché i programmi sono definiti in termini puramente formali o sintattici e che la mente possiede un contenuto mentale intrinseco, ne consegue che essa non può consistere in un semplice programma. Una macchina quindi non sarà veramente in grado di pensare come un umano. Riguardo questa considerazione è tuttavia possibile fare qualche osservazione e critica. Innanzitutto bisogna dire che l’argomentazione poggia su una semplice verità logica: sintassi e semantica non si equivalgono e la sintassi non può costituire e generare la semantica. Il che sembra ovvio e razionale. Ciò che va notato però è che la stanza cinese è un luogo virtuale privo di qualsiasi collegamento con i significati e quindi incapace di significare; non si può dire, infatti, che qualora effettivamente la mente fosse un programma, esso dovrebbe limitarsi a manipolare simboli senza effettuare alcuna associazione con la realtà cosciente. Essa potrebbe cioè manipolare simboli e nel contempo operare con gli oggetti ad essi associati e quindi acquistare coscienza degli stessi. Secondo alcuni studiosi inoltre, gli esperimenti di Turing e di Searle non 2 J. R. Searle, Il mistero della coscienza, Raffaello Cortina, 1998 22 CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA dimostrano con certezza alcunché. Ad esempio per Marvin Minsky, pioniere nel campo della I.A., il test di Turing è solo una riflessione sul fatto che il termine “intelligenza” viene solitamente adoperato per indicare realtà molto diverse tra loro. Si possono ottenere macchine intelligenti e che siano in grado di passare il test proposto ma che hanno poco in comune con le persone. Per questo Minsky ritiene che non sia di grande importanza definire l’intelligenza bensı̀ concentrarsi sul cammino della ricerca, nel tentativo di arrivare a una più ampia conoscenza del problema. In questa ottica, l’esperimento mentale di Searle si prefigura come un incentivo allo studio dei processi cognitivi, umani e non. Occorre analizzare a fondo anche il linguaggio e soprattutto i significati correlati; più che la sintassi occorrono nuove idee di semantica e semiotica, sebbene la ricerca in questo campo comprenda una ristretta fascia di studiosi. Dunque il problema della rappresentazione costituisce effettivamente un nodo fondamentale nello sviluppo di una intelligenza artificiale. Secondo alcuni però le macchine sarebbero in grado di raggiungere notevoli livelli di intelligenza e di pensiero, il vero problema risiede nel processo di rappresentazione in quanto metodo per lavorare e prendere coscienza della realtà. Ciò che suggerisce Minsky è che se si vuole una macchina che rifletta su determinati oggetti bisogna che abbia modo di rappresentarli. Se a tale scopo si utilizzano soltanto dei simboli collegati tra loro in Figura 2.2: Marvin Minsky (1927) maniera disordinata, ogni volta che si rappresenta un dato inedito sarà necessario un nuovo tipo di programma che lo interpreti. Risulta necessario sia per il cervello che per i computer sviluppare modi diversi di rappresentare la conoscenza ed essere in grado di selezionare elementi della conoscenza e tramite questi estrapolarne di nuovi. A tal fine si deve a Minksy l’introduzione del concetto di frame, un metodo relativamente semplice di rappresentare le caratteristiche di un oggetto. Nel processo di rappresentazione vengono creati frame differenti che possono essere collegati tra loro in modo da permettere al sistema di mutare il punto di osservazione, guardare a un oggetto da una determinata prospettiva per passare poi a un’altra inquadratura. Questo è appunto uno dei settori di studio che tengono impegnati scienziati e ingegneri nel tentativo di produrre macchine capaci di conoscenze più complete. Uno dei problemi principali di costoro è infatti quello di riuscire a realizzare un ragionamento impiegando diversi tipi di rappresentazione contemporaneamente. La mente umana, invece, è capace di passare continuamente da un modo di rappresentazione 2.3. HEIDEGGER: IL DASEIN E L’ESSERE NEL MONDO 23 all’altro. L’esempio più semplice è quello di un uomo che osserva un oggetto nel suo insieme o in ciascun suo particolare. Riprendendo un esempio già proposto poco fa, è possibile pensare di realizzare un programma che, pur manipolando simboli, operi nel contempo con gli oggetti associati ad essi e acquisti di conseguenza coscienza di essi: per chiarire le idee si immagini un semplice sistema formale costituito da tre simboli {A, B, C} e si introduca una funzione biunivoca chiamata f (x) che associ a ciascuno di essi una immagine, ad esempio un vaso, un mucchio di terra e un fiore. A questo punto è possibile ammettere che ∀C =⇒ ∃A, B, ossia per ogni fiore C deve esistere un vaso A pieno di terra B. A questo punto è possibile compiere una osservazione: la regola è espressa secondo il linguaggio formale della logica ma in virtù delle associazioni mentali è possibile immaginare la situazione pensando direttamente alla sovrapposizione di f (A), f (B) e f (C); oppure, in termini meno astratti, si può immaginare un quadretto in cui compare raffigurato un vaso con un fiore. Secondo questa concezione, la conoscenza si articola in più livelli differenti e può essere possibile e completa anche artificialmente; il significato e la semantica non compaiono nell’esperimento della stanza cinese perché viene lasciato spazio unicamente alla sintassi e alla manipolazione di simboli; l’interpretazione non può essere messa in relazione con l’oggetto. Secondo alcuni, Searle, nella sostanza, sarebbe riuscito al massimo a postulare l’impossibilità di una mente priva di semantica ma il pensiero e la rappresentazione a più livelli sono obiettivi possibili e concreti. Questo è il sogno che i sostenitori dell’intelligenza artificiale cercano di realizzare. 2.3 Heidegger: il Dasein e l’essere nel mondo Quando gli studi in fatto di intelligenze artificiali e macchine arriveranno al punto di produrre sistemi non distinguibili dall’uomo in quanto a comportamento, come aveva predetto Turing, probabilmente le critiche teoriche riguardo la possibilità della loro concretizzazione semplicemente svaniranno. Fino ad ora però il dibattito è stato senza dubbio vivo e numerose critiche sono state presentate. Riguardo il problema della rappresentazione vi è chi, come detto, tenta di dimostrare l’analogia tra mente e calcolatore, ma vi è pure chi, come il filoFigura 2.3: Hubert Drey- sofo Dreyfus, ritiene che le macchine nonostante i fus (1929) passi avanti della ricerca siano inferiori all’uomo. 24 CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA Questi pensa infatti che l’intelligenza umana sia più olistica di quella artificiale. Se l’affermazione viene riferita all’attuale sviluppo del campo delle reti neurali artificiali quali emulatori delle capacità del cervello umano, essa risulta veritiera in quanto al momento nessun modello matematico-ingegneristico di rete neurale ispirato alla teoria connessionista sembra in grado di riprodurre con efficacia il carattere olistico, situazionale e corporeo dell’intelligenza umana. Questo significa che per eguagliare l’uomo, le macchine dovrebbero avere bisogni, desideri, emozioni, sensazioni, cioè possedere un corpo simile al nostro, con tutta la sua naturale complessità. Sebbene tentativi di riprodurre il cervello umano anche con strutture organizzate di neuroni biologici vengano correntemente effettuate e sembrino lasciar spazio a notevoli possibilità, la ricerca odierna è certamente ancora lontana dal riprodurre completamente l’intelligenza dell’uomo, la quale sembra essere motivata sia dalla totalità dell’organismo corporeo che dalla totalità dell’ambiente socio-culturale. Esperimenti come quello del ricercatore indiano Anirban Bandyopadhyay, che è riuscito a ideare e realizzare un cervello bioAnirban logico costituito da una gelatina di molecole orga- Figura 2.4: Bandyopadhyay niche che funziona a bassa energia, riproducono in maniera sorprendente la struttura del cervello umano e rivelano già grosse potenzialità, tuttavia non riescono per ora ad offrire altro se non il proprio interessante e utile aspetto applicativo, ad esempio nel campo della nano-chirurgia.3 Quale ingrediente manca a questi sistemi affinché dispongano di una intelligenza completa, perché possano fare esperienza di un pensiero come il nostro? Alcuni filosofi e studiosi concordano nel dire che una componente fondamentale perché ciò accada sia proprio la coscienza da parte della macchina di essere al mondo, di interagire con la realtà e l’ambiente esterno. Ciò significa che, riprendendo il pensiero heideggeriano, un sistema per essere intelligente deve innanzitutto essere, ovvero Figura 2.5: Martin Heiessere vivo, essere nel mondo. Come propone- degger (1889-1976) 3 V. Kasam, I neuroni di Anı̀, Il Sole 24 Ore, 3 giugno 2012, p. 31 2.3. HEIDEGGER: IL DASEIN E L’ESSERE NEL MONDO 25 va Heidegger dando avvio all’indagine ontologica della realtà, la questione fondamentale riguarda il rapporto tra il nostro essere ciò che siamo e il nostro essere nel mondo; come viene esplicitato in “Essere e Tempo” dal filosofo, si verifica un vero e proprio rovesciamento del concetto cartesiano Cogito, ergo sum che diviene Sum, ergo cogito: “...Cartesio a cui si attribuisce con la scoperta del cogito sum, l’avvio della problematica filosofica moderna, indagò, entro certi limiti, il cogitare dell’ego. Per contro lasciò del tutto indiscusso il sum, benché lo presenti come non meno originario del cogito. L’analitica pone il problema ontologico dell’essere del sum. Quando questo sarà determinato, e solo allora, risulterà comprensibile anche il modo di essere delle cogitationes”. 4 E’ il Dasein il concetto fondamentale che caratterizza la natura dell’uomo come animale sociale; significa esistenza anche come vita, come agire ed essere nel mondo. L’essere è il livello fondamentale che si pone come base per la comprensione del mondo; la coscienza e l’intenzionalità vanno pensate a partire dall’essere, cosicché il problema della mente diviene sostanzialmente un problema ontologico. Per Heidegger la storia della filosofia è la storia della “dimenticanza dell’essere”, a partire da Platone e dall’idea che sia possibile conoscere l’universo oggettivamente fino a Cartesio e al suo “Cogito, ego sum”; occorre invece presupporre uno sfondo di pratiche quotidiane alle quali non corrispondono rappresentazioni mentali; l’uomo, cioè, vive autenticamente quando riesce a “incontrare” il mondo non solo teoreticamente ma anche praticamente: l’uomo esprime le proprie capacità e abilità nell’interazione con gli strumenti, i mezzi, gli oggetti e gli altri esseri umani. Come è stato osservato da Dreyfus, la visione heideggeriana della natura dell’uomo come non rappresentazionale e non formalizzabile in quanto essere-nel-mondo, in quanto Dasein, mette in discussione le ipotesi circa la creazione di una mente artificiale tramite sofisticata tecnologia. Proprio il Dasein è ciò che è impossibile simulare per una macchina: la specificità dell’essere è data dal suo relazionarsi al mondo esterno, non solo nel rapporto tra stati mentali e realtà oggettiva, ma nel modo in cui l’essere “incontra” il mondo. Ad esempio quando giochiamo a tennis o guidiamo un’auto non prestiamo attenzione al nostro agire o all’oggetto, sia esso una racchetta o una macchina, ma siamo concentrati sul fine dell’azione. In altre parole non abbiamo bisogno di una chiara percezione di stare guidando una macchina o della esistenza stessa della macchina; il nostro agire, il nostro “incontrare” la realtà non passa attraverso la parte cosciente del cervello. Si potrebbe affermare dunque, seguendo la visione di Heidegger e Dreyfus, che la coscienza non è una condizione necessaria per 4 M. Heidegger, Essere e Tempo, trad. it. di P. Chiodi, Longanesi, Milano, 1976, p. 69 26 CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA entrare in relazione con il mondo ma è piuttosto il Dasein e l’essere nel mondo a costituire quello sfondo ontologico necessario perché si possano manifestare le nostre capacità e la nostra coscienza. Affinché sia possibile il pensiero artificiale, quindi, le macchine dovrebbero possedere perlomeno una qualche forma di Dasein, di senso comune. Quest’ultimo sembra sempre più poter essere la chiave, o almeno un ingrediente essenziale, per la concretizzazione delle ipotesi dei fautori dell’intelligenza artificiale. Scienziati impegnati in questo campo, infatti, concentrano sforzi sempre maggiori allo scopo di riuscire a fornire alle proprie macchine una forma seppur limitata di senso comune, un background culturale che permetta di inserirle e farle “vivere” in un ambiente tramite sensori e mezzi di comunicazione che riproducono le abilità innate dell’uomo garantite dai “cinque sensi”. Uno dei problemi maggiori incontrati lungo questa via è costituito dal fatto che spesso si tende a ridurre i processi di conoscenza e di sviluppo dell’intelligenza al problema della memoria: alcuni studiosi di I.A. sostengono che disponendo di tempo e capacità sarà possibile accumulare moltissime informazioni e costruire sulla base di queste macchine molto simili agli esseri umani. Ma una tale forma di conoscenza risulterebbe in ogni caso limitata e parziale perché, secondo alcuni come Dreyfus, i meccanismi stessi delle macchine sono limitati. Ad esempio, per comprendere cos’è un martello, un computer non dovrebbe fare riferimento ad un database costituito di chiodi, muri, persone, case, legno, ferro, prove di resistenza, ecc., ma accedere solamente ai fatti di possibile rilevanza nel contesto specifico in cui esso sta operando. Per fare questo però il computer dovrebbe riprodurre il contesto umano, dovrebbe essere in grado di “essere in una situazione”, di “sentirsi situato”. E questo costituisce un problema notevole. Il fatto è che la pretesa di riprodurre ciò che fa la mente umana esattamente nello stesso modo in cui essa lo fa manca di concretezza e il livello tecnologico odierno disponibile non sembra poter concedere speranza a tale ipotesi. Come già accennato, una scelta possibile è quella, semplicistica, di ridurre il problema della conoscenza a quello della memoria; tuttavia sebbene sia possibile creare sistemi artificiali “intelligenti” sotto alcuni aspetti, come una macchina che gioca a scacchi, il processo avviene per via meramente computazionale e per quanto sia vero che esistono programmi capaci di calcolare milioni di mosse ad una velocità per noi impensabile, ciò non ci dice nulla sul modo in cui gli esseri umani giocano a scacchi. Da quanto detto, seppure sia meglio ricordare che non è possibile essere certi di una determinata teoria, sembra allora che scienziati e ricercatori si debbano accontentare di cercare di riprodurre in un unico sistema contemporaneamente più caratteristiche e abilità possibili del cervello umano, ma 2.3. HEIDEGGER: IL DASEIN E L’ESSERE NEL MONDO 27 senza la convinzione di poter riprodurre artificialmente il suo esatto funzionamento. Se vengono poste queste premesse, nulla vieta di compiere grandi passi avanti e di arrivare a risultati importanti. Lo stesso campo delle reti neurali, per quanto sia ora limitato ad un impiego pratico e utilitaristico, si pone come una delle basi per la produzione di robot di nuova generazione, che interagiscono col mondo e imparano dall’esperienza reale senza bisogno di un “insegnante” umano. La ricerca riguardo tipologie di reti neurali artificiali auto-organizzanti che imparano e si costituiscono da sole tramite unsupervised learning dà i suoi frutti. Di questo argomento verrà discusso più avanti in un capitolo a sé stante. Come è stato evidenziato, la visione di Heidegger circa la mente e l’esperienza umana si basa sul livello fondamentale e fondante del Dasein, concetto antecedente alla stessa coscienza. Tuttavia è stato anche sottolineato che non è possibile essere del tutto certi di tale teoria; per questo motivo una parte consistente della comunità scientifica ha sentito e sente tuttora il bisogno di indagare la questione della coscienza, delle emozioni e dell’intenzionalità: l’interrogativo ricorrente è se queste esistano, se siano necessarie per l’intelligenza e il pensiero, e che ruolo possiedano nel rapporto tra mente e corpo, tra soggetto e realtà esterna. Un dibattito questo di largo respiro che si fa via via sempre più acceso e frequente; per tale motivo l’autore di questo testo ritiene opportuno inserire un capitolo a parte atto a riprendere, per sommi capi, ipotesi e critiche fiorite negli ultimi decenni all’interno della comunità scientifica internazionale. La trattazione viene dunque lasciata al prossimo capitolo. 28 CAPITOLO 2. IA: LA QUESTIONE FILOSOFICA Capitolo 3 La coscienza e il rapporto tra mente e corpo Sonny: Mio padre ha provato ad insegnarmi le emozioni umane. Sono... difficili. Spooner: L’uomo che ti ha progettato? Sonny: Sı̀. Spooner: Allora perché l’hai ucciso? Sonny: Non ho ucciso il dottor Lanning. Spooner: E perché ti nascondevi sul luogo del delitto? Sonny: Avevo paura. Spooner: I robot non provano paura. Non provano niente. Non hanno fame, non devono dormire. Sonny: Io sı̀. Ho persino sognato, alcune volte. Spooner: Gli esseri umani sognano quando dormono. Anche i cani sognano. Ma tu no. Tu sei solo una macchina. Un’imitazione della vita. Un robot può scrivere una sinfonia? Un robot può trasformare una tela bianca in un’opera, un capolavoro? Sonny: Lei può farlo? tratto dal film “Io, robot” (2004), regia di Alex Proyas. Le parole attribuite al robot Sonny nel film “I, robot” di Proyas sembrano riprendere, con una punta di fantasia, il dibattito odierno sull’intelligenza artificiale. Sono in molti infatti a chiedersi se una macchina sarà mai in grado di provare emozioni; ma cosa sono le emozioni? E cos’è la coscienza, entità che il fantascientifico Sonny sembra possedere? Questi quesiti arrovellano la mente dell’uomo da generazioni eppure far luce sul mistero che la coscienza rappresenta sembra essere più arduo di quanto si possa pensare. Alla fine 29 30CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO del secolo scorso, Thomas Huxley affermava che:“come avvenga che qualcosa di cosı̀ sorprendente come uno stato di coscienza sia il risultato della stimolazione del tessuto nervoso è tanto inspiegabile quanto la comparsa del genio quando Aladino, nella favola, strofina la lampada”.1 In tempi più recenti invece, il mistero che avvolge la coscienza e il meccanismo del pensiero umano ha ispirato ampi filoni di letteratura fantascientifica; ancora di più, robot e strutture aritificiali coscienti e intelligenti compaiono in numerosi film come HAL 9000 in 2001: Odissea nello spazio, Pensiero Profondo in Guida galattica per autostoppisti, Skynet nella serie cinematografica di Terminator, le macchine in Matrix, Numero 5 in Corto Circuito, e molti altri. Ma nella realtà, è effettivamente concretizzabile il sogno di una intelligenza artificiale che possieda, come l’uomo, una coscienza? Nel film A.I. Artificial Intelligence, David è addirittura un bambino robot in grado di amare, odiare, provare sentimenti. Tuttavia l’incertezza propria della ricerca attuale può essere in buona parte esplicitata tramite le parole di Le Doux nel suo Il sé sinaptico:“La mente descritta dalla scienza cognitiva è in grado, per esempio, di giocare perfettamente a scacchi, e può persino essere programmata per barare. Ma non è afflitta dal senso di colpa Figura 3.1: Joseph E. LeDoux (1949) quando bara, o distratta dall’amore, dalla rabbia o dalla paura. Né è automotivata da una vena competitiva oppure dall’invidia e dalla compassione”.2 Ma se le conoscenze attuali non ci permettono di concretizzare macchine che vadano molto al di là della semplice capacità combinatoria che consente loro di giocare a scacchi, allora fino a che punto è possibile l’analogia tra mente umana e calcolatore? Nell’analisi di tale rapporto bisogna tenere in considerazione le emozioni, il contenuto mentale? Nell’ambito descritto dal problema, si giunge facilmente a chiedersi come sia possibile fornire ad un sistema artificiale ciò che noi chiamiamo con i nomi di coscienza, emozioni e intenzionalità. Sicuramente la tentazione di ricondurre il problema all’analisi fisiologica e di spiegare tali concetti tramite processi fisici e chimici che avvengono all’interno del corpo umano, semplifica enormemente la questione. Secondo Edelman occorre notare però che:“l’analogia tra mente e calcolatore cade in difetto per molte ragioni. Il cervello si forma secondo principi che ne ga1 2 Thomas Henry Huxley, The elements of physiology and hygiene, 1868, p. 178 Joseph LeDoux, Il sé sinaptico, Raffaello Cortina, Milano, 2002, p. 34 3.1. COS’È LA COSCIENZA? 31 rantiscono la varietà e anche la degenerazione; a differenza di un calcolatore non ha una memoria replicativa; ha una storia ed è guidato dai valori; forma categorie in base a criteri interni e a vincoli che agiscono su molte scale diverse, non mediante un programma costruito secondo una sintassi ”.3 L’indagine riguardo la coscienza non si esaurisce tuttavia in queste parole e richiede uno scenario di visioni più complesso. Per questo verranno ora esposti alcuni orientamenti di pensiero che tentanto di trovare una risposta al quesito principale: 3.1 Cos’è la coscienza? Cercare una risposta alla domanda “Cos’è la coscienza ed è essa necessaria per parlare di intelligenza e pensiero?” significa impegnarsi ad affrontare il problema del rapporto tra cervello fisico e psiche e a studiare i meccanismi e le proprietà che li mettono in relazione. Per comprendere come una macchina possa essere in grado di provare emozioni, di percepire sensazioni e di compiere esperienze coscienti, bisogna prima determinare come ciò sia possibile nell’uomo. Ciò che viene indicato come il presupposto a coscienza e sensazioni è il concetto di mente; l’analisi di quest’ultimo da parte degli studiosi al fine di comprendere il meccanismo di funzionamento dell’intelligenza umana presenta un problema che ha rappresentato fin dall’antichità uno spunto per la riflessione intorno alla natura e alle proprietà del pensiero umano. Il problema principale che ha impegnato gli scienziati soprattutto negli ultimi secoli è quello del rapporto tra mente e corpo: cos’è la mente e che relazione c’è fra essa ed il corpo? La mente agisce sul corpo o è il corpo ad agire sulla mente? Il punto di partenza principale di tutte queste problematiche può essere rintracciato in Cartesio che delineò una divisione tra il soggetto conoscente e la realtà conosciuta caratterizzando il pensiero come essenza del mentale. Si istituı̀ in tal modo un dualismo ontologico tra la mente e il corpo, l’una considerata come res cogitans, sostanza immateriale e misteriosa, l’altro come res extensa, sostanza corporea. Con res cogitans si intende quindi la realtà psichica a cui Cartesio attribuisce le seguenti qualità: inestensione, libertà e consapevolezza. La res extensa rappresenta invece la Figura 3.2: Renato Cartesio (1596-1650) 3 Gerald M. Edelman, Sulla materia della mente, Adelphi, Milano, 1993, p. 236 32CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO realtà fisica, che è estesa, limitata e inconsapevole. Un dualismo interazionista, quello cartesiano, che presentava non pochi punti deboli, come il processo non chiarito secondo il quale la mente agisce sul corpo attraverso un punto di contatto tra le due sostanze tra loro incommensurabili: la ghiandola pineale. L’errore gnoseologico insito nella visione dualistica cartesiana è stato più volte sottolineato nell’ultimo secolo da molti studiosi, tra cui Antonio Damasio che ha dedicato all’argomento un intero libro.4 I filosofi moderni preferiscono al dualismo ontologico un dualismo delle proprietà o delle funzioni, in base al quale mente e corpo sono compenetrati e coniugati funzionalmente ma non costituiscono due sostanze separate. Si possono invece distinguere due tipi di “stati esperienziali”, i neurostati e gli psicostati ; i primi fenomeni cerebrali e i secondi fenomeni mentali. Il dualismo di Cartesio è stato portato dai suoi successori alle estreme conseguenze con determinate forme di anti-sostanzialismo, moderato in Locke, il quale sosteneva la funzione essenziale della coscienza indipendentemente dalla sostanza, radicale in Hume, che pensò il soggetto conoscente come un fascio di percezioni, e trascendentale in Kant, con la teoria “dell’io puro”. Una volta raggiunti tali limiti, si percepı̀ la fallacia dei tentativi compiuti nel comprendere maggiormente il rapporto mente/corpo. Si tentò allora di superare gli ostacoli posti in essere dal dualismo cartesiano attraverso nuove strade, ad esempio rinunciando al carattere originale di una delle due sostanze. Si sono determinate cosı̀ due tipologie di pensiero dominanti all’interno delle scienze che studiano il cervello, l’intelligenza e i processi cognitivi: quella del fisicalismo e quella del mentalismo o del non-fisicalismo. 3.1.1 La visione fisicalista Secondo i fisicalisti, al problema mente-corpo è possibile trovare soluzione riconducendo gli stati mentali agli stati cerebrali, operando una sorta di riduzionismo materialista e fisicalista. Seguendo tale concezione, l’esperienza cosciente e le emozioni sono giustificabili come conseguenze di determinati processi chimici e fisici del corpo umano, di determinate configurazioni neuronali all’interno del cervello, di determinati stimoli e impulsi elettro-chimici. Il mentale è presentato come epifenomenico del cerebrale. Si assiste cosı̀ ad una rinascita del materialismo dell’identità tra mente e cervello, la cui forma più estrema è rappresentata dall’eliminativismo, il quale rifiuta l’idea della traducibilità del linguaggio mentale, semanticamente inconsistente e ricco 4 A. Damasio, L’errore di Cartesio, Adelphi, Milano, 1995 3.1. COS’È LA COSCIENZA? 33 di espressioni prive di riferimento, con quello fisicalistico (Paul e Patricia Churchland). Assieme al fisicalismo, inoltre, sono nate poi tendenze quali il connessionismo, che mira a riprodurre l’intelligenza attraverso la simulazione di reti neurali, e il funzionalismo, che trova il suo massimo esponente in Hilary Putnam, il quale considera gli eventi mentali come condizioni causali tra input e output caratterizzate da funzioni: secondo la teoria, due sistemi qualsiasi possiedono gli stessi stati mentali se caratterizzati da processi causali isomorfi; una macchina potrebbe perciò avere gli stessi stati mentali di un uomo. Il conFigura 3.3: Hilary Put- nessionismo, o connettivismo, è tuttavia ancora nam (1926) per molti solo uno dei metodi possibili e necessari per ricostruire la fisionomia del cervello e del pensiero umano, in quanto produce modelli neurali in cui il numero di connessioni tra i vari elementi non può essere eccessivo e gli oggetti vengono rappresentati tramite numeri, valori e coefficienti, che però non riescono a fornire una rappresentazione soddisfacente di molti fattori in quanto non precisamente quantificabili. Questa visione della realtà deve sicuramente qualcosa a Galileo Galilei e al cammino da lui indicato, nell’affrontare lo studio della natura iniziando da ciò che appare semplice ed essenziale. Nessuno ha vietato in passato di procedere nello studio in senso olistico senza dividere l’universo in parti semplici e più facilmente comprensibili, come ad esempio sosteneva Goethe dicendo che la natura non ha “né nocciolo né buccia ed è data tutta insieme”. Il problema è che per questa via in passato lo studio si è sempre rivelato arduo e non sono stati compiuti progressi in tale direzione. Figura 3.4: Galileo Galilei (1564-1642) La dottrina galileiana insegna invece un metodo rivelatosi efficace e fecondo di risultati: occorre studiare i fenomeni fisici liberandoli da tutti gli impedimenti “esterni e accidentari”, tenere in considerazione solo gli aspetti quantitativi della realtà che ci circonda e porre in secondo piano gli aspetti qualitativi assieme a emozioni, impressioni e coscienza. I fisicalisti moderni, tuttavia, pur aderendo a un materialismo di stampo galileiano nel risolvere il problema mente/corpo operando un riduzionismo 34CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO della mente a processi fisici e concentrando gli sforzi degli studi su questi ultimi, ritengono spiegabili su tale base anche eventi mentali, pensiero intelligente ed esperienza cosciente. Il fondamento di questa concezione risiede nel supporto fornito dalle scienze della complessità, che a partire da Poincaré, individuano la complessità e l’impredicibilità come legate e conseguenti al determinismo delle equazioni di Newton; l’illusione illuministica di poter prevedere con certezza il futuro di un sistema svanisce cioè grazie alla scoperta negli anni ’70 del caos deterministico, ossia il cui stato è determinato univocamente da quello iniziale. Si giunge cosı̀ a comprendere che l’apparente contraddizione insita nel rapporto tra mente e corpo nasce dalle barriere psicologiche dovute a secoli di tradizione che hanno considerato determinismo e caos come concetti contrapposti; allo stesso modo il supporre che l’irrazionalità della mente e del pensiero umano sia incompatibile con i calcolatori, è una idea basata su una confusione tra livelli: un meccanismo semplice e senza errori ad un certo livello potrebbe costituire la base di una manipolazione di simboli ad un livello superiore che appare complessa, caotica e senza spiegazione. Sulla base di ciò, alcuni affermano dunque che poiché anche il cervello umano è formato da elementi semplici quali i neuroni che non commettono errori allora potrebbe essere plausibile dire che entità considerate astratte e inspiegabili come il pensiero e la coscienza siano in realtà il risultato di un processo deterministico dovuto al livello neuronale sottostante. Allo stesso modo quindi si ritiene che l’hardware di una macchina, esente da errori, abbia i requisiti necessari per costituire la base di comportamenti ad alto livello che sembrino intelligenti e che rappresentino stati tipicamente umani come l’indecisione, la dimenticanza, la capacità di giudizio, l’intenzionalità. Allora le macchine possono pensare e provare emozioni? Da quanto detto, la risposta tende sicuramente verso il positivo. Se pensiamo all’essere umano, il fisicalismo insegna che ciò che noi chiamiamo emozione in fondo è soltanto un particolare stato mentale che si sovrappone alla configurazione precedente alterandone alcune caratteristiche allo scopo di preparare l’organismo ad attuare una precisa procedura. Ad esempio, se un uomo ode la parola “Attento”, all’interno del suo corpo avvengono numerose reazioni organiche, alcune delle quali sono associate a forti emozioni - secrezione di adrenalina, blocco della digestione, liberazione del glucosio immagazzinato, e cosı̀ via. Tutto ciò avviene allo scopo di far fronte a una situazione di probabile pericolo imminenente; questo non significa però che l’emozione sia qualcosa di impalpabile e di origine ignota. Cosı̀ come per noi le emozioni sono conseguenze di processi fisici allora, ritengono alcuni fisicalisti, anche per le macchine possono sussistere meccanismi paragonabili. Per spiegare il concetto è possibile addurre un semplice esempio. Si immagini che esista una macchina molto sensibile ai colori visibili intorno ad essa e che svolga la 3.1. COS’È LA COSCIENZA? 35 funzione di regolare la temperatura di una stanza; se il colore verde risulta visibile, quest’ultima verrà aumentata. All’inizio lo stato interno del sistema è caratterizzato da una temperatura ambientale di 20◦ C, il che può essere paragonato ad un uomo che cammina per strada con 60 pulsazioni cardiache al minuto. All’improvviso un evento inatteso si presenta sulla scena: un tavolo verde per la macchina e una donna di notevole bellezza per l’uomo. A questo punto le pulsazioni al minuto del cuore umano aumenteranno a causa del maggior afflusso di adrenalina e l’uomo avrà l’impressione di provare una forte emozione; allo stesso modo nella macchina l’evento improvviso provocherà una variazione del valore da attribuire alla temperatura e essa “proverà un’emozione”, ossia si ritroverà con uno stato interno differente da quello memorizzato in precedenza. Insomma è come se ci fossero inizialmente 20◦ C, o 60 pulsazioni al minuto, ma per determinati processi e ragioni la variazione di tale valore induce la consapevolezza di un evento particolarmente importante. Ecco dunque, a grandi linee, uno dei modi tramite cui vengono spiegati la coscienza e il pensiero intelligente nel riduzionismo fisicalista, il quale non vuole criticare l’importanza o l’utilità delle emozioni ma l’immaterialità che a esse viene da molti attribuita. Le emozioni infatti appartengono alla sfera più primordiale dell’encefalo e a una fase molto antica dell’evoluzione; Joseph LeDoux ne “Il Sé sinaptico” sottolinea a tale proposito proprio il ruolo svolto dall’amigdala nella decodifica delle emozioni e in particolare della paura, un sistema che deve essere stato di grande aiuto ai vertebrati quando la corteccia cerebrale non era ancora sviluppata. Alla luce di queste considerazioni l’emozione è uno stato mentale magari peculiarmente più immediato e sconvolgente di altri, ma rimane sempre un “semplice” stato mentale. 3.1.2 La visione non-fisicalista Dalla parte opposta rispetto ai fisicalisti, che tentano di spiegare come stati fisici possano contemporaneamente essere anche stati mentali, gli esternalisti cercano di superare il cosiddetto “Fossato Galileiano” rifiutando una separazione tra mondo mentale e mondo esterno. Si può e si deve analizzare la mente e il mondo qualitativo non limitandosi a oggetti, processi e sistemi quantificabili. L’esternalismo non nega, in generale, il fatto che senza il cervello e il sistema nervoso non si ha nessuna mente, esso mette però in discussione che il cervello sia sufficiente a produrre la mente e che esso sia l’unico fondamento fisico per i processi e i contenuti mentali. Oltre alla posizione principale che rivolge all’approccio riduzionista la critica di non spiegare efficacemente la coscienza, vi sono comunque varie sfumature all’interno dell’esternalismo. Alcuni affermano che la mente è indipendente da fattori esterni ma avviene sostanzialmente all’interno del cervello, altri che 36CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO la mente dipende necessariamente da o è identica a processi fisici, in parte o totalmente esterni al sistema nervoso. Atri ancora poi rifiutano l’idea che il contenuto della mente sia fatto di rappresentazioni e ipotizzano che l’uomo percepisca direttamente il mondo esterno. Sostenitori dell’esternalismo semantico suggeriscono una visione cauta seconda la quale i meccanismi che corrispondo alla mente si trovano all’interno del corpo ma il contenuto semantico non sopravviene nel cervello bensı̀ nelle relazioni sociali, culturali e linguistiche. Ad ogni modo, in generale gli studiosi non fisicalisti tendono a far leva sulla difficoltà di descrivere la coscienza per dipingere il riduzionismo come una scienza in difficoltà e in imbarazzo, motivo per cui essa ha sempre rinnegato la possibilità di una effettiva esistenza della coscienza e ha lasciato intoccato il suo dominio; la coscienza è intrinsecamente soggettiva ma la scienza studia programmaticamente gli enti oggettivi e i fatti quantitativi, esprimibili con grandezze numeriche, che sono stati considerati come i soli veramente importanti. Occorre dunque rivalutare il valore dell’aspetto qualitativo e della coscienza fenomenica, poiché essa, secondo alcuni come i ricercatori Manzotti e Tagliasco, “contraddistingue il nostro stato di veglia, contraddistingue il nostro stesso esserci di persone. Ansi, potremmo persino concordare sul fatto che, senza l’esperienza cosciente, noi siamo assenti nel senso più pieno del termine. [...] sentiamo che [...] la vita da sola non è sufficiente a garantire l’integrità della persona”.5 Perché sia possibile l’intelligenza e il pensiero occorre dunque che esista anche la coscienza, vista come precedente allo sviluppo cognitivo stesso della persona. Secondo gli stessi Manzotti e Tagliasco, da notare, macchine intelligenti non sono tuttavia da escludere definitivamente. I due evidenziano però il fatto che non è possibile giungere a realizzazioni concrete di esse se si parla di Artificial Intelligence nel senso che è stato conferito al termine fino ad ora. La parola artificiale implica infatti un programma di lavoro di tipo ingegneristico che ha Figura 3.5: Vincenzo sempre riscosso successo grazie agli aspetti appliTagliasco (1941-2008) cativi; ma ora secondo i due studiosi la coscienza è diventata un problema scientifico e non solo un problema filosofico, perciò se si vuole giungere a risultati concreti e soddisfacenti servono nuovi strumenti, occorre parlare anche di intenzionalità e di Artificial Consciousness, una branca di studio che solo nell’ultimo venten5 Riccardo Manzotti e Vincenzo Tagliasco, Essere e fare: perché l’approccio riduzionista non spiega la coscienza in “L’arsenale”, La Spezia, Dicembre 2002, p. 3 3.1. COS’È LA COSCIENZA? 37 nio ha cominciato a produrre un certo dibattito. Argomento di discussione è certamente la concezione che l’intelligenza abbia bisogno di una volontà che la guidi e che la razionalità debba essere mossa da fini e motivazioni che non possono essere il prodotto delle elaborazioni interne di un sistema chiuso. La coscienza in quanto intenzionalità è basilare dunque affinché una macchina possa essere in grado di pensare e avere comportamenti intelligenti; per questo “il problema della realizzabilità della coscienza artificiale ha avuto all’inizio la forma della costruzione di un agente intenzionale [...] tuttavia senza una teoria della coscienza e quindi dell’intenzionalità, era impossibile riconoscere in una struttura artificiale la presenza di genuine capacità intenzionali. E infatti la domanda sui correlati neurali della coscienza resta aperta sia nel campo biologico sia nel campo, finora ipotetico, dell’artificialità”.6 Secondo i due esternalisti fautori della “Teoria della Mente allargata”, la coscienza è stata la grande assente della ricerca scientifica nel Novecento e un prerequisito per lo studio della mente, al fine della sua costruzione in strutture artificiali, è l’identificazione fra la mente e la mente cosciente: una precisazione non superflua che nelle parole dei due ricercatori acquista il significato di critica nei confronti dei ricercatori degli ultimi cinquant’anni che hanno cercato di spiegare la mente senza far uso della coscienza, esito estremo delle contraddizioni interne del dualismo seicentesco. Un ulteriore punto sottolineato è che essere coscienti non significa essere vivi. La distinzione si basa sul fatto che essere in vita vuol dire essere costituiti da molecole basate sulla replicazione del DNA mentre essere coscienti significa essere in grado di poter fare esperienza del mondo; vi è pertanto una sottile linea di demarcazione tra i due concetti che lascia spazio alla possibilità di supporre una struttura artificiale capace di produrre un soggetto dotato di esperienze coscienti. Dunque una coscienza, e intelligenza, artificiale è ipotizzabile e in sintesi, “è possibile che il secolare empasse in cui si è imbattuta la scienza, Figura 3.6: Riccardo nello spiegare la natura della mente cosciente, sia Manzotti causato non tanto dalla natura del problema in sé quanto dalle ipotesi che acriticamente si sono accettate sulla natura della realtà. Cambiando queste, e sottoponendole al vaglio dell’evidenza, è possibile che si guadagni una migliore comprensione 6 Riccardo Manzotti e Vincenzo Tagliasco, Si può parlare di coscienza artificiale?, Dicembre 2001, pp. 4-5 38CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO tanto della coscienza quanto della realtà”.7 Secondo i non-fisicalisti, insomma, è necessario abbracciare una prospettiva più ampia ed è ormai riconosciuto il fatto che non esistano dati osservativi neutri, assolutamente indipendenti da qualsiasi punto di vista e quantificabili esattamente secondo le categorie galileiane. Ogni osservazione è sempre condizionata dall’orientamento e dalle aspettative dell’osservatore, dalla soggettività umana. Ad aumentare la complessità del problema si aggiunge inoltre il fatto che ogni organismo raccoglie anche informazioni dall’ambiente in modo apparentemente inconscio e automatico; ma tali informazioni non sono esplicitabili e riconducibili ad affermazioni ben definite, cosı̀ da poter essere comunicate tramite il linguaggio ad altri individui. Secondo questa visione dunque gli strumenti che la scienza ha utilizzato fino ad adesso non sono sufficienti per abbracciare completamente la realtà, compresa la coscienza e il pensiero in sé. E mettere in discussione l’idea che la mente possa essere completamente spiegata sulla base di processi fisici e fenomeni cerebrali a noi noti apre un notevole vuoto conoscitivo. Ma una posizione coraggiosa come questa potrebbe anche aprire spazi di possibilità del tutto nuovi. Occorre dunque riconoscere il ruolo della coscienza nella costituzione della mente e del pensiero, biologici e artificiali, e valicare i limiti delle attuali prospettive. La mente presenta caratteristiche assolutamente particolari rispetto a qualunque altra tipologia di eventi che avvengono nell’universo e ciò autorizza ad avanzare dei dubbi relativamente alla fondatezza della convinzione che le categorie concettuali di cui oggi disponiamo siano sufficienti per spiegare i fenomeni della mente. 3.2 Conclusioni Come si è mostrato, il ventaglio di opinioni riguardo al tema dell’intelligenza artificiale è molto ampio e vario. Rispondere ad un quesito come “è possibile il pensiero nelle macchine?” nasconde dunque un sentiero impervio attraverso le concezioni della realtà e della vita più disparate e non sembra possibile tutt’oggi avvicinarci a risposte e risultati concreti. Il dibattito sull’intelligenza è vivo e attuale, come lo è pure quello sulla coscienza: vi è chi dice che il pensiero e l’intelligenza non possono prescindere da essa e chi sostiene che essa non sia che il risultato di meri processi fisici e biologici, di stati cerebrali. Marvin Minsky, ad esempio, ritiene che il concetto stesso di coscienza venga male interpretato. Secondo lo studioso, bisogna tenere in considerazione due punti: il primo è che la coscienza è costituita da numerosi aspetti diversi 7 Riccardo Manzotti e Vincenzo Tagliasco, si può parlare di coscienza artificiale?, Dicembre 2001, p. 11 3.2. CONCLUSIONI 39 vagamente collegati tra loro e il secondo è che si tende a racchiudere questi aspetti in un’unica parola, mentre il termine “coscienza” non dovrebbe esistere. Bisognerebbe distinguere tra “reattivo”, “riflessivo” e “autoriflessivo”, e parlare di cancellazione dei contenuti della memoria a breve termine nel momento in cui si inseriscono nuovi dati. Secondo Minsky non si comprende dunque la coscienza perchè essa è solo una parola vuota; il problema non consiste nel domandarsi allora cosa sia la coscienza ma qual’è il meccanismo per il quale il cervello costruisce una rappresentazione di se stesso, in che modo il processo successivo confronta le diverse rappresentazioni e identifica le differenze. In sintesi, non è dunque ancora possibile sapere se in futuro riusciremo ad ottenere forme di intelligenza non umane, che possano essere paragonate agli uomini in quanto a proprietà, caratteristiche, comportamenti e pensiero. La ricerca è tuttavia costante e un ruolo di non poca importanza è svolto comunque dalla neurofisiologia; le scoperte nel campo alimentano sempre nuovi modelli e teorie, come quelli delle reti neurali, e rafforzano l’interconnessione tra scienze cognitive e ricerca neurologica. Nonostante la scarsità di risposte sicure in questo ambito, per completezza il prossimo capitolo è dedicato dunque a una esposizione che, senza presunzione di esaustività, delineerà i caratteri principali dei modelli connessionisti e di reti neurali. 40CAPITOLO 3. LA COSCIENZA E IL RAPPORTO TRA MENTE E CORPO Capitolo 4 Le reti neurali artificiali Nel seguente capitolo verranno introdotti in linee generali alcuni modelli artificiali adoperati nel campo delle cosiddette reti neurali artificiali nell’effettuare studi ed esperimenti sulla facoltà del cervello umano di apprendimento e di interazione col mondo esterno. L’argomento possiede principalmente un risvolto applicativo e di carattere ingegneristico in quanto tali modelli vengono spesso utilizzati in svariati ambiti pratici e sono in grado di offrire comportamenti intelligenti e comodi. Al giorno d’oggi, i progressi nel campo della ricerca biologica lasciano intravedere una prima comprensione del meccanismo del pensiero umano. Questa ricerca dimostra che il cervello immagazzina informazioni sotto forma di schemi, spesso modelli piuttosto complicati. Questo processo di immagazzinare in schemi e di utilizzare questi ultimi per risolvere problemi, è oggetto di studio di un nuovo campo in matematica e informatica. L’esatto funzionamento del cervello è ancora un mistero, sebbene alcuni aspetti di esso sono ormai noti. In particolare, l’elemento più semplice che lo costituisce è uno specifico tipo di cellula che, a differenza del resto del corpo, non sembra rigenerarsi. Poiché questo tipo di cellula è l’unica parte del nostro corpo che non viene lentamente sostituita, si presume che sia ciò che offre la capacità di ricordare, pensare e applicare precedenti esperienze a ogni nostra azione. Queste cellule, che raggiungono i cento miliardi di unità, sono note come neuroni. Ognuno di questi è in grado di connettersi con altri duecentomila neuroni, sebbene il numero di connessioni si aggiri tipicamente tra mille e diecimila. Grazie ad essi, il nostro cervello ha un grande potenziale: il suo potere, oltre che nella programmazione genetica e nell’apprendimento, risiede proprio nell’alto numero di queste cellule e nelle multiple interconnessioni che le mettono in collegamento. Sulla base di queste informazioni è possibile quindi ipotizzare l’esistenza 41 42 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI di una rete neurale artificiale che potrebbe essere definita come un modello di elaborazione parallela dell’informazione, basato sulla teoria del connessionismo ed ispirato al sistema nervoso naturale. Una rete neurale artificiale cioè rappresenta un modello matematico astratto relativamente semplice basato sulla struttura neurale del cervello. Quest’ultimo, nella pratica, impara dall’esperienza. E assurge a tale compito anche molto bene: anche semplici animali sono capaci di funzioni attualmente impossibili per i computer, che dimostrano di avere evidenti problemi nel riconoscere anche schemi semplici e ancora di più nel generalizzare tali schemi o eventi del passato in azioni future. Nonostante ciò le reti neurali artificiali costituiscono un campo attivo e in crescita della ricerca scientifica. Da un punto di vista matematico una ANN (Artificial Neural Network ) può essere pensata come un approssimatore di funzioni, ovvero uno strumento atto a ricostruire una funzione tramite la composizione di unità elementari, ciascuna delle quali in grado di eseguire poche e semplici computazioni. Data la complessità della struttura di una qualsiasi rete neurale, le operazioni e il procedimento effettuati all’interno della stessa risultano essere non deterministici; essa cioè fornisce risultati di cui, nella pratica, non è possibile dare spiegazione. Di seguito viene dedicato un breve spazio per una breve introduzione al modello più generale di rete neurale artificiale e vengono esposti alcuni aspetti principali dell’argomento che delineano le basi su cui poggia la matematica nel tentativo di riprodurre i processi che avvengono nel cervello umano durante l’apprendimento. 4.1 Struttura del neurone biologico I singoli neuroni sono complicati, possiedono una miriade di parti, sottosistemi e meccanismi di controllo. Trasmettono informazioni tramite un canale di percorsi elettrochimici. Ci sono oltre un centinaio di differenti classi di neuroni a seconda del metodo di classificazione utilizzato. Essi, con le loro interconnessioni, formano un processo che non è binario, stabile o sincrono. In breve, non è nulla di simile ai computer attualmente disponibili, o anche alle stesse reti neurali artificiali. Queste ultime infatti, sebbene cerchino di replicare solo gli elementi più semplici di questo organismo, lo fanno in modo primitivo. Tuttavia per l’ingegnere che cerca di risolvere problemi, il calcolo neurale costituisce un nuovo approccio computazionale, non un tentativo di ricreare artificialmente il cervello umano. Ad ogni modo, ogni neurone presenta alcune caratteristiche generali. Fondamentalmente, un neurone biologico riceve gli input, o informazioni, pro- 4.2. IL NEURONE ARTIFICIALE 43 Figura 4.1: Struttura di un neurone naturale venienti da altre fonti, li combina tramite un qualche processo, esegue un’operazione generalmente non lineare sul risultato ottenuto e invia il prodotto finale. Negli esseri umani ci sono molte varianti di questo tipo base di neurone, eppure tutti hanno gli stessi quattro componenti di base. Questi sono noti con i loro nomi biologici: dendriti, soma, assoni e sinapsi. I dendriti sono estensioni filamentose del soma che fungono da canali di ingresso e ricevono dati e informazioni esterni attraverso le sinapsi di altri neuroni. Il soma processa poi questi segnali in arrivo nel tempo; il risultato viene trasformato in un output e inviato ad altri neuroni attraverso l’assone e le sinapsi. Recenti dati sperimentali hanno fornito un’ulteriore prova che i neuroni biologici sono strutturalmente più complessi rispetto alla spiegazione semplicistica riportata; per semplicità l’argomento non verrà tuttavia approfondito in questa sede. 4.2 Il neurone artificiale Attualmente, sebbene tentativi in tal senso siano concreti, l’obiettivo della ricerca nel campo delle reti neurali artificiali non è in genere il grandioso progetto di replicazione del cervello umano. Piuttosto, i ricercatori tentano di comprendere le capacità naturali per cui le persone sono in grado di elaborare soluzioni tecniche a problemi che non sono stati risolti con sistemi tradizionali. Per fare questo, le unità di base delle reti neurali, i neuroni artificiali, simulano le quattro funzioni fondamentali delle controparti naturali. In figura vari input connessi al neurone sono rappresentati tramite il simbolo matematico N (n). Ognuno di questi è moltiplicato per un peso di con- 44 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI Figura 4.2: Struttura di un neurone artificiale nessione. Questi pesi sono rappresentati con W (n). Nel caso più semplice, questi prodotti sono semplicemente sommati, calcolati per una funzione di trasferimento o attivazione ottenendo un risultato, quindi un output. Questa implementazione è sempre possibile anche con altre strutture di rete che utilizzano differenti funzioni di somma e di trasferimento. 4.3 Struttura di una rete All’interno di una rete neurale, i singoli neuroni possono essere interconnessi in una miriade di modi e configurazioni diverse. Biologicamente, essi sono i componenti microscopici che formano un sistema tridimensionale dinamico, interattivo e auto-costituente. Per quanto riguarda invece le reti artificiali e i circuiti integrati, essi sono strumenti bidimensionali con un limitato numero di strati e di connessioni, a causa soprattutto del tipo di tecnologia disponibile al giorno d’oggi. Correntemente, le reti neurali artificiali non sono altro che sistemi formati da uno o più strati di neuroni artificiali, che sono connessi l’uno con l’altro. In generale, tutte le reti neurali artificiali hanno una struttura simile a quella riportata in figura: alcuni neuroni sono interfacciati con il mondo reale, o comunque con l’esterno, in modo da ricevere dei dati come input; altri neuroni comunicano dei dati all’esterno; il resto dei neuroni appartiene al resto degli strati intermedi nascosti. Una rete neurale è in ogni caso ben più di un semplice ammasso di neuroni. Alcuni ricercatori, che avevano inizialmente provato a connettere dei neuroni casualmente, non ebbero infatti molto successo. Ora è risaputo che anche i cervelli delle lumache sono dispositivi organizzati secondo una struttura. E 4.3. STRUTTURA DI UNA RETE 45 Figura 4.3: Esempio di rete neurale multistrato uno dei modi più semplici per formare una struttura è quello di creare strati di elementi. Sono l’organizzazione dei neuroni in strati, le connessioni tra questi strati e le funzioni di somma e trasferimento che caratterizzano una rete neurale funzionante. Queste proprietà generali sono infatti comuni a tutti i tipi di rete. Sebbene vi siano reti utili formate da un solo strato, o anche un solo elemento, la maggior parte delle applicazioni richiede reti che contengono almeno i tre strati usuali - di ingresso, nascosto e di uscita (input, hidden e output layer). Infatti, semplici tipi monostrato di rete come quello del percettrone, formato da un unico neurone dotato di n ingressi e una uscita, presentano serie limitazioni. Ad esempio, il percettrone, o perceptron, può essere considerato come il più semplice modello di rete neurale feed-forward, ed è nella sostanza un algoritmo di classificazione che associa ad un input x, di valore reale, un output f (x) di valore binario. Matematicamente: f (x) = 1 0 se wx + b > 0 altrimenti dove w è un vettore di pesi di valore reale, wx è il prodotto scalare e b è il bias, una costante aggiuntiva che non dipende da nessuno dei valori di input. 46 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI Figura 4.4: Il modello del Percettrone L’algoritmo del percettrone però permette di affrontare unicamente funzioni linearmente separabili; per esempio la funzione logica XOR non può essere implementata da un percettrone. Dunque, nonostante l’iniziale entusiasmo suscitato dalla proposta di tale modello da parte di Frank Rosenblatt nel 1958, dopo che Marvin Minsky e Seymour Papert ne dimostrarono i limiti l’interesse scemò rapidamente. Di fatto, una rete costituita a più strati di percettroni sarebbe stata in grado di risolvere problemi più complessi, ma la complessità computazionale richiesta dall’addestramento mantenne questa strada impraticabile almeno fino al decennio successivo. In molte reti multistrato, ogni neurone appartenente ad uno strato nascosto riceve segnali da tutti i neuroni dello strato precedente, solitamente uno strato di input. Dopo che un neurone ha eseguito la sua funzione trasmette l’output prodotto a tutti i neuroni dello strato successivo, ad esempio uno strato di output. Con l’aggiunta di uno o più strati intermedi all’interno della rete, è possibile gestire funzioni più complesse e suddividere lo spazio del problema in superfici chiuse piuttosto che aperte come nel caso del percettrone. In conclusione, il tipo di rete del percettrone nella pratica risulta ormai poco utilizzato, in favore da modelli costituiti da più strati. Le reti neurali possono poi essere suddivise in due tipologie principali, a seconda del tipo di connessioni stabilite tra i vari neuroni: esistono reti feedforward e reti ricorrenti (recurrent). Nelle prime, il flusso dei dati presenta un’unico verso, dalle unità di input a quelle di output e può estendersi per più strati di neuroni; non sono presenti però connessioni feedback di ritorno con verso opposto a quello del flusso. Una rete ricorrente può invece contenere ogni tipo di connessione, anche feedback. Tipici esempi di reti feed-forward sono il Perceptron e l’Adaline, mentre esempi di reti ricorrenti sono state presentate da Anderson (Anderson, 1977), Kohonen (Kohonen, 1977) e Hopfield (Hopfield, 1982). 4.4. PRINCIPALI COMPONENTI DI UN NEURONE ARTIFICIALE 47 In questo testo la trattazione verrà limitata a reti feed-forward. 4.4 Principali componenti di un neurone artificiale Le reti neurali artificiali, come si è già detto, sono ispirate e basate sulle controparti biologiche. Odierne ricerche nel campo della fisiologia del cervello hanno portato solo ad una limitata conoscenza riguardo al funzionamento dei neuroni e della stessa intelligenza; scienziati e ricercatori stanno lavorando in entrambi i campi biologico e ingegneristico allo scopo di decifrare ulteriormente i meccanismi chiave per i quali l’uomo è in grado di imparare e produrre delle reazioni alle esperienze di ogni giorno. Vengono dunque creati modelli e strutture di reti sempre migliori e più specifiche, differenti tra loro. In ogni caso, tutte le reti seguono la stessa struttura generale e in ogni neurone artificiale, sia esso di input, output o appartenente ad uno strato nascosto, vi sono dei componenti che caratterizzano il suo funzionamento e ne costituiscono solitamente la base operativa. Questi sono: i pesi sinaptici o di connessione, la funzione di somma, la funzione di trasferimento, la funzione di attivazione, la funzione di output, la funzione di errore e la funzione di apprendimento. 4.4.1 Pesi sinaptici Un neurone riceve generalmente molti input simultaneamente; ognuno di questi ha un relativo peso sinaptico (synaptic weight) che gli conferisce il giusto impatto, la giusta importanza, sulla funzione di somma. Questi pesi svolgono lo stesso tipo di lavoro operato dalle sinapsi dei neuroni biologici e dalla forza variabile delle connessioni. In entrambi i casi, a certi input viene attribuita maggiore importanza rispetto ad altri cosicché essi abbiano un impatto maggiore nel momento in cui vengono appunto confrontati i valori attraverso la funzione somma e combinati per produrre un risultato finale. I pesi sono dunque coefficienti modificabili che all’interno della rete determinano l’intensità di un segnale attraverso una specifica connessione. 4.4.2 Funzioni di somma e di attivazione La prima operazione che viene svolta da un’unità neuronale in seguito alla ricezione dei segnali in input è l’esecuzione di una somma pesata di questi valori, tenendo conto del peso di connessione relativo a ciascuno di essi. 48 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI Una funzione (summation function) quindi somma tutti gli input, moltiplicati ciascuno per il proprio peso sinaptico, restituendo al neurone un singolo determinato valore finale. Gli input e i pesi sinaptici corrispondenti, per un determinato neurone k, possono essere pensati come vettori, rappresentati come (y1 , y2 ... yn ) e (w1,k , w2,k ... wn,k ). La somma viene spesso calcolata semplicemente moltiplicando ogni elemento del vettore y per il corrispondente elemento del vettore w e sommando tra loro tutti i prodotti risultanti. Il risultato è un numero, non un vettore. L’input totale per un unità k può essere dunque definita semplicemente come la somma pesata degli output yj di ciascun unità connessa j: sk (t) = X wj,k (t)yj (t) j Il valore di sk (t), indicato con P , viene detto valore di propagazione (propagation value) o anche post-synaptic potential. Il contributo per pesi di connessione wj,k positivi o di alto valore viene considerato come una eccitazione del neurone, mentre pesi di connessione negativi o di basso valore rappresentano una inibizione. In realtà, oltre a questo caso semplice di somma pesata, la funzione somma potrebbe eseguire operazioni più complesse che possono produrre risultati differenti: la media, il valore minimo, il valore massimo, o funzioni quali OR o AND. La scelta di una determinata funzione di somma rispetto ad altre dipende dall’architettura e dalla funzione della rete neurale in questione. Alcuni tipi di rete dispongono inoltre di ulteriori funzioni che vengono applicate al risultato prima che questo venga passato alla funzione di trasferimento. Chiamate funzioni di attivazione (activation function), il loro scopo è quello di permettere all’output della funzione di somma di variare in relazione al tempo. La funzione di attivazione potrebbe anche confrontare il valore in entrata con una certa soglia fissata denominata threshold e indicata spesso con il simbolo θ, allo scopo di rendere la rete più resistente e meno vulnerabile a piccole variazioni di valori di input. yk (t) = f (P − θ) Poiché tuttavia questo componente è principalmente oggetto di ricerca e di studio, molte implementazioni di reti neurali utilizzano la funzione di identità, che equivale a non applicare una funzione di attivazione. La funzione di attivazione potrebbe ad ogni modo costituire un componente dell’intera rete piuttosto che di ciascun neurone. 4.4. PRINCIPALI COMPONENTI DI UN NEURONE ARTIFICIALE 49 4.4.3 Funzioni di trasferimento e di limitazione Il risultato della funzione di somma, molto spesso la somma pesata, è passato in seguito ad una funzione di trasferimento (transfer function). Quest’ultima trasforma l’input in un output reale per mezzo di un certo algoritmo, che generalmente produce un valore uguale a 0 o ad 1, a -1 o a 1, oppure compreso in certo intervallo. Nella funzione di trasferimento, come nel caso della funzione di attivazione, l’output può essere comparato rispetto a una determinata soglia limite o threshold ; se il valore ottenuto è maggiore del threshold, il neurone genera un segnale, altrimenti no. In entrambi i casi, il comportamento del neurone è significativo e incide sul risultato finale e sull’apprendimento dell’intera rete neurale. L’output prodotto dalla funzione di trasferimento è solitamente lo stesso poi del neurone, che diventa successivamente input di altri neuroni o output esterno della rete neurale. Figura 4.5: Funzioni di trasferimento più comuni In Figura 2.5 sono rappresentate alcune delle funzioni di trasferimento più comuni: lineare continua, a scalino (a) o a rampa (b), sigmoide o logistica (c), tangente iperbolica (d). La funzione di trasferimento è di solito non lineare. L’impiego di funzioni lineari comporta infatti delle limitazioni perché l’output è semplicemente proporzionale all’input; le funzioni lineari non sono di grande utilità. Nel caso della curva sigmoidale, la funzione tende ad un valore massimo ed un valore minimo agli asintoti. Solitamente questa curva viene chiamata sigmoide quando le immagini delle funzione, o output, 50 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI sono comprese tra 0 e 1, e tangente iperbolica per valori compresi tra -1 e 1. L’interessante proprietà di queste curve è che sia la funzione che la sua derivata sono continue. Grazie anche a questa caratteristica, la sigmoide risulta adatta in molti casi e facilmente implementabile, risultando spesso la funzione di trasferimento preferita. L’output del neurone in tale caso risulterebbe essere: yk (t) = F(sk (t)) = 1 1 + e−sk (t) Oltre alla funzione di trasferimento, l’output potrebbe essere soggetto a ulteriori processi che ne modificano o limitano il valore. Il processo di scaling lo moltiplica semplicemente per un fattore di volte, e aggiunge poi un offset. Il limiting è invece il meccanismo che garantisce che l’output non superi certi limiti; questo processo è adoperabile in aggiunta all’opera di limitazione già operata dalla funzione di trasferimento. 4.4.4 Rumore e temperatura del neurone In alcuni casi, prima di applicare la funzione di trasferimento all’input totale di un neurone, può venire aggiunto del rumore casuale, la cui fonte e la cui quantità è determinata dal metodo di apprendimento della specifica struttura di rete. Tale rumore è solitamente chiamato temperatura a causa del fenomeno fisico per il quale le persone, nel momento in cui diventano troppo calde o fredde, vedono diminuita la loro capacità di pensare. Aggiungendo livelli differenti di rumore al risultato della funzione somma, è possibile allora realizzare funzioni di trasferimento che imitino maggiormente il comportamento e le caratteristiche naturali del cervello. L’output di una unità può quindi essere fornito da una funzione stocastica dell’input totale del neurone. In questo caso l’input non causa deterministicamente l’attivazione del neurone ma determina la probabilità che lo stesso riceva un alto valore di attivazione: p(yk (t) ← 1) = 1 1+ e−sk (t)/T in cui il valore della temperatura T è un parametro che determina il tasso di crescita, ossia la pendenza, della funzione di probabilità. Ad ogni modo l’uso di temperatura è tuttora un’area di ricerca e non viene adoperato in molte applicazioni ingegneristiche. 4.4. PRINCIPALI COMPONENTI DI UN NEURONE ARTIFICIALE 51 4.4.5 Funzione di output: competizione Ogni neurone artificiale produce un solo segnale di output, che tuttavia può trasmettere a un grande numero di altri neuroni, proprio come avviene con i neuroni biologici. Nel caso più semplice, l’output equivale direttamente al risultato della funzione di trasferimento. Alcuni tipi di rete, comunque, modificano tale valore allo scopo di tener conto anche della competizione che può essere valutata tra neuroni vicini. In alcuni tipi di rete cioè, potrebbe essere possibile volere che un neurone inibisca l’influenza degli altri neuroni dello stesso strato. Questa pratica è chiamata anche lateral inhibition. Il suo uso più frequente è nello strato di output. I neuroni competono l’uno contro l’altro, inibendosi a meno che non abbiano una grande influenza. Ad esempio, nel caso del riconoscimento di un testo scritto, se la probabilità che un carattere sia una P è 0.85 e la probabilità che esso sia una F è 0.65, la rete sceglierà la probabilità più alta e inibirà tutte le altre; può fare ciò tramite competizione - lateral inhibition. La competizione può avvenire a uno o a due livelli. Nel primo, essa determina quali neuroni artificiali saranno attivi, o produrranno un output. Nel secondo, la competizione aiuterà a individuare quali neuroni parteciperanno maggiormente nel processo di apprendimento o adattamento della rete. 4.4.6 Funzione di errore In molti tipi di reti, viene calcolata la differenza tra l’output fornito correntemente dalla rete e l’output corretto desiderato. Questo errore (raw error ) viene quindi trasformato dalla funzione di errore (error function) per essere compatibile con il particolare tipo di rete. Nei casi più semplici, questo errore viene usato direttamente, in altri l’errore viene elevato al quadrato tenendo in conto il segno, in altri ancora viene elevato al cubo; è possibile anche che esso venga modificato per adattarlo a scopi specifici. L’errore del neurone artificiale è successivamente propagato nella funzione di apprendimento di un altro neurone. Solitamente, l’errore corrente è propagato all’indietro ad uno strato precedente. Questo valore comunque può essere sempre l’errore corrente, l’errore corrente limitato o trasformato da un certo processo (spesso dalla derivata della funzione di trasferimento), o qualche altro tipo di errore a seconda del caso. Normalmente questo valore, dopo essere stato trasformato dalla funzione di apprendimento, viene utilizzato per modificare le connessioni sinaptiche modificandone il peso in funzione di esso. 52 4.4.7 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI Funzione di apprendimento Lo scopo della funzione di apprendimento (learning function) è quello di modificare il peso di connessione delle sinapsi fra i neuroni, cosicché, col procedere del tempo, i valori in input per ogni neurone siano più corretti possibile in vista di produrre un output finale della rete minimizzando l’errore globale. Questo processo di modifica dei pesi di connessioni di input per ottenere un certo prodotto desiderato può essere chiamato funzione di adattamento, come anche metodo di apprendimento. Esistono principalmente due metodi, o tipologie, di apprendimento: supervisionato (supervised ) e non supervisionato (unsupervised ). L’apprendimento supervisionato richiede un insegnante. L’insegnante può essere un set di dati di addestramento (training set) o un osservatore che classifica il rendimento della rete. In entrambi i casi, la presenza di un insegnante determina un apprendimento per rinforzo o reinforcement learning. Quando invece non vi è un insegnante, il sistema deve auto-organizzarsi grazie ad alcune caratteristiche intrinseche della rete; questo è il metodo di apprendimento non supervisionato. 4.5 Tipologie di apprendimento 4.5.1 Apprendimento supervisionato Nel supervised learning viene fornito un set di esempi costituiti da un certo numero di input e un certo numero di output (x, y), x ∈ X, y ∈ Y e il fine è quello di trovare una funzione f : X → Y nelle classe di funzioni ammesse che corrisponda al set di esempi. In altre parole, lo scopo è quello di inferire la mappatura, cioè la funzione, implicata da tali specifici dati. A tal fine, gli input di un esempio vengono propagati attraverso la rete e successivamente viene confrontato l’output fornito dalla rete con quello desiderato, indicato dall’esempio. In tal modo si trova l’errore globale di computazione effettuato dalla rete, valore che verrà adoperato per modificare i pesi delle connessioni tra neuroni, pesi che di solito vengono inizialmente impostati con valori casuali. Nel ciclo successivo l’errore risulterà allora minore. La funzione di errore si riferisce in questo caso all’errore tra l’approssimazione della funzione prodotta dalla rete e la corretta mappatura della funzione, ovvero quella dettata dal set input-output. Ogni esempio del learning set viene propagato dunque attraverso la rete affinché essa si modifichi allo scopo di approssimare la funzione richiesta. L’intero set di esempi viene inoltre passato più volte; ogni ciclo viene denominato epoca di apprendi- 4.5. TIPOLOGIE DI APPRENDIMENTO 53 mento. L’errore medio della rete dovrebbe man mano diminuire e l’output dovrebbe corrispondere sempre più a quello desiderato. La rete neurale, utilizzando un metodo di apprendimento supervisionato, necessita insomma di un periodo di apprendimento prima di divenire utile. In tale periodo vengono appunto presentati determinati input e output, ovvero set di input e di output, tramite i quali la rete assume la struttura più adatta al fine richiesto. La fase di apprendimento può essere in sé anche piuttosto lunga, giungendo a richiedere anche settimane. Questo periodo può considerarsi completato una volta che la rete ha acquisito una sufficiente accuratezza nella risposta finale. Una volta terminato l’apprendimento i valori dei pesi vengono solitamente fissati; in altri casi viene lasciata la possibilità che essi vengano modificati leggermente, in modo che la rete possa adattarsi a condizioni soggette a cambiamento. Un ultimo importante controllo viene effettuato una volta che una rete restituisce buone risposte per il learning set fornito; si tratta di verificare come la rete si comporti con dati mai visti in precedenza. Se gli output forniti dal sistema per il set di prova non risultano accettabili, la fase di apprendimento non può considerarsi ultimata; questo è infatti un passaggio critico in quanto ci si accerta che la rete non abbia semplicemente memorizzato un certo numero di esempi ma non abbia assimilato lo schema più generale desiderato. Problemi legati ai dati L’utilizzo del supervised learning comporta tuttavia alcuni problemi, spesso di non poca rilevanza. Prima di tutto, per eseguire l’apprendimento occorrono dei dati, che però possono essere costosi da ottenere. Inoltre, una volta raccolti, potrebbero risultare poco rappresentativi in quanto concentrati in un’area particolare del dominio della funzione da approssimare e potrebbero dunque non fornire indicazioni sufficientemente generali; o ancora, potrebbero esser affetti da errore. I dati dovrebbero essere in buona quantità per ottenere risultati soddisfacenti. Essi dovrebbe essere inoltre presentati in modo vario: se infatti la rete viene addestrata con un unico esempio più volte, tutti i pesi, adattati specialmente per tale esempio, potrebbero essere drasticamente alterati nell’assimilare l’esempio successivo; l’esempio precedente potrebbe quindi essere dimenticato nell’impararne uno nuovo. La rete dunque deve apprendere più esempi differenti contemporaneamente e trovare la configurazione migliore dei pesi per l’intero set di esempi, non specializzandosi su alcuni in particolare. 54 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI Un’ulteriore problema da tenere presente risiede nel fatto che troppe epoche, ossia troppe propagazioni dello stesso learning set, possono generare over-fitting, ovvero una eccessiva specializzazione della rete sulle istanze contenute in quello specifico set. Anche in questo caso il risultato sarebbe una cattiva approssimazione della funzione ricercata. Come i dati di input e di output vengono rappresentati costituisce poi un’altra variabile da tenere in considerazione per il fruttuoso addestramento di una rete neurale. Questa infatti è in grado di operare unicamente con valori numerici; è doveroso dunque assicurarsi che i dati forniti, soprattutto se provenienti da un ambiente esterno come il mondo reale, vengano opportunamente convertiti in valori che la rete possa interpretare correttamente. Ad esempio, per segnali forniti da telecamere e sensori occorre trovare un tipo di rappresentazione efficace che possa essere correttamente letto e utilizzato per l’apprendimento della rete neurale. 4.5.2 Apprendimento non supervisionato L’unsupervised learning è principalmente l’oggetto di studio nella ricerca accademica e rappresenta una promessa per lo sviluppo delle reti neurali. Grazie infatti a tale metodo è possibile pensare che un giorno i computer possiederanno la capacità di apprendere da soli. Attualmente, l’apprendimento non supervisionato è limitato a reti neurali conosciute con il nome di self-organizing maps (SOM) e non gode di un largo utilizzo applicativo; i risultati ottenuti nel campo della ricerca provano comunque l’efficacia di tali reti in alcuni ambiti, come quello militare, dove spesso non si hanno a disposizione set di esempi sui quali addestrare una rete neurale. Le reti neurali aderenti a questo paradigma non necessitano di influenze e guide esterne per aggiustare i pesi interni e migliorare la propria risposta. Esse ricercano regolarità, schemi o tendenze nei segnali di input e apportano delle modifiche relativamente alla funzione della rete. Nonostante non vi siano indicazioni da parte di un insegnante esterno riguardo l’errore commesso dalla rete, essa possiede ugualmente informazioni che le permettono di autoorganizzarsi; queste sono costituite dalla tipologia stessa di rete e dalle regole di apprendimento. In questo modo le reti neurali addestrate tramite unsupervised learning si organizzano facendo esclusivamente riferimento ad un insieme di dati che include le sole variabili d’ingresso. Tali dati sono raggruppati dal sistema e vengono individuati degli opportuni cluster rappresentativi dei dati stessi, facendo uso tipicamente di metodi probabilistici. 4.5. TIPOLOGIE DI APPRENDIMENTO 4.5.3 55 Apprendimento per rinforzo Nel reinforcement learning un opportuno algoritmo si prefigge lo scopo di individuare un certo modus operandi, a partire da un processo di osservazione dell’ambiente esterno; ogni azione ha un impatto sull’ambiente, il quale produce una retroazione che guida l’algoritmo stesso nel processo d’apprendimento. I particolari algoritmi adoperati per il reinforcement learning presuppongono cioè un agente, dotato di una qualche capacità di percezione, che interagisca con un ambiente esterno e che compia azioni, memorizzando le conseguenze provocate. Per alcune azioni il sistema riceverà degli incentivi, per altre invece dei disincentivi. L’apprendimento per rinforzo è focalizzato su situazioni di apprendimento in tempo reale, in cui occorre stabilire un equilibrio tra esplorazione di situazioni ed eventi ignoti e sfruttamento della conoscenza corrente, precedentemente acquisita. 4.5.4 Velocità di apprendimento La velocità con cui una rete neurale artificiale completa il periodo di addestramento dipende da diversi fattori controllabili. Ovviamente con una velocità minore il periodo di apprendimento risulterà più lungo; con una velocità maggiore però la rete può non essere in grado di fornire la precisione ottenuta da un sistema addestrato più lentamente. Un apprendimento più lento infatti consente di arrivare a risultati più accurati. In generale, riguardo al processo di addestramento, oltre al tempo devono essere considerati altri importanti fattori come la complessità del sistema neurale, la grandezza, l’applicazione richiesta e la scelta di un determinato paradigma, la precisione desiderata, il tipo di apprendimento e le regole da seguire. Tutti questi fattori svolgono un ruolo significativo nel determinare il tempo necessario per effettuare l’addestramento della rete. Il cambiamento di ciascuno di essi può comportare una notevole estensione di tale periodo o anche una scarsa precisione. Allo scopo di controllare la velocità e l’accuratezza ottenute dal periodo di addestramento, molte funzioni di apprendimento tengono conto di un valore, chiamato tasso di apprendimento o learning rate, rappresentato matematicamente come una costante numerica arbitraria solitamente indicata con il simbolo η, che influisce sulla rapidità con cui la rete si organizza; esistono però vantaggi e svantaggi relativamente al valore di tale costante. Se questo infatti è numero piccolo, le modifiche apportate ai pesi di connessione saranno lievi e il periodo di apprendimento della rete risulterà più lungo; con valori di η più alti il processo di apprendimento si svolgerà più rapidamente. Occorre 56 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI tenere presente però che una velocità minore comporta comunque risultati più precisi, mentre un apprendimento rapido può non essere in grado di raggiungere un grado di accuratezza accettabile. Dal punto di vista matematico, il valore di η è solitamente impostato tra 0 e 1 (0 < η ≤ 1). Se il learning rate fosse maggiore di 1, l’algoritmo di apprendimento potrebbe facilmente eccedere nel modificare i pesi di connessione, causando di conseguenza un’oscillazione della rete. Per piccoli valori invece, l’errore totale corrente del sistema non verrà corretto con la stessa velocità ma vi è una buona probabilità di arrivare alla migliore convergenza verso il minimo della funzione di errore. Lavoro di ricerca è appunto quello di trovare un compromesso tra le due facce della medaglia e arrivare a valori di η ottimali. 4.5.5 Regole principali per l’apprendimento Matematicamente, l’apprendimento della rete neurale consiste nella ricerca di un minimo, precisamente del minimo assoluto, della funzione di errore in uno spazio n-dimensionale. Il fine è quello di minimizzare l’errore effettuato dalla rete neurale nel tentativo di ricercare e approssimare la funzione desiderata. Per eseguire tale operazione e consentire l’apprendimento, esistono numerose regole e algoritmi, molte delle quali sono evoluzioni della regola più conosciuta e più vecchia, la regola di Hebb. Ad ogni modo, la conoscenza umana riguardo il funzionamento delle reti neurali biologiche, certamente più complesso dei paradigmi proposti, è attualmente molto limitata. Alcuni delle regole sviluppate e più conosciute sono riportate di seguito: Una funzione di errore utilizzata comunemente è l’errore quadratico medio o mean-squared error. Quando si cerca di minimizzare l’errore tramite tale funzione adoperando la tecnica della discesa del gradiente (gradient descent algorithm) per la classe di reti multistrato chiamata multilayer perceptrons, si ottiene l’algoritmo backpropagation. Hebb’s Rule Il primo sforzo effettuato nel tentativo di introdurre un paradigma di apprendimento è dovuto a Donald Hebb, psicologo e studioso canadese, e ha portato alla definizione dell’omonima regola col suo libro The Organization of Behaviour nel 1949. L’algoritmo di apprendimento Hebbiano si basa sul semplice principio che se un neurone riceve un input da un altro neurone e se entrambi registrano un alto valore di attivazione, la loro interconnessione deve essere rafforzata: If a neuron receives an input from another neuron, and if both are higly active, the weigth between the neurons should be strengthened . 4.5. TIPOLOGIE DI APPRENDIMENTO 57 Hopfield’s Law Risulta simile alla regola di Hebb con l’eccezione che viene specificata l’intensità del rafforzamento o dell’inibizione: If the desired output and the input are both active or both inactive, increment the connection weigth by the learning rate, otherwise decrement the weight by the learning rate. Delta Rule Questo metodo costituisce un’ulteriore variazione della regola Hebbiana ed è una fra le più utilizzate. L’idea seguita è quella di modificare continuamente le intensità delle connessioni di input di un neurone al fine di ridurre la differenza, il delta, tra l’output desiderato e l’output corrente del neurone in questione. La regola si basa cioè sulla constatazione che se l’errore della rete, cioè l’errore delta dello strato di neuroni output, cambia al modificarsi dei pesi allora può essere inteso come una funzione degli stessi pesi. Tale funzione, quale può essere l’errore quadratico medio o mean-squared error, assumerà un valore minimo per determinati punti, corrispondenti a configurazioni di pesi, che possono essere cercati con i metodi di ricerca del minimo di una funzione, basandosi sullo studio della sua derivata; viene quindi utilizzata, solitamente, la derivata della funzione di trasferimento dei neuroni. Ad ogni iterazione, i pesi di connessione dei neuroni input degli strati precedenti vengono dunque modificati di una percentuale η (learning rate), dove piccoli valori di η comportano un apprendimento più lento ma spesso più accurato. In altre parole, questo errore viene propagato all’indietro uno strato per volta, finché non viene raggiunto il primo strato di input. Tuttavia, il fatto di correggere i pesi e di muoversi nella direzione indicata dalla derivata, non significa necessariamente che verrà raggiunto il minimo della funzione di errore: se l’incremento, la correzione del valore dei pesi, è un valore troppo alto, esiste il rischio di saltare il minimo; vi è la possibilità cioè di incappare in minimi locali anziché trovare i valori per cui la funzione di errore ammette il minimo globale. Gradient Descent Rule La regola della discesa del gradiente è simile alla regola del Delta in quanto viene sempre utilizzata la derivata della funzione di trasferimento per modificare l’errore prima che sia applicato ai pesi di connessione. In questo caso però una costante proporzionale additiva relativa al learning rate è aggiunta al fattore finale di modifica dei pesi. 58 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI Quando si cerca di minimizzare l’errore per la classe di reti multistrato chiamata multilayer perceptrons adoperando questo metodo, si ottiene l’algoritmo backpropagation. Kohonen’s Law Questa procedura, sviluppata da Teuvo Kohonen, è ispirata al processo di apprendimento nei sistemi biologici: un neurone deve competere per l’opportunità di imparare o aggiornare il proprio peso. Il neurone con l’output maggiore viene considerato vincitore e ha la possibilità di inibire gli altri neuroni come anche di eccitare quelli vicini. Solo il vincitore può restituire un output, e solo il neurone vincitore e i suoi vicini possono aggiustare i proprio pesi di connessione. In aggiunta, la quantità di neuroni vicini può variare durante il periodo di addestramento. Il procedimento comune è quello di definire inizialmente un alto numero di neuroni vicini, e di abbassarlo mano a mano che si procede con l’addestramento. Questa procedura di apprendimento costituisce in genere tipologie di reti neurali auto-organizzanti, come le self-organizing maps. 4.6 4.6.1 Considerazioni sulle reti neurali Successi e insuccessi In fatto di intelligenza artificiale, apprendimento e simulazione del comportamento umano, le reti neurali hanno goduto di un crescente successo in un buon numero di campi, ed in modo significativo. Questo perché esse sono, in base alla progettazione, analizzatori di modelli - possono individuare le tendenze e le caratteristiche importanti, anche tramite informazioni relativamente complesse. Inoltre possono lavorare con informazioni anche non perfette, ad esempio immagini sfocate, che rappresentavano in precedenza difficoltà insormontabili. Le reti neurali sono cosı̀ in grado di leggere testi scritti a mano, individuare i potenziali siti per l’estrazione di petrolio, prevedere il mercato azionario, anche imparare a guidare. È interessante notare come le reti neurali sembrino essere adatte per le stesse cose cui lo siamo noi. La loro forza risiede nel complesso lavoro svolto in parallelo dalle singole unità elementari, una elaborazione tollerante agli errori e capace di apprendimento; le loro debolezze si notano invece in fatto di ragionamento formale e di seguire una regola o una logica ferrea. Sebbene negli esseri umani si riscontrino entrambe le forme di funzionamento intellettivo, si pensa in genere che essi posseggano eccezionali capacità di pattern 4.6. CONSIDERAZIONI SULLE RETI NEURALI 59 recognition, ossia di riconoscimento di schemi e modelli. Al contrario, la nostra limitata capacità di elaborazione delle informazioni spesso ci rende non poi cosı̀ perfetti di fronte a compiti che richiedono logica e ragionamenti astratti. I critici affermano che l’incapacità di una rete neurale di imparare qualcosa come la logica, che ha regole precise e prefissate, dimostra come essa non possa rappresentare una spiegazione di come funziona la mente. I sostenitori hanno replicato che gran parte del problema risiede nel fatto che l’abilità di seguire una regola astratta richiede molti più nodi, ovvero neuroni, rispetto a quelli implementati nelle attuali reti neurali artificiali. Al giorno d’oggi alcuni tentativi vengono effettuati allo scopo di ottenere reti di dimensioni maggiori ma il carico computazionale aumenta drasticamente quando vengono aggiunti sempre più nodi; il tentativo risulta dunque assai arduo. Un altro gruppo di critici ritiene che le reti neurali siano modelli troppo semplicistici per essere considerate rappresentazioni accurate del funzionamento del cervello umano. Sebbene posseggano alcune proprietà simili a quelle dei neuroni biologici (forza di connessione, inibizione / eccitazione, ecc), emergono molti altri fattori che potrebbero essere significativi per il funzionamento del cervello. Il sistema nervoso utilizza ad esempio molti neurotrasmettitori diversi, e le reti neurali artificiali non tengono conto di queste differenze. Neuroni diversi hanno diverse velocità di conduzione, diversa energia, anche diverse posizioni nello spazio, che potrebbero risultare significative. Inoltre, il cervello non è inizialmente formato da un confuso, randomizzato, reticolato di connessioni con forza casuale; è presente una grande organizzazione anche durante lo sviluppo fetale. Uno qualsiasi o anche tutti questi fattori potrebbero rivelarsi come assolutamente essenziali per il funzionamento del cervello, e senza il loro inserimento all’interno dei modelli di reti neurali artificiali, è possibile che questi ultimi finiscano per risultare mere semplificazioni. Una delle obiezioni fondamentali che sono state avanzate nei confronti delle reti back-propagation è che gli esseri umani sembrano imparare anche in assenza di un esplicito maestro, che corregga i nostri output e modelli le nostre risposte e reazioni. Perché le reti neurali abbiano successo come modello e strumento di conoscenza, è indispensabile che esse producano una simulazione di apprendimento più biologicamente, o psicologicamente, plausibile. In realtà, la ricerca è stata rivolta verso un nuovo tipo di rete neurale nota come Unsupervised neural network, o rete neurale non supervisionata, che sembra apprendere in modo efficace in assenza di un insegnante esterno. In conclusione, quindi, le reti neurali artificiali costituiscono un ottimo strumento applicabile in svariati campi, compreso quello dell’intelligenza artificiale; tuttavia a causa dell’odierno livello tecnologico e conoscitivo non è 60 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI ancora possibile pretendere di riprodurre il cervello umano e con esso una forma artificiale di pensiero che sia in grado di eguagliare la nostra. Le reti neurali artificiali presentano intrinsecamente pregi e difetti che le rendono un argomento di discussione controverso all’interno del dibattito nella comunità scientifica. Da una parte esse si rivelano sicuramente utili, in quanto possono essere impiegate in contesti dove i dati a disposizione sono parzialmente errati o dove non esistono modelli analitici in grado di affrontare il problema; possono quindi trattare con dati soggetti a “rumore”; vengono utilizzate con efficacia nel riconoscimento di immagini e di suoni, come pure nel campo delle previsioni, siano esse finanziarie o meteorologiche. Dall’altra parte i risultati ottenuti mediante le reti neurali artificiali, sebbene efficienti, non sono chiaramente spiegabili ed è possibile ottenere un risultato valido senza essere in grado di comprendere precisamente come esso sia stato generato: a volte infatti si usa dire che le reti neurali si comportano come una “scatola nera” (black box). Oltre a comportamenti imprevedibili poi, come è stato opportunamente già evidenziato, le reti neurali artificiali agiscono efficacemente in ambiti ove è richiesto un ragionamento “in parallelo” riguardo determinate informazioni che risulta essere non deterministico, ma mostrano la loro debolezza in contesti di rigida logica formale. 4.6.2 Campi di utilizzo Finora le reti neurali artificiali hanno riscosso un particolare successo grazie ai risvolti pratici che esse hanno garantito e le applicazioni sono varie. I campi in cui esse vengono sfruttate maggiormente sono ad esempio: • Diagnosi e previsioni mediche • Previsioni meteorologiche e astronomiche • Studio della borsa e previsioni finanziarie • Riconoscimento ottico di caratteri e simboli scritti a mano • Sistemi biometrici e riconoscimento di volti umani o oggetti • Analisi delle onde sonore e riconoscimento vocale • Robotica e controllo di processi industriali • Bio-informatica e ricerca di pattern in proteine e acidi nucleici • Sismologia e previsioni di terremoti 4.7. ESEMPIO DI UTILIZZO 4.7 4.7.1 61 Esempio di utilizzo Matematica: Approssimazione della funzione seno Per dare in definitiva un’idea applicativa delle reti neurali viene ora esposto un semplice esperimento, nel quale una rete neurale è istruita affinché possa predire il grafico della funzione matematica goniometrica sin(x) a partire da pochi valori iniziali disponibili. Verranno mostrati di seguito i dati derivanti da un processo di addestramento, effettuato dall’autore del testo stesso, di una rete feed-forward dotata di tre strati che tenterà di effettuare una approssimazione della funzione. Per conseguire tale scopo, la rete sarà costituita da un neurone di input, un neurone di output e quattro neuroni dello strato nascosto; la rete verrà addestrata fornendo un limitato numero di valori x, ciascuno dei quali associato alla rispettiva immagine sin(x) della funzione seno. Poiché la funzione sin(x), da approssimare, ha codominio [−1; 1], per semplicità viene utilizzata come funzione di trasferimento la tangente iperx −e−x bolica tanh(x) = eex +e −x , che ammette anch’essa codominio [−1; 1] ed è quindi possibile lavorare con valori negativi fino a -1. Come insieme di esempi, vengono forniti alla rete neurale 17 valori distinti, espressi in radianti, e i rispettivi valori assunti dalla funzione seno: x 0 π 6 f (x) 0 1 2 π 4 π 3 √ √ 2 2 3 2 π 2 2 π 3 ... 4 π 3 √ 1 3 2 3 π 2 5 π 3 √ ... − 3 2 7 π 4 √ −1 − 3 2 √ − 2 2 11 π 6 2π − 12 0 La rete viene dunque addestrata ripetendo un processo del genere: al neurone di ingresso della rete viene indicato un valore x tra quelli scelti quale input e il corrispettivo valore sin(x) quale risultato finale da generare partendo da x. La rete cioè viene istruita sul fatto che ogni volta che riceverà il valore x essa dovrà restituire il valore corrispondente calcolato per la funzione seno; essa può quindi utilizzare ora il valore x attribuito al neurone di ingresso per calcolare i valori dei neuroni degli strati successivi tramite le direttive e gli algoritmi forniti dalla stessa propria struttura: i pesi di connessione iniziali tra i neuroni, le funzioni di trasferimento scelte e cosı̀ via. Per un dato input ingresso, cosı̀, la rete arriva ad un determinato output generato dal neurone di uscita, valore questo che deve essere confrontato con quello corretto sin(x), in modo da determinare l’eventuale livello di discrepanza tra il risultato desiderato e quello generato in quel dato momento del processo di apprendimento. 62 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI Figura 4.6: Set di punti P(input, output) per l’apprendimento di sin(x) Questo procedimento viene applicato a tutti i 17 valori scelti inizialmente; inoltre, una volta terminato, viene ripetuta nuovamente l’intera operazione con ciascun valore per molte altre volte (epoche), al fine di insegnare al meglio alla rete come riprodurre l’effetto della funzione seno su tutto il range di valori che si possono presentare nell’intervallo [0; 2π]. Questa fase ha termine quando la rete è riuscita a raggiungere un sufficiente grado di precisione nel predire la corretta immagine sin(x) per un dato valore x, oppure quando il numero di epoche effettuate supera un certo limite imposto in modo che il tempo impiegato durante il processo non sia eccessivo. Una volta ultimato il periodo di apprendimento è possibile verificare come la rete sia in grado effettivamente di restituire per i 17 valori di esempio una buona approssimazione della funzione goniometrica da riprodurre, senza conoscere tuttavia la relazione che li lega. Non solo, essa risulta possedere un comportamento “intelligente” anche nel calcolare il valore della funzione sin(x) anche per input mai incontrati prima. In Figura 4.7 è rappresentato il grafico generato dalla rete calcolando la funzione in ciascun punto dell’intervallo [0; 2π]. Come si può notare, il grafico segue con buona approssimazione l’andamento della funzione seno; la rete neurale artificiale è stata istruita con efficacia ed è ora in grado di svolgere un lavoro utile: in questo contesto si è voluto unicamente presentare un semplice esempio sul funzionamento di un modello, quest’ultimo tuttavia risulta davvero comodo in contesti in cui non è possibile, ad esempio, avere a disposizione tutti i valori che una funzione 4.7. ESEMPIO DI UTILIZZO 63 assume in un determinato intervallo. Il grado di precisione fornito dalla rete neurale è posto maggiormente in evidenza poi nella figura successiva, dove vengono confrontati il grafico corretto della funzione seno e il grafico approssimato. Figura 4.7: Output dell’approssimazione della rete neurale a sin(x) Figura 4.8: Confronto tra l’approssimazione di sin(x) e sin(x) 64 CAPITOLO 4. LE RETI NEURALI ARTIFICIALI Nel grafico presentato di seguito viene mostrato l’aumento di precisione della rete neurale artificiale nel predire il corretto risultato per l’input ricevuto in rapporto al numero di epoche eseguite durante la fase di apprendimento. Figura 4.9: Diminuzione dell’errore quadratico medio della rete L’esempio riportato è sicuramente semplicistico e riduttivo ma al fine del carattere generale scelto per la trattazione di questo argomento si spera che esso sia risultato opportuno e abbia lasciato intravedere il funzionamento dei meccanismi che stanno alla base del modello delle reti neurali artificiali, qui presentato nella sua forma più semplice e intuitiva. Capitolo 5 IA: il contributo di Gödel Allo stato attuale di conoscenza, le relazioni tra cervello e computer risultano piuttosto superficiali: una delle critiche maggiori avanzate è che il cervello è un organo elettrochimico con un gran numero di connessioni, che opera massicciamente con azioni parallele e globali (olistiche), a bassa velocità e basso costo energetico, capace di generare in continuazione nuovi elementi e nuove connessioni; il computer e le macchine in generale sono al contrario sistemi elettronici a connessioni fisse, operanti quasi solo sequenzialmente e localmente, ad alta velocità. Per questo motivo oggi non si pone tanto il problema di identificare cervello e computer come sistemi di struttura simile quanto quello di paragonarli in fatto di comportamenti e prestazioni; si tende quindi a un paragone a livello software e non hardware. L’accento si è dunque spostato sulla parola simulazione, lasciando in secondo piano il tentativo di comprendere se il cervello umano sia o no un computer. La questione è diventata allora simulare il comportamento del cervello umano: è possibile riuscire in questo intento? Riguardo il cervello, le ricerche di Sperry hanno mostrato che le attività dei due emisferi sono complementari e differenziate. L’emisfero sinitro è preposto al pensiero astratto e alle attività di comunicazione, di scrittura e di calcolo; l’emisfero destro è collegato alle attività percettive, di riconoscimento e artistiche. Mentre il primo gruppo di attività costituisce il campo in cui le macchine eccellono, il secondo è quello in cui i successi dell’Intelligenza Artificiale sono più scarsi e difficili. Il problema dunque assume connotati nuovi e si parla allora della possibilità di simulare l’attività dell’emisfero destro mediante l’emisfero sinistro. La questione odierna in ultima analisi non è altro che una rivisitazione in chiave moderna del dibattito degli anni ’20 del secolo scorso tra formalisti e intuizionisti, gli uni capeggiati da Hilbert gli altri da Brouwer. La questione riguardava la possibilità di comprimere il ragionamento matematico all’in65 66 CAPITOLO 5. IA: IL CONTRIBUTO DI GÖDEL terno di sistemi formali costituiti da assiomi e rigide regole di deduzione: è possibile per un sistema formale, partendo dagli assiomi posti a fondamento dello stesso, dedurre e dimostrare tutte le possibili conseguenze che gli assunti iniziali implicano? O esistono tipologie di ragionamenti e proposizioni la cui verità non può essere decisa all’interno del sistema? Gödel si introduce in questo dibattito facendo luce sulla questione e fornendo un apporto sostanziale. Il suo teorema di incompletezza, che spesso viene individuato come due teoremi distinti, rappresentò nel 1931, anno della pubblicazione, un risultato importantissimo e a tratti sorprendente, portando inevitabilmente con se una serie di notevoli conseguenze, critiche e interpretazioni erronee. 5.1 I teoremi di incompletezza Nel 1931 apparve, su un periodico scientifico tedesco, un lavoro relativamente breve titolato Über formal unentscheidbare Sätza der “Principia mathematica” und verwandter Systeme (Sulle proposizioni formalmente indecidibili dei Principia mathematica e di sistemi affini). L’autore era Kurt Gödel, allora giovane matematico venticinquenne dell’Università di Vienna; i Principia mathematica citati sono i tre volumi del trattato di Alfred North Whitehead e Bertrand Russell sulla logica matematica e sui fondamenti della matematica. Nel suo famoso articolo, Gödel sviluppò un Figura 5.1: Kurt Gödel (1906-1978) lavoro difficile, affrontando un problema centrale dei fondamenti della matematica. Se nel 1925 Hilbert cercava di provare la validità dell’affermazione che un sistema formalizzato è coerente, egli sei anni più tardi dimostrò, procedendo esattamente nella direzione opposta, che il sistema descritto nei Principia Mathematica tollera l’introduzione di enunciati veri ma non derivabili in tutti i modelli. Tralasciando la sofisticata dimostrazione che il matematico utilizzò nella sua prova, si possono enunciare i due principali risultati a cui egli arrivò, che fanno parte dei cosiddetti “teoremi limitativi” e precisano alcune proprietà che i sistemi formali non possono avere. Come premessa, è comunque utile ricordare che un sistema assiomatico, cioè basato su principi detti assiomi, è coerente se non è possibile trarre dal sistema due teoremi contradditori, ovvero se non è possibile dedurre due proposizioni che si contraddicano; un sistema assiomatico è invece completo se è possibile dimostrare a partire dagli assiomi la verità o falsità di ogni proposizione all’interno del sistema. 5.1. I TEOREMI DI INCOMPLETEZZA 67 Il Primo Teorema di incompletezza di Gödel afferma che: In ogni teoria matematica T sufficientemente espressiva da contenere l’aritmetica, esiste una formula ϕ tale che, se T è coerente, allora né ϕ né la sua negazione ¬ϕ sono dimostrabili in T. Ovvero, operando qualche semplificazione, possiamo dire che: In ogni formalizzazione coerente della matematica che sia sufficientemente potente da poter assiomatizzare la teoria elementare dei numeri naturali — vale a dire, sufBertrand ficientemente potente da definire la struttura dei Figura 5.2: Russell (1872-1970) numeri naturali dotati delle operazioni di somma e prodotto — è possibile costruire una proposizione sintatticamente corretta che non può essere né dimostrata né confutata all’interno dello stesso sistema. Intuitivamente, la dimostrazione del primo teorema ruota attorno alla possibilità di definire una formula logica ϕ che nega la propria dimostrabilità: si prova quindi che, affinché T sia coerente, né ϕ né ¬ϕ possono essere dimostrabili. È dunque cruciale che T consenta di codificare formule autoreferenziali, che parlano cioè di sé stesse: questa richiesta è garantita dal fatto che T è espressiva almeno quanto l’aritmetica o più in generale che T sia in grado di rappresentare tutte le funzioni ricorsive primitive. Merito di Gödel fu dunque l’aver esibito tale proposizione e la vera potenza di tale teorema è che vale “per ogni teoria affine”, cioè per qualsiasi teoria formalizzata, forte quanto l’aritmetica elementare. In particolare Gödel dimostrò che l’aritmetica stessa risulta incompleta: vi sono dunque delle realtà vere ma non dimostrabili; la loro dimostrabilità richiederebbe infatti l’introduzione di un nuovo assioma accanto a quelli posti a fondamento del sistema, ma anche in questo caso per ogni nuovo assioma introdotto sarebbe sempre possibile escogitare una nuova proposizione vera ma non dimostrabile. Questo teorema, che esprime uno dei più discussi limiti della matematica, è ad ogni modo uno dei più frequentemente fraintesi. È un teorema proprio della logica formale, e se estrapolato da questo contesto può prestarsi facilmente a interpretazioni erronee. Si vedrà in seguito, infatti, come la pubblicazione del teorema abbia ispirato, ad esempio, autori nel tentare di dimostrare o confutare la possibilità di poter costruire macchine in grado di comportamenti intelligenti paragonabili a quelli umani; è il caso questo del dibattito tra Douglas Höfstadter e Roger Penrose, fiorito negli anni ’80 grazie alle rispettive pubblicazioni di Gödel, Escher e Bach e La nuova mente dell’imperatore. 68 CAPITOLO 5. IA: IL CONTRIBUTO DI GÖDEL Il Secondo Teorema di incompletezza completa e sviluppa il lavoro iniziato con il Primo Teorema e si dimostra formalizzando una parte della dimostrazione di quest’ultimo; esso afferma: Sia T una teoria matematica sufficientemente espressiva da contenere l’aritmetica: se T è coerente, non è possibile provare la coerenza di T all’interno di T. Ciò significa che nessun sistema coerente può essere utilizzato per dimostrare la sua stessa coerenza, nemmeno se si prende in considerazione Figura 5.3: Douglas il sistema dell’aritmetica elementare. In aggiunHofstadter (1945) ta, secondo quanto viene dimostrato dal lavoro di Gödel, la coerenza di un sistema non può essere dimostrata da un sottoinsieme coerente del sistema; quindi il sistema dell’aritmetica elementare non può essere utilizzato nemmeno per dimostrare la coerenza di sistemi più potenti. Il significato delle conclusioni di Gödel è di grande portata in quanto esse mostrano che la prospettiva di trovare per ogni sistema deduttivo una dimostrazione assoluta di coerenza che soddisfi alle richieste finitistiche delle proposte di Hilbert, per quanto non logicamente possibile, è molto improbabile. I risultati ottenuti non escludono infatti la possibilità di costruire una dimostrazione finitistica assoluta di coerenza per l’aritmetica, ma mostrano che non è possibile alcuna prova che sia rappresentabile nell’ambito dell’aritmetica; oggi però nessuno ha un’idea chiara del Figura 5.4: Roger Penrose (1931) probabile aspetto di una prova finitistica non suscettibile di una rappresentazione o formulazione aritmetica. Le conclusioni ottenute mostrano poi anche che esiste un numero finito di proposizioni aritmetiche vere che non possono essere formalmente dedotte da alcun insieme di assiomi mediante un insieme chiuso di regole di inferenza. Proprio questo aspetto ha fatto sorgere la questione se sia possibile costruire costruire una macchina che faccia concorrenza al cervello umano in fatto di intelligenza matematica. Si può dire infatti che le macchine odierne possiedono un insieme fissato di regole memorizzato all’interno di esse; queste regole, secondo Ernest Nagel e James R. Newman, corrispondono alle regole di inferenza stabilite nella procedura assiomatica formalizzata, ma “come Gödel dimostrò nel suo teorema di incompletezza, vi sono innumerevoli problemi che esulano dalle possibilità di un metodo assiomatico fissato, 5.2. INTERPRETAZIONI E DIBATTITO 69 e che tali macchine non possono risolvere. [...] Assegnato un certo problema, una macchina di questo tipo potrebbe essere costruita per risolverlo; ma non è possibile costruire una macchina che risolva ogni problema. Il cervello umano, in realtà, possiede le sue intrinseche limitazioni, [...] ma anche cosı̀, il cervello umano sembra possedere una struttura di regole di operazione la quale è di gran lunga più potente della struttura delle macchine che al giorno d’oggi vengono correntemente concepite”.1 5.2 Interpretazioni e dibattito Proprio quest’ultimo ragionamento enunciato costituisce la base e la sostanza della critica mossa da filosofi come J. R. Lucas (1961), i quali ritengono che il teorema dimostri come le macchine siano mentalmente inferiori agli umani. Il teorema può essere infatti cosı̀ esposto: per ogni sistema formale assiomatico F abbastanza potente da poter essere aritmetizzato, è possibile costruire una cosiddetta “formula di Gödel” G(F ) tale che essa sia una formula di F , ma non possa essere dimostrata in F ; se F è coerente, allora G(F ) è vera. In base a questo assunto, Lucas e Penrose hanno asserito che poiché le macchine sono sistemi formali limitati dal teorema di incompletezza, esse non possono stabilire la verità della loro formula di Gödel. Questa affermazione, però, si presenta come il risultato di un ragionamento parzialmente errato. Il teorema di incompletezza si applica infatti soltanto ai sistemi formali abbastanza potenti da poter essere aritmetizzati. Essi comprendono anche le macchine di Turing, e il ragionamento di Lucas è in parte basato sull’assunzione che le macchine e i computer siano macchine di Turing. La sua è una buona approssimazione, ma non è corretta; le macchine di Turing sono modelli infiniti mentre le macchine sono finite, e ognuna di queste ultime può quindi essere descritta come un sistema, molto ampio, in logica proposizionale, che non è soggetto al teorema di Gödel. Inoltre è possibile rivolgere altre due osservazioni e critiche a Lucas. Primo, secondo il ragionamento da lui attuato nessuno vieta di considerare una proposizione del tipo: Lucas non può coerentemente affermare che questa proposizione sia vera. Se Lucas asserisse questa proposizione, allora si contraddirebbe, quindi Lucas non può coerentemente affermarla, e dunque essa deve essere vera. In tal modo si dimostra che esiste una proposizione che Lucas non può coerentemente affermare mentre altre persone, e macchine, possono; ma questo non sminuisce l’intelligenza di Lucas. Secondo, anche se si accettasse il fatto che le macchine possiedono delle limitazioni riguardo ciò 1 Ernest Nagel e James R. Newman, La prova di Gödel, Bollati Boringhieri, Torino, 2003, p. 107 70 CAPITOLO 5. IA: IL CONTRIBUTO DI GÖDEL che esse possono dimostrare, non v’è nessuna prova che gli esseri umani siano immuni da tali limitazioni; è impossibile infatti dimostrare che l’uomo non è soggetto al teorema di incompletezza di Gödel, perché ogni prova rigorosa confuterebbe se stessa, in quanto richiederebbe una formalizzazione dell’abilità umana che viene però dichiarata come non formalizzabile. Il lavoro compiuto da Gödel non significa ad ogni modo che vi siano “limiti ineluttabili alla ragione umana”, ma piuttosto che le risorse dell’intelletto umano non sono state, né possono essere, formalizzate completamente, e che esistono sempre nuovi principi di dimostrazione che attendono di essere inventati o scoperti. Anche secondo il parere di Marvin Minsky, non vi sono dunque provati limiti nell’approccio computazionale allo studio dell’intelligenza artificiale e non c’è ragione di pensare che le macchine siano inferiori o totalmente differenti dal cervello, il quale presenta anch’esso punti deboli.[17] Riguardo poi la questione sollevata da Penrose, secondo cui il cervello può risolvere problemi per i quali un algoritmo generale non può esistere, Piergiorgio Odifreddi commenta: “Dove risiede dunque tale problema? Semplicemente nell’essersi scordati di aver usato la consistenza del sistema per dedurne la verità della formula che dice di se stessa di non essere dimostrabile. D’altra parte, se il sistema fosse inconsistente, ogni formula sarebbe dimostrabile, e quindi anche la precedente: essa sarebbe dunque falsa, in quel caso. In altre parole, noi abbiamo riconosciuto soltanto la verità Figura 5.5: Piergiorgio Odifreddi (1950) condizionale (sotto l’ipotesi di consistenza) di una formula, non quella assoluta. E non c’è nessuna presunzione (neppure da parte di Penrose) di pensare che la mente umana sappia riconoscere la consistenza di sistemi formali. Il secondo Teorema di Gödel mette anzi in guardia sulla difficoltà di tale problema: la sua soluzione richiede, per ciascun sistema formale consistente, mezzi al di fuori del sistema stesso”.[18] 5.3 Conclusione Il risultato ottenuto da Gödel, soprattutto con il secondo teorema, rappresenta sicuramente un punto d’arrivo di significativo impatto oltre che sul pensiero matematico e informatico, anche sul pensiero filosofico del secolo passato. Esso però viene utilizzato spesso erroneamente come punto di ap- 5.3. CONCLUSIONE 71 poggio nel sostenere la possibilità da una parte, o l’impossibilità da un’altra, che le macchine abbiano la potenzialità di eguagliare il tipo di intelligenza propria degli esseri umani; la scoperta principale del lavoro del matematico di Brno è infatti la distinzione tra verità e dimostrabilità, non l’inferiorità di determinati sistemi rispetto ad altri. I Teoremi di Gödel non giungono quindi come un ciclone a distruggere malinconicamente le costruzioni edificate dal sogno formalista perché, se è vero che segnano la fine del programma finitista di Hilbert, come fa notare il logico francese JeanYves Girard la coerenza interna di una teoria non è tutto e la scienza non sa che farsene di teorie coerenti mal fatte o senza valore predittivo. Un eventuale successo del programma avrebbe stabilito la completezza della matematica reale, il che vuol anche dire la sua chiusura:“Inutile discuteFigura 5.6: Jean-Yves re di altri assiomi, nulla ci è sfuggito.” Inoltre il Girard (1947) programma avrebbe portato a una meccanizzazione completa della matematica. [...] Piuttosto che dispiacerci che Gödel ci abbia allontanati dalla soluzione finale, rallegriamoci per gli spazi da lui lasciati alla creatività.2 2 Jean-Yves Girard, Il sogno del segno o il fallimento del riduzionismo in “La prova di Gödel”, Bollati Boringhieri, Torino, 2003, pp. 118-120 72 CAPITOLO 5. IA: IL CONTRIBUTO DI GÖDEL Parte III Riferimenti 73 Bibliografia [1] C. R. Alavala. Fuzzy logic and neural networks: basic concepts & applications. New Age Internetional Publishers, New Dheli, 1 edition, Settembre 2007. [2] D. Anderson and G. McNeill. Artificial neural networks technology. Kaman Sciences Corporation, New York, 1 edition, Agosto 1992. [3] Z. Barnett. A senseless conversation. Think, (X):9–21, Settembre 2011. [4] M. F. Delaurenti. Controlli non convenzionali di alimentatori a commutazione. PhD thesis, Politecnico di Torino, 2004. [5] L. Dreyfus. Heidegger, husserl e la filosofia della mente. In E. Carli, editor, Cervelli che parlano. Il dibattito su mente, coscienza e intelligenza artificiale, pages 87–108. Bruno Mondadori, Milano, Gennaio 2003. [6] E. R. Kandel, J. H. Schwartz, and T. M. Jessell. Principles of neural science. McGraw-Hill, New York, 4 edition, 2000. [7] B. Krose and P. van der Smagt. An introduction to Neural Networks. University of Amsterdam, Amsterdam, 8 edition, Novembre 1996. [8] R. Manzotti and S. Gozzano. Networks, (3/4), 2004. Verso una scienza della coscienza. [9] R. Manzotti and V. Tagliasco. Essere e fare. L’Arsenale, Dicembre 2002. [10] R. Manzotti and V. Tagliasco. Si può parlare di coscienza artificiale? Sistemi intelligenti, (XIV):89–108, Aprile 2002. [11] E. Nagel and J. R. Newman. La prova di Gödel. Bollati Boringhieri, Torino, 2 edition, Aprile 2003. [12] F. Rieke, D. Warland, R. de Ruyter van Steveninck, and W. Bialek. Spikes: exploring the neural code. The MIT Press, Cambridge, Massachusetts, 1 edition, 1999. 75 76 BIBLIOGRAFIA [13] S. J. Russel and P. Norvig. Artificial Intelligence: a modern approach. Prentice Hall, 3 edition, Dicembre 2009. Sitografia [14] G. Filippelli. Reti neurali e astronomia. Società Italiana di Matematica Applicata e Industriale. http://maddmaths.simai.eu/var/ reti-neurali-e-astronomia, data ultima consultazione: 02/07/12. [15] S. Manganiello. An introduction to neural networks with an implementation using Neural++ library. Maggio 2009. http://blacklight. gotdns.org/~tut/neural.pdf, data ultima consultazione: 02/07/12. [16] P. Marino. Le reti neurali artificiali. Ente Ospedaliero S. de Bellis, 2001. http://www.irccsdebellis.it/html/Reti_Neurali/SITO_ RetiNeurali.htm, data ultima consultazione: 02/07/12. [17] M. Minsky. Le frontiere dell’intelligenza artificiale. Rai Radiotelevisione Italiana, Ottobre 1999. http://www.mediamente.rai.it/biblioteca/ biblio.asp?id=372&tab=int, data ultima consultazione: 02/07/12. [18] P. Odifreddi. Il teorema di Gödel e l’I.A. Università di Bologna, Marzo 1992. http://www.scienzagiovane.unibo.it/intartificiale/ odifreddi/godel_ia.html, data ultima consultazione: 02/07/12. [19] M. Volta. Controllo e gestione dei Sistemi Ambientali: Reti neurali. Università degli Studi di Brescia. http://automatica.ing.unibs.it/ mco/cgsa/neurali/, data ultima consultazione: 02/07/12. 77 78 SITOGRAFIA Filmografia [20] J. Badham. Short Circuit. 20th Century Fox, 1986. [21] J. Cameron. The Terminator. Orion Pictures, 1984. [22] A. Proyas. I, robot. 20th Century Fox, 2004. [23] S. Spielberg and S. Kubrick. A.I. Artificial Intelligence. Warner Bros. Pictures, 2001. [24] A. Wachowski and L. Wachowski. The Matrix. Warner Bros. Pictures, 1999. [25] A. Wachowski and L. Wachowski. The Matrix Reloaded. Warner Bros. Pictures, 2003. [26] A. Wachowski and L. Wachowski. The Matrix Revolutions. Warner Bros. Pictures, 2003. 79