CAPITOLO 5 L’Intelligenza Artificiale Lo studio dell’Intelligenza Artificiale ha una storia recente; la sua data di nascita ufficiale è ritenuta, all’unanimità, il 1956. Non c’è invece nessun accordo sulla definizione del suo programma di ricerca come disciplina scientifica. T ra alcuni filosofi, e anche tra alcuni ricercatori del settore, c’è un diffuso scetticismo circa la possibilità stessa di considerare l’Intelligenza Artificiale (IA, d’ora in avanti) una scienza. In una sua interpretazione «debole» (per usare un termine reso canonico da John Searle), essa appare piuttosto una pratica sperimentale, tra l’informatica e l’ingegneria. Suo obiettivo sarebbe la costruzione di artefatti con prestazioni tali da aiutare o assistere l’uomo (e in qualche caso sostituirlo) nel risolvere compiti teorici o pratici di diversa complessità. In questa prospettiva, l’IA è vista come il punto di arrivo di un processo evolutivo che ha consentito di estendere l’automazione da alcune attività del lavoro manuale ad alcune attività del lavoro intellettuale, quali, per esempio, l’elaborazione di calcoli complessi, il controllo e la pianificazione, la consulenza specializzata in alcune prestazioni professionali. Dal momento che di lavoro intellettuale si tratta, non si può non parlare di «intelligenza», ma poiché tale lavoro è completamente «automatico», diventa difficile, o opinabile, precisare la natura di tale intelligenza. In fondo, qui sta l’origine del paradosso sul quale a volte si è insistito: non appena una prestazione del lavoro intellettuale è riprodotta da un artefatto, essa non appare più una funzione veramente intelligente. Secondo un altro punto di vista, l’IA può nutrire l’ambizione di essere una scienza, questa volta dei principi generali dell’intelligenza e della conoscenza (comuni cioè agli esseri umani e alle macchine), ma ha bisogno, per poter assumere a tutti gli effetti tale statuto, dell’apporto decisivo della logica: un po’ come si dice della fisica, che ha avuto bisogno della matematica per svilupparsi come scienza. Quindi, il problema dell’IA consiste in primo luogo nel trovare la logica, o le logiche, pertinenti ai suoi scopi. Diversa ancora è la prospettiva che vede l’IA definirsi piuttosto in rapporto alle ricerche sull’intelligenza naturale. Qui le cose si complicano, perché l’intelligenza naturale non è a L’Intelligenza Artificiale, ovvero la costruzione di macchine «pensanti» capaci di affiancarsi all’uomo in svariate circostanze (calcolo, gestione dati, attività intellettuale) ha cominciato a interessare la comunità scientifica a partire dagli anni Cinquanta, ma era già stata anticipata dalle ricerche di Turing anni prima. 607 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Le anticipazioni profetiche di Turing Le polemiche su automatismo e intelligenza 608 sua volta un dominio ben definito, e la stessa psicologia, la disciplina tradizionalmente deputata al suo studio, ha spesso vissuto in modo alquanto conflittuale il proprio statuto di scienza. Più recentemente, inoltre, ridimensionata l’idea che la mente possa costituire un oggetto di indagine indipendente dal cervello, alcune tendenze dell’IA interessate alla mente sono portate a fare i conti con i risultati e i metodi di un’altra scienza, la neurologia (o neuroscienza, come adesso si dice). È interessante notare come già Alan Turing, figura mitica nella storia dell’IA nonostante sia scomparso due anni prima della nascita ufficiale della nuova disciplina, si fosse confrontato con i principali problemi che hanno dato luogo alle diverse interpretazioni del programma di ricerca dell’IA. Già la celebre macchina astratta che porta il nome di Turing e la sua tesi sulla natura della calcolabilità del 1935 si basavano, rispetto ad altre formulazioni equivalenti, su una premessa del tutto originale: quella di dare una descrizione rigorosa di procedura automatica, o più precisamente meccanica, rifacendosi al comportamento di un essere umano che la esegue. Dopo quella che potremmo chiamare, con l’avvento dei primi calcolatori digitali, la realizzazione fisica della sua macchina astratta, Turing discusse le obiezioni alla possibilità di una «macchina intelligente» che si basavano sulla inconciliabilità della nozione di «automatismo» con quella di «intelligenza». Nell’Ottocento forse avrebbe potuto essere un vescovo a muovergli obiezioni del genere. Ai suoi tempi, Turing, come ha ricordato Hodges (1983), trovò invece uno dei principali oppositori in un neurologo, Geoffrey Jefferson, il quale gli obiettava che la logica era inutile per lo studio della mente umana, e che era impossibile riprodurre le caratteristiche di quest’ultima in un artefatto non biologico, astraendo cioè dal cervello e, più in generale, dal corpo. Un inventario parziale ma efficace, si direbbe, dei principali problemi con i quali si misurerà l’IA nel corso della sua storia. Anche se la cibernetica aveva fatto la sua parte nel ridimensionare la contrapposizione tra le nozioni di automatismo e di intelligenza, era stata la costruzione dei primi calcolatori digitali a suggerire un modo per ridiscuterla daccapo. Vogliamo allora cominciare seguendo quella che ci sembra la strada maestra che ha portato alle origini dell’IA, la strada segnata dalle tappe della costruzione del calcolatore, che hanno consentito via via di pensare a esso come a una macchina intelligente, coniugando due termini tradizionalmente tanto lontani l’uno dall’altro. 5. L’Intelligenza Artificiale LA CIBERNETICA La cibernetica è una disciplina sorta a metà del XX secolo per lo studio delle macchine automatiche (nel senso di macchine che svolgono esse stesse parte dell’attività di controllo), dei sistemi di ogni tipo analoghi a tali macchine e dei concetti teorici sottostanti a tali sistemi, secondo una prospettiva che unificasse i contributi e le prospettive di ricerca provenienti da aree differenti del sapere come l’elettronica, la biologia, la sociologia, la teoria matematica dell’informazione, la teoria degli automi. Il nome fu coniato da Norbert Wiener, uno dei fondatori della cibernetica, per indicare «l’intero campo della teoria del controllo e della comunicazione sia nelle macchine sia negli animali». Punto di partenza della cibernetica è in effetti lo studio dei servomeccanismi e in generale dei sistemi (meccanici, organici o sociali) basati sulla retroazione o feedback. La retroazione è una tecnica usata per diminuire lo scostamento da uno stato definito come ottimale, usando come ingresso del servomeccanismo le stesse deviazioni del sistema rispetto allo stato di riferimento; è detta anche, in questa forma, retroazione negativa (negative feedback). Un sistema a retroazione consiste in uno o più sottosistemi connessi da un circuito in modo che l’ingresso (input) di ciascuno sia l’uscita (output) dell’altro. L’intento dei fondatori della cibernetica era di giungere a una disciplina astratta di carattere matematico, i cui oggetti fossero innanzitutto gli aspetti comuni a certi tipi di dispositivi meccanici o elettronici, ai fenomeni sociali, ai comportamenti teleologici, ai processi neurofisiologici, e più in generale il trattamento scientifico di sistemi in cui risulti predominante la complessità. In seguito la cibernetica venne compiutamente identificata con la teoria e la progettazione di sistemi di elaborazione dell’informazione (informatica), da una parte, e con il campo di studio delle teorie dei sistemi, dall’altra. In che misura la cibernetica rappresenti una potenzialità di sviluppo per l’umanità è una questione tuttora dibattuta, e non solo nella comunità scientifica. 609 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Verso il calcolatore intelligente «Se Babbage fosse vissuto settantacinque anni dopo, io sarei disoccupato»: così sembra dicesse il fisico Howard Aiken (1900-73) davanti alla sua macchina, il calcolatore Mark I, o Automatic Sequence Controlled Calculator, completato a Harvard nel febbraio del 1944. Si trattava di una macchina costituita di relè elettromagnetici, capace di effettuare calcoli numerici su cifre codificate in rappresentazione decimale. Come la celebre «macchina analitica», mai realizzata ma progettata in tutti i particolari nel 1837 dal matematico inglese Charles Babbage (1791-1871), il calcolatore di Aiken si basava sull’idea di macchina a programma: le istruzioni per eseguire un calcolo, una volta codificate in forma binaria su un nastro di carta perforato, potevano essere effettuate sequenzialmente in modo automatico, cioè senza l’intervento dell’operatore umano. In un certo senso, Aiken corse veramente il rischio di rimanere disoccupato: qualche anno prima che egli completasse la costruzione del Mark I, nel 1941, l’ingegnere Konrad Zuse (1910-95) aveva costruito in Germania un calcolatore automatico che per di più usava una rappresentazione completamente binaria. Ma la macchina di Zuse, nota come Z3, andò Howard Aiken davanti al gigantesco calcolatore Mark 1, presso l’Università di Harvard nel 1944. Le esigenze belliche fornirono uno stimolo eccezionale allo studio di macchine capaci di gestire una sempre maggiore quantità di calcoli. Nel 1946 si sarebbe arrivati al primo elaboratore elettronico, l’ENIAC. 610 5. L’Intelligenza Artificiale distrutta durante i bombardamenti degli alleati sulla Germania. Il calcolatore digitale automatico nasceva dunque in Europa, e nel pieno del secondo conflitto mondiale. È stato Norbert Wiener (1894-1964) a ricordare come esso si sostituisse gradualmente al calcolatore analogico nelle applicazioni belliche. L’elaborazione veloce e precisa di grandi quantità di dati numerici era indispensabile, per esempio, per rendere efficace l’artiglieria di fronte all’accresciuta velocità dei veicoli aerei. Presso il MIT (Massachusetts Institute of Technology), Wiener, in collaborazione con l’ingegnere Julian Bigelow, svolse un ruolo di primo piano nella messa a punto di sistemi automatici antiaerei, nei quali l’informazione sull’obiettivo mobile captata dal radar ed elaborata dal calcolatore retroagiva modificando l’asse di puntamento del cannone. Con Bigelow e con il fisiologo Arthuro Rosenblueth (190070), Wiener pubblicò nel 1943 un sintetico articolo in cui si sosteneva di recuperare il linguaggio psicologico (termini come «scopo», «scelta», «obiettivo» e simili) per descrivere sistemi dotati di retroazione (feedback) negativa come quello appena descritto, in grado, cioè, di rispondere in modo selettivo alle sollecitazioni dell’ambiente, modificando il proprio comportamento al pari degli organismi viventi. Quell’articolo è ormai considerato l’atto di nascita della cibernetica, come Wiener chiamò qualche anno dopo la disciplina che avrebbe dovuto occuparsi dei meccanismi dell’autoregolazione e del controllo presenti tanto negli organismi viventi quanto nelle nuove macchine con retroazione (Wiener, 1948). Sempre nel 1943, Warren McCulloch (1898-1969), neurologo e psichiatra, firmava con l’allora giovanissimo logico Walter Pitts (1923-69) un saggio destinato a influenzare come pochi tanto la scienza dei calcolatori quanto la progettazione di alcune delle più celebri macchine dell’epoca cibernetica (McCulloch e Pitts, A Logical Calculus of the Ideas Immanent in Nervous Activity, 1943). Come ricorderà poi McCulloch, in quel momento egli e Pitts non conoscevano i risultati che Claude Shannon (1916-2001), futuro fondatore della teoria dell’informazione, aveva pubblicato nel 1938, sollecitato dai problemi in cui si era imbattuto lavorando, presso il MIT, all’analizzatore differenziale di Vannevar Bush (1890-1974), la più nota macchina analogica dell’epoca. Eppure, tanto McCulloch e Pitts quanto Shannon usavano uno stesso strumento, l’algebra di Boole, per indagare due domini molto diversi: McCulloch e Pitts le reti costituite di neuroni «formali», analoghi molto semplificati dei neuroni del cervello e funzionanti Dall’analogico al digitale Le macchine a retroazione 611 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Norbert Wiener (1894-1964), padre della cibernetica, professore di matematica al MIT (Massachusetts Institute of Technology) dal 1932 al 1960: una delle figure fondamentali del «periodo epico» della ricerca sui primi elaboratori elettronici. I calcolatori automatici Colossi 612 secondo la legge del tutto o niente (un neurone scatta o non scatta se l’intensità degli impulsi che riceve supera o meno una certa soglia), Shannon i componenti dei circuiti elettrici, funzionanti secondo una legge analoga (un relè scatta o non scatta se la corrente raggiunge o meno una certa intensità). L’intuizione di Shannon fu determinante nella progettazione dei circuiti dei calcolatori digitali. Se nulla sapevano del lavoro di Shannon, McCulloch e Pitts erano perfettamente a conoscenza di quello di Turing, e conclusero che una loro rete di neuroni formali era equivalente a una macchina di Turing con nastro finito. Mentre la sconfitta della Germania interruppe il lavoro di Zuse, in Inghilterra e negli Stati Uniti la realizzazione dei grandi calcolatori digitali non conobbe soste, continuando a mobilitare risorse e talenti straordinari, che in breve tempo portarono a una vera e propria svolta. In Inghilterra già dalla fine del 1943 funzionavano i Colossi, calcolatori automatici impiegati nella decrittazione dei codici militari tedeschi. Si trattava di macchine specializzate nel risolvere solo questo tipo di compiti, ma erano molto evolute, essendo tra l’altro completamente elettroniche, cioè con le valvole al posto dei relè elettromeccanici: un progresso tec- 5. L’Intelligenza Artificiale nologico che, portando ai calcolatori della cosiddetta prima generazione, avrebbe reso per la prima volta veramente veloce l’elaborazione dei dati. Coperte dal più stretto segreto militare (come tanti altri progetti della cibernetica e della scienza dei calcolatori degli anni del secondo conflitto mondiale), solo dal 1975 si è cominciato a conoscere le caratteristiche di queste macchine, al cui progetto aveva partecipato un gruppo di ricercatori guidato dal matematico Max Newman, che includeva I.J. Good e Donald Michie. Alla decrittazione del codice della leggendaria macchina tedesca ENIGMA contribuì lo stesso Turing, che successivamente, nella seconda metà degli anni Quaranta, partecipò a due diversi progetti di grandi calcolatori: ACE (Automatic Computing Engine) a Teddington e MADM (Manchester Automatic Digital Machine) a Manchester. Negli Stati Uniti si arrivò a completare la costruzione di un calcolatore elettronico nel 1946. I suoi progettisti, due ricercatori dell’Università di Pennsylvania, J. Presper Eckert (1919) e John Mauchly (1907-80), lo chiamarono Electronic Numerical Integrator and Calculator, o ENIAC. Era certo il più grande calcolatore mai costruito, ed è solitamente considerato il primo grande calcolatore di tipo generale: per l’epoca, Il calcolatore elettronico L’ingegnere tedesco Konrad Zuse era in anticipo di dieci anni sui suoi colleghi americani: il suo primo computer, lo Z1, è del 1935, mentre lo Z3 del 1941 aveva relè elettromeccanici, nastro perforato a informazione binaria, ed era comandato da una tastiera. Sfortunatamente andò distrutto nei bombardamenti sulla Germania del 1944-45. 613 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE J.W. Mauchly e J. Presper Eckert al lavoro sull’ENIAC nel gennaio del 1946. I due scienziati contenderanno a von Neumann la paternità del concetto di «programma memorizzato». 614 la migliore realizzazione di una macchina universale nel senso di Turing. Fu proprio all’interno del gruppo dell’ENIAC che maturò la svolta alla quale abbiamo alluso. Consulente del progetto dell’ENIAC era stato il matematico di origine ungherese John von Neumann (1903-1957). Pochi testi sono rimasti celebri nella storia della scienza dei calcolatori come il First Draft redatto da Von Neumann nel 1945, dove, adottando la simbologia di McCulloch e Pitts, si descriveva l’architettura di un calcolatore di nuova concezione, che sarebbe rimasta sostanzialmente immutata negli anni a venire: quella di un calcolatore nella cui memoria interna sono depositati non solo i dati, come nei calcolatori realizzati fino a quel momento, ma anche le istruzioni per manipolarli, ovvero il programma, che diventava così modificabile non meno dei dati. La paternità dell’idea sollevò un dissidio tra Von Neumann da una parte ed Eckert e Mauchly dall’altra. A costruire il primo calcolatore con programma memorizzato fu però il gruppo guidato dal matematico Maurice Wilkes (1913) a Cambridge, che nel 1949 completò l’EDSAC (Electronic Delay Storage Automatic Calculator). Negli Stati Uniti un calcolatore di questo tipo fu realizzato l’anno seguente con il nome di EDVAC (Electronic Discrete Variable Automatic Computer). 5. L’Intelligenza Artificiale «Pensiero meccanico» Una caratteristica fondamentale di un calcolatore di tipo generale, già intuita da Babbage, è quella di manipolare non solo simboli numerici, ma simboli generici, con i quali è possibile rappresentare le entità più diverse: parole di una lingua naturale, espressioni matematiche, posizioni di un gioco, oggetti da riconoscere e classificare e così via. Un’altra caratteristica fondamentale del calcolatore, anche questa intuita da Babbage e che invece mancava nei calcolatori di Zuse e di Aiken, è l’istruzione di «salto condizionato» (conditional branching), con la quale diventa possibile dare al programma del calcolatore una capacità discriminativa. La macchina in questo caso non si limita a seguire una sequenza fissa di istruzioni, ma può cambiare l’ordine di esecuzione, in modo che, se una data condizione è soddisfatta, essa effettua le operazioni specificate da una certa parte del programma (da un sottoprogramma), altrimenti ne esegue altre specificate da una diversa parte del programma (da un altro sottoprogramma). Questa capacità, già posseduta dai più progrediti dei Colossi e dall’ENIAC, era pienamente valorizzata dalla presenza del programma memorizzato. L’EDSAC era appena completato che proprio queste due sue caratteristiche, l’elaborazione di dati non numerici e la presenza dell’istruzione di salto condizionato in un programma memorizzato, furono portate in primo piano per parlare Parte di una macchina calcolatrice per il calcolo differenziale ricostruita dai progetti originali di Charles Babbage (1792-1871), il matematico inglese che per tutta la vita si dedicò allo studio della macchina che ha anticipato di cento anni la nascita del computer. 615 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Il «pensiero meccanico» dei calcolatori L’articolo di Turing sull’intelligenza e gli elaboratori 616 di «pensiero meccanico» dei calcolatori. In un lavoro pubblicato nel 1952, Programming a digital computer to learn, Anthony Oettinger (1929), nel Mathematical Laboratory diretto da Wilkes a Cambridge, descriveva due programmi per l’EDSAC in grado di modificare le proprie prestazioni sulla base dell’esperienza, ovvero di «apprendere». Uno di questi manifestava una forma di apprendimento che oggi diremmo mnemonico. Il compito da eseguire era quello di imparare dove acquistare certe merci in un mondo simulato di rivenditori. Il programma cercava a caso tra i vari rivenditori fino a scovare la merce desiderata, annotando in memoria presso quale rivenditore l’aveva trovata. Richiesto di cercare di nuovo quella stessa merce, il programma raggiungeva direttamente il relativo rivenditore, senza ripetere la ricerca. Inoltre, esso era dotato di una certa «curiosità», come diceva Oettinger: nelle sue ricerche casuali, il programma prendeva nota di altre merci, diverse da quella cercata, fornite dai vari rivenditori in cui si imbatteva, in modo da poter usare questa informazione per abbreviare la ricerca di quelle merci in successive esplorazioni. È evidente come tutto si basasse sulla iterazione di cicli controllati da salti condizionati: il programma continuava nella sua ricerca se la merce non era quella voluta, prendendo nota del risultato, altrimenti si fermava. A stimolare la ricerca di Oettinger erano stati soprattutto tre lavori che risalivano agli anni immediatamente precedenti. Il primo era un articolo di Shannon, Programming a computer to plain chess (1950), in cui l’autore insisteva sull’importanza delle applicazioni non numeriche dei calcolatori digitali, come la programmazione del gioco degli scacchi, l’oggetto della sua ricerca, sulla quale dovremo tornare. Gli altri due portavano la firma di Turing e di Wilkes, e vertevano sul «pensiero meccanico», ovvero sull’asserita «intelligenza» dei calcolatori. L’articolo di Turing, Computing Machinery and Intelligence (1950), diventerà uno dei testi più conosciuti e citati nella letteratura relativa alle nuove macchine, sia per alcune intuizioni anticipatrici di sviluppi futuri, sia per la proposta di quello che egli chiamò il «gioco dell’imitazione». Al gioco partecipano un uomo, una donna e un interrogante, il quale, ponendo le domande più diverse e ricevendo le risposte attraverso due terminali distinti, deve scoprire chi è l’uomo e chi la donna. Turing immagina che, nel dare le risposte, l’uomo tenti di ingannare l’interrogante, mentre la donna tenti di aiutarlo. Egli propone quindi di sostituire all’uomo una macchina, in effetti un calcolatore digitale di ti- 5. L’Intelligenza Artificiale LE APPLICAZIONI DELL’INTELLIGENZA ARTIFICIALE: LA ROBOTICA Tra i diversi campi di studio dell’Intelligenza Artificiale, il cui concetto si può far risalire al matematico britannico Alan Turing, si è sviluppata l’odierna tecnica di progettazione di robot, la robotica. Un moderno robot, in grado di muoversi autonomamente nell’ambiente in cui esplica le sue funzioni, è una macchina, comprendente o collegata a un elaboratore elettronico, orientata alla manipolazione di parti o utensili portatili, ma non in grado di eseguire particolari operazioni tecnologiche. Suo campo di applicazione sono le attività di tipo discreto nelle quali vengono trattati oggetti individuati e numerabili. Scopo principale è quello di sostituire l’uomo in alcune attività produttive, in particolare nelle operazioni di manipolazione. Robot evoluti sono addirittura insostituibili in alcune imprese spaziali. I robot industriali hanno mostrato – come gli elaboratori elettronici – una tendenza marcata a svilupparsi per generazioni, cioè attraverso salti qualitativi. I robot della prima generazione hanno capacità di memoria, ma non hanno, se non in misura molto ridotta, capacità di adattarsi alle condizioni esterne. I robot di seconda generazione sono invece muniti di sensori che consentono capacità sensoriali rudimentali come tatto e vista, vengono invece progettati, e in parte impiegati, per poter essere in grado di interagire con l’ambiente esterno. Sono inoltre dotati di sistemi di elaborazione, che permet- tono loro di prendere semplici decisioni e di effettuare scelte operative in base alle situazioni percepite attraverso i propri sensori. Caratteristica fondamentale dei robot destinati all’attività manifatturiera è la capacità di apprendere tutte le fasi del ciclo lavorativo. I robot vengono anche utilizzati per il rilevamento dei dati durante i processi produttivi, ma più spesso effettuano dei controlli automatici sulle operazioni svolte. Nel 2003 un’équipe di ricercatori americani ha messo a punto un robot i cui movimenti sono governati da una rete di cellule neurali, ossia un ibrido tra essere vivente e componenti robotiche, che ha una caratteristica fondamentale: muovendosi assorbe informazioni dall’ambiente circostante e reagisce cambiando il proprio comportamento, imparando perciò dall’esperienza. po generale, e di vedere come se la cavi nel gioco, e cioè fino a che punto riesca a ingannare l’interrogante. Quest’ultimo, si chiede Turing, sbaglierebbe nell’identificare i suoi interlocutori «altrettanto spesso» di quando al gioco partecipava un uomo e non una macchina? Wilkes, riprendendo il gioco dell’imitazione nell’articolo Can Machines Think? (1951), sosteneva che, per pensare seriamente di «simulare il comportamento umano» con un calcolatore, si sarebbe dovuto progettare un «programma di apprendimento generalizzato», cioè in grado di imparare in qualsiasi campo scelto dal programmatore: un obiettivo molto lontano, date le prestazioni dei programmi realizzati. Un francobollo celebrativo della figura di Alan Turing, uno dei teorizzatori del concetto di Intelligenza Artificiale e delle sue applicazioni tecnologiche, come la robotica. L’articolo di Wilkes sulla possibilità di pensiero delle macchine 617 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Maurice Wilkes (1913) al lavoro sul computer EDSAC nel 1949. L’EDSAC rappresenta il primo elaboratore a programma memorizzato della storia. Il gioco dell’imitazione e il testi di Turing 618 Oettinger ritenne che i suoi programmi costituissero delle parziali risposte ai quesiti posti da Turing e da Wilkes. Senza manifestare la capacità «generalizzata» di apprendimento indicata da Wilkes, essi riuscivano tuttavia a migliorare le proprie prestazioni in certi compiti particolari. Inoltre, essi avrebbero potuto superare almeno «una forma ristretta», come egli si esprimeva, del gioco dell’imitazione. Oettinger sembra dunque essere stato il primo a interpretare il gioco dell’imitazione come un test sufficiente (un «criterio», egli diceva) per valutare le prestazioni di particolari programmi per calcolatore in domini limitati. Sarà questa interpretazione «ristretta» del gioco dell’imitazione, nota come test di Turing, che diventerà più popolare in seguito. Oettinger osservava inoltre che il calcolatore era usato in questi casi per simulare certe funzioni del cervello, non la sua strut- 5. L’Intelligenza Artificiale tura fisica, e il criterio di Turing poteva servire per verificare solo una corrispondenza funzionale tra calcolatore e cervello. In questo caso, rendendo esplicite alcune intuizioni di Turing, le sue osservazioni coglievano un punto che ispirerà l’orientamento di futuri approcci computazionali ai processi mentali. Anche le sue proposte metodologiche andavano in questa direzione. L’uso simbolico del calcolatore individuava per Oettinger coloro che sarebbero stati in effetti tra i principali utenti delle nuove macchine: «Quanti, come gli psicologi e i neurologi, sono interessati alle potenzialità degli attuali calcolatori digitali come modelli della struttura e delle funzioni dei sistemi nervosi organici». D’altra parte, il salto condizionato era da lui interpretato in un’accezione che l’avrebbe reso particolarmente suggestivo per tali utenti. Anche Shannon, nell’articolo ricordato da Oettinger, ne parlava come di una procedura che metteva la macchina nella condizione di decidere o scegliere tra alternative diverse sulla base di risultati ottenuti in precedenza. Ma Oettinger sottolineava questo aspetto come cruciale per i suoi programmi, perché consentiva loro di «organizzare sensatamente (meaningfully) la nuova informazione, e di selezionare modi alternativi di comportamento sulla base di tale organizzazione». Come si è detto, i programmi di Oettinger erano basati in modo essenziale sul salto condizionato. In fondo, non si trattava che della capacità propria di un calcolatore come l’EDSAC di simulare il comportamento di un dispositivo analogico dotato di retroazione. Ma proprio la cibernetica aveva esaltato le capacità discriminative di tali dispositivi, e come abbiamo visto erano stati Rosenblueth, Bigelow e Wiener a introdurre il linguaggio psicologico della «scelta» e dello «scopo» nella descrizione di questi artefatti. Un invito a un uso quanto meno cauto di termini psicologici suggeriti dal salto condizionato come «decisione» o «discriminazione», per non parlare di «pensiero», venne poi da un successivo intervento di Wilkes (1953). Mentre testimoniava l’effettivo impiego di tali termini da parte di molti programmatori (abbiamo ricordato il caso di Shannon), e riconosceva l’importanza del salto condizionato per la messa a punto di programmi che apprendono come quelli di Oettinger, Wilkes osservava come questa procedura non avesse nulla di straordinario, ed era comunemente usata da qualsiasi programmatore di grandi calcolatori. Tuttavia, procedure di questo tipo, caratteristiche delle nuove macchine, sono state all’origine della discussa plausibilità, sulla quale torneremo, di attribuire loro una qualche forma di intenzionalità. L’invito di Wilkes a non pensare i calcolatori in termini psicologici 619 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE La simulazione del cervello sul calcolatore: struttura o funzione? Una unità PU (pluggable unit) del computer IBM 701: costruito in 19 esemplari nel 1952, il 701 costituisce il primo computer prodotto in serie della storia. Ormai le potenzialità degli elaboratori non riguardavano più solo una cerchia ristretta di matematici (o, tutt’al più, militari) ma anche il mondo dell’industria, del commercio, del terziario. 620 L’articolo di Wilkes compariva ripubblicato su uno dei più diffusi periodici scientifici dell’epoca, i «Proceedings of the IRE» (Institute of Radio Engineers), in un numero speciale del 1953, The Computer Issue, che costituisce forse la migliore testimonianza del livello raggiunto in quel momento dalla progettazione e dalla tecnologia dei calcolatori. L’articolo era seguito da un intervento di Shannon, Computers and Automata (1953), una rassegna dei programmi che manifestavano prestazioni paragonabili a quelle umane, e da una lunga serie di contributi che presentavano il calcolatore sotto tutti i suoi aspetti, da quelli della programmazione a quelli dello hardware, mentre si intravedevano i vantaggi dell’imminente diffusione dei transistori, che avrebbe caratterizzato la seconda generazione di calcolatori. Nella realizzazione e nella diffusione dei calcolatori, in prevalenza progettati nel mondo delle università, non era mancato, oltre al sostegno dei militari, l’apporto dell’industria. Negli Stati Uniti, l’IBM aveva contribuito a finanziare il progetto di Aiken, e proprio all’inizio degli anni Cinquanta, quasi contemporaneamente alla Ferranti in Inghilterra, era entrata nel mercato con il calcolatore IBM 701, accuratamente descritto nel Computer Issue. Era il primo di una serie di calcolatori elettronici generali con programma memorizzato, utilizzabili per scopi di ricerca teorica ma anche di applicazione industriale, che dovevano portare l’azienda americana ad assumere rapidamente un ruolo egemone nel settore. Su questo calcolatore aveva cominciato a far girare un suo primo programma per il gioco della dama Arthur Samuel (1901-90), allora ricercatore presso l’IBM, un cui articolo introduttivo apriva il Computer Issue. Nell’aprile dello stesso 1953 si era svolta a New York l’ultima Macy Conference di cibernetica, decimo di una serie di appuntamenti che, a partire dal marzo del 1946, avevano visto crescere intorno alla proposta di Wie- 5. L’Intelligenza Artificiale ner l’interesse di filosofi e scienziati di formazione molto diversa. A chiudere la conferenza era McCulloch, con un Sommario dei punti di accordo raggiunti nelle precedenti riunioni (1953). Tra questi egli ricordava le sue reti formali e i risultati di Turing, ma neppure un cenno era dedicato all’emergente impiego del calcolatore come macchina generale e al suo possibile ruolo nel programma cibernetico. E questo nonostante egli fosse solito descrivere il cervello, per la verità I TRANSISTOR Il nome transistor indica attualmente più gruppi di dispositivi elettronici costruiti con materiali semiconduttori. I gruppi più importanti nella famiglia dei transistor sono i transistor bipolari e quelli a effetto di campo. Le piccole dimensioni, l’elevata affidabilità, la possibilità di integrarne un grande numero su di una piastrina di silicio, e la possibilità di utilizzarli sia come amplificatori sia come interruttori, hanno fatto di questi dispositivi i protagonisti dello sviluppo dell’elettronica. I transistor bipolari si ottengono da un monocristallo di silicio nel quale vengono ricavate tre zone drogate, rispettivamente p, n e di nuovo p, formando in tal modo un transistor PNP, (oppure n, p e di nuovo n, transistor NPN). Il drogaggio del silicio si ottiene aggiungendo piccole quantità di impurità, alluminio o boro per ottenere silicio di tipo P, arsenico o fosforo per il silicio di tipo N. Il silicio N contiene come portatori di carica liberi gli elettroni apportati dall’elemento TIPO NPN collettore (C) emettitore (E) TIPO NPN TIPO PNP collettore (C) base (B) base (B) emettitore base zona n zona p drogante, mentre nel silicio P i portatori liberi sono costituiti da lacune, cariche positivamente. Le tre zone sono chiamate, rispettivamente, emettitore (E), base (B) e collettore (C), e formano due giunzioni fra materiale di tipo P e N. Caratteristica della base è di essere sottile (alcuni micrometri al massimo) e poco drogata rispetto all’emettitore. Il cristallo di silicio viene racchiuso in un contenitore che ha lo scopo di proteggere il cristallo dalla luce, da attacchi meccanici, chimici e di dissipare il calore prodotto durante il funzionamento. Sulle tre zone E, B e C vengono saldati durante la costruzione dei fili di collegamento che fuoriescono poi dal contenitore e servono per il collegamento al circuito. I transistori a effetto di campo (FET, Field Effect Transistor), anche detti transistori unipolari sono numerosi: i più importanti sono il JFET (FET a giunzione) e il MOS-FET (Metallo Ossido Semiconduttore). emettitore (E) collettore zona n zona p zona n TIPO PNP zona p Schemi dei due tipi principali di transistor, NPN e PNP. 621 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Scienze della mente e ruolo del calcolatore 622 piuttosto genericamente, come «un calcolatore digitale dotato di retroazione». Se si confrontano i resoconti di questa Conferenza con gli interventi contenuti nel Computer Issue, si ha la sensazione di avere a che fare con due mondi molto distanti l’uno dall’altro. Un diverso convegno, al quale partecipava lo stesso McCulloch, sembrava questa volta fare i conti con il ruolo che il calcolatore poteva svolgere nelle scienze della mente e del cervello. Insieme a Oettinger, al neurologo Otto Schmitt e a Nathaniel Rochester, direttore di ricerca dell’IBM, McCulloch era uno dei quattro relatori del simposio Progetto di macchine che simulano il comportamento del cervello umano (1956), organizzato nel 1955 dalla IRE National Convention. Invitati a discutere le relazioni erano tra gli altri John Mauchly, Walter Pitts e Marvin Minsky, in quel momento ad Harvard. La lettura del resoconto di questo simposio è illuminante: si ha la sensazione di avere davanti l’inventario degli argomenti principali, degli approcci metodologici, delle ambizioni e delle difficoltà che verranno in primo piano nel decennio successivo, e in qualche caso anche in tempi più recenti. Sullo sfondo o al centro dei temi dibattuti al simposio i primi programmi per calcolatore già funzionanti, o comunque in fase di sperimentazione, che in un modo o in un altro imitavano prestazioni umane o competevano con esse. Alcuni erano stati già illustrati da Shannon nel Computer Issue, e Oettinger nel suo intervento ne citava altri. C’erano anzitutto i programmi che se la cavavano più o meno bene in giochi di diversa complessità: quello per la dama, suggerito da Turing a Cristopher Strachey, che lo pubblicò nel 1952; quello di D.W. Davies per il filetto, che girava su un calcolatore DEUCE; quello per il nim. Il calcolatore NIMROD, costruito dalla Ferranti, aveva giocato al nim con i visitatori della mostra scientifica del Festival of Britain del 1951, dove si trovava esposto insieme alle celebri «tartarughe» elettroniche del cibernetico Walter Grey Walter (1910-77). Turing era tra i visitatori di questa esposizione delle meraviglie delle nuove macchine, giocò con il calcolatore e riuscì a batterlo. C’erano poi i programmi già ricordati dello stesso Oettinger, e quello più recente di Rochester, il quale, con John Holland (1929) e altri ricercatori, si era proposto di simulare su un IBM 701 la teoria sviluppata nel libro del 1949, The Organization of Behavior, dallo psicologo Donald Hebb (190485), per il quale l’apprendimento consisteva nel rafforza- 5. L’Intelligenza Artificiale ▼ modello teorico calcolo di alcune implicazioni del modello ▼ ▼ ▼ uso dei risultati per confermare, refutare o modificare il modello teorico Il ciclo metodologico proposto da Nathaniel Rochester nel 1955, in cui il calcolatore è usato per controllare la teoria dell’apprendimento di Hebb. esperimento per verificare se le predizioni sono corrette mento delle connessioni tra neuroni, o gruppi di neuroni, ripetutamente attivati. Al simposio si confrontarono posizioni diverse. La discussione con Pitts portava Oettinger a chiarire la sua affermazione circa il duplice interesse suscitato dal calcolatore digitale: nelle ricerche neurologiche, dove esso può essere usato per controllare teorie del funzionamento del cervello, e nella simulazione delle «funzioni mentali superiori», che può essere invece ottenuta senza simulare ciò che si sa o si ipotizza al livello della struttura biologica, cioè del cervello. La ricerca sulla simulazione delle funzioni suggerisce a sua volta i modi in cui migliorare le prestazioni di macchine come i calcolatori, tanto distanti dal cervello sul piano della somiglianza strutturale. Come esempio del primo tipo di ricerche Oettinger citava il programma simulativo di Rochester, che questi aveva presentato al simposio insistendo a sua volta sulla proposta metodologica di «usare i calcolatori automatici moderni per controllare certi aspetti di alcune teorie del funzionamento del cervello». Lo schema qui sopra riproduce il ciclo metodologico illustrato da Rochester, che va dall’implementazione sul calcolatore del modello di una teoria del cervello, all’estrazione delle implicazioni del modello, al loro controllo, all’uso dei dati per confermare, refutare o modificare la teoria: proprio il ciclo sperimentato sulla teoria di Hebb, che aveva dovuto subire alcune modifiche suggerite dal modello implementato sul calcolatore. Molto dibattuta al simposio fu la questione sollevata da Schmitt: se i calcolatori dovevano imitare la duttilità del ragionamento manifestata dal cervello umano, bisognava che ricorressero non alla rigida logica del sì e del no, o bivalente, ma a una logica sfumata, o «grigia», come egli diceva. In una breve polemica con McCulloch, infine, Minsky si di- Il ciclo metodologico di Rochester 623 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE L’omeostato chiarava scettico sullo stato dei modelli con «memoria distribuita», e rifiutava di ritenere, come gli veniva proposto, che un buon esempio di tali modelli fosse una macchina dotata delle semplici capacità auto-organizzative dell’«omeostato» del cibernetico William Ross Ashby (1903-72). L’omeostato, una delle più note macchine dell’era cibernetica, era descritta da Ashby (1952) come un sistema «ultrastabile», in grado non solo di autocorreggere il proprio comportamento (come i sistemi dotati di retroazione negativa o «stabili») ma anche di auto-organizzarsi, cioè di cambiare la propria organizzazione interna al fine di reagire in modo appropriato a un disturbo proveniente dall’ambiente. Strategie soddisfacenti Lo studio del comportamento decisionale nei giochi 624 Il simposio del 1955 si era svolto mentre Samuel completava l’implementazione su un calcolatore IBM 704 di un nuovo programma per la dama, destinato a rimanere una pietra miliare nelle ricerche sull’apprendimento automatico. Egli sviluppò alcune precedenti intuizioni di Shannon sulla programmazione degli scacchi, ma scelse la dama per la maggiore semplicità delle regole, che rendeva il gioco effettivamente trattabile al calcolatore. Lo studio del comportamento decisionale nei giochi ha svolto un ruolo di primo piano nella ricerca che è all’origine dell’IA, ed è dunque interessante ricostruirne con qualche dettaglio le premesse e i principali sviluppi. Shannon aveva cominciato a pensare a un programma su calcolatore per gli scacchi intorno alla metà degli anni Quaranta. Anche su questo argomento Turing aveva detto la sua: con Good, aveva simulato «a mano» un programma per gli scacchi che nelle caratteristiche fondamentali richiama quello di Shannon. Quest’ultimo, descritto nell’articolo del 1950 già ricordato, si basava sull’idea di valutare la mossa migliore attraverso un’analisi anticipativa delle mosse alternative del gioco, sulla base di una procedura nota come «minimax». Si tratta di una procedura che risale alle prime formulazioni della teoria matematica dei giochi, sulla quale aveva lavorato a partire dagli anni Venti anche von Neumann. Il giocatore di scacchi era diventato una metafora comune nell’analisi dei processi di decisione, trovando infine una formulazione rimasta classica nel libro che Von Neumann aveva pubblicato nel 1944 con l’economista Oskar Morgenstern, Theory of Games and Economic Behavior. 5. L’Intelligenza Artificiale CLAUDE ELWOOD SHANNON Matematico e informatico statunitense (Petoskey, Michigan 1916-Metford, Massachusetts 2001), Shannon è il fondatore della teoria dell’informazione, alla base della moderna comunicazione digitale. Durante il suo master presso il Dipartimento di Ingegneria elettrica del Massachusetts Institute of Technology (MIT) Shannon applicò la logica simbolica e l’algebra booleana alla progettazione di circuiti a commutatori, antenati dei circuiti integrati. I risultati principali di tale ricerca sono nella sua tesi A Symbolic Analysis of Relay and Switching Circuits, (che gli fruttò il premio Alfred Noble American Institute of American Engineers). La tesi di master di Shannon è considerata una pietra miliare nella teoria della progettazione dei circuiti integrati per i computer. Negli anni successivi, Shannon cominciò a sviluppare le sue idee sui sistemi di comunicazione dell’informazione in presenza di «rumore» che lo portarono, nel 1948, al suo lavoro più importante e punto di partenza della teoria dell’informazione: A Mathematical Theory of Communication. Shan- non arrivò all’idea rivoluzionaria della rappresentazione digitale dell’informazione (sia questa sotto forma di testo, o di immagine, o di suono, o di video), che si ottiene campionando la sorgente dell’informazione a una velocità appropriata, e convertendo i campioni in un flusso di bit. Shannon è noto anche per la sua inclinazione a progettare giochi e passatempi elettronici e connessi con l’intelligenza artificiale tra cui un programma per giocare a scacchi con il computer (fonte d’ispirazione per molti programmi di simile natura scritti in seguito). È diventato famoso il «topolino di Shannon», un dispositivo elettronico che cercava la strada in un labirinto e sembrava impararla attraverso errori e tentativi. Shannon ha anche applicato concetti di teoria dell’informazione all’economia, e in particolare al concetto dell’«investimento ottimale»: in questo caso il problema da risolvere è la massimizzazione di una funzione portfolio attraverso una scelta appropriata delle azioni, e il rumore sono le variazioni della borsa. Claude Shannon fotografato ai laboratori Bell nel 1954. La sua terminologia e i suoi modelli di teoria dell’informazione hanno mantenuto tutta la loro rilevanza anche a distanza di cinquanta anni. 625 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Nella loro terminologia, gli scacchi, al pari di altri giochi che abbiamo ricordato, come la dama, il nim o il filetto, sono «determinati univocamente». Un modo per rappresentarli è l’albero del gioco. Esso viene generato a partire da una posizione o un nodo iniziale considerando prima tutte le mosse lecite del primo giocatore (i nodi raggiungibili da quello iniziale applicando le regole del gioco), poi tutte le risposte dell’avversario e così via. Un giocatore perfettamente razionale, in effetti onnisciente, sarebbe in grado di «vedere» l’intero albero del gioco, e dunque di scegliere la migliore successione di mosse attraverso la valutazione delle conseguenze finali di ciascuna mossa alternativa: gli basterebbe assegnare valori distinti alle posizioni finali, corrispondenti alla vittoria, al pareggio e alla sconfitta; quindi risalire l’albero a ritroso apUN ESEMPIO DI ALBERO PARZIALE DEL GIOCO DEGLI SCACCHI +0,3 –0,1 –0,1 +0,6 –0,5 –7 –0,1 –7,3 +0,2 –6,3 –1,5 –6 +3,3 bianco La funzione di valutazione applicata a un albero parziale del gioco degli scacchi. L’albero si percorre a ritroso (nella figura, da destra verso sinistra). Le contromosse del nero (le linee tratteggiate) che procurerebbero al bianco la vittoria o il vantaggio maggiore hanno i punteggi più alti, sotto forma di numeri positivi più grandi, mentre le contromosse del nero che porterebbero il bianco alla sconfitta o a posizioni di svantaggio maggiore hanno i 626 nero punteggi più bassi, sotto forma di numeri negativi più grandi. Assumendo che il nero, al fine di minimizzare il vantaggio del bianco, scelga una delle tre mosse con numeri negativi più grandi, si assegnano questi ultimi alle tre possibili mosse alternative del bianco (le linee continue). A questo punto, la mossa migliore per il bianco è quella delle tre che, in quanto massimizza il proprio vantaggio, ottiene il punteggio più alto, in questo caso -0,1. 5. L’Intelligenza Artificiale livello 1 2 ✽ 3 le valutazioni verrebbero normalmente eseguite a questo livello livello precedente di valutazione plicando la procedura del minimax, stabilendo cioè a ogni nodo quale ramo lo porta a una posizione di vantaggio massimo per lui e minimo per l’avversario, fino a tornare alle alternative della sua prima mossa e prendere la decisione. Nella pratica questa strategia esaustiva o per «forza bruta» trova in generale una difficoltà insormontabile nell’esplosione combinatoria delle mosse possibili, addirittura più che astronomica nel caso degli scacchi, che Shannon calcolava nell’ordine di 10120. Egli propose perciò una prima modifica di questa strategia, consistente nel generare l’albero del gioco solo fino a una certa profondità, nell’assegnare determinati valori ai nodi così raggiunti e nel valutare a ritroso i cammini mediante una funzione di valutazione basata sulla procedura del minimax (si veda lo schema a fianco). Consapevole del fatto che una procedura simile era in generale radicalmente inefficiente, Shannon si pose il problema di come migliorarla, al fine di «sviluppare una strategia passabilmente buona per selezionare la mossa successiva», e ipotizzò di incorporare nel programma (più precisamente, nella funzione di valutazione) accorgimenti e criteri di selettività che rimandavano direttamente agli studi dello psicologo olandese Adrian de Groot su maestri di scacchi i quali riferivano le loro analisi «ad alta voce» durante il gioco. Lo studio più approfondito della possibilità di implementare la funzione di valutazione si deve a Samuel. Il suo obiettivo era di usare la dama per sperimentare le capacità di apprendimento delle macchine. Il programma di Samuel, prima di valutare una posizione, controllava in memoria se l’aveva già valutata, in modo da non perdere tempo a farlo di nuovo. Questa forma di apprendimento mnemonico, che abbiamo già visto sperimentata in semplici compiti da Oettinger, fu potenziata da Samuel in modo che la memorizzazione di una posizione valutata aumentasse le capacità anticipative del programma: quando (come mostra lo schema sopra), un nodo ter- L’apprendimento mnemonico nel programma per la dama di Arthur Samuel. Normalmente, la valutazione verrebbe eseguita fino al livello 3. Ma in questo caso alla posizione risulta assegnato un punteggio nel corso di una valutazione precedente, che è stato conservato in memoria. Ciò permette di migliorare la valutazione a ritroso. 627 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Copertina della quarta edizione di Administrative Behavior (Il comportamento amministrativo), pubblicato per la prima volta nel 1947, fondamento delle ricerche sul comportamento decisionale che fruttarono a H. Simon il premio Nobel per l’economia. 628 minale di un albero da esplorare in avanti coincideva con il nodo iniziale di un albero già esplorato, la cui valutazione era stata dunque memorizzata, la ricerca arrivava di fatto a una maggiore profondità, quella dell’albero già esplorato. Il riferimento di Shannon a De Groot suggeriva la possibilità di una strada sensibilmente diversa da quella tentata da Samuel, e consistente nell’affrontare il problema dell’esplosione combinatoria studiando più da vicino i processi umani della scelta. Ora proprio questi erano stati l’oggetto dell’interesse di Herbert Simon (19162001), studioso del comportamento decisionale e delle organizzazioni complesse nell’ambito della ricerca operativa, un’altra disciplina che, come la cibernetica e la scienza dei calcolatori, aveva avuto un forte impulso durante il secondo conflitto mondiale. Già in anni precedenti Simon aveva abbandonato l’impostazione normativa della teoria dei giochi, che consisteva nello studio della scelta o della strategia che l’agente, il cosiddetto «uomo economico», dovrebbe attuare al fine di massimizzare le possibilità di raggiungere una soluzione ottima. Egli aveva invece introdotto la dimensione psicologica nello studio della scelta, attraverso l’analisi del comportamento decisionale che l’agente normalmente attua, condizionato com’è tanto dai propri limiti interni, per esempio di memoria o di capacità di usare dati e conoscenze di cui dispone, quanto dalla complessità dell’ambiente in cui si trova a operare. Nello sviluppare questo punto di vista non normativo Simon pubblicava nel 1947 Administrative Behavior, il libro nel quale concludeva una linea di ricerca premiata molti anni dopo, nel 1978, con un Nobel per l’economia. Il giocatore di scacchi restava per Simon la metafora del comportamento dell’agente razionale, ma questa volta era descritto non sotto il profilo dell’astratta razionalità onnisciente dell’uomo economico, ma sotto quello della razionalità limitata del solutore di problemi reale, o «uomo amministrativo», come lo definiva Simon. I suoi limiti interni e la complessità dell’ambiente esterno, ben rappresentata dal gioco degli scacchi, non gli consentono di mettere in atto strategie ottimali, ma solo strategie parziali che risultano più o meno «soddisfacenti», secondo il termine di Simon. Queste idee di Simon furono all’origine, nel 1952, della sua ipotesi di un programma per gli scacchi che non fosse basa- 5. L’Intelligenza Artificiale to in modo cruciale sui perfezionamenti della funzione di valutazione di Shannon, ma piuttosto sull’implementazione di quelle strategie soddisfacenti che egli aveva considerato il cuore dei processi umani di soluzione di problemi. In quel periodo Simon già era in contatto con Allen Newell (192792), un fisico della RAND Corporation che si occupava di organizzazioni complesse. Newell aveva seguito i corsi del matematico George Polya, il quale, nel suo How to Solve It del 1945, aveva definito i processi della soluzione di problemi come «euristici», cioè basati sull’uso di indizi e di espedienti utili alla ricerca della soluzione: un’idea che richiamava molto da vicino quella della strategia soddisfacente di Simon. Newell ha raccontato di essere rimasto colpito da un programma che gli rese chiare le enormi potenzialità del calcolatore come macchina non numerica: Oliver Selfridge, già assistente di Wiener al MIT, aveva messo a punto nel 1954 un programma che era in grado di riconoscere configurazioni come lettere dell’alfabeto o semplici figure geometriche, tra i primi esempi di quella che si sarebbe chiamata pattern recognition. Decise allora di sperimentare le capacità di elaborazione simbolica del calcolatore con il gioco degli scacchi. Nel gennaio del 1956, tuttavia, Simon comunicava per lettera a De Groot che lui e Newell, accantonato il progetto Herbert Simon (in una foto del 1978) assieme al fisico Allen Newell e al programmatore Clifford Shaw ideò nel 1955-56 un programma per la dimostrazione di problemi di logica enunciativa, il Logic Theorist, cui sarebbe seguito nel 1958 il General Problem Solver. 629 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Un ricercatore della Ferranti di Manchester imposta sul computer un programma per il gioco degli scacchi: siamo nel 1955. del programma per gli scacchi, erano invece sul punto di concludere quello di un dimostratore automatico di teoremi della logica enunciativa. Nel frattempo, ai due si era aggiunto Clifford Shaw (1922), un abile programmatore. Come gli scacchi o altri giochi ricordati, anche la dimostrazione di teoremi poteva essere rappresentata come un albero. Ma si tratta di un albero (un «labirinto», come inizialmente si diceva) diverso da quello del gioco, dove vengono rappresentate le mosse antagoniste di due giocatori. Newell, Shaw e Simon ne diedero una formulazione che è all’origine di quella che poi sarebbe diventata nota in IA come la rappresentazione dello spazio degli stati. La ricerca della soluzione viene vista in questo caso come la ricerca di un cammino dell’albero che, attraverso l’appli630 5. L’Intelligenza Artificiale cazione di opportuni operatori, porta da un nodo (uno stato) assunto come iniziale a quello finale, la soluzione del problema. Come nell’albero del gioco, anche qui si ripresenta il problema dell’esplosione combinatoria. In teoria, se fosse possibile esplorare in modo esaustivo tutti i cammini a partire dallo stato iniziale, prima o poi si arriverebbe alla soluzione del problema (posto che essa esista). Basterebbe fissare l’ordine in cui esaminare i nodi, stabilendo così una procedura per trovare tutti i successori di un dato nodo: Newell, Shaw e Simon chiamarono questa procedura (o una sua variante) «algoritmo del British Museum». L’agente o il solutore di problemi reale non mette mai in pratica un algoritmo del genere, seguendo invece procedure che fanno uso di informazioni parziali o di indizi. L’idea dei tre autori era che un programma su calcolatore, per essere in grado di affrontare il problema dell’esplosione combinatoria, avrebbe dovuto incorporare tali procedure, qualificabili come euristiche. Il programma basato su questa intuizione era quello di cui Simon scriveva a De Groot: il Logic Theorist (LT), che arrivò a stampare una quarantina di teoremi del calcolo degli enunciati dei Principia mathematica di Bertrand Russell e Alfred Whitehead. Un’idea approssimativa di tale intuizione, che è risultata tra quelle più importanti della cosiddetta programmazione euristica, può essere data rifacendosi a una «versione modificata del LT», come Newell, Shaw e Simon definirono inizialmente, nel 1958, un successivo programma di dimostrazione di teoremi, poi chiamato General Problem Solver (GPS). Sulla base degli operatori, un insieme di regole della logica enunciativa, questa versione del LT trasformava una formula logica data come iniziale nella formula che rappresentava il teorema da dimostrare. Lo faceva individuando differenze tra le due formule e selezionando l’operatore adatto per eliminarle. Il ciclo trasforma-elimina la differenza-applica l’operatore, organizzato come una gerarchia di sottoprogrammi, poteva essere ripetuto più volte, evitando la generazione esaustiva delle formule e generando, in caso di successo, solo quelle progressivamente più simili alla formula cercata. Questa euristica, poi detta «mezzi-fine», si rivelò poi di portata molto generale, cioè applicabile anche ad «ambienti del compito», per usare l’espressione dei tre autori, diversi da quello della logica: di qui l’attribuzione di generalità al loro programma. Il Logic Theorist (LT) 631 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Le euristiche prima e dopo Dartmouth Il calcolatore JOHNNIAC FORTRAN, il primo linguaggio di programmazione di ordine superiore 632 Il calcolatore JOHNNIAC (JOHN Neumann Integrator and Automatic Computer) stampò la prima dimostrazione del LT nell’agosto del 1956. Il LT, tuttavia, aveva già svolto un ruolo da protagonista nell’ormai famoso seminario estivo organizzato nel giugno del medesimo anno da Minsky, Rochester, Shannon e dal matematico John McCarthy (1927). L’incontro, come si legge nella proposta presentata alla fondazione Rockfeller che decise di finanziarlo, aveva come obiettivo di esaminare «la congettura che ogni aspetto dell’apprendimento o qualsiasi altra caratteristica dell’intelligenza può in linea di principio essere specificata con precisione tale che diventi possibile costruire una macchina che la simuli». Il seminario si svolse a Hannover, nel New Hampshire, nello stesso Dartmouth College in cui, nel 1940, Wiener e Mauchly avevano assistito al funzionamento di una macchina di George Stibitz, all’epoca progettatore di macchine a relè molto avanzate. Erano passati sedici anni: il periodo più denso di eventi cruciali nella storia dei calcolatori e della scienza dell’elaborazione dell’informazione. Il seminario di Dartmouth fu la fucina dei programmi manifesto della Intelligenza Artificiale, come venne battezzata la disciplina i cui presupposti abbiamo individuato all’indomani dei primi sviluppi della scienza dei calcolatori. A Dartmouth furono presenti in momenti diversi i principali ricercatori già attivi nella progettazione di programmi per calcolatore con prestazioni «intelligenti»: oltre ai nomi dei promotori dell’incontro, abbiamo già ricordato Newell, Simon, Selfridge, Samuel. Dopo Dartmouth, si sarebbero formati i centri storici della ricerca in IA: alla Carnegie-Mellon University con Newell e Simon, al MIT con Minsky, alla Stanford University con McCarthy. In Inghilterra, l’eredità di Turing fu raccolta da Michie a Edimburgo, prima che la ricerca in IA decollasse in altri paesi europei. A Dartmouth gli autori del LT ebbero modo di discutere con McCarthy un aspetto della programmazione del LT che non era di poco conto: esso era scritto non in linguaggio macchina (cioè in successioni finite di cifre binarie, corrispondenti all’assenza o alla presenza di un impulso), ma in un linguaggio di livello superiore. Newell, Shaw e Simon si erano resi conto della difficoltà di scrivere programmi per compiti complessi direttamente in linguaggio macchina. L’esigenza di disporre di un programma che traducesse in linguaggio macchina le istruzioni formulate dall’operatore me- 5. L’Intelligenza Artificiale diante un linguaggio più vicino a quello naturale era avvertita da tempo. All’inizio degli anni Cinquanta progressi importanti in questa direzione erano stati fatti da Heinz Rutishauser e da Corrado Böhm a Zurigo. Nel 1954 un gruppo di ricercatori dell’IBM diretto da John Backus completava infine il FORTRAN (FORmula TRANslator), il primo linguaggio di programmazione di livello superiore. Quello di Newell, Shaw e Simon, lo IPL (Information Processing Language), aveva comunque caratteristiche tutte sue, tagliate su misura per gestire la complessità dei programmi euristici. L’ispirazione di fondo dello IPL, quella della programmazione a liste, fu ripresa nel 1958 da McCarthy nel LISP (LISt Processor), destinato a rimanere a lungo il linguaggio di elezione dell’IA. Il LT viene spesso presentato come il progetto che era allo stato di realizzazione più avanzato tra quelli discussi a Dartmouth, e come il primo programma di IA che facesse esplicitamente uso di euristiche. Prima del LT, tuttavia, esistevano programmi che incorporavano procedure che si sarebbero potute definire euristiche: prime tra tutte, quelle che consentivano al programma di Samuel di migliorare le pro- Il supercomputer JOHNNIAC, entrato in uso nel 1953 presso l’Institute for Advanced Study di Princeton (USA), e basato sopra un progetto di von Neumann. Rimase in uso fino al 1966. 633 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Il concetto di euristica L’euristica mezzifine del GPS 634 prie prestazioni nell’affrontare l’esplosione combinatoria delle mosse del gioco. Benché non fossero pensate con questa finalità, data l’estrema semplicità dell’ambiente del compito, si sarebbero potute definire euristiche anche le procedure selettive presenti nei programmi di Oettinger, il quale, pur senza usare quel termine, citava esplicitamente How to Solve It di Polya. Senza entrare nella disputa sui primati, va detto che il termine «euristica» conteneva all’origine una duplicità che poteva essere esplicitata tenendo conto di obiettivi diversi. Ed era proprio la diversità degli obiettivi a distinguere i due programmi più evoluti dei giorni di Dartmouth, il LT e il programma di Samuel. Newell, Shaw e Simon erano interessati prevalentemente a implementare sul calcolatore programmi che riproducessero i processi umani di soluzione di problemi. Anzi, proprio i limiti che il LT rivelava sotto questo aspetto indussero i tre autori a intraprendere il progetto del GPS, con il quale essi ritennero di aver raggiunto il loro obiettivo principale: quello di riuscire a confrontare non tanto la prestazione finale di un programma con quella di un essere umano, quanto e soprattutto i processi computazionali che costituivano il programma (la sua «traccia») con i processi impiegati dai solutori di problemi umani alle prese con un certo compito, così come era possibile ricavarli da un protocollo registrato mentre essi riferivano «ad alta voce» le loro mosse. Fu sulla base di protocolli del genere, per esempio, che venne studiata e programmata l’euristica mezzi-fine del GPS. Di più: valutando che il test di Turing riguardasse solo le prestazioni e non i processi, essi non lo accettarono come test definitivo dell’intelligenza delle macchine. Per loro il vero test era costituito dalla riuscita di un confronto dettagliato traccia-protocollo. Inoltre, il GPS, dal momento che si dimostrò capace di risolvere diversi tipi di problemi (di scacchi, di integrazione numerica e vari rompicapo), lasciava sperare di riuscire a riprodurre in un programma un’altra caratteristica dell’intelligenza umana, la sua versatilità in ambienti di compito diversi, con l’obiettivo finale di arrivare alla simulazione di una soluzione di problemi generale o integrata. Tutto questo era completamente estraneo all’obiettivo di Samuel, che era quello di costruire un giocatore automatico efficiente, indipendentemente dalla plausibilità psicologica in senso stretto dei processi selettivi implementati nel programma, e che tale restò nei successivi perfezionamenti che egli in- 5. L’Intelligenza Artificiale DEEP BLUE Deep Blue è a tutt’oggi la macchina più potente messa al servizio di un gioco, precisamente del gioco degli scacchi. Tale gioco ha impegnato i computer fin dalla loro nascita: Alan Turing (considerato il padre dell’Intelligenza Artificiale) già nel 1946-47 abbozzava le idee per un primo programma capace di giocare a scacchi. Il gioco, fra i più antichi del mondo, ha sempre mosso un notevole interesse presso le comunità di ricercatori che sviluppavano le moderne tecnologie dell’informatica. Le sue stesse regole, semplici e a un tempo sofisticate, che si basano su ragionamenti e strategie, formalizzabili in un programma per calcolatori, hanno probabilmen- te decretato il successo degli scacchi presso i ricercatori di tutto il mondo che, a più riprese, hanno costruito macchine capaci di giocarvi, e con ottimi risultati. Deep Blue è l’apice di questa ricerca: realizzato nel 1996 dall’IBM con processori Power 2 a 130 MHz è capace di esaminare 200 milioni di mosse al secondo e, nel 1997, si è aggiudicato un torneo scacchistico battendo il campione del mondo Kasparov, che l’aveva sconfitto l’anno precedente. L’inizio della partita fra Garry Kasparov e Deep Blue, un computer di grande potenza, nel 1997. 635 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE La programmazione computerizzata degli scacchi La teoria della complessità computazionale trodusse nel suo programma, fino a portarlo al punto che esso riuscì a battere al gioco il suo stesso autore e anche giocatori di ottimo livello. D’altra parte, è proprio su questa strada che si avviò la programmazione degli scacchi al calcolatore. Nonostante i successivi tentativi di Newell e Simon, allorché ripresero con Shaw il progetto di affrontare l’esplosione combinatoria con strategie selettive ispirate a quelle di giocatori umani, i veri progressi nella programmazione degli scacchi sono stati conseguiti con l’implementazione di algoritmi che esplorassero in modo efficiente e in profondità l’albero del gioco. Questo approccio è stato reso possibile dalla crescente velocità di elaborazione dei dati tipica dei calcolatori con circuiti integrati su alta e altissima scala delle ultime generazioni. Ma non va dimenticato che i successi di un supercalcolatore come Deep Blue, che nel 1997 ha battuto il campione del mondo Garry Kasparov, sono dovuti, oltre che alla velocità nell’analisi delle mosse, soprattutto alla capacità di gestire conoscenze relative al gioco. È un fatto, tuttavia, che la programmazione degli scacchi ha perso interesse per quanti, come Newell e Simon, avevano pensato ai calcolatori come a un laboratorio per studiare i processi umani della soluzione di problemi. L’idea che euristiche efficienti fossero indispensabili per rendere «trattabili» problemi teoricamente solubili in cui è presente l’esplosione combinatoria è stata alla base della cosiddetta teoria della complessità computazionale, sviluppata verso la fine degli anni Sessanta soprattutto dai lavori di S.A. Cook e R.M. Karp. Essi hanno fornito un quadro teorico per l’analisi di diversi problemi di decisione e di ottimizzazione posti in precedenza, come abbiamo ricordato, dalla teoria dei giochi. È nell’ambito della complessità computazionale che è stata sollevata la questione degli «ostacoli teorici all’IA», come in Theoretical Impediments to Artificial Intelligence (1974), di M.O. Rabin, che tuttavia è restata sempre piuttosto sullo sfondo della ricerca in IA. Simboli o neuroni? Alle origini dell’IA, due possibili accezioni del termine euristica contribuivano dunque a individuare due tendenze di ricerca ben distinte, le cui diverse aspirazioni hanno influito 636 5. L’Intelligenza Artificiale Una foto recente di Marvin Lee Minsky (nato nel 1927), uno dei padri dell’Intelligenza Artificiale: l’idea dominante nel pensiero di Minsky è quella di rendere un computer capace di manipolare non solo dati numerici, ma anche simboli di tipo linguistico per la comprensione di forme di ragionamento basate su analogie e sul senso comune. sulla successiva evoluzione della disciplina: quella rivolta alla simulazione più dettagliata possibile dei processi cognitivi umani e quella rivolta alla prestazione più efficiente possibile dei programmi, attraverso procedure anche «non umane». Nel 1961, discutendo un’esposizione del GPS data da Simon durante un seminario al MIT, Minsky tracciò una netta distinzione nella ricerca in IA proprio in questi termini, attribuendo al gruppo della Carnegie-Mellon, rappresentato da Newell e Simon, l’obiettivo della simulazione del comportamento. A sua volta Simon, riprendendo una distinzione già individuata nel mondo della ricerca sulle macchine intelligenti da Pitts prima di Dartmouth, insisteva che l’«imitazione della gerarchia di cause finali che chiamiamo mente», che caratterizzava ogni impresa dell’IA, si contrapponeva all’«imitazione del cervello», tipica della precedente tradizione della cibernetica. A questo proposito, dopo il simposio della IRE Convention del 1955, in cui Minsky aveva sollevato dubbi sull’efficacia dei modelli a memoria distribuita, si era tenuto a Teddington, nel 1958, il simposio sulla meccanizzazione dei processi del pensiero, al quale avevano partecipato neurologi e psicologi come R.L. Gregory, esperti di programmazione come Backus, cibernetici come Ashby, McCulloch, Imitazione del cervello o procedure non umane? 637 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Gli studi sull’Intelligenza Artificiale progredirono di pari passo con quelli sulle reti neurali, e si crearono fin dall’inizio due scuole di pensiero pro e contro le macchine a reti neurali, identificabili con le figure di Rosenblatt e Minsky. 638 Donald MacKay, Gordon Pask, protagonisti di Dartmouth come McCarthy, Selfridge e lo stesso Minsky. Nel suo intervento Minsky, dopo aver presentato l’emergente programmazione euristica come lo studio dei «processi sintattici che comportano la manipolazione di espressioni simboliche», esprimeva un radicale scetticismo verso i «modelli a reti neurali», e in generale verso i sistemi auto-organizzanti. Questa volta Minsky non si riferiva alla semplice auto-organizzazione alla Ashby, ma alle più recenti e progredite macchine a reti neurali con memoria distribuita, presentate allo stesso simposio. Tra queste c’era il Perceptron, ideato alla Cornell University da Frank Rosenblatt, una macchina che «imparava» a distinguere e classificare stimoli visivi. Nella sua versione più semplice presentata a Teddington, il Perceptron era composto di un unico strato di neuroni del tipo di McCulloch e Pitts, collegati in ingresso con un’unità sensoriale corrispondente a una retina e in uscita con due unità di risposta. I neuroni, o unità associative, avevano un «valore» (un «peso», come poi si dirà) variabile, cosa che consentiva alla macchina 5. L’Intelligenza Artificiale di migliorare la propria prestazione dopo una procedura di «addestramento». Nelle versioni più note del Perceptron, la procedura consisteva nel modificare dall’esterno il valore delle connessioni se la risposta della macchina non era quella corretta. Rosenblatt, in Two theorems of statistical separability in the Perceptron (1959), era straordinariamente ottimista sulle potenzialità della sua macchina, che a Teddington descrisse addirittura come «un analogo del cervello biologico [...] capace di idee originali». Sostenne anche che era una sterile pretesa quella di voler riprodurre le capacità del cervello attraverso i calcolatori digitali, «programmati per seguire regole», egli disse, dunque capaci magari di giocare più o meno bene a scacchi, ma certo non di migliorare le loro prestazioni spontaneamente, interagendo con l’ambiente. Era proprio questa la conclusione che Minsky attaccò: pur manifestando qualche forma elementare di adattamento e apprendimento, anche i modelli a reti neurali più evoluti come il Perceptron non erano in grado di eguagliare la programmazione euristica quando si trattava di riprodurre comportamenti cognitivi complessi. Minsky, in Some Methods of Heuristic Programming and Artificial Intelligence (1959), si dichiarava scettico anche nei confronti del Pandemonium, la nuova macchina descritta da Selfridge a Teddington, nella quale l’informazione veniva elaborata in parallelo da una gerarchia di unità dette «demoni». L’entusiasmo suscitato da tali modelli, dovuto essenzialmente a una loro maggiore somiglianza strutturale con il cervello «naturale» e a un certo parallelismo del loro funzionamento, per Minsky non era giustificato, data la loro dubbia capacità di manipolare strutture simboliche e concetti di ordine superiore. Sembrava difficile pensare seriamente che da cambiamenti, come egli si esprimeva, al «livello microscopico» in sistemi come le reti neurali potessero emergere cambiamenti significativi al «livello del comportamento manifesto», quelli che invece cominciavano a essere sperimentati con successo con i sistemi dotati di organizzazione gerarchica complessa come i programmi euristici per calcolatore. Di più: anche se si fosse riusciti a fornire a una rete neurale meccanismi per la formazione di concetti semplici, per catturare i processi superiori si sarebbe sempre dovuto ricorrere a sistemi euristici «formali o linguistici». Tanto valeva, concludeva Minsky, abbandonare lo studio delle reti neurali, e dedicarsi a «quella che alcuni di noi chiamano intelligenza artificiale». Le critiche di Minsky ai modelli a reti neurali 639 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Imitatori del cervello contro manipolatori di espressioni simboliche L’interesse degli psicologi per il Perceptron e il LT 640 Al simposio di Teddington si sanciva all’interno della comunità degli studiosi di macchine intelligenti quella divergenza di metodi e di obiettivi che abbiamo visto prendere forma prima della nascita ufficiale dell’IA a Dartmouth. Ciononostante, le due tendenze – quella degli «imitatori del cervello» e quella dei «manipolatori di espressioni simboliche» – convissero e si confrontarono in successivi incontri comuni: per esempio, nelle due conferenze interdisciplinari sui sistemi auto-organizzanti del 1959 e del 1961, che videro la partecipazione di tutti i principali protagonisti di Dartmouth e di Teddington. In particolare negli anni Sessanta, la ricerca sulle reti neurali continuò ad affiancarsi a quella dell’IA un po’ ovunque, ad opera di diversi ricercatori, come Albert Uttley, Wilfrid Taylor, Bernard Widrow (che erano stati relatori a Teddington), Eduardo Caianiello, Augusto Gamba, Karl Steinbuch. In molte ricerche sul Perceptron o ispirate a esso si sperimentarono regole diverse di apprendimento, simulazioni e anche realizzazioni elettroniche. Tanto le ricerche di Rosenblatt quanto quelle di Newell, Shaw e Simon non potevano non suscitare interesse nel mondo degli psicologi. La più diffusa rivista di psicologia americana, la «Psychological Review», pubblicò nel 1958 tanto la descrizione del Perceptron quanto quella del LT. L’articolo di Rosenblatt (1958) era sicuramente il più ostico, nonostante in quell’occasione egli esplicitasse i propri legami con quella che definiva la «posizione connessionista» di Hebb e di precedenti psicologi associazionisti. Benché la rivista continuasse poi a pubblicare altre ricerche sui Perceptron, fu il gruppo di Carnegie-Mellon che riuscì a ottenere l’eco più vasta tra gli psicologi, inserendosi con tempestività nel dibattito, che in quel momento li divideva, sui problemi del metodo sperimentale, della costruzione della teoria psicologica, del rapporto tra studio della mente e ricerca neurologica. Nel loro articolo Newell, Shaw e Simon (1958) tracciavano un ritratto efficace della psicologia dell’epoca, descrivendola come stretta nella morsa della «polarizzazione» tra comportamentismo e gestaltismo, che effettivamente era avvertita come paralizzante da molti psicologi. A costoro essi indicavano un itinerario inedito quanto allettante, che consisteva nel riconoscere la complessità dell’oggetto studiato, la mente, come richiedevano i gestaltisti, ma nel rivendicare nello stesso tempo la necessità di un suo studio scientifico, come invocavano i comportamentisti, attraverso un nuovo metodo di controllo operativo delle teorie psicologiche. Il punto di par- 5. L’Intelligenza Artificiale tenza era il calcolatore come macchina generale simbolica, con i suoi processi elementari di elaborazione dell’informazione, dai tre autori descritti come processi di lettura-scrittura-confronto di simboli, di associazione di simboli, di salto condizionato. Essi sono alla base di processi più complessi, quali le euristiche di un programma come il GPS, scritto in un opportuno linguaggio di programmazione. L’ipotesi, come mostra lo schema qui sotto, era che i processi elementari sono analoghi a quelli usati dagli esseri umani, e sono alla base dei processi umani di elaborazione più complessi, a loro volta euristici, desumibili dai protocolli verbali. Il successo del confronto tra tracce e protocolli, del quale abbiamo parlato, giustificava l’ipotesi, e dunque l’impresa stessa della psicologia come scienza: la simulazione dei processi cognitivi al calcolatore. Proprio la costruzione di programmi siffatti, che potevano essere considerati veri e propri modelli di attività cognitive, offriva allo psicologo il nuovo metodo di controllo operativo della teoria, nella versione del ciclo epistemologico «costruzione della teoria-controllo-modifica» in fondo già indicata da Rochester. Un esempio dell’applicazione di tale metodo era l’abbandono del LT per una sua «versione modificata», il GPS. Questa proposta dava agli psicologi la sensazione di aver trovato un loro posto al sole, secondo l’espressione di Edwin Tolman: la psicologia era finalmente autonoma dalla neurologia, e per una buona ragione. Dal momento che i processi elementari possono essere realizzati in sostrati fisici diversi, il cervello e l’hardware del calcolatore, confronto della traccia con il protocollo GPS ▼ ▼ ▼ ▼ comportamento umano nella soluzione dei problemi Il funzionalismo della prima IA: i processi dell’informazione possono essere realizzati da strutture materiali diverse, il sistema nervoso umano e l’hardware del calcolatore. teoria dell’elaborazione dell’informazione neurofisiologia sistema nervoso a questo livello non c’è alcuna corrispondenza diretta ▼ ▼ processi elementari dell’informazione hardware del calcolatore linguaggio di elaborazione dell’informazione per il calcolatore 641 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE il potere causale della struttura fisica sulla mente è indipendente dalla specifica realizzazione o «instanziazione» di tale struttura nel cervello biologico. Non è previsto confronto al livello delle diverse strutture, secondo l’ipotesi funzionalista che abbiamo visto implicitamente già formulata molti anni prima, ai tempi delle prime discussioni sul «pensiero meccanico». Dopo gli anni bui del comportamentismo, la mente era riconsegnata agli psicologi dai costruttori di macchine. L’uomo, visto come elaboratore di informazione simbolica, diventava il protagonista della nuova Information Processing Psychology: la psicologia della elaborazione dell’informazione. Approcci semantici La Geometry Theorem Machine Il funzionamento della Geometry Machine 642 Uno dei programmi di IA concepito nei giorni di Dartmouth si era proposto di affrontare il problema dell’esplosione combinatoria con uno stile sensibilmente diverso da quello della rappresentazione dello spazio degli stati. Si trattava della Geometry Theorem Machine, un programma che girò poi nel 1959 su un IBM 704, scritto in una versione modificata del FORTRAN da Herbert Gelernter (1929) e da altri programmatori del gruppo di Rochester. La macchina dimostrava un discreto numero di teoremi di geometria piana euclidea, ricorrendo a uno stratagemma già indicato da Minsky a Dartmouth, dove Gelernter era stato presente. Nei programmi della prima IA che giocavano o dimostravano teoremi, il significato dei simboli era considerato ininfluente. Nel GPS, per esempio, tutto si riduceva a un puro e semplice pattern matching: si confrontavano cioè strutture o configurazioni fisiche di simboli diverse (in effetti, formule ben formate della logica enunciativa) consistenti in lettere e in segni come «», «→» e così via (i connettivi logici), e si applicavano operatori per eliminare certe differenze tra tali strutture, «come se [queste] fossero pezzi di legno o metallo», come diranno poi H.A. Simon e L. Siklossy in Representation and Meaning (1972). A dare il significato ai simboli manipolati dal programma era il programmatore. La novità della Geometry Machine era che, pur applicando per dimostrare un teorema l’euristica mezzi-fine nella forma della scomposizione del problema in sottoproblemi più semplici, nel guidare la ricerca non usava, come il LT o il GPS, solo metodi cosiddetti «sintattici» di pattern matching tra enunciati. La macchina disponeva di una figura geometrica (codificata come un elenco di coordinate) corri- 5. L’Intelligenza Artificiale NOAM AVRAM CHOMSKY Linguista statunitense, nato a Philadelphia (Pennsylvania), nel 1928, è considerato uno dei più importanti studiosi della linguistica moderna. A Chomsky si deve la teoria della grammatica generativa, enunciata per la prima volta in Syntactic Structures (1957, Le strutture della sintassi). Con la grammatica generativa Chomsky si propone di formulare un insieme limitato di regole che comprenda tutte le possibili (e forse infinite) intuizioni con cui i parlanti distinguono naturalmente nella loro lingua nativa le frasi grammaticalmente corrette da quelle sgrammaticate e individuano quelle interpretabili in modo duplice o ambiguo. Dagli anni Settanta Chomsky ha indirizzato i suoi studi alla definizione di una «grammatica universale» in grado di individuare alcuni principi generali applicabili a un numero elevato di lingue e di spiegare i meccanismi che hanno prodotto forme grammaticali diverse da quelle fondamentali. Noam Chomsky, oltre che per i suoi studi di grammatica generativa e di logica, ha attratto l’attenzione dei media con le sue posizioni pacifiste e la critica serrata al capitalismo statunitense. spondente all’enunciato del teorema; quando generava un sottoproblema, lo confrontava con la figura, e lo scartava subito se risultava incompatibile con essa: «se volete, [qui] sta la nostra intelligenza artificiale!», concludeva Gelernter (1959). Successivi esperimenti convinsero gli autori della Geometry Machine che essa poteva addirittura competere con un essere umano in una forma «ristretta», come essi dicevano, del test di Turing, limitata cioè alla dimostrazione di teoremi della geometria. Il motivo di tale entusiasmo è presto detto. Si riteneva che la Geometry Machine usasse un’interpretazione semantica degli enunciati per con643 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE La copertina del testo di Hubert L. Dreyfus, nell’edizione del 1995 con il titolo modificato: Quel che i computer non possono ancora fare. La prima edizione venne pubblicata nel 1972 con il titolo Quel che i computer non possono fare e avanzò le prime critiche all’Intelligenza Artificiale. 644 trollare la ricerca: in fondo, non fa così anche un dimostratore umano? In effetti, l’approccio sintattico della prima IA era coerente con gli sviluppi prevalenti in un settore con il quale essa ha intrattenuto all’origine rapporti privilegiati, quello della linguistica trasformazionale di Noam Chomsky. Con il tempo tali rapporti diventarono sempre più conflittuali, eppure Simon (1991) ricordava ancora con piacere come nello stesso convegno dell’IRE al MIT del 1956, qualche mese dopo Dartmouth, mentre egli e Newell presentavano l’implementazione del LT, Chomsky esponeva i lineamenti della teoria linguistica che l’anno successivo avrebbe pubblicato in Syntactic Structures. Con questo libro Chomsky instaurò un vero e proprio primato della sintassi nello studio del linguaggio, un primato con il quale la successiva ricerca ha dovuto sempre fare i conti. I primi approcci alla manipolazione automatica del linguaggio naturale in termini di analizzatori sintattici delle frasi devono molto alle sue idee. D’altra parte, le strutture formali delle grammatiche trasformazionali non mancarono di attrarre l’attenzione di quanti lavoravano allo sviluppo dei linguaggi di programmazione e dei loro compilatori. C’era poi un settore della ricerca precedente alla nascita ufficiale dell’IA in cui gli aspetti computazionali della sintassi svolgevano un ruolo da protagonista, e i problemi semantici venivano deliberatamente accantonati: quello della traduzione automatica. Si trattava di un settore di ricerca nato quasi agli albori dei calcolatori digitali, che però trovò impulso nell’immediato dopoguerra soprattutto ad opera di Warren Weaver. Al calcolatore, come abbiamo visto già sperimentato nella decrittazione dei codici nel periodo bellico, in questo caso era assegnato un compito che non andava molto al di là della sostituzione, mediante un dizionario bilingue, di una parola con una equivalente, seguendo le regole della grammatica e riducendo la semantica, quando non se ne poteva fare a meno, allo studio di qualche regolarità statistica. Tra i primi a mettere in pratica questo tipo di approccio era stato Oettinger. Trasferitosi a Harvard, a partire dalla metà degli anni Cinquanta avviò un progetto per la realizzazione di una macchina per la traduzione dal russo all’inglese. Nel decennio successivo si attivarono centri di ricerca 5. L’Intelligenza Artificiale un po’ ovunque, in Europa occidentale, in Unione Sovietica, in Giappone. Nonostante la mobilitazione di risorse e l’entità dei finanziamenti, dopo qualche successo iniziale la traduzione automatica sembrava essersi arenata. Nel 1966, a seguito del cosiddetto rapporto ALPAC, negli Stati Uniti i finanziamenti furono interrotti. Lo stesso Oettinger, profondamente deluso, smise di occuparsi di traduzione automatica, se non per tornare a ribadire l’intrinseca impossibilità dell’impresa, firmando infine una sua prefazione a uno dei testi poi diventati un punto di riferimento per ogni critico dell’IA, What Computers Can’t Do, del filosofo Hubert Dreyfus (nato nel 1929). Ironia della sorte: Oettinger era stato uno degli obiettivi preferiti delle invettive contro il «pensiero meccanico» contenute in una precedente pubblicazione del 1961, questa volta di un ingegnere, Mortimer Taube, Computers and Common Sense: the Myth of Thinking Machines. La difficoltà che meglio riassume il motivo del fallimento di quella che veniva definita la «traduzione completamente automatica di alta qualità» è stata discussa da un altro pioniere del settore, Yehoshua Bar-Hillel. Possiamo esprimerla in questi termini. Data la frase «il cane si è inceppato», il parlante di lingua italiana sa che qui con «cane» ci si riferisce non all’amico dell’uomo, diciamo CANE1, ma al percussore, CANE2. Come potrebbe una macchina tradurre correttamente la frase in inglese, dove CANE1 è dog mentre CANE2 è cock, senza sapere ciò di cui si parla? Casi del genere possono moltiplicarsi a piacere, a conferma del fatto che una buona traduzione interlingua, ma in generale una buona comprensione delle lingue, non può prescindere dai significati suggeriti dal contesto e dalla conoscenza implicita nel lessico dei parlanti. Ora, è possibile o è invece da escludere, come concludeva lo stesso Bar-Hillel, che si riesca a rappresentare queste caratteristiche in un programma per calcolatore? L’idea di ricorrere a un modello che tenesse conto delle connessioni associative tra le parole di un dizionario per rendere più flessibile l’impiego del lessico maturò proprio nel contesto della traduzione automatica: tra gli anni Cinquanta e Sessanta la sperimentarono tra gli altri Silvio Ceccato, con le sue «sfere nozionali», e Margaret Masterman. A partire dalla tesi di dottorato del 1966 con Simon alla Carnegie-Mellon, M. Ross Quillian elaborò una proposta che si è rivelata tra le più feconde di sviluppi fino ai nostri gior- Il fallimento della «traduzione completamente automatica di alta qualità» 645 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Il concetto di «rete semantica» negli studi di Quillian Una rete semantica di M. Ross Quillian. ni: quella di «rete semantica». Obiettivo di Quillian era più in generale la costruzione di un modello della memoria semantica psicologicamente plausibile, che implementato in un calcolatore riproducesse qualche aspetto della capacità degli esseri umani di comprendere un testo e di ricavare inferenze da un insieme di conoscenze. È a questo punto che gli obiettivi dell’IA cominciarono ad allontanarsi da quelli di Chomsky. Secondo Quillian il suo modello dimostrava che l’insieme dei problemi legati alla comprensione di un testo, si trattasse di analizzarlo, tradurlo, o interpretarlo per rispondere a domande, in generale non si esauriva nella costruzione di un analizzatore sintattico: il problema cruciale era di «estrarre [dal testo] una rappresentazione cognitiva» circa il significato delle parole. Di qui il ruolo centrale attribuito alla memoria semantica. Questa era concepita da Quillian come una sterminata rete frammentata in «piani», porzioni di nodi della rete che rappresentano il significato di una parola del lessico, ovvero di una voce del dizionario. Per rappresentare (figura qui sotto), poniamo, il si- PLANT STRUCTURE AND GET 3 LIVE FROM 3 FOOD FOOD THING HAS-TO TO 7 KEEP LIVE LIVE 646 5. L’Intelligenza Artificiale gnificato della parola plant, che in inglese ha tre significati diversi, Quillian usava tre nodi diversi, detti «patriarchi»: PLANT (pianta, in italiano), PLANT1 (impianto) e PLANT2 (piantare). Essi erano collegati tra loro mediante «legami associativi», in modo da poterli esplorare in successione per decidere poi a quale significato di plant ci si riferisce in un determinato contesto. In un certo senso, si trattava di un meccanismo di disambiguazione con il quale si poteva affrontare la difficoltà indicata da Bar-Hillel. Infatti, a ciascuno dei tre nodi patriarchi corrispondeva un piano distinto, strutturato come una gerarchia di nodi subordinati al patriarca e collegati a loro volta da legami associativi ad altri nodi patriarchi appartenenti ad altri piani. Nello schema a fianco, il nodo patriarca PLANT è collegato da tali legami ai nodi subordinati STRUCTURE (struttura) e LIVE (vivo, vivente), e il piano corrispondente è delimitato da un rettangolo. A sua volta, ciascuno di tali nodi rimanda ad altri piani, che rappresentano il significato delle parole corrispondenti. In questo modo si stabiliscono legami associativi più diretti tra alcuni nodi che non tra altri, con il risultato, poniamo, che PLANT ma non PLANT1 risulta direttamente collegato con FOOD (cibo), e i due sono a loro volta collegati con LIVE: più o meno così CANE2, ma non CANE1, risulterebbe direttamente collegato con FUCILE. Il lavoro di Quillian venne pubblicato in una raccolta curata da Minsky nel 1968, Semantic Information Processing, insieme a una serie di ricerche svolte al MIT nella prima metà degli anni Sessanta, tutte centrate sulla rappresentazione della conoscenza. Alcuni programmi della raccolta sono rimasti molto noti, come ANALOGY di Thomas Evans, che riconosceva analogie tra semplici figure geometriche, STUDENT di Daniel Bobrow, che risolveva qualche problema di algebra elementare, SIR (Semantic Information Retrieval) di Bertram Raphael. Scritto in LISP, SIR era in grado di rispondere ad alcune domande che implicavano la conoscenza di semplici relazioni logiche, come l’appartenenza e l’inclusione insiemistiche, e di qualche loro proprietà, come la transitività dell’inclusione. Questo gli permetteva di ricavare un ridotto numero di inferenze, relative a un dominio molto ristretto, non esplicitamente codificate nella sua base di dati. La conoscenza era rappresentata internamente nel programma sotto forma di «schemi» (templates) prefissati del tipo «** è parte di **», dove le variabili ** sono nomi. Con tali schemi il programma con- La struttura della rete semantica Il programma SIR 647 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE La teoria del problem solving 648 frontava le frasi in inglese date in ingresso e, applicando regole di sostituzione e quantificazione delle variabili che occorrevano in essi, mostrava di «capire» frasi come «un dito è parte di una mano». Capire il significato di una frase, secondo Raphael, consisteva nel processo automatico che si riassumeva nel riconoscere gli oggetti della frase e nel collocarli nella relazione specificata. La possibilità di risolvere qualche semplicissima ambiguità attraverso questa procedura induceva Raphael e Minsky a concludere che approcci semantici di questo tipo avevano maggiori potenzialità rispetto a quelli sintattici sostenuti dalla linguistica, e anche a quelli basati sulla semplice ricerca euristica nello spazio degli stati. Gli «eccellenti risultati», osservava Minsky in Semantic Information Processing (1968), ottenuti dall’uso del modello semantico della Geometry Machine ne erano la prima dimostrazione. Anche Simon, in The Theory of Problem Solving (1972), era di questo parere. Il «semplice paradigma dell’albero della ricerca», come egli definiva ormai la ricerca euristica della soluzione nello spazio degli stati, aveva dato il meglio di sé, e i futuri programmi avrebbero dovuto avere la capacità di usare in modo sempre più esteso e raffinato l’informazione utile per la soluzione di un problema. D’altra parte, egli osservava come nei programmi che dovevano comprendere il linguaggio naturale la distinzione chomskiana tra competenza (la conoscenza astratta del linguaggio) e prestazione (la realizzazione di tale conoscenza in specifiche capacità linguistiche) tendeva a dissolversi. Una serie di ricerche svolte alla Carnegie-Mellon tra il 1965 e il 1969 documentava questo approccio, in quel momento sostanzialmente convergente a quello del MIT. Un programma di Stephen Coles, per esempio, usava l’informazione semantica contenuta in una raffigurazione corrispondente a una frase ambigua per decidere quale delle possibili analisi sintattiche della frase era quella corretta in relazione al contesto dato. Sistemi «ibridi» di questo tipo, per usare il termine di Simon, mettevano a frutto la lezione della Geometry Machine: essa non aveva una sola rappresentazione dello spazio della ricerca, quella dello spazio degli stati, ma ne aveva anche una seconda, sotto forma di uno «spazio semantico», quello delle figure geometriche, e la sua efficienza era dovuta all’uso delle due rappresentazioni. Il problema del controllo della ricerca, concludeva Simon, si legava ormai a quello della rappresentazione della conoscenza. 5. L’Intelligenza Artificiale Generalità e conoscenza Le prestazioni del programma ELIZA, implementato da Joseph Weizenbaum in quegli stessi anni al MIT, si basavano su una procedura simile al confronto di schemi di SIR: parole date in ingresso venivano associate con parole chiave codificate nella base di dati. Il programma riusciva così a colloquiare con un essere umano simulando il comportamento di uno psicoterapeuta. ELIZA è rimasto il più famoso tra i programmi di comprensione del linguaggio di quegli anni perché superò in qualche caso la solita «forma ristretta» del test di Turing: alcuni pazienti che interagirono con il programma lo scambiarono per un terapeuta umano. In un libro diventato molto popolare (Computer Power and Human Reason, 1976), Weizenbaum trasse da questo risultato conclusioni pessimistiche e persino preoccupate sull’utilità dell’impresa dell’IA. A questa discutibile forma del test di Turing è ispirato il premio Loebner, periodicamente assegnato a un calcolatore in grado di superarlo. Il programma ELIZA Anche la figura di Joseph Weizenbaum (nato nel 1923), il padre di ELIZA, va ad aggiungersi a quel gruppo di grandi informatici che, sulla scia di Oettinger, hanno cominciato a mostrare seri dubbi e preoccupazione nei confronti dello sviluppo dell’Intelligenza Artificiale. 649 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE I limiti dei programmi semantici degli anni Sessanta Il team originale del progetto DENDRAL venticinque anni dopo (foto del 1991): da sinistra a destra Bruce Buchanan, Georgia Sutherland, Edward Feigenbaum, il premio Nobel Joshua Lederberg e Dennis Smith. 650 Al di là delle valutazioni più generali di Weizenbaum, visti retrospettivamente questi programmi «semantici» degli anni Sessanta appaiono davvero poco semantici. Le prestazioni erano limitate a domini ridottissimi e la conoscenza era data implicitamente negli schemi o nelle parole chiave fornite dal programmatore. La stessa analisi sintattica consisteva in semplici procedure ad hoc. Le entusiastiche valutazioni che Minsky dava dei programmi contenuti nella raccolta del 1968 appaiono oggi esagerate, non meno della sua ottimistica previsione sugli sviluppi futuri, che come vedremo non andarono, e non potevano andare, nella direzione del semplice perfezionamento di questo tipo di esperienze. Tuttavia, pur nella loro rozzezza, questi programmi hanno posto per primi un’esigenza che costituirà uno dei baricentri della ricerca successiva in IA: quella di costruire sistemi in grado di gestire conoscenze sul mondo attraverso sue adeguate rappresentazioni. A metterne subito in risalto l’importanza per questo obiettivo fu un allievo di Simon, Edward Feigenbaum, in un intervento alla Information Processing Conference del 1968 in cui egli si proponeva di indicare le prospettive dell’IA del «successivo decennio». Dalla Carnegie-Mellon, dove sotto la supervisione di Simon aveva messo a punto un programma per calcolatore, noto come EPAM, che simulava i processi uma- 5. L’Intelligenza Artificiale ni della memorizzazione di sillabe prive di senso, Feigenbaum era approdato a Stanford, e i suoi interessi erano cambiati. A Stanford aveva incontrato Joshua Lederberg, Nobel per la genetica, e a partire dal 1965 i due avevano avviato un progetto destinato ad aprire all’IA una nuova dimensione applicativa, con conseguenze di tipo commerciale in quel momento imprevedibili. Come chiariva Feigenbaum nel presentare alla Information Processing Conference i primi risultati delle ricerche condotte con Lederberg, il loro progetto si collocava in quella che egli considerava «la tendenza principale dell’impresa dell’IA: la soluzione di problemi nel paradigma della ricerca euristica». Con una fondamentale differenza, tuttavia: l’ambiente del compito scelto non era quello dei problemi cosiddetti «ben definiti» e dei «problemi giocattolo» (toy problem) sui quali si era esercitata la programmazione euristica fino a quel momento, cioè la logica o i vari giochi e rompicapo. Al contrario, il loro programma affrontava un compito di particolare complessità: l’induzione e la formazione di ipotesi in un problema di natura scientifica, vale a dire l’individuazione della struttura molecolare di composti organici non noti. Il diagramma di flusso del programma si sviluppava in un ciclo che riproduceva l’osservazione dei dati, la formazione di ipotesi, la predizione e il controllo secondo la procedura canonica del metodo scientifico «baconiano», come lo definì Michie nella discussione che seguì l’esposizione di Feigenbaum all’Information Processing Conference. Nella sua versione originaria, il programma, scritto in LISP e battezzato DENDRAL (DENDRitic ALgorithm), era composto da un «Generatore di ipotesi» e da un «Previsore». Come chiariranno in seguito i suoi autori, queste due parti di DENDRAL rispecchiavano la filosofia «generalista» del GPS, nel senso che incorporavano il metodo più generale e, come allora si disse, più «debole» possibile della ricerca euristica come la concepivano Newell e Simon, quello del «genera-e-controlla». Il Generatore definiva lo spazio del problema di DENDRAL come uno spazio delle ipotesi, in modo del tutto analogo, osservava Feigenbaum, a un generatore delle mosse consentite di un programma per gli scacchi. La generazione delle ipotesi sulla struttura molecolare poteva essere esaustiva, basandosi su un algoritmo già individuato da Lederberg. A sua volta, il Previsore, che controllava le ipotesi e selezionava quelle plausibili, era definito un «esperto», ma un esperto molto generale: la sua competenza era la teoria della spet- Il programma DENDRAL 651 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Il capostipite dei «sistemi esperti» Ingegneria della conoscenza 652 trometria di massa. La novità del programma era che il Previsore non esaminava tutte le ipotesi prodotte dal Generatore secondo l’algoritmo di Lederberg, ma solo un suo sottoinsieme, selezionato da un «Processore di inferenze preliminari». Era questo il vero «specialista», poi definito come un pianificatore che opera sulla base di conoscenze e regole euristiche relative allo spettro di massa e ai costituenti atomici della molecola che si desidera individuare. DENDRAL è considerato il capostipite dei «sistemi esperti», come verranno subito chiamati quei sistemi di IA che impiegano estesamente conoscenze specialistiche per risolvere problemi complessi. Esso potrebbe essere visto come l’antagonista del GPS, che, nella forma originaria di solutore di problemi generale e integrato, si dimostrava ormai inattuabile. Non va dimenticato tuttavia che DENDRAL, nelle intenzioni dei suoi autori, rappresentava all’inizio uno studio sul nesso critico esistente tra generalità e potenza delle euristiche. La loro conclusione fu che le euristiche generali, i «metodi deboli», si dimostrano efficienti solo quando vengono associati a qualche euristica specializzata per un certo dominio di conoscenze. In questa forma, i metodi deboli continuarono a costituire gli elementi portanti di diversi sistemi di ricerca euristica in IA. Una parte della successiva sperimentazione su DENDRAL, per esempio, si è concentrata sullo studio dei vincoli da imporre al pianificatore. Michie, intervenendo nella stessa Information Processing Conference, qualificò DENDRAL un esempio di «ingegneria epistemologica». Feigenbaum ha raccontato poi di aver preferito l’espressione «ingegneria della conoscenza», che è ormai entrata nel gergo per qualificare uno dei punti critici della ricerca sui sistemi esperti: come trasferire in un programma di IA il patrimonio di conoscenza euristica che caratterizza un esperto umano. Feigenbaum ha raccontato anche la diffidenza che DENDRAL incontrò inizialmente presso i «generalisti», coloro che, anche senza aderire all’impostazione originaria del GPS, pensavano che il compito dell’IA fosse la ricerca dei principi generali dell’intelligenza che potevano essere trasferiti nelle macchine. Va detto comunque che prima dello sviluppo di calcolatori con grandi memorie a partire dagli anni Settanta, la gestione di basi di conoscenza estese come quelle richieste dai sistemi esperti non era un obiettivo perseguibile. Solo dopo quel periodo i sistemi esperti riuscirono a diffondersi nei settori più diversi, dalla medicina, alla geologia, all’ingegneria, all’istruzione assistita, e a 5. L’Intelligenza Artificiale trasformarsi spesso in altrettanti prodotti commerciali. Lo stesso Feigenbaum fondò in seguito una società per la progettazione e la vendita di software per sistemi esperti. Percorsi della logica Nel famoso libro Perceptrons, pubblicato nel 1969 da Minsky con Seymour Papert, che era approdato al MIT dopo diverse esperienze europee, i due, come si suole ripetere, assassinarono le reti neurali, dimostrando l’incapacità dei Perceptron alla Rosenblatt di discriminare stimoli visivi anche molto semplici. Su questo avremo modo di tornare. Al momento della pubblicazione di quel libro, tuttavia, non era entrata in crisi solo la proposta dei sistemi autorganizzanti e delle reti neurali, le cui prestazioni, come Minsky aveva previsto a Teddington, non andavano oltre la riproduzione di semplici attività di classificazione e associazione. In effetti, erano entrati in crisi anche un paio di stili di ricerca dell’IA, un paio di «paradigmi», come dicevano i loro protagonisti, e altri stavano per venire in primo piano, in un clima di contrapposizioni, scelte di campo e ripensamenti che ha caratterizzato l’IA di tutto il «successivo decennio», per riprendere l’espressione di Feigenbaum. Tra le posizioni generaliste che gli autori di DENDRAL respingevano non c’era solo il GPS, ma anche un programma di tipo generale di cui McCarthy aveva delineato il prototipo all’epoca del simposio di Teddington. L’Advice Taker, era questo il nome del programma, avrebbe dovuto essere in grado Un’immagine di Seymour Papert, il matematico americano di origine sudafricana, studioso di Intelligenza Artificiale e fondatore di una nuova didattica basata sull’uso del computer e su una rivoluzionaria concezione della matematica come strumento di apprendimento della realtà, della creatività e della bellezza da parte dei bambini. 653 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Computergrafica raffigurante una rete di cellule nervose sopra un microchip. Il biochip rappresenta una frontiera dello studio sui cyborg, organismi viventi i cui tessuti neurali sono interconnessi con elementi artificiali informatici. 654 5. L’Intelligenza Artificiale di elaborare piani e ricavare conseguenze sulla base di un corpo di conoscenze sufficientemente esteso, facendo anche uso di «consigli» provenienti dal programmatore. L’Advice Taker condivideva con il GPS l’aspirazione alla generalità, ma McCarthy insisteva sul modo uniforme in cui rappresentare la conoscenza che il sistema aveva dell’ambiente, inevitabilmente basata su credenze e aspettative o, come egli diceva, sul «buon senso». Tale conoscenza doveva essere rappresentata sotto forma di enunciati della logica predicativa assunti come assiomi o premesse, e le conseguenze dovevano essere ricavate mediante le regole di tale logica. Un primo tentativo di implementare almeno alcune caratteristiche dell’Advice Taker risale al 1964 e si deve a Fisher Black: Minsky lo includeva in Semantic Information Processing, avvertendo però che si trattava dell’«articolo meno “semantico” della raccolta». L’aspirazione alla generalità e a un meccanismo di deduzione uniforme che caratterizzava l’Advice Taker fu però ripresa esplicitamente solo dopo la formulazione di una nuova procedura di deduzione automatica, che inizialmente si rivelò particolarmente promettente. Si trattava del principio di risoluzione di J. Alan Robinson, che uno studente di McCarthy, Cordell Green, incorporò in un programma question answering, QA3, che era in grado di rispondere a domande su alcuni domini diversi. Alle spalle del risultato di Robinson c’erano gli studi di diversi ricercatori interessati a un tipo di dimostrazione automatica di teoremi che non aveva come obiettivo la simulazione dei processi umani, ma si richiamava a precedenti risultati di logici come Skolem, Herbrand e Gentzen. In particolare, Hao Wang aveva già ribaltato i calcoli di Newell, Shaw e Simon sull’efficienza delle euristiche del LT, implementando su un IBM 704, tra il 1958 e il 1959, tre procedure algoritmiche che in pochi minuti dimostravano buona parte dei teoremi del calcolo enunciativo e predicativo dei Principia mathematica. Le successive ricerche di Martin Davis e Hilary Putnam e di Dag Prawitz culminarono nel lavoro del 1965 di Robinson, nel quale si descriveva un calcolo logico senza assiomi ma con un’unica regola di inferenza, detta «risoluzione». Nella sua forma più semplice, la regola dice che da due formule ben formate costituite da sole disgiunzioni di formule atomiche o loro negazioni, A∨B e B∨C (le «clausole genitrici»), è possibile inferire il «risolvente» A∨C (la clausola consistente nell’unione dei costituenti non complementari delle clausole genitrici). L’Advice Taker Una nuova procedura di deduzione automatica 655 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Un ironico bozzetto dedicato al linguaggio di programmazione PROLOG. La riscoperta delle euristiche 656 Il calcolo di Robinson soddisfaceva un requisito importante, la completezza, ma la costruzione di un dimostratore automatico di teoremi con la sola risoluzione era in generale resa impossibile dall’esplosione combinatoria dei risolventi inutili o ridondanti generati dalla regola. Per alcuni anni la maggior parte della ricerca sulla deduzione automatica si concentrò sui cosiddetti «raffinamenti» della risoluzione, che vennero studiati soprattutto nella duplice forma delle restrizioni e degli ordinamenti da imporre alla generazione di particolari clausole. L’interesse per i raffinamenti è testimoniato dai numerosissimi articoli sull’argomento pubblicati su Machine Intelligence, la raccolta curata dal gruppo di Michie, che cominciò a uscire periodicamente dal 1967, e su «Artificial Intelligence», la prima rivista dedicata all’IA, pubblicata a partire da quello stesso anno. Questi periodici testimoniano però anche il cambiamento di rotta verificatosi nella prima metà degli anni Settanta, quando l’insoddisfazione per i risultati raggiunti dalla ricerca sui raffinamenti della risoluzione riaccese l’interesse per una dimostrazione di teoremi meno sensibile al requisito della completezza e più attenta alle procedure euristiche ispirate ai metodi umani di soluzione di problemi, meno sintattici e uniformi e più legati a conoscenze relative a domini specifici. W.W. Bledsoe è stato forse colui che, lavorando inizialmente sui raffinamenti, «passò dall’altra parte», come egli disse, con maggiore convinzione: il suo programma per dimostrazioni insiemistiche IMPLY si richiamava in parte all’impostazione euristica di Newell e Simon e di Gelernter. Questa riscoperta delle euristiche simulative non decretò tuttavia l’abbandono immediato della risoluzione: al contrario, più o meno nello stesso periodo in cui veniva data per spacciata, essa spianò la strada a un nuovo stile di programmazione, introdotto da Robert Kowalski e noto come «programmazione logica». Essa usa un raffinamento della risoluzione che è completo e insieme efficiente per una particolare e importante classe di formule, le clausole di Horn (dal nome del logico che le aveva studiate). Tale raffinamento venne presto incorporato nel PROLOG (PROgramming LOGic), il linguaggio di programmazione sviluppato nella prima metà degli anni Settanta in alcune università europee, anzitutto a Edimburgo e, con Alain Colmerauer, a Marsiglia. 5. L’Intelligenza Artificiale Problemi di buon senso La difficoltà nell’estendere le prestazioni di QA3 in presenza di problemi complessi e di basi di dati estese scoraggiò invece Green dal continuare a perseguire l’obiettivo di un sistema capace di rispondere a domande che fosse «generale, formale e deduttivo» (così egli si esprimeva pensando all’Advice Taker). Come ha osservato lo stesso McCarthy (1988), fu questa difficoltà relativa alle tecniche di controllo del ragionamento che portò all’elaborazione di programmi assai complessi come STRIPS (STandford Research InUn esperimento condotto al MIT (Massachussets Institute of Technology) con un sistema «mano-occhio» (foto del 1970). Si tratta di uno dei primi concreti esempi di automatismo robotizzato. 657 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Il programma STRIPS I sistemi hand-eye stitute Problem Solver) e i suoi successori. In STRIPS, progettato nel 1969 presso lo SRI (Stanford Research Institute) da Richard Fikes e Nils Nillson, la conoscenza era rappresentata ancora una volta mediante la logica del primo ordine e la deduzione era sempre affidata alla risoluzione, ma la pianificazione era effettuata tramite una versione evoluta dell’euristica mezzi-fine del GPS. Nel 1971, sempre presso lo SRI, gli autori di STRIPS, con la collaborazione di Raphael, impiegarono il loro programma come sistema di controllo di un robot che si muoveva in un ambiente reale, battezzato Shakey. Nel decennio precedente, a Stanford, al MIT, a Edimburgo, si erano sperimentate diverse linee di ricerca sulla manipolazione automatica di semplici blocchi disposti su un tavolo da parte di sistemi muniti di un braccio mobile e di una telecamera che forniva immagini a un calcolatore, i cosiddetti sistemi «mano-occhio» (hand-eye). Non erano mancati anche tentativi di costruire robot mobili. Shakey era però un robot che pianificava azioni sulla base di un programma per calcolatore, muovendosi in un ambiente molto delimitato in cui riusciva a evitare ostacoli e a spostare grossi cubi. Le sue prestazioni non furono comunque giudicate tali che il tradizionale sovvenzionatore delle ricerche di IA negli Stati Uniti, la DARPA (Defense Advanced Research Projects Agency), interessata in quel momento alle applicazioni militari della robotica, continuasse a finanziare il progetto. Un problema che aveva scoraggiato Green, e che il gruppo dello SRI era riuscito a rendere trattabile con STRIPS nell’ambito delle limitate prestazioni di Shakey, è diventato noto come il frame problem, formulato da McCarthy e Patrick Hayes, allora all’Università di Edimburgo (1969). Il frame problem si pone con particolare evidenza nella fase di esecuzioIl robot Shakey nel 1971: il primo a muoversi in un ambiente reale, compiendo gesti elementari, quali spostare solidi geometrici posti sul pavimento. 658 5. L’Intelligenza Artificiale ne di un piano, quando occorre considerare sequenze alternative di azioni, e mentre certe azioni contribuiscono a cambiare il contesto di partenza, altre lo lasciano inalterato. Poiché ci si propone di dare una rappresentazione formale della conoscenza del mondo, e poiché il mondo cambia durante l’esecuzione di un piano, è necessario descrivere sempre, mediante opportuni assiomi, i cosiddetti «assiomi del frame», anche gli aspetti di una situazione che non vengono modificati dall’azione. Procedendo nell’esecuzione del piano, la cosa si traduce inevitabilmente in una proliferazione di assiomi che, se può essere controllata nel caso dei soliti problemi giocattolo, risulta sempre incontrollabile nel caso di problemi che riguardano la complessità del mondo reale: un robot che si muove nel mondo fisico affronta un problema di questo tipo, e Shakey poteva affrontarlo solo perché si muoveva in un ambiente ben delimitato. Nell’articolo sul frame problem, tuttavia, McCarthy e Hayes ponevano una netta distinzione tra i problemi sollevati dal controllo delle inferenze, che venivano definiti «euristici», e i problemi relativi alla rappresentazione della conoscenza mediante un linguaggio formale, che venivano definiti «epistemologici». Con STRIPS si era dunque tentato di affrontare i problemi euristici. Ma l’interesse di McCarthy si è sempre diretto verso quelli epistemologici, la cui soluzione, o almeno corretta impostazione, sembra essere per lui preliminare alla soluzione degli altri. In questo senso, per McCarthy l’Advice Taker non è mai stato realizzato, e mai lo sarà se prima non saranno chiariti gli aspetti della logica necessari per catturare il carattere non monotono del ragionamento basato sul buon senso. In questo caso l’informazione da cui si parte è incompleta, o la situazione cambia, cosicché l’apprendere nuova informazione può provocare l’eliminazione di conclusioni precedentemente inferite, cosa che non può verificarsi nella logica tradizionale o monotona. L’esempio canonico contempla l’inferenza seguente: se x è un uccello (premessa), allora x può volare (conclusione); ma se mi accorgo che x è uno struzzo (ulteriore premessa), devo rivedere la conclusione raggiunta. È nell’approccio epistemologico al ragionamento non monotòno che si colloca la proposta della «circoscrizione» di McCarthy. Essa si presenta come una «regola per le congetture» che, in presenza di informazioni incomplete, come nel caso esemplificato, giustifica il fatto che «si salta» a certe conclusioni. L’idea è di circoscrivere come «anomale» le potenziali eccezioni a una si- Il frame problem Problemi euristici e problemi epistemologici 659 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Drew Mc Dermott (in una foto del 1998) ha ricercato soluzioni logiciste al problema della conoscenza basata sul buon senso, ma è poi pervenuto a criticare alcuni aspetti fondamentali di tale approccio. tuazione tipica, come quella descritta dall’enunciato «se x è un uccello, allora x può volare». In questo caso, la proprietà «non volare» risulta anomala rispetto a «essere un uccello», dunque viene circoscritta, assumendo cioè che abbia l’estensione più piccola possibile relativamente alle informazioni di cui si dispone. L’enunciato dell’esempio si riformula pertanto come la regola seguente: se x è un uccello, e x non è un uccello anomalo, allora x può volare. Il contesto epistemologico ha fatto da sfondo a tutta una serie di ricerche, definite poi «logiciste», sull’uso della logica come strumento per rappresentare la conoscenza basata sul senso comune. Non è stato chiarito però come le soluzioni proposte potessero fornire suggerimenti per la loro implementazione effettiva, in altri termini per la soluzione dei problemi euristici. Si è assistito così alla proliferazione piuttosto fine a sé stessa di ricerche su diverse forme di circoscrizione e regole non monotone, che ha provocato alla fine anche qualche defezione: è il caso di Drew McDermott, che ha abbandonato le ricerche sulla logica non monotona attraverso, per usare la sua formula, una «critica della ragion pura» logicista (A critique of Pure Reason, 1988). Risultati controversi si sono avuti anche nello studio di altre forme di logica: modale, temporale, fuzzy. Con quest’ultima, introdotta da Lofti Zadeh (e che ha trovato successivamente impreviste applicazioni industriali), si è pensato di poter catturare il carattere «sfumato» del ragionamento del buon senso: un problema, come si ricorderà, posto all’origine stessa della simulazione dei processi mentali con il calcolatore in termini di logica «grigia». 660 5. L’Intelligenza Artificiale Contro la logica Antitetica a quella logicista è stata la posizione sempre sostenuta da Minsky. Risale al 1975 la pubblicazione di un suo articolo (A Framework for Representing Knowledge) diventato così popolare da essere noto ormai come il «frame paper». In esso Minsky tornava a contrapporre il «nuovo paradigma» della rappresentazione della conoscenza al precedente «paradigma della ricerca euristica», proponendo una struttura dati che chiamò frame. Il nucleo dell’idea non era certo originale. Nozioni del genere, lo ricordava lo stesso Minsky, erano già popolari presso gli psicologi (lo «schema» di Bartlett, per esempio). Inoltre, per certi aspetti il frame si collocava tra gli sviluppi della nozione di rete semantica di Quillan, il più influente dei quali era in quel momento la teoria della «dipendenza concettuale» elaborata da Roger Schank, alla Yale University, con una impostazione ugualmente antichomskiana e antilogicista. Agli inizi degli anni Settanta la teoria di Schank sanciva i limiti insuperabili dei programmi di comprensione del linguaggio naturale del precedente decennio. Il modello negativo era per Schank ELIZA, «una collezione di trucchi», egli diceva, per far scimmiottare a un programma la comprensione del significato delle parole. Il suo obiettivo era quello di descrivere, attraverso processi computazionali che fossero psicologicamente plausibili, la comprensione del linguaggio come fenomeno cognitivo. Egli proponeva di individuare un piccolo insieme di nozioni elementari, le «primitive semantiche», con le quali poter costruire la rappresentazione del significato di qualsiasi verbo inglese. La frase veniva dunque analizzata attraverso l’esplicitazione della sua rappresentazione in termini di primitive semantiche. Infatti, era questo l’assioma centrale della teoria, due frasi che hanno lo stesso significato, anche se contengono parole diverse o sono diversamente costruite, condividono un’unica rappresentazione in termini di primitive semantiche. Così le frasi «l’uomo ricevette il libro» e «io diedi il libro all’uomo» possono essere rappresentate con una particolare rete in termini di un’unica primitiva semantica che definisce il trasferimento di possesso (trans nella terminologia di Schank, come si vede nello schema nella pagina successiva). La teoria di Schank aveva delle implicazioni importanti per la traduzione automatica, come dimostravano i primi programmi di Schank quali MARGIE e SAM. Le primitive se- Le critiche di Minsky al paradigma della ricerca euristica Passi verso la traduzione automatica 661 ▼ ▼ qualcuno uomo ▼ libro io ▼ trans ▼ ▼ uomo uomo ▼ a ▼ LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE da libro ▼ trans ▼ ▼ io ▼ a da La primitiva semantica trans di Roger Schank. Il programma di Schank 662 mantiche, ritenute comuni a tutte le lingue naturali, costituivano una sorta di «interlingua», e dunque l’abilità di tradurre frasi non era considerata diversa da quella di comprenderle o parafrasarle: essa si basa sempre sull’esplicitazione di una rappresentazione, in questo caso comune a frasi di due lingue differenti. Svanito il sogno originario della «traduzione completamente automatica di alta qualità», è a partire da queste esperienze che si è avuta la ripresa di diversi progetti di traduzione automatica. Fu quando Schank passò dalla costruzione di un programma che capisse (o traducesse) singole frasi a quella di un programma che capisse (o traducesse) interi brani che si trovò a dover fare i conti in modo ineludibile con i soliti problemi del buon senso: primo fra tutti, quello delle conoscenze necessarie per ricavare inferenze sensate dall’unione di diverse frasi, in modo da rendere esplicite credenze e aspettative sollecitate implicitamente dalla lettura del testo. Per affrontare questi problemi Schank, con lo psicologo di Yale Robert Anderson, elaborò in SAM (Script Applier Mechanism) il meccanismo degli script. Per darne un’idea, possiamo tornare al frame paper di Minsky. Il frame è diventato il prototipo delle varie nozioni affini, script inclusi, elaborate in quegli anni o negli anni successivi con l’obiettivo opposto a quello logicista, e cioè di affrontare il problema del buon senso con sistemi di rappresentazione della conoscenza psicologicamente plausibili. Ma non va dimenticato che i sistemi a regole di produzione sono stati usati da Newell e Seimn, lo accenneremo, con lo stesso obiettivo. L’interesse per il frame è comunque documentato fin dal suo apparire nei commenti di Fikes, Hewitt, Schank e altri in Schank e Nash-Webber. 5. L’Intelligenza Artificiale Per riprendere un esempio di Minsky, nell’aprire una porta all’interno di una casa che non ci è familiare, di solito ci aspettiamo di trovare una stanza con delle caratteristiche più o meno riconoscibili e prevedibili, che rimandano a un insieme di conoscenze organizzate sotto forma di prototipi. Le strutture-dati nelle quali riflettere questo modo duttile e insieme molto integrato di usare la conoscenza che è tipico degli esseri umani sono descrivibili per Minsky come sistemi di frame. Dunque, il frame stanza è un contenitore di dati che comprende, elencate in apposite «caselle» o slots, caratteristiche generiche come avere un certo numero di pareti e di finestre, un soffitto e così via. Potranno esserci vari tipi di stanze: da pranzo, da letto e così via, ciascuno dei quali costituisce a sua volta un frame con caratteristiche più specifiche, sempre elencate in apposite «caselle». E la camera da pranzo di Giovanni potrà essere ben diversa da quella di Maria in svariati dettagli, ma farà sempre parte di uno stesso tipo del frame stanza, del quale eredita le proprietà, secondo il meccanismo già presente nelle reti semantiche di Quillian. La descrizione di Minsky è per lo più intuitiva e talora oscura. Comunque, egli descriveva metodi che attivano o disattivano frame a diversi livelli di dettaglio, dando luogo alla possibilità di modificare credenze e aspettative frustrate quando le circostanze lo richiedono. Per esempio, il modo di affrontare le eccezioni tipico del ragionamento del buon senso o di quello non monotono è per Minsky ben rappresentato in un frame con il metodo dei default, i quali stabiliscono generalizzazioni che costituiscono credenze presunte fino a prova (o in difetto di informazione) in contrario: un default di stanza può essere il numero «uguale a 4» delle pareti, ma una stanza con una parete crollata resta sempre un qualche tipo del frame stanza. In un’appendice al frame paper, Minsky sferrava un duro attacco alle tesi logiciste, che a suo avviso, sviate dai falsi problemi della coerenza e della completezza, non erano in grado di affrontare il carattere olistico della conoscenza umana, per usare questa volta il termine impiegato da Daniel Bobrow e Terry Winograd a proposito del linguaggio per la rappresentazione della conoscenza KRL (Knowledge Representation Language), certo il più influenzato dall’idea dei frame. Sulla ragionevolezza della contrapposizione di Minsky tra rappresentazioni psicologicamente plausibili e rappresentazioni logiciste le valutazioni non sono state concordi. Una risposta dal fronte logicista è venuta inizialmente da Hayes, I sistemi di frame secondo Minsky 663 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Il programma SHRDLU 664 che ha tentato con discusso successo di tradurre in termini di logica del primo ordine il formalismo delle reti semantiche e dei frame, per dimostrarne la sostanziale equivalenza. Tuttavia, se per alcuni i frame non sono altro che insiemi di enunciati dichiarativi, per altri, più plausibilmente, essi, come gli script e altre nozioni analoghe, hanno suggerito un modo per superare la contrapposizione teorizzata da McCarthy tra problemi epistemologici e problemi euristici, e anche per ridimensionare la disputa tra «dichiarativisti» e «proceduralisti», che divise il mondo dell’IA degli anni Settanta (e attualmente, è stato detto, più dissolta che risolta). In breve, mentre per la tesi dichiarativista, sostenuta soprattutto dai logicisti, la conoscenza è in primo luogo «sapere che», e dunque consiste nel disporre di un insieme di fatti e di regole per inferirne altri, per la tesi proceduralista la conoscenza è in primo luogo «sapere come», e dunque consiste nel disporre di procedure per l’uso della conoscenza stessa. È possibile dotare i frame di procedure di quest’ultimo tipo, dette «collegamenti procedurali»: per esempio, nel frame stanza, si potrebbe collegare alla casella «numero delle pareti: uguale a 4» una procedura per riconoscere, quando le circostanze lo richiedessero, la parete di una stanza di forma circolare. Il programma che può essere considerato un esempio delle tesi proceduraliste è SHRDLU, realizzato da Winograd al MIT nel 1971 nell’ambito di un progetto per la comprensione del linguaggio naturale. SHRDLU è un robot simulato in grado di effettuare con grande coerenza azioni in un ambiente anch’esso simulato, in cui blocchi di forme e colori diversi sono disposti su un tavolo: un «micromondo», come venivano chiamati questi insiemi di solidi geometrici sui quali si esercitò molta IA di quegli anni. SHRDLU eseguiva correttamente diversi ordini, dati in ingresso in lingua inglese, di spostare certi blocchi sul tavolo, e dietro richiesta spiegava, in inglese, perché si comportasse in un modo piuttosto che in un altro. Era anche in grado di togliere ambiguità a ordini non chiari, rifacendosi al modo in cui erano disposti i blocchi in un dato momento, e chiedendo all’occorrenza conferma della propria interpretazione del contesto. Per fare ciò SHRDLU integrava l’analisi sintattica e quella semantica degli enunciati con un piccolo corpo di cooscenze sugli oggetti e le proprietà del micromondo. Con un approccio diverso da quello di Schank, diventava possibile trattare quegli stessi aspetti del significato inaccessibili ai programmi degli anni Sessanta, che, lo abbiamo visto, si basavano sul- 5. L’Intelligenza Artificiale blu rosso verde rosso verde blu rosso l’uso di confronto di schemi e di parole chiave. SHRDLU aveva infatti un modello interno del micromondo, e la conoscenza su di esso era rappresentata in forma non dichiarativa ma procedurale. A ogni parola del suo vocabolario corrispondeva cioè non una definizione esplicita, ma un breve programma, la cui esecuzione controllava se l’uso della parola nel contesto dato era o no corretto: in ciò consisteva il significato della parola stessa. La rappresentazione della conoscenza in forma procedurale tipica di SHURDLU era resa possibile dal MICROPLANNER, il linguaggio di alto livello impiegato. Si trattava di una sezione del PLANNER, ideato da Carl Hewitt al MIT nel 1971, in cui la parte relativa al controllo (o euristica nel senso di McCarthy) era per così dire integrata a quella relativa alla rappresentazione (o epistemologica). Il «micromondo» di figure solide geometriche del programma SHRDLU del 1971, fondato su procedure che definiscono la conoscenza partendo dalla procedura stessa, di modo che il computer acquisisca conoscenze non tanto sapendo quello che sta facendo, ma sapendo se quel che sta facendo è corretto in relazione alle caratteristiche di forma e colore (2 variabili) dell’oggetto con cui interagisce. La Visione Artificiale Una critica alla scuola dei micromondi, all’egemonia della rappresentazione della conoscenza, al proceduralismo e alla soluzione di problemi cognitiva, insomma all’intero per quanto discorde fronte della ricerca in IA degli anni Settanta, venne da David Marr (1945-80). Egli mosse le sue critiche lavorando in un settore a lungo ritenuto secondario in IA: quello della Visione Artificiale. Ancora oggi le idee di Marr, nonostante se ne vedano diversi limiti (ad alcuni accenneremo in seguito), sembrano segnare uno spartiacque nella breve storia della Visione Artificiale, e hanno lasciato tracce importanti in più recenti tendenze della ricerca cognitiva. La critica di Marr alle ricerche sull’IA 665 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Il MIT (Massachusetts Institute of Technology), il laboratorio statunitense di informatica e di Intelligenza Artificiale, dove hanno lavorato alcuni dei più importanti informatici del mondo, come David Marr. Invitato da Minsky e Papert, Marr arrivò al MIT dall’Inghilterra nel 1973, da neurofisiologo convinto che la visione fosse un argomento troppo complesso per essere affrontato con i metodi della sua sola disciplina. Al MIT c’era una lunga tradizione di ricerca sulla visione, legata agli interessi per la robotica che abbiamo ricordato, stimolati in particolare da Minsky. Dopo una falsa partenza, in cui la Visione Artificiale venne considerata un problema secondario e di facile soluzione rispetto alla ricerca dei principi generali dell’intelligenza, sembrava si fosse imboccata una strada promettente. All’inizio degli anni Sessanta, Larry Roberts era passato dallo studio del riconoscimento e della semplice classificazione di figure bidimensionali, in genere a forma di lettere, tipico della pattern recognition tradizionale, allo studio della descrizione di scene a tre dimensioni, quelle che deve saper decifrare un ro666 5. L’Intelligenza Artificiale bot. Questo comportava i difficili problemi dell’individuazione dei contorni di figure sovrapposte, della distorsione prospettica, della variazione di intensità luminosa, della tessitura. Egli usò solidi geometrici di varia forma, che erano rappresentati nei suoi programmi tramite le coordinate dei loro vertici. Il pionieristico lavoro di Roberts proseguì al MIT con le esplorazioni dei collaudati mondi di blocchi da parte di Adolfo Guzman, David Waltz, Patrick Winston. Marr respinse la strategia dei micromondi, perché non poteva essere estesa ai casi di scene più complesse come quelle della vita reale. Inoltre, giudicò che la maggior parte di queste ricerche condividesse la filosofia dell’IA di quegli anni: per mettere in grado un sistema artificiale di decifrare una scena, si era pensato di munirlo di rappresentazioni e di euristiche, insomma di conoscenza specializzata «dall’alto», che 667 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE David Marr ha dato inizio ai tentativi di realizzare sistemi artificiali in grado di «vedere» e di decifrare una scena. 668 esso avrebbe dovuto usare per riconoscere i componenti della scena stessa. L’idea di Marr, coerente ad alcuni risultati della ricerca neurofisiologica, era invece che sono le caratteristiche fisiche degli oggetti, non le conoscenze del sistema sugli oggetti, a guidare «dal basso» la loro identificazione nei primi due stadi della percezione visiva, che costituiscono la «visione primaria». Nel primo stadio il sistema estrae da un oggetto informazioni sulle proprietà dell’immagine bidimensionale, per esempio relative alla variazione di intensità luminosa, ottenendone uno «schizzo primario». Nel secondo stadio, sulla base di tale schizzo, il sistema elabora informazioni relative questa volta alla profondità e all’orientamento dell’oggetto, ottenendone uno «schizzo a due dimensioni e mezzo». Solo l’elaborazione di quest’ultimo in un «modello a tre dimensioni» dell’oggetto, il terzo stadio o della «visione alta», richiede l’intervento delle conoscenze generali in possesso del sistema, che lo guidano nell’identificare quale tipo di oggetto sia presente nella scena. Tommaso Poggio ha definito «ottica inversa» lo studio di questo processo di ricostruzione di immagini tridimensionali a partire da immagini bidimensionali. Nel libro pubblicato postumo, Vision, Marr sosteneva che la teoria computazionale della visione è interessata in primo luogo all’individuazione delle restrizioni fisiche e delle funzioni (che cosa si vuole computare), mentre la scelta del tipo di rappresentazioni e dei particolari algoritmi per manipolarle (dei programmi) interessano un altro livello di analisi (come si effettua la computazione). Questa distinzione corrispondeva secondo Marr a quella di Chomsky tra il livello della competenza e quello della prestazione. Il terzo livello previsto da Marr è quello dell’implementazione dell’algoritmo in un particolare hardware. Lo schema a fianco, che riassume le relazioni tra i vari livelli, permette fra l’altro di cogliere il rapporto di interazione esistente secondo Marr tra ricerca neurologica e ricerca in IA. I risultati della psicofisiologia e della neurologia possono influire sulla scel- 5. L’Intelligenza Artificiale ta di particolari rappresentazioni e algoritmi: un’interazione che supera la mera estraneità teorizzata comunemente dall’IA (si torni a vedere in proposito lo schema pagina 641). Sulla base di questa proposta teorica generale, che andava al di là dei problemi posti dalla visione in senso stretto, Marr criticò i principali protagonisti dell’IA degli anni Settanta: Winograd e i proceduralisti perché confondevano due livelli, quello computazionale e quello algoritmico (per quanto essi lo facessero volutamente, come abbiamo visto); Schank e Minsky perché lavoravano esclusivamente sui meccanismi della rappresentazione, dunque al livello algoritmico, trascurando quello computazionale; Newell e Simon perché, quando si illudevano di simulare il comportamento umano, in realtà lo «mimavano» attraverso procedure ad hoc, come diceva Marr, scegliendo anche essi il livello sbagliato. Molte delle critiche da lui sollevate finivano per toccare i punti Schema dell’approccio di Marr al problema della visione al computer. esperienza ordinaria ▼ ▼ problema rappresentazionale problema computazionale ▼ ▼ natura dell’informazione restrizioni e processi della teoria computazionale ▼ ▼ meccanismo nervoso specifico meccanismo nervoso specifico psicofisica ▼ ▼ ▼ ▼ ▼ algoritmo specifico (può essere programmato) ▼ ▼ rappresentazione specifica (può essere programmata) ▼ ▼ ▼ neurofisiologia e neuroanatomia 669 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE caldi della ricerca dell’IA di quegli anni, primo tra tutti la difficoltà di rappresentare la conoscenza con strutture come i frame o gli script non appena si usciva dai soliti micromondi: una difficoltà che, andando al di là della disputa tra logicisti e antilogicisti, riproponeva il problema della conoscenza basata sul buon senso, vera bestia nera dell’IA, e che finì per scoraggiare lo stesso Winograd dal proseguire le proprie ricerche. Vecchi e nuovi progetti Le critiche di Marr alla simulazione dei processi cognitivi L’«ipotesi del sistema fisico dei simboli» 670 Le critiche di Marr alla simulazione dei processi cognitivi avevano come oggetto la monumentale summa del 1972, Human Problem Solving, nella quale Newell e Simon avevano raccolto i risultati della loro lunga ricerca sull’argomento. Da un lato i processi di soluzione di problemi di singoli soggetti umani, desunti dai protocolli verbali, venivano studiati sotto forma di «microteorie» simulative (programmi o schemi di programmi che riproducevano tali processi con i maggiori dettagli possibili), dall’altro si definivano i lineamenti di una teoria generale dell’elaborazione dell’informazione, individuando una nozione di «sistema di elaborazione dell’informazione» (Information Processing System, o IPS) come «genere» di cui uomo e calcolatore sono due «specie» distinte. Infine, si sviluppava una particolare versione dell’idea di «regola di produzione», che nella forma generale «SE condizione, ALLORA azione», specifica la condizione in presenza della quale hanno luogo una o più azioni. Incorporate nei cosiddetti «sistemi di produzioni», regole di questo tipo sono state ampiamente sperimentate per rappresentare la conoscenza nei sistemi esperti, a partire almeno da MYCIN, un sistema esperto nella diagnosi delle malattie del sangue. Nel 1975 Newell e Simon, nell’intervento in occasione del Premio Turing, formularono un’ipotesi che può essere vista come il perfezionamento di quella dello IPS: l’«ipotesi del sistema fisico di simboli», secondo la quale condizione necessaria e sufficiente per attribuire intelligenza a un sistema, naturale o artificiale, è la sua capacità di trasformare espressioni simboliche in altre mediante regole. Tuttavia, gli interessi di Newell e di Simon andavano già da tempo divergendo. Newell continuò il lavoro sui sistemi di produzione, convincendosi che essi potevano suggerire un’architettura generale dell’intelligenza. La conferma gli parve di trovarla nel 5. L’Intelligenza Artificiale Una delle capacità che caratterizzano l’intelligenza naturale o artificiale è costituita dal processo di traduzione e trasformazione di certe espressioni simboliche (i dati che entrano nella testa) in altre (i dati in uscita) mediante determinate regole. 671 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Newell, Laird e Rosenbloom implementano SOAR Simon e le ricerche sui protocolli verbali 672 1984, quando con John Laird e Paul Rosenbloom cominciò l’implementazione di SOAR, pensato come un’architettura unica per ogni tipo di compito: i compiti erano formulati sempre come ricerca nello spazio del problema. SOAR procede dunque selezionando e applicando gli opportuni operatori che trasformano lo stato iniziale in una successione di stati che portano a quello finale, l’obiettivo o la soluzione del problema. Quando nel corso di questo processo si incorre in una impasse, dovuta per esempio alla difficoltà di decidere quale operatore applicare, SOAR genera un sotto-obiettivo, la cui soluzione lo libera da tale impasse. Essa viene aggiunta sotto forma di nuova regola alla lista delle regole, e costituisce un nuovo «pezzo» (chunk) di conoscenza, che in futuro potrà essere usato ove si riproduca quella stessa impasse. Il chunking è dunque un meccanismo di apprendimento che genera nuove regole, anzi l’unico meccanismo di apprendimento previsto dall’architettura. Il lavoro su SOAR, che come si vede riprendeva, e per certi aspetti radicalizzava, molti temi nei quali affondavano le radici dell’IA, assorbì Newell fino alla sua scomparsa. È tutt’ora continuato dal suo gruppo, sollevando molte riserve nel mondo dell’IA soprattutto per quanto riguarda l’utilità di assumere un’architettura unificata per l’intera attività cognitiva. Per Simon le questioni relative all’architettura cognitiva non hanno avuto un interesse preminente. Con diversi collaboratori, egli continuò fino alla sua scomparsa la sperimentazione sulla simulazione del comportamento umano, in particolare usando i protocolli verbali. Nello stesso tempo approfondì l’analisi dei processi della creatività scientifica, da lui già definita come una forma, per quanto complessa, di attività di soluzione di problemi. Con altri ricercatori, come Gary Bradhaw e Patrik Langley, collaborò alla costruzione di vari programmi che riscoprivano concetti e leggi di diverse discipline scientifiche. Si tratta per lo più di programmi che usano euristiche generali o deboli e basi di conoscenza ridotte. BACON rappresenta il caso estremo, molto vicino al GPS: riscopre le leggi di Keplero attraverso metodi generali che individuano regolarità presenti nei dati di cui dispone, senza fare riferimento né al loro significato né ad alcuna assunzione sulla loro struttura. Se consideriamo DENDRAL un programma per la scoperta, dobbiamo collocarlo all’estremo opposto. Un programma che in un certo senso si colloca in una posizione intermedia, sebbene oscillante, tra BACON e 5. L’Intelligenza Artificiale DENDRAL è AM (Automated Mathematician), sviluppato nell’area della scoperta matematica da Douglas Lenat verso la metà degli anni Settanta a Stanford. Per la verità, l’ispirazione originaria di Lenat sembrava agli antipodi dei sistemi esperti. Lenat si proponeva infatti di «tagliare il cordone ombelicale» che lega il programma all’esperto umano (il problema dell’ingegneria della conoscenza), per vedere se, o fino a che punto, il programma era in grado di apprendere incrementando gradualmente le conoscenze a partire da una base di conoscenza generale. Tale base di conoscenza era piuttosto ricca e, senza essere paragonabile a quella di un tipico sistema esperto, era tuttavia ben lontana dall’austerità di BACON. L’obiettivo era di approssimarsi, sottolineava Lenat, «all’ideale dell’interscambio tra generalità e potenza»: quasi un richiamo, questa volta, alla filosofia originaria degli autori di DENDRAL. Euristiche di questo tipo resero il programma capace di «riscoprire» numerosi concetti matematici, arrivando a formulare la congettura di Goldbach, che esso introduceva dopo aver «riscoperto» i numeri primi. Lenat si accorse che una delle ragioni fondamentali che impediva ad AM di compiere ulteriori progressi consisteva nella sua incapacità di introdurre, o «apprendere», nuove euristiche. Trasferitosi alla Carnegie-Mellon, egli si dedicò a un nuovo programma, EURISKO, che possedesse regole che Doug Lenat, il fondatore del CYC, un progetto che mira alla realizzazione di un programma dotato di buon senso nella fase di ricerca e di comprensione dei dati. 673 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Da AM a EURISKO Lenat e il programma CYC 674 lo mettessero in grado di introdurre non solo nuovi concetti, nello stile di AM, ma anche nuove regole euristiche, o «metaeuristiche». L’idea di un metalivello dove rappresentare le regole che il programma può usare per decidere quali regole del livello oggetto applicare, o in quale ordine, può essere vista come l’evoluzione dell’idea di controllo attraverso le euristiche della prima IA. Questa opportunità è stata sperimentata in sistemi come TEIRESIAS e SOAR. In altri casi, come nel sistema FOL di Richard Weyhrauch, la conoscenza metateorica viene trasferita al livello della teoria oggetto mediante «principi di riflessione», per rendere più efficiente la generazione delle dimostrazioni. Quando si parla di riflessione e di autoriferimento, inevitabilmente si è portati a pensare alla coscienza, un argomento sul quale, a parte alcune speculazioni su possibili architetture riflessive, l’IA non ha ancora prodotto risultati apprezzabili. Nemmeno l’approccio di EURISKO ebbe il successo sperato. Lenat ha discusso in modo molto spregiudicato i limiti di AM e di EURISKO. Alla fine si è trovato d’accordo con le conclusioni critiche alle quali era arrivato lo stesso Feigenbaum a proposito dei sistemi esperti: essi mancano della conoscenza generale che caratterizza il buon senso, cosicché le loro prestazioni, basate su conoscenze specialistiche, degradano rapidamente. Partendo da questa constatazione, Lenat ha avviato nel 1984 il programma CYC (enCYClopedia), un progetto a lungo termine talmente ambizioso da lasciare scettici molti sulla sua completa realizzabilità. CYC dovrebbe essere fornito di una base di conoscenza desunta da un certo numero di voci di un’enciclopedia e, inoltre, delle conoscenze generali del buon senso presupposte nella comprensione di tali voci. L’obiettivo (quasi la realizzazione del sogno di McCarthy) è di dare al programma tutta la conoscenza del buon senso necessaria per la comprensione di qualsiasi altra voce dell’enciclopedia. Inizialmente, a CYC si interessò la MCTC (Microelectronics and Computer Technology Corporation), un consorzio nazionale che avrebbe dovuto preparare la risposta americana al progetto giapponese dei calcolatori «superintelligenti» della quinta generazione programmati con il PROLOG (avviato nel 1982 con 855 milioni di dollari stanziati in dieci anni, tale progetto si avviò presto a un drastico ridimensionamento). Successivamente CYC, rappresentando la speranza in una generazione di sistemi esperti di concezione interamente nuova, ha suscitato l’interesse di diverse im- 5. L’Intelligenza Artificiale prese commerciali, che hanno stanziato in un primo momento un finanziamento di 25 milioni di dollari. In SOAR l’apprendimento ha un ruolo centrale, AM ed EURISKO sono programmi che apprendono attraverso la scoperta. Sono solo alcuni esempi di come nei primi anni Ottanta l’apprendimento costituisca un tema di primo piano nella ricerca di IA, dopo un lungo periodo in cui non era stato oggetto di esplorazioni sistematiche. La nuova tendenza è testimoniata dalla raccolta Machine Learning (1983) di R.S. Michalski, J.G. Carbonell e T.M. Mitchell, diventata poi una pubblicazione che periodicamente documenta l’estesa varietà delle attuali proposte sull’apprendimento automatico. Architetture a confronto: scienza cognitiva e neoconnessionismo L’ipotesi del sistema fisico di simboli non caratterizza certo in modo omogeneo l’impresa dell’IA. Considerata di volta in volta, dentro e fuori il mondo dell’IA, un eccesso radicale o un atto di fede o un’utopia, essa ha comunque sintetizzato le aspirazioni originarie dell’IA come scienza della mente, e ha influito, magari in forme variamente indebolite, sul- Elaborazione al computer di una rete neurale applicata a un microchip. Esistono diversi punti di contatto tra i risultati degli studi condotti negli ultimi anni sulle reti neurali e le ricerche sull’Intelligenza Artificiale. 675 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE L’impresa di creare un’Intelligenza Artificiale è ostacolata dalla complessità della materia affrontata: la mente, i suoi processi cognitivi e la possibilità di trasferirli in ambito scientifico e meccanico. 676 5. L’Intelligenza Artificiale l’evoluzione di una nuova disciplina, la scienza cognitiva. Questa ebbe la sua consacrazione alla Conferenza di San Diego, organizzata nel 1979 dalla Cognitive Science Society, che da due anni pubblicava già la rivista ufficiale della Società e aveva avuto generosi finanziamenti dalla Sloan Foundation. Alla Conferenza parteciparono psicologi, linguisti e filosofi, oltre a Minsky, Newell, Shank, Simon, Winograd: nella scienza cognitiva confluivano infatti molte delle ambizioni della Information Processing Psychology e dell’IA come scienza della mente, al punto che Simon, intervenendo alla Conferenza, arrivava a retrodatare al 1956 la nascita della scienza cognitiva. La nuova disciplina doveva ritagliarsi uno spazio autonomo nei sui rapporti con l’IA. Due libri, pubblicati quasi contemporaneamente da Zenon Pylyshyn e da Philip JohnsonLaird, tentano l’impresa. Vi sono alcune cose che i due autori condividono, insieme alla maggior parte dei ricercatori del campo. Entrambi sostengono l’idea generale della cognizione come computazione di strutture di simboli e rifiutano la metodologia del test di Turing, perché con essa ci si limita a considerare la prestazione senza tener conto dei processi cognitivi. Inoltre, entrambi si pongono il problema, da punti di vista diversi, di quali restrizioni imporre all’architettura cognitiva o ai processi cognitivi stessi: per esempio, i limiti di memoria, gli errori nella soluzione di problemi, i tempi di prestazione. Anche se la simulazione del comportamento è giudicata per lo più pura «mimica» nel senso di Marr, si avverte in queste tesi l’eredità della Information Processing Psychology dei vecchi tempi. Per il resto, l’approccio di Pylyshyn è molto diverso da quello di Johnson-Laird. Pylyshyn tracciava una distinzione tra i processi «cognitivamente penetrabili» e quelli «cognitivamente non penetrabili», che riguardano l’architettura cognitiva. Pur tra qualche incertezza, Pylyshyn sembrava muoversi nella direzione di Marr e di Chomsky, già portata alle estreme conseguenze nella concezione della mente sostenuta in quegli anni da Jerry Fodor. Questi aveva proposto un’architettura funzionale della mente in cui si distinguono i sistemi deputati alla percezione e al linguaggio, descritti come moduli non influenzati da credenze e conoscenze, dai sistemi «centrali», responsabili dei processi cognitivi superiori, per esempio della soluzione di problemi. La scienza cognitiva, come scienza computazionale della mente, può occuparsi solo dei primi, mentre quelli centrali, risultan- L’ipotesi del sistema fisico di simboli Sistemi percettivi e sistemi cognitivi superiori 677 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE La struttura dei «modelli mentali» Reti neurali e memorie associative 678 do cognitivamente penetrabili, cioè influenzati da credenze e conoscenze, le restano inaccessibili: si spiegano così i fallimenti dell’IA, che si è illusa di riuscire a rappresentare i processi centrali con strutture dati come i frame o gli script. All’opposto di Pylyshyn, Johnson-Laird elaborava la nozione di una nuova struttura dati, in cui rappresentare in forma analogica le conoscenze e le aspettative, anche soggettive, degli esseri umani: quella dei «modelli mentali», che egli aveva cominciato a sperimentare nel ragionamento sillogistico. Inoltre, estendeva i suoi interessi ad argomenti verso i quali Pylyshyn e molta scienza cognitiva dell’epoca restavano sordi: quello del ruolo della componente emotiva nella cognizione, o quello della coscienza, argomenti poi tornati in primo piano nella ricerca. Ma già Pylyshyn si trovava a dover contestare nel suo libro la validità di proposte di «nuove architetture della cognizione», alternative a quelle ispirate all’ipotesi dell’elaborazione simbolica, proposte dal cosiddetto «nuovo connessionismo». Pylyshyn si riferiva alla raccolta pubblicata nel 1981 da James Anderson e Geoffrey Hinton, Parallel Models of Associative Memory, che preannunciava la ripresa in grande stile delle reti neurali. Anderson, e con lui Teuvo Kohonen, Stephen Grossberg e altri ricercatori che abbiamo già ricordato, non avevano interrotto la ricerca sulle reti neurali. Inoltre, più di una proposta formulata dall’IA, per esempio il meccanismo di «attivazione diffusa» della memoria semantica di Quillan, aveva ispirato modelli dotati di un certo parallelismo. Ma almeno due eventi dovevano avviare una vera e propria rivincita di Rosenblatt. Nel 1982, in Neural Networks and Physical Systems with Emergent Collective Computational Abilities, John Hopfield mostrava come le reti neurali potessero funzionare come memorie associative. Nel 1986 David Rumelhart e i suoi collaboratori pubblicavano una serie di ricerche (Parallel Distributed Processing, Explorations in the Microstucture of Cognitions) ispirate a un approccio di «elaborazione distribuita in parallelo» (PDP) dell’informazione che mostravano come un algoritmo di apprendimento per correzione dell’errore, ormai noto come «retropropagazione» (backpropagation), permetteva di superare le principali limitazioni delle reti neurali dimostrate da Minsky e Papert nel libro del 1968. Queste si dimostravano effettivamente tali solo per le reti a uno strato interno, come il Perceptron semplice che abbiamo ricordato, non per le reti non lineari a più strati. 5. L’Intelligenza Artificiale Alla metà degli anni Ottanta risale anche la realizzazione di grandi calcolatori ad architettura parallela, con l’obiettivo di superare i limiti dell’elaborazione seriale dell’informazione tipica dei calcolatori con architettura alla von Neumann: la connection machine di David Hillis ne è l’esempio più noto. Calcolatori di questo tipo, come quelli del progetto APE guidato dal fisico Nicola Cabibbo, hanno conosciuto diverse applicazioni nel mondo della ricerca. I grandi computer ad architettura parallela L’Intelligenza Artificiale e gli enigmi della mente Le nuove reti neurali di Hopfield, diventate oggetto di studio dei fisici, si sono ritrovate nella famiglia dei sistemi dinamici complessi, primi tra tutti i vetri di spin, attualmente uno degli argomenti di punta della fisica. Inoltre, esse hanno conosciuto diverse applicazioni in problemi di ottimizzazione nella teoria della complessità computazionale. Nel clima di una rinnovata attenzione verso le neuroscienze, il libro del gruppo PDP sollevò invece reazioni di euforia soprattutto nel mondo degli psicologi cognitivi e dei filosofi, provocando tra i primi diverse conversioni al connessionismo e tra i secondi una ripresa del materialismo riduzionista, tradizionale avversario filosofico del funzionalismo. I filosofi sostenitori del materialismo riduzionista, come Herbert Feigl, J.C. Smart, D.M. Armstrong, avevano proposto tra gli anni Cinquanta e Sessanta la teoria dell’identità mente-cervello, stando alla quale uno stato mentale deve essere identificato con lo stato cerebrale corrispondente. Critiche a questa teoria furono sollevate soprattutto dopo la pubblicazione, nel 1960, dell’influente articolo di Putnam Menti e macchine. Il fatto che gli stati interni di una macchina di Turing potevano essere implementati su hardware diversi aveva suggerito a Putnam che anche gli stati mentali potevano essere realizzati in sistemi fisici diversi, non solo organici, come il cervello, ma anche inorganici, come un certo hardware di un calcolatore. Pertanto non aveva senso identificare stati mentali con stati cerebrali, e i predicati psicologici potevano essere compresi rifacendosi non alla loro realizzazione o instanziazione fisica, che poteva essere di volta in volta differente, ma alla loro organizzazione funzionale comune, cioè alle loro interazioni reciproche. Era questa, in sintesi, l’ipotesi del funzionalismo ispirato alla macchina di Turing. Essa era coerente con l’idea affermatasi con gli svilup- La teoria dell’identità mente-cervello 679 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Una corrente dell’Intelligenza Artificiale teorizza che vi sia una separazione tra stati mentali e stati cerebrali, ovvero tra mente e cervello. 680 pi della scienza dei calcolatori e della prima IA, secondo cui i processi dell’intelligenza possono essere studiati al livello del programma (della manipolazione di simboli), astraendo dalla natura specifica della struttura osservabile al livello fisico. Tuttavia, il funzionalismo che è diventato la filosofia popolare tra i ricercatori di IA e poi di scienza cognitiva ha avuto una sua evoluzione, e a volte esso è noto come funzionalismo computazionale. Un contributo importante in questa direzione è stato quello di Newell (1980-82). Riprendendo l’ipotesi del sistema fisico di simboli, egli introdusse un terzo livello di descrizione di un sistema artificiale, il livello della conoscenza, che collocò sopra i due tradizionali livelli teorizzati dall’IA, quello fisico (o dello hardware) e quello del programma (o dei simboli). Il riconoscimento del livello della conoscenza nella 5. L’Intelligenza Artificiale gerarchia dei livelli di descrizione di un sistema costituiva l’esplicitazione di una pratica comune tra i ricercatori di IA: quella di descrivere un sistema artificiale come un agente razionale, che elabora conoscenze per pianificare azioni in vista del raggiungimento di certi scopi o obiettivi. L’individuazione di questo livello non ha niente a che vedere con le distorsioni provocate dall’abuso di tale pratica denunciate da McDermott (1976). Come abbiamo visto, era stata la cibernetica a introdurre il linguaggio psicologico nella descrizione del comportamento di certi artefatti. Daniel Dennett (1942) aveva ripreso questa idea già sviluppata dalla filosofia della mente di matrice cibernetica, in particolare da MacKay, per dare una sua soluzione al problema dell’intenzionalità. Con la proposta dell’«atteggiamento intenzionale», egli ritenne di poter superare la tesi del filosofo Franz Brentano sull’incompatibilità tra spiegazione meccanicista, che riguarda il mondo fisico, e spiegazione intenzionale, che riguarda esclusivamente la sfera del mentale. L’atteggiamento intenzionale, in altri termini la scelta di un osservatore esterno di descrivere un sistema come intenzionale mediante il linguaggio psicologico o «mentalistico», è per Dennett legittimo, anzi indispensabile, per controllare e prevedere il comportamento di sistemi non solo naturali o organici, come gli esseri umani o gli animali, ma anche fisici o artificiali, come un calcolatore o un robot. Per esempio, quando si gioca a scacchi con un calcolatore, è scontato assumere l’atteggiamento intenzionale per prevedere le sue mosse, e infatti si dice che esso ha un certo «piano», o che ha lo «scopo» o l’«intenzione» di battere l’avversario e così via. La proposta di Dennett è diventata molto popolare tra i ricercatori di IA e di scienza cognitiva. Lo stesso Newell (1982) ritenne che il livello della conoscenza corrispondesse al livello dell’atteggiamento intenzionale di Dennett: in fondo, l’una e l’altra nozione dovevano molto alla descrizione del comportamento razionale data da Simon molti anni prima. Newell, tuttavia, sempre rifacendosi al sistema fisico di simboli, elaborò una sua proposta sul significato e sull’intenzionalità, che si presentava come una sistemazione della concezione del significato prevalente in IA. Dal suo punto di vista, la manipolazione sintattica (mediante regole) delle espressioni simboliche da parte di un sistema artificiale poteva essere considerata semantica in quanto è rappresentazionale, vale a dire che le espressioni si riferi- Il linguaggio «presentalistico» per l’Intelligenza Artificiale La proposta di Newell sul significato 681 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE La mente come «dispositivo sintattico» Il funzionalismo computazionale 682 scono a eventi del mondo perché, sulla base di regole, vengono trasformate nello stesso modo in cui si trasformano gli eventi del mondo. Assumendo questa ipotesi come base di quella che Newell definiva la «concezione computazionale della mente», la stessa mente era considerata, per riprendere un’espressione di Dennett, un «dispositivo sintattico» che imita o riproduce il funzionamento di un «dispositivo semantico». Nel libro che abbiamo ricordato Pylyshyn presentava il livello della conoscenza di Newell proprio come un livello semantico, quello dell’attribuzione di significato alle strutture di simboli, le quali costituiscono il livello sintattico, intermedio, anche qui, tra quello semantico e quello della realizzazione fisica. Si potrebbe discutere se le tre nozioni di Dennett, Newell e Pylyshyn siano effettivamente equivalenti sul piano esplicativo. Comunque, è stato Pylyshyn, seguendo Fodor, a riprendere il funzionalismo computazionale con il proposito di spiegare alcuni enigmi del problema mentecervello dibattuti dal comportamentismo e dal materialismo riduzionista. In effetti Pylyshyn (1984) tentava la difficile impresa di conciliare le idee di Fodor con quelle di Newell. Rispetto all’atteggiamento intenzionale di Dennett, che è una pura e semplice questione di scelta da parte dell’osservatore del sistema (naturale o artificiale), l’attribuzione di intenzionalità al livello semantico di Pylyshyn è giustificata dalla capacità propria del sistema stesso di elaborare strutture di simboli, una capacità che si ritiene tipica delle menti e dei programmi. Questo sembra escludere che semplici artefatti come quelli della tradizione cibernetica richiedano necessariamente una descrizione intenzionale. Per esempio, come può uno «scopo» o una «intenzione», appartenenti secondo Brentano alla sfera del mentale, essere causa di un evento fisico, come un’azione (o una successione di azioni) diretta a conseguirli? Se si pensa alla mente come al «dispositivo sintattico» che abbiamo ricordato, il calcolatore suggerisce come questo sia possibile: in questo caso, è la forma fisica delle rappresentazioni, in quanto strutture di simboli fisicamente realizzate o instanziate, non il significato o il contenuto intenzionale delle rappresentazioni stesse, a svolgere il ruolo causale del comportamento. Il contenuto di una rappresentazione potrebbe anche non esistere (l’obiettivo della ricerca del Santo Graal, poniamo), e tuttavia la forma o struttura della rappresentazione potrebbe svolgere il ruolo causale richiesto. 5. L’Intelligenza Artificiale Nel caso della mente, le strutture di simboli devono ipotizzarsi instanziate nel cervello. L’accusa di dualismo (di separare il mentale dal fisico) mossa qualche volta a questo tipo di funzionalismo è ingiustificata, dal momento che, come si vede, esso vuole tentare una soluzione materialista, ma non riduzionista, del ruolo causale degli stati mentali. Piuttosto, senza essere dualista, il funzionalismo computazionale della maggior parte dell’IA non considera cruciale la natura biologica della struttura fisica nella quale si realizzano gli stati mentali. È questa tesi, insieme a quella del ruolo causale dei simboli per l’intenzionalità, che è stata oggetto di critiche diverse. John Searle (1932) ha sostenuto che il ruolo causale delle rappresentazioni simboliche è un puro artificio, dal momento che l’intenzionalità manifestata da un programma è «derivata» dal cervello del suo artefice (del programmatore), l’unico in grado di avere intenzionalità «originaria». Questa tesi è stata tra le più discusse in IA come in scienza cognitiva. Il filosofo John Lucas aveva comunque sollevato già negli anni Sessanta obiezioni al meccanicismo ispirato alla macchina di Turing, le quali possono essere ricondotte alla tesi dell’incapacità delle macchine di manipolare la semantica e di manifestare «vera» (o «originaria») intenzionalità. La tesi di Lucas (ispirata ai teoremi sull’incompletezza di Gödel) è Un momento di una partita a scacchi tra uomo e computer. L’essere umano, quando si confronta con una macchina, è portato naturalmente ad attribuirle comportamenti intenzionali, quasi che il confronto fosse con un altro uomo. 683 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Le critiche al funzionalismo computazionale stata ripresa dal fisico Penrose (1989). Un’altra critica alla filosofia dell’IA e della scienza cognitiva, ormai definite «classiche» o «simboliche», è venuta dalla ripresa del materialismo riduzionista. Come si è accennato, essa si è verificata in sintonia con il rinnovato interesse per le neuroscienze sollecitato dal connessionismo. Neurophilosophy, il libro di Patricia Smith Churchland (1943), si proponeva di confutare la versione del funzionalismo computazionale ritenuta più radicale, quella di Pylyshyn. A giudizio della Churchland, la tripartizione dei livelli di spiegazione (semantico o della conoscenza, simbolico e fisico) è una semplificazione inaccettabile, basata su una «distinzione monolitica» tra struttura e funzione: in realtà, il loro numero non può essere astrattamente delimitato in anticipo, data la molteplicità dei livelli individuati dalla ricerca effettiva delle neuroscienze. Inoltre, la comprensione della struttura biologica (del cervello) può suggerire, e di fatto suggerisce, teorie dell’organizzazione funzionale. Infine, è solo un dogma che le rappresentazioni debbano avere una forma simbolica per poter ricoprire l’asserito ruolo causale nell’intenzionalità. La «neuroscienza computazionale» di Churchland e Sejnowski (The Computational Brain, 1992) fa sua questa posizione critica. Pylyshyn, d’altra parte, al Convegno della Cognitive Science Society del 1984 si era trovato a scontrarsi con Hinton e Rumelhart nel corso di un simposio dedicato a ConnesIl neurologo Terence Sejnowski è considerato un pioniere nel campo della neuroscienza computazionale. Sejnowski utilizza il computer per elaborare su larga scala i dati ottenuti studiando le connessioni nervose in modo da riprodurre elettronicamente il funzionamento delle cellule nervose umane. 684 5. L’Intelligenza Artificiale sionismo o regole, che sancì la spaccatura tra i sostenitori dell’approccio connessionista e di quello «simbolico» della scienza cognitiva e dell’IA. Con Fodor, Pylyshyn firmò poi un lungo saggio in cui si argomentava che le reti neurali non sono in grado di riprodurre le caratteristiche fondamentali dei processi inferenziali, e vanno viste semplicemente come una possibile architettura astratta sulla quale poter implementare i sistemi simbolici ad architettura classica o alla von Neumann. Questa tesi, sulla quale quasi non c’è stato ricercatore che non abbia trovato il modo di pronunciarsi, è restata un punto di riferimento delle principali critiche al connessionismo. Una rassegna parziale della disputa è data da Bechtel e Abrahamsen (Connectionism and the Mind, 1991), che introducono anche i principali argomenti della filosofia della mente di ispirazione connessionista. Passi diversi verso l’Intelligenza Artificiale Siamo alla fine degli anni Ottanta: il mondo della ricerca sulla mente e sulle macchine si presenta quanto mai diviso. Per darne un’idea, sceglieremo alcuni eventi che hanno caratterizzato lo scorcio di quel decennio, e permettono di rendersi conto dei principali orientamenti della ricerca fino ai nostri giorni. Nel 1987, al workshop sui fondamenti della IA che si svolge presso il MIT, si confrontano le tendenze più influenti dell’IA, attraverso una serie di relazioni e controrelazioni molto accese. La rivista «Artificial Intelligence» le pubblicava nel 1991, e David Kirsh, in Foundation of Artificial Intelligence (1991), riassumeva efficacemente in cinque punti le assunzioni generali sulle quali si erano confrontati e divisi i partecipanti al workshop. Essi erano: 1) la centralità delle regole e della rappresentazione della conoscenza; 2) il disembodiment, ovvero lo studio della cognizione astraendo dalla percezione e dal controllo motorio; 3) il carattere linguistico (in primo luogo logico-matematico) della descrizione dell’attività cognitiva; 4) lo studio dell’attività cognitiva astraendo dall’apprendimento, dallo sviluppo cognitivo e dai cambiamenti evolutivi; 5) l’unicità dell’architettura per l’intera cognizione. Secondo Kirsh, tra i diversi partecipanti al workshop, i logicisti, interessati alle teorie formali del buon senso e delle credenze, accettano le prime quattro assunzioni, che invece sono respinte dai connessionisti; gli uni e gli altri restano Le divisioni tra i ricercatori dell’Intelligenza Artificiale 685 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Alcuni dei componenti dello staff di studiosi che partecipa al progetto CYC sull’Intelligenza Artificiale: scopo del progetto è costruire una base di conoscenza universale per dotare i computer di senso comune. 686 comunque neutrali sulla quinta assunzione. L’unicità dell’architettura è portata in primo piano dal gruppo di SOAR, insieme alla centralità dell’apprendimento nello studio della cognizione. Questi due punti non costituiscono invece le premesse del progetto CYC. Altri programmi di ricerca possono ritrovarsi in qualcuna o nessuna delle cinque assunzioni: per esempio, la cosiddetta «IA distribuita», riproposta al workshop da Hewitt e Les Gasser da punti di vista diversi, o la robotica di Rodney Brooks. L’IA distribuita, nata ufficialmente al Convegno americano a essa dedicato nel 1980, ha alle spalle l’evoluzione dei sistemi a blackboard, una base di dati condivisa da diversi moduli cooperanti deputati a conoscenze specialistiche. HERSAY II, progettato negli anni Settanta alla Carnegie-Mellon come sistema per il riconoscimento del parlato, è considerato tutt’ora uno degli esempi meglio riusciti di questo genere di architetture, sperimentate anche in alcuni sistemi esperti. L’IA distribuita ha insistito sull’aspetto cooperativo della gestione della conoscenza, ma anche sulla dimensione sociale della conoscenza e dell’azione, punti importanti quanto trascurati dalla ricerca precedente. Al workshop, Gasser discuteva l’effettiva novità della proposta di Hewitt, il quale dava una formulazione dell’IA distribuita che si rifaceva ai suoi «sistemi aperti», così detti perché, al fine di tener testa 5. L’Intelligenza Artificiale alle informazioni parziali di cui dispongono, devono cooperare collettivamente anche attraverso l’applicazione di diversi criteri e strategie di soluzione di problemi. Da parte sua, Brooks, con lo slogan «conoscenza senza rappresentazione», riassumeva al workshop la filosofia implicita nei nuovi robot da lui costruiti al MIT. L’obiettivo polemico dello slogan di Brooks era l’approccio detto «dall’alto» alla robotica, quello che privilegia le capacità deliberative (ragionamento, pianificazione) e la rappresentazione della conoscenza, mettendo in secondo piano l’integrazione di queste capacità con le diverse modalità senso-motorie. L’approccio dall’alto aveva suggerito a molti ricercatori di IA che il problema dell’interazione di un robot con l’ambiente reale poteva essere risolto quando si fosse trovato il modo di fornirgli un adeguato modello del mondo. In altri termini, si trattava di studiare anzitutto come rappresentare in un programma le conoscenze che avrebbero messo in grado il robot, controllato da quel programma, di fare inferenze e di pianificare le proprie azioni in un ambiente reale. Abbiamo visto come tale approccio si imbattesse nelle difficoltà testimoniate dalle modeste prestazioni di robot come Shakey, la costruzione dei quali non aveva conosciuto mai veri progressi. L’«architettura della sussunzione» proposta da Brooks per i suoi robot si candidava esplicitamente come un’alternati- Rodney Brooks, direttore del laboratorio di Intelligenza Artificiale del MIT, con uno dei suoi robot «Genghis» sulla schiena. 687 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE L’architettura della sussunzione e i robot «autonomi» Il paradigma connessionista 688 va a questo tipo di robotica. Questa architettura ha permesso di costruire robot mobili che manifestano comportamenti «autonomi»: essi hanno buone doti di robustezza, essendo capaci di reagire efficacemente a situazioni non previste o non prevedibili, e sono in grado di farlo in tempo reale, senza cioè che sia necessaria una complessa attività di pianificazione delle risposte. Nell’architettura della sussunzione, l’agente è visto come composto da livelli o moduli di controllo funzionalmente distinti ma interconnessi, che agiscono senza la supervisione di un sistema di controllo e di pianificazione dell’azione basato su un modello del mondo. In questo caso un livello o modulo di controllo di basso livello, relativo a un comportamento reattivo (e dunque funzionante attraverso continue retroazioni o feedback con l’ambiente), è interconnesso con un modulo di un livello più alto, che controlla un comportamento più complesso, in modo tale che un modulo può attivare o inibire un altro modulo. Per esempio Allen, il capostipite di questa generazione di «creature», come Brooks chiamava i suoi semplici robot, è in grado di continuare a evitare persone e ostacoli diversi (un compito di livello basso, essenzialmente reattivo) mentre vaga nell’ambiente e lo fa per raggiungere un obiettivo assegnatogli (dunque un compito di un livello più alto). Brooks ha chiamato questo approccio «scomposizione del comportamento», per distinguerlo dalla «scomposizione funzionale» proposta dalla robotica alla Shakey, consistente nel separare i ruoli della percezione, della pianificazione e dell’azione. Non è dunque un «modello del mondo» a guidare l’azione del robot: questo, piuttosto, per dirla con Brooks, «usa il mondo come proprio modello», confrontando continuamente ogni singolo obiettivo con la situazione del mondo reale. Tra gli approcci allo studio dell’intelligenza presentati al workshop, quello di Brooks era il più radicale: esso respingeva tutte le cinque assunzioni elencate da Kirsh. Il quale sollevava a Brooks un problema che si pone quasi spontaneamente: quanta (che tipo di) intelligenza è possibile riprodurre senza rappresentazioni simboliche, senza capacità di pianificazione e deliberative? Torneremo brevemente in seguito su questo interrogativo. Intanto, dobbiamo osservare che se allo scorcio degli anni Ottanta l’IA appare non meno divisa del solito su quasi tutti i problemi fondamentali, i sostenitori dell’asserito «paradigma connessionista» si trovano a dover fare i conti in quegli stes- 5. L’Intelligenza Artificiale si anni con i postumi della consueta ebbrezza che ha puntualmente accompagnato i cosiddetti cambiamenti di paradigma nella storia della costruzione di macchine intelligenti. Come ai tempi del Perceptron, i modelli connessionisti continuano a dare il meglio di sé nella riproduzione di attività elementari, come pattern recognition, classificazione, apprendimento per associazione, e poco o nulla di importante realizzano nella riproduzione di attività cognitive «alte», come il ragionamento basato su inferenze. Nel 1989 si svolge presso la New Mexico State University un workshop sui modelli connessionisti di alto livello, il primo serio tentativo di fare i conti con i limiti del connessionismo, ridiscutendone i fondamenti attraverso un confronto finalmente non polemico con il «paradigma simbolico», come viene ormai chiamato l’approccio dell’IA tradizionale. Un possibile vademecum dei pregi e dei limiti dei due approcci venne stilato da Michael Dyer, e si può dire che esso conserva tutt’ora una sua validità (nella tabella alla pagina successiva essi corrispondono, rispettivamente, ai «+» e ai «–»). Le proposte di una loro integrazione reciproca, in certi casi sotto forma di sistemi connessionistico-simbolici detti «ibridi», furono in quell’occasione le più diverse, e tendevano ad accentuare il ruolo giocato in positivo dall’uno o dal- Uno dei robot «Genghis» di Rodney Brooks posto sopra un insetto vero. Secondo Brooks, piuttosto che imitare l’uomo, i robot dovrebbero cominciare imitando gli insetti, ed essere, usando parole sue, «veloci, economici e fuori controllo». 689 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE LA TABELLA DI MICHAEL DYER Simbolico Subsimbolico/Distribuito Capacità – – – – – – – – – + + + + + + + + + + + + + + + + + + + + + – – – – – – – – – – – – integrazione della conoscenza variazioni graduali rappresentazioni intermedie memoria ricostruttiva autorganizzazione reperimento associativo robustezza inferenza associativa apprendimento adattativo variabili e valori schemi e ruoli struttura ricorsiva capacità generativa infinita default ed ereditarietà instanziazioni (tipi-occorrenze) riferimento/puntatori gestione della memoria comunicazione tra compiti metaragionamento apprendimento su spiegazione controllo sequenziale complesso Nel 1989 Michael Dyer ha stilato la tabella riportata qui sopra, da cui emerge un nuovo paradigma relativo allo studio dell’IA, detto subsimbolico/distribuito. Nel paradigma simbolico il contesto di un simbolo (ad esempio il contesto del simbolo: birra) si mostra attorno a esso e consiste di altri simboli (boccale); nel paradigma subsimbolico il contesto di un simbolo si mostra dentro di esso e consiste di subsimboli (liquido dorato e spumoso a contatto con vetro). 690 l’altro dei due approcci. Tali proposte hanno avuto l’ambizione di suggerire nuovi modelli cognitivi, e anche di affrontare il problema del symbol grounding, come lo psicologo Stevan Harnad ha definito la questione di come «ancorare» i simboli agli aspetti della percezione del mondo. Esse vanno dunque distinte da altre proposte di sistemi pure classificabili come ibridi, ma con obiettivi di tipo più applicativo: in questi casi si associa una rete neurale a un sistema esperto per ridurre la scarsa robustezza delle prestazioni di quest’ultimo in presenza di dati incompleti. Se questi approcci ibridi tentavano di affrontare il problema dei limiti del connessionismo nei confronti di capacità cognitive superiori, in quegli stessi anni una nuova disciplina suscita tra i critici dell’IA tradizionale – «classica» o «simbolica» che dir si voglia – la speranza di riuscire a indagare su altri aspetti trascurati anche dal connessionismo, questa volta tra quelli non cognitivi: lo sviluppo e l’evoluzione biologica, per esempio, considerati nel quadro dell’interazione dinamica tra sistema e ambiente. Si tratta della Vita Artificiale. Il nome è stato proposto da Cristopher Langton, il quale promuove nel 1987 a Los Angeles il workshop interdisciplinare sulla sintesi e la simulazione dei sistemi viventi, che 5. L’Intelligenza Artificiale L’OMEOSTATO Il concetto di omeostasi (introdotto in fisiologia da Cannon) è la condizione in cui le variabili interne di un sistema organico sono mantenute costantemente entro limiti fisiologici, nonostante le influenze perturbanti, mediante forme di regolazione biologica. In particolare, con stabilità s’intende la proprietà che permette a un sistema di tornare al proprio stato originario dopo un disturbo o perturbazione; la perturbazione è intesa come ogni variabile i cui cambiamenti non possono essere predetti dall’osservatore mediante associazioni funzionali note. L’«equilibrio omeostatico» (o «ultrastabilità», secondo Ashby) è poi un’estensione del- l’omeostasi in cui vengono modificati i percorsi stessi di retroazione (esistono cioè circuiti di retroazione secondari, di livello superiore, atti a determinare quelli primari in base a informazioni sulle condizioni di instabilità) finché si ottiene la regolazione desiderata. Un tale dispositivo è anche detto «macchina di Ashby» e può essere rappresentato da un automa finito non deterministico. William Ross Ashby, uno dei maggiori studiosi di cibernetica. Il suo progetto di omeostato (detto anche macchina di Ashby) è stato uno dei più significativi nello sviluppo dei modelli matematici in cibernetica. 691 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE L’approccio dal basso della Vita Artificiale oltre a lanciare la Vita Artificiale rilanciava una parola d’ordine dei tempi della cibernetica, con gli anni un po’ appannata: interdisciplinare. Nella sua premessa al workshop (Artificial Life, 1989) Langton vedeva nel «comportamento emergente» l’idea chiave della Vita Artificiale: essa si propone di ricostruire artificialmente le proprietà dell’organizzazione dei sistemi viventi a partire dalla riproduzione delle interazioni locali che sono alla base del loro comportamento. La Vita Artificiale è diventata un terreno di incontro di ricercatori con interessi anche molto eterogeni, dalla simulazione dell’evoluzione biologica, agli automi cellulari e in generale all’Animat, come Stewart Wilson ha chiamato tanto la simulazione in ambienti virtuali quanto la realizzazione in ambienti reali di creature artificiali, delle quali i «veicoli» di Valentino Braitenberg e, andando indietro nel tempo, le tartarughe cibernetiche di Grey Walter sono considerati i precursori. Come l’approccio della nuova robotica, anche quello della Vita Artificiale è stato definito «dal basso», perché entrambi, sia pure da punti di vista diversi, hanno posto al centro dell’attenzione lo studio dei meccanismi più elementari o primari dell’interazione tra il sistema (organismo o Animat che sia) e ambiente. In realtà, in entrambi i casi sistema e ambiente vengono considerati come le componenti di un unico insieme: una concezione, questa, che ha trovato l’approdo più coerente e generale nella teoria dei sistemi dinamici, sostenuta in particolare da Tim van Gelder. Una delle tesi che caratterizzano questo approccio è che il meccanismo essenzialmente denotazionale delle rappresentaSchema sequenziale elaborato da Cristopher Langton e da lui chiamato «Vita Artificiale». Queste immagini mostrano come si possano ricostruire in maniera artificiale i processi di riproduzione dei sistemi viventi: dall’organismo singolo (in alto a sinistra) si forma un’intera colonia (in basso a destra) attraverso una continua espansione. 692 5. L’Intelligenza Artificiale zioni, tipico dei modelli computazionali classici, non è in grado di cogliere la complessità delle relazioni reciproche tra sistema e ambiente: il ruolo decisivo è giocato in questo caso dalla matematica che descrive l’evoluzione dei sistemi complessi. Prototipo elementare dei sistemi dinamici è una macchina cibernetica già ricordata, che in effetti può essere considerata il precursore di tali sistemi, l’omeostato di Ashby. Dovrebbe essere una macchina del genere a detronizzare la macchina di Turing dal ruolo di modello generale della cognizione. Convergenti con gli approcci che abbiamo ricordato si sono dimostrati gli sviluppi nel campo della Visione Artificiale dopo Marr, quelli della Visione Animata. Quest’ultima ha tratto ispirazione dalla concezione «ecologica» della percezione visiva sostenuta dallo psicologo James J. Gibson, che aveva insistito sull’assimilazione diretta, ovvero non mediata da rappresentazioni, dell’informazione proveniente dal mondo da parte dell’organismo. Come abbiamo visto, era stato proprio Marr a contestare l’approccio dall’alto dell’IA alla percezione visiva, nel momento in cui egli portava in primo piano i meccanismi della visione primaria. Marr non metteva però in discussione l’ipotesi computazionalerappresentazionale, respingendo su questa base le tesi antirappresentazionaliste di Gibson. L’approccio di Marr, basato sull’idea che la ricostruzione tridimensionale della scena (a partire da immagini bidimensionali elaborate dalla visione primaria) fosse l’approdo finale del processo visivo, è apparso carente. Dana Ballard concludeva che con Marr ci si era limitati allo studio di sistemi di visione statici e passivi, senza considerare gli aspetti attivi della percezione visiva. Secondo Ballard, occorreva tener conto di questi aspetti, che stanno alla base della stretta relazione che l’agente intrattiene con il mondo, e se di un tipo di rappresentazioni bisogna parlare, allora si tratta rappresentazioni «personali», ovvero situate in contesti e relative all’interesse dell’osservatore. Sono gli obiettivi di quest’ultimo a orientare il processo visivo. Un’altra linea di ricerca di lunga tradizione che viene talvolta ricondotta agli approcci dal basso è rappresentata dagli algoritmi genetici. Abbiamo lasciato John Holland ai tempi della sua collaborazione con Rochester negli anni Cinquanta, quando i due simulavano su calcolatore la teoria dell’apprendimento di Hebb. Trasferitosi successivamente all’Università del Michigan, Holland maturò l’idea degli algo- Il progetto della Visione Animata Gli algoritmi genetici 693 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE John Holland, uno dei più convinti sostenitori dell’importanza delle ricerche sugli algoritmi genetici nel campo dell’Intelligenza Artificiale. Gli algoritmi e i processi di selezione naturale 694 ritmi genetici nella prima metà degli anni Sessanta, influenzato tra l’altro dal libro del biologo evoluzionista R.A. Fisher, Genetic Theory of Natural Selection. La sintesi delle sue idee confluì nel volume pubblicato nel 1975 Adaptation in Natural and Artificial Systems. Da quel momento, per circa un decennio, gli algoritmi genetici furono oggetto di numerose ricerche rimaste ai margini della comunità dell’IA, soprattutto tesi di dottorato di studenti di Holland e relazioni a convegni informali, spesso neppure pubblicate. Il rinato interesse nei loro confronti negli anni di cui ci occupiamo si deve certo al diffondersi del parallelismo e dello studio dei sistemi dinamici complessi, ma anche a sviluppi interessanti che ne hanno segnato l’evoluzione più recente, per esempio nello studio dello sviluppo prebiotico. Gli algoritmi genetici rappresentano un modello fortemente idealizzato dei processi della selezione naturale. Essi partono generando a caso una popolazione di stringhe, corrispondenti ai genotipi dell’evoluzione naturale, ciascuna delle quali rappresenta una possibile soluzione a un dato problema. Tale popolazione viene fatta evolvere mediante l’applicazione di operatori basati su criteri di ricombinazione che simulano i processi genetici dell’evoluzione naturale. In questo modo da stringhe «genitrici» se ne generano altre, che rappresentano nuove soluzioni per il problema, possibilmente migliori. Successivamente, gli algoritmi genetici sono stati inseriti nei «sistemi a classificatori», veri e propri sistemi di apprendimento automatico, nei quali Holland ha ripreso alcune intuizioni contenute nel vecchio programma per la dama di Sa- 5. L’Intelligenza Artificiale muel. Il diagramma di flusso di un sistema a classificatori è quello rappresentato qui sotto. Si associa a ogni regola del sistema, codificata come una regola di produzione, una certa «forza», che corrisponde alla sua già sperimentata utilità per la soluzione di un problema. A ogni ciclo, i «rilevatori» aggiungono dall’ambiente stringhe nella «lista dei messaggi», codificati come stringhe di un alfabeto binario, che vengono confrontate con la parte condizioni della «lista delle regole». Le regole le cui condizioni risultano soddisfatte attivano la parte azione e vengono messe in competizione tra loro da un algoritmo che ne può variare la forza, a seconda dell’utilità complessiva per l’adattamento del sistema all’ambiente. A questo punto interviene l’algoritmo genetico, che seleziona le regole di forza più elevata per prenderle come genitrici e genera una «prole» di nuove regole. Vengono così eliminate le regole più deboli, e ne vengono create di nuove e sempre potenzialmente migliori. lista dei messaggi Diagramma di flusso di un sistema a classificatori. lista delle regole ▼ confronto messaggi in uscita ▼ messaggi in ingresso algoritmo Bucket Bigade (varia la forza delle regole) rilevatori ▼ effettori algoritmo genetico (genera nuove regole) ▼ ▼ ambiente 695 ▼ LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE La «nuova IA» L’IA «situata» La nuova robotica 696 Alla fine del Novecento, l’IA si avvia a compiere i cinquant’anni di storia. All’IA classica o simbolica se ne affianca ormai un’altra, cosiddetta «nuova», che comprende gli sviluppi delle tendenze dell’IA che abbiamo visto emergere (o riemergere) dalla crescente diversificazione della ricerca tra gli anni Ottanta e Novanta: dalle reti neurali ai sistemi dinamici, dalla Vita Artificiale agli algoritmi genetici, dalla robotica alla Brooks alla Visione Animata. Il volume di Pfeifer e Scheier Understanding Intelligence (1999) sintetizza molto bene la filosofia di questa nuova IA. Se il connessionismo, con la sua critica al funzionalismo computazionale, sembrava aver richiamato l’attenzione di ricercatori di IA e scienza cognitiva sul «cervello», adesso è la volta del «corpo»: la nuova IA prende dunque una netta posizione, in particolare, sul secondo punto proposto da Kirsh al workshop del 1987, il disembodiment, presentandosi senza riserve come embodied o «situata» (i due termini vengono spesso usati nello stesso contesto). Da un lato la lezione di neurologi come Antonio Damasio, che insistono sul ruolo primario delle componenti emotive nell’attività cognitiva, sembra portare acqua al mulino dell’embodiment, dall’altro un filosofo come Dreyfus, che da sempre aveva insistito sul carattere situato della cognizione e sulla centralità del corpo, diventa l’alleato dell’IA nuova contro quella vecchia, classica o simbolica, già detta GOFAI (un acronimo di John Haugeland: Good Old Fashioned Artificial Intelligence). Quest’ultima viene identificata con il funzionalismo computazionale e ritenuta coinvolta nel dualismo mente-corpo di cartesiana memoria (nella versione software-hardware). Piuttosto che discutere la plausibilità di queste contrapposizioni (qualcosa diremo nel paragrafo conclusivo), vediamo alcuni dei principali esiti della ricerca di questa nuova IA. Forse la robotica, dopo l’impulso datole da Brooks, ne costituisce l’area più interessante e promettente. Ma va ricordato che la robotica alla Brooks si è trovata a dover affrontare presto problemi non facili. Uno di questi riguarda il sistema di controllo in robot basati sull’architettura della sussunzione. Come sappiamo, l’idea della sussunzione è di assegnare a ogni comportamento un modulo di controllo. Ma la progettazione di un’architettura del genere sconta la crescita esponenziale della difficoltà di integrare 5. L’Intelligenza Artificiale efficacemente i moduli man mano che questi vengono a essere aggiunti per ottenere prestazioni più complesse del robot. E i successi dei primi robot possono spiegarsi con la relativa semplicità delle loro prestazioni. Da difficoltà di questo tipo è partita la robotica evolutiva, che ha usato gli algoritmi genetici come procedura automatica per sviluppare in modo evolutivo il sistema di controllo di un robot, simulato o reale, nel corso della sua interazione con l’ambiente esterno (in questo caso i moduli di controllo stanno per i genotipi). Progettazione evolutiva basata su metodi ispirati agli algoritmi genetici e fabbricazione automatica di robot sono alla base di un approccio, tra Vita Artificiale e nuova robotica, ispirato da Jordan Pollack. Si tratta questa volta di far progettare a un programma per calcolatore, sulla base di elementi di partenza elementari (come leve e giunti, ma anche reti neurali), diverse generazioni di semplici robot mobili, facendole «evolvere» in un ambiente virtuale in modo da eliminare progressivamente i progetti meno efficienti e migliorando quelli meglio adattati all’ambiente (in termini di maggiore capacità locomotorie). Questi sono infine realizzati automaticamente. L’autonomia, obiettivo della nuova robotica, viene dunque estesa dal livello del comportamento a quelli della progettazione e della fabbricazione. In prospettiva, si tratta di co- Un aspetto che la ricerca sull’Intelligenza Artificiale non può ignorare è il ruolo fondamentale giocato dalle componenti emotive nei processi cognitivi; su questo aspetto ha a lungo insistito il neurologo Antonio Damasio, vincitore del premio «Principe delle Asturie» 2005. 697 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Lo scienziato Jordan Pollack ha messo a punto, insieme a Hod Lipson, un programma automatico per la progettazione e la costruzione di robot: il risultato è una creatura semovente, capace di utilizzare pochi strumenti semplici come sbarre di plastica, giunti sferici, piccoli motori, e dotata di una rete neurale che funge da cervello. 698 5. L’Intelligenza Artificiale struire robot riducendo al minimo l’intervento dell’uomo, un obiettivo con potenziali applicazioni di vasta portata. Tornando a Brooks, bisogna aggiungere che lo stesso panorama delle ricerche condotte al di fuori della robotica da lui ispirata si è molto evoluto e diversificato dall’epoca dell’approccio dall’alto degli anni Settanta. Da tempo nessuno (grazie anche alla lezione di Brooks) ha più in mente di costruire robot basati sulla netta distinzione tra componente percettiva e componente deliberativa e sul predomino della pianificazione centralizzata. Già alcune ricerche di robotica indipendenti da Brooks avevano sperimentato sistemi di rappresentazione della conoscenza «ibridi». In questo caso, rappresentazioni analogiche (del genere dei modelli mentali di Johnson-Laird) supplivano certe rigidità delle rappresentazioni simboliche nei processi di pianificazione di robot in ambienti simulati o reali (sistemi «ibridi» di rappresentazione della conoscenza sono stati descritti da Nebel in Reasoning and Revision in Hybrid Representation Systems, 1990). Una rassegna di Bonasso e Dean (A Retrospective of the AAAI Robot Competitions, 1997), che partiva dall’esame di architetture robotiche alla Shakey, dava efficacemente la sensazione dell’estrema varietà dei metodi sperimentati dalla ricerca robotica, sia per gli aspetti relativi al controllo, sia per quelli concernenti la natura delle componenti reattive, di quelle deliberative e della loro possibile integrazione reciproca, sia, infine, per quanto riguarda il ruolo svolto dal tipo di rappresentazione della conoscenza usato. Le stesse competizioni tra squadre di robot giocatori nelle RoboCup (immagine qui sotto) hanno cominciato ben presto a costituire uno straordinario laboratorio di sperimentazione e innova- I sistemi ibridi di rappresentazione della conoscenza La squadra italiana di robot calciatori ART, seconda classificata nel torneo di RoboCup di Stoccolma nel 1999. 699 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE I robot che interagiscono con l’ambiente Il progetto «Macchine socializzabili» 700 zione, dando anche un nuovo impulso allo studio dell’interazione cooperativa tra agenti e ai sistemi multi-agente. È così che al simposio della American Association for the Artificial Intelligence del 1998 viene proposto un Manifesto della robotica cognitiva basato sull’idea di robot «ibridi», dove con il termine questa volta si indicano architetture in grado di manifestare robustezza e azione in tempo reale e di usare sistemi di pianificazione e rappresentazione della conoscenza. In effetti, uno sguardo all’evoluzione della ricerca dopo gli anni Ottanta mostra come la nuova robotica abbia dovuto fare i conti con lo slogan radicale di Brooks («intelligenza senza rappresentazione») e con la già ricordata difficoltà sollevata da Kirsh: quella di sviluppare le capacità dei robot da un livello meramente reattivo a un livello in cui sopravvenissero attività più complesse di interazione con l’ambiente, come qualche forma di pianificazione, di ragionamento, di apprendimento. Lo stesso Brooks è tornato successivamente su questa difficoltà, proponendo un nuovo slogan («intelligenza senza ragione» in Intelligence without Reason, 1995) contro l’asserito razionalismo («cartesiano») dell’IA, ma con una precisazione di non poco conto per quanto riguarda le rappresentazioni, che, se confrontata con le sue iniziali affermazioni, sembra quasi un ripensamento. La sua originaria critica alle rappresentazioni, egli sostiene, era diretta contro le rappresentazioni come le concepivano l’IA e la robotica classiche, non contro le rappresentazioni come «modelli parziali del mondo», cioè «relative al particolare compito per il quale [esse] sono usate», come egli si esprime alludendo alle prestazioni dei nuovi robot. In prospettiva, le implicazioni di queste conclusioni sembrano rilevanti su due fronti. In primo luogo, per la nuova robotica con vocazione etologica, interessata alla costruzione di modelli di animali più o meno semplici, modelli che includono diverse restrizioni comportamentali, neurologiche e in generale biologiche («neuroetologia computazionale» è il nome scelto da alcuni suoi iniziatori, per distinguersi dalla menzionata «neuroscienza computazionale» di Churchland e Sejnowski, 1992). In secondo luogo, per la robotica umanoide, sulla quale si è concentrata l’attenzione di diversi ricercatori, dall’Europa al Giappone agli Stati Uniti. Qui sempre Brooks e il suo Humanoid Research Group (in particolare con il progetto «Macchine socializzabili») hanno avviato la sperimentazione di robot antropomorfi. Rispetto ai robot mobili precedenti, i robot umanoidi sono concepiti per essere in grado di interagire ed eventual- 5. L’Intelligenza Artificiale mente cooperare con gli esseri umani, anche in attività di vita quotidiana. Alla robotica si apre in questo caso un inedito campo di applicazioni. Uno dei casi più rilevanti quanto controversi è quello dell’assistenza da parte di robot umanoidi (o con capacità umanoidi) a disabili e anziani: un problema, per ragioni sociali evidenti, avvertito in diversi paesi. I robot umanoidi hanno posto il problema di come dotarli di una morfologia somigliante a quella degli esseri umani, in modo da facilitare la comunicazione reciproca. Si tratta, per esempio, di dar loro capacità di mimica facciale e capacità di manifestare emozioni, come sorpresa o spavento o approvazione, aspetti notoriamente rilevanti nell’interazione sociale. Costruito integrando conoscenze provenienti da teorie diverse, dalla psicologia sociale e dello sviluppo alle neuroscienze, il robot Kismet, è in grado di imparare a manifestare sia semplici ma adeguate espressioni facciali sia elementari convenzioni sociali, che lo portano per esempio a seguire i gesti e la mimica facciale dell’interlocutore umano, manifestando un’espressione di perplessità se quest’ultimo compie, poniamo, azioni con velocità eccessiva. Coerenti con gli obiettivi di questa robotica si sono mostrati gli sviluppi Kismet, il robot umanoide creato dall’esperta in robotica Cynthia Breazeal: questo robot, dotato di notevoli capacità di apprendimento, è in grado di interagire intuitivamente con l’interlocutore. 701 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE L’immunologo statunitense Gerald Edelman (premio Nobel per la medicina nel 1972), elaborando la teoria della selezione dei gruppi nervosi, ha trasferito i concetti sviluppati nell’ambito delle sue ricerche sul sistema immunitario e quello dello sviluppo del cervello. 702 5. L’Intelligenza Artificiale successivi alla Visione Animata. L’importanza dell’azione in tempo reale nella prestazione dei robot trova un corrispettivo nell’elaborazione di architetture della percezione visiva sensibili allo stesso problema. È confermata l’idea della Visione Animata sulla necessità di ridimensionare l’idea della visione come dettagliata ricostruzione tridimensionale del mondo, a favore di un meccanismo che consenta interazioni rapide e adattative con l’ambiente. A questo scopo si rivelano utili anche architetture distribuite, come avviene per esempio nel robot Kismet, in grado di elaborare in tempo reale trenta fotogrammi al secondo. Alla filosofia della nuova IA è approdato anche un altro progetto di ricerca simulativa che, partito negli anni Ottanta, è stato da subito critico nei confronti dell’IA simbolica ma anche del connessionismo: la «modellistica neurale sintetica» di Gerald Edelman. Con diversi collaboratori egli aveva già costruito automi a reti neurali simulati capaci di integrare alcune modalità sensoriali. L’aspetto «complicato» degli automi di Edelman rispetto alle reti neurali più comuni è dovuto al suo interesse per la plausibilità biologica della simulazione. Per esempio, l’automa simulato Darwin III, che ha un «occhio» mobile e un «braccio» con quattro articolazioni, comprende ben 50.000 «neuroni» di cinquanta tipi diversi, collegati attraverso circa 620.000 collegamenti sinaptici. Una versione di Darwin III è diventata il «cervello» di un robot mobile, NOMAD, collegato con esso via radio. Gli automi di Edelman incorporano i principi del «darwinismo neurale», la sua teoria secondo la quale l’epigenesi e l’apprendimento sono il risultato di un processo evoluzionistico di selezione di gruppi diversi di neuroni durante lo sviluppo dell’organismo e la sua interazione con l’ambiente. Le macchine sono da lui considerate un controllo di questa teoria, e anche la base di un progetto più ambizioso: quello di arrivare per gradi, attraverso la costruzione di artefatti di complessità e realismo crescenti, a svelare gli enigmi di alcune forme di coscienza. Il darwinismo neurale, per quanto suggerito a Edelman dalla sua originale esperienza di immunologo, si inserisce nella storia dei tentativi selezionisti di spiegazione dell’apprendimento. Tanto l’assunto del modello come controllo di ipotesi teoriche quanto quello di rendere il modello sempre più adeguato ai fini della riproduzione di fenomeni organici complessi sono scelte metodologiche che Edelman condivide con strategie simulative anche molto diverse dalla sua, delle quali la nostra ricognizione ha fornito vari esempi. La modellistica neurale sintetica di Edelman Il «darwinismo neurale» degli automi di Edelman 703 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Per concludere, e continuare Holland ha concluso che i sistemi a classificatori, visti come modelli cognitivi, si collocano in una «regione intermedia» tra i sistemi connessionisti e quelli simbolici. Al pari dei sistemi connessionisti, essi insistono sulla microstruttura e sull’emergenza di computazioni complesse a partire da processi semplici; tuttavia, le loro unità fondamentali sono le regole di produzione, e dunque in essi la conoscenza non si riduce a una questione di forza delle connessioni. Alcune tendenze della Visione Artificiale si sono trovate a seguire una strada che «condivide parte dei due approcci», quello simbolico e quello connessionista. Il cosiddetto connessionismo Il mondo del web è uno dei settori più importanti per le future ricerche nell’ambito dell’Intelligenza Artificiale, la cui esplorazione avrà le maggiori ricadute nella nostra vita quotidiana. 704 5. L’Intelligenza Artificiale di alto livello ha tentato a sua volta di seguire una strada del genere. E sono numerosi i tentativi di esplorare un «terreno intermedio della simulazione cognitiva» simbolico-connessionista. Anche nel campo della nuova IA non mancano posizioni in questa stessa direzione. Verchure (1993) ha potuto concludere che in futuro l’approccio di Edelman e quello di SOAR «potrebbero essere usati per introdurre restrizioni reciproche». Thornton (1997) ha sostenuto un approccio «ibrido» nel quale le esigenze evolutive poste dalla Vita Artificiale e quelle rappresentazionali dell’IA classica si intergrano reciprocamente con successo. Goodale e Humphrey (1998) hanno sottolineato la vocazione «duplice» della nuova Vi- 705 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Modelli cognitivi e web semantico La questione dei paradigmi 706 sione Artificiale, nella quale l’approccio alla Marr risulta complementare a quello alla Gibson nella rispettiva enfasi su aspetti diversi della percezione visiva. Dell’approccio «ibrido» in robotica abbiamo già detto, mentre non manca di essere discussa l’asserita incompatibilità tra spiegazione classica e spiegazione dinamicista della cognizione. È possibile che la futura ricerca in IA, anche per quanto riguarda i modelli cognitivi, avrà ancora molto da dire sugli esperimenti che consistono nell’integrare o contaminare diversi approcci nello studio delle macchine intelligenti. Naturalmente, questo non chiude lo spazio ad altri tipi di esperienze: da quelle puramente logico-linguistiche alle reti neurali nei campi più disparati, per esempio nella neuroscienza cognitiva, ai sistemi multi-agente. Alcune di queste esperienze hanno dato luogo in anni recenti a un nuovo, vasto campo di applicazioni: quello che va dai sistemi ipertestuali al web semantico e in generale all’esplorazione del mondo del web. Sarebbe dunque auspicabile evitare di fare dell’IA vecchia e nuova altrettanti paradigmi contrapposti con vocazione imperialista, con l’unico risultato di ripetere antichi errori. Sembra andare in questa direzione la sbrigativa liquidazione dell’IA classica come GOFAI quale premessa di valutazioni ultraottimistiche della nuova IA [in questo caso non si può non essere d’accordo con Sloman (2002): chi polemizza con l’IA classica in termini di GOFAI normalmente non conosce la storia e lo stato effettivo della ricerca], che inducono a caricare sulle spalle della Vita Artificiale o di certa robotica l’intero fardello della riproduzione dello sviluppo fino all’intelligenza «alta». La sensazione di già visto è irresistibile: ancora una volta, per usare le parole con le quali Brian C. Smith riassumeva sarcasticamente la storia dell’IA, ecco «la convinzione che con un semplice meccanismo si possano realizzare cose straordinarie, data a sufficienza una risorsa di qualche tipo, come tempo, informazione, esperienza, capacità di calcolo». La questione dei paradigmi è comunque interessante e merita un cenno. A insistere sulla contrapposizione del loro paradigma «subsimbolico» con quello «simbolico» dell’IA sono stati soprattutto i connessionisti degli anni Ottanta, con una terminologia resa canonica da Paul Smolensky. In un primo momento è sembrato di assistere agli effetti di una sorta di trauma: Rosenblatt aveva ragione, il libro di Minsky e Papert aveva ingiustamente cancellato le reti neurali dal mon- 5. L’Intelligenza Artificiale do della ricerca. Forse il ruolo dei due è stato alquanto sopravvalutato. È vero che dopo la pubblicazione del libro di Minsky e Papert, nel 1969, ci fu un drastico ridimensionamento quando non un arresto nei finanziamenti della ricerca sulle reti neurali, in particolare, si direbbe, negli Stati Uniti. Lo stesso Papert (1988) ha raccontato la storiella delle «due sorelle», l’IA e le reti neurali, che convissero pacificamente finché la DARPA non fece la sua scelta per l’IA (successivamente, comunque, anche l’altra sorella è rientrata nelle grazie della DARPA). Forse anche la morte improvvisa di Rosenblatt, certo un propagandista delle sue idee non meno spregiudicato dei suoi antagonisti, influì sugli esiti della vi- Diagramma del percorso di un’informazione in una rete neurale utilizzata in un’applicazione informatica. 707 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Il continuo rapporto con i computer e i meccanismi più avanzati ha abituato le nuove generazioni a un nuovo tipo di approccio con la tecnologia, considerata un elemento imprescindibile e costante della vita quotidiana. 708 5. L’Intelligenza Artificiale cenda. Tuttavia, come abbiamo ricordato, gli studi sulle reti neurali furono portati avanti da diversi ricercatori, anche se in un clima di isolamento. Proprio come avvenne poi nella più esigua comunità degli algoritmi genetici, i cui risultati, considerati i successivi sviluppi in settori diversi, sembrano attualmente più influenti di quelli raggiunti dal connessionismo degli anni Ottanta. Come scrivevano alla fine di quegli anni Anderson e Rosenfeld (1988): «Le nostre reti, dopo trent’anni di progressi, funzionano ancora come “cervelli lesionati” [incapaci di comportamento simbolico, secondo l’espressione dello stesso Rosenblatt]. Resta aperta la questione di quali severe modifiche apportare alla teoria delle reti neurali affinché riescano a raggiungere le funzioni cognitive superiori». Il connessionismo di alto livello non è stato che un tentativo di affrontare proprio questo problema, che va ben al di là della rinascita delle reti con la backpropagation o delle scelte da matrigna della DARPA, e che resta un problema tuttora non risolto in generale. Da parte sua, James McClelland ha dichiarato recentemente di non credere che l’evento decisivo per l’arresto della ricerca sulle reti neurali sia stato il libro di Minsky e Papert. Tenendo conto del fatto che la ricerca sulle reti si fa simulandole su calcolatore, semplicemente «non si era pronti per la ricerca sulle reti neurali. [...] La potenza di calcolo dei [calcolatori dei] primi anni Sessanta era del tutto insufficiente». Per quanto ovvio, sarà bene ricordare che questi limiti delle prestazioni dei calcolatori sono gli stessi che hanno condizionato lo sviluppo e non poche scelte dell’IA simbolica. A puro titolo d’esempio, si pensi alla scelta a favore del «paradigma» della conoscenza rispetto al precedente «paradigma» della ricerca euristica sui problemi giocattolo, un scelta che si è posta solo quando si è cominciato a disporre di calcolatori con grandi memorie e una grande potenza di calcolo. Ha raccontato Simon che a orientare la ricerca del suo gruppo verso compiti nei quali non era richiesta molta conoscenza (i problemi giocattolo) fu inizialmente anche la mancanza di tali calcolatori: che la conoscenza fosse importante per l’intelligenza era noto, ma non era ancora possibile affrontarla sulle macchine. Resta il fatto che le capacità dei primi calcolatori incoraggiavano la sperimentazione di euristiche deboli su problemi giocattolo, in quel momento considerati la vera Drosophila dell’IA. È lì che parve possibile tentare di affrontare l’esplosione combinatoria, ed è lì che si ebbero i primi decisivi successi. Anche se, visti retrospetti- Un problema aperto: reti neurali e funzioni cognitive superiori IA e potenza di calcolo 709 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE La comunicazione fra uomo e computer in un’illustrazione d’artista. La possibilità di colloquiare direttamente con i computer nel proprio linguaggio abituale è uno dei passi fondamentali sulla via della realizzazione dell’Intelligenza Artificiale. vamente, questi possono apparire poco significativi, per l’epoca erano innegabilmente tali da incoraggiare certe scelte (e anche certe illusioni) piuttosto che certe altre: per la «manipolazione euristica di simboli» invece che per l’«imitazione del cervello» o per la «rappresentazione della conoscenza». Nessuna linea di ricerca viene spazzata via da un libro se non è già debole per conto suo. Un caso molto diverso da quello delle reti neurali, che tuttavia può suggerire qualche riflessione, è quello della traduzione automatica. La ricerca era in un vicolo cieco, e i finanziamenti furono interrotti nella metà degli anni Sessanta. Ma, come si è visto, fu possibile riprenderla qualche anno dopo, quando si individuò una strada più promettente per affrontarla, che portò a ricollegare la traduzione automatica ai nuovi studi sul linguaggio naturale. Anche qui, fu lo svi710 5. L’Intelligenza Artificiale luppo della potenza dei calcolatori che contribuì in modo decisivo a rendere quella strada praticabile, rendendo anche possibili le attuali, e di nuovo ben finanziate, applicazioni della traduzione automatica in settori diversi, certo ridimensionate rispetto agli ambiziosi progetti iniziali. Prima della contrapposizione simbolico-subsimbolico, o di quella più recente simbolico-situato, ci è capitato di imbatterci in altre contrapposizioni tra paradigmi, questa volta, lo abbiamo accennato, lungo la storia dell’IA simbolica. Di volta in volta ci è stato detto che erano contrapposti, solo per citare i casi più inflazionati, il paradigma della ricerca euristica e quello della conoscenza; quello logicista e quello antilogicista; quello dichiarativista e quello proceduralista; quello individuale e quello distribuito o cooperativo. Ma è evidente che nessuno di questi può essere riconosciuto come 711 LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE Fin dagli anni Cinquanta gli studi sul linguaggio sono stati fondamentali per affinare le capacità di traduzione automatica dei computer: nella foto il presidente dell’IBM Thomas J. Watson, a destra, mentre esamina insieme a due collaboratori la traduzione dal russo all’inglese fatta da un computer (1954). 712 un paradigma in senso tecnico, cioè secondo l’interpretazione sancita da Thomas Kuhn. Piuttosto, ciascuno di essi riassume la parola d’ordine di indirizzi di ricerca diversi e anche rivali, in una storia come quella dell’IA in cui si sono intraprese e poi abbandonate le strade più diverse, salvo poi riprenderne qualcuna a distanza di tempo; in cui non c’è mai stata vera unanimità sullo stesso oggetto di studio: la mente umana o quella artificiale? («questa [che si studia in IA] è intelligenza artificiale», diceva McCarthy in proposito); in cui poteva risultare «offensivo», come concludeva Hayes (1984), persino tentare di definire l’IA, «dal momento che qualsiasi definizione tende a escludere qualcuno, e a nessuno piace sentirsi dire che non sta lavorando nella disciplina in cui pensa di lavorare» (si ricordi la definizione della Information Processing Psychology di Newell e Simon come «la disciplina che usa metodi estranei alla psicologia cognitiva per trattare questioni estranee alla IA»). Non è certo, questa, la descrizione di una scienza «matura», cumulativa (Dreyfus vedeva nell’assenza di cumulatività il germe del suo fallimento), ma è quella che risulta dalla nostra ricostruzione. Ma va anche detto che certe contrapposizioni tra «paradigmi» non sono state avvertite sempre e 5. L’Intelligenza Artificiale ovunque con la stessa asprezza: di quella tra dichiarativisti e proceduralisti, osservava McDermott (1976), alla Carnegie-Mellon non si sono preoccupati, e non ne hanno risentito affatto. In questo tumultuoso panorama, l’evento dell’emarginazione e poi della ripresa delle reti neurali, o di certa robotica di ispirazione cibernetica, non appare in fondo così sconcertante come è stato troppe volte descritto. E il fatto che in tanti casi sia possibile accostare esperienze di diversa ispirazione «in una regione intermedia» sembra confermarlo, e rende un esercizio retorico la loro collocazione in paradigmi contrapposti. [ROBERTO CORDESCHI] La ricerca di una «regione intermedia» tra le varie tendenze 713