CAPITOLO 5
L’Intelligenza Artificiale
Lo studio dell’Intelligenza Artificiale ha una storia recente;
la sua data di nascita ufficiale è ritenuta, all’unanimità,
il 1956. Non c’è invece nessun accordo sulla definizione
del suo programma di ricerca come disciplina scientifica.
T
ra alcuni filosofi, e anche tra alcuni ricercatori del settore, c’è un diffuso scetticismo circa la possibilità stessa di considerare l’Intelligenza Artificiale (IA, d’ora in avanti) una scienza. In una sua interpretazione «debole» (per usare un termine reso canonico da John Searle), essa appare
piuttosto una pratica sperimentale, tra l’informatica e l’ingegneria. Suo obiettivo sarebbe la costruzione di artefatti con
prestazioni tali da aiutare o assistere l’uomo (e in qualche caso sostituirlo) nel risolvere compiti teorici o pratici di diversa complessità. In questa prospettiva, l’IA è vista come
il punto di arrivo di un processo evolutivo che ha consentito di estendere l’automazione da alcune attività del lavoro
manuale ad alcune attività del lavoro intellettuale, quali, per
esempio, l’elaborazione di calcoli complessi, il controllo e la
pianificazione, la consulenza specializzata in alcune prestazioni professionali. Dal momento che di lavoro intellettuale si tratta, non si può non parlare di «intelligenza», ma
poiché tale lavoro è completamente «automatico», diventa
difficile, o opinabile, precisare la natura di tale intelligenza. In fondo, qui sta l’origine del paradosso sul quale a volte si è insistito: non appena una prestazione del lavoro intellettuale è riprodotta da un artefatto, essa non appare più
una funzione veramente intelligente.
Secondo un altro punto di vista, l’IA può nutrire l’ambizione di essere una scienza, questa volta dei principi generali
dell’intelligenza e della conoscenza (comuni cioè agli esseri
umani e alle macchine), ma ha bisogno, per poter assumere
a tutti gli effetti tale statuto, dell’apporto decisivo della logica: un po’ come si dice della fisica, che ha avuto bisogno della matematica per svilupparsi come scienza. Quindi, il problema dell’IA consiste in primo luogo nel trovare la logica,
o le logiche, pertinenti ai suoi scopi.
Diversa ancora è la prospettiva che vede l’IA definirsi piuttosto in rapporto alle ricerche sull’intelligenza naturale. Qui
le cose si complicano, perché l’intelligenza naturale non è a
L’Intelligenza
Artificiale, ovvero
la costruzione
di macchine
«pensanti» capaci
di affiancarsi all’uomo
in svariate circostanze
(calcolo, gestione dati,
attività intellettuale)
ha cominciato
a interessare
la comunità scientifica
a partire dagli anni
Cinquanta, ma era già
stata anticipata dalle
ricerche di Turing
anni prima.
607
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Le anticipazioni
profetiche di Turing
Le polemiche
su automatismo
e intelligenza
608
sua volta un dominio ben definito, e la stessa psicologia, la disciplina tradizionalmente deputata al suo studio, ha spesso vissuto in modo alquanto conflittuale il proprio statuto di scienza. Più recentemente, inoltre, ridimensionata l’idea che la
mente possa costituire un oggetto di indagine indipendente
dal cervello, alcune tendenze dell’IA interessate alla mente sono portate a fare i conti con i risultati e i metodi di un’altra
scienza, la neurologia (o neuroscienza, come adesso si dice).
È interessante notare come già Alan Turing, figura mitica
nella storia dell’IA nonostante sia scomparso due anni prima della nascita ufficiale della nuova disciplina, si fosse confrontato con i principali problemi che hanno dato luogo alle
diverse interpretazioni del programma di ricerca dell’IA. Già
la celebre macchina astratta che porta il nome di Turing e
la sua tesi sulla natura della calcolabilità del 1935 si basavano, rispetto ad altre formulazioni equivalenti, su una premessa del tutto originale: quella di dare una descrizione rigorosa di procedura automatica, o più precisamente meccanica, rifacendosi al comportamento di un essere umano
che la esegue. Dopo quella che potremmo chiamare, con l’avvento dei primi calcolatori digitali, la realizzazione fisica della sua macchina astratta, Turing discusse le obiezioni alla possibilità di una «macchina intelligente» che si basavano sulla
inconciliabilità della nozione di «automatismo» con quella di
«intelligenza». Nell’Ottocento forse avrebbe potuto essere un
vescovo a muovergli obiezioni del genere. Ai suoi tempi, Turing, come ha ricordato Hodges (1983), trovò invece uno
dei principali oppositori in un neurologo, Geoffrey Jefferson,
il quale gli obiettava che la logica era inutile per lo studio della mente umana, e che era impossibile riprodurre le caratteristiche di quest’ultima in un artefatto non biologico,
astraendo cioè dal cervello e, più in generale, dal corpo. Un
inventario parziale ma efficace, si direbbe, dei principali problemi con i quali si misurerà l’IA nel corso della sua storia.
Anche se la cibernetica aveva fatto la sua parte nel ridimensionare la contrapposizione tra le nozioni di automatismo e di intelligenza, era stata la costruzione dei primi calcolatori digitali a suggerire un modo per ridiscuterla daccapo. Vogliamo allora cominciare seguendo quella che ci sembra la strada maestra che ha portato alle origini dell’IA, la strada segnata dalle tappe della costruzione del calcolatore, che
hanno consentito via via di pensare a esso come a una macchina intelligente, coniugando due termini tradizionalmente tanto lontani l’uno dall’altro.
5. L’Intelligenza Artificiale
LA CIBERNETICA
La cibernetica è una disciplina sorta a metà
del XX secolo per lo studio delle macchine automatiche (nel senso di macchine che svolgono esse stesse parte dell’attività di controllo), dei sistemi di ogni tipo analoghi a tali macchine e dei concetti teorici sottostanti a tali sistemi, secondo una prospettiva che unificasse i contributi e le prospettive di ricerca provenienti da aree differenti del sapere come l’elettronica, la biologia, la sociologia, la teoria
matematica dell’informazione, la teoria degli
automi. Il nome fu coniato da Norbert Wiener,
uno dei fondatori della cibernetica, per indicare «l’intero campo della teoria del controllo e della comunicazione sia nelle macchine
sia negli animali».
Punto di partenza della cibernetica è in effetti lo studio dei servomeccanismi e in generale dei sistemi (meccanici, organici o sociali) basati sulla retroazione o feedback. La
retroazione è una tecnica usata per diminuire lo scostamento da uno stato definito come ottimale, usando come ingresso del servomeccanismo le stesse deviazioni del sistema rispetto allo stato di riferimento; è detta
anche, in questa forma, retroazione negativa
(negative feedback).
Un sistema a retroazione consiste in uno
o più sottosistemi connessi da un circuito in
modo che l’ingresso (input) di ciascuno sia
l’uscita (output) dell’altro. L’intento dei fondatori della cibernetica era di giungere a una
disciplina astratta di carattere matematico, i
cui oggetti fossero innanzitutto gli aspetti comuni a certi tipi di dispositivi meccanici o
elettronici, ai fenomeni sociali, ai comportamenti teleologici, ai processi neurofisiologici, e più in generale il trattamento scientifico di sistemi in cui risulti predominante la
complessità.
In seguito la cibernetica venne compiutamente identificata con la teoria e la progettazione di sistemi di elaborazione dell’informazione (informatica), da una parte, e con il campo di studio delle teorie dei sistemi, dall’altra.
In che misura la cibernetica rappresenti una
potenzialità di sviluppo per l’umanità è una
questione tuttora dibattuta, e non solo nella
comunità scientifica.
609
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Verso il calcolatore intelligente
«Se Babbage fosse vissuto settantacinque anni dopo, io sarei
disoccupato»: così sembra dicesse il fisico Howard Aiken
(1900-73) davanti alla sua macchina, il calcolatore Mark I, o
Automatic Sequence Controlled Calculator, completato a Harvard nel febbraio del 1944. Si trattava di una macchina costituita di relè elettromagnetici, capace di effettuare calcoli numerici su cifre codificate in rappresentazione decimale. Come
la celebre «macchina analitica», mai realizzata ma progettata
in tutti i particolari nel 1837 dal matematico inglese Charles
Babbage (1791-1871), il calcolatore di Aiken si basava sull’idea
di macchina a programma: le istruzioni per eseguire un calcolo, una volta codificate in forma binaria su un nastro di carta perforato, potevano essere effettuate sequenzialmente in modo automatico, cioè senza l’intervento dell’operatore umano.
In un certo senso, Aiken corse veramente il rischio di rimanere disoccupato: qualche anno prima che egli completasse la
costruzione del Mark I, nel 1941, l’ingegnere Konrad Zuse
(1910-95) aveva costruito in Germania un calcolatore automatico che per di più usava una rappresentazione completamente binaria. Ma la macchina di Zuse, nota come Z3, andò
Howard Aiken
davanti al gigantesco
calcolatore Mark 1,
presso l’Università
di Harvard nel 1944.
Le esigenze belliche
fornirono uno stimolo
eccezionale allo studio
di macchine capaci
di gestire una sempre
maggiore quantità
di calcoli. Nel 1946
si sarebbe arrivati al
primo elaboratore
elettronico, l’ENIAC.
610
5. L’Intelligenza Artificiale
distrutta durante i bombardamenti degli alleati sulla Germania. Il calcolatore digitale automatico nasceva dunque in Europa, e nel pieno del secondo conflitto mondiale. È stato Norbert Wiener (1894-1964) a ricordare come esso si sostituisse
gradualmente al calcolatore analogico nelle applicazioni belliche. L’elaborazione veloce e precisa di grandi quantità di dati numerici era indispensabile, per esempio, per rendere efficace l’artiglieria di fronte all’accresciuta velocità dei veicoli aerei. Presso il MIT (Massachusetts Institute of Technology),
Wiener, in collaborazione con l’ingegnere Julian Bigelow, svolse un ruolo di primo piano nella messa a punto di sistemi automatici antiaerei, nei quali l’informazione sull’obiettivo mobile captata dal radar ed elaborata dal calcolatore retroagiva
modificando l’asse di puntamento del cannone.
Con Bigelow e con il fisiologo Arthuro Rosenblueth (190070), Wiener pubblicò nel 1943 un sintetico articolo in cui si
sosteneva di recuperare il linguaggio psicologico (termini come «scopo», «scelta», «obiettivo» e simili) per descrivere sistemi dotati di retroazione (feedback) negativa come quello appena descritto, in grado, cioè, di rispondere in modo selettivo
alle sollecitazioni dell’ambiente, modificando il proprio comportamento al pari degli organismi viventi. Quell’articolo è ormai considerato l’atto di nascita della cibernetica, come Wiener chiamò qualche anno dopo la disciplina che avrebbe dovuto occuparsi dei meccanismi dell’autoregolazione e del controllo presenti tanto negli organismi viventi quanto nelle nuove macchine con retroazione (Wiener, 1948).
Sempre nel 1943, Warren McCulloch (1898-1969), neurologo e psichiatra, firmava con l’allora giovanissimo logico Walter Pitts (1923-69) un saggio destinato a influenzare come
pochi tanto la scienza dei calcolatori quanto la progettazione
di alcune delle più celebri macchine dell’epoca cibernetica
(McCulloch e Pitts, A Logical Calculus of the Ideas Immanent
in Nervous Activity, 1943). Come ricorderà poi McCulloch, in
quel momento egli e Pitts non conoscevano i risultati che Claude Shannon (1916-2001), futuro fondatore della teoria dell’informazione, aveva pubblicato nel 1938, sollecitato dai problemi in cui si era imbattuto lavorando, presso il MIT, all’analizzatore differenziale di Vannevar Bush (1890-1974), la più
nota macchina analogica dell’epoca. Eppure, tanto McCulloch
e Pitts quanto Shannon usavano uno stesso strumento, l’algebra di Boole, per indagare due domini molto diversi: McCulloch e Pitts le reti costituite di neuroni «formali», analoghi
molto semplificati dei neuroni del cervello e funzionanti
Dall’analogico
al digitale
Le macchine
a retroazione
611
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Norbert Wiener
(1894-1964), padre
della cibernetica,
professore di
matematica al MIT
(Massachusetts
Institute of
Technology) dal 1932
al 1960: una delle
figure fondamentali
del «periodo epico»
della ricerca sui primi
elaboratori elettronici.
I calcolatori
automatici Colossi
612
secondo la legge del tutto o niente (un neurone scatta o non
scatta se l’intensità degli impulsi che riceve supera o meno
una certa soglia), Shannon i componenti dei circuiti elettrici, funzionanti secondo una legge analoga (un relè scatta o non
scatta se la corrente raggiunge o meno una certa intensità).
L’intuizione di Shannon fu determinante nella progettazione dei circuiti dei calcolatori digitali. Se nulla sapevano del lavoro di Shannon, McCulloch e Pitts erano perfettamente a
conoscenza di quello di Turing, e conclusero che una loro
rete di neuroni formali era equivalente a una macchina di Turing con nastro finito.
Mentre la sconfitta della Germania interruppe il lavoro di
Zuse, in Inghilterra e negli Stati Uniti la realizzazione dei grandi calcolatori digitali non conobbe soste, continuando a mobilitare risorse e talenti straordinari, che in breve tempo portarono a una vera e propria svolta.
In Inghilterra già dalla fine del 1943 funzionavano i Colossi, calcolatori automatici impiegati nella decrittazione dei codici militari tedeschi. Si trattava di macchine specializzate nel
risolvere solo questo tipo di compiti, ma erano molto evolute, essendo tra l’altro completamente elettroniche, cioè con
le valvole al posto dei relè elettromeccanici: un progresso tec-
5. L’Intelligenza Artificiale
nologico che, portando ai calcolatori della cosiddetta prima
generazione, avrebbe reso per la prima volta veramente veloce l’elaborazione dei dati. Coperte dal più stretto segreto militare (come tanti altri progetti della cibernetica e della scienza dei calcolatori degli anni del secondo conflitto mondiale),
solo dal 1975 si è cominciato a conoscere le caratteristiche
di queste macchine, al cui progetto aveva partecipato un gruppo di ricercatori guidato dal matematico Max Newman, che
includeva I.J. Good e Donald Michie. Alla decrittazione del
codice della leggendaria macchina tedesca ENIGMA contribuì lo stesso Turing, che successivamente, nella seconda
metà degli anni Quaranta, partecipò a due diversi progetti di
grandi calcolatori: ACE (Automatic Computing Engine) a Teddington e MADM (Manchester Automatic Digital Machine) a Manchester.
Negli Stati Uniti si arrivò a completare la costruzione di un
calcolatore elettronico nel 1946. I suoi progettisti, due ricercatori dell’Università di Pennsylvania, J. Presper Eckert (1919)
e John Mauchly (1907-80), lo chiamarono Electronic Numerical Integrator and Calculator, o ENIAC. Era certo il più
grande calcolatore mai costruito, ed è solitamente considerato il primo grande calcolatore di tipo generale: per l’epoca,
Il calcolatore
elettronico
L’ingegnere tedesco
Konrad Zuse era in
anticipo di dieci anni
sui suoi colleghi
americani: il suo
primo computer,
lo Z1, è del 1935,
mentre lo Z3
del 1941 aveva relè
elettromeccanici,
nastro perforato a
informazione binaria,
ed era comandato
da una tastiera.
Sfortunatamente
andò distrutto nei
bombardamenti
sulla Germania
del 1944-45.
613
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
J.W. Mauchly e
J. Presper Eckert
al lavoro sull’ENIAC
nel gennaio del 1946.
I due scienziati
contenderanno a
von Neumann la
paternità del concetto
di «programma
memorizzato».
614
la migliore realizzazione di una macchina universale nel senso di Turing.
Fu proprio all’interno del gruppo dell’ENIAC che maturò
la svolta alla quale abbiamo alluso. Consulente del progetto
dell’ENIAC era stato il matematico di origine ungherese John
von Neumann (1903-1957). Pochi testi sono rimasti celebri nella storia della scienza dei calcolatori come il First Draft
redatto da Von Neumann nel 1945, dove, adottando la simbologia di McCulloch e Pitts, si descriveva l’architettura di
un calcolatore di nuova concezione, che sarebbe rimasta sostanzialmente immutata negli anni a venire: quella di un calcolatore nella cui memoria interna sono depositati non solo
i dati, come nei calcolatori realizzati fino a quel momento,
ma anche le istruzioni per manipolarli, ovvero il programma, che diventava così modificabile non meno dei dati.
La paternità dell’idea sollevò un dissidio tra Von Neumann
da una parte ed Eckert e Mauchly dall’altra. A costruire il
primo calcolatore con programma memorizzato fu però il
gruppo guidato dal matematico Maurice Wilkes (1913) a
Cambridge, che nel 1949 completò l’EDSAC (Electronic
Delay Storage Automatic Calculator). Negli Stati Uniti un
calcolatore di questo tipo fu realizzato l’anno seguente con
il nome di EDVAC (Electronic Discrete Variable Automatic
Computer).
5. L’Intelligenza Artificiale
«Pensiero meccanico»
Una caratteristica fondamentale di un calcolatore di tipo
generale, già intuita da Babbage, è quella di manipolare non
solo simboli numerici, ma simboli generici, con i quali è possibile rappresentare le entità più diverse: parole di una lingua
naturale, espressioni matematiche, posizioni di un gioco, oggetti da riconoscere e classificare e così via.
Un’altra caratteristica fondamentale del calcolatore, anche questa intuita da Babbage e che invece mancava nei calcolatori di Zuse e di Aiken, è l’istruzione di «salto condizionato» (conditional branching), con la quale diventa possibile dare al programma del calcolatore una capacità discriminativa. La macchina in questo caso non si limita a seguire una
sequenza fissa di istruzioni, ma può cambiare l’ordine di esecuzione, in modo che, se una data condizione è soddisfatta,
essa effettua le operazioni specificate da una certa parte del
programma (da un sottoprogramma), altrimenti ne esegue altre specificate da una diversa parte del programma (da un altro sottoprogramma). Questa capacità, già posseduta dai più
progrediti dei Colossi e dall’ENIAC, era pienamente valorizzata dalla presenza del programma memorizzato.
L’EDSAC era appena completato che proprio queste due
sue caratteristiche, l’elaborazione di dati non numerici e la
presenza dell’istruzione di salto condizionato in un programma memorizzato, furono portate in primo piano per parlare
Parte di una macchina
calcolatrice per il
calcolo differenziale
ricostruita dai
progetti originali
di Charles Babbage
(1792-1871), il
matematico inglese
che per tutta
la vita si dedicò allo
studio della macchina
che ha anticipato di
cento anni la nascita
del computer.
615
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Il «pensiero
meccanico»
dei calcolatori
L’articolo di Turing
sull’intelligenza
e gli elaboratori
616
di «pensiero meccanico» dei calcolatori. In un lavoro pubblicato nel 1952, Programming a digital computer to learn, Anthony Oettinger (1929), nel Mathematical Laboratory diretto da Wilkes a Cambridge, descriveva due programmi per
l’EDSAC in grado di modificare le proprie prestazioni sulla
base dell’esperienza, ovvero di «apprendere». Uno di questi
manifestava una forma di apprendimento che oggi diremmo
mnemonico. Il compito da eseguire era quello di imparare dove acquistare certe merci in un mondo simulato di rivenditori. Il programma cercava a caso tra i vari rivenditori fino a
scovare la merce desiderata, annotando in memoria presso
quale rivenditore l’aveva trovata. Richiesto di cercare di nuovo quella stessa merce, il programma raggiungeva direttamente
il relativo rivenditore, senza ripetere la ricerca. Inoltre, esso
era dotato di una certa «curiosità», come diceva Oettinger:
nelle sue ricerche casuali, il programma prendeva nota di altre merci, diverse da quella cercata, fornite dai vari rivenditori
in cui si imbatteva, in modo da poter usare questa informazione per abbreviare la ricerca di quelle merci in successive
esplorazioni. È evidente come tutto si basasse sulla iterazione di cicli controllati da salti condizionati: il programma continuava nella sua ricerca se la merce non era quella voluta,
prendendo nota del risultato, altrimenti si fermava.
A stimolare la ricerca di Oettinger erano stati soprattutto
tre lavori che risalivano agli anni immediatamente precedenti.
Il primo era un articolo di Shannon, Programming a computer to plain chess (1950), in cui l’autore insisteva sull’importanza delle applicazioni non numeriche dei calcolatori digitali, come la programmazione del gioco degli scacchi, l’oggetto della sua ricerca, sulla quale dovremo tornare. Gli altri due portavano la firma di Turing e di Wilkes, e vertevano
sul «pensiero meccanico», ovvero sull’asserita «intelligenza» dei calcolatori. L’articolo di Turing, Computing Machinery and Intelligence (1950), diventerà uno dei testi più conosciuti e citati nella letteratura relativa alle nuove macchine, sia per alcune intuizioni anticipatrici di sviluppi futuri,
sia per la proposta di quello che egli chiamò il «gioco dell’imitazione». Al gioco partecipano un uomo, una donna e un
interrogante, il quale, ponendo le domande più diverse e ricevendo le risposte attraverso due terminali distinti, deve scoprire chi è l’uomo e chi la donna. Turing immagina che, nel
dare le risposte, l’uomo tenti di ingannare l’interrogante, mentre la donna tenti di aiutarlo. Egli propone quindi di sostituire
all’uomo una macchina, in effetti un calcolatore digitale di ti-
5. L’Intelligenza Artificiale
LE APPLICAZIONI DELL’INTELLIGENZA ARTIFICIALE: LA ROBOTICA
Tra i diversi campi di studio dell’Intelligenza
Artificiale, il cui concetto si può far risalire
al matematico britannico Alan Turing, si è sviluppata l’odierna tecnica di progettazione di
robot, la robotica.
Un moderno robot, in grado di muoversi autonomamente nell’ambiente in cui esplica le
sue funzioni, è una macchina, comprendente
o collegata a un elaboratore elettronico, orientata alla manipolazione di parti o utensili portatili, ma non in grado di eseguire particolari
operazioni tecnologiche. Suo campo di applicazione sono le attività di tipo discreto nelle
quali vengono trattati oggetti individuati e numerabili. Scopo principale è quello di sostituire l’uomo in alcune attività produttive, in particolare nelle operazioni di manipolazione. Robot evoluti sono addirittura insostituibili in alcune imprese spaziali.
I robot industriali hanno mostrato – come gli
elaboratori elettronici – una tendenza marcata
a svilupparsi per generazioni, cioè attraverso
salti qualitativi. I robot della prima generazione
hanno capacità di memoria, ma non hanno, se
non in misura molto ridotta, capacità di adattarsi alle condizioni esterne. I robot di seconda generazione sono invece muniti di sensori
che consentono capacità sensoriali rudimentali
come tatto e vista, vengono invece progettati, e
in parte impiegati, per poter essere in grado di
interagire con l’ambiente esterno. Sono inoltre
dotati di sistemi di elaborazione, che permet-
tono loro di prendere semplici decisioni e di
effettuare scelte operative in base alle situazioni percepite attraverso i propri sensori. Caratteristica fondamentale dei robot destinati all’attività manifatturiera è la capacità di apprendere tutte le fasi del ciclo lavorativo. I robot
vengono anche utilizzati per il rilevamento dei
dati durante i processi produttivi, ma più spesso effettuano dei controlli automatici sulle operazioni svolte.
Nel 2003 un’équipe di ricercatori americani
ha messo a punto un robot i cui movimenti
sono governati da una rete di cellule neurali,
ossia un ibrido tra essere vivente e componenti
robotiche, che ha una caratteristica fondamentale: muovendosi assorbe informazioni dall’ambiente circostante e reagisce cambiando
il proprio comportamento, imparando perciò
dall’esperienza.
po generale, e di vedere come se la cavi nel gioco, e cioè fino a che punto riesca a ingannare l’interrogante. Quest’ultimo, si chiede Turing, sbaglierebbe nell’identificare i suoi interlocutori «altrettanto spesso» di quando al gioco partecipava un uomo e non una macchina?
Wilkes, riprendendo il gioco dell’imitazione nell’articolo Can
Machines Think? (1951), sosteneva che, per pensare seriamente di «simulare il comportamento umano» con un calcolatore, si sarebbe dovuto progettare un «programma di apprendimento generalizzato», cioè in grado di imparare in qualsiasi campo scelto dal programmatore: un obiettivo molto lontano, date le prestazioni dei programmi realizzati.
Un francobollo
celebrativo della
figura di Alan
Turing, uno dei
teorizzatori del
concetto di
Intelligenza
Artificiale e delle
sue applicazioni
tecnologiche,
come la robotica.
L’articolo di Wilkes
sulla possibilità
di pensiero delle
macchine
617
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Maurice Wilkes
(1913) al lavoro
sul computer EDSAC
nel 1949. L’EDSAC
rappresenta il primo
elaboratore
a programma
memorizzato
della storia.
Il gioco dell’imitazione
e il testi di Turing
618
Oettinger ritenne che i suoi programmi costituissero delle
parziali risposte ai quesiti posti da Turing e da Wilkes. Senza
manifestare la capacità «generalizzata» di apprendimento indicata da Wilkes, essi riuscivano tuttavia a migliorare le proprie prestazioni in certi compiti particolari. Inoltre, essi avrebbero potuto superare almeno «una forma ristretta», come egli
si esprimeva, del gioco dell’imitazione. Oettinger sembra dunque essere stato il primo a interpretare il gioco dell’imitazione come un test sufficiente (un «criterio», egli diceva) per valutare le prestazioni di particolari programmi per calcolatore in
domini limitati. Sarà questa interpretazione «ristretta» del gioco dell’imitazione, nota come test di Turing, che diventerà più
popolare in seguito.
Oettinger osservava inoltre che il calcolatore era usato in questi casi per simulare certe funzioni del cervello, non la sua strut-
5. L’Intelligenza Artificiale
tura fisica, e il criterio di Turing poteva servire per verificare
solo una corrispondenza funzionale tra calcolatore e cervello.
In questo caso, rendendo esplicite alcune intuizioni di Turing,
le sue osservazioni coglievano un punto che ispirerà l’orientamento di futuri approcci computazionali ai processi mentali.
Anche le sue proposte metodologiche andavano in questa direzione. L’uso simbolico del calcolatore individuava per Oettinger coloro che sarebbero stati in effetti tra i principali utenti delle nuove macchine: «Quanti, come gli psicologi e i neurologi, sono interessati alle potenzialità degli attuali calcolatori digitali come modelli della struttura e delle funzioni dei sistemi nervosi organici». D’altra parte, il salto condizionato era
da lui interpretato in un’accezione che l’avrebbe reso particolarmente suggestivo per tali utenti. Anche Shannon, nell’articolo ricordato da Oettinger, ne parlava come di una procedura che metteva la macchina nella condizione di decidere o scegliere tra alternative diverse sulla base di risultati ottenuti in
precedenza. Ma Oettinger sottolineava questo aspetto come
cruciale per i suoi programmi, perché consentiva loro di «organizzare sensatamente (meaningfully) la nuova informazione,
e di selezionare modi alternativi di comportamento sulla base di tale organizzazione».
Come si è detto, i programmi di Oettinger erano basati in modo essenziale sul salto condizionato. In fondo, non si trattava
che della capacità propria di un calcolatore come l’EDSAC
di simulare il comportamento di un dispositivo analogico dotato di retroazione. Ma proprio la cibernetica aveva esaltato
le capacità discriminative di tali dispositivi, e come abbiamo
visto erano stati Rosenblueth, Bigelow e Wiener a introdurre
il linguaggio psicologico della «scelta» e dello «scopo» nella descrizione di questi artefatti. Un invito a un uso quanto meno
cauto di termini psicologici suggeriti dal salto condizionato come «decisione» o «discriminazione», per non parlare di «pensiero», venne poi da un successivo intervento di Wilkes (1953).
Mentre testimoniava l’effettivo impiego di tali termini da parte di molti programmatori (abbiamo ricordato il caso di Shannon), e riconosceva l’importanza del salto condizionato per la
messa a punto di programmi che apprendono come quelli di
Oettinger, Wilkes osservava come questa procedura non avesse nulla di straordinario, ed era comunemente usata da qualsiasi programmatore di grandi calcolatori. Tuttavia, procedure di questo tipo, caratteristiche delle nuove macchine, sono
state all’origine della discussa plausibilità, sulla quale torneremo, di attribuire loro una qualche forma di intenzionalità.
L’invito di Wilkes
a non pensare i
calcolatori in termini
psicologici
619
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
La simulazione del cervello
sul calcolatore: struttura o funzione?
Una unità PU
(pluggable unit) del
computer IBM 701:
costruito in 19
esemplari nel 1952,
il 701 costituisce
il primo computer
prodotto in serie
della storia. Ormai
le potenzialità degli
elaboratori non
riguardavano più solo
una cerchia ristretta
di matematici
(o, tutt’al più,
militari) ma anche il
mondo dell’industria,
del commercio, del
terziario.
620
L’articolo di Wilkes compariva ripubblicato su uno dei più
diffusi periodici scientifici dell’epoca, i «Proceedings of the
IRE» (Institute of Radio Engineers), in un numero speciale
del 1953, The Computer Issue, che costituisce forse la migliore testimonianza del livello raggiunto in quel momento
dalla progettazione e dalla tecnologia dei calcolatori. L’articolo era seguito da un intervento di Shannon, Computers and
Automata (1953), una rassegna dei programmi che manifestavano prestazioni paragonabili a quelle umane, e da una
lunga serie di contributi che presentavano il calcolatore sotto tutti i suoi aspetti, da quelli della programmazione a quelli dello hardware, mentre si intravedevano i vantaggi dell’imminente diffusione dei transistori, che avrebbe caratterizzato la seconda generazione di calcolatori. Nella realizzazione e nella diffusione dei calcolatori, in prevalenza progettati nel mondo delle università, non era mancato, oltre
al sostegno dei militari, l’apporto dell’industria. Negli Stati
Uniti, l’IBM aveva contribuito a finanziare il progetto di Aiken, e proprio all’inizio degli anni Cinquanta, quasi contemporaneamente alla Ferranti in Inghilterra, era entrata nel mercato con il calcolatore IBM 701, accuratamente descritto nel
Computer Issue. Era il primo di una serie di calcolatori elettronici generali con programma memorizzato, utilizzabili per
scopi di ricerca teorica ma anche di applicazione industriale,
che dovevano portare l’azienda americana ad assumere rapidamente un ruolo egemone nel settore. Su questo calcolatore aveva cominciato a far girare un suo primo programma
per il gioco della dama Arthur Samuel (1901-90), allora ricercatore presso l’IBM,
un cui articolo introduttivo apriva il Computer Issue.
Nell’aprile dello stesso
1953 si era svolta a New
York l’ultima Macy Conference di cibernetica, decimo
di una serie di appuntamenti che, a partire dal marzo del
1946, avevano visto crescere
intorno alla proposta di Wie-
5. L’Intelligenza Artificiale
ner l’interesse di filosofi e scienziati di formazione molto diversa. A chiudere la conferenza era McCulloch, con un Sommario dei punti di accordo raggiunti nelle precedenti riunioni
(1953). Tra questi egli ricordava le sue reti formali e i risultati di Turing, ma neppure un cenno era dedicato all’emergente impiego del calcolatore come macchina generale e al
suo possibile ruolo nel programma cibernetico. E questo nonostante egli fosse solito descrivere il cervello, per la verità
I TRANSISTOR
Il nome transistor indica attualmente più gruppi di dispositivi elettronici costruiti con materiali semiconduttori. I gruppi più importanti nella famiglia dei transistor sono i transistor
bipolari e quelli a effetto di campo.
Le piccole dimensioni, l’elevata affidabilità, la possibilità di integrarne un grande numero su di una piastrina di silicio, e la possibilità di utilizzarli sia come amplificatori sia
come interruttori, hanno fatto di questi dispositivi i protagonisti dello sviluppo dell’elettronica. I transistor bipolari si ottengono da un
monocristallo di silicio nel quale vengono ricavate tre zone drogate, rispettivamente p, n
e di nuovo p, formando in tal modo un transistor PNP, (oppure n, p e di nuovo n, transistor NPN). Il drogaggio del silicio si ottiene
aggiungendo piccole quantità di impurità, alluminio o boro per ottenere silicio di tipo P,
arsenico o fosforo per il silicio di tipo N.
Il silicio N contiene come portatori di carica liberi gli elettroni apportati dall’elemento
TIPO NPN
collettore
(C)
emettitore (E)
TIPO NPN
TIPO PNP
collettore
(C)
base (B)
base (B)
emettitore base
zona n
zona p
drogante, mentre nel silicio P i portatori liberi
sono costituiti da lacune, cariche positivamente. Le tre zone sono chiamate, rispettivamente, emettitore (E), base (B) e collettore (C), e formano due giunzioni fra materiale di tipo P e N. Caratteristica della base è
di essere sottile (alcuni micrometri al massimo) e poco drogata rispetto all’emettitore.
Il cristallo di silicio viene racchiuso in un contenitore che ha lo scopo di proteggere il cristallo dalla luce, da attacchi meccanici, chimici e di dissipare il calore prodotto durante
il funzionamento. Sulle tre zone E, B e C vengono saldati durante la costruzione dei fili di
collegamento che fuoriescono poi dal contenitore e servono per il collegamento al circuito.
I transistori a effetto di campo (FET, Field Effect Transistor), anche detti transistori unipolari sono numerosi: i più importanti sono il
JFET (FET a giunzione) e il MOS-FET (Metallo Ossido Semiconduttore).
emettitore (E)
collettore
zona n
zona p
zona n
TIPO PNP
zona p
Schemi dei due
tipi principali
di transistor,
NPN e PNP.
621
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Scienze della mente
e ruolo del
calcolatore
622
piuttosto genericamente, come «un calcolatore digitale dotato di retroazione». Se si confrontano i resoconti di questa
Conferenza con gli interventi contenuti nel Computer Issue,
si ha la sensazione di avere a che fare con due mondi molto
distanti l’uno dall’altro.
Un diverso convegno, al quale partecipava lo stesso
McCulloch, sembrava questa volta fare i conti con il ruolo che il calcolatore poteva svolgere nelle scienze della mente e del cervello. Insieme a Oettinger, al neurologo Otto
Schmitt e a Nathaniel Rochester, direttore di ricerca dell’IBM, McCulloch era uno dei quattro relatori del simposio
Progetto di macchine che simulano il comportamento del cervello umano (1956), organizzato nel 1955 dalla IRE National Convention. Invitati a discutere le relazioni erano tra gli
altri John Mauchly, Walter Pitts e Marvin Minsky, in quel
momento ad Harvard. La lettura del resoconto di questo
simposio è illuminante: si ha la sensazione di avere davanti l’inventario degli argomenti principali, degli approcci metodologici, delle ambizioni e delle difficoltà che verranno in
primo piano nel decennio successivo, e in qualche caso anche in tempi più recenti.
Sullo sfondo o al centro dei temi dibattuti al simposio i primi programmi per calcolatore già funzionanti, o comunque
in fase di sperimentazione, che in un modo o in un altro imitavano prestazioni umane o competevano con esse. Alcuni
erano stati già illustrati da Shannon nel Computer Issue, e
Oettinger nel suo intervento ne citava altri. C’erano anzitutto
i programmi che se la cavavano più o meno bene in giochi di
diversa complessità: quello per la dama, suggerito da Turing
a Cristopher Strachey, che lo pubblicò nel 1952; quello di
D.W. Davies per il filetto, che girava su un calcolatore DEUCE; quello per il nim. Il calcolatore NIMROD, costruito dalla Ferranti, aveva giocato al nim con i visitatori della mostra scientifica del Festival of Britain del 1951, dove si trovava esposto insieme alle celebri «tartarughe» elettroniche
del cibernetico Walter Grey Walter (1910-77). Turing era tra
i visitatori di questa esposizione delle meraviglie delle nuove macchine, giocò con il calcolatore e riuscì a batterlo. C’erano poi i programmi già ricordati dello stesso Oettinger, e
quello più recente di Rochester, il quale, con John Holland
(1929) e altri ricercatori, si era proposto di simulare su un
IBM 701 la teoria sviluppata nel libro del 1949, The Organization of Behavior, dallo psicologo Donald Hebb (190485), per il quale l’apprendimento consisteva nel rafforza-
5. L’Intelligenza Artificiale
▼
modello teorico
calcolo di alcune
implicazioni del modello
▼
▼
▼
uso dei risultati
per confermare, refutare
o modificare
il modello teorico
Il ciclo metodologico
proposto da Nathaniel
Rochester nel 1955,
in cui il calcolatore
è usato per
controllare la teoria
dell’apprendimento
di Hebb.
esperimento per verificare
se le predizioni
sono corrette
mento delle connessioni tra neuroni, o gruppi di neuroni, ripetutamente attivati. Al simposio si confrontarono posizioni diverse. La discussione con Pitts portava Oettinger a chiarire la sua affermazione circa il duplice interesse suscitato
dal calcolatore digitale: nelle ricerche neurologiche, dove esso può essere usato per controllare teorie del funzionamento del cervello, e nella simulazione delle «funzioni mentali
superiori», che può essere invece ottenuta senza simulare
ciò che si sa o si ipotizza al livello della struttura biologica,
cioè del cervello. La ricerca sulla simulazione delle funzioni suggerisce a sua volta i modi in cui migliorare le prestazioni di macchine come i calcolatori, tanto distanti dal cervello sul piano della somiglianza strutturale. Come esempio
del primo tipo di ricerche Oettinger citava il programma simulativo di Rochester, che questi aveva presentato al simposio insistendo a sua volta sulla proposta metodologica di
«usare i calcolatori automatici moderni per controllare certi aspetti di alcune teorie del funzionamento del cervello».
Lo schema qui sopra riproduce il ciclo metodologico illustrato da Rochester, che va dall’implementazione sul calcolatore del modello di una teoria del cervello, all’estrazione delle implicazioni del modello, al loro controllo, all’uso
dei dati per confermare, refutare o modificare la teoria: proprio il ciclo sperimentato sulla teoria di Hebb, che aveva dovuto subire alcune modifiche suggerite dal modello implementato sul calcolatore.
Molto dibattuta al simposio fu la questione sollevata da
Schmitt: se i calcolatori dovevano imitare la duttilità del ragionamento manifestata dal cervello umano, bisognava che
ricorressero non alla rigida logica del sì e del no, o bivalente, ma a una logica sfumata, o «grigia», come egli diceva. In
una breve polemica con McCulloch, infine, Minsky si di-
Il ciclo metodologico
di Rochester
623
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
L’omeostato
chiarava scettico sullo stato dei modelli con «memoria distribuita», e rifiutava di ritenere, come gli veniva proposto,
che un buon esempio di tali modelli fosse una macchina dotata delle semplici capacità auto-organizzative dell’«omeostato» del cibernetico William Ross Ashby (1903-72). L’omeostato, una delle più note macchine dell’era cibernetica, era descritta da Ashby (1952) come un sistema «ultrastabile», in grado non solo di autocorreggere il proprio comportamento (come i sistemi dotati di retroazione negativa o
«stabili») ma anche di auto-organizzarsi, cioè di cambiare
la propria organizzazione interna al fine di reagire in modo
appropriato a un disturbo proveniente dall’ambiente.
Strategie soddisfacenti
Lo studio del
comportamento
decisionale
nei giochi
624
Il simposio del 1955 si era svolto mentre Samuel completava l’implementazione su un calcolatore IBM 704 di un nuovo programma per la dama, destinato a rimanere una pietra
miliare nelle ricerche sull’apprendimento automatico. Egli
sviluppò alcune precedenti intuizioni di Shannon sulla programmazione degli scacchi, ma scelse la dama per la maggiore semplicità delle regole, che rendeva il gioco effettivamente trattabile al calcolatore. Lo studio del comportamento decisionale nei giochi ha svolto un ruolo di primo piano
nella ricerca che è all’origine dell’IA, ed è dunque interessante ricostruirne con qualche dettaglio le premesse e i principali sviluppi.
Shannon aveva cominciato a pensare a un programma su
calcolatore per gli scacchi intorno alla metà degli anni Quaranta. Anche su questo argomento Turing aveva detto la sua:
con Good, aveva simulato «a mano» un programma per gli
scacchi che nelle caratteristiche fondamentali richiama quello di Shannon. Quest’ultimo, descritto nell’articolo del 1950
già ricordato, si basava sull’idea di valutare la mossa migliore attraverso un’analisi anticipativa delle mosse alternative
del gioco, sulla base di una procedura nota come «minimax».
Si tratta di una procedura che risale alle prime formulazioni
della teoria matematica dei giochi, sulla quale aveva lavorato a partire dagli anni Venti anche von Neumann. Il giocatore di scacchi era diventato una metafora comune nell’analisi dei processi di decisione, trovando infine una formulazione rimasta classica nel libro che Von Neumann aveva
pubblicato nel 1944 con l’economista Oskar Morgenstern,
Theory of Games and Economic Behavior.
5. L’Intelligenza Artificiale
CLAUDE ELWOOD SHANNON
Matematico e informatico statunitense (Petoskey, Michigan 1916-Metford, Massachusetts 2001), Shannon è il fondatore della teoria dell’informazione, alla base della moderna
comunicazione digitale.
Durante il suo master presso il Dipartimento di Ingegneria elettrica del Massachusetts
Institute of Technology (MIT) Shannon applicò la logica simbolica e l’algebra booleana
alla progettazione di circuiti a commutatori,
antenati dei circuiti integrati. I risultati principali di tale ricerca sono nella sua tesi A
Symbolic Analysis of Relay and Switching Circuits, (che gli fruttò il premio Alfred Noble
American Institute of American Engineers).
La tesi di master di Shannon è considerata una pietra miliare nella teoria della progettazione dei circuiti integrati per i computer. Negli anni successivi, Shannon cominciò a sviluppare le sue idee sui sistemi di comunicazione dell’informazione in presenza
di «rumore» che lo portarono, nel 1948, al
suo lavoro più importante e punto di partenza della teoria dell’informazione: A Mathematical Theory of Communication. Shan-
non arrivò all’idea rivoluzionaria della rappresentazione digitale dell’informazione (sia
questa sotto forma di testo, o di immagine,
o di suono, o di video), che si ottiene campionando la sorgente dell’informazione a una
velocità appropriata, e convertendo i campioni in un flusso di bit.
Shannon è noto anche per la sua inclinazione a progettare giochi e passatempi elettronici e connessi con l’intelligenza artificiale tra cui un programma per giocare a scacchi con il computer (fonte d’ispirazione per
molti programmi di simile natura scritti in seguito).
È diventato famoso il «topolino di Shannon»,
un dispositivo elettronico che cercava la strada in un labirinto e sembrava impararla attraverso errori e tentativi. Shannon ha anche
applicato concetti di teoria dell’informazione
all’economia, e in particolare al concetto
dell’«investimento ottimale»: in questo caso il
problema da risolvere è la massimizzazione di
una funzione portfolio attraverso una scelta
appropriata delle azioni, e il rumore sono le
variazioni della borsa.
Claude Shannon
fotografato ai
laboratori Bell
nel 1954. La sua
terminologia e i suoi
modelli di teoria
dell’informazione
hanno mantenuto
tutta la loro
rilevanza anche
a distanza di
cinquanta anni.
625
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Nella loro terminologia, gli scacchi, al pari di altri giochi che
abbiamo ricordato, come la dama, il nim o il filetto, sono «determinati univocamente». Un modo per rappresentarli è l’albero del gioco. Esso viene generato a partire da una posizione o un nodo iniziale considerando prima tutte le mosse lecite del primo giocatore (i nodi raggiungibili da quello iniziale
applicando le regole del gioco), poi tutte le risposte dell’avversario e così via. Un giocatore perfettamente razionale, in
effetti onnisciente, sarebbe in grado di «vedere» l’intero albero del gioco, e dunque di scegliere la migliore successione di mosse attraverso la valutazione delle conseguenze finali
di ciascuna mossa alternativa: gli basterebbe assegnare valori distinti alle posizioni finali, corrispondenti alla vittoria, al
pareggio e alla sconfitta; quindi risalire l’albero a ritroso apUN ESEMPIO DI ALBERO PARZIALE DEL GIOCO DEGLI SCACCHI
+0,3
–0,1
–0,1
+0,6
–0,5
–7
–0,1
–7,3
+0,2
–6,3
–1,5
–6
+3,3
bianco
La funzione di valutazione applicata a un albero
parziale del gioco degli scacchi. L’albero si
percorre a ritroso (nella figura, da destra verso
sinistra). Le contromosse del nero (le linee
tratteggiate) che procurerebbero al bianco la
vittoria o il vantaggio maggiore hanno i
punteggi più alti, sotto forma di numeri positivi
più grandi, mentre le contromosse del nero che
porterebbero il bianco alla sconfitta o a
posizioni di svantaggio maggiore hanno i
626
nero
punteggi più bassi, sotto forma di numeri
negativi più grandi. Assumendo che il nero, al
fine di minimizzare il vantaggio del bianco,
scelga una delle tre mosse con numeri negativi
più grandi, si assegnano questi ultimi alle tre
possibili mosse alternative del bianco (le linee
continue). A questo punto, la mossa migliore
per il bianco è quella delle tre che, in quanto
massimizza il proprio vantaggio, ottiene il
punteggio più alto, in questo caso -0,1.
5. L’Intelligenza Artificiale
livello 1
2
✽
3
le valutazioni verrebbero normalmente
eseguite a questo livello
livello precedente di valutazione
plicando la procedura del minimax, stabilendo cioè a ogni nodo quale ramo lo porta a una posizione di vantaggio massimo per lui e minimo per l’avversario, fino a tornare alle alternative della sua prima mossa e prendere la decisione. Nella pratica questa strategia esaustiva o per «forza bruta» trova in generale una difficoltà insormontabile nell’esplosione
combinatoria delle mosse possibili, addirittura più che astronomica nel caso degli scacchi, che Shannon calcolava nell’ordine di 10120. Egli propose perciò una prima modifica di
questa strategia, consistente nel generare l’albero del gioco
solo fino a una certa profondità, nell’assegnare determinati
valori ai nodi così raggiunti e nel valutare a ritroso i cammini mediante una funzione di valutazione basata sulla procedura del minimax (si veda lo schema a fianco). Consapevole del fatto che una procedura simile era in generale radicalmente inefficiente, Shannon si pose il problema di come
migliorarla, al fine di «sviluppare una strategia passabilmente buona per selezionare la mossa successiva», e ipotizzò di
incorporare nel programma (più precisamente, nella funzione di valutazione) accorgimenti e criteri di selettività che rimandavano direttamente agli studi dello psicologo olandese Adrian de Groot su maestri di scacchi i quali riferivano
le loro analisi «ad alta voce» durante il gioco.
Lo studio più approfondito della possibilità di implementare la funzione di valutazione si deve a Samuel. Il suo obiettivo era di usare la dama per sperimentare le capacità di apprendimento delle macchine. Il programma di Samuel, prima
di valutare una posizione, controllava in memoria se l’aveva
già valutata, in modo da non perdere tempo a farlo di nuovo.
Questa forma di apprendimento mnemonico, che abbiamo
già visto sperimentata in semplici compiti da Oettinger, fu potenziata da Samuel in modo che la memorizzazione di una posizione valutata aumentasse le capacità anticipative del programma: quando (come mostra lo schema sopra), un nodo ter-
L’apprendimento
mnemonico nel
programma per la
dama di Arthur
Samuel.
Normalmente, la
valutazione verrebbe
eseguita fino al livello
3. Ma in questo
caso alla posizione
risulta assegnato un
punteggio nel corso
di una valutazione
precedente, che
è stato conservato
in memoria. Ciò
permette di migliorare
la valutazione
a ritroso.
627
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Copertina della
quarta edizione
di Administrative
Behavior
(Il comportamento
amministrativo),
pubblicato per la
prima volta nel 1947,
fondamento delle
ricerche sul
comportamento
decisionale che
fruttarono a H. Simon
il premio Nobel
per l’economia.
628
minale di un albero da esplorare in avanti coincideva con il nodo iniziale di un albero già esplorato, la cui valutazione era stata dunque memorizzata, la ricerca arrivava di fatto a una maggiore profondità, quella dell’albero già esplorato.
Il riferimento di Shannon a De Groot suggeriva la possibilità di una strada sensibilmente diversa da quella tentata da Samuel, e consistente
nell’affrontare il problema dell’esplosione combinatoria studiando più da vicino i processi umani
della scelta. Ora proprio questi erano stati l’oggetto dell’interesse di Herbert Simon (19162001), studioso del comportamento decisionale
e delle organizzazioni complesse nell’ambito della ricerca operativa, un’altra disciplina che, come
la cibernetica e la scienza dei calcolatori, aveva
avuto un forte impulso durante il secondo conflitto mondiale. Già in anni precedenti Simon aveva abbandonato l’impostazione normativa della teoria dei giochi, che consisteva
nello studio della scelta o della strategia che l’agente, il cosiddetto «uomo economico», dovrebbe attuare al fine di massimizzare le possibilità di raggiungere una soluzione ottima.
Egli aveva invece introdotto la dimensione psicologica nello
studio della scelta, attraverso l’analisi del comportamento decisionale che l’agente normalmente attua, condizionato com’è tanto dai propri limiti interni, per esempio di memoria
o di capacità di usare dati e conoscenze di cui dispone, quanto dalla complessità dell’ambiente in cui si trova a operare.
Nello sviluppare questo punto di vista non normativo Simon
pubblicava nel 1947 Administrative Behavior, il libro nel quale concludeva una linea di ricerca premiata molti anni dopo, nel 1978, con un Nobel per l’economia. Il giocatore di
scacchi restava per Simon la metafora del comportamento
dell’agente razionale, ma questa volta era descritto non sotto il profilo dell’astratta razionalità onnisciente dell’uomo economico, ma sotto quello della razionalità limitata del solutore di problemi reale, o «uomo amministrativo», come lo definiva Simon. I suoi limiti interni e la complessità dell’ambiente esterno, ben rappresentata dal gioco degli scacchi, non
gli consentono di mettere in atto strategie ottimali, ma solo
strategie parziali che risultano più o meno «soddisfacenti»,
secondo il termine di Simon.
Queste idee di Simon furono all’origine, nel 1952, della sua
ipotesi di un programma per gli scacchi che non fosse basa-
5. L’Intelligenza Artificiale
to in modo cruciale sui perfezionamenti della funzione di valutazione di Shannon, ma piuttosto sull’implementazione di
quelle strategie soddisfacenti che egli aveva considerato il
cuore dei processi umani di soluzione di problemi. In quel
periodo Simon già era in contatto con Allen Newell (192792), un fisico della RAND Corporation che si occupava di organizzazioni complesse. Newell aveva seguito i corsi del matematico George Polya, il quale, nel suo How to Solve It del
1945, aveva definito i processi della soluzione di problemi come «euristici», cioè basati sull’uso di indizi e di espedienti
utili alla ricerca della soluzione: un’idea che richiamava molto da vicino quella della strategia soddisfacente di Simon. Newell ha raccontato di essere rimasto colpito da un programma che gli rese chiare le enormi potenzialità del calcolatore
come macchina non numerica: Oliver Selfridge, già assistente
di Wiener al MIT, aveva messo a punto nel 1954 un programma che era in grado di riconoscere configurazioni come lettere dell’alfabeto o semplici figure geometriche, tra i
primi esempi di quella che si sarebbe chiamata pattern recognition. Decise allora di sperimentare le capacità di elaborazione simbolica del calcolatore con il gioco degli scacchi. Nel gennaio del 1956, tuttavia, Simon comunicava per
lettera a De Groot che lui e Newell, accantonato il progetto
Herbert Simon
(in una foto del 1978)
assieme al fisico
Allen Newell e
al programmatore
Clifford Shaw ideò
nel 1955-56 un
programma per la
dimostrazione di
problemi di logica
enunciativa, il
Logic Theorist,
cui sarebbe seguito
nel 1958 il General
Problem Solver.
629
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Un ricercatore
della Ferranti di
Manchester imposta
sul computer un
programma per il
gioco degli scacchi:
siamo nel 1955.
del programma per gli scacchi, erano invece sul punto di concludere quello di un dimostratore automatico di teoremi della logica enunciativa. Nel frattempo, ai due si era aggiunto
Clifford Shaw (1922), un abile programmatore.
Come gli scacchi o altri giochi ricordati, anche la dimostrazione di teoremi poteva essere rappresentata come un albero. Ma si tratta di un albero (un «labirinto», come inizialmente si diceva) diverso da quello del gioco, dove vengono
rappresentate le mosse antagoniste di due giocatori. Newell,
Shaw e Simon ne diedero una formulazione che è all’origine di quella che poi sarebbe diventata nota in IA come la rappresentazione dello spazio degli stati.
La ricerca della soluzione viene vista in questo caso come
la ricerca di un cammino dell’albero che, attraverso l’appli630
5. L’Intelligenza Artificiale
cazione di opportuni operatori, porta da un nodo (uno stato) assunto come iniziale a quello finale, la soluzione del problema. Come nell’albero del gioco, anche qui si ripresenta
il problema dell’esplosione combinatoria. In teoria, se fosse
possibile esplorare in modo esaustivo tutti i cammini a partire dallo stato iniziale, prima o poi si arriverebbe alla soluzione del problema (posto che essa esista). Basterebbe fissare l’ordine in cui esaminare i nodi, stabilendo così una procedura per trovare tutti i successori di un dato nodo: Newell,
Shaw e Simon chiamarono questa procedura (o una sua variante) «algoritmo del British Museum». L’agente o il solutore di problemi reale non mette mai in pratica un algoritmo del genere, seguendo invece procedure che fanno uso
di informazioni parziali o di indizi. L’idea dei tre autori era
che un programma su calcolatore, per essere in grado di affrontare il problema dell’esplosione combinatoria, avrebbe
dovuto incorporare tali procedure, qualificabili come euristiche.
Il programma basato su questa intuizione era quello di cui
Simon scriveva a De Groot: il Logic Theorist (LT), che arrivò a stampare una quarantina di teoremi del calcolo degli
enunciati dei Principia mathematica di Bertrand Russell e Alfred Whitehead. Un’idea approssimativa di tale intuizione,
che è risultata tra quelle più importanti della cosiddetta programmazione euristica, può essere data rifacendosi a una
«versione modificata del LT», come Newell, Shaw e Simon
definirono inizialmente, nel 1958, un successivo programma
di dimostrazione di teoremi, poi chiamato General Problem
Solver (GPS). Sulla base degli operatori, un insieme di regole
della logica enunciativa, questa versione del LT trasformava una formula logica data come iniziale nella formula che
rappresentava il teorema da dimostrare. Lo faceva individuando differenze tra le due formule e selezionando l’operatore adatto per eliminarle. Il ciclo trasforma-elimina la differenza-applica l’operatore, organizzato come una gerarchia
di sottoprogrammi, poteva essere ripetuto più volte, evitando la generazione esaustiva delle formule e generando, in caso di successo, solo quelle progressivamente più simili alla
formula cercata.
Questa euristica, poi detta «mezzi-fine», si rivelò poi di portata molto generale, cioè applicabile anche ad «ambienti del
compito», per usare l’espressione dei tre autori, diversi da
quello della logica: di qui l’attribuzione di generalità al loro
programma.
Il Logic Theorist (LT)
631
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Le euristiche prima e dopo Dartmouth
Il calcolatore
JOHNNIAC
FORTRAN, il primo
linguaggio di
programmazione
di ordine superiore
632
Il calcolatore JOHNNIAC (JOHN Neumann Integrator and
Automatic Computer) stampò la prima dimostrazione del LT
nell’agosto del 1956. Il LT, tuttavia, aveva già svolto un ruolo da
protagonista nell’ormai famoso seminario estivo organizzato nel
giugno del medesimo anno da Minsky, Rochester, Shannon e
dal matematico John McCarthy (1927). L’incontro, come si
legge nella proposta presentata alla fondazione Rockfeller che
decise di finanziarlo, aveva come obiettivo di esaminare «la congettura che ogni aspetto dell’apprendimento o qualsiasi altra
caratteristica dell’intelligenza può in linea di principio essere
specificata con precisione tale che diventi possibile costruire
una macchina che la simuli». Il seminario si svolse a Hannover, nel New Hampshire, nello stesso Dartmouth College in
cui, nel 1940, Wiener e Mauchly avevano assistito al funzionamento di una macchina di George Stibitz, all’epoca progettatore di macchine a relè molto avanzate. Erano passati sedici anni: il periodo più denso di eventi cruciali nella storia dei
calcolatori e della scienza dell’elaborazione dell’informazione.
Il seminario di Dartmouth fu la fucina dei programmi manifesto della Intelligenza Artificiale, come venne battezzata
la disciplina i cui presupposti abbiamo individuato all’indomani dei primi sviluppi della scienza dei calcolatori. A Dartmouth furono presenti in momenti diversi i principali ricercatori già attivi nella progettazione di programmi per calcolatore con prestazioni «intelligenti»: oltre ai nomi dei promotori dell’incontro, abbiamo già ricordato Newell, Simon,
Selfridge, Samuel. Dopo Dartmouth, si sarebbero formati i
centri storici della ricerca in IA: alla Carnegie-Mellon University con Newell e Simon, al MIT con Minsky, alla Stanford University con McCarthy. In Inghilterra, l’eredità di Turing fu raccolta da Michie a Edimburgo, prima che la ricerca in IA decollasse in altri paesi europei.
A Dartmouth gli autori del LT ebbero modo di discutere
con McCarthy un aspetto della programmazione del LT che
non era di poco conto: esso era scritto non in linguaggio macchina (cioè in successioni finite di cifre binarie, corrispondenti all’assenza o alla presenza di un impulso), ma in un linguaggio di livello superiore. Newell, Shaw e Simon si erano resi conto della difficoltà di scrivere programmi per compiti complessi direttamente in linguaggio macchina. L’esigenza di disporre di un programma che traducesse in linguaggio macchina le istruzioni formulate dall’operatore me-
5. L’Intelligenza Artificiale
diante un linguaggio più vicino a quello naturale era avvertita da tempo. All’inizio degli anni Cinquanta progressi importanti in questa direzione erano stati fatti da Heinz Rutishauser e da Corrado Böhm a Zurigo. Nel 1954 un gruppo di ricercatori dell’IBM diretto da John Backus completava infine il FORTRAN (FORmula TRANslator), il primo
linguaggio di programmazione di livello superiore. Quello di
Newell, Shaw e Simon, lo IPL (Information Processing Language), aveva comunque caratteristiche tutte sue, tagliate
su misura per gestire la complessità dei programmi euristici. L’ispirazione di fondo dello IPL, quella della programmazione a liste, fu ripresa nel 1958 da McCarthy nel LISP
(LISt Processor), destinato a rimanere a lungo il linguaggio di elezione dell’IA.
Il LT viene spesso presentato come il progetto che era allo
stato di realizzazione più avanzato tra quelli discussi a Dartmouth, e come il primo programma di IA che facesse esplicitamente uso di euristiche. Prima del LT, tuttavia, esistevano programmi che incorporavano procedure che si sarebbero potute definire euristiche: prime tra tutte, quelle che
consentivano al programma di Samuel di migliorare le pro-
Il supercomputer
JOHNNIAC, entrato
in uso nel 1953 presso
l’Institute for
Advanced Study di
Princeton (USA),
e basato sopra un
progetto di von
Neumann. Rimase
in uso fino al 1966.
633
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Il concetto
di euristica
L’euristica mezzifine del GPS
634
prie prestazioni nell’affrontare l’esplosione combinatoria
delle mosse del gioco. Benché non fossero pensate con questa finalità, data l’estrema semplicità dell’ambiente del compito, si sarebbero potute definire euristiche anche le procedure selettive presenti nei programmi di Oettinger, il quale, pur senza usare quel termine, citava esplicitamente How
to Solve It di Polya.
Senza entrare nella disputa sui primati, va detto che il termine «euristica» conteneva all’origine una duplicità che poteva essere esplicitata tenendo conto di obiettivi diversi. Ed
era proprio la diversità degli obiettivi a distinguere i due programmi più evoluti dei giorni di Dartmouth, il LT e il programma di Samuel. Newell, Shaw e Simon erano interessati prevalentemente a implementare sul calcolatore programmi che riproducessero i processi umani di soluzione di
problemi. Anzi, proprio i limiti che il LT rivelava sotto questo aspetto indussero i tre autori a intraprendere il progetto del GPS, con il quale essi ritennero di aver raggiunto il
loro obiettivo principale: quello di riuscire a confrontare non
tanto la prestazione finale di un programma con quella di
un essere umano, quanto e soprattutto i processi computazionali che costituivano il programma (la sua «traccia»)
con i processi impiegati dai solutori di problemi umani alle prese con un certo compito, così come era possibile ricavarli da un protocollo registrato mentre essi riferivano «ad
alta voce» le loro mosse. Fu sulla base di protocolli del genere, per esempio, che venne studiata e programmata l’euristica mezzi-fine del GPS. Di più: valutando che il test di
Turing riguardasse solo le prestazioni e non i processi, essi non lo accettarono come test definitivo dell’intelligenza
delle macchine. Per loro il vero test era costituito dalla riuscita di un confronto dettagliato traccia-protocollo. Inoltre, il GPS, dal momento che si dimostrò capace di risolvere diversi tipi di problemi (di scacchi, di integrazione numerica e vari rompicapo), lasciava sperare di riuscire a riprodurre in un programma un’altra caratteristica dell’intelligenza umana, la sua versatilità in ambienti di compito
diversi, con l’obiettivo finale di arrivare alla simulazione di
una soluzione di problemi generale o integrata. Tutto questo era completamente estraneo all’obiettivo di Samuel, che
era quello di costruire un giocatore automatico efficiente,
indipendentemente dalla plausibilità psicologica in senso
stretto dei processi selettivi implementati nel programma,
e che tale restò nei successivi perfezionamenti che egli in-
5. L’Intelligenza Artificiale
DEEP BLUE
Deep Blue è a tutt’oggi la macchina più potente messa al servizio di un gioco, precisamente del gioco degli scacchi. Tale gioco ha
impegnato i computer fin dalla loro nascita:
Alan Turing (considerato il padre dell’Intelligenza Artificiale) già nel 1946-47 abbozzava
le idee per un primo programma capace di giocare a scacchi. Il gioco, fra i più antichi del
mondo, ha sempre mosso un notevole interesse presso le comunità di ricercatori che sviluppavano le moderne tecnologie dell’informatica. Le sue stesse regole, semplici e a un
tempo sofisticate, che si basano su ragionamenti e strategie, formalizzabili in un programma per calcolatori, hanno probabilmen-
te decretato il successo degli scacchi presso
i ricercatori di tutto il mondo che, a più riprese, hanno costruito macchine capaci di giocarvi, e con ottimi risultati.
Deep Blue è l’apice di questa ricerca: realizzato nel 1996 dall’IBM con processori Power 2 a 130 MHz è capace di esaminare 200
milioni di mosse al secondo e, nel 1997, si
è aggiudicato un torneo scacchistico battendo il campione del mondo Kasparov, che l’aveva sconfitto l’anno precedente.
L’inizio della partita fra Garry Kasparov
e Deep Blue, un computer di grande potenza,
nel 1997.
635
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
La programmazione
computerizzata
degli scacchi
La teoria della
complessità
computazionale
trodusse nel suo programma, fino a portarlo al punto che
esso riuscì a battere al gioco il suo stesso autore e anche giocatori di ottimo livello.
D’altra parte, è proprio su questa strada che si avviò la programmazione degli scacchi al calcolatore. Nonostante i successivi tentativi di Newell e Simon, allorché ripresero con
Shaw il progetto di affrontare l’esplosione combinatoria con
strategie selettive ispirate a quelle di giocatori umani, i veri progressi nella programmazione degli scacchi sono stati
conseguiti con l’implementazione di algoritmi che esplorassero in modo efficiente e in profondità l’albero del gioco. Questo approccio è stato reso possibile dalla crescente velocità di elaborazione dei dati tipica dei calcolatori con
circuiti integrati su alta e altissima scala delle ultime generazioni.
Ma non va dimenticato che i successi di un supercalcolatore come Deep Blue, che nel 1997 ha battuto il campione
del mondo Garry Kasparov, sono dovuti, oltre che alla velocità nell’analisi delle mosse, soprattutto alla capacità di
gestire conoscenze relative al gioco. È un fatto, tuttavia, che
la programmazione degli scacchi ha perso interesse per
quanti, come Newell e Simon, avevano pensato ai calcolatori come a un laboratorio per studiare i processi umani
della soluzione di problemi.
L’idea che euristiche efficienti fossero indispensabili per
rendere «trattabili» problemi teoricamente solubili in cui
è presente l’esplosione combinatoria è stata alla base della
cosiddetta teoria della complessità computazionale, sviluppata verso la fine degli anni Sessanta soprattutto dai lavori di S.A. Cook e R.M. Karp. Essi hanno fornito un quadro teorico per l’analisi di diversi problemi di decisione e
di ottimizzazione posti in precedenza, come abbiamo ricordato, dalla teoria dei giochi. È nell’ambito della complessità computazionale che è stata sollevata la questione
degli «ostacoli teorici all’IA», come in Theoretical Impediments to Artificial Intelligence (1974), di M.O. Rabin, che
tuttavia è restata sempre piuttosto sullo sfondo della ricerca in IA.
Simboli o neuroni?
Alle origini dell’IA, due possibili accezioni del termine euristica contribuivano dunque a individuare due tendenze di
ricerca ben distinte, le cui diverse aspirazioni hanno influito
636
5. L’Intelligenza Artificiale
Una foto recente
di Marvin Lee Minsky
(nato nel 1927), uno
dei padri dell’Intelligenza
Artificiale: l’idea
dominante nel pensiero
di Minsky è quella di
rendere un computer
capace di manipolare non
solo dati numerici, ma
anche simboli di tipo
linguistico per la
comprensione di forme
di ragionamento basate
su analogie e sul senso
comune.
sulla successiva evoluzione della disciplina: quella rivolta
alla simulazione più dettagliata possibile dei processi cognitivi umani e quella rivolta alla prestazione più efficiente possibile dei programmi, attraverso procedure anche «non
umane». Nel 1961, discutendo un’esposizione del GPS data da Simon durante un seminario al MIT, Minsky tracciò
una netta distinzione nella ricerca in IA proprio in questi
termini, attribuendo al gruppo della Carnegie-Mellon, rappresentato da Newell e Simon, l’obiettivo della simulazione del comportamento.
A sua volta Simon, riprendendo una distinzione già individuata nel mondo della ricerca sulle macchine intelligenti da Pitts prima di Dartmouth, insisteva che l’«imitazione
della gerarchia di cause finali che chiamiamo mente», che
caratterizzava ogni impresa dell’IA, si contrapponeva
all’«imitazione del cervello», tipica della precedente tradizione della cibernetica.
A questo proposito, dopo il simposio della IRE Convention del 1955, in cui Minsky aveva sollevato dubbi sull’efficacia dei modelli a memoria distribuita, si era tenuto a Teddington, nel 1958, il simposio sulla meccanizzazione dei
processi del pensiero, al quale avevano partecipato neurologi e psicologi come R.L. Gregory, esperti di programmazione come Backus, cibernetici come Ashby, McCulloch,
Imitazione del
cervello o procedure
non umane?
637
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Gli studi
sull’Intelligenza
Artificiale
progredirono di pari
passo con quelli sulle
reti neurali, e si
crearono fin dall’inizio
due scuole di pensiero
pro e contro le
macchine a reti
neurali, identificabili
con le figure di
Rosenblatt e Minsky.
638
Donald MacKay, Gordon Pask, protagonisti di Dartmouth
come McCarthy, Selfridge e lo stesso Minsky. Nel suo intervento Minsky, dopo aver presentato l’emergente programmazione euristica come lo studio dei «processi sintattici che comportano la manipolazione di espressioni simboliche», esprimeva un radicale scetticismo verso i «modelli a reti neurali», e in generale verso i sistemi auto-organizzanti. Questa volta Minsky non si riferiva alla semplice
auto-organizzazione alla Ashby, ma alle più recenti e progredite macchine a reti neurali con memoria distribuita, presentate allo stesso simposio.
Tra queste c’era il Perceptron, ideato alla Cornell University da Frank Rosenblatt, una macchina che «imparava» a distinguere e classificare stimoli visivi. Nella sua versione più
semplice presentata a Teddington, il Perceptron era composto di un unico strato di neuroni del tipo di McCulloch e
Pitts, collegati in ingresso con un’unità sensoriale corrispondente a una retina e in uscita con due unità di risposta. I neuroni, o unità associative, avevano un «valore» (un «peso», come poi si dirà) variabile, cosa che consentiva alla macchina
5. L’Intelligenza Artificiale
di migliorare la propria prestazione dopo una procedura di
«addestramento». Nelle versioni più note del Perceptron, la
procedura consisteva nel modificare dall’esterno il valore delle connessioni se la risposta della macchina non era quella
corretta. Rosenblatt, in Two theorems of statistical separability
in the Perceptron (1959), era straordinariamente ottimista sulle potenzialità della sua macchina, che a Teddington descrisse
addirittura come «un analogo del cervello biologico [...] capace di idee originali». Sostenne anche che era una sterile
pretesa quella di voler riprodurre le capacità del cervello attraverso i calcolatori digitali, «programmati per seguire regole», egli disse, dunque capaci magari di giocare più o meno bene a scacchi, ma certo non di migliorare le loro prestazioni spontaneamente, interagendo con l’ambiente.
Era proprio questa la conclusione che Minsky attaccò: pur
manifestando qualche forma elementare di adattamento e
apprendimento, anche i modelli a reti neurali più evoluti
come il Perceptron non erano in grado di eguagliare la programmazione euristica quando si trattava di riprodurre comportamenti cognitivi complessi. Minsky, in Some Methods
of Heuristic Programming and Artificial Intelligence (1959),
si dichiarava scettico anche nei confronti del Pandemonium,
la nuova macchina descritta da Selfridge a Teddington, nella quale l’informazione veniva elaborata in parallelo da una
gerarchia di unità dette «demoni». L’entusiasmo suscitato
da tali modelli, dovuto essenzialmente a una loro maggiore somiglianza strutturale con il cervello «naturale» e a un
certo parallelismo del loro funzionamento, per Minsky non
era giustificato, data la loro dubbia capacità di manipolare
strutture simboliche e concetti di ordine superiore. Sembrava difficile pensare seriamente che da cambiamenti, come egli si esprimeva, al «livello microscopico» in sistemi come le reti neurali potessero emergere cambiamenti significativi al «livello del comportamento manifesto», quelli che
invece cominciavano a essere sperimentati con successo
con i sistemi dotati di organizzazione gerarchica complessa come i programmi euristici per calcolatore. Di più: anche se si fosse riusciti a fornire a una rete neurale meccanismi per la formazione di concetti semplici, per catturare
i processi superiori si sarebbe sempre dovuto ricorrere a
sistemi euristici «formali o linguistici». Tanto valeva, concludeva Minsky, abbandonare lo studio delle reti neurali,
e dedicarsi a «quella che alcuni di noi chiamano intelligenza
artificiale».
Le critiche di Minsky
ai modelli a reti
neurali
639
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Imitatori del cervello
contro manipolatori
di espressioni
simboliche
L’interesse degli
psicologi per il
Perceptron e il LT
640
Al simposio di Teddington si sanciva all’interno della comunità degli studiosi di macchine intelligenti quella divergenza di metodi e di obiettivi che abbiamo visto prendere forma prima della nascita ufficiale dell’IA a Dartmouth. Ciononostante, le due tendenze – quella degli «imitatori del cervello» e quella dei «manipolatori di espressioni simboliche» –
convissero e si confrontarono in successivi incontri comuni:
per esempio, nelle due conferenze interdisciplinari sui sistemi auto-organizzanti del 1959 e del 1961, che videro la partecipazione di tutti i principali protagonisti di Dartmouth e
di Teddington. In particolare negli anni Sessanta, la ricerca
sulle reti neurali continuò ad affiancarsi a quella dell’IA un po’
ovunque, ad opera di diversi ricercatori, come Albert Uttley,
Wilfrid Taylor, Bernard Widrow (che erano stati relatori a Teddington), Eduardo Caianiello, Augusto Gamba, Karl Steinbuch. In molte ricerche sul Perceptron o ispirate a esso si sperimentarono regole diverse di apprendimento, simulazioni e
anche realizzazioni elettroniche.
Tanto le ricerche di Rosenblatt quanto quelle di Newell,
Shaw e Simon non potevano non suscitare interesse nel mondo degli psicologi. La più diffusa rivista di psicologia americana, la «Psychological Review», pubblicò nel 1958 tanto la
descrizione del Perceptron quanto quella del LT. L’articolo
di Rosenblatt (1958) era sicuramente il più ostico, nonostante
in quell’occasione egli esplicitasse i propri legami con quella
che definiva la «posizione connessionista» di Hebb e di precedenti psicologi associazionisti. Benché la rivista continuasse poi a pubblicare altre ricerche sui Perceptron, fu il gruppo di Carnegie-Mellon che riuscì a ottenere l’eco più vasta tra
gli psicologi, inserendosi con tempestività nel dibattito, che
in quel momento li divideva, sui problemi del metodo sperimentale, della costruzione della teoria psicologica, del rapporto tra studio della mente e ricerca neurologica.
Nel loro articolo Newell, Shaw e Simon (1958) tracciavano un ritratto efficace della psicologia dell’epoca, descrivendola come stretta nella morsa della «polarizzazione» tra comportamentismo e gestaltismo, che effettivamente era avvertita come paralizzante da molti psicologi. A costoro essi indicavano un itinerario inedito quanto allettante, che consisteva
nel riconoscere la complessità dell’oggetto studiato, la mente, come richiedevano i gestaltisti, ma nel rivendicare nello
stesso tempo la necessità di un suo studio scientifico, come
invocavano i comportamentisti, attraverso un nuovo metodo
di controllo operativo delle teorie psicologiche. Il punto di par-
5. L’Intelligenza Artificiale
tenza era il calcolatore come macchina generale simbolica,
con i suoi processi elementari di elaborazione dell’informazione, dai tre autori descritti come processi di lettura-scrittura-confronto di simboli, di associazione di simboli, di salto
condizionato. Essi sono alla base di processi più complessi,
quali le euristiche di un programma come il GPS, scritto in
un opportuno linguaggio di programmazione.
L’ipotesi, come mostra lo schema qui sotto, era che i processi
elementari sono analoghi a quelli usati dagli esseri umani, e
sono alla base dei processi umani di elaborazione più complessi, a loro volta euristici, desumibili dai protocolli verbali.
Il successo del confronto tra tracce e protocolli, del quale
abbiamo parlato, giustificava l’ipotesi, e dunque l’impresa stessa della psicologia come scienza: la simulazione dei processi
cognitivi al calcolatore. Proprio la costruzione di programmi
siffatti, che potevano essere considerati veri e propri modelli
di attività cognitive, offriva allo psicologo il nuovo metodo di
controllo operativo della teoria, nella versione del ciclo epistemologico «costruzione della teoria-controllo-modifica» in
fondo già indicata da Rochester. Un esempio dell’applicazione di tale metodo era l’abbandono del LT per una sua «versione modificata», il GPS. Questa proposta dava agli psicologi
la sensazione di aver trovato un loro posto al sole, secondo l’espressione di Edwin Tolman: la psicologia era finalmente autonoma dalla neurologia, e per una buona ragione. Dal momento che i processi elementari possono essere realizzati in
sostrati fisici diversi, il cervello e l’hardware del calcolatore,
confronto
della traccia
con il protocollo
GPS
▼
▼
▼
▼
comportamento
umano
nella soluzione
dei problemi
Il funzionalismo della
prima IA: i processi
dell’informazione
possono essere
realizzati da strutture
materiali diverse,
il sistema nervoso
umano e l’hardware
del calcolatore.
teoria
dell’elaborazione
dell’informazione
neurofisiologia
sistema
nervoso
a questo livello
non c’è alcuna
corrispondenza
diretta
▼
▼
processi
elementari
dell’informazione
hardware
del calcolatore
linguaggio
di elaborazione
dell’informazione
per il calcolatore
641
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
il potere causale della struttura fisica sulla mente è indipendente dalla specifica realizzazione o «instanziazione» di tale
struttura nel cervello biologico. Non è previsto confronto al livello delle diverse strutture, secondo l’ipotesi funzionalista che
abbiamo visto implicitamente già formulata molti anni prima,
ai tempi delle prime discussioni sul «pensiero meccanico».
Dopo gli anni bui del comportamentismo, la mente era riconsegnata agli psicologi dai costruttori di macchine. L’uomo,
visto come elaboratore di informazione simbolica, diventava
il protagonista della nuova Information Processing Psychology: la psicologia della elaborazione dell’informazione.
Approcci semantici
La Geometry
Theorem Machine
Il funzionamento
della Geometry
Machine
642
Uno dei programmi di IA concepito nei giorni di Dartmouth
si era proposto di affrontare il problema dell’esplosione combinatoria con uno stile sensibilmente diverso da quello della rappresentazione dello spazio degli stati. Si trattava della
Geometry Theorem Machine, un programma che girò poi nel
1959 su un IBM 704, scritto in una versione modificata del
FORTRAN da Herbert Gelernter (1929) e da altri programmatori del gruppo di Rochester. La macchina dimostrava un
discreto numero di teoremi di geometria piana euclidea, ricorrendo a uno stratagemma già indicato da Minsky a Dartmouth, dove Gelernter era stato presente.
Nei programmi della prima IA che giocavano o dimostravano teoremi, il significato dei simboli era considerato ininfluente. Nel GPS, per esempio, tutto si riduceva a un puro
e semplice pattern matching: si confrontavano cioè strutture o configurazioni fisiche di simboli diverse (in effetti, formule ben formate della logica enunciativa) consistenti in lettere e in segni come «», «→» e così via (i connettivi logici), e si applicavano operatori per eliminare certe differenze
tra tali strutture, «come se [queste] fossero pezzi di legno o
metallo», come diranno poi H.A. Simon e L. Siklossy in Representation and Meaning (1972). A dare il significato ai simboli manipolati dal programma era il programmatore.
La novità della Geometry Machine era che, pur applicando
per dimostrare un teorema l’euristica mezzi-fine nella forma della scomposizione del problema in sottoproblemi più
semplici, nel guidare la ricerca non usava, come il LT o il
GPS, solo metodi cosiddetti «sintattici» di pattern matching
tra enunciati. La macchina disponeva di una figura geometrica (codificata come un elenco di coordinate) corri-
5. L’Intelligenza Artificiale
NOAM AVRAM CHOMSKY
Linguista statunitense, nato a Philadelphia
(Pennsylvania), nel 1928, è considerato uno
dei più importanti studiosi della linguistica
moderna. A Chomsky si deve la teoria della
grammatica generativa, enunciata per la prima volta in Syntactic Structures (1957, Le
strutture della sintassi). Con la grammatica
generativa Chomsky si propone di formulare
un insieme limitato di regole che comprenda
tutte le possibili (e forse infinite) intuizioni con
cui i parlanti distinguono naturalmente nella
loro lingua nativa le frasi grammaticalmente
corrette da quelle sgrammaticate e individuano quelle interpretabili in modo duplice o ambiguo. Dagli anni Settanta Chomsky ha indirizzato i suoi studi alla definizione di una
«grammatica universale» in grado di individuare alcuni principi generali applicabili a un
numero elevato di lingue e di spiegare i meccanismi che hanno prodotto forme grammaticali diverse da quelle fondamentali.
Noam Chomsky,
oltre che per i suoi
studi di grammatica
generativa e di
logica, ha attratto
l’attenzione dei
media con le sue
posizioni pacifiste
e la critica serrata al
capitalismo
statunitense.
spondente all’enunciato del teorema; quando generava un
sottoproblema, lo confrontava con la figura, e lo scartava subito se risultava incompatibile con essa: «se volete, [qui] sta
la nostra intelligenza artificiale!», concludeva Gelernter
(1959). Successivi esperimenti convinsero gli autori della
Geometry Machine che essa poteva addirittura competere con un essere umano in una forma «ristretta», come essi dicevano, del test di Turing, limitata cioè alla dimostrazione di teoremi della geometria. Il motivo di tale entusiasmo è presto detto. Si riteneva che la Geometry Machine
usasse un’interpretazione semantica degli enunciati per con643
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
La copertina del testo
di Hubert L. Dreyfus,
nell’edizione del 1995
con il titolo modificato:
Quel che i computer
non possono ancora
fare. La prima edizione
venne pubblicata nel
1972 con il titolo
Quel che i computer
non possono fare
e avanzò le prime
critiche all’Intelligenza
Artificiale.
644
trollare la ricerca: in fondo, non fa così anche un
dimostratore umano?
In effetti, l’approccio sintattico della prima IA
era coerente con gli sviluppi prevalenti in un settore con il quale essa ha intrattenuto all’origine
rapporti privilegiati, quello della linguistica trasformazionale di Noam Chomsky. Con il tempo
tali rapporti diventarono sempre più conflittuali,
eppure Simon (1991) ricordava ancora con piacere come nello stesso convegno dell’IRE al MIT
del 1956, qualche mese dopo Dartmouth, mentre egli e Newell presentavano l’implementazione
del LT, Chomsky esponeva i lineamenti della teoria linguistica che l’anno successivo avrebbe pubblicato in Syntactic Structures. Con questo libro
Chomsky instaurò un vero e proprio primato della sintassi
nello studio del linguaggio, un primato con il quale la successiva ricerca ha dovuto sempre fare i conti. I primi approcci
alla manipolazione automatica del linguaggio naturale in termini di analizzatori sintattici delle frasi devono molto alle sue
idee. D’altra parte, le strutture formali delle grammatiche trasformazionali non mancarono di attrarre l’attenzione di quanti lavoravano allo sviluppo dei linguaggi di programmazione e
dei loro compilatori.
C’era poi un settore della ricerca precedente alla nascita
ufficiale dell’IA in cui gli aspetti computazionali della sintassi svolgevano un ruolo da protagonista, e i problemi semantici venivano deliberatamente accantonati: quello della traduzione automatica. Si trattava di un settore di ricerca nato quasi agli albori dei calcolatori digitali, che però trovò impulso nell’immediato dopoguerra soprattutto ad opera di Warren Weaver. Al calcolatore, come abbiamo visto già
sperimentato nella decrittazione dei codici nel periodo bellico, in questo caso era assegnato un compito che non andava molto al di là della sostituzione, mediante un dizionario bilingue, di una parola con una equivalente, seguendo
le regole della grammatica e riducendo la semantica, quando non se ne poteva fare a meno, allo studio di qualche regolarità statistica.
Tra i primi a mettere in pratica questo tipo di approccio
era stato Oettinger. Trasferitosi a Harvard, a partire dalla
metà degli anni Cinquanta avviò un progetto per la realizzazione di una macchina per la traduzione dal russo all’inglese. Nel decennio successivo si attivarono centri di ricerca
5. L’Intelligenza Artificiale
un po’ ovunque, in Europa occidentale, in Unione Sovietica, in Giappone. Nonostante la mobilitazione di risorse
e l’entità dei finanziamenti, dopo qualche successo iniziale la traduzione automatica sembrava essersi arenata. Nel
1966, a seguito del cosiddetto rapporto ALPAC, negli Stati Uniti i finanziamenti furono interrotti. Lo stesso Oettinger, profondamente deluso, smise di occuparsi di traduzione automatica, se non per tornare a ribadire l’intrinseca impossibilità dell’impresa, firmando infine una sua prefazione a uno dei testi poi diventati un punto di riferimento per ogni critico dell’IA, What Computers Can’t Do, del filosofo Hubert Dreyfus (nato nel 1929). Ironia della sorte:
Oettinger era stato uno degli obiettivi preferiti delle invettive contro il «pensiero meccanico» contenute in una precedente pubblicazione del 1961, questa volta di un ingegnere, Mortimer Taube, Computers and Common Sense: the
Myth of Thinking Machines.
La difficoltà che meglio riassume il motivo del fallimento
di quella che veniva definita la «traduzione completamente
automatica di alta qualità» è stata discussa da un altro pioniere del settore, Yehoshua Bar-Hillel. Possiamo esprimerla
in questi termini. Data la frase «il cane si è inceppato», il parlante di lingua italiana sa che qui con «cane» ci si riferisce
non all’amico dell’uomo, diciamo CANE1, ma al percussore,
CANE2. Come potrebbe una macchina tradurre correttamente la frase in inglese, dove CANE1 è dog mentre CANE2
è cock, senza sapere ciò di cui si parla? Casi del genere possono moltiplicarsi a piacere, a conferma del fatto che una
buona traduzione interlingua, ma in generale una buona
comprensione delle lingue, non può prescindere dai significati suggeriti dal contesto e dalla conoscenza implicita nel
lessico dei parlanti. Ora, è possibile o è invece da escludere, come concludeva lo stesso Bar-Hillel, che si riesca a rappresentare queste caratteristiche in un programma per calcolatore?
L’idea di ricorrere a un modello che tenesse conto delle connessioni associative tra le parole di un dizionario per rendere più flessibile l’impiego del lessico maturò proprio nel contesto della traduzione automatica: tra gli anni Cinquanta e
Sessanta la sperimentarono tra gli altri Silvio Ceccato, con le
sue «sfere nozionali», e Margaret Masterman.
A partire dalla tesi di dottorato del 1966 con Simon alla Carnegie-Mellon, M. Ross Quillian elaborò una proposta che
si è rivelata tra le più feconde di sviluppi fino ai nostri gior-
Il fallimento
della «traduzione
completamente
automatica
di alta qualità»
645
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Il concetto di «rete
semantica» negli
studi di Quillian
Una rete semantica
di M. Ross Quillian.
ni: quella di «rete semantica». Obiettivo di Quillian era più
in generale la costruzione di un modello della memoria semantica psicologicamente plausibile, che implementato in
un calcolatore riproducesse qualche aspetto della capacità
degli esseri umani di comprendere un testo e di ricavare inferenze da un insieme di conoscenze. È a questo punto che
gli obiettivi dell’IA cominciarono ad allontanarsi da quelli di
Chomsky. Secondo Quillian il suo modello dimostrava che
l’insieme dei problemi legati alla comprensione di un testo,
si trattasse di analizzarlo, tradurlo, o interpretarlo per rispondere a domande, in generale non si esauriva nella costruzione di un analizzatore sintattico: il problema cruciale era di «estrarre [dal testo] una rappresentazione cognitiva» circa il significato delle parole. Di qui il ruolo centrale attribuito alla memoria semantica. Questa era concepita da Quillian come una sterminata rete frammentata
in «piani», porzioni di nodi della rete che rappresentano il significato di una parola del lessico, ovvero di una voce del dizionario. Per rappresentare (figura qui sotto), poniamo, il si-
PLANT
STRUCTURE
AND
GET 3
LIVE
FROM 3
FOOD
FOOD
THING
HAS-TO
TO 7
KEEP
LIVE
LIVE
646
5. L’Intelligenza Artificiale
gnificato della parola plant, che in inglese ha tre significati
diversi, Quillian usava tre nodi diversi, detti «patriarchi»:
PLANT (pianta, in italiano), PLANT1 (impianto) e PLANT2
(piantare). Essi erano collegati tra loro mediante «legami associativi», in modo da poterli esplorare in successione per decidere poi a quale significato di plant ci si riferisce in un determinato contesto. In un certo senso, si trattava di un meccanismo di disambiguazione con il quale si poteva affrontare la difficoltà indicata da Bar-Hillel. Infatti, a ciascuno dei
tre nodi patriarchi corrispondeva un piano distinto, strutturato come una gerarchia di nodi subordinati al patriarca e collegati a loro volta da legami associativi ad altri nodi patriarchi
appartenenti ad altri piani. Nello schema a fianco, il nodo patriarca PLANT è collegato da tali legami ai nodi subordinati STRUCTURE (struttura) e LIVE (vivo, vivente), e il piano corrispondente è delimitato da un rettangolo. A sua volta, ciascuno di tali nodi rimanda ad altri piani, che rappresentano il significato delle parole corrispondenti. In questo
modo si stabiliscono legami associativi più diretti tra alcuni
nodi che non tra altri, con il risultato, poniamo, che PLANT
ma non PLANT1 risulta direttamente collegato con FOOD
(cibo), e i due sono a loro volta collegati con LIVE: più o meno così CANE2, ma non CANE1, risulterebbe direttamente collegato con FUCILE.
Il lavoro di Quillian venne pubblicato in una raccolta curata da Minsky nel 1968, Semantic Information Processing,
insieme a una serie di ricerche svolte al MIT nella prima
metà degli anni Sessanta, tutte centrate sulla rappresentazione della conoscenza. Alcuni programmi della raccolta
sono rimasti molto noti, come ANALOGY di Thomas Evans,
che riconosceva analogie tra semplici figure geometriche,
STUDENT di Daniel Bobrow, che risolveva qualche problema di algebra elementare, SIR (Semantic Information
Retrieval) di Bertram Raphael. Scritto in LISP, SIR era in
grado di rispondere ad alcune domande che implicavano
la conoscenza di semplici relazioni logiche, come l’appartenenza e l’inclusione insiemistiche, e di qualche loro proprietà, come la transitività dell’inclusione. Questo gli permetteva di ricavare un ridotto numero di inferenze, relative a un dominio molto ristretto, non esplicitamente codificate nella sua base di dati. La conoscenza era rappresentata internamente nel programma sotto forma di «schemi»
(templates) prefissati del tipo «** è parte di **», dove le
variabili ** sono nomi. Con tali schemi il programma con-
La struttura della
rete semantica
Il programma SIR
647
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
La teoria del
problem solving
648
frontava le frasi in inglese date in ingresso e, applicando regole di sostituzione e quantificazione delle variabili che occorrevano in essi, mostrava di «capire» frasi come «un dito è parte di una mano». Capire il significato di una frase,
secondo Raphael, consisteva nel processo automatico che
si riassumeva nel riconoscere gli oggetti della frase e nel collocarli nella relazione specificata. La possibilità di risolvere qualche semplicissima ambiguità attraverso questa procedura induceva Raphael e Minsky a concludere che approcci semantici di questo tipo avevano maggiori potenzialità rispetto a quelli sintattici sostenuti dalla linguistica, e anche a quelli basati sulla semplice ricerca euristica
nello spazio degli stati. Gli «eccellenti risultati», osservava
Minsky in Semantic Information Processing (1968), ottenuti
dall’uso del modello semantico della Geometry Machine ne
erano la prima dimostrazione.
Anche Simon, in The Theory of Problem Solving (1972), era
di questo parere. Il «semplice paradigma dell’albero della ricerca», come egli definiva ormai la ricerca euristica della soluzione nello spazio degli stati, aveva dato il meglio di sé, e i
futuri programmi avrebbero dovuto avere la capacità di usare in modo sempre più esteso e raffinato l’informazione utile per la soluzione di un problema. D’altra parte, egli osservava come nei programmi che dovevano comprendere il linguaggio naturale la distinzione chomskiana tra competenza
(la conoscenza astratta del linguaggio) e prestazione (la realizzazione di tale conoscenza in specifiche capacità linguistiche) tendeva a dissolversi. Una serie di ricerche svolte alla Carnegie-Mellon tra il 1965 e il 1969 documentava questo approccio, in quel momento sostanzialmente convergente a quello del MIT. Un programma di Stephen Coles, per
esempio, usava l’informazione semantica contenuta in una
raffigurazione corrispondente a una frase ambigua per decidere quale delle possibili analisi sintattiche della frase era
quella corretta in relazione al contesto dato. Sistemi «ibridi» di questo tipo, per usare il termine di Simon, mettevano
a frutto la lezione della Geometry Machine: essa non aveva
una sola rappresentazione dello spazio della ricerca, quella
dello spazio degli stati, ma ne aveva anche una seconda, sotto forma di uno «spazio semantico», quello delle figure geometriche, e la sua efficienza era dovuta all’uso delle due rappresentazioni. Il problema del controllo della ricerca, concludeva Simon, si legava ormai a quello della rappresentazione della conoscenza.
5. L’Intelligenza Artificiale
Generalità e conoscenza
Le prestazioni del programma ELIZA, implementato da Joseph Weizenbaum in quegli stessi anni al MIT, si basavano
su una procedura simile al confronto di schemi di SIR: parole date in ingresso venivano associate con parole chiave codificate nella base di dati. Il programma riusciva così a colloquiare con un essere umano simulando il comportamento
di uno psicoterapeuta. ELIZA è rimasto il più famoso tra i
programmi di comprensione del linguaggio di quegli anni perché superò in qualche caso la solita «forma ristretta» del test
di Turing: alcuni pazienti che interagirono con il programma lo scambiarono per un terapeuta umano. In un libro diventato molto popolare (Computer Power and Human Reason, 1976), Weizenbaum trasse da questo risultato conclusioni pessimistiche e persino preoccupate sull’utilità dell’impresa dell’IA. A questa discutibile forma del test di Turing è ispirato il premio Loebner, periodicamente assegnato
a un calcolatore in grado di superarlo.
Il programma ELIZA
Anche la figura di
Joseph Weizenbaum
(nato nel 1923),
il padre di ELIZA,
va ad aggiungersi a
quel gruppo di grandi
informatici che, sulla
scia di Oettinger,
hanno cominciato
a mostrare seri dubbi
e preoccupazione
nei confronti
dello sviluppo
dell’Intelligenza
Artificiale.
649
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
I limiti dei
programmi
semantici degli anni
Sessanta
Il team originale del
progetto DENDRAL
venticinque anni dopo
(foto del 1991): da
sinistra a destra Bruce
Buchanan, Georgia
Sutherland, Edward
Feigenbaum, il premio
Nobel Joshua
Lederberg e Dennis
Smith.
650
Al di là delle valutazioni più generali di Weizenbaum, visti
retrospettivamente questi programmi «semantici» degli anni
Sessanta appaiono davvero poco semantici. Le prestazioni
erano limitate a domini ridottissimi e la conoscenza era data implicitamente negli schemi o nelle parole chiave fornite
dal programmatore. La stessa analisi sintattica consisteva
in semplici procedure ad hoc. Le entusiastiche valutazioni
che Minsky dava dei programmi contenuti nella raccolta del
1968 appaiono oggi esagerate, non meno della sua ottimistica previsione sugli sviluppi futuri, che come vedremo non
andarono, e non potevano andare, nella direzione del semplice perfezionamento di questo tipo di esperienze. Tuttavia,
pur nella loro rozzezza, questi programmi hanno posto per
primi un’esigenza che costituirà uno dei baricentri della ricerca successiva in IA: quella di costruire sistemi in grado
di gestire conoscenze sul mondo attraverso sue adeguate rappresentazioni.
A metterne subito in risalto l’importanza per questo obiettivo fu un allievo di Simon, Edward Feigenbaum, in un intervento alla Information Processing Conference del 1968 in
cui egli si proponeva di indicare le prospettive dell’IA del «successivo decennio». Dalla Carnegie-Mellon, dove sotto la supervisione di Simon aveva messo a punto un programma per
calcolatore, noto come EPAM, che simulava i processi uma-
5. L’Intelligenza Artificiale
ni della memorizzazione di sillabe prive di senso, Feigenbaum
era approdato a Stanford, e i suoi interessi erano cambiati.
A Stanford aveva incontrato Joshua Lederberg, Nobel per
la genetica, e a partire dal 1965 i due avevano avviato un progetto destinato ad aprire all’IA una nuova dimensione applicativa, con conseguenze di tipo commerciale in quel momento imprevedibili. Come chiariva Feigenbaum nel presentare alla Information Processing Conference i primi risultati delle ricerche condotte con Lederberg, il loro progetto si collocava in quella che egli considerava «la tendenza
principale dell’impresa dell’IA: la soluzione di problemi nel
paradigma della ricerca euristica». Con una fondamentale
differenza, tuttavia: l’ambiente del compito scelto non era
quello dei problemi cosiddetti «ben definiti» e dei «problemi
giocattolo» (toy problem) sui quali si era esercitata la programmazione euristica fino a quel momento, cioè la logica
o i vari giochi e rompicapo. Al contrario, il loro programma
affrontava un compito di particolare complessità: l’induzione e la formazione di ipotesi in un problema di natura scientifica, vale a dire l’individuazione della struttura molecolare
di composti organici non noti.
Il diagramma di flusso del programma si sviluppava in un
ciclo che riproduceva l’osservazione dei dati, la formazione di
ipotesi, la predizione e il controllo secondo la procedura canonica del metodo scientifico «baconiano», come lo definì
Michie nella discussione che seguì l’esposizione di Feigenbaum all’Information Processing Conference. Nella sua versione originaria, il programma, scritto in LISP e battezzato
DENDRAL (DENDRitic ALgorithm), era composto da un
«Generatore di ipotesi» e da un «Previsore». Come chiariranno in seguito i suoi autori, queste due parti di DENDRAL
rispecchiavano la filosofia «generalista» del GPS, nel senso
che incorporavano il metodo più generale e, come allora si
disse, più «debole» possibile della ricerca euristica come la
concepivano Newell e Simon, quello del «genera-e-controlla». Il Generatore definiva lo spazio del problema di DENDRAL come uno spazio delle ipotesi, in modo del tutto analogo, osservava Feigenbaum, a un generatore delle mosse consentite di un programma per gli scacchi. La generazione delle ipotesi sulla struttura molecolare poteva essere esaustiva,
basandosi su un algoritmo già individuato da Lederberg. A
sua volta, il Previsore, che controllava le ipotesi e selezionava quelle plausibili, era definito un «esperto», ma un esperto molto generale: la sua competenza era la teoria della spet-
Il programma
DENDRAL
651
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Il capostipite dei
«sistemi esperti»
Ingegneria della
conoscenza
652
trometria di massa. La novità del programma era che il Previsore non esaminava tutte le ipotesi prodotte dal Generatore secondo l’algoritmo di Lederberg, ma solo un suo sottoinsieme, selezionato da un «Processore di inferenze preliminari». Era questo il vero «specialista», poi definito come
un pianificatore che opera sulla base di conoscenze e regole euristiche relative allo spettro di massa e ai costituenti atomici della molecola che si desidera individuare.
DENDRAL è considerato il capostipite dei «sistemi esperti», come verranno subito chiamati quei sistemi di IA che impiegano estesamente conoscenze specialistiche per risolvere
problemi complessi. Esso potrebbe essere visto come l’antagonista del GPS, che, nella forma originaria di solutore di
problemi generale e integrato, si dimostrava ormai inattuabile. Non va dimenticato tuttavia che DENDRAL, nelle intenzioni dei suoi autori, rappresentava all’inizio uno studio
sul nesso critico esistente tra generalità e potenza delle euristiche. La loro conclusione fu che le euristiche generali, i
«metodi deboli», si dimostrano efficienti solo quando vengono associati a qualche euristica specializzata per un certo
dominio di conoscenze. In questa forma, i metodi deboli continuarono a costituire gli elementi portanti di diversi sistemi di ricerca euristica in IA. Una parte della successiva sperimentazione su DENDRAL, per esempio, si è concentrata
sullo studio dei vincoli da imporre al pianificatore.
Michie, intervenendo nella stessa Information Processing
Conference, qualificò DENDRAL un esempio di «ingegneria epistemologica». Feigenbaum ha raccontato poi di aver
preferito l’espressione «ingegneria della conoscenza», che è
ormai entrata nel gergo per qualificare uno dei punti critici
della ricerca sui sistemi esperti: come trasferire in un programma di IA il patrimonio di conoscenza euristica che caratterizza un esperto umano. Feigenbaum ha raccontato anche la diffidenza che DENDRAL incontrò inizialmente presso i «generalisti», coloro che, anche senza aderire all’impostazione originaria del GPS, pensavano che il compito dell’IA
fosse la ricerca dei principi generali dell’intelligenza che potevano essere trasferiti nelle macchine. Va detto comunque
che prima dello sviluppo di calcolatori con grandi memorie a
partire dagli anni Settanta, la gestione di basi di conoscenza estese come quelle richieste dai sistemi esperti non era un
obiettivo perseguibile. Solo dopo quel periodo i sistemi esperti riuscirono a diffondersi nei settori più diversi, dalla medicina, alla geologia, all’ingegneria, all’istruzione assistita, e a
5. L’Intelligenza Artificiale
trasformarsi spesso in altrettanti prodotti commerciali. Lo
stesso Feigenbaum fondò in seguito una società per la progettazione e la vendita di software per sistemi esperti.
Percorsi della logica
Nel famoso libro Perceptrons, pubblicato nel 1969 da Minsky
con Seymour Papert, che era approdato al MIT dopo diverse esperienze europee, i due, come si suole ripetere, assassinarono le reti neurali, dimostrando l’incapacità dei Perceptron alla Rosenblatt di discriminare stimoli visivi anche
molto semplici. Su questo avremo modo di tornare. Al momento della pubblicazione di quel libro, tuttavia, non era entrata in crisi solo la proposta dei sistemi autorganizzanti e delle reti neurali, le cui prestazioni, come Minsky aveva previsto a Teddington, non andavano oltre la riproduzione di semplici attività di classificazione e associazione. In effetti, erano entrati in crisi anche un paio di stili di ricerca dell’IA, un
paio di «paradigmi», come dicevano i loro protagonisti, e altri stavano per venire in primo piano, in un clima di contrapposizioni, scelte di campo e ripensamenti che ha caratterizzato l’IA di tutto il «successivo decennio», per riprendere l’espressione di Feigenbaum.
Tra le posizioni generaliste che gli autori di DENDRAL respingevano non c’era solo il GPS, ma anche un programma di
tipo generale di cui McCarthy aveva delineato il prototipo
all’epoca del simposio di Teddington. L’Advice Taker, era questo il nome del programma, avrebbe dovuto essere in grado
Un’immagine di Seymour
Papert, il matematico
americano di origine
sudafricana, studioso di
Intelligenza Artificiale e
fondatore di una nuova
didattica basata sull’uso
del computer e su una
rivoluzionaria concezione
della matematica come
strumento di
apprendimento della
realtà, della creatività e
della bellezza da parte
dei bambini.
653
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Computergrafica raffigurante una rete di cellule nervose sopra un microchip. Il biochip rappresenta
una frontiera dello studio sui cyborg, organismi viventi i cui tessuti neurali sono interconnessi con
elementi artificiali informatici.
654
5. L’Intelligenza Artificiale
di elaborare piani e ricavare conseguenze sulla base di un corpo di conoscenze sufficientemente esteso, facendo anche uso
di «consigli» provenienti dal programmatore. L’Advice Taker
condivideva con il GPS l’aspirazione alla generalità, ma
McCarthy insisteva sul modo uniforme in cui rappresentare
la conoscenza che il sistema aveva dell’ambiente, inevitabilmente basata su credenze e aspettative o, come egli diceva,
sul «buon senso». Tale conoscenza doveva essere rappresentata sotto forma di enunciati della logica predicativa assunti
come assiomi o premesse, e le conseguenze dovevano essere ricavate mediante le regole di tale logica.
Un primo tentativo di implementare almeno alcune caratteristiche dell’Advice Taker risale al 1964 e si deve a Fisher
Black: Minsky lo includeva in Semantic Information Processing, avvertendo però che si trattava dell’«articolo meno “semantico” della raccolta». L’aspirazione alla generalità e a un
meccanismo di deduzione uniforme che caratterizzava l’Advice Taker fu però ripresa esplicitamente solo dopo la formulazione di una nuova procedura di deduzione automatica,
che inizialmente si rivelò particolarmente promettente. Si
trattava del principio di risoluzione di J. Alan Robinson, che
uno studente di McCarthy, Cordell Green, incorporò in un
programma question answering, QA3, che era in grado di rispondere a domande su alcuni domini diversi.
Alle spalle del risultato di Robinson c’erano gli studi di diversi ricercatori interessati a un tipo di dimostrazione automatica di teoremi che non aveva come obiettivo la simulazione dei processi umani, ma si richiamava a precedenti risultati di logici come Skolem, Herbrand e Gentzen. In particolare, Hao Wang aveva già ribaltato i calcoli di Newell,
Shaw e Simon sull’efficienza delle euristiche del LT, implementando su un IBM 704, tra il 1958 e il 1959, tre procedure algoritmiche che in pochi minuti dimostravano buona
parte dei teoremi del calcolo enunciativo e predicativo dei
Principia mathematica. Le successive ricerche di Martin Davis e Hilary Putnam e di Dag Prawitz culminarono nel lavoro del 1965 di Robinson, nel quale si descriveva un calcolo
logico senza assiomi ma con un’unica regola di inferenza, detta «risoluzione». Nella sua forma più semplice, la regola dice che da due formule ben formate costituite da sole disgiunzioni di formule atomiche o loro negazioni, A∨B e B∨C
(le «clausole genitrici»), è possibile inferire il «risolvente»
A∨C (la clausola consistente nell’unione dei costituenti non
complementari delle clausole genitrici).
L’Advice Taker
Una nuova
procedura di
deduzione
automatica
655
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Un ironico bozzetto
dedicato al linguaggio
di programmazione
PROLOG.
La riscoperta
delle euristiche
656
Il calcolo di Robinson soddisfaceva un requisito importante, la completezza, ma la costruzione di un dimostratore automatico di teoremi con la sola risoluzione era in generale resa impossibile dall’esplosione combinatoria dei
risolventi inutili o ridondanti generati dalla regola. Per alcuni anni la maggior parte della ricerca sulla deduzione automatica si concentrò
sui cosiddetti «raffinamenti» della risoluzione,
che vennero studiati soprattutto nella duplice forma delle restrizioni e degli ordinamenti
da imporre alla generazione di particolari clausole. L’interesse per i raffinamenti è testimoniato dai numerosissimi articoli sull’argomento pubblicati su Machine
Intelligence, la raccolta curata dal gruppo di Michie, che
cominciò a uscire periodicamente dal 1967, e su «Artificial
Intelligence», la prima rivista dedicata all’IA, pubblicata a
partire da quello stesso anno. Questi periodici testimoniano però anche il cambiamento di rotta verificatosi nella prima metà degli anni Settanta, quando l’insoddisfazione per
i risultati raggiunti dalla ricerca sui raffinamenti della risoluzione riaccese l’interesse per una dimostrazione di teoremi meno sensibile al requisito della completezza e più attenta alle procedure euristiche ispirate ai metodi umani
di soluzione di problemi, meno sintattici e uniformi e più
legati a conoscenze relative a domini specifici. W.W. Bledsoe è stato forse colui che, lavorando inizialmente sui raffinamenti, «passò dall’altra parte», come egli disse, con
maggiore convinzione: il suo programma per dimostrazioni insiemistiche IMPLY si richiamava in parte all’impostazione euristica di Newell e Simon e di Gelernter.
Questa riscoperta delle euristiche simulative non decretò
tuttavia l’abbandono immediato della risoluzione: al contrario, più o meno nello stesso periodo in cui veniva data per spacciata, essa spianò la strada a un nuovo stile di programmazione, introdotto da Robert Kowalski e noto come «programmazione logica». Essa usa un raffinamento della risoluzione
che è completo e insieme efficiente per una particolare e importante classe di formule, le clausole di Horn (dal nome del
logico che le aveva studiate). Tale raffinamento venne presto incorporato nel PROLOG (PROgramming LOGic), il linguaggio di programmazione sviluppato nella prima metà degli
anni Settanta in alcune università europee, anzitutto a Edimburgo e, con Alain Colmerauer, a Marsiglia.
5. L’Intelligenza Artificiale
Problemi di buon senso
La difficoltà nell’estendere le prestazioni di QA3 in presenza di problemi complessi e di basi di dati estese scoraggiò invece Green dal continuare a perseguire l’obiettivo di un sistema capace di rispondere a domande che fosse «generale, formale e deduttivo» (così egli si esprimeva pensando
all’Advice Taker). Come ha osservato lo stesso McCarthy
(1988), fu questa difficoltà relativa alle tecniche di controllo del ragionamento che portò all’elaborazione di programmi assai complessi come STRIPS (STandford Research InUn esperimento
condotto al MIT
(Massachussets
Institute of
Technology)
con un sistema
«mano-occhio»
(foto del 1970).
Si tratta di uno dei
primi concreti esempi
di automatismo
robotizzato.
657
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Il programma
STRIPS
I sistemi hand-eye
stitute Problem Solver) e i suoi successori. In STRIPS, progettato nel 1969 presso lo SRI (Stanford Research Institute) da Richard Fikes e Nils Nillson, la conoscenza era rappresentata ancora una volta mediante la logica del primo ordine e la deduzione era sempre affidata alla risoluzione, ma
la pianificazione era effettuata tramite una versione evoluta dell’euristica mezzi-fine del GPS. Nel 1971, sempre presso lo SRI, gli autori di STRIPS, con la collaborazione di Raphael, impiegarono il loro programma come sistema di controllo di un robot che si muoveva in un ambiente reale, battezzato Shakey. Nel decennio precedente, a Stanford, al MIT,
a Edimburgo, si erano sperimentate diverse linee di ricerca sulla manipolazione automatica di semplici blocchi disposti su un tavolo da parte di sistemi muniti di un braccio
mobile e di una telecamera che forniva immagini a un calcolatore, i cosiddetti sistemi «mano-occhio» (hand-eye). Non
erano mancati anche tentativi di costruire robot mobili. Shakey era però un robot che pianificava azioni sulla base di
un programma per calcolatore, muovendosi in un ambiente molto delimitato in cui riusciva a evitare ostacoli e a spostare grossi cubi. Le sue prestazioni non furono comunque
giudicate tali che il tradizionale sovvenzionatore delle ricerche di IA negli Stati Uniti, la DARPA (Defense Advanced Research Projects Agency), interessata in quel momento
alle applicazioni militari della robotica, continuasse a finanziare il progetto.
Un problema che aveva scoraggiato Green, e che il gruppo
dello SRI era riuscito a rendere trattabile con STRIPS nell’ambito delle limitate prestazioni di Shakey, è diventato noto come il frame problem, formulato da McCarthy e Patrick
Hayes, allora all’Università di Edimburgo (1969). Il frame problem si pone con particolare evidenza nella fase di esecuzioIl robot Shakey nel 1971:
il primo a muoversi in un
ambiente reale, compiendo
gesti elementari, quali
spostare solidi geometrici
posti sul pavimento.
658
5. L’Intelligenza Artificiale
ne di un piano, quando occorre considerare sequenze alternative di azioni, e mentre certe azioni contribuiscono a cambiare il contesto di partenza, altre lo lasciano inalterato. Poiché ci si propone di dare una rappresentazione formale della
conoscenza del mondo, e poiché il mondo cambia durante l’esecuzione di un piano, è necessario descrivere sempre, mediante opportuni assiomi, i cosiddetti «assiomi del frame», anche gli aspetti di una situazione che non vengono modificati
dall’azione. Procedendo nell’esecuzione del piano, la cosa si
traduce inevitabilmente in una proliferazione di assiomi che,
se può essere controllata nel caso dei soliti problemi giocattolo, risulta sempre incontrollabile nel caso di problemi che
riguardano la complessità del mondo reale: un robot che si
muove nel mondo fisico affronta un problema di questo tipo, e Shakey poteva affrontarlo solo perché si muoveva in un
ambiente ben delimitato.
Nell’articolo sul frame problem, tuttavia, McCarthy e Hayes ponevano una netta distinzione tra i problemi sollevati dal
controllo delle inferenze, che venivano definiti «euristici»,
e i problemi relativi alla rappresentazione della conoscenza
mediante un linguaggio formale, che venivano definiti «epistemologici». Con STRIPS si era dunque tentato di affrontare i problemi euristici. Ma l’interesse di McCarthy si è sempre diretto verso quelli epistemologici, la cui soluzione, o
almeno corretta impostazione, sembra essere per lui preliminare alla soluzione degli altri. In questo senso, per
McCarthy l’Advice Taker non è mai stato realizzato, e mai
lo sarà se prima non saranno chiariti gli aspetti della logica
necessari per catturare il carattere non monotono del ragionamento basato sul buon senso. In questo caso l’informazione
da cui si parte è incompleta, o la situazione cambia, cosicché
l’apprendere nuova informazione può provocare l’eliminazione di conclusioni precedentemente inferite, cosa che non
può verificarsi nella logica tradizionale o monotona. L’esempio canonico contempla l’inferenza seguente: se x è un uccello (premessa), allora x può volare (conclusione); ma se
mi accorgo che x è uno struzzo (ulteriore premessa), devo
rivedere la conclusione raggiunta. È nell’approccio epistemologico al ragionamento non monotòno che si colloca la proposta della «circoscrizione» di McCarthy. Essa si presenta come una «regola per le congetture» che, in presenza di informazioni incomplete, come nel caso esemplificato, giustifica il fatto che «si salta» a certe conclusioni. L’idea è di circoscrivere come «anomale» le potenziali eccezioni a una si-
Il frame problem
Problemi euristici
e problemi
epistemologici
659
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Drew Mc Dermott
(in una foto del 1998)
ha ricercato soluzioni
logiciste al problema
della conoscenza
basata sul buon senso,
ma è poi pervenuto a
criticare alcuni aspetti
fondamentali di tale
approccio.
tuazione tipica, come quella descritta dall’enunciato «se x è
un uccello, allora x può volare». In questo caso, la proprietà
«non volare» risulta anomala rispetto a «essere un uccello»,
dunque viene circoscritta, assumendo cioè che abbia l’estensione più piccola possibile relativamente alle informazioni di cui si dispone. L’enunciato dell’esempio si riformula pertanto come la regola seguente: se x è un uccello, e x non
è un uccello anomalo, allora x può volare.
Il contesto epistemologico ha fatto da sfondo a tutta una
serie di ricerche, definite poi «logiciste», sull’uso della logica
come strumento per rappresentare la conoscenza basata sul
senso comune. Non è stato chiarito però come le soluzioni
proposte potessero fornire suggerimenti per la loro implementazione effettiva, in altri termini per la soluzione dei problemi euristici. Si è assistito così alla proliferazione piuttosto
fine a sé stessa di ricerche su diverse forme di circoscrizione
e regole non monotone, che ha provocato alla fine anche qualche defezione: è il caso di Drew McDermott, che ha abbandonato le ricerche sulla logica non monotona attraverso, per
usare la sua formula, una «critica della ragion pura» logicista
(A critique of Pure Reason, 1988). Risultati controversi si sono avuti anche nello studio di altre forme di logica: modale,
temporale, fuzzy. Con quest’ultima, introdotta da Lofti Zadeh
(e che ha trovato successivamente impreviste applicazioni industriali), si è pensato di poter catturare il carattere «sfumato» del ragionamento del buon senso: un problema, come si
ricorderà, posto all’origine stessa della simulazione dei processi mentali con il calcolatore in termini di logica «grigia».
660
5. L’Intelligenza Artificiale
Contro la logica
Antitetica a quella logicista è stata la posizione sempre sostenuta da Minsky. Risale al 1975 la pubblicazione di un
suo articolo (A Framework for Representing Knowledge) diventato così popolare da essere noto ormai come il «frame paper». In esso Minsky tornava a contrapporre il «nuovo paradigma» della rappresentazione della conoscenza al precedente
«paradigma della ricerca euristica», proponendo una struttura dati che chiamò frame.
Il nucleo dell’idea non era certo originale. Nozioni del genere, lo ricordava lo stesso Minsky, erano già popolari presso gli psicologi (lo «schema» di Bartlett, per esempio). Inoltre, per certi aspetti il frame si collocava tra gli sviluppi della nozione di rete semantica di Quillan, il più influente dei
quali era in quel momento la teoria della «dipendenza concettuale» elaborata da Roger Schank, alla Yale University, con
una impostazione ugualmente antichomskiana e antilogicista. Agli inizi degli anni Settanta la teoria di Schank sanciva
i limiti insuperabili dei programmi di comprensione del linguaggio naturale del precedente decennio. Il modello negativo era per Schank ELIZA, «una collezione di trucchi», egli
diceva, per far scimmiottare a un programma la comprensione del significato delle parole. Il suo obiettivo era quello
di descrivere, attraverso processi computazionali che fossero psicologicamente plausibili, la comprensione del linguaggio come fenomeno cognitivo. Egli proponeva di individuare un piccolo insieme di nozioni elementari, le «primitive semantiche», con le quali poter costruire la rappresentazione
del significato di qualsiasi verbo inglese. La frase veniva dunque analizzata attraverso l’esplicitazione della sua rappresentazione in termini di primitive semantiche. Infatti, era
questo l’assioma centrale della teoria, due frasi che hanno
lo stesso significato, anche se contengono parole diverse o sono diversamente costruite, condividono un’unica rappresentazione in termini di primitive semantiche. Così le frasi «l’uomo ricevette il libro» e «io diedi il libro all’uomo» possono essere rappresentate con una particolare rete in termini di un’unica primitiva semantica che definisce il trasferimento di possesso (trans nella terminologia di Schank, come si vede nello schema nella pagina successiva).
La teoria di Schank aveva delle implicazioni importanti per
la traduzione automatica, come dimostravano i primi programmi di Schank quali MARGIE e SAM. Le primitive se-
Le critiche di Minsky
al paradigma della
ricerca euristica
Passi verso
la traduzione
automatica
661
▼
▼
qualcuno
uomo
▼
libro
io
▼
trans
▼
▼
uomo
uomo
▼
a
▼
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
da
libro
▼
trans
▼
▼
io
▼
a
da
La primitiva
semantica trans
di Roger Schank.
Il programma
di Schank
662
mantiche, ritenute comuni a tutte le lingue naturali, costituivano una sorta di «interlingua», e dunque l’abilità di tradurre frasi non era considerata diversa da quella di comprenderle o parafrasarle: essa si basa sempre sull’esplicitazione di una rappresentazione, in questo caso comune a frasi di due lingue differenti. Svanito il sogno originario della
«traduzione completamente automatica di alta qualità», è a
partire da queste esperienze che si è avuta la ripresa di diversi
progetti di traduzione automatica.
Fu quando Schank passò dalla costruzione di un programma che capisse (o traducesse) singole frasi a quella di un programma che capisse (o traducesse) interi brani che si trovò
a dover fare i conti in modo ineludibile con i soliti problemi
del buon senso: primo fra tutti, quello delle conoscenze necessarie per ricavare inferenze sensate dall’unione di diverse frasi, in modo da rendere esplicite credenze e aspettative
sollecitate implicitamente dalla lettura del testo. Per affrontare questi problemi Schank, con lo psicologo di Yale Robert
Anderson, elaborò in SAM (Script Applier Mechanism) il
meccanismo degli script. Per darne un’idea, possiamo tornare
al frame paper di Minsky. Il frame è diventato il prototipo delle varie nozioni affini, script inclusi, elaborate in quegli anni o negli anni successivi con l’obiettivo opposto a quello logicista, e cioè di affrontare il problema del buon senso con sistemi di rappresentazione della conoscenza psicologicamente
plausibili. Ma non va dimenticato che i sistemi a regole di
produzione sono stati usati da Newell e Seimn, lo accenneremo, con lo stesso obiettivo. L’interesse per il frame è comunque documentato fin dal suo apparire nei commenti di
Fikes, Hewitt, Schank e altri in Schank e Nash-Webber.
5. L’Intelligenza Artificiale
Per riprendere un esempio di Minsky, nell’aprire una porta all’interno di una casa che non ci è familiare, di solito ci
aspettiamo di trovare una stanza con delle caratteristiche più
o meno riconoscibili e prevedibili, che rimandano a un insieme di conoscenze organizzate sotto forma di prototipi. Le
strutture-dati nelle quali riflettere questo modo duttile e insieme molto integrato di usare la conoscenza che è tipico degli esseri umani sono descrivibili per Minsky come sistemi di
frame. Dunque, il frame stanza è un contenitore di dati che
comprende, elencate in apposite «caselle» o slots, caratteristiche generiche come avere un certo numero di pareti e di
finestre, un soffitto e così via. Potranno esserci vari tipi di
stanze: da pranzo, da letto e così via, ciascuno dei quali costituisce a sua volta un frame con caratteristiche più specifiche, sempre elencate in apposite «caselle». E la camera
da pranzo di Giovanni potrà essere ben diversa da quella di
Maria in svariati dettagli, ma farà sempre parte di uno stesso tipo del frame stanza, del quale eredita le proprietà, secondo il meccanismo già presente nelle reti semantiche di
Quillian. La descrizione di Minsky è per lo più intuitiva e
talora oscura. Comunque, egli descriveva metodi che attivano o disattivano frame a diversi livelli di dettaglio, dando
luogo alla possibilità di modificare credenze e aspettative frustrate quando le circostanze lo richiedono. Per esempio, il
modo di affrontare le eccezioni tipico del ragionamento del
buon senso o di quello non monotono è per Minsky ben rappresentato in un frame con il metodo dei default, i quali stabiliscono generalizzazioni che costituiscono credenze presunte fino a prova (o in difetto di informazione) in contrario: un default di stanza può essere il numero «uguale a 4»
delle pareti, ma una stanza con una parete crollata resta sempre un qualche tipo del frame stanza. In un’appendice al frame paper, Minsky sferrava un duro attacco alle tesi logiciste, che a suo avviso, sviate dai falsi problemi della coerenza e della completezza, non erano in grado di affrontare il
carattere olistico della conoscenza umana, per usare questa
volta il termine impiegato da Daniel Bobrow e Terry Winograd a proposito del linguaggio per la rappresentazione della conoscenza KRL (Knowledge Representation Language),
certo il più influenzato dall’idea dei frame.
Sulla ragionevolezza della contrapposizione di Minsky tra
rappresentazioni psicologicamente plausibili e rappresentazioni logiciste le valutazioni non sono state concordi. Una
risposta dal fronte logicista è venuta inizialmente da Hayes,
I sistemi di frame
secondo Minsky
663
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Il programma
SHRDLU
664
che ha tentato con discusso successo di tradurre in termini
di logica del primo ordine il formalismo delle reti semantiche
e dei frame, per dimostrarne la sostanziale equivalenza. Tuttavia, se per alcuni i frame non sono altro che insiemi di enunciati dichiarativi, per altri, più plausibilmente, essi, come
gli script e altre nozioni analoghe, hanno suggerito un modo
per superare la contrapposizione teorizzata da McCarthy tra
problemi epistemologici e problemi euristici, e anche per
ridimensionare la disputa tra «dichiarativisti» e «proceduralisti», che divise il mondo dell’IA degli anni Settanta (e attualmente, è stato detto, più dissolta che risolta). In breve,
mentre per la tesi dichiarativista, sostenuta soprattutto dai
logicisti, la conoscenza è in primo luogo «sapere che», e dunque consiste nel disporre di un insieme di fatti e di regole per
inferirne altri, per la tesi proceduralista la conoscenza è in
primo luogo «sapere come», e dunque consiste nel disporre
di procedure per l’uso della conoscenza stessa. È possibile
dotare i frame di procedure di quest’ultimo tipo, dette «collegamenti procedurali»: per esempio, nel frame stanza, si potrebbe collegare alla casella «numero delle pareti: uguale a
4» una procedura per riconoscere, quando le circostanze lo
richiedessero, la parete di una stanza di forma circolare.
Il programma che può essere considerato un esempio delle tesi proceduraliste è SHRDLU, realizzato da Winograd
al MIT nel 1971 nell’ambito di un progetto per la comprensione del linguaggio naturale. SHRDLU è un robot simulato in grado di effettuare con grande coerenza azioni in un ambiente anch’esso simulato, in cui blocchi di forme e colori diversi sono disposti su un tavolo: un «micromondo», come venivano chiamati questi insiemi di solidi geometrici sui quali
si esercitò molta IA di quegli anni. SHRDLU eseguiva correttamente diversi ordini, dati in ingresso in lingua inglese,
di spostare certi blocchi sul tavolo, e dietro richiesta spiegava, in inglese, perché si comportasse in un modo piuttosto che in un altro. Era anche in grado di togliere ambiguità
a ordini non chiari, rifacendosi al modo in cui erano disposti i blocchi in un dato momento, e chiedendo all’occorrenza conferma della propria interpretazione del contesto. Per
fare ciò SHRDLU integrava l’analisi sintattica e quella semantica degli enunciati con un piccolo corpo di cooscenze
sugli oggetti e le proprietà del micromondo. Con un approccio diverso da quello di Schank, diventava possibile trattare
quegli stessi aspetti del significato inaccessibili ai programmi degli anni Sessanta, che, lo abbiamo visto, si basavano sul-
5. L’Intelligenza Artificiale
blu
rosso verde
rosso
verde
blu
rosso
l’uso di confronto di schemi e di parole chiave. SHRDLU aveva infatti un modello interno del micromondo, e la conoscenza su di esso era rappresentata in forma non dichiarativa ma procedurale. A ogni parola del suo vocabolario corrispondeva cioè non una definizione esplicita, ma un breve programma, la cui esecuzione controllava se l’uso della parola
nel contesto dato era o no corretto: in ciò consisteva il significato della parola stessa.
La rappresentazione della conoscenza in forma procedurale tipica di SHURDLU era resa possibile dal MICROPLANNER, il linguaggio di alto livello impiegato. Si trattava di una sezione del PLANNER, ideato da Carl Hewitt al
MIT nel 1971, in cui la parte relativa al controllo (o euristica nel senso di McCarthy) era per così dire integrata a quella relativa alla rappresentazione (o epistemologica).
Il «micromondo»
di figure solide
geometriche del
programma SHRDLU
del 1971, fondato
su procedure che
definiscono la
conoscenza partendo
dalla procedura stessa,
di modo che il
computer acquisisca
conoscenze non tanto
sapendo quello che sta
facendo, ma sapendo
se quel che sta facendo
è corretto in relazione
alle caratteristiche
di forma e colore
(2 variabili)
dell’oggetto con
cui interagisce.
La Visione Artificiale
Una critica alla scuola dei micromondi, all’egemonia della
rappresentazione della conoscenza, al proceduralismo e alla soluzione di problemi cognitiva, insomma all’intero per
quanto discorde fronte della ricerca in IA degli anni Settanta, venne da David Marr (1945-80). Egli mosse le sue
critiche lavorando in un settore a lungo ritenuto secondario in IA: quello della Visione Artificiale. Ancora oggi le idee
di Marr, nonostante se ne vedano diversi limiti (ad alcuni
accenneremo in seguito), sembrano segnare uno spartiacque nella breve storia della Visione Artificiale, e hanno lasciato tracce importanti in più recenti tendenze della ricerca
cognitiva.
La critica di Marr
alle ricerche sull’IA
665
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Il MIT (Massachusetts
Institute of
Technology),
il laboratorio
statunitense di
informatica e di
Intelligenza
Artificiale, dove
hanno lavorato alcuni
dei più importanti
informatici del
mondo, come David
Marr.
Invitato da Minsky e Papert, Marr arrivò al MIT dall’Inghilterra nel 1973, da neurofisiologo convinto che la visione fosse un argomento troppo complesso per essere affrontato con
i metodi della sua sola disciplina. Al MIT c’era una lunga tradizione di ricerca sulla visione, legata agli interessi per la robotica che abbiamo ricordato, stimolati in particolare da
Minsky. Dopo una falsa partenza, in cui la Visione Artificiale
venne considerata un problema secondario e di facile soluzione rispetto alla ricerca dei principi generali dell’intelligenza, sembrava si fosse imboccata una strada promettente. All’inizio degli anni Sessanta, Larry Roberts era passato dallo studio del riconoscimento e della semplice classificazione di figure bidimensionali, in genere a forma di lettere, tipico della
pattern recognition tradizionale, allo studio della descrizione di
scene a tre dimensioni, quelle che deve saper decifrare un ro666
5. L’Intelligenza Artificiale
bot. Questo comportava i difficili problemi dell’individuazione dei contorni di figure sovrapposte, della distorsione prospettica, della variazione di intensità luminosa, della tessitura.
Egli usò solidi geometrici di varia forma, che erano rappresentati nei suoi programmi tramite le coordinate dei loro vertici. Il pionieristico lavoro di Roberts proseguì al MIT con le
esplorazioni dei collaudati mondi di blocchi da parte di Adolfo Guzman, David Waltz, Patrick Winston.
Marr respinse la strategia dei micromondi, perché non poteva essere estesa ai casi di scene più complesse come quelle della vita reale. Inoltre, giudicò che la maggior parte di queste ricerche condividesse la filosofia dell’IA di quegli anni:
per mettere in grado un sistema artificiale di decifrare una
scena, si era pensato di munirlo di rappresentazioni e di euristiche, insomma di conoscenza specializzata «dall’alto», che
667
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
David Marr ha dato
inizio ai tentativi
di realizzare sistemi
artificiali in grado di
«vedere» e di decifrare
una scena.
668
esso avrebbe dovuto usare per riconoscere
i componenti della scena stessa. L’idea di
Marr, coerente ad alcuni risultati della ricerca neurofisiologica, era invece che sono le caratteristiche fisiche degli oggetti, non le conoscenze del sistema sugli oggetti, a
guidare «dal basso» la loro identificazione nei primi due stadi della percezione visiva, che costituiscono la «visione primaria». Nel
primo stadio il sistema estrae da un
oggetto informazioni sulle proprietà
dell’immagine bidimensionale, per
esempio relative alla variazione di
intensità luminosa, ottenendone
uno «schizzo primario». Nel secondo stadio, sulla base di tale
schizzo, il sistema elabora informazioni relative questa volta alla profondità e all’orientamento dell’oggetto, ottenendone uno «schizzo a due dimensioni e mezzo». Solo l’elaborazione di quest’ultimo in un «modello a tre dimensioni» dell’oggetto, il terzo stadio o della «visione alta», richiede l’intervento delle
conoscenze generali in possesso del sistema, che lo guidano nell’identificare quale tipo di oggetto sia presente nella
scena. Tommaso Poggio ha definito «ottica inversa» lo studio
di questo processo di ricostruzione di immagini tridimensionali a partire da immagini bidimensionali.
Nel libro pubblicato postumo, Vision, Marr sosteneva che
la teoria computazionale della visione è interessata in primo
luogo all’individuazione delle restrizioni fisiche e delle funzioni (che cosa si vuole computare), mentre la scelta del tipo di rappresentazioni e dei particolari algoritmi per manipolarle (dei programmi) interessano un altro livello di analisi (come si effettua la computazione). Questa distinzione
corrispondeva secondo Marr a quella di Chomsky tra il livello della competenza e quello della prestazione. Il terzo livello previsto da Marr è quello dell’implementazione dell’algoritmo in un particolare hardware. Lo schema a fianco, che riassume le relazioni tra i vari livelli, permette fra l’altro di cogliere il rapporto di interazione esistente secondo
Marr tra ricerca neurologica e ricerca in IA. I risultati della
psicofisiologia e della neurologia possono influire sulla scel-
5. L’Intelligenza Artificiale
ta di particolari rappresentazioni e algoritmi: un’interazione che supera la mera estraneità teorizzata comunemente
dall’IA (si torni a vedere in proposito lo schema pagina 641).
Sulla base di questa proposta teorica generale, che andava
al di là dei problemi posti dalla visione in senso stretto, Marr
criticò i principali protagonisti dell’IA degli anni Settanta: Winograd e i proceduralisti perché confondevano due livelli,
quello computazionale e quello algoritmico (per quanto essi lo facessero volutamente, come abbiamo visto); Schank e
Minsky perché lavoravano esclusivamente sui meccanismi
della rappresentazione, dunque al livello algoritmico, trascurando quello computazionale; Newell e Simon perché,
quando si illudevano di simulare il comportamento umano,
in realtà lo «mimavano» attraverso procedure ad hoc, come
diceva Marr, scegliendo anche essi il livello sbagliato. Molte delle critiche da lui sollevate finivano per toccare i punti
Schema dell’approccio
di Marr al problema
della visione
al computer.
esperienza ordinaria
▼
▼
problema
rappresentazionale
problema
computazionale
▼
▼
natura
dell’informazione
restrizioni e processi
della teoria computazionale
▼
▼
meccanismo nervoso
specifico
meccanismo nervoso
specifico
psicofisica
▼
▼
▼
▼
▼
algoritmo specifico
(può essere programmato)
▼
▼
rappresentazione specifica
(può essere programmata)
▼
▼
▼
neurofisiologia
e neuroanatomia
669
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
caldi della ricerca dell’IA di quegli anni, primo tra tutti la difficoltà di rappresentare la conoscenza con strutture come i
frame o gli script non appena si usciva dai soliti micromondi: una difficoltà che, andando al di là della disputa tra logicisti e antilogicisti, riproponeva il problema della conoscenza basata sul buon senso, vera bestia nera dell’IA, e che finì
per scoraggiare lo stesso Winograd dal proseguire le proprie
ricerche.
Vecchi e nuovi progetti
Le critiche di Marr
alla simulazione
dei processi cognitivi
L’«ipotesi del
sistema fisico
dei simboli»
670
Le critiche di Marr alla simulazione dei processi cognitivi
avevano come oggetto la monumentale summa del 1972,
Human Problem Solving, nella quale Newell e Simon avevano raccolto i risultati della loro lunga ricerca sull’argomento. Da un lato i processi di soluzione di problemi di singoli soggetti umani, desunti dai protocolli verbali, venivano
studiati sotto forma di «microteorie» simulative (programmi
o schemi di programmi che riproducevano tali processi con
i maggiori dettagli possibili), dall’altro si definivano i lineamenti di una teoria generale dell’elaborazione dell’informazione, individuando una nozione di «sistema di elaborazione dell’informazione» (Information Processing System, o
IPS) come «genere» di cui uomo e calcolatore sono due «specie» distinte. Infine, si sviluppava una particolare versione
dell’idea di «regola di produzione», che nella forma generale «SE condizione, ALLORA azione», specifica la condizione in presenza della quale hanno luogo una o più azioni.
Incorporate nei cosiddetti «sistemi di produzioni», regole di
questo tipo sono state ampiamente sperimentate per rappresentare la conoscenza nei sistemi esperti, a partire almeno
da MYCIN, un sistema esperto nella diagnosi delle malattie del sangue.
Nel 1975 Newell e Simon, nell’intervento in occasione del
Premio Turing, formularono un’ipotesi che può essere vista
come il perfezionamento di quella dello IPS: l’«ipotesi del sistema fisico di simboli», secondo la quale condizione necessaria e sufficiente per attribuire intelligenza a un sistema, naturale o artificiale, è la sua capacità di trasformare espressioni simboliche in altre mediante regole. Tuttavia, gli interessi
di Newell e di Simon andavano già da tempo divergendo.
Newell continuò il lavoro sui sistemi di produzione, convincendosi che essi potevano suggerire un’architettura generale dell’intelligenza. La conferma gli parve di trovarla nel
5. L’Intelligenza Artificiale
Una delle capacità che caratterizzano l’intelligenza naturale o artificiale è costituita dal processo
di traduzione e trasformazione di certe espressioni simboliche (i dati che entrano nella testa) in altre
(i dati in uscita) mediante determinate regole.
671
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Newell, Laird
e Rosenbloom
implementano SOAR
Simon e le ricerche
sui protocolli verbali
672
1984, quando con John Laird e Paul Rosenbloom cominciò
l’implementazione di SOAR, pensato come un’architettura
unica per ogni tipo di compito: i compiti erano formulati sempre come ricerca nello spazio del problema. SOAR procede
dunque selezionando e applicando gli opportuni operatori
che trasformano lo stato iniziale in una successione di stati
che portano a quello finale, l’obiettivo o la soluzione del problema. Quando nel corso di questo processo si incorre in una
impasse, dovuta per esempio alla difficoltà di decidere quale operatore applicare, SOAR genera un sotto-obiettivo, la
cui soluzione lo libera da tale impasse. Essa viene aggiunta
sotto forma di nuova regola alla lista delle regole, e costituisce un nuovo «pezzo» (chunk) di conoscenza, che in futuro
potrà essere usato ove si riproduca quella stessa impasse. Il
chunking è dunque un meccanismo di apprendimento che
genera nuove regole, anzi l’unico meccanismo di apprendimento previsto dall’architettura. Il lavoro su SOAR, che come si vede riprendeva, e per certi aspetti radicalizzava, molti temi nei quali affondavano le radici dell’IA, assorbì Newell
fino alla sua scomparsa. È tutt’ora continuato dal suo gruppo, sollevando molte riserve nel mondo dell’IA soprattutto
per quanto riguarda l’utilità di assumere un’architettura unificata per l’intera attività cognitiva.
Per Simon le questioni relative all’architettura cognitiva non
hanno avuto un interesse preminente. Con diversi collaboratori, egli continuò fino alla sua scomparsa la sperimentazione sulla simulazione del comportamento umano, in particolare usando i protocolli verbali. Nello stesso tempo approfondì l’analisi dei processi della creatività scientifica, da
lui già definita come una forma, per quanto complessa, di attività di soluzione di problemi. Con altri ricercatori, come
Gary Bradhaw e Patrik Langley, collaborò alla costruzione
di vari programmi che riscoprivano concetti e leggi di diverse discipline scientifiche. Si tratta per lo più di programmi
che usano euristiche generali o deboli e basi di conoscenza
ridotte. BACON rappresenta il caso estremo, molto vicino al
GPS: riscopre le leggi di Keplero attraverso metodi generali
che individuano regolarità presenti nei dati di cui dispone,
senza fare riferimento né al loro significato né ad alcuna assunzione sulla loro struttura. Se consideriamo DENDRAL
un programma per la scoperta, dobbiamo collocarlo all’estremo opposto.
Un programma che in un certo senso si colloca in una
posizione intermedia, sebbene oscillante, tra BACON e
5. L’Intelligenza Artificiale
DENDRAL è AM (Automated Mathematician), sviluppato nell’area della scoperta matematica da Douglas Lenat verso la metà degli anni Settanta a Stanford. Per la verità, l’ispirazione originaria di Lenat sembrava agli antipodi dei
sistemi esperti. Lenat si proponeva infatti di «tagliare il cordone ombelicale» che lega il programma all’esperto umano (il problema dell’ingegneria della conoscenza), per vedere se, o fino a che punto, il programma era in grado di apprendere incrementando gradualmente le conoscenze a partire da una base di conoscenza generale. Tale base di conoscenza era piuttosto ricca e, senza essere paragonabile
a quella di un tipico sistema esperto, era tuttavia ben lontana dall’austerità di BACON. L’obiettivo era di approssimarsi, sottolineava Lenat, «all’ideale dell’interscambio tra
generalità e potenza»: quasi un richiamo, questa volta, alla filosofia originaria degli autori di DENDRAL. Euristiche
di questo tipo resero il programma capace di «riscoprire»
numerosi concetti matematici, arrivando a formulare la congettura di Goldbach, che esso introduceva dopo aver «riscoperto» i numeri primi.
Lenat si accorse che una delle ragioni fondamentali che impediva ad AM di compiere ulteriori progressi consisteva nella sua incapacità di introdurre, o «apprendere», nuove euristiche. Trasferitosi alla Carnegie-Mellon, egli si dedicò a un
nuovo programma, EURISKO, che possedesse regole che
Doug Lenat,
il fondatore
del CYC, un progetto
che mira alla
realizzazione di un
programma dotato di
buon senso nella fase
di ricerca e di
comprensione dei dati.
673
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Da AM a EURISKO
Lenat e il
programma CYC
674
lo mettessero in grado di introdurre non solo nuovi concetti, nello stile di AM, ma anche nuove regole euristiche, o «metaeuristiche». L’idea di un metalivello dove rappresentare le
regole che il programma può usare per decidere quali regole del livello oggetto applicare, o in quale ordine, può essere vista come l’evoluzione dell’idea di controllo attraverso le
euristiche della prima IA. Questa opportunità è stata sperimentata in sistemi come TEIRESIAS e SOAR. In altri casi, come nel sistema FOL di Richard Weyhrauch, la conoscenza metateorica viene trasferita al livello della teoria oggetto mediante «principi di riflessione», per rendere più efficiente la generazione delle dimostrazioni. Quando si parla
di riflessione e di autoriferimento, inevitabilmente si è portati a pensare alla coscienza, un argomento sul quale, a parte alcune speculazioni su possibili architetture riflessive, l’IA
non ha ancora prodotto risultati apprezzabili.
Nemmeno l’approccio di EURISKO ebbe il successo sperato. Lenat ha discusso in modo molto spregiudicato i limiti
di AM e di EURISKO. Alla fine si è trovato d’accordo con
le conclusioni critiche alle quali era arrivato lo stesso Feigenbaum a proposito dei sistemi esperti: essi mancano della conoscenza generale che caratterizza il buon senso, cosicché le loro prestazioni, basate su conoscenze specialistiche, degradano rapidamente.
Partendo da questa constatazione, Lenat ha avviato nel 1984
il programma CYC (enCYClopedia), un progetto a lungo termine talmente ambizioso da lasciare scettici molti sulla sua
completa realizzabilità. CYC dovrebbe essere fornito di una
base di conoscenza desunta da un certo numero di voci di
un’enciclopedia e, inoltre, delle conoscenze generali del buon
senso presupposte nella comprensione di tali voci. L’obiettivo (quasi la realizzazione del sogno di McCarthy) è di dare al programma tutta la conoscenza del buon senso necessaria per la comprensione di qualsiasi altra voce dell’enciclopedia. Inizialmente, a CYC si interessò la MCTC (Microelectronics and Computer Technology Corporation), un
consorzio nazionale che avrebbe dovuto preparare la risposta
americana al progetto giapponese dei calcolatori «superintelligenti» della quinta generazione programmati con il PROLOG (avviato nel 1982 con 855 milioni di dollari stanziati
in dieci anni, tale progetto si avviò presto a un drastico ridimensionamento). Successivamente CYC, rappresentando la
speranza in una generazione di sistemi esperti di concezione interamente nuova, ha suscitato l’interesse di diverse im-
5. L’Intelligenza Artificiale
prese commerciali, che hanno stanziato in un primo momento
un finanziamento di 25 milioni di dollari.
In SOAR l’apprendimento ha un ruolo centrale, AM ed EURISKO sono programmi che apprendono attraverso la scoperta. Sono solo alcuni esempi di come nei primi anni Ottanta l’apprendimento costituisca un tema di primo piano nella ricerca di IA, dopo un lungo periodo in cui non era stato
oggetto di esplorazioni sistematiche. La nuova tendenza è testimoniata dalla raccolta Machine Learning (1983) di R.S.
Michalski, J.G. Carbonell e T.M. Mitchell, diventata poi una
pubblicazione che periodicamente documenta l’estesa varietà
delle attuali proposte sull’apprendimento automatico.
Architetture a confronto: scienza
cognitiva e neoconnessionismo
L’ipotesi del sistema fisico di simboli non caratterizza certo
in modo omogeneo l’impresa dell’IA. Considerata di volta
in volta, dentro e fuori il mondo dell’IA, un eccesso radicale o un atto di fede o un’utopia, essa ha comunque sintetizzato le aspirazioni originarie dell’IA come scienza della mente, e ha influito, magari in forme variamente indebolite, sul-
Elaborazione al
computer di una rete
neurale applicata a un
microchip. Esistono
diversi punti di
contatto tra i risultati
degli studi condotti
negli ultimi anni
sulle reti neurali
e le ricerche
sull’Intelligenza
Artificiale.
675
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
L’impresa di creare un’Intelligenza Artificiale è ostacolata dalla complessità
della materia affrontata: la mente, i suoi processi cognitivi e la possibilità
di trasferirli in ambito scientifico e meccanico.
676
5. L’Intelligenza Artificiale
l’evoluzione di una nuova disciplina, la scienza cognitiva. Questa ebbe la sua consacrazione alla Conferenza di San Diego, organizzata nel 1979 dalla Cognitive Science Society, che
da due anni pubblicava già la rivista ufficiale della Società e
aveva avuto generosi finanziamenti dalla Sloan Foundation.
Alla Conferenza parteciparono psicologi, linguisti e filosofi,
oltre a Minsky, Newell, Shank, Simon, Winograd: nella scienza cognitiva confluivano infatti molte delle ambizioni della
Information Processing Psychology e dell’IA come scienza
della mente, al punto che Simon, intervenendo alla Conferenza, arrivava a retrodatare al 1956 la nascita della scienza
cognitiva.
La nuova disciplina doveva ritagliarsi uno spazio autonomo nei sui rapporti con l’IA. Due libri, pubblicati quasi contemporaneamente da Zenon Pylyshyn e da Philip JohnsonLaird, tentano l’impresa. Vi sono alcune cose che i due autori condividono, insieme alla maggior parte dei ricercatori del campo. Entrambi sostengono l’idea generale della cognizione come computazione di strutture di simboli e rifiutano la metodologia del test di Turing, perché con essa
ci si limita a considerare la prestazione senza tener conto
dei processi cognitivi. Inoltre, entrambi si pongono il problema, da punti di vista diversi, di quali restrizioni imporre all’architettura cognitiva o ai processi cognitivi stessi: per
esempio, i limiti di memoria, gli errori nella soluzione di problemi, i tempi di prestazione. Anche se la simulazione del
comportamento è giudicata per lo più pura «mimica» nel
senso di Marr, si avverte in queste tesi l’eredità della Information Processing Psychology dei vecchi tempi. Per il resto, l’approccio di Pylyshyn è molto diverso da quello di
Johnson-Laird. Pylyshyn tracciava una distinzione tra i processi «cognitivamente penetrabili» e quelli «cognitivamente non penetrabili», che riguardano l’architettura cognitiva.
Pur tra qualche incertezza, Pylyshyn sembrava muoversi
nella direzione di Marr e di Chomsky, già portata alle estreme conseguenze nella concezione della mente sostenuta in
quegli anni da Jerry Fodor. Questi aveva proposto un’architettura funzionale della mente in cui si distinguono i
sistemi deputati alla percezione e al linguaggio, descritti come moduli non influenzati da credenze e conoscenze, dai
sistemi «centrali», responsabili dei processi cognitivi superiori, per esempio della soluzione di problemi. La scienza cognitiva, come scienza computazionale della mente, può
occuparsi solo dei primi, mentre quelli centrali, risultan-
L’ipotesi del sistema
fisico di simboli
Sistemi percettivi
e sistemi cognitivi
superiori
677
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
La struttura dei
«modelli mentali»
Reti neurali e
memorie associative
678
do cognitivamente penetrabili, cioè influenzati da credenze e conoscenze, le restano inaccessibili: si spiegano così i
fallimenti dell’IA, che si è illusa di riuscire a rappresentare i processi centrali con strutture dati come i frame o gli
script. All’opposto di Pylyshyn, Johnson-Laird elaborava la
nozione di una nuova struttura dati, in cui rappresentare
in forma analogica le conoscenze e le aspettative, anche soggettive, degli esseri umani: quella dei «modelli mentali»,
che egli aveva cominciato a sperimentare nel ragionamento sillogistico. Inoltre, estendeva i suoi interessi ad argomenti verso i quali Pylyshyn e molta scienza cognitiva dell’epoca restavano sordi: quello del ruolo della componente
emotiva nella cognizione, o quello della coscienza, argomenti poi tornati in primo piano nella ricerca.
Ma già Pylyshyn si trovava a dover contestare nel suo libro
la validità di proposte di «nuove architetture della cognizione», alternative a quelle ispirate all’ipotesi dell’elaborazione
simbolica, proposte dal cosiddetto «nuovo connessionismo».
Pylyshyn si riferiva alla raccolta pubblicata nel 1981 da James Anderson e Geoffrey Hinton, Parallel Models of Associative Memory, che preannunciava la ripresa in grande stile delle reti neurali. Anderson, e con lui Teuvo Kohonen, Stephen Grossberg e altri ricercatori che abbiamo già ricordato, non avevano interrotto la ricerca sulle reti neurali. Inoltre, più di una proposta formulata dall’IA, per esempio il meccanismo di «attivazione diffusa» della memoria semantica
di Quillan, aveva ispirato modelli dotati di un certo parallelismo. Ma almeno due eventi dovevano avviare una vera e propria rivincita di Rosenblatt. Nel 1982, in Neural Networks
and Physical Systems with Emergent Collective Computational Abilities, John Hopfield mostrava come le reti neurali potessero funzionare come memorie associative. Nel 1986 David Rumelhart e i suoi collaboratori pubblicavano una serie
di ricerche (Parallel Distributed Processing, Explorations in
the Microstucture of Cognitions) ispirate a un approccio di
«elaborazione distribuita in parallelo» (PDP) dell’informazione che mostravano come un algoritmo di apprendimento
per correzione dell’errore, ormai noto come «retropropagazione» (backpropagation), permetteva di superare le principali limitazioni delle reti neurali dimostrate da Minsky e Papert nel libro del 1968. Queste si dimostravano effettivamente
tali solo per le reti a uno strato interno, come il Perceptron
semplice che abbiamo ricordato, non per le reti non lineari
a più strati.
5. L’Intelligenza Artificiale
Alla metà degli anni Ottanta risale anche la realizzazione di
grandi calcolatori ad architettura parallela, con l’obiettivo
di superare i limiti dell’elaborazione seriale dell’informazione tipica dei calcolatori con architettura alla von Neumann:
la connection machine di David Hillis ne è l’esempio più noto. Calcolatori di questo tipo, come quelli del progetto APE
guidato dal fisico Nicola Cabibbo, hanno conosciuto diverse
applicazioni nel mondo della ricerca.
I grandi computer
ad architettura
parallela
L’Intelligenza Artificiale e gli enigmi
della mente
Le nuove reti neurali di Hopfield, diventate oggetto di studio
dei fisici, si sono ritrovate nella famiglia dei sistemi dinamici complessi, primi tra tutti i vetri di spin, attualmente uno
degli argomenti di punta della fisica. Inoltre, esse hanno conosciuto diverse applicazioni in problemi di ottimizzazione
nella teoria della complessità computazionale. Nel clima di
una rinnovata attenzione verso le neuroscienze, il libro del
gruppo PDP sollevò invece reazioni di euforia soprattutto nel
mondo degli psicologi cognitivi e dei filosofi, provocando tra
i primi diverse conversioni al connessionismo e tra i secondi una ripresa del materialismo riduzionista, tradizionale avversario filosofico del funzionalismo.
I filosofi sostenitori del materialismo riduzionista, come
Herbert Feigl, J.C. Smart, D.M. Armstrong, avevano proposto tra gli anni Cinquanta e Sessanta la teoria dell’identità
mente-cervello, stando alla quale uno stato mentale deve essere identificato con lo stato cerebrale corrispondente. Critiche a questa teoria furono sollevate soprattutto dopo la pubblicazione, nel 1960, dell’influente articolo di Putnam Menti e macchine. Il fatto che gli stati interni di una macchina
di Turing potevano essere implementati su hardware diversi aveva suggerito a Putnam che anche gli stati mentali potevano essere realizzati in sistemi fisici diversi, non solo organici, come il cervello, ma anche inorganici, come un certo hardware di un calcolatore. Pertanto non aveva senso identificare stati mentali con stati cerebrali, e i predicati psicologici potevano essere compresi rifacendosi non alla loro realizzazione o instanziazione fisica, che poteva essere di volta
in volta differente, ma alla loro organizzazione funzionale comune, cioè alle loro interazioni reciproche. Era questa, in sintesi, l’ipotesi del funzionalismo ispirato alla macchina di Turing. Essa era coerente con l’idea affermatasi con gli svilup-
La teoria
dell’identità
mente-cervello
679
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Una corrente
dell’Intelligenza
Artificiale teorizza che
vi sia una separazione
tra stati mentali e stati
cerebrali, ovvero tra
mente e cervello.
680
pi della scienza dei calcolatori e della prima IA, secondo cui
i processi dell’intelligenza possono essere studiati al livello
del programma (della manipolazione di simboli), astraendo
dalla natura specifica della struttura osservabile al livello fisico. Tuttavia, il funzionalismo che è diventato la filosofia popolare tra i ricercatori di IA e poi di scienza cognitiva ha avuto una sua evoluzione, e a volte esso è noto come funzionalismo computazionale.
Un contributo importante in questa direzione è stato quello di Newell (1980-82). Riprendendo l’ipotesi del sistema
fisico di simboli, egli introdusse un terzo livello di descrizione di un sistema artificiale, il livello della conoscenza, che
collocò sopra i due tradizionali livelli teorizzati dall’IA, quello fisico (o dello hardware) e quello del programma (o dei simboli). Il riconoscimento del livello della conoscenza nella
5. L’Intelligenza Artificiale
gerarchia dei livelli di descrizione di un sistema costituiva l’esplicitazione di una pratica comune tra i ricercatori di IA:
quella di descrivere un sistema artificiale come un agente razionale, che elabora conoscenze per pianificare azioni in vista del raggiungimento di certi scopi o obiettivi. L’individuazione di questo livello non ha niente a che vedere con le distorsioni provocate dall’abuso di tale pratica denunciate da
McDermott (1976).
Come abbiamo visto, era stata la cibernetica a introdurre
il linguaggio psicologico nella descrizione del comportamento
di certi artefatti. Daniel Dennett (1942) aveva ripreso questa idea già sviluppata dalla filosofia della mente di matrice
cibernetica, in particolare da MacKay, per dare una sua soluzione al problema dell’intenzionalità. Con la proposta
dell’«atteggiamento intenzionale», egli ritenne di poter superare la tesi del filosofo Franz Brentano sull’incompatibilità tra spiegazione meccanicista, che riguarda il mondo fisico,
e spiegazione intenzionale, che riguarda esclusivamente la
sfera del mentale. L’atteggiamento intenzionale, in altri termini la scelta di un osservatore esterno di descrivere un sistema come intenzionale mediante il linguaggio psicologico
o «mentalistico», è per Dennett legittimo, anzi indispensabile, per controllare e prevedere il comportamento di sistemi
non solo naturali o organici, come gli esseri umani o gli animali, ma anche fisici o artificiali, come un calcolatore o un
robot. Per esempio, quando si gioca a scacchi con un calcolatore, è scontato assumere l’atteggiamento intenzionale per
prevedere le sue mosse, e infatti si dice che esso ha un certo «piano», o che ha lo «scopo» o l’«intenzione» di battere l’avversario e così via.
La proposta di Dennett è diventata molto popolare tra i ricercatori di IA e di scienza cognitiva. Lo stesso Newell
(1982) ritenne che il livello della conoscenza corrispondesse
al livello dell’atteggiamento intenzionale di Dennett: in fondo, l’una e l’altra nozione dovevano molto alla descrizione
del comportamento razionale data da Simon molti anni prima. Newell, tuttavia, sempre rifacendosi al sistema fisico
di simboli, elaborò una sua proposta sul significato e sull’intenzionalità, che si presentava come una sistemazione
della concezione del significato prevalente in IA. Dal suo
punto di vista, la manipolazione sintattica (mediante regole) delle espressioni simboliche da parte di un sistema artificiale poteva essere considerata semantica in quanto è
rappresentazionale, vale a dire che le espressioni si riferi-
Il linguaggio
«presentalistico»
per l’Intelligenza
Artificiale
La proposta
di Newell
sul significato
681
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
La mente come
«dispositivo
sintattico»
Il funzionalismo
computazionale
682
scono a eventi del mondo perché, sulla base di regole, vengono trasformate nello stesso modo in cui si trasformano gli
eventi del mondo. Assumendo questa ipotesi come base di
quella che Newell definiva la «concezione computazionale della mente», la stessa mente era considerata, per riprendere un’espressione di Dennett, un «dispositivo sintattico» che imita o riproduce il funzionamento di un «dispositivo semantico».
Nel libro che abbiamo ricordato Pylyshyn presentava il livello della conoscenza di Newell proprio come un livello semantico, quello dell’attribuzione di significato alle strutture
di simboli, le quali costituiscono il livello sintattico, intermedio, anche qui, tra quello semantico e quello della realizzazione fisica. Si potrebbe discutere se le tre nozioni di
Dennett, Newell e Pylyshyn siano effettivamente equivalenti
sul piano esplicativo. Comunque, è stato Pylyshyn, seguendo Fodor, a riprendere il funzionalismo computazionale con
il proposito di spiegare alcuni enigmi del problema mentecervello dibattuti dal comportamentismo e dal materialismo
riduzionista. In effetti Pylyshyn (1984) tentava la difficile impresa di conciliare le idee di Fodor con quelle di Newell. Rispetto all’atteggiamento intenzionale di Dennett, che è una
pura e semplice questione di scelta da parte dell’osservatore del sistema (naturale o artificiale), l’attribuzione di intenzionalità al livello semantico di Pylyshyn è giustificata dalla
capacità propria del sistema stesso di elaborare strutture di
simboli, una capacità che si ritiene tipica delle menti e dei
programmi. Questo sembra escludere che semplici artefatti
come quelli della tradizione cibernetica richiedano necessariamente una descrizione intenzionale.
Per esempio, come può uno «scopo» o una «intenzione»,
appartenenti secondo Brentano alla sfera del mentale, essere causa di un evento fisico, come un’azione (o una successione di azioni) diretta a conseguirli? Se si pensa alla
mente come al «dispositivo sintattico» che abbiamo ricordato, il calcolatore suggerisce come questo sia possibile:
in questo caso, è la forma fisica delle rappresentazioni, in
quanto strutture di simboli fisicamente realizzate o instanziate, non il significato o il contenuto intenzionale delle rappresentazioni stesse, a svolgere il ruolo causale del comportamento. Il contenuto di una rappresentazione potrebbe anche non esistere (l’obiettivo della ricerca del Santo
Graal, poniamo), e tuttavia la forma o struttura della rappresentazione potrebbe svolgere il ruolo causale richiesto.
5. L’Intelligenza Artificiale
Nel caso della mente, le strutture di simboli devono ipotizzarsi instanziate nel cervello. L’accusa di dualismo (di
separare il mentale dal fisico) mossa qualche volta a questo
tipo di funzionalismo è ingiustificata, dal momento che, come si vede, esso vuole tentare una soluzione materialista, ma
non riduzionista, del ruolo causale degli stati mentali.
Piuttosto, senza essere dualista, il funzionalismo computazionale della maggior parte dell’IA non considera cruciale
la natura biologica della struttura fisica nella quale si realizzano gli stati mentali. È questa tesi, insieme a quella del ruolo causale dei simboli per l’intenzionalità, che è stata oggetto di critiche diverse. John Searle (1932) ha sostenuto che
il ruolo causale delle rappresentazioni simboliche è un puro
artificio, dal momento che l’intenzionalità manifestata da un
programma è «derivata» dal cervello del suo artefice (del programmatore), l’unico in grado di avere intenzionalità «originaria». Questa tesi è stata tra le più discusse in IA come in
scienza cognitiva.
Il filosofo John Lucas aveva comunque sollevato già negli
anni Sessanta obiezioni al meccanicismo ispirato alla macchina di Turing, le quali possono essere ricondotte alla tesi
dell’incapacità delle macchine di manipolare la semantica e
di manifestare «vera» (o «originaria») intenzionalità. La tesi
di Lucas (ispirata ai teoremi sull’incompletezza di Gödel) è
Un momento di una
partita a scacchi tra
uomo e computer.
L’essere umano,
quando si confronta
con una macchina, è
portato naturalmente
ad attribuirle
comportamenti
intenzionali, quasi
che il confronto fosse
con un altro uomo.
683
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Le critiche al
funzionalismo
computazionale
stata ripresa dal fisico Penrose (1989). Un’altra critica alla filosofia dell’IA e della scienza cognitiva, ormai definite «classiche» o «simboliche», è venuta dalla ripresa del materialismo riduzionista. Come si è accennato, essa si è verificata
in sintonia con il rinnovato interesse per le neuroscienze sollecitato dal connessionismo. Neurophilosophy, il libro di Patricia Smith Churchland (1943), si proponeva di confutare
la versione del funzionalismo computazionale ritenuta più radicale, quella di Pylyshyn. A giudizio della Churchland, la tripartizione dei livelli di spiegazione (semantico o della conoscenza, simbolico e fisico) è una semplificazione inaccettabile, basata su una «distinzione monolitica» tra struttura e
funzione: in realtà, il loro numero non può essere astrattamente delimitato in anticipo, data la molteplicità dei livelli
individuati dalla ricerca effettiva delle neuroscienze. Inoltre,
la comprensione della struttura biologica (del cervello) può
suggerire, e di fatto suggerisce, teorie dell’organizzazione funzionale. Infine, è solo un dogma che le rappresentazioni debbano avere una forma simbolica per poter ricoprire l’asserito ruolo causale nell’intenzionalità. La «neuroscienza computazionale» di Churchland e Sejnowski (The Computational Brain, 1992) fa sua questa posizione critica.
Pylyshyn, d’altra parte, al Convegno della Cognitive Science Society del 1984 si era trovato a scontrarsi con Hinton
e Rumelhart nel corso di un simposio dedicato a ConnesIl neurologo Terence
Sejnowski è considerato un
pioniere nel campo della
neuroscienza
computazionale.
Sejnowski utilizza il
computer per elaborare su
larga scala i dati ottenuti
studiando le connessioni
nervose in modo da
riprodurre elettronicamente il
funzionamento delle cellule
nervose umane.
684
5. L’Intelligenza Artificiale
sionismo o regole, che sancì la spaccatura tra i sostenitori dell’approccio connessionista e di quello «simbolico» della
scienza cognitiva e dell’IA. Con Fodor, Pylyshyn firmò poi
un lungo saggio in cui si argomentava che le reti neurali non
sono in grado di riprodurre le caratteristiche fondamentali
dei processi inferenziali, e vanno viste semplicemente come
una possibile architettura astratta sulla quale poter implementare i sistemi simbolici ad architettura classica o alla von
Neumann. Questa tesi, sulla quale quasi non c’è stato ricercatore che non abbia trovato il modo di pronunciarsi, è
restata un punto di riferimento delle principali critiche al
connessionismo. Una rassegna parziale della disputa è data da Bechtel e Abrahamsen (Connectionism and the Mind,
1991), che introducono anche i principali argomenti della
filosofia della mente di ispirazione connessionista.
Passi diversi verso l’Intelligenza Artificiale
Siamo alla fine degli anni Ottanta: il mondo della ricerca sulla mente e sulle macchine si presenta quanto mai diviso.
Per darne un’idea, sceglieremo alcuni eventi che hanno caratterizzato lo scorcio di quel decennio, e permettono di rendersi conto dei principali orientamenti della ricerca fino ai
nostri giorni.
Nel 1987, al workshop sui fondamenti della IA che si svolge presso il MIT, si confrontano le tendenze più influenti dell’IA, attraverso una serie di relazioni e controrelazioni molto
accese. La rivista «Artificial Intelligence» le pubblicava nel
1991, e David Kirsh, in Foundation of Artificial Intelligence
(1991), riassumeva efficacemente in cinque punti le assunzioni generali sulle quali si erano confrontati e divisi i partecipanti al workshop. Essi erano: 1) la centralità delle regole e della rappresentazione della conoscenza; 2) il disembodiment, ovvero lo studio della cognizione astraendo dalla
percezione e dal controllo motorio; 3) il carattere linguistico (in primo luogo logico-matematico) della descrizione dell’attività cognitiva; 4) lo studio dell’attività cognitiva astraendo dall’apprendimento, dallo sviluppo cognitivo e dai cambiamenti evolutivi; 5) l’unicità dell’architettura per l’intera cognizione.
Secondo Kirsh, tra i diversi partecipanti al workshop, i logicisti, interessati alle teorie formali del buon senso e delle
credenze, accettano le prime quattro assunzioni, che invece sono respinte dai connessionisti; gli uni e gli altri restano
Le divisioni tra
i ricercatori
dell’Intelligenza
Artificiale
685
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Alcuni dei
componenti dello
staff di studiosi che
partecipa al progetto
CYC sull’Intelligenza
Artificiale: scopo
del progetto è costruire
una base di
conoscenza universale
per dotare i computer
di senso comune.
686
comunque neutrali sulla quinta assunzione. L’unicità dell’architettura è portata in primo piano dal gruppo di SOAR,
insieme alla centralità dell’apprendimento nello studio della cognizione. Questi due punti non costituiscono invece le
premesse del progetto CYC. Altri programmi di ricerca possono ritrovarsi in qualcuna o nessuna delle cinque assunzioni: per esempio, la cosiddetta «IA distribuita», riproposta al workshop da Hewitt e Les Gasser da punti di vista diversi, o la robotica di Rodney Brooks.
L’IA distribuita, nata ufficialmente al Convegno americano
a essa dedicato nel 1980, ha alle spalle l’evoluzione dei sistemi a blackboard, una base di dati condivisa da diversi moduli cooperanti deputati a conoscenze specialistiche. HERSAY II, progettato negli anni Settanta alla Carnegie-Mellon
come sistema per il riconoscimento del parlato, è considerato tutt’ora uno degli esempi meglio riusciti di questo genere
di architetture, sperimentate anche in alcuni sistemi esperti. L’IA distribuita ha insistito sull’aspetto cooperativo della
gestione della conoscenza, ma anche sulla dimensione sociale della conoscenza e dell’azione, punti importanti quanto trascurati dalla ricerca precedente. Al workshop, Gasser
discuteva l’effettiva novità della proposta di Hewitt, il quale
dava una formulazione dell’IA distribuita che si rifaceva ai
suoi «sistemi aperti», così detti perché, al fine di tener testa
5. L’Intelligenza Artificiale
alle informazioni parziali di cui dispongono, devono cooperare collettivamente anche attraverso l’applicazione di diversi criteri e strategie di soluzione di problemi.
Da parte sua, Brooks, con lo slogan «conoscenza senza rappresentazione», riassumeva al workshop la filosofia implicita nei nuovi robot da lui costruiti al MIT. L’obiettivo polemico
dello slogan di Brooks era l’approccio detto «dall’alto» alla robotica, quello che privilegia le capacità deliberative (ragionamento, pianificazione) e la rappresentazione della conoscenza, mettendo in secondo piano l’integrazione di queste
capacità con le diverse modalità senso-motorie. L’approccio dall’alto aveva suggerito a molti ricercatori di IA che il problema dell’interazione di un robot con l’ambiente reale poteva essere risolto quando si fosse trovato il modo di fornirgli un adeguato modello del mondo. In altri termini, si trattava di studiare anzitutto come rappresentare in un programma le conoscenze che avrebbero messo in grado il robot,
controllato da quel programma, di fare inferenze e di pianificare le proprie azioni in un ambiente reale. Abbiamo visto
come tale approccio si imbattesse nelle difficoltà testimoniate dalle modeste prestazioni di robot come Shakey, la costruzione dei quali non aveva conosciuto mai veri progressi.
L’«architettura della sussunzione» proposta da Brooks per
i suoi robot si candidava esplicitamente come un’alternati-
Rodney Brooks,
direttore del
laboratorio di
Intelligenza Artificiale
del MIT, con uno dei
suoi robot «Genghis»
sulla schiena.
687
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
L’architettura
della sussunzione e
i robot «autonomi»
Il paradigma
connessionista
688
va a questo tipo di robotica. Questa architettura ha permesso
di costruire robot mobili che manifestano comportamenti
«autonomi»: essi hanno buone doti di robustezza, essendo
capaci di reagire efficacemente a situazioni non previste o
non prevedibili, e sono in grado di farlo in tempo reale, senza cioè che sia necessaria una complessa attività di pianificazione delle risposte. Nell’architettura della sussunzione,
l’agente è visto come composto da livelli o moduli di controllo funzionalmente distinti ma interconnessi, che agiscono senza la supervisione di un sistema di controllo e di pianificazione dell’azione basato su un modello del mondo. In
questo caso un livello o modulo di controllo di basso livello, relativo a un comportamento reattivo (e dunque funzionante attraverso continue retroazioni o feedback con l’ambiente), è interconnesso con un modulo di un livello più alto, che controlla un comportamento più complesso, in modo tale che un modulo può attivare o inibire un altro modulo.
Per esempio Allen, il capostipite di questa generazione di
«creature», come Brooks chiamava i suoi semplici robot, è
in grado di continuare a evitare persone e ostacoli diversi (un
compito di livello basso, essenzialmente reattivo) mentre vaga nell’ambiente e lo fa per raggiungere un obiettivo assegnatogli (dunque un compito di un livello più alto). Brooks
ha chiamato questo approccio «scomposizione del comportamento», per distinguerlo dalla «scomposizione funzionale» proposta dalla robotica alla Shakey, consistente nel separare i ruoli della percezione, della pianificazione e dell’azione. Non è dunque un «modello del mondo» a guidare
l’azione del robot: questo, piuttosto, per dirla con Brooks,
«usa il mondo come proprio modello», confrontando continuamente ogni singolo obiettivo con la situazione del mondo reale.
Tra gli approcci allo studio dell’intelligenza presentati al
workshop, quello di Brooks era il più radicale: esso respingeva tutte le cinque assunzioni elencate da Kirsh. Il quale sollevava a Brooks un problema che si pone quasi spontaneamente: quanta (che tipo di) intelligenza è possibile riprodurre
senza rappresentazioni simboliche, senza capacità di pianificazione e deliberative?
Torneremo brevemente in seguito su questo interrogativo.
Intanto, dobbiamo osservare che se allo scorcio degli anni Ottanta l’IA appare non meno divisa del solito su quasi tutti i
problemi fondamentali, i sostenitori dell’asserito «paradigma
connessionista» si trovano a dover fare i conti in quegli stes-
5. L’Intelligenza Artificiale
si anni con i postumi della consueta ebbrezza che ha puntualmente accompagnato i cosiddetti cambiamenti di paradigma nella storia della costruzione di macchine intelligenti.
Come ai tempi del Perceptron, i modelli connessionisti continuano a dare il meglio di sé nella riproduzione di attività elementari, come pattern recognition, classificazione, apprendimento per associazione, e poco o nulla di importante realizzano nella riproduzione di attività cognitive «alte», come
il ragionamento basato su inferenze.
Nel 1989 si svolge presso la New Mexico State University
un workshop sui modelli connessionisti di alto livello, il primo serio tentativo di fare i conti con i limiti del connessionismo, ridiscutendone i fondamenti attraverso un confronto finalmente non polemico con il «paradigma simbolico»,
come viene ormai chiamato l’approccio dell’IA tradizionale.
Un possibile vademecum dei pregi e dei limiti dei due approcci venne stilato da Michael Dyer, e si può dire che esso
conserva tutt’ora una sua validità (nella tabella alla pagina
successiva essi corrispondono, rispettivamente, ai «+» e ai
«–»). Le proposte di una loro integrazione reciproca, in certi casi sotto forma di sistemi connessionistico-simbolici detti «ibridi», furono in quell’occasione le più diverse, e tendevano ad accentuare il ruolo giocato in positivo dall’uno o dal-
Uno dei robot
«Genghis» di Rodney
Brooks posto sopra un
insetto vero. Secondo
Brooks, piuttosto che
imitare l’uomo, i robot
dovrebbero cominciare
imitando gli insetti,
ed essere, usando
parole sue, «veloci,
economici e fuori
controllo».
689
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
LA TABELLA DI MICHAEL DYER
Simbolico
Subsimbolico/Distribuito
Capacità
–
–
–
–
–
–
–
–
–
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
–
–
–
–
–
–
–
–
–
–
–
–
integrazione della conoscenza
variazioni graduali
rappresentazioni intermedie
memoria ricostruttiva
autorganizzazione
reperimento associativo
robustezza
inferenza associativa
apprendimento adattativo
variabili e valori
schemi e ruoli
struttura ricorsiva
capacità generativa infinita
default ed ereditarietà
instanziazioni (tipi-occorrenze)
riferimento/puntatori
gestione della memoria
comunicazione tra compiti
metaragionamento
apprendimento su spiegazione
controllo sequenziale complesso
Nel 1989 Michael
Dyer ha stilato la
tabella riportata qui
sopra, da cui emerge
un nuovo paradigma
relativo allo studio
dell’IA, detto
subsimbolico/distribuito.
Nel paradigma
simbolico il contesto
di un simbolo
(ad esempio il contesto
del simbolo: birra)
si mostra attorno
a esso e consiste di
altri simboli (boccale);
nel paradigma
subsimbolico il contesto
di un simbolo si mostra
dentro di esso e consiste
di subsimboli (liquido
dorato e spumoso
a contatto con vetro).
690
l’altro dei due approcci. Tali proposte hanno avuto l’ambizione di suggerire nuovi modelli cognitivi, e anche di affrontare il problema del symbol grounding, come lo psicologo Stevan Harnad ha definito la questione di come «ancorare» i simboli agli aspetti della percezione del mondo. Esse vanno dunque distinte da altre proposte di sistemi pure classificabili come ibridi, ma con obiettivi di tipo più applicativo: in questi
casi si associa una rete neurale a un sistema esperto per ridurre la scarsa robustezza delle prestazioni di quest’ultimo in
presenza di dati incompleti.
Se questi approcci ibridi tentavano di affrontare il problema dei limiti del connessionismo nei confronti di capacità
cognitive superiori, in quegli stessi anni una nuova disciplina suscita tra i critici dell’IA tradizionale – «classica» o «simbolica» che dir si voglia – la speranza di riuscire a indagare su
altri aspetti trascurati anche dal connessionismo, questa volta tra quelli non cognitivi: lo sviluppo e l’evoluzione biologica, per esempio, considerati nel quadro dell’interazione dinamica tra sistema e ambiente. Si tratta della Vita Artificiale. Il nome è stato proposto da Cristopher Langton, il quale
promuove nel 1987 a Los Angeles il workshop interdisciplinare sulla sintesi e la simulazione dei sistemi viventi, che
5. L’Intelligenza Artificiale
L’OMEOSTATO
Il concetto di omeostasi (introdotto in fisiologia da Cannon) è la condizione in cui le variabili interne di un sistema organico sono
mantenute costantemente entro limiti fisiologici, nonostante le influenze perturbanti, mediante forme di regolazione biologica. In particolare, con stabilità s’intende la proprietà che
permette a un sistema di tornare al proprio stato originario dopo un disturbo o perturbazione; la perturbazione è intesa come ogni variabile i cui cambiamenti non possono essere predetti dall’osservatore mediante associazioni funzionali note.
L’«equilibrio omeostatico» (o «ultrastabilità», secondo Ashby) è poi un’estensione del-
l’omeostasi in cui vengono modificati i percorsi stessi di retroazione (esistono cioè circuiti di retroazione secondari, di livello superiore, atti a determinare quelli primari in base a informazioni sulle condizioni di instabilità) finché si ottiene la regolazione desiderata. Un tale dispositivo è anche detto «macchina di Ashby» e può essere rappresentato
da un automa finito non deterministico.
William Ross Ashby, uno dei maggiori studiosi
di cibernetica. Il suo progetto di omeostato
(detto anche macchina di Ashby) è stato
uno dei più significativi nello sviluppo
dei modelli matematici in cibernetica.
691
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
L’approccio
dal basso della
Vita Artificiale
oltre a lanciare la Vita Artificiale rilanciava una parola d’ordine dei tempi della cibernetica, con gli anni un po’ appannata: interdisciplinare. Nella sua premessa al workshop (Artificial Life, 1989) Langton vedeva nel «comportamento
emergente» l’idea chiave della Vita Artificiale: essa si propone di ricostruire artificialmente le proprietà dell’organizzazione dei sistemi viventi a partire dalla riproduzione delle
interazioni locali che sono alla base del loro comportamento.
La Vita Artificiale è diventata un terreno di incontro di ricercatori con interessi anche molto eterogeni, dalla simulazione dell’evoluzione biologica, agli automi cellulari e in generale all’Animat, come Stewart Wilson ha chiamato tanto la
simulazione in ambienti virtuali quanto la realizzazione in ambienti reali di creature artificiali, delle quali i «veicoli» di
Valentino Braitenberg e, andando indietro nel tempo, le tartarughe cibernetiche di Grey Walter sono considerati i precursori.
Come l’approccio della nuova robotica, anche quello della Vita Artificiale è stato definito «dal basso», perché entrambi, sia pure da punti di vista diversi, hanno posto al centro dell’attenzione lo studio dei meccanismi più elementari o primari dell’interazione tra il sistema (organismo o Animat che sia) e ambiente. In realtà, in entrambi i casi sistema e ambiente vengono considerati come le componenti di
un unico insieme: una concezione, questa, che ha trovato
l’approdo più coerente e generale nella teoria dei sistemi dinamici, sostenuta in particolare da Tim van Gelder. Una
delle tesi che caratterizzano questo approccio è che il meccanismo essenzialmente denotazionale delle rappresentaSchema sequenziale
elaborato da Cristopher
Langton e da lui
chiamato «Vita
Artificiale». Queste
immagini mostrano
come si possano
ricostruire in maniera
artificiale i processi di
riproduzione dei sistemi
viventi: dall’organismo
singolo (in alto a
sinistra) si forma
un’intera colonia
(in basso a destra)
attraverso una continua
espansione.
692
5. L’Intelligenza Artificiale
zioni, tipico dei modelli computazionali classici, non è in
grado di cogliere la complessità delle relazioni reciproche
tra sistema e ambiente: il ruolo decisivo è giocato in questo caso dalla matematica che descrive l’evoluzione dei sistemi complessi. Prototipo elementare dei sistemi dinamici è una macchina cibernetica già ricordata, che in effetti
può essere considerata il precursore di tali sistemi, l’omeostato di Ashby. Dovrebbe essere una macchina del genere a
detronizzare la macchina di Turing dal ruolo di modello
generale della cognizione.
Convergenti con gli approcci che abbiamo ricordato si sono dimostrati gli sviluppi nel campo della Visione Artificiale dopo Marr, quelli della Visione Animata. Quest’ultima ha tratto ispirazione dalla concezione «ecologica» della percezione visiva sostenuta dallo psicologo James J. Gibson, che aveva insistito sull’assimilazione diretta, ovvero non
mediata da rappresentazioni, dell’informazione proveniente dal mondo da parte dell’organismo. Come abbiamo visto,
era stato proprio Marr a contestare l’approccio dall’alto dell’IA alla percezione visiva, nel momento in cui egli portava
in primo piano i meccanismi della visione primaria. Marr
non metteva però in discussione l’ipotesi computazionalerappresentazionale, respingendo su questa base le tesi antirappresentazionaliste di Gibson. L’approccio di Marr, basato sull’idea che la ricostruzione tridimensionale della scena (a partire da immagini bidimensionali elaborate dalla visione primaria) fosse l’approdo finale del processo visivo,
è apparso carente. Dana Ballard concludeva che con Marr
ci si era limitati allo studio di sistemi di visione statici e passivi, senza considerare gli aspetti attivi della percezione visiva. Secondo Ballard, occorreva tener conto di questi aspetti, che stanno alla base della stretta relazione che l’agente
intrattiene con il mondo, e se di un tipo di rappresentazioni bisogna parlare, allora si tratta rappresentazioni «personali», ovvero situate in contesti e relative all’interesse dell’osservatore. Sono gli obiettivi di quest’ultimo a orientare
il processo visivo.
Un’altra linea di ricerca di lunga tradizione che viene talvolta ricondotta agli approcci dal basso è rappresentata dagli algoritmi genetici. Abbiamo lasciato John Holland ai tempi della sua collaborazione con Rochester negli anni Cinquanta, quando i due simulavano su calcolatore la teoria dell’apprendimento di Hebb. Trasferitosi successivamente all’Università del Michigan, Holland maturò l’idea degli algo-
Il progetto della
Visione Animata
Gli algoritmi genetici
693
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
John Holland, uno dei
più convinti sostenitori
dell’importanza delle ricerche
sugli algoritmi genetici
nel campo dell’Intelligenza
Artificiale.
Gli algoritmi e
i processi di
selezione naturale
694
ritmi genetici nella prima metà degli anni Sessanta, influenzato tra l’altro dal libro del biologo evoluzionista R.A. Fisher, Genetic Theory of Natural Selection. La sintesi delle sue
idee confluì nel volume pubblicato nel 1975 Adaptation in
Natural and Artificial Systems. Da quel momento, per circa
un decennio, gli algoritmi genetici furono oggetto di numerose ricerche rimaste ai margini della comunità dell’IA, soprattutto tesi di dottorato di studenti di Holland e relazioni
a convegni informali, spesso neppure pubblicate. Il rinato interesse nei loro confronti negli anni di cui ci occupiamo si deve certo al diffondersi del parallelismo e dello studio dei sistemi dinamici complessi, ma anche a sviluppi interessanti
che ne hanno segnato l’evoluzione più recente, per esempio
nello studio dello sviluppo prebiotico.
Gli algoritmi genetici rappresentano un modello fortemente
idealizzato dei processi della selezione naturale. Essi partono generando a caso una popolazione di stringhe, corrispondenti ai genotipi dell’evoluzione naturale, ciascuna delle quali rappresenta una possibile soluzione a un dato problema. Tale popolazione viene fatta evolvere mediante l’applicazione di operatori basati su criteri di ricombinazione che
simulano i processi genetici dell’evoluzione naturale. In questo modo da stringhe «genitrici» se ne generano altre, che
rappresentano nuove soluzioni per il problema, possibilmente migliori.
Successivamente, gli algoritmi genetici sono stati inseriti
nei «sistemi a classificatori», veri e propri sistemi di apprendimento automatico, nei quali Holland ha ripreso alcune intuizioni contenute nel vecchio programma per la dama di Sa-
5. L’Intelligenza Artificiale
muel. Il diagramma di flusso di un sistema a classificatori è
quello rappresentato qui sotto. Si associa a ogni regola del sistema, codificata come una regola di produzione, una certa
«forza», che corrisponde alla sua già sperimentata utilità per
la soluzione di un problema. A ogni ciclo, i «rilevatori» aggiungono dall’ambiente stringhe nella «lista dei messaggi»,
codificati come stringhe di un alfabeto binario, che vengono confrontate con la parte condizioni della «lista delle regole». Le regole le cui condizioni risultano soddisfatte attivano la parte azione e vengono messe in competizione tra
loro da un algoritmo che ne può variare la forza, a seconda
dell’utilità complessiva per l’adattamento del sistema all’ambiente. A questo punto interviene l’algoritmo genetico, che
seleziona le regole di forza più elevata per prenderle come genitrici e genera una «prole» di nuove regole. Vengono così eliminate le regole più deboli, e ne vengono create di nuove e
sempre potenzialmente migliori.
lista
dei messaggi
Diagramma di flusso
di un sistema a
classificatori.
lista
delle regole
▼
confronto
messaggi
in uscita
▼
messaggi
in ingresso
algoritmo Bucket Bigade
(varia la forza delle regole)
rilevatori
▼
effettori
algoritmo genetico
(genera nuove regole)
▼
▼
ambiente
695
▼
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
La «nuova IA»
L’IA «situata»
La nuova robotica
696
Alla fine del Novecento, l’IA si avvia a compiere i cinquant’anni di storia. All’IA classica o simbolica se ne affianca ormai un’altra, cosiddetta «nuova», che comprende gli sviluppi delle tendenze dell’IA che abbiamo visto emergere (o riemergere) dalla crescente diversificazione della ricerca tra gli
anni Ottanta e Novanta: dalle reti neurali ai sistemi dinamici, dalla Vita Artificiale agli algoritmi genetici, dalla robotica alla Brooks alla Visione Animata. Il volume di Pfeifer e
Scheier Understanding Intelligence (1999) sintetizza molto
bene la filosofia di questa nuova IA.
Se il connessionismo, con la sua critica al funzionalismo
computazionale, sembrava aver richiamato l’attenzione di
ricercatori di IA e scienza cognitiva sul «cervello», adesso è
la volta del «corpo»: la nuova IA prende dunque una netta
posizione, in particolare, sul secondo punto proposto da Kirsh
al workshop del 1987, il disembodiment, presentandosi senza riserve come embodied o «situata» (i due termini vengono spesso usati nello stesso contesto).
Da un lato la lezione di neurologi come Antonio Damasio, che insistono sul ruolo primario delle componenti emotive nell’attività cognitiva, sembra portare acqua al mulino
dell’embodiment, dall’altro un filosofo come Dreyfus, che da
sempre aveva insistito sul carattere situato della cognizione e sulla centralità del corpo, diventa l’alleato dell’IA nuova contro quella vecchia, classica o simbolica, già detta GOFAI (un acronimo di John Haugeland: Good Old Fashioned
Artificial Intelligence). Quest’ultima viene identificata con
il funzionalismo computazionale e ritenuta coinvolta nel dualismo mente-corpo di cartesiana memoria (nella versione
software-hardware). Piuttosto che discutere la plausibilità
di queste contrapposizioni (qualcosa diremo nel paragrafo
conclusivo), vediamo alcuni dei principali esiti della ricerca di questa nuova IA.
Forse la robotica, dopo l’impulso datole da Brooks, ne costituisce l’area più interessante e promettente. Ma va ricordato che la robotica alla Brooks si è trovata a dover affrontare presto problemi non facili. Uno di questi riguarda il sistema di controllo in robot basati sull’architettura della sussunzione. Come sappiamo, l’idea della sussunzione
è di assegnare a ogni comportamento un modulo di controllo. Ma la progettazione di un’architettura del genere
sconta la crescita esponenziale della difficoltà di integrare
5. L’Intelligenza Artificiale
efficacemente i moduli man mano che questi vengono a essere aggiunti per ottenere prestazioni più complesse del robot. E i successi dei primi robot possono spiegarsi con la relativa semplicità delle loro prestazioni. Da difficoltà di questo tipo è partita la robotica evolutiva, che ha usato gli algoritmi genetici come procedura automatica per sviluppare in modo evolutivo il sistema di controllo di un robot, simulato o reale, nel corso della sua interazione con l’ambiente esterno (in questo caso i moduli di controllo stanno per i genotipi).
Progettazione evolutiva basata su metodi ispirati agli algoritmi genetici e fabbricazione automatica di robot sono
alla base di un approccio, tra Vita Artificiale e nuova robotica, ispirato da Jordan Pollack. Si tratta questa volta di far
progettare a un programma per calcolatore, sulla base di elementi di partenza elementari (come leve e giunti, ma anche
reti neurali), diverse generazioni di semplici robot mobili,
facendole «evolvere» in un ambiente virtuale in modo da
eliminare progressivamente i progetti meno efficienti e migliorando quelli meglio adattati all’ambiente (in termini di
maggiore capacità locomotorie). Questi sono infine realizzati automaticamente.
L’autonomia, obiettivo della nuova robotica, viene dunque
estesa dal livello del comportamento a quelli della progettazione e della fabbricazione. In prospettiva, si tratta di co-
Un aspetto
che la ricerca
sull’Intelligenza
Artificiale non può
ignorare è il ruolo
fondamentale giocato
dalle componenti
emotive nei processi
cognitivi; su questo
aspetto ha a lungo
insistito il neurologo
Antonio Damasio,
vincitore del premio
«Principe delle
Asturie» 2005.
697
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Lo scienziato Jordan Pollack ha messo a punto, insieme a Hod Lipson, un programma automatico
per la progettazione e la costruzione di robot: il risultato è una creatura semovente, capace di
utilizzare pochi strumenti semplici come sbarre di plastica, giunti sferici, piccoli motori, e dotata
di una rete neurale che funge da cervello.
698
5. L’Intelligenza Artificiale
struire robot riducendo al minimo l’intervento dell’uomo,
un obiettivo con potenziali applicazioni di vasta portata.
Tornando a Brooks, bisogna aggiungere che lo stesso panorama delle ricerche condotte al di fuori della robotica da lui ispirata si è molto evoluto e diversificato dall’epoca dell’approccio dall’alto degli anni Settanta. Da tempo nessuno (grazie anche alla lezione di Brooks) ha più in mente di costruire robot
basati sulla netta distinzione tra componente percettiva e componente deliberativa e sul predomino della pianificazione centralizzata. Già alcune ricerche di robotica indipendenti da
Brooks avevano sperimentato sistemi di rappresentazione della conoscenza «ibridi». In questo caso, rappresentazioni analogiche (del genere dei modelli mentali di Johnson-Laird) supplivano certe rigidità delle rappresentazioni simboliche nei processi di pianificazione di robot in ambienti simulati o reali (sistemi «ibridi» di rappresentazione della conoscenza sono stati descritti da Nebel in Reasoning and Revision in Hybrid Representation Systems, 1990). Una rassegna di Bonasso e Dean
(A Retrospective of the AAAI Robot Competitions, 1997), che
partiva dall’esame di architetture robotiche alla Shakey, dava
efficacemente la sensazione dell’estrema varietà dei metodi sperimentati dalla ricerca robotica, sia per gli aspetti relativi al controllo, sia per quelli concernenti la natura delle componenti
reattive, di quelle deliberative e della loro possibile integrazione reciproca, sia, infine, per quanto riguarda il ruolo svolto
dal tipo di rappresentazione della conoscenza usato. Le stesse competizioni tra squadre di robot giocatori nelle RoboCup
(immagine qui sotto) hanno cominciato ben presto a costituire uno straordinario laboratorio di sperimentazione e innova-
I sistemi ibridi di
rappresentazione
della conoscenza
La squadra italiana di
robot calciatori ART,
seconda classificata
nel torneo di
RoboCup di
Stoccolma nel 1999.
699
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
I robot che
interagiscono
con l’ambiente
Il progetto
«Macchine
socializzabili»
700
zione, dando anche un nuovo impulso allo studio dell’interazione cooperativa tra agenti e ai sistemi multi-agente. È così
che al simposio della American Association for the Artificial Intelligence del 1998 viene proposto un Manifesto della robotica cognitiva basato sull’idea di robot «ibridi», dove con il termine questa volta si indicano architetture in grado di manifestare robustezza e azione in tempo reale e di usare sistemi di
pianificazione e rappresentazione della conoscenza.
In effetti, uno sguardo all’evoluzione della ricerca dopo gli anni Ottanta mostra come la nuova robotica abbia dovuto fare i
conti con lo slogan radicale di Brooks («intelligenza senza rappresentazione») e con la già ricordata difficoltà sollevata da
Kirsh: quella di sviluppare le capacità dei robot da un livello
meramente reattivo a un livello in cui sopravvenissero attività
più complesse di interazione con l’ambiente, come qualche forma di pianificazione, di ragionamento, di apprendimento. Lo
stesso Brooks è tornato successivamente su questa difficoltà,
proponendo un nuovo slogan («intelligenza senza ragione» in
Intelligence without Reason, 1995) contro l’asserito razionalismo («cartesiano») dell’IA, ma con una precisazione di non poco conto per quanto riguarda le rappresentazioni, che, se confrontata con le sue iniziali affermazioni, sembra quasi un ripensamento. La sua originaria critica alle rappresentazioni, egli
sostiene, era diretta contro le rappresentazioni come le concepivano l’IA e la robotica classiche, non contro le rappresentazioni come «modelli parziali del mondo», cioè «relative al particolare compito per il quale [esse] sono usate», come egli si
esprime alludendo alle prestazioni dei nuovi robot.
In prospettiva, le implicazioni di queste conclusioni sembrano rilevanti su due fronti. In primo luogo, per la nuova robotica con vocazione etologica, interessata alla costruzione
di modelli di animali più o meno semplici, modelli che includono diverse restrizioni comportamentali, neurologiche e
in generale biologiche («neuroetologia computazionale» è il
nome scelto da alcuni suoi iniziatori, per distinguersi dalla
menzionata «neuroscienza computazionale» di Churchland
e Sejnowski, 1992). In secondo luogo, per la robotica umanoide, sulla quale si è concentrata l’attenzione di diversi ricercatori, dall’Europa al Giappone agli Stati Uniti. Qui sempre Brooks e il suo Humanoid Research Group (in particolare con il progetto «Macchine socializzabili») hanno avviato la sperimentazione di robot antropomorfi.
Rispetto ai robot mobili precedenti, i robot umanoidi sono concepiti per essere in grado di interagire ed eventual-
5. L’Intelligenza Artificiale
mente cooperare con gli esseri umani, anche in attività di vita quotidiana. Alla robotica si apre in questo caso un inedito campo di applicazioni. Uno dei casi più rilevanti quanto
controversi è quello dell’assistenza da parte di robot umanoidi (o con capacità umanoidi) a disabili e anziani: un problema, per ragioni sociali evidenti, avvertito in diversi paesi.
I robot umanoidi hanno posto il problema di come dotarli
di una morfologia somigliante a quella degli esseri umani, in
modo da facilitare la comunicazione reciproca. Si tratta, per
esempio, di dar loro capacità di mimica facciale e capacità
di manifestare emozioni, come sorpresa o spavento o approvazione, aspetti notoriamente rilevanti nell’interazione
sociale. Costruito integrando conoscenze provenienti da teorie diverse, dalla psicologia sociale e dello sviluppo alle neuroscienze, il robot Kismet, è in grado di imparare a manifestare sia semplici ma adeguate espressioni facciali sia elementari convenzioni sociali, che lo portano per esempio a
seguire i gesti e la mimica facciale dell’interlocutore umano,
manifestando un’espressione di perplessità se quest’ultimo
compie, poniamo, azioni con velocità eccessiva. Coerenti
con gli obiettivi di questa robotica si sono mostrati gli sviluppi
Kismet, il robot
umanoide creato
dall’esperta in robotica
Cynthia Breazeal:
questo robot, dotato
di notevoli capacità
di apprendimento,
è in grado di interagire
intuitivamente con
l’interlocutore.
701
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
L’immunologo statunitense Gerald Edelman (premio Nobel per la medicina nel 1972), elaborando
la teoria della selezione dei gruppi nervosi, ha trasferito i concetti sviluppati nell’ambito delle sue
ricerche sul sistema immunitario e quello dello sviluppo del cervello.
702
5. L’Intelligenza Artificiale
successivi alla Visione Animata. L’importanza dell’azione in
tempo reale nella prestazione dei robot trova un corrispettivo nell’elaborazione di architetture della percezione visiva
sensibili allo stesso problema. È confermata l’idea della Visione Animata sulla necessità di ridimensionare l’idea della
visione come dettagliata ricostruzione tridimensionale del
mondo, a favore di un meccanismo che consenta interazioni rapide e adattative con l’ambiente. A questo scopo si rivelano utili anche architetture distribuite, come avviene per
esempio nel robot Kismet, in grado di elaborare in tempo reale trenta fotogrammi al secondo.
Alla filosofia della nuova IA è approdato anche un altro progetto di ricerca simulativa che, partito negli anni Ottanta, è
stato da subito critico nei confronti dell’IA simbolica ma anche del connessionismo: la «modellistica neurale sintetica»
di Gerald Edelman. Con diversi collaboratori egli aveva già
costruito automi a reti neurali simulati capaci di integrare alcune modalità sensoriali. L’aspetto «complicato» degli automi di Edelman rispetto alle reti neurali più comuni è dovuto al suo interesse per la plausibilità biologica della simulazione. Per esempio, l’automa simulato Darwin III, che ha
un «occhio» mobile e un «braccio» con quattro articolazioni,
comprende ben 50.000 «neuroni» di cinquanta tipi diversi,
collegati attraverso circa 620.000 collegamenti sinaptici. Una
versione di Darwin III è diventata il «cervello» di un robot
mobile, NOMAD, collegato con esso via radio.
Gli automi di Edelman incorporano i principi del «darwinismo neurale», la sua teoria secondo la quale l’epigenesi e l’apprendimento sono il risultato di un processo evoluzionistico di
selezione di gruppi diversi di neuroni durante lo sviluppo dell’organismo e la sua interazione con l’ambiente. Le macchine
sono da lui considerate un controllo di questa teoria, e anche
la base di un progetto più ambizioso: quello di arrivare per gradi, attraverso la costruzione di artefatti di complessità e realismo crescenti, a svelare gli enigmi di alcune forme di coscienza.
Il darwinismo neurale, per quanto suggerito a Edelman dalla
sua originale esperienza di immunologo, si inserisce nella storia dei tentativi selezionisti di spiegazione dell’apprendimento.
Tanto l’assunto del modello come controllo di ipotesi teoriche quanto quello di rendere il modello sempre più adeguato
ai fini della riproduzione di fenomeni organici complessi sono scelte metodologiche che Edelman condivide con strategie
simulative anche molto diverse dalla sua, delle quali la nostra
ricognizione ha fornito vari esempi.
La modellistica
neurale sintetica
di Edelman
Il «darwinismo
neurale» degli
automi di Edelman
703
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Per concludere, e continuare
Holland ha concluso che i sistemi a classificatori, visti come modelli cognitivi, si collocano in una «regione intermedia» tra i sistemi connessionisti e quelli simbolici. Al pari
dei sistemi connessionisti, essi insistono sulla microstruttura e sull’emergenza di computazioni complesse a partire da
processi semplici; tuttavia, le loro unità fondamentali sono le
regole di produzione, e dunque in essi la conoscenza non si
riduce a una questione di forza delle connessioni. Alcune tendenze della Visione Artificiale si sono trovate a seguire una
strada che «condivide parte dei due approcci», quello simbolico e quello connessionista. Il cosiddetto connessionismo
Il mondo del web è
uno dei settori più
importanti per le
future ricerche
nell’ambito
dell’Intelligenza
Artificiale, la cui
esplorazione avrà le
maggiori ricadute
nella nostra vita
quotidiana.
704
5. L’Intelligenza Artificiale
di alto livello ha tentato a sua volta di seguire una strada del
genere. E sono numerosi i tentativi di esplorare un «terreno
intermedio della simulazione cognitiva» simbolico-connessionista.
Anche nel campo della nuova IA non mancano posizioni
in questa stessa direzione. Verchure (1993) ha potuto concludere che in futuro l’approccio di Edelman e quello di
SOAR «potrebbero essere usati per introdurre restrizioni reciproche». Thornton (1997) ha sostenuto un approccio «ibrido» nel quale le esigenze evolutive poste dalla Vita Artificiale e quelle rappresentazionali dell’IA classica si intergrano reciprocamente con successo. Goodale e Humphrey (1998)
hanno sottolineato la vocazione «duplice» della nuova Vi-
705
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Modelli cognitivi
e web semantico
La questione
dei paradigmi
706
sione Artificiale, nella quale l’approccio alla Marr risulta complementare a quello alla Gibson nella rispettiva enfasi su
aspetti diversi della percezione visiva. Dell’approccio «ibrido» in robotica abbiamo già detto, mentre non manca di essere discussa l’asserita incompatibilità tra spiegazione classica e spiegazione dinamicista della cognizione.
È possibile che la futura ricerca in IA, anche per quanto riguarda i modelli cognitivi, avrà ancora molto da dire sugli
esperimenti che consistono nell’integrare o contaminare diversi approcci nello studio delle macchine intelligenti. Naturalmente, questo non chiude lo spazio ad altri tipi di esperienze: da quelle puramente logico-linguistiche alle reti neurali nei campi più disparati, per esempio nella neuroscienza cognitiva, ai sistemi multi-agente. Alcune di queste esperienze hanno dato luogo in anni recenti a un nuovo, vasto
campo di applicazioni: quello che va dai sistemi ipertestuali al web semantico e in generale all’esplorazione del mondo del web.
Sarebbe dunque auspicabile evitare di fare dell’IA vecchia
e nuova altrettanti paradigmi contrapposti con vocazione imperialista, con l’unico risultato di ripetere antichi errori. Sembra andare in questa direzione la sbrigativa liquidazione dell’IA classica come GOFAI quale premessa di valutazioni ultraottimistiche della nuova IA [in questo caso non si può non
essere d’accordo con Sloman (2002): chi polemizza con l’IA
classica in termini di GOFAI normalmente non conosce la
storia e lo stato effettivo della ricerca], che inducono a caricare sulle spalle della Vita Artificiale o di certa robotica l’intero fardello della riproduzione dello sviluppo fino all’intelligenza «alta». La sensazione di già visto è irresistibile: ancora
una volta, per usare le parole con le quali Brian C. Smith riassumeva sarcasticamente la storia dell’IA, ecco «la convinzione che con un semplice meccanismo si possano realizzare cose straordinarie, data a sufficienza una risorsa di qualche tipo, come tempo, informazione, esperienza, capacità
di calcolo».
La questione dei paradigmi è comunque interessante e merita un cenno. A insistere sulla contrapposizione del loro paradigma «subsimbolico» con quello «simbolico» dell’IA sono
stati soprattutto i connessionisti degli anni Ottanta, con una
terminologia resa canonica da Paul Smolensky. In un primo
momento è sembrato di assistere agli effetti di una sorta di
trauma: Rosenblatt aveva ragione, il libro di Minsky e Papert aveva ingiustamente cancellato le reti neurali dal mon-
5. L’Intelligenza Artificiale
do della ricerca. Forse il ruolo dei due è stato alquanto sopravvalutato. È vero che dopo la pubblicazione del libro di
Minsky e Papert, nel 1969, ci fu un drastico ridimensionamento quando non un arresto nei finanziamenti della ricerca sulle reti neurali, in particolare, si direbbe, negli Stati Uniti. Lo stesso Papert (1988) ha raccontato la storiella delle «due
sorelle», l’IA e le reti neurali, che convissero pacificamente
finché la DARPA non fece la sua scelta per l’IA (successivamente, comunque, anche l’altra sorella è rientrata nelle grazie della DARPA). Forse anche la morte improvvisa di Rosenblatt, certo un propagandista delle sue idee non meno
spregiudicato dei suoi antagonisti, influì sugli esiti della vi-
Diagramma
del percorso di
un’informazione
in una rete neurale
utilizzata in
un’applicazione
informatica.
707
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Il continuo rapporto con i computer e i meccanismi più avanzati ha abituato
le nuove generazioni a un nuovo tipo di approccio con la tecnologia, considerata
un elemento imprescindibile e costante della vita quotidiana.
708
5. L’Intelligenza Artificiale
cenda. Tuttavia, come abbiamo ricordato, gli studi sulle reti
neurali furono portati avanti da diversi ricercatori, anche se
in un clima di isolamento. Proprio come avvenne poi nella
più esigua comunità degli algoritmi genetici, i cui risultati,
considerati i successivi sviluppi in settori diversi, sembrano
attualmente più influenti di quelli raggiunti dal connessionismo degli anni Ottanta. Come scrivevano alla fine di quegli anni Anderson e Rosenfeld (1988): «Le nostre reti, dopo
trent’anni di progressi, funzionano ancora come “cervelli lesionati” [incapaci di comportamento simbolico, secondo l’espressione dello stesso Rosenblatt]. Resta aperta la questione di quali severe modifiche apportare alla teoria delle reti
neurali affinché riescano a raggiungere le funzioni cognitive superiori». Il connessionismo di alto livello non è stato che
un tentativo di affrontare proprio questo problema, che va
ben al di là della rinascita delle reti con la backpropagation
o delle scelte da matrigna della DARPA, e che resta un problema tuttora non risolto in generale.
Da parte sua, James McClelland ha dichiarato recentemente di non credere che l’evento decisivo per l’arresto della ricerca sulle reti neurali sia stato il libro di Minsky e Papert. Tenendo conto del fatto che la ricerca sulle reti si fa
simulandole su calcolatore, semplicemente «non si era pronti per la ricerca sulle reti neurali. [...] La potenza di calcolo
dei [calcolatori dei] primi anni Sessanta era del tutto insufficiente». Per quanto ovvio, sarà bene ricordare che questi limiti delle prestazioni dei calcolatori sono gli stessi che hanno condizionato lo sviluppo e non poche scelte dell’IA simbolica. A puro titolo d’esempio, si pensi alla scelta a favore
del «paradigma» della conoscenza rispetto al precedente
«paradigma» della ricerca euristica sui problemi giocattolo,
un scelta che si è posta solo quando si è cominciato a disporre
di calcolatori con grandi memorie e una grande potenza di
calcolo. Ha raccontato Simon che a orientare la ricerca del
suo gruppo verso compiti nei quali non era richiesta molta
conoscenza (i problemi giocattolo) fu inizialmente anche la
mancanza di tali calcolatori: che la conoscenza fosse importante per l’intelligenza era noto, ma non era ancora possibile affrontarla sulle macchine. Resta il fatto che le capacità
dei primi calcolatori incoraggiavano la sperimentazione di euristiche deboli su problemi giocattolo, in quel momento considerati la vera Drosophila dell’IA. È lì che parve possibile tentare di affrontare l’esplosione combinatoria, ed è lì che si
ebbero i primi decisivi successi. Anche se, visti retrospetti-
Un problema aperto:
reti neurali e
funzioni cognitive
superiori
IA e potenza
di calcolo
709
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
La comunicazione
fra uomo e computer
in un’illustrazione
d’artista. La possibilità
di colloquiare
direttamente con i
computer nel proprio
linguaggio abituale
è uno dei passi
fondamentali sulla
via della realizzazione
dell’Intelligenza
Artificiale.
vamente, questi possono apparire poco significativi, per l’epoca erano innegabilmente tali da incoraggiare certe scelte
(e anche certe illusioni) piuttosto che certe altre: per la «manipolazione euristica di simboli» invece che per l’«imitazione del cervello» o per la «rappresentazione della conoscenza». Nessuna linea di ricerca viene spazzata via da un libro se
non è già debole per conto suo.
Un caso molto diverso da quello delle reti neurali, che tuttavia può suggerire qualche riflessione, è quello della traduzione automatica. La ricerca era in un vicolo cieco, e i finanziamenti furono interrotti nella metà degli anni Sessanta. Ma, come si è visto, fu possibile riprenderla qualche anno dopo, quando si individuò una strada più promettente per
affrontarla, che portò a ricollegare la traduzione automatica
ai nuovi studi sul linguaggio naturale. Anche qui, fu lo svi710
5. L’Intelligenza Artificiale
luppo della potenza dei calcolatori che contribuì in modo decisivo a rendere quella strada praticabile, rendendo anche
possibili le attuali, e di nuovo ben finanziate, applicazioni della traduzione automatica in settori diversi, certo ridimensionate rispetto agli ambiziosi progetti iniziali.
Prima della contrapposizione simbolico-subsimbolico, o
di quella più recente simbolico-situato, ci è capitato di imbatterci in altre contrapposizioni tra paradigmi, questa volta,
lo abbiamo accennato, lungo la storia dell’IA simbolica. Di
volta in volta ci è stato detto che erano contrapposti, solo per
citare i casi più inflazionati, il paradigma della ricerca euristica e quello della conoscenza; quello logicista e quello antilogicista; quello dichiarativista e quello proceduralista; quello individuale e quello distribuito o cooperativo. Ma è evidente che nessuno di questi può essere riconosciuto come
711
LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE
Fin dagli anni
Cinquanta gli studi
sul linguaggio sono
stati fondamentali per
affinare le capacità di
traduzione automatica
dei computer: nella
foto il presidente
dell’IBM Thomas
J. Watson, a destra,
mentre esamina
insieme a due
collaboratori la
traduzione dal russo
all’inglese fatta da un
computer (1954).
712
un paradigma in senso tecnico, cioè secondo l’interpretazione sancita da Thomas Kuhn. Piuttosto, ciascuno di essi riassume la parola d’ordine di indirizzi di ricerca diversi e anche rivali, in una storia come quella dell’IA in cui si sono intraprese e poi abbandonate le strade più diverse, salvo poi
riprenderne qualcuna a distanza di tempo; in cui non c’è mai
stata vera unanimità sullo stesso oggetto di studio: la mente
umana o quella artificiale? («questa [che si studia in IA] è intelligenza artificiale», diceva McCarthy in proposito); in cui
poteva risultare «offensivo», come concludeva Hayes (1984),
persino tentare di definire l’IA, «dal momento che qualsiasi
definizione tende a escludere qualcuno, e a nessuno piace
sentirsi dire che non sta lavorando nella disciplina in cui pensa di lavorare» (si ricordi la definizione della Information Processing Psychology di Newell e Simon come «la disciplina
che usa metodi estranei alla psicologia cognitiva per trattare questioni estranee alla IA»).
Non è certo, questa, la descrizione di una scienza «matura», cumulativa (Dreyfus vedeva nell’assenza di cumulatività il germe del suo fallimento), ma è quella che risulta dalla
nostra ricostruzione. Ma va anche detto che certe contrapposizioni tra «paradigmi» non sono state avvertite sempre e
5. L’Intelligenza Artificiale
ovunque con la stessa asprezza: di quella tra dichiarativisti
e proceduralisti, osservava McDermott (1976), alla Carnegie-Mellon non si sono preoccupati, e non ne hanno risentito affatto. In questo tumultuoso panorama, l’evento dell’emarginazione e poi della ripresa delle reti neurali, o di certa
robotica di ispirazione cibernetica, non appare in fondo così sconcertante come è stato troppe volte descritto. E il fatto che in tanti casi sia possibile accostare esperienze di diversa ispirazione «in una regione intermedia» sembra confermarlo, e rende un esercizio retorico la loro collocazione
in paradigmi contrapposti. [ROBERTO CORDESCHI]
La ricerca di
una «regione
intermedia» tra le
varie tendenze
713