modelli computazionali per l`apprendimento e il cambiamento

MODELLI COMPUTAZIONALI
PER L'APPRENDIMENTO
E IL CAMBIAMENTO
LINGUISTICO DELL'ITALIANO
E DEI SUOI DIALETTI
VITO PIRRELLI
Istituto di Linguistica Computazionale, CNR
Area della Ricerca
v. Moruzzi 1, 56100 Pisa
Lo studio del mutamento linguistico diacronico e diatopico si occupa del modo in cui
il vocabolario, la fonologia, la morfologia e la
sintassi di una lingua cambiano attraverso il
tempo e lo spazio. L'interesse per questo problema travalica il suo ambito specialistico, di
tipo storico-linguistico, per toccare aspetti di
storia della cultura e del costume, di psicologia evolutiva e sociale. In ultima analisi, comprendere le radici del cambiamento del linguaggio significa comprendere il modo stesso
in cui l'uomo ha da sempre cercato di organizzare e comunicare la propria esperienza
conoscitiva, associando un continuum di contenuti extra-linguistici, multi-sensoriali e multidimensionali, ad un medium infinitamente discreto, il linguaggio appunto, confinato alla sola
dimensione lineare.
La linguistica storica e quella teorica
hanno tradizionalmente affrontato il problema
dal punto di vista delle sue cause immediate,
concentrandosi sull'eziologia del cambiamento. Oggi possediamo una conoscenza sufficientemente dettagliata dei fattori di tipo articolatorio, percettivo, comunicativo e socio-culturale, che danno il via al mutamento, innescandone la dinamica. Un problema complementare rispetto al perché la lingua cambia è
quello, relativamente meno esplorato in letteratura, di come questo avviene, ovvero il problema della diffusione del cambiamento. Da
questo punto di vista, l'obiettivo della ricerca è
quello di studiare le traiettorie spazio-temporali che il mutamento segue dopo la spinta ini-
135
ziale, ora accelerando il suo corso, ora rallentandolo, ora addirittura invertendolo, ora ramificandosi in più soluzioni indipendenti e concorrenti, con possibili ripercussioni su aspetti
del linguaggio apparentemente non correlati.
In questo andamento non lineare, il processo
di diffusione si dispiega lungo molteplici
dimensioni. In primo luogo a livello della consapevolezza linguistica del parlante, vale a
dire nel sistema di regole e abitudini linguistiche che il parlante ha interiorizzato; poi nei
processi di trasmissione di questo sistema da
una generazione a quella successiva attraverso l'uso; infine, nella diffusione del cambiamento tra strati sociali e tra aree geografiche
contigue.
Tutti questi aspetti, ciascuno con la sua
specificità, sono riconducibili ad un denominatore comune. Esiste un nesso indissolubile tra
diffusione del cambiamento linguistico e meccanismi cognitivi attraverso i quali un parlante
apprende e usa la sua lingua. Sono questi
meccanismi a condizionare il modo in cui la
fonologia, la morfologia, la sintassi e la
semantica si trasmettono da una generazione
all'altra. Comprendere la dinamica del cambiamento linguistico vuol dire dunque mettere
in luce, in ultima analisi, i processi alla base
dell'apprendimento del linguaggio. Il cambio di
prospettiva dal perché al come il linguaggio
cambia comporta pertanto il passaggio da
un'analisi delle cause immediate del mutamento allo studio delle sue dinamiche profonde.
Per offrire un esempio concreto, studi
recenti di storia morfologica dell'italo-romanzo
(italiano e suoi dialetti) hanno evidenziato che
il processo evolutivo della coniugazione verbale dell'italiano dalla sua matrice latina è
soggetto alla pressione di due fattori strutturali concomitanti: la coerenza e la convergenza.
Da una parte, all'interno di un paradigma verbale specifico, le alterazioni formali della radice del verbo (come ad esempio nell'alternanza tra vado e andiamo) non si distribuiscono
casualmente, ma secondo schemi ricorrenti
relativamente prevedibili (coerenza). D'altra
parte, questi stessi schemi sembrano dar vita
a veri e propri processi analogico-associativi,
che agiscono produttivamente all'interno di
una lingua propagandosi da un paradigma
all'altro, anche in assenza dei fattori causali
all'origine degli schemi stessi (convergenza).
Questo tipo di evidenza trova conferma indiretta nei risultati dell'indagine psicolinguistica
sull'apprendimento infantile, che ha verificato
sperimentalmente l'insorgenza di processi di
auto-organizzazione globale della conoscenza linguistica memorizzata dal parlante.
In anni recenti, le reti neurali si sono
dimostrate uno strumento particolarmente
adatto per simulare al computer processi
emergenti di auto-organizzazione di dati linguistici grezzi. Al tempo stesso, l'analisi della
loro dinamica ha profondamente influenzato la
nostra concezione di cosa vuol dire imparare
la grammatica di una lingua. La linguistica teorica contemporanea ci ha abituato a guardare
al linguaggio come ad un repertorio chiuso di
unità simboliche discrete la cui combinatoria è
definita da una lista ordinata di implicazioni
logiche esplicite (regole) da applicare in
Figura 1: Due stadi di auto-organizzazione di una mappa di Kohonen addestrata sulla morfologia flessionale del verbo
italiano. 1.a e 1.b fotografano uno stadio iniziale di apprendimento, 2.a e 2.b uno stadio più avanzato. 1.a e 2.a raffigurano il comportamento della rete rispetto allo stimolo "radice verbale", 1.b e 2.b lo stesso comportamento rispetto
allo stimolo "terminazione flessionale". Il grigio scuro evidenzia zone della rete che reagiscono agli stessi stimoli in
modo omogeneo. Gradazioni più chiare di grigio ricoprono aree dal comportamento caotico. Nel corso dell'apprendimento la rete compie una chiara transizione da un'organizzazione dei dati appresi di tipo lessicale ad una di tipo paradigmatico.
136
La figura 1 riporta un caso interessante di
transizione critica in funzione della frequenza
d'uso. Vi si illustrano due stadi di auto-organizzazione del sistema verbale dell'italiano nel
corso di una sessione di apprendimento simulata al calcolatore. A questo scopo abbiamo
utilizzato un modello computazionale di
memoria associativa noto come mappa di
Kohonen. La mappa registra e organizza le
forme verbali alle quali è esposta nel corso
dell'apprendimento. La mappa si compone di
una rete di nodi, o "neuroni", ciascuno dei
quali è predisposto a reagire a una serie di stimoli, attivandosi in modo indipendente dagli
altri. Nel nostro caso gli stimoli sono semplici
sequenze di caratteri, ciascuna corrispondente ad una forma verbale dell'italiano. Le forme
vengono presentate alla rete una per volta,
isolate dal contesto. Nel corso dell'apprendimento, ciascuna forma può presentarsi più di
una volta. Ad ogni esposizione, i neuroni della
mappa risultano variamente attivati e il nodo
col grado maggiore di attivazione vince sugli
altri. La funzione di memorizzazione non è un
processo di registrazione passiva, ma piuttosto di adattamento dinamico. Il nodo vincente
altera impercettibilmente il proprio status in
modo tale da aumentare il grado di reattività al
ripresentarsi
della
stessa
forma.
Contemporaneamente, influenza i nodi a lui
vicini entro un certo raggio, così da renderli
più reattivi alla presenza della forma in questione o di una forma simile. Questo processo
di adattamento si ripete ogni volta, ad ogni
parola cui la rete è esposta, ed ha un carattere del tutto locale.
All'inizio della fase di addestramento la
mappa è una tabula rasa e non possiede alcuna nozione della morfologia dell'italiano. I suoi
nodi sono configurati in modo tale da essere
reattivi rispetto a sequenze casuali di lettere. I
nodi stessi sono inoltre distribuiti in modo caotico: non esistono aree della rete funzionalmente predisposte a reagire in modo omogeneo a stimoli omogenei. Le mappe 1.a) e 1.b)
rappresentano lo stadio di organizzazione
morfologica corrispondente alla prima fase di
addestramento. I nodi sono colorati con toni
diversi di grigio in funzione del loro grado di
reattività. Le aree grigio scuro sono funzionalmente omogenee, vale a dire si compongono
137
di neuroni sensibili agli stessi tipi di stimolo. Al
contrario, gradazioni più chiare di grigio contraddistinguono quelle zone della rete all'interno delle quali i nodi hanno un comportamento
caotico, in quanto ciascun neurone reagisce a
stimoli diversi in modo diverso. Le due mappe
visualizzano il modo in cui la rete si comporta
in relazione a due classi distinte di stimoli morfologici: la radice verbale delle forme flesse
(1.a) e la loro terminazione flessionale (1.b).
Osserviamo dunque che la rete perviene in
prima battuta ad un'organizzazione lessicale
delle forme flesse, specializzandosi localmente a riconoscere le forme riconducibili allo
stesso verbo. Questo è reso evidente in figura
1.a) dalla presenza di 5 macchie grigio scuro,
leggermente sfrangiate ai bordi, ma nettamente separate le une dalle altre da strisce di attivazione caotica. Ogni macchia corrisponde a
uno dei cinque verbi cui la rete è stata esposta nella prima fase di apprendimento. In altre
parole, la rete sembra aver sviluppato, a questo stadio, la nozione di radice lessicale.
D'altra parte, lo stato caotico della mappa 1.b)
suggerisce che la stessa rete non possiede
aree funzionalmente predisposte al riconoscimento
delle
terminazioni
flessionali.
Supponiamo ora di far crescere il lessico di
verbi, mantenendo fermi sia il numero di
forme flesse per ciascun verbo che le dimensioni della mappa. Il risultato di questo cambiamento di composizione del corpus di addestramento è in qualche misura sorprendente.
La conoscenza morfologica memorizzata
dalla mappa si è completamente riorganizzata: il comportamento della rete rispetto ad una
radice lessicale è diventato caotico (2.a). La
stessa rete ha invece sviluppato alcune aree
connesse, specializzatesi nel riconoscere le
forme che condividono la stessa terminazione
flessionale (2.b). In termini linguistici, possiamo descrivere questa transizione come l'insorgenza della nozione astratta di griglia paradigmatica nel corso dell'apprendimento morfologico.
Nonostante i recenti progressi nel campo
della simulazione al computer di processi di
apprendimento linguistico, tuttavia, siamo
ancora ben lontani dal poter definire un
modello dettagliato dell'interrelazione com-
plessa tra apprendimento, uso, trasmissione e
cambiamento del linguaggio. Tra le ragioni di
questa situazione sono da annoverare sia il
carattere altamente interdisciplinare di questa
ricerca, sia la natura frammentaria ed elusiva
dei dati a disposizione dello studioso.
Sul piano metodologico, sembra ragionevole articolare l'approccio al problema nelle
seguenti fasi. Occorre in primo luogo individuare casi linguisticamente rilevanti e storicamente documentati del cambiamento linguistico. Nella prospettiva di una ricerca che copra
un arco temporale sufficientemente lungo,
premessa fondamentale è la selezione e la
digitalizzazione di fonti testuali che offrano
una base documentaria rappresentativa e
accurata, dal punto di vista filologico, dei fenomeni di interesse. In seconda battuta, l'impiego delle più moderne tecnologie per il trattamento automatico del linguaggio (TAL) consente di annotare a vari livelli di informazione
le fonti raccolte, in vista del reperimento automatico delle fonti stesse, secondo punti di
vista flessibili e modificabili in modo interattivo
in funzione delle esigenze di studiosi provenienti da ambiti disciplinari anche molto diversi. Terminata questa fase di raccolta e di informatizzazione del materiale rilevante, è possibile infine passare alla fase di analisi dei dati e
alla simulazione di modelli al computer. La
scienza della complessità e lo studio dei sistemi dinamici offrono un'ampia gamma di
modelli matematici avanzati del cambiamento
e consentono di riprodurre al calcolatore alcuni aspetti delle fasi di transizione da uno stadio sincronico di una lingua a un altro.
In quest'ottica, il panorama scientifico
nazionale sembra assumere una posizione
privilegiata. L'italiano dispone, infatti, di secoli
di ininterrotta tradizione letteraria e documentaria. Questo enorme patrimonio scritto consente in molti casi una ricostruzione filologica
accurata di stadi sincronici dell'italiano anche
assai remoti nel tempo. La parte letteraria più
significativa di questo materiale scritto è già in
gran parte disponibile in formato digitale. Altra
ancora è in fase avanzata di digitalizzazione.
Le moderne tecnologie di acquisizione automatica di conoscenza linguistica da testi consentono, inoltre, di ottimizzare i tempi per lo
138
sviluppo di strumenti del TAL per l'analisi di
stadi sincronici dell'italiano anche assai diversi dall'italiano contemporaneo. I modelli matematici di apprendimento e trasmissione della
lingua attualmente disponibili, infine, non
dipendono dalla lingua specifica che si intende trattare e si prestano ad essere applicati
all'italiano in modo relativamente immediato.
Se a tutto questo si aggiunge che l'italiano è
corredato da una straordinaria varietà dialettale, che consente di verificare sul terreno, in
tempo reale, gli esiti concorrenti di processi
evolutivi in larga misura paralleli, si capisce
bene che il patrimonio linguistico nazionale
offre a studiosi e ricercatori un laboratorio di
ricerca ideale per l'analisi della dinamica del
cambiamento, sia dal punto di vista temporale
che spaziale.
Nonostante le premesse incoraggianti, la
ricerca italiana non ha ancora sfruttato a pieno
questa posizione di oggettivo vantaggio.
Sembra necessario muoversi tempestivamente per evitare il rischio di accumulare ulteriore
ritardo. Data l'unicità della nostra situazione, è
irragionevole aspettarsi che uno sforzo di questa natura possa essere inquadrato all'interno
di iniziative coordinate a livello internazionale
che coinvolgano più di una lingua, ad esempio
sotto
l'egida
multi-linguistica
della
Commissione Europea. L'unica iniziativa comparabile come estensione e potenzialità è nata
da una collaborazione franco-americana tra il
CNRS francese e l'università di Chicago. Il
"progetto di ricerca americana e francese sul
Tesoro della lingua francese" (ARTFL) si è
posto l'obiettivo di rendere versatile ed accessibile elettronicamente il corpus di circa 150
milioni di parole sviluppato a partire dal 1957,
su iniziativa del governo Francese, per la
creazione del Trésor de la langue Française.
Ad oggi il corpus contiene circa 2000 testi, che
coprono in maniera rappresentativa il diciottesimo, diciannovesimo e ventesimo secolo ed
include una selezione più piccola di testi
medioevali e rinascimentali e di testi provenzali.
Un'iniziativa per la lingua italiana di analogo respiro, ma ancora più ambiziosa negli
obiettivi a medio e lungo termine, sembra, a
nostro avviso, non ulteriormente dilazionabile.
Un primo obiettivo è quello di realizzare una
base di dati testuali strutturata e flessibile, corredata da un ricco repertorio di informazioni
meta-testuali di carattere storico, filologico,
dialettologico e linguistico, annotate in XML.
Questo insieme strutturato di dati riccamente
annotati costituirà il cuore di un Archivio
Documentario Computerizzato della Lingua
Italiana Scritta, intorno al quale sia possibile
sviluppare strumenti automatici di ricerca e di
analisi del testo, versatili e flessibili, disegnati
per venire incontro ai bisogni di una vasta
comunità di ricerca nazionale e internazionale, non solo linguistica, ma anche filologica,
storico-culturale, letteraria, dialettologica,
documentaristica ecc.
In questa prospettiva, l'esistenza di risorse testuali già digitalizzate, la disponibilità di
strumenti affidabili per il trattamento automatico della lingua italiana e la consolidata espe-
139
rienza scientifica nello sviluppo di modelli
dinamici del linguaggio costituiscono un
indubbio elemento di impulso, compatibile con
un impegno finanziario graduale e sostenibile.
Dato il vasto impatto che l'iniziativa è destinata ad avere sulla comunità scientifica non solo
italiana, è facile prevedere che si possa e
debba coinvolgere il più ampio spettro di attori possibile. E' comunque importante che un
primo nucleo di attività sia reso operativo al
più presto, allo scopo di mettere in piedi una
solida infrastruttura tecnologica, flessibile e
aperta. Questo primo passo dovrebbe essere
sufficiente a catalizzare in tempi relativamente
brevi nuove risorse e nuove sinergie, anche,
prevedibilmente, all'interno dell'industria
nazionale del patrimonio culturale, dell'"information management" e del contenuto digitale,
innescando un meccanismo virtuoso che
coniughi cooperazione e competitività.