MODELLI COMPUTAZIONALI PER L'APPRENDIMENTO E IL CAMBIAMENTO LINGUISTICO DELL'ITALIANO E DEI SUOI DIALETTI VITO PIRRELLI Istituto di Linguistica Computazionale, CNR Area della Ricerca v. Moruzzi 1, 56100 Pisa Lo studio del mutamento linguistico diacronico e diatopico si occupa del modo in cui il vocabolario, la fonologia, la morfologia e la sintassi di una lingua cambiano attraverso il tempo e lo spazio. L'interesse per questo problema travalica il suo ambito specialistico, di tipo storico-linguistico, per toccare aspetti di storia della cultura e del costume, di psicologia evolutiva e sociale. In ultima analisi, comprendere le radici del cambiamento del linguaggio significa comprendere il modo stesso in cui l'uomo ha da sempre cercato di organizzare e comunicare la propria esperienza conoscitiva, associando un continuum di contenuti extra-linguistici, multi-sensoriali e multidimensionali, ad un medium infinitamente discreto, il linguaggio appunto, confinato alla sola dimensione lineare. La linguistica storica e quella teorica hanno tradizionalmente affrontato il problema dal punto di vista delle sue cause immediate, concentrandosi sull'eziologia del cambiamento. Oggi possediamo una conoscenza sufficientemente dettagliata dei fattori di tipo articolatorio, percettivo, comunicativo e socio-culturale, che danno il via al mutamento, innescandone la dinamica. Un problema complementare rispetto al perché la lingua cambia è quello, relativamente meno esplorato in letteratura, di come questo avviene, ovvero il problema della diffusione del cambiamento. Da questo punto di vista, l'obiettivo della ricerca è quello di studiare le traiettorie spazio-temporali che il mutamento segue dopo la spinta ini- 135 ziale, ora accelerando il suo corso, ora rallentandolo, ora addirittura invertendolo, ora ramificandosi in più soluzioni indipendenti e concorrenti, con possibili ripercussioni su aspetti del linguaggio apparentemente non correlati. In questo andamento non lineare, il processo di diffusione si dispiega lungo molteplici dimensioni. In primo luogo a livello della consapevolezza linguistica del parlante, vale a dire nel sistema di regole e abitudini linguistiche che il parlante ha interiorizzato; poi nei processi di trasmissione di questo sistema da una generazione a quella successiva attraverso l'uso; infine, nella diffusione del cambiamento tra strati sociali e tra aree geografiche contigue. Tutti questi aspetti, ciascuno con la sua specificità, sono riconducibili ad un denominatore comune. Esiste un nesso indissolubile tra diffusione del cambiamento linguistico e meccanismi cognitivi attraverso i quali un parlante apprende e usa la sua lingua. Sono questi meccanismi a condizionare il modo in cui la fonologia, la morfologia, la sintassi e la semantica si trasmettono da una generazione all'altra. Comprendere la dinamica del cambiamento linguistico vuol dire dunque mettere in luce, in ultima analisi, i processi alla base dell'apprendimento del linguaggio. Il cambio di prospettiva dal perché al come il linguaggio cambia comporta pertanto il passaggio da un'analisi delle cause immediate del mutamento allo studio delle sue dinamiche profonde. Per offrire un esempio concreto, studi recenti di storia morfologica dell'italo-romanzo (italiano e suoi dialetti) hanno evidenziato che il processo evolutivo della coniugazione verbale dell'italiano dalla sua matrice latina è soggetto alla pressione di due fattori strutturali concomitanti: la coerenza e la convergenza. Da una parte, all'interno di un paradigma verbale specifico, le alterazioni formali della radice del verbo (come ad esempio nell'alternanza tra vado e andiamo) non si distribuiscono casualmente, ma secondo schemi ricorrenti relativamente prevedibili (coerenza). D'altra parte, questi stessi schemi sembrano dar vita a veri e propri processi analogico-associativi, che agiscono produttivamente all'interno di una lingua propagandosi da un paradigma all'altro, anche in assenza dei fattori causali all'origine degli schemi stessi (convergenza). Questo tipo di evidenza trova conferma indiretta nei risultati dell'indagine psicolinguistica sull'apprendimento infantile, che ha verificato sperimentalmente l'insorgenza di processi di auto-organizzazione globale della conoscenza linguistica memorizzata dal parlante. In anni recenti, le reti neurali si sono dimostrate uno strumento particolarmente adatto per simulare al computer processi emergenti di auto-organizzazione di dati linguistici grezzi. Al tempo stesso, l'analisi della loro dinamica ha profondamente influenzato la nostra concezione di cosa vuol dire imparare la grammatica di una lingua. La linguistica teorica contemporanea ci ha abituato a guardare al linguaggio come ad un repertorio chiuso di unità simboliche discrete la cui combinatoria è definita da una lista ordinata di implicazioni logiche esplicite (regole) da applicare in Figura 1: Due stadi di auto-organizzazione di una mappa di Kohonen addestrata sulla morfologia flessionale del verbo italiano. 1.a e 1.b fotografano uno stadio iniziale di apprendimento, 2.a e 2.b uno stadio più avanzato. 1.a e 2.a raffigurano il comportamento della rete rispetto allo stimolo "radice verbale", 1.b e 2.b lo stesso comportamento rispetto allo stimolo "terminazione flessionale". Il grigio scuro evidenzia zone della rete che reagiscono agli stessi stimoli in modo omogeneo. Gradazioni più chiare di grigio ricoprono aree dal comportamento caotico. Nel corso dell'apprendimento la rete compie una chiara transizione da un'organizzazione dei dati appresi di tipo lessicale ad una di tipo paradigmatico. 136 La figura 1 riporta un caso interessante di transizione critica in funzione della frequenza d'uso. Vi si illustrano due stadi di auto-organizzazione del sistema verbale dell'italiano nel corso di una sessione di apprendimento simulata al calcolatore. A questo scopo abbiamo utilizzato un modello computazionale di memoria associativa noto come mappa di Kohonen. La mappa registra e organizza le forme verbali alle quali è esposta nel corso dell'apprendimento. La mappa si compone di una rete di nodi, o "neuroni", ciascuno dei quali è predisposto a reagire a una serie di stimoli, attivandosi in modo indipendente dagli altri. Nel nostro caso gli stimoli sono semplici sequenze di caratteri, ciascuna corrispondente ad una forma verbale dell'italiano. Le forme vengono presentate alla rete una per volta, isolate dal contesto. Nel corso dell'apprendimento, ciascuna forma può presentarsi più di una volta. Ad ogni esposizione, i neuroni della mappa risultano variamente attivati e il nodo col grado maggiore di attivazione vince sugli altri. La funzione di memorizzazione non è un processo di registrazione passiva, ma piuttosto di adattamento dinamico. Il nodo vincente altera impercettibilmente il proprio status in modo tale da aumentare il grado di reattività al ripresentarsi della stessa forma. Contemporaneamente, influenza i nodi a lui vicini entro un certo raggio, così da renderli più reattivi alla presenza della forma in questione o di una forma simile. Questo processo di adattamento si ripete ogni volta, ad ogni parola cui la rete è esposta, ed ha un carattere del tutto locale. All'inizio della fase di addestramento la mappa è una tabula rasa e non possiede alcuna nozione della morfologia dell'italiano. I suoi nodi sono configurati in modo tale da essere reattivi rispetto a sequenze casuali di lettere. I nodi stessi sono inoltre distribuiti in modo caotico: non esistono aree della rete funzionalmente predisposte a reagire in modo omogeneo a stimoli omogenei. Le mappe 1.a) e 1.b) rappresentano lo stadio di organizzazione morfologica corrispondente alla prima fase di addestramento. I nodi sono colorati con toni diversi di grigio in funzione del loro grado di reattività. Le aree grigio scuro sono funzionalmente omogenee, vale a dire si compongono 137 di neuroni sensibili agli stessi tipi di stimolo. Al contrario, gradazioni più chiare di grigio contraddistinguono quelle zone della rete all'interno delle quali i nodi hanno un comportamento caotico, in quanto ciascun neurone reagisce a stimoli diversi in modo diverso. Le due mappe visualizzano il modo in cui la rete si comporta in relazione a due classi distinte di stimoli morfologici: la radice verbale delle forme flesse (1.a) e la loro terminazione flessionale (1.b). Osserviamo dunque che la rete perviene in prima battuta ad un'organizzazione lessicale delle forme flesse, specializzandosi localmente a riconoscere le forme riconducibili allo stesso verbo. Questo è reso evidente in figura 1.a) dalla presenza di 5 macchie grigio scuro, leggermente sfrangiate ai bordi, ma nettamente separate le une dalle altre da strisce di attivazione caotica. Ogni macchia corrisponde a uno dei cinque verbi cui la rete è stata esposta nella prima fase di apprendimento. In altre parole, la rete sembra aver sviluppato, a questo stadio, la nozione di radice lessicale. D'altra parte, lo stato caotico della mappa 1.b) suggerisce che la stessa rete non possiede aree funzionalmente predisposte al riconoscimento delle terminazioni flessionali. Supponiamo ora di far crescere il lessico di verbi, mantenendo fermi sia il numero di forme flesse per ciascun verbo che le dimensioni della mappa. Il risultato di questo cambiamento di composizione del corpus di addestramento è in qualche misura sorprendente. La conoscenza morfologica memorizzata dalla mappa si è completamente riorganizzata: il comportamento della rete rispetto ad una radice lessicale è diventato caotico (2.a). La stessa rete ha invece sviluppato alcune aree connesse, specializzatesi nel riconoscere le forme che condividono la stessa terminazione flessionale (2.b). In termini linguistici, possiamo descrivere questa transizione come l'insorgenza della nozione astratta di griglia paradigmatica nel corso dell'apprendimento morfologico. Nonostante i recenti progressi nel campo della simulazione al computer di processi di apprendimento linguistico, tuttavia, siamo ancora ben lontani dal poter definire un modello dettagliato dell'interrelazione com- plessa tra apprendimento, uso, trasmissione e cambiamento del linguaggio. Tra le ragioni di questa situazione sono da annoverare sia il carattere altamente interdisciplinare di questa ricerca, sia la natura frammentaria ed elusiva dei dati a disposizione dello studioso. Sul piano metodologico, sembra ragionevole articolare l'approccio al problema nelle seguenti fasi. Occorre in primo luogo individuare casi linguisticamente rilevanti e storicamente documentati del cambiamento linguistico. Nella prospettiva di una ricerca che copra un arco temporale sufficientemente lungo, premessa fondamentale è la selezione e la digitalizzazione di fonti testuali che offrano una base documentaria rappresentativa e accurata, dal punto di vista filologico, dei fenomeni di interesse. In seconda battuta, l'impiego delle più moderne tecnologie per il trattamento automatico del linguaggio (TAL) consente di annotare a vari livelli di informazione le fonti raccolte, in vista del reperimento automatico delle fonti stesse, secondo punti di vista flessibili e modificabili in modo interattivo in funzione delle esigenze di studiosi provenienti da ambiti disciplinari anche molto diversi. Terminata questa fase di raccolta e di informatizzazione del materiale rilevante, è possibile infine passare alla fase di analisi dei dati e alla simulazione di modelli al computer. La scienza della complessità e lo studio dei sistemi dinamici offrono un'ampia gamma di modelli matematici avanzati del cambiamento e consentono di riprodurre al calcolatore alcuni aspetti delle fasi di transizione da uno stadio sincronico di una lingua a un altro. In quest'ottica, il panorama scientifico nazionale sembra assumere una posizione privilegiata. L'italiano dispone, infatti, di secoli di ininterrotta tradizione letteraria e documentaria. Questo enorme patrimonio scritto consente in molti casi una ricostruzione filologica accurata di stadi sincronici dell'italiano anche assai remoti nel tempo. La parte letteraria più significativa di questo materiale scritto è già in gran parte disponibile in formato digitale. Altra ancora è in fase avanzata di digitalizzazione. Le moderne tecnologie di acquisizione automatica di conoscenza linguistica da testi consentono, inoltre, di ottimizzare i tempi per lo 138 sviluppo di strumenti del TAL per l'analisi di stadi sincronici dell'italiano anche assai diversi dall'italiano contemporaneo. I modelli matematici di apprendimento e trasmissione della lingua attualmente disponibili, infine, non dipendono dalla lingua specifica che si intende trattare e si prestano ad essere applicati all'italiano in modo relativamente immediato. Se a tutto questo si aggiunge che l'italiano è corredato da una straordinaria varietà dialettale, che consente di verificare sul terreno, in tempo reale, gli esiti concorrenti di processi evolutivi in larga misura paralleli, si capisce bene che il patrimonio linguistico nazionale offre a studiosi e ricercatori un laboratorio di ricerca ideale per l'analisi della dinamica del cambiamento, sia dal punto di vista temporale che spaziale. Nonostante le premesse incoraggianti, la ricerca italiana non ha ancora sfruttato a pieno questa posizione di oggettivo vantaggio. Sembra necessario muoversi tempestivamente per evitare il rischio di accumulare ulteriore ritardo. Data l'unicità della nostra situazione, è irragionevole aspettarsi che uno sforzo di questa natura possa essere inquadrato all'interno di iniziative coordinate a livello internazionale che coinvolgano più di una lingua, ad esempio sotto l'egida multi-linguistica della Commissione Europea. L'unica iniziativa comparabile come estensione e potenzialità è nata da una collaborazione franco-americana tra il CNRS francese e l'università di Chicago. Il "progetto di ricerca americana e francese sul Tesoro della lingua francese" (ARTFL) si è posto l'obiettivo di rendere versatile ed accessibile elettronicamente il corpus di circa 150 milioni di parole sviluppato a partire dal 1957, su iniziativa del governo Francese, per la creazione del Trésor de la langue Française. Ad oggi il corpus contiene circa 2000 testi, che coprono in maniera rappresentativa il diciottesimo, diciannovesimo e ventesimo secolo ed include una selezione più piccola di testi medioevali e rinascimentali e di testi provenzali. Un'iniziativa per la lingua italiana di analogo respiro, ma ancora più ambiziosa negli obiettivi a medio e lungo termine, sembra, a nostro avviso, non ulteriormente dilazionabile. Un primo obiettivo è quello di realizzare una base di dati testuali strutturata e flessibile, corredata da un ricco repertorio di informazioni meta-testuali di carattere storico, filologico, dialettologico e linguistico, annotate in XML. Questo insieme strutturato di dati riccamente annotati costituirà il cuore di un Archivio Documentario Computerizzato della Lingua Italiana Scritta, intorno al quale sia possibile sviluppare strumenti automatici di ricerca e di analisi del testo, versatili e flessibili, disegnati per venire incontro ai bisogni di una vasta comunità di ricerca nazionale e internazionale, non solo linguistica, ma anche filologica, storico-culturale, letteraria, dialettologica, documentaristica ecc. In questa prospettiva, l'esistenza di risorse testuali già digitalizzate, la disponibilità di strumenti affidabili per il trattamento automatico della lingua italiana e la consolidata espe- 139 rienza scientifica nello sviluppo di modelli dinamici del linguaggio costituiscono un indubbio elemento di impulso, compatibile con un impegno finanziario graduale e sostenibile. Dato il vasto impatto che l'iniziativa è destinata ad avere sulla comunità scientifica non solo italiana, è facile prevedere che si possa e debba coinvolgere il più ampio spettro di attori possibile. E' comunque importante che un primo nucleo di attività sia reso operativo al più presto, allo scopo di mettere in piedi una solida infrastruttura tecnologica, flessibile e aperta. Questo primo passo dovrebbe essere sufficiente a catalizzare in tempi relativamente brevi nuove risorse e nuove sinergie, anche, prevedibilmente, all'interno dell'industria nazionale del patrimonio culturale, dell'"information management" e del contenuto digitale, innescando un meccanismo virtuoso che coniughi cooperazione e competitività.