Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco Dispensa n° 2 L’analisi statistica dei dati testuali Questioni di teoria e di metodo CAPITOLO 1 - Obiettivi, oggetti, concetti e strumenti 1.1 - Cos’è l’analisi automatica dei testi (AAT) in una logica di tipo metrico Il trattamento automatico dei testi, in una prospettiva di analisi qualitativa e quantitativa dei loro contenuti, proprietà e caratteristiche, presuppone di non leggere il testo. Servendosi della statistica, della information retrieval e della linguistica computazionale, le sue molteplici letture automatiche avvengono nel corso dell’analisi con strumenti centrati maggiormente ora su una ora sull’altra di queste discipline, sempre fortemente integrate fra loro. Tuttavia le categorie di quantità e qualità risultano non del tutto appropriate ad inquadrare problemi e caratteristiche di un approccio che definiamo “metrico”, per sottolineare la sua vocazione a fornire “misurazioni oggettive” dei fenomeni. Misurazioni nel senso di valutazioni basate su analisi quantitative, oggettive non tanto per esprimere una intersoggettività condivisa - opposta alla soggettività presente in molte analisi del contenuto tradizionali - quanto perché mantengono uniformi i criteri di osservazione lungo l’intera superficie dell’oggetto di studio. Dove quest’ultimo è un corpus o collezione di testi. La sua analisi, assistita dal computer, permette di essere liberi dalla sua dimensione. Implica rapidità nelle operazioni. Garantisce omogeneità dei criteri di ricerca di informazioni in ogni sua parte, dall’inizio alla fine della collezione, senza distorsioni “cronologiche”. Consente cioè di esprimere la validità della misurazione lungo tutta l’estensione dei materiali testuali analizzati. La lettura automatica del testo avviene per modelli. Ciascun modello costituisce di per sé una “metrica”, ovvero una rappresentazione ora di tipo lessicale (paradigmatica del linguaggio utilizzato), ora di tipo testuale (ovvero sintagmatica del “senso”, inteso come informazione d’insieme, presente nel corpus). L’approccio statistico, grazie all’ausilio dell’informatica, permette di analizzare quindi corpus di dimensione qualsiasi, soprattutto molto ampi, limitati superiormente solo dalle capacità di archiviazione elettronica e dalle potenze di calcolo. Tutto ciò implica semmai che i testi non siano troppo piccoli, in quanto sarebbero poco robusti ad un’analisi quantitativa delle frequenze. La dimensione dei testi da analizzare è una caratteristica fondamentale in questa prospettiva di studio, per cui vale spendere fin da subito qualche precisazione sulla loro estensione. Se si considera che una pagina di testo1 contiene mediamente 50 righe e 500 parole per un totale di circa 3.000 bytes (stimando una lunghezza media di parola+spazio intorno a 6,0-6,1 caratteri, per l’italiano), è facile calcolare l’ingombro del file txt corrispondente in termini di megabytes (MB). Nella TAB. 1 sono illustrati alcuni ordini di grandezza di un corpus che ciascuno può leggere secondo il proprio punto di interesse: ora in occorrenze, ora in pagine, ora in MB. Ad esempio, un milione di occorrenze in lingua italiana equivalgono a circa 1.850 pagine o ad un file txt di 6 MB. 1 Scritta con un word processor in corpo 12, a interlinea singola, con margini di 2 centimetri intorno alla pagina. 1 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco Tabella 1 – Alcuni esempi di ordini di grandezza di un corpus in termini di occorrenze, pagine e megabytes. Occorrenze Dimensione (MB) di un file.txt Pagine 25.000 50 0,15 167.870 335 1 1.000.000 1.850 6 5.000.000 9.350 30 16.750.000 31.000 100 55.000.000 100.000 322 A parità di risorse impiegate - ad esempio i tempi di calcolo - al crescere delle dimensioni dei testi, diminuisce la complessità dell’analisi che si intraprende. Ma occorre definire cosa si intende per “analisi di un testo”, proprio in relazione alle dimensioni considerate. Naturalmente dipende dagli obiettivi e dagli strumenti disponibili. Ad esempio, la realtà del web (la più ampia fonte di miliardi di “pagine”, non di solo testo, alla quale si possa concretamente attingere perché già indicizzate) può essere scandagliata per estrarre qualche informazione in pochi secondi o frazioni di secondo e questo avviene essenzialmente solo per parole chiave con richieste (queries) più o meno avanzate. Nell’AAT si conosce quindi il testo grazie a modelli o rappresentazioni. Le analisi per produrre rappresentazioni del “lessico”, inteso come il vocabolario del corpus, oppure rappresentazioni del testo, inteso come “discorso” secondo quanto diremo più avanti, vengono realizzate con strumenti assai diversi. Può trattarsi ora di una query, ora di una concordanza, ora di un test statistico, ora di un indice d’information retrieval. Oppure anche di un’analisi statistica di una matrice di dati con tecniche di rappresentazione multidimensionale o di classificazione automatica. La logica dell’AAT su base statistica, permette non solo di non leggere il testo, ma di darne rappresentazioni, indipendentemente dalla lingua. Gli elementi di conoscenza della lingua, intesa come idioma del linguaggio praticato nel corpus, sono un complemento all’analisi, una metainformazione e non una pre-condizione. Nei software di analisi dei dati testuali, il 90% delle funzionalità sono indipendenti dall’idioma: ciò consente di analizzare anche un corpus multilingue (come il web), con in verità non pochi problemi, quando ci si basa sulle sole “forme grafiche”, come si vedrà nel seguito. Le rappresentazioni, ovvero le svariate letture del corpus, dipendono essenzialmente dai criteri di misurazione sottostanti sia i metodi, sia gli indici quantitativi utilizzati. I limiti oggettivi di questo approccio sono quelli insiti nei dati testuali, in quanto dati non strutturati con informazione sparsa, il cui riscatto dall’ambiguità è fortemente legato alla finezza delle risorse impegnate e all’analisi del contesto, non sempre praticabile fino in fondo. La visione d’insieme tipica della statistica, il comportamento in media delle parole viste come fenomeno collettivo, si scontrano talvolta con la coerenza di un caso singolo, irrilevante in quanto tale. L’analisi automatica di un corpus di dati testuali affrontata secondo una logica “metrica” non si identifica con l’approccio quantitativo, pur servendosene. Semmai propone un’analisi qualitativa fortemente integrata con una quantitativa, a garanzia dell’oggettività delle misurazioni. Questa logica propone un trattamento dei dati che viene messo in discussione attraverso processi di verifica del risultato delle ricerche sul testo, con correzioni in modalità semi-automatica e con il ricorso a risorse linguistiche esterne di riferimento. 1.2 - Definizioni e concetti generali Prima di inoltrarsi nella trattazione, è opportuno introdurre elementi di nomenclatura e concetti di base della linguistica computazionale propri dell’analisi automatica dei testi, in particolare secondo 2 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco l’approccio tipico della statistica testuale e del text mining. Molti dei contenuti di questo capitolo sono ripresi, in sintesi, sotto forma di un Glossario (vedi dispensa 1). Procediamo nell’illustrare la terminologia dall’oggetto più ampio e generale via via verso quelli più analitici. All’opposto Rastier distingue i livelli di questi oggetti, dal più piccolo al più grande, microtestuali (morfemi, lessemi e lessie), mesotestuali (dalla frase al paragrafo, dal periodo al capitolo), macrotestuali (il testo completo) e intertestuali (il corpus). 1.2.1 - Corpus, testo, frammento In primo luogo per semplicità utilizziamo strumentalmente tre termini: "parlante" per indicare l’elemento o fonte che ha generato il testo, "discorso" per indicare lo sviluppo delle frasi componenti un testo, “parola” a indicare convenzionalmente l’unità elementare del testo. Il nostro oggetto di studio è un insieme di materiali testuali, ossia un discorso espresso dalle parole di uno o più parlanti, denominato anche un corpus di dati testuali. Un corpus testuale è una collezione di unità di contesto, o frammenti, che si ritengono fra loro coerenti e pertinenti per essere studiate sotto un qualche punto di vista o proprietà. Questi frammenti possono essere anche interi documenti. Salem (1994) afferma che un corpus deve essere rigorosamente omogeneo, costituito di testi prodotti in condizioni di enunciazione simili e con caratteristiche lessicometriche confrontabili (struttura delle frasi, ricchezza del vocabolario ecc.). Inoltre è prudente che, ai fini del confronto, i testi che si racchiudono in una stessa collezione abbiano delle lunghezze comparabili. I frammenti, siano essi interi testi, documenti, loro sezioni o semplici frasi, sono generati sia da testi scritti che dalla trascrizione di discorsi orali. Il loro studio, generalmente, è volto ad un'analisi del contenuto, ad un’analisi del discorso2, ad un’analisi del linguaggio o all’estrazione d’informazione, alla ricerca di regolarità linguistiche o di altre entità d’interesse. Una raccolta di articoli di stampa su un dato tema o di un intero anno è un esempio di corpus. Molte altre esemplificazioni di corpora si troveranno nel capitolo 2. Quando la collezione che costituisce il corpus è ampia (diverse decine, centinaia o migliaia di unità di contesto) è possibile associare ad ogni elemento della collezione informazioni strutturate (variabili codificate: quantitative o qualitative). In tal modo, il corpus è assimilabile ad un database “sfogliabile” in differenti modi, a seconda degli obiettivi, in funzione di queste informazioni strutturate. Se lo si immagina come il testo di un libro, strutturato in capitoli, paragrafi e proposizioni, lo si può sfogliare per capitoli, o all'interno di un capitolo per paragrafi, o nel suo insieme confrontando tutti i primi paragrafi di ogni capitolo (in pratica secondo le introduzioni) con gli ultimi (le conclusioni). Ogni raggruppamento di unità di contesto (TAB. 1.1a) secondo una qualche caratteristica definisce una parte (detta anche testo) di una possibile partizione del corpus. In un corpus che raccolga l’opera di un Autore, ciascuno dei suoi scritti rappresenta un testo diverso, a sua volta composto di molti frammenti (paragrafi o frasi). Se si volessero studiare le prime frasi di ogni testo, nell’esempio in tab. 1.1a, si studierebbe la parte identificata dalla chiave Q=2. Ogni lettura del corpus secondo uno di questi criteri genera, dal punto di vista della statistica testuale, un insieme di "profili lessicali" prodotti dalla corrispondente partizione del corpus. Il testo è quindi quella parte del corpus alla base di una fra tante possibili sue partizioni (TAB. 7.1a). Nel corpus dell’intera opera di un Autore, un raggruppamento degli scritti ad esempio secondo il genere (racconti, saggi, poesie) ne costituisce una partizione e quindi quei generi rappresentano 2 E’ opportuno distinguere analisi del contenuto (Bardin 1977) da analisi del discorso (Ghiglione 1985, 1991, 1998): la prima è incentrata su cosa è presente in un testo (tratti semantici), la seconda piuttosto sul come (modalità di produzione del discorso, tipologie discorsive) e su chi (quali sono i protagonisti del discorso). 3 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco altrettante parti o testi del corpus. Nel caso di una survey con domande aperte sono da considerarsi, come altrettanti testi, i diversi raggruppamenti delle risposte libere degli intervistati secondo caratteristiche strutturali degli individui (ad esempio secondo il livello d’istruzione o il sesso, in pratica le risposte dei maschi distinte da quelle delle femmine ecc.). Lo studio si sostanzia così in un’analisi delle varietà socio-linguistiche di una popolazione. Il “testo” o parte è l’ordine di grandezza “intermedio” per la lettura della collezione. TAB. 1.1a Esempio di corpus composto di 2 testi e 5 frammenti, rispettivamente categorizzati. Separatori, segmentazioni e categorizzazioni nel corpus. ------------------------------------------------------------------------------------------------------------------------------------ -C/T=1/ <R=3> /F=1/ <Q=2> Il contenuto di un discorso è sempre espressione di un contesto, cioè dell'universo concettuale di riferimento: /F=2/ <Q=1> si tratta, di volta in volta, di un campo, area o settore, in sostanza di un genere. /F=3/ <Q=3> Il linguaggio è diverso a seconda che tratti di politica, di letteratura, d'informazione, di sport. /T=2/ <R=1> /F=4/ <Q=2> Con il termine "contesto locale" si indica, invece, un determinato insieme di parole adiacenti ad un termine prefissato, che funge da polo (pivot). /F=5/ <Q=3> Lo studio sistematico dei contesti locali (o intorni) di una parola data è detto analisi delle concordanze di quel termine. -----------------------------------------------------------------------------------------------------------------------------------CORPUS = -C-. TESTO = /T=#/. FRAMMENTO = /F=#/. CATEGORIE = <Q=#>, <R=#>. SEPARATORI = " ' ( ) , . : [blank]. Dimensioni minime del corpus In un testo molto corto, ad esempio di sole 100 occorrenze, quasi tutte le parole sono diverse. Via via che il testo cresce in ampiezza, le parole diverse aumentano dapprima velocemente e poi sempre più lentamente. Ovvero il tasso di accrescimento di un vocabolario (come insieme delle parole diverse di un testo) decresce all’aumentare della dimensione del corpus. In un corpus formato da un miliardo di occorrenze il vocabolario sarebbe così esteso da tendere pressoché a stabilizzarsi, nell’eventualità di un ulteriore aumento della dimensione del corpus. Questa circostanza dipende, tuttavia, dal tipo di testi considerati3. Ai fini di un’analisi statistica è importante conoscere quali debbano essere le dimensioni minime di un corpus. Un criterio empirico che spesso si è rivelato utile è quello di osservare il rapporto V/N: se questo supera il 20% il corpus non può considerarsi sufficientemente esteso4. In generale, un corpus, ai fini di un’analisi su base statistica, è considerato piccolo quando si aggira sulle 50 pagine convenzionali, corrispondenti a circa 15.000 occorrenze (100KBytes). E’ di dimensione media intorno alle 150 pagine (45.000 occorrenze equivalenti a circa 300KB), è mediogrande quando raggiunge le 100.000 occorrenze (più di 300 pagine e circa 700KB)5. Quando il vocabolario di un corpus supera le 500.000 occorrenze (3MegaBytes, equivalenti a oltre 1500 pagine) la sua estensione raggiunge la dimensione minima di un lessico (vedi più avanti il par. 1.2.4). Ogni frammento, come unità di contesto, costituisce invece, il livello elementare (individuale) per “sfogliare” la collezione. A sua volta, esso, come ogni insieme, è composto da unità elementari 3 In uno studio su intere annate di Le Monde, sebbene l’ammontare dei testi superasse i 20 milioni di occorrenze per anno, Silberztein (1995) scopre che l’intersezione fra due annate non raggiunge il 90% a livello di lemmi, non supera il 56% a livello di forme flesse, ovvero di parole riconoscibili da un dizionario (quindi già al netto dei refusi di stampa e di altri innumerevoli casi particolari, come nomi e sigle), mentre è appena il 36% a livello di forme grafiche qualsiasi (a causa delle maiuscole, dei nomi, numeri e sigle). Come dire, nessuna raccolta per grande e omogenea che sia, assicura la stabilità del linguaggio. 4 4 A meno che il testo non contenga più “idiomi” che si sovrappongono, com’è il caso del linguaggio “globale” delle mailing list in Internet, infarcite di inglese. 5 Una survey di 800-1000 risposte non vuote ad una domanda aperta produce generalmente un testo compreso fra le diecimila e le ventimila occorrenze, a seconda dell’ampiezza delle risposte. Occorrono invece almeno 50 interviste libere di oltre mezz’ora di registrazione per riempire 100 pagine di testo trascritto. In sostanza, un testo che non raggiunga le 10000 occorrenze, possiede delle frequenze che nei valori bassi sono inattendibili statisticamente (sull’argomento, vedi Sciarone, 1995, p. 57). 4 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco denominate per ora convenzionalmente “parole”6. Il frammento può avere una lunghezza assai variabile: se si tratta di un intero documento, dipenderà dal genere e tipo di materiali raccolti nella collezione. Se ogni frammento è un record di informazioni riconducibile ad un diverso parlante, come la risposta ad una domanda in un campione di intervistati, o come un messaggio (sms o altro) di un database aziendale, esso sarà di ampiezza assai limitata (testo breve). In entrambe le casistiche il frammento è pre-definito. Ma un corpus può anche essere costituito da un unico testo, tutto da frammentare. Allora si pone il problema della sua segmentazione, in unità di contesto (macrosegmentazione del corpus secondo Salem et al. 2006). In tali casi, il frammento può corrispondere ad una proposizione con valore di enunciato (ossia con un senso compiuto); oppure ad una frase (ossia con una rilevanza sintattica). Il problema della sua delimitazione non esiste ogni qualvolta la punteggiatura ne assicura l'unità semantica e sintattica (TAB. 1.1a). Altrimenti, la segmentazione del testo in frammenti non è facilmente risolvibile a priori. Talvolta la frammentazione può costituire già il risultato di una prima analisi7. In alcune situazioni, il frammento è ulteriormente articolato in sezioni, analizzabili separatamente o meno. Ad esempio, se consideriamo come corpus una rassegna stampa, ogni frammento è un articolo di giornale, in cui è possibile distinguere le seguenti sezioni: titolo, sottotitolo, occhiello e testo dell’articolo. Oppure, se il corpus è derivato da una indagine campionaria, ogni frammento corrisponde al “discorso” di un individuo intervistato: in tal caso, ogni sua risposta libera ad una delle domande aperte del questionario appartiene ad una diversa sezione. In una survey sui massmedia (Censis 2004), ogni intervistato dà la sua opinione su 8 mezzi di comunicazione o d’informazione (tv, tv satellitare, radio, giornale, libro, rivista, cellulare, internet): ogni record individuale è articolato quindi in 8 sezioni di testo, una per risposta. In alcune fasi del trattamento automatico del corpus, il frammento viene esplorato a tratti per spezzoni di testo o chunk. Qui si tratta di finestre - di lunghezza pre-definita o anche variabile dinamicamente - aperte temporaneamente sul testo al fine di ricercare coppie di parole (cooccorrenze) o sequenze di parole (segmenti). Nel primo caso si considera una finestra di ampiezza predefinita che scorre al variare della parola considerata come pivot; nel secondo si tratta di una sequenza di parole comprese fra i due estremi del chunk. Questi sono chiamati separatori forti (punteggiatura): per dettagli su questi aspetti si rimanda il lettore ai capitoli successivi. 1.2.2 - Contesto e situazione Con il termine “contesto locale” si indica un determinato insieme di parole adiacenti (co-testi) ad un termine prefissato, che funge da polo (pivot). Lo studio sistematico dei co-testi (o intorni destro e sinistro) di una parola, come contesti situazionali8, è detto analisi delle concordanze di quel termine (TAB. 1.1b). Il testo visualizzato è compreso ad esempio tra 5-10 parole prima e 5-10 dopo il termine prescelto come polo, oppure riproduce l’intero contesto locale (frase elementare, delimitata da punteggiatura). TABELLA 1.1b – Analisi delle concordanze del termine <di> nel corpus in TAB. 1.1a ordinate secondo la parola che segue il pivot F01 F01 F01 Il contenuto di un discorso è sempre espressione di nuto di un discorso è sempre espressione di un contesto, cioè dell' universo con ontesto, cioè dell' universo concettuale di riferimento: si tratta, di volta in 6 Più avanti si discuterà cosa s’intende per parola. 7 E’ questo il caso del programma Alceste, cfr. Reinert (1986, 1992). In un trattamento semi-automatico la lunghezza delle unità di contesto “generalmente è compresa fra 120 e 200 parole, affinché le co-occorrenze abbiano un senso” (Bardin 1991, p. 271). 8 De Mauro, 1998, p. 53. 5 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco F02 F02 F02 F03 F03 F03 F04 F05 F05 di un campo, area o settore, in sostanza ferimento: si tratta, di volta in volta, o concettuale di riferimento: si tratta, inguaggio è diverso a seconda che tratti iverso a seconda che tratti di politica, litica, di letteratura, d' informazione, indica, invece, un determinato insieme a data è detto analisi delle concordanze tematico dei contesti locali( o intorni) di di di di di di di di di un genere. Il linguaggio è diverso a un campo, area o settore, in sostanz volta in volta, di un campo, area o politica, di letteratura, d' informa letteratura, d' informazione, di spo sport. Con il termine" contesto loca parole adiacenti ad un termine prefi quel termine. una parola data è detto analisi dell Più in generale, il contenuto di un discorso è sempre espressione di un contesto, inteso come l'universo concettuale di riferimento: si tratta, di volta in volta, di un campo, area o settore. Il linguaggio è assai diverso a seconda che tratti di politica, di letteratura, d’informazione, di sport. In ogni discorso, è utile poter distinguere il linguaggio utilizzato, secondo alcune sue componenti di fondo (FIG. 1). In primo luogo, la componente dovuta al lessico della lingua, inteso come l'idioma della comunità di appartenenza del "parlante" (italiano, inglese, cinese, egiziano ecc.) in un dato periodo storico. Secondariamente, la parte di linguaggio che caratterizza il contesto, ossia l’ambito concettuale del discorso, l’aspetto tematico e/o settoriale della terminologia. In terzo luogo è importante poter individuare quale e quanta parte del discorso è dovuta alla situazione, ossia alla specifica condizione di enunciazione del discorso (o di stesura del testo), che riflette la modalità d'interazione fra colui che emette (E) e colui che riceve (R) il messaggio. Fig. 1 – Componenti del linguaggio Idioma Situazione Contesto Il tipo di discorso dipende dal rapporto "uno a uno" (dialogo, lettura) o "uno a molti" (manifesto, assemblea), e ancora, a seconda che vi sia co-presenza o meno fra E e R (dialogo a vista o a distanza, via telefono o via mass-media), o che abbia carattere pedagogico/polemico. Le situazioni sono assai diverse a seconda che il rapporto si stabilisca fra due soggetti o fra un soggetto e un gruppo, oppure a seconda che il carattere del discorso sia formale o informale, e si svolga, ad esempio, in pubblico o in privato. Riepilogando, il corpus è una collezione di testi, il testo è una raccolta di frammenti, il frammento è un insieme di parole definente un “contesto”, delimitato da segni di punteggiatura o pre-definito a seconda della natura del corpus. 1.2.3 - Occorrenza, parola, segmento Nel trattamento automatico del testo una occorrenza di “parola” è una sequenza di caratteri (bytes) di un alfabeto predefinito, compresa fra due separatori. La scansione del testo byte per byte da parte di un analizzatore (parser) automatico corrisponde ad eseguire il parsing o micro-segmentazione del corpus in occorrenze. A tale scopo, di volta in volta, occorre definire l’insieme dei separatori (TAB. 7.1a), ossia i caratteri non appartenenti all’alfabeto. Per complemento all’insieme totale dei 6 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco caratteri, tutti gli altri costituiranno “l’alfabeto”. Sono considerati, ad esempio, separatori caratteri quali lo spazio bianco (blank), il fine paragrafo (ossia il CRLF, definito dal segno ¶), il fine riga (LF, ¬), il tabulatore (→|), la punteggiatura (, . : ; ? ! ¡ ¿), le parentesi ( { } ( ) [ ] ). Possono esserlo le virgolette (“ ” ″ ‘ ’ ‛ « » ‹ › < >), i “tratti” (- _ / \ | ) e ogni carattere speciale (#, @, §, &, £, $, € * × ¼ ½ ecc.) presente nel testo. Più problematica la decisione sugli apici (` ΄) che possono essere accenti o virgolette (per questo si veda il paragrafo sulla normalizzazione). Ma potrebbero considerarsi tali, ad hoc, i numeri o quant’altro. La scelta del ruolo che i singoli bytes devono assumere non è affatto scontato. Verrebbe spontaneo pensare ad esempio in un testo italiano di definire l’alfabeto con l’insieme delle 21 lettere minuscole (a...z), più le 21 omologhe maiuscole (A...Z), più le accentate (àéèìòù) e le cifre (0...9). Ma, riflettendo, in un testo italiano esistono molti esotismi, stranierismi o prestiti linguistici9, per cui lettere come k j x y w ç possono facilmente incontrarsi, per non dire di caratteri con altri accenti, dierisi o tilde se capitano parole in inglese, francese, tedesco, spagnolo e di caratteri quali @ € % $ £ tutt’altro che speciali in testi economici o con riferimenti al web. Per questo è prudente pensare all’alfabeto come il complemento all’insieme dei separatori e non viceversa. Dunque ogni “parola” che appare o ricorre in un corpus si definisce una occorrenza. Si chiama anche un token, come segno o entità che può replicarsi nel testo. Il parsing è dunque quel processo di “tokenizzazione” che consiste nell’assegnare ad ogni “parola” del testo un doppio codice numerico: un ID_type per ogni sequenza diversa di caratteri alfabetici ossia per ogni tipo di parola diversa (type) e un ID_token per ogni occorrenza incontrata, in grado di risalire al suo indirizzo ossia al suo posto nello sviluppo del discorso (posizione del token nel frammento). Il parsing produce anche il cosiddetto indice del corpus, come insieme di indirizzi di riconoscimento delle occorrenze lette. Se una stessa sequenza di caratteri ricorre più volte nel testo, essa si troverà associato sempre lo stesso codice. Indicizzare un corpus è appunto ricostruire l’insieme di questi codici: il codice numerico identificativo della parola e l’insieme dei suoi indirizzi, ossia delle sue localizzazioni. Il numero totale delle occorrenze (tokens) determina la dimensione o lunghezza del corpus (N), come estensione del testo. Un esempio di tokenizzazione del seguente testo “type per ogni parola diversa, token per ogni occorrenza diversa“ è proposto nella seguente tabella: testo ID_type: ID_token: type per ogni parola diversa , token per ogni occorrenza diversa 1 1 2 2 3 3 4 4 5 5 6 6 7 2 8 3 9 7 10 5 11 per cui il type “diversa” è la parola 5, che appare in due token allocati agli indirizzi delle occorrenze 5 e 11. Si noti che il separatore è anch’esso una occorrenza con il suo ID_token ma il suo ID_type, talvolta, è annullato se considerato equivalente ad un blank. In un’analisi automatica del testo, dunque le parole sono le unità di testo, tokenizzate (individuate come singole occorrenze) in maniera automatica da un software per il trattamento del linguaggio naturale, una volta definito l’insieme dei caratteri definenti l’alfabeto. Questo primo livello di “scansione” può migliorare in modo significativo con l’ausilio di meta-informazioni, passando da una tokenizzazione per forme grafiche (sequenze di caratteri) ad un parsing per forme miste (semplici e complesse) dette lessie. In questa prospettiva di analisi è opportuno fornire altri concetti e relativi termini. 9 Dal Gradit (De Mauro, 1999), esotismo (sinonimo di stranierismo): elemento linguistico proveniente da una lingua straniera, entrato nell’uso comune; prestito: fenomeno per cui una lingua trae da un'altra lingua un elemento, di solito un vocabolo, più o meno adattandolo al suo sistema fonologico e morfologico. 7 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco Si definisce segmento una sequenza di parole adiacenti nel testo. Fra questi, di particolare interesse, sono i poliformi, ossia quei segmenti di senso compiuto, come ad esempio: buona volontà, presidente del consiglio, vigili urbani, in un battibaleno, andare al creatore. Si definisce invece quasi-segmento una sequenza di parole non necessariamente adiacenti (Becue 1993). Se si ricerca la locuzione “in modo”, occorre tener conto che nei testi essa può trovarsi anche come “in particolar modo”, “in tal/quel/questo modo”, “in un dato modo”, “in un certo qual modo” ecc. Sono tutti esempi di quasi-segmenti della struttura “in modo”10. 1.2.4 - Vocabolario, dizionario, lessico e rango I termini vocabolario, dizionario e lessico possono essere utilizzati in molti ambiti come sinonimi. In questo ambito, i tre termini vengono utilizzati per individuare oggetti assai diversi, a cui è bene attenersi per non confondersi. Ai nostri fini, il vocabolario è una rappresentazione concreta del discorso di un parlante. E’ un fatto attualizzato e “individuale”, è un’espressione della “parole” nel significato saussuriano del termine francese11. L'insieme delle parole diverse (types) (ovvero distinte fra loro: <casa> è diversa da <case> o da <cane>) individua il vocabolario del corpus. In questa lista, a ciascuna parola è associato il rispettivo numero di occorrenze. Il numero di parole diverse in un testo definisce l'ampiezza del vocabolario (V). Ad esempio, in un corpus composto di 7.940 occorrenze di parole, sono stati rilevati 1.610 types diversi, e, fra questi, ad esempio il termine "deve" appare 28 volte (i-esima classe di occorrenze). Quindi N=7.940, V=1.610, i=28. Nel corpus vi potranno essere anche altre parole che occorrono un numero di volte pari a 28, che appartengono cioè alla stessa classe di occorrenze (vedi TAB. 1.3). Più in generale si indichi con Vi il numero di parole diverse che appaiono (o ricorrono) "i" volte in un vocabolario. V1 rappresenta quindi l'insieme delle parole che appaiono una sola volta, ossia l'insieme degli hapax di un testo, V2 quelle che ricorrono due volte ecc. Vale la relazione seguente: V1 +V2 +V3 + ... + Vfmax = V dove "fmax" esprime il valore delle occorrenze della parola con il maggior numero di occorrenze del vocabolario. Si vedrà più avanti che la classe "fmax", come altre, è formata da una sola parola (Vfmax=1). Il vocabolario di un corpus può essere espresso in forme grafiche (ossia parole tal quali sono scritte nel testo) o in lemmi (ossia riconducendo le parole del testo al corrispondente vocabolo presente in un dizionario della lingua). In quest'ultimo caso, l’ampiezza del vocabolario cambierà conseguentemente. Al contrario il lessico, in quanto insieme virtuale e astratto di segni linguistici, costituisce quello stock mentale di radici lessicali - esistente nella memoria collettiva di una comunità o in quella di un individuo - da cui possono essere estratte tutte le parole di ogni potenziale discorso12. Si può dire 10 Una maniera per individuare detta struttura può essere l’uso di un’espressione regolare del tipo “in LAG5 modo”, che permette di cercare nel testo la sequenza <in ... modo> con un intervallo massimo di 5 parole tra la prima e la seconda. 11 Cfr. Saussure (1962). 12 Se un individuo conosce il significato della radice “lavor-“ può generare sia il sostantivo <lavoro>, sia il verbo <lavorare>, ma anche forme come <lavorante> o altre flessioni dei due lemmi. Non tutte le forme possibili saranno attualizzate di fatto (occorrenze), sebbene siano potenzialmente conosciute. Ogni individuo nel corso della sua esistenza non utilizza tutte le parole che conosce o meglio che è in grado di creare sulla base della grammatica di un dato idioma. Un giorno mia figlia di dieci anni mi chiese: “papà 8 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco che, in quanto riflesso della lingua (nel senso dell’idioma), sia un’espressione della “langue” saussuriana. E’ evidente che il lessico di un individuo è un riflesso delle sue origini, dell’esperienza, della cultura acquisita, in sostanza delle sue appartenenze socio-antropologiche13. Stime del lessico sono i cosiddetti “lessici di frequenza” ossia conteggi di occorrenze di vastissimi corpus di materiale testuale, che proprio per la loro vastità possono “approssimare il linguaggio potenziale”: per questi aspetti si veda più avanti. Infine, con il termine dizionario si indica, invece, l'insieme dei lemmi di un idioma, raccolti dal lessicografo in un unico repertorio o inventario. Sono i dizionari cartacei (anche bi/multi-lingue), che recentemente, si vanno diffondendo sempre più anche come dizionari in forma elettronica. Ai fini del trattamento automatico della lingua i dizionari elettronici propriamente detti, sono strumenti predisposti per essere consultati da una macchina e non dall’uomo. In quanto databases lessicali14, sono inventari "completi" non solo dei lemmi, ma anche delle forme flesse (le voci declinate dei sostantivi, aggettivi, pronomi, preposizioni articolate o quelle coniugate dei verbi), nonché di lessie o lessemi complessi (locuzioni e forme idiomatiche).. Vocabolari, dizionari e lessici producono comunque delle liste di unità lessicali, che possono essere ordinate secondo diversi criteri. Fra quelli lessicografici, il più consueto è quello alfabetico, rispettivamente diretto o inverso. Il primo, in vocabolari di forme grafiche, è utile a ricostruire lemmi o radici (TAB. 1.2/a), il secondo a raggruppare morfemi (TAB. 1.2/b)15. Questi ultimi offrono ampie possibilità di categorizzazione delle parole (per tipo di classi grammaticali o flessive16, per soggetti, tempi ecc.), in genere scarsamente sfruttate in un’analisi testuale, ma molto utili a trovare errori, eccezioni o altri aspetti specifici. Fra quelli lessicometrici, per i vocabolari si adotta spesso il criterio che ordina le forme secondo il numero decrescente di occorrenze (TAB. 1.2/c). Talvolta per ordine di apparizione delle types nel corpus (secondo l’ID_type). TABELLA 1.2 – Vocabolario di forme grafiche secondo differenti ordini lessicografici e lessicometrici a b alfabetico abbandonato .... fine .... infezione infezioni infiammabile infiammata infiammato infiammazione inficia inficiata infila infilare c inverso occorrenze decrescenti 3 21 11 15 1 2 2 9 1 1 4 7 inficia infila parla infiltra inficiata parlata infiammata infilava parlava infiammabile fine infine 1 4 34 1 1 8 2 3 5 1 21 63 infine parla fine parlato infezioni infezione inizio infiammazione infiltrazioni parlata infilare infilato 63 34 21 19 15 11 10 9 8 8 7 7 perché si dice calore e non “caldezza” se esiste freddezza? Ecco un esempio di termine “potenziale”, nell’infinita varietà della lingua: nel suo piccolo, aveva creato grammaticalmente una nuova parola, inesistente solo perché non usualmente praticata. 13 Sul lessico e le sue rappresentazioni si veda l’interessante raccolta di contributi proposta in Laudanna e Burani (1993). 14 Questi databases sono costruiti (Silberztein, 1993; Elia, 1995) a partire da fonti assai eterogenee, fra le quali anche vocabolari provenienti dallo spoglio di corpus differenti. 15 Secondo la definizione della grammatica tradizionale, ogni parola (in quanto monema) può suddividersi in un radicale (morfema lessicale) e in una desinenza o un affisso (morfema grammaticale): il primo cattura l’aspetto semantico del termine, il secondo quello grammaticale. La parola “scrivere” si articola ad esempio in scriv-ere. Queste definizioni variano a seconda dei linguisti che ne discutono: per approfondimenti vedi un dizionario di linguistica, ad esempio Dubois (1979). 16 Si veda per l’italiano di base, l’analisi su tali classi svolta da Thornton (1994). 9 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco infilato infilava infilò infiltra infiltrarsi infiltrazione infiltrazioni infine inizio iniziò .... parla parlare parlarsi parlata parlato parlava parlò .... zio 7 3 1 1 1 6 8 63 10 1 34 2 1 8 19 5 1 infiammazione infiltrazione infezione infilare parlare infiltrazioni infezioni parlarsi infiltrarsi zio inizio iniziò infilò parlò infilato parlato infiammato abbandonato 9 6 11 7 2 8 15 1 1 3 10 1 1 1 7 19 2 3 infiltrazione parlava infila abbandonato infilava zio infiammata infiammato parlare infiammabile inficia inficiata infilò infiltra infiltrarsi iniziò parlarsi parlò 6 5 4 3 3 3 2 2 2 1 1 1 1 1 1 1 1 1 3 Fonte: corpus POLIF (Bolasco e Morrone, 1998a) Si definisce rango, il posto occupato da un termine in una graduatoria. Il primo posto in graduatoria è pari al rango 1. In un vocabolario, al decrescere del numero di occorrenze, il numero associato al rango aumenta (TAB. 1.3). Pertanto, in un vocabolario ordinato per occorrenze decrescenti il rango di un elemento è tanto più “elevato” quanto minore è il numero delle sue occorrenze. Nel caso di più elementi con la stessa quantità di occorrenze, il loro rango rimane costante, in quanto riflette la condizione di parità nella graduatoria. TABELLA 1.3 - Esempio di vocabolario per occorrenze decrescenti (in forme grafiche con relativo rango) rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 forma grafica occ è di una e un la che regione isola per non Sardegna più i con da in ma le a molto si l il bella sono essere ha ancora 293 217 214 197 194 184 149 147 114 113 112 104 101 89 87 83 82 78 71 68 67 61 60 56 52 50 48 45 43 rango forma grafica occ rango forma grafica occ 29 terra 31 dal 31 disoccupazione 31 problemi 34 se 35 ci 35 della 37 c 37 sviluppo 39 del 39 stato 41 bellissima 42 deve 42 isolamento 42 lavoro 45 dell 45 delle 45 isolata 48 gli 48 soprattutto 50 bisogno 50 resto 50 sardi 53 ambiente 53 cui 53 dove 53 poco 53 troppo 58 al 43 41 41 41 38 35 35 33 33 31 31 30 28 28 28 27 27 27 26 26 25 25 25 23 23 23 23 23 22 58 58 58 58 58 64 65 65 67 ... 74 76 79 85 92 97 100 108 124 139 156 173 199 222 266 320 425 657 dei però possibilità potenzialità sempre come Italia occupazione bene ... potrebbe fare giovani perché classe anche alla abitanti bellezze economica ai aiuti agricoltura abbastanza acque oggi abbiamo abbandonate 22 22 22 22 22 21 20 20 19 ... 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Fonte: corpus Sardegna (Censis) Le fasce di frequenza di un vocabolario 10 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco Si considerino le parole di un vocabolario ordinate per frequenze decrescenti, partendo dalla parola con freqmax fino ad arrivare a quelle con freqmin, ossia con una sola occorrenza (hapax). Questa gamma di parole s’articola in classi di occorrenze, che possono essere raggruppate in differenti fasce di frequenza. Si possono considerare tre fasce: le alte, le medie e le basse frequenze. La fascia delle alte frequenze è quella in cui ogni parola ha un numero diverso di occorrenze da ogni altra. Generalmente è composta all’incirca da 30 o 50 forme (a seconda delle dimensioni del corpus) e, fra queste, al più 4 o 5 sono parole principali, mentre le altre sono parole grammaticali. Il limite fra le alte e le medie frequenze si colloca subito sopra la prima parità: ossia la prima coppia di parole che occorrono lo stesso numero di volte (cioè, in tab 1.3, al rango della forma <ha>). La fascia delle medie frequenze si caratterizza per avere al suo interno parole con diverse condizioni sia di parità sia di numero di occorrenze (nella quale cioè non tutte le possibili quantità di occorrenze sono presenti). Partendo poi dal basso della lista di parole, ossia dagli hapax, il confine fra medie e basse frequenze è individuato dalla prima lacuna nel numero consecutivo di occorrenze crescenti (ossia in corrispondenza della parola <sardi> in TAB. 1.3; per un esempio vedi anche Guilbaud, 1980). La fascia delle basse frequenze possiede tutte le classi di frequenze decrescenti fino alla V1 e contiene la stragrande maggioranza delle parole del vocabolario. Nelle tre fasce si articolano progressivamente i diversi tipi di parole: parole “vuote”, parole strumentali, parole principali. Ciò consente di utilizzare questa informazione per individuare un’opportuna soglia di frequenza (§ 4.1.4). 1.2.5 - Sulla definizione di parola: forma grafica, lemma Come ricorda Ch. Muller, nessuna definizione del termine "parola" è soddisfacente: si tratta di adottare delle convenzioni, in parte comunque arbitrarie. Da un punto di vista della sua funzione, non è secondario ricordare che, nel discorso, una parola può denotare un oggetto (sostantivo), un'azione o uno stato (verbo), una qualità (aggettivo, avverbio) o una relazione (preposizione, congiunzione). Come già detto, la parola intesa come forma grafica (type), ossia in quanto <catena di caratteri di un alfabeto delimitata da due separatori> è la base per ogni riconoscimento automatico delle occorrenze di un testo. Ma il problema della scelta dell'unità di testo, affrontato più avanti nel cap. 2, consiste nel decidere quale tipo di riconoscimento adottare per la micro-segmentazione in occorrenze. Ad esempio l'espressione "sono finiti" costituisce una sola occorrenza della voce del verbo finire, oppure si tratta di due occorrenze "sono" (voce del verbo essere) e "finiti" (aggettivo)? Ai fini del riconoscimento automatico, si sceglie di considerarle sempre due occorrenze diverse, in quanto forme grafiche differenti. Ma, in seguito si vedrà che sotto diverse ipotesi di scansione del testo, questi casi possono considerarsi una sola occorrenza. Si vorrà infatti tendere a ricostituire le unità minimali di senso, che i linguisti chiamano lessie (Pottier, 1992). Per cui anche un’intera locuzione, come <per quanto riguarda>, può considerarsi una sola occorrenza. Ma altre volte, per corpus di ampiezza limitata o per scopi specifici, si considerano come unità di testo dei grafemi o degli ngrammi (sequenze di n-caratteri): come ad esempio i digrammi o trigrammi, coppie o triplette di lettere (sillabe, fonemi o altro), componenti fondamentali ad esempio per analisi di relazione e similarità e in modelli di analisi del linguaggio basati su catene di Markov. In un vocabolario di forme grafiche si nascondono spesso molte ambiguità, in quanto una parola può avere anche più di un significato: lo studio del vocabolario del corpus è dunque arduo e impreciso. In generale, tanto più una parola è frequente, tanto più essa è sfruttata per molteplici usi e relativi significati. Ma in particolare esistono, in ciascuna lingua, numerosi omografi (non omofoni), ossia parole identiche come caratteri ma diverse nella loro pronuncia. Da esempi ben noti 11 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco come pesca (il frutto o il catturare un pesce) o capita (dai verbi capire o capitare), ad altri meno consueti come ordinale (l’aggettivo, ‘ordinàle’, o l’imperativo del verbo con enclitica pronominale, ‘òrdinale’). Un passo verso la disambiguazione dei termini è costituito dalla lemmatizzazione, ossia il processo di riconoscimento della categoria grammaticale di una parola, che produce la riconduzione della forma grafica al lemma di appartenenza. Per lemma s’intende la coppia di informazioni [vocabolo, categoria grammaticale], o, talvolta più comunemente, la forma base o forma canonica con cui una parola è presente in un dizionario della lingua (come entrata di una voce)17. Ad esempio le occorrenze <scrive> e <scrivevano> individuano due forme grafiche distinte, appartenenti ad uno stesso lemma: [scrivere, Verbo]. Si può osservare che la fusione delle due flessioni sotto un unico lemma trasforma una certa quantità d'informazione: da un lato fa guadagnare l’appartenenza alla funzione grammaticale ma dall’altro fa perdere, nel caso verbale, il tipo di soggetto e il tempo18. Anche a livello di lemmi possono permanere o nascere ambiguità. Ad esempio, la forma canonica <essere> da sola può nascondere due diversi lemmi: [essere, Verbo] e [essere, Nome] (“l’essere umano”). Ulteriori distinzioni possono essere fatte all’interno di una categoria grammaticale, riguardo al genere: ad esempio la forma canonica <fine> che in prima istanza si può distinguere in [fine, Aggettivo] e [fine, Nome], vede poi quest’ultimo, a sua volta, pienamente ben definito solo in quanto [fine, Nm] (nome maschile, il fine come “scopo”) distinto da [fine, Nf] (nome femminile, la fine come “termine”). E, a sua volta, l’aggettivo <fine> può distinguersi dal punto di vista semantico, in quanto è conosciuto con diverse accezioni, quali ad esempio <fine> come “sottile” o <fine> come “raffinato”. 1.2.6 – Collocazione e lessicalizzazione Si definisce collocazione l’associazione abituale di un morfema lessicale con altri all’interno di un enunciato, a prescindere dalle relazioni grammaticali esistenti fra questi morfemi. Ad esempio pane è in collocazione con fresco, secco, bianco. Le coppie di parole sono co-occorrenti. (Dubois et al., 2002: 91). Nel Gradit, DeMauro (1999) definisce una collocazione come “una combinazione di parole che, diversamente da quanto avviene nelle locuzioni idiomatiche, restando semanticamente autonome e sostituibili, danno luogo a espressioni favorite dall’uso particolarmente frequente in una data lingua e non necessariamente in altre, anche relativamente affini (come ad es. efferato delitto o fare (una) lezione in italiano, rispetto alle sequenze meno frequenti odioso, o infame delitto o tenere (una) lezione)”. La lessicalizzazione è il processo con il quale un insieme di morfemi (un sintagma) diventa una unità lessicale. E’ un processo di “degrammaticalizzazione”, che privilegia il lessico a spese della grammatica. La lessicalizzazione porta cioè a introdurre termini nuovi in una lingua. Ai fini dell'analisi testuale, equivale a considerare un sintagma (ovvero una sequenza di parole) come una sola unità lessicale: per es.: "del tutto", come equivalente a "completamente" o "interamente". In pratica, le due occorrenze <del> e <tutto> sono fuse in una sola nuova occorrenza <del_tutto> che costituisce una nuova entrata del vocabolario del corpus (Dubois et al., 2002: 277). 17 L’infinito per i verbi (dire), il singolare per i sostantivi (politica), il singolare-maschile per gli aggettivi (buono). 18 Il vocabolario generato da un corpus può essere espresso anche in unità di lemmi, ma ciò comporta la lemmatizzazione del testo. La forma grafica <particolare> può infatti appartenere ad uno dei due lemmi: [particolare, Nome] o [particolare, Agg]. Dal momento che i termini omografi non sono riconoscibili automaticamente come diversi, queste ambiguità non saranno risolte nel primo parsing del corpus. Potranno in una seconda fase attraverso la sottomissione del testo a dizionari e a grammatiche locali (Silberztein, 1993), ovvero a lemmatizzatori. Per i problemi legati alla lemmatizzazione, automatica e non, si rimanda il lettore interessato al § 2.3.3 xxx, vedasi anche Grigolli et al. (1992), Viprey, Labbé, Bolasco (1993). 12 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco CAPITOLO 2 - Unità di analisi, dati e meta-dati Caratteristiche di una analisi automatica del testo Nel trattamento automatico dei testi, secondo un approccio di tipo metrico, risultano essenziali e centrali i concetti di unità di analisi, di tipo di dati e di meta-dati. Questi ultimi rappresentano quelle informazioni che in forma di annotazioni di vario genere arricchiscono i dati e consentono una loro gestione in processi di data mining e text mining. In questo capitolo si approfondiscono queste nozioni discutendo alcune implicazioni a seconda dei tipi di corpus e di analisi. E’ importante sottolineare fin dall’inizio che i meta-dati sono oggetti virtuali e “stratificati”, sfruttabili nel trattamento automatico attraverso una “chiamata” del corrispondente strato. Nell’approccio metrico risulta fondamentale l’integrazione fra dati non strutturati (testuali) e dati strutturati (codificati), che permette un rapporto fra testi, dati e meta-dati, così come tra informazioni a priori (variabili associate ai frammenti) e informazioni a posteriori frutto dell’AAT. In sostanza nei software per il trattamento automatico di dati testuali è indispensabile una comunicazione più ampia possibile tra la consultazione full text del corpus e le annotazioni sulle unità di testo e di contesto, e fra queste ultime e la costruzione di tabelle e matrici di dati da sottoporre ad analisi statistiche. Attraverso questi passaggi si realizza il dialogo fra il livello paradigmatico di studio del lessico e quello sintagmatico di analisi del discorso e si produce il salto da un trattamento delle parole fuori contesto, come fossero estratte da un urna (bag of words), ad una rappresentazione, grazie a modelli statistici, sia del contesto complessivo sia del senso, anche latente, espresso dalle informazioni del corpus. Per questo, le scelte sul tipo di unità di analisi in funzione degli obiettivi risultano cruciali per il buon risultato dello studio. 2.1 - Tipi di unità di contesto Ai fini dell’analisi automatica di un corpus, può considerarsi come una unità di contesto sia un intero testo/corpus (un libro, un discorso, un documento), sia una sua parte/testo (un capitolo, un paragrafo) - ovvero un raggruppamento pertinente di frammenti -, sia ogni singolo frammento o record individuale (frase, risposta, messaggio). Dipende dal tipo di obiettivo dell’analisi e dal genere di materiali testuali analizzati. 2.1.1 - I frammenti E’ appena il caso di ricordare che il termine frammento, nella terminologia dell’AAT, è l’elemento base della collezione dei testi (corpus). Se un corpus viene studiato come un unico frammento non vi è alcuna macro-segmentazione e quindi non è possibile stabilire confronti al suo interno: se ne studierà soprattutto il lessico complessivo, per confrontarlo con quello di altri corpus d’interesse. Come già visto nel § 1.2.1 un frammento può anche essere una frase semplice (proposizione sintatticamente indipendente), o un enunciato (proposizione di senso compiuto), o una risposta individuale (al limite, costituita da una sola parola: <sì>), o quant’altro sia da considerarsi unitario sotto un qualche punto d’interesse: ad esempio, il titolo di un articolo di giornale. 13 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco La ricerca dell’unità di contesto più opportuna risulta essenziale quando si intenda sviluppare lo studio del corpus considerando i frammenti come unità d’analisi, al fine di poterli confrontare fra loro, sulla base del loro profilo lessicale o poterli classificare in tipi omogenei. I frammenti possono essere già definiti dalla natura della collezione, come nel caso delle risposte libere in un questionario con domande aperte o degli articoli di quotidiani, o dei paragrafi e/o commi di un corpus di testi giuridici. Nei casi invece in cui i frammenti non sono pre-definiti, come ad esempio quando si analizza un testo letterario o delle interviste in profondità, non vi sono regole fissate una volta per tutte per la macro-segmentazione del corpus. Esistono solo criteri generali di cui tener conto. In primo luogo vale il presupposto che un frammento, in quanto unità di contesto su cui operare ogni ricerca per la cattura di un’occorrenza, di un segmento o di una co-occorrenza, appartenga allo stesso parlante (autore o generatore del testo). Quindi se il corpus è una raccolta di fonti testuali riconducibili a più parlanti, un frammento non sarà mai costituito da pezzi di testo di parlanti diversi. In secondo luogo è determinante individuarne l’ampiezza. Questa non sarà prefissata come numero di caratteri (in quanto si rischia di spezzare una parola) o di occorrenze (in quanto si rischia di spezzare un sintagma19), ma viene generalmente determinata da elementi di carattere linguistico o in taluni casi di carattere metrico-statistico. La frammentazione del testo in frasi è cruciale per qualsiasi analisi di tipo sintattico, quindi l’elemento determinante sarà la punteggiatura. In altre circostanze, soprattutto per “testi frammento”, dove i discorsi non sono strutturati con punteggiatura o altri separatori evidenti, può essere determinante far valere un criterio metrico. E’ possibile considerare un numero di occorrenze di parole piene compreso fra 12 16 elementi, sufficienti a “profilare” l’unità di contesto in maniera efficace ai fini di confronti o di una classificazione, come propone Max Reinert nel software Alceste. 2.1.2 - I segmenti ripetuti Per fini più limitati e particolari, possono essere prese in considerazione altre unità di analisi di contesto: ad esempio, le sequenze di parole o i sintagmi di base della linguistica strutturale (nominali, verbali, preposizionali). Ogni ricerca automatica di sequenze di parole, sintagmi o segmenti, non avviene a cavallo di due frammenti, poiché non avrebbe senso. Per definizione, una qualsiasi sequenza di parole sarà riconosciuta come tale, solo se contenuta interamente in un frammento. Alcuni software di trattamento automatico del testo - come Lexico, Sphinx, Taltac ed altri - hanno sviluppato un algoritmo per l‘indicizzazione di tutti i segmenti di un testo, sotto opportuni vincoli. Nell’algoritmo prima di tutto si definisce il chunk di testo20 all’interno del quale cercare l’entità da individuare. La segmentazione del frammento in chunk condiziona l’individuazione dei segmenti ripetuti, ossia “tutte le disposizioni a 2, 3, ..., q parole che si ripetono più volte nel corpus” (Salem, 1987). Più in particolare, ogni sequenza di types di lunghezza q compresa tra due separatori forti, dove 2 < q < Lmax. Illustriamo l’algoritmo attraverso un esempio. Dati due chunk | A B C D | E F G | Sep fg fg fg fg Sep fg fg fg Sep dati i separatori (forti) , . ; : ! ? preso uno stralcio di discorso: “... è un' isola stupenda, solo che è abbandonata.” A B C D | E F A G 19 Si definisce sintagma ogni sequenza ordinata (disposizione) di elementi nel discorso. Ad esempio la parola è un sintagma di lettere e la frase un sintagma di parole. 20 In particolare, ogni chunk è definito da uno spezzone di testo (“frase”), delimitato da due separatori “forti”, all’interno dei quali è possibile identificare uno o più segmenti ripetuti. Se la virgola è considerata fra i separatori forti, nella lettura automatica della seguente sequenza di testo “... in modo, tale che ...”, il segmento <in modo tale> non verrà identificato, ma saranno riconosciuti solo <in modo> e <tale che>. 14 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco l’indice di tutte le sequenze calcolabili per i due chunk come segmenti ripetuti è il seguente: AB / ABC / ABCD / BC / BCD / CD | EF / EFA / EFAG / FA / FAG / AG Ad esempio un chunk del tipo “il governo si propone di” contribuisce alle occorrenze di segmenti (fino a 4 elementi) quali: <il governo>, <il governo si>, <il governo si propone>, <governo si>, <governo si propone>, <governo si propone di >, <si propone>, <si propone di>, <propone di>. Uno stralcio di discorso di 5 parole ha prodotto 9 segmenti entro una lunghezza massima di 4 parole. La ridondanza Il precedente indice di sequenze è un inventario di segmenti tale che quelli di lunghezza inferiore sono censiti già in quelli di lunghezza maggiore: la sequenza BC è contenuta anche in ABC, ABCD, BCD. Pertanto esiste ridondanza nell’informazione, ma in tal modo per ogni sequenza si conosce il 100% delle sue occorrenze. A differenza del vocabolario, per il motivo anzidetto, le occorrenze dei segmenti in generale non sono sommabili. La ridondanza dei segmenti estratti infatti è duplice, nel senso che: i segmenti più corti come types sono inclusi in quelli più lunghi21 e, viceversa ai fini del conteggio dei tokens, le occorrenze di quelli più lunghi sono comprese nella quantità di occorrenze di quelli più corti. La ridondanza garantisce il riconoscimento di strutture semantiche e di frasi modali. Per limitare la ridondanza, riducendo la quantità di segmenti da pubblicare, si possono introdurre numerosi vincoli. In primo luogo la frequenza delle parole facenti parte dei segmenti. Una soglia di occorrenze pari a 5, esclude dal calcolo tutte le parole con frequenza inferiore a tale valore, ovvero vengono saltate quando il chunk le contiene (nel primo esempio, se stupenda ha nel corpus 3 sole occorrenze, il segmento ABCD ai fini del calcolo non esiste). Puntando a cercare i segmenti ripetuti si individuerebbero sequenze formate solo da parole con almeno 5 occorrenze. Un secondo parametro è la frequenza minima dei segmenti da pubblicare: se la soglia è 4 l’inventario conterrebbe solo le sequenze ripetute almeno 4 volte. E’ evidente che parole frequenti almeno 5 volte possono far parte di sequenze identiche ripetute almeno 4 volte. Al contrario una parola con 5 occorrenze non può presentarsi in un segmento ripetuto 10 volte22. Occorre tener presente che i segmenti ripetuti possono essere assai più numerosi delle stesse forme grafiche componenti un corpus. Per esempio, ad una soglia di 3 occorrenze, in un corpus ampio, si ottengono oltre 18.000 segmenti diversi, quando le forme grafiche distinte, a quella soglia, sono 9.40023: un rapporto 2 a 1. Per limitare la quantità di segmenti pubblicati si possono introdurre altri vincoli. Il numero massimo di parole componenti il segmento (Lmax): è inutile richiedere lunghezze superiori a 9-10 parole. A meno di operazioni di “taglia e incolla”, i testi non contengono formule così lunghe. Per la varietà linguistica del discorso è davvero raro, per non dire impossibile, trovare segmenti ripetuti identici superiori a 10 parole. Fanno eccezioe i testi giuridici nei quali le “formule” stereotipate di questo linguaggio possono produrre sequenze identiche di lunghezze anche assai maggiori. 21 Per limitare la ridondanza, a parità di numero di occorrenze di due segmenti uno incluso nell’altro, l’algoritmo pubblica solo il segmento più lungo. 22 Se la soglia di frequenza minima delle parole è inferiore a quella della frequenza minima dei segmenti l’algoritmo lavora in parte a vuoto perché individua molti segmenti (con parole a bassa frequenza) che tuttavia non pubblica, perché sono ripetuti in quantità inferiore alla soglia minima fissata per i segmenti da pubblicare. 23 Al contrario in un corpus molto piccolo (minore di 5.000 occorrenze), a soglia di frequenza elevata (ad esempio 10) il numero di segmenti ripetuti può essere inferiore a quello delle parole alla stessa soglia. E’ un riscontro dell’inefficacia (eccessiva schematicità) di un’analisi statistica su testi di piccola dimensione. 15 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco L’individuazione di segmenti ripetuti consente, per le parole più frequenti (quelle che più probabilmente si presentano in accezioni diverse), di rendere più ricca l'analisi. E’ infatti essenziale distinguere in testi giuridici sintagmi nominali quali: stato democratico da stato giuridico o da stato di diritto; o nel linguaggio politico: nuovo governo da precedente governo. L’individuazione di nuove lessie garantisce la ricostruzione di unità di senso meno ambigue e di parole chiave del corpus. 2.2 – Tipi di unità di analisi del testo Obiettivi di studio e scelta di unità lessicali Il problema essenziale per l’analisi automatica dei testi è operare il riconoscimento del senso del discorso. La soluzione al problema si fonda in gran parte sulla scelta dell’unità di analisi del testo, indicata convenzionalmente con il termine parola. A seconda degli obiettivi, tale unità può essere una forma grafica, un lemma, una multiword o una lessia ovvero una unità mista (in grado di catturare al meglio i significati presenti nel testo). Una forma grafica se corrisponde ad una parola di un idioma è sempre una forma flessa o flessione di un lemma. Spesso viene detta anche soltanto una forma. Ognuna di queste può rappresentare una entrata del vocabolario quindi un type. Se s’intende studiare il lessico di un autore attraverso l’analisi dell’insieme dei suoi scritti, al fine di confrontarlo con quello di altri autori, interessandosi pertanto ad aspetti stilometrici, l’analisi automatica si fonderà sui lemmi e quindi sullo studio delle relative liste di frequenza24. Se l’obiettivo è studiare il contenuto d’una raccolta di testi corti (articoli di giornale, risposte a domande aperte di un questionario), l’analisi si fonderà sulle forme grafiche, da trasformare eventualmente, come unità di analisi, in lessie. Se si vuole invece individuare un lessico settoriale, lo studio è caratterizzato da interessi terminologici (dove ogni termine ha un significato univoco) e l’attenzione del ricercatore si fonderà principalmente sulla ricerca di poliformi e multiwords - cioè lessie complesse e collocazioni, locuzioni verbali - ovvero tutte quelle entità che costituiscono delle sequenze ricorrenti, con un alto livello di cristallizzazione semantica (Elia, 1996) o con significato idiomatico. Parole piene e parole vuote Quale che sia l’obiettivo, è possibile distinguere o categorizzare in svariati modi le entrate di un vocabolario: rispetto al loro ruolo nella frase, alla loro categoria grammaticale, o ad altri criteri di appartenenza. Spesso si distinguono le parole piene dalle parole vuote: le prime sono portatrici dei significati oggetto di studio, le seconde invece sono quelle che non esprimono in sé un contenuto d’interesse e vengono trascurate ai fini dell’analisi. Le parole piene sono dette anche parole principali, in quanto portatrici di parti “sostantive” del contenuto di un discorso (nomi e aggettivi), delle sue modalità di enunciazione (avverbi) o di azione (verbi). Uno degli obiettivi più ricorrenti di un’analisi testuale consiste nell’identificare quali siano le parole principali caratteristiche, ossia le parole chiave, di un testo, sia per la loro presenza intesa come sovrautilizzo rispetto agli altri testi, sia per la loro rarità/assenza (sottoutilizzo). In entrambe le situazioni si parla di specificità (§ 3.2.3) nelle differenti parti del corpus e se ne analizza così la varietà tematica. Vengono spesso considerate vuote molte parole grammaticali o di legame (il, di, e, in, ... ): ma qualsiasi lista è soggettiva e funzionale alle particolarità dell’analisi. Infatti parole grammaticali (articoli, preposizioni, congiunzioni, alcuni aggettivi) possono essere assai importanti per 24 Ad esempio gli studi di Brunet sui classici della letteratura francese, fra gli altri si vedano quelli su Giraudoux e Hugo (1978b, 1988); oppure gli studi di Labbé sul linguaggio politico di Mitterand (xxx). 16 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco interpretare un testo. Ad esempio, il sovrautilizzo di preposizioni come in o di sottolinea il carattere descrittivo del discorso; una prevalenza di non, per e con sottolinea particolari intenzionalità del parlante, mentre quella dei ma e se evidenzia elementi legati ad incertezza. Inoltre, anche alcuni semplici determinanti25 sono fondamentali per identificare differenti gruppi nominali (il governo, un governo, questo governo). Le parole grammaticali vanno considerate, dunque, come parole strumentali, in quanto sono i cardini di alcuni costrutti lessico-grammaticali, utili a discernere la semantica del discorso. In molti processi di information retrieval e text mining vengono stilate delle liste di parole da trascurare (stop words), ai fini delle ricerche. Sono parole che vengono filtrate, prima, dopo, durante un processo di archiviazione di un testo 26. Sono in prevalenza parole grammaticali o assai frequenti (come verbi ausiliari e modali avere, essere, andare, venire, dovere, potere, volere ecc.) e “poco” informative, nel senso della teoria dell’informazione. Una sorta di “rumore” che può essere tralasciato senza troppo danno nella trasmissione del “segnale”. 2.2.1 - Le unità di analisi del testo La forma grafica In statistica testuale, le analisi basate sulle forme grafiche hanno il vantaggio di essere indipendenti dalla lingua. E’ un approccio puramente formale che privilegia i segni (significanti) per arrivare al senso (in quanto insieme di significati) come rappresentazione del contenuto o del “discorso”. Il segno linguistico, come noto, è composto di un significante distinto dal punto di vista "fonico" (parlato) e/o "grafico" (scritto) e di un significato a sua volta distinto dal punto di vista della "forma" (come classe "sintattica": grammatica, morfologia e sintassi) e della "sostanza" (come classe "semantica"). L'analisi statistica, secondo i cosiddetti formalisti, è condotta “a prescindere dal significato delle unità di testo”. Il senso (significato/accezione) di una parola è determinato dalle parole che la circondano (asse sintagmatico), ma anche dalla selezione delle altre parole che possono rimpiazzarla nella stessa frase (asse paradigmatico); ossia dall'insieme delle parole che possono essere sostituite fra loro nel sintagma, senza modificare la struttura dell'enunciato, poiché "funzionano" in maniera equivalente. Il senso sottostante un testo/discorso, di cui s'intende dare una rappresentazione con metodi statistici, è costituito dal sistema dei significati che "si tiene" - come una sorta di ecosistema - sulla base dell'insieme delle co-occorrenze nell'intero corpus di dati testuali. La lessia Una evoluzione dell’approccio per forme grafiche è basato sullo sfruttamento di informazioni sia endogene che esogene al corpus per disambiguare al meglio le unità di analisi del testo. Nell'ambito della statistica testuale, cresce l'attenzione a considerare un'unità di analisi di tipo misto che è ben rappresentata con la nozione di lessia nel senso di B. Pottier (1992), come l'unità di comportamento lessicale27, in quanto unità minima significativa del discorso, sia essa semplice (tavola), composta (piccole imprese) e/o complessa (dalla testa ai piedi). In sostanza un’unità minimale di senso, non ulteriormente decomponibile, ossia un atomo di significato. E' facile che una lessia composta o complessa, in quanto unità semantica, possa essere una polirematica (Elia, 1992), cioè un poliforme 25 In generale, i determinanti sono i costituenti del sintagma nominale, ovvero gli elementi che attualizzano il nome. Nell’accezione corrente, sono gli articoli, gli aggettivi possessivi, dimostrativi, interrogativi, relativi e indefiniti, i numerali e cardinali (Dubois, 1979, p. 87). 26 Il termine stopwords fu coniato da H. P. Luhn, pionere nell'information retrieval, per indicare le parole in cui il processo di archiviazione si ferma, salta la parola "inutile" e riprende. In generale le stopwords sono filtrate in base al loro livello di utilità in un dato contesto o percentuale di uso (http://get.fastpopularity.com/search_engime_optimization/stopwords_nuova_vita.php). 27 Per approfondimenti si rimanda a dizionari di linguistica; cfr. Dubois et al. (1979) e Beccaria (1994). 17 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e laboratorio di data mining – a.a. 2011-2012 Docente: prof. Sergio Bolasco il cui significato è frutto di un calcolo non composizionale. In questo caso il senso del poliforme non è risultante dalla somma dei significati delle singole parole componenti ma produce un significato diverso e autonomo (es. capo_dello_stato, carta_di_credito); esempi di polirematiche sono gli idiomi verbali (es. venir_meno, portare_avanti). Elia, nei suoi studi, dichiara che la presenza di polirematiche in un testo può arrivare a coprire il 60% dell'intero testo. Altre stime più prudenti ipotizzano un 40-50%. Questo dato insinua il dubbio sulle possibilità di una decodifica automatica del senso di un testo, quando questa non venga supportata da altri strumenti messi in atto dal ricercatore: come per esempio il confronto con dei dizionari di poliformi. La scelta di unità di analisi del testo miste (considerando cioè come singole occorrenze sia forme semplici, sia lessie complesse) permette di andare incontro alla soluzione di questi problemi, escludendo alcune alternative semantiche teoricamente possibili, ma assolutamente improbabili, nel contesto investigato. Nasce così un approccio lessico-testuale, nel quale è riconosciuta migliore una unità d'analisi di tipo “flessibile”, come può essere appunto una lessia, che comprenda sia forme grafiche sia espressioni, ogni qualvolta queste ultime rappresentino delle unità minimali –atomi di senso- in grado di catturare il giusto significato (carta; carta geografica; carta di credito). In questo caso, il parsing del testo è svolto ora per forme ora per polirematiche28, come certi gruppi nominali di tipo Nome+Aggettivo (lavoro nero, economia sommersa), Aggettivo+Nome (terzo mondo, estratto conto, ampio respiro) o Nome+Preposizione+Nome (ordine del giorno, capo dello stato, anni di piombo, chiavi in mano). Le polirematiche e le locuzioni grammaticali (avverbiali, preposizionali, aggettivali) -una volta isolate- permettono di abbassare drasticamente il livello di ambiguità delle singole parole, prima della loro lemmatizzazione. ………………………. 28 cf. Bolasco (1999, p. 196). 18