L`analisi dei dati testuali: intrecci problematici e prospettive

Facoltà di Scienze Statistiche - Università di Roma “La Sapienza”
Giornata di studio su Applicazioni di analisi testuale Roma - 16 dicembre 2003
L'analisi statistica dei dati testuali: intrecci problematici e prospettive
Sergio Bolasco (Univ. di Roma "La Sapienza")
La statistica testuale nasce nel mezzo degli sviluppi dell'analisi automatica dei testi (Text
Analysis): questa circostanza condiziona non poco la sua evoluzione, come cercherò di evidenziare
nel seguito. Per brevità, ricostruisco qui la storia di tali sviluppi intrecciati, procedendo
schematicamente per punti, con gli opportuni rimandi ai principali riferimenti in letteratura.
1. G.K. Zipf1 [1935, 1949], G.U. Yule [1944], P. Guiraud [1954], G. Herdan [1956-64] sono fra i
pionieri della moderna analisi quantitativa in ambito linguistico e delle sue proprietà e applicazioni
statistiche.
2. J.P. Benzecri [1963_Leçons; 1973_LaTaxinomie-Correspondances; 1981_PAD_Lexicologie; 1986_ PAD_Medicine]
fonda sullo studio di dati linguistici le sue prime sperimentazioni di quella che sarà l'analyse des
données [1982_Histoire & Prehistoire], contrapponendosi alle tesi di N. Chomsky2 e inseguendo Z.S.
Harris3, che rappresenta, quanto a formalizzazione di strutture linguistiche della scomposizione
sintagmatica della frase, un riferimento assai vicino ad un approccio statistico sul trattamento del
linguaggio naturale.
3. Ch. Muller [1973, 1977], M. Tournier [1980] e P. Lafon [1980, 1984], sviluppano indici e
misurazioni divenute classiche nella statistica linguistica e nella statistica lessicale. Sviluppi
analoghi sono proposti da R. Busa [1987] riguardo l'informatica linguistica.
4. In parallelo, in Italia A. Zampolli e T. De Mauro, attraverso il loro interesse per le misure di
frequenza d'uso delle parole (a livello di lemmi), mettono le basi per una linguistica quantitativa,
sviluppando le prime risorse statistico-linguistiche (lessici di frequenza: LIF: Bortolini & Zampolli
[1971]; VdB, VELI, LIP, De Mauro [1980, 1989, 1993]).
5. Via via dall'interesse per i testi veri e propri (ad esempio i classici della letteratura, vedi gli studi
stilometrici sull'opera di un Autore come quelli di R. Busa [1974-1980], di E. Brunet [1981, 1986,
1988] o di D. Labbé [1990, 20034]) si passa allo studio di testi "artificiali" (non testi) o, per dirla
1
Cfr. il sito http://linkage.rockefeller.edu/wli/zipf/ .
2
Chomsky sostiene che la linguistica non può essere induttiva, nel senso che la grammatica non può essere dedotta da
regole trovate di fatto su un insieme di testi (corpus), ma solo deduttiva, quindi solo partendo da assiomi essa genera dei
modelli delle lingue concrete (H&P, p.102). Come noto, Chomsky tende a creare una teoria grammaticale completa ed
organica, la cosiddetta grammatica generativa con relative teorie trasformazionali (Syntactic structures, 1957).
3
In Elementary transformations (1954), Harris chiama distribuzione di una parola l'insieme dei suoi possibili contesti
locali. In Le strutture matematiche del linguaggio (1968), egli sostiene che il discorso si presta ad una analisi
distributiva indipendentemente dal senso; egli propone di determinare le regole combinatorie della lingua allo scopo di
rivelare le relazioni elementari fra differenti classi di concetti presenti in un corpus. A tal fine, "occorre integrare al
trattamento quantitativo del corpus un'analisi morfo-sintattica dei dati testuali, ossia introdurre algoritmi di descrizione
delle frasi che consentono di segmentare gli enunciati del testo nei loro costituenti sintagmatici, poi di identificarli e
infine di esplicitare i loro rapporti interni" (Martinez, 2003, p. 275).
4
" … Nous avons la preuve que Corneille a probablement écrit beaucoup des pièces de Molière …" [da Le Monde, 11/6/03] è ciò
che afferma Labbé in un articolo del Journal of Quantitative Linguistics (JQL) del dicembre 2001 a partire da una prossimità
eccezionale del vocabolario tra una commedia di Corneille, Le Menteur, scritta nel 1644, e sedici pièces di Molière [Labbé, 2003].
1
meglio, all'interesse verso i dati espressi in linguaggio naturale provenienti dalle fonti più diverse:
indagini sul campo (domande aperte o interviste); analisi di frammenti o testi corti (abstract,
bibliografie, manifesti, messaggi), raccolti in una collezione di documenti costituente un corpus di
dati testuali.
6. Alla fine degli anni '80, L. Lebart e A. Salem [1988, 1994, 1998] definiscono i confini della
statistica testuale basata sull'analisi per forme grafiche (non più per lemmi) ed in parallelo
sviluppano software per l'analisi dei dati testuali (Spad_T: metodi multidimensionali, analisi di
matrici sparse con calcolo degli autovalori in lettura diretta [Lebart, 1982]; Lexico: individuazione
nel corpus dei segmenti ripetuti; analisi delle specificità, anche cronologiche, basate sulla legge
ipergeometrica).
7. Le analisi di dati testuali centrate sulle forme grafiche sono indipendenti dalla lingua. Si tratta di
un approccio puramente formale che privilegia i segni (significanti) per arrivare al senso (in quanto
insieme di significati) come rappresentazione del contenuto/discorso.
Il segno linguistico, come noto, è composto di un significante distinto dal punto di vista "fonico"
(parlato) e/o "grafico" (scritto) e di un significato a sua volta distinto dal punto di vista della
"forma" (come classe "sintattica": grammatica, morfologia e sintassi) e della "sostanza" (come
classe "semantica"). L'analisi statistica, secondo i cosiddetti formalisti, è condotta a prescindere dal
significato delle unità di testo.
Il senso (significato/accezione) di una parola è determinato dalle parole che la circondano (asse
sintagmatico), dalla selezione delle altre parole che possono rimpiazzarla nella stessa frase (asse
paradigmatico); ossia è determinato dalla capacità di una parola di combinarsi con altre parole,
dall'insieme delle parole che possono essere sostituite fra loro nel sintagma, senza modificare la
struttura dell'enunciato, poiché "funzionano" in maniera equivalente [Martinez, 2003].
Il senso sottostante un testo/discorso, di cui s'intende dare una rappresentazione con metodi
statistici, è costituito dal sistema dei significati che "si tiene" (come una sorta di un ecosistema)
sulla base dell'insieme delle co-occorrenze nell'intero corpus di dati testuali.
8. J.P. Benzécri [Addad, 1981], A. Salem [Lexicloud, 1985] e M. Reinert [Alceste, 1986, 2003]
mostrano che partendo da un'analisi puramente formale si arriva a cogliere la struttura del senso
presente nel corpus di testi.
Da un'analisi di tipo paradigmatico si può ottenere una rappresentazione della struttura
sintagmatica presente nel testo (è il caso dei sintagmi latenti o "frasi modali" ottenibili attraverso
un'analisi fattoriale [Bolasco, 1999], utilizzabili come modelli di senso del contenuto/discorso).
L'ambiguità insita nel linguaggio naturale viene risolta attraverso l'analisi complessa di grandi
matrici di dati testuali grazie ai metodi e alle tecniche di analisi multidimensionale (analisi delle
corrispondenze, cluster analysis, analisi discriminante, multidimensional scaling).
Tali analisi, misurando la similarità di profili lessicali, producono rappresentazioni contestuali
dell'informazione testuale. Tali rappresentazioni si traducono in visualizzazioni nelle quali vale il
principio gestaltico "vicinanza/somiglianza" delle unità lessicali (sia semplici "parole", sia lessie
complesse) che consente di coglierne l'accezione interna al corpus investigato.
Esempi di ciò, si trovano più recentemente nell'approccio della Semiometria [L. Lebart et al. 2003]
o in quello dell' Analisi emozionale del testo [R. Carli e R.M. Paniccia, 2002] 5.
9. Le matrici di dati testuali mettono in corrispondenza, nel tradizionale ruolo di individui e di
variabili, ora parole, ora frammenti di testo (proposizioni, enunciati), ora sub-testi (raggruppamenti
5
Per questi due approcci si vedano rispettivamente i lavori di Camillo & Tosi e di Dolcetti & Battisti in questo volume.
2
di frammenti di testo omogenei da qualche punto di vista, ossia elementi in relazione di equivalenza
fra loro). In particolare, si definiscono almeno tre tipi diversi di matrici: frammenti × forme (dati
booleani); forme × testi (dati di frequenza); forme × forme (grafi di relazione tra co-occorrenze, con
informazione booleana o pesata). Queste matrici inducono analisi assai diverse fra loro.
9.1 Le strategie di analisi statistica che consentono di trasformare i dati in informazione si fondano
su:
- una scelta di unità d'analisi lessicali che assicurino una copertura del testo adeguata (> 70-75%);
- un'analisi di carattere esplorativo per produrre rappresentazioni del testo, mediante:
a) visualizzazione -sui piani fattoriali dell'analisi delle corrispondenze binarie- delle principali
relazioni di similarità tra profili lessicali (in termini di co-occorrenza fra parole);
b) classificazione delle unità di contesto (spesso trattasi delle stesse unità di rilevazione o
records, quali risposte/messaggi di individui, documenti/articoli di stampa o altri frammenti di
testo/testi corti) in grado di evidenziare differenti universi lessicali o domini terminologici (ciò
avviene ad es. in Alceste, mediante un metodo di classificazione gerarchica discendente);
- uno studio della variabilità del lessico secondo partizioni a priori del corpus (sulla base di
variabili categoriali) in una logica di analisi non simmetrica (ANSC) [Lauro e D'ambra, 1984] o di
analisi "discriminante" (analisi fattoriale + clustering ascendente su tabelle di frequenza parole ×
testi) o di analisi delle specificità (anche cronologiche);
- un'interpretazione dei risultati secondo i canoni classici dell'analisi multidimensionale per dati
numerici.
10. Negli stessi anni, accanto a questa tradizione statistica di tipo "formalista", i linguisti di
tradizione harrisiana sistematizzano la formalizzazione linguistica di particolari classi di parole (ad
es. tavole dei verbi [M. Gross, 1968; A. Elia, 1984]), di forme composte (avverbi e preposizioni:
L.A.D.L. a Paris VI, Istituto di Linguistica a Salerno) e sviluppano strumenti concreti di
lessicografia e linguistica computazionali6, privilegiando i dizionari elettronici e gli
automi/trasduttori a stati finiti per la descrizione di grammatiche locali [Intex di M. Silberztein,
1993; C. Fairon, 1999; S. Vietri e A. Elia, 2001].
11. I linguisti quantitativi, cimentandosi nei primi tentativi di lemmatizzazione automatica,
mettono a punto nuovi lessici di frequenza: in Italia, grazie ad un lemmatizzatore dell'IBM, T. De
Mauro costruisce un prototipo di vocabolario elettronico della lingua italiana (Veli) [1989] e un
lessico dell'italiano parlato (Lip) [1993], e L. Marconi -con altri ricercatori del CNR di Genovamette a punto un lessico dell'italiano scritto e letto dai bambini delle elementari [1993].
Più recentemente, J. Sinclair [1991] e D. Biber [1998], autorevoli esponenti della Corpus
Linguistics, propongono un approccio corpus-based, orientato all'analisi di vasti databases di
esempi reali di linguaggio memorizzati su computer, dal quale trarre gli usi del linguaggio scritto o
parlato.
Per la messa a punto di corpora di riferimento annotati si rimanda agli esempi riportati in nota7.
6
Per una panoramica sugli sviluppi più recenti di queste aree di ricerca e relativi strumenti, si veda l'interessante
contributo di Isabella Chiari (2004).
7
Per un riferimento generale cf. http://helmer.hit.uib.no/corpora/sites.html; vedi anche WebCorp: http://www.webcorp.org.uk - "Our
WebCorp tool allows you to treat the web as a corpus, extracting concordance lines and word lists from it. BNC Indexer
is a tool for those who want/need to use the BNC [British National Corpus]". Per l'italiano si veda all'interno del lavoro
di tesi di Matteo Negri in http://tcc.itc.it/people/negri/groan/node2.html ; per un esempio di italiano televisivo cf.
http://www.sspina.it/cit/annotazione.htm che rispetta gli standard della Text Encoding Initiative (TEI), nata nel 1987 in seno a
tre associazioni accademiche che si occupano del rapporto tra studi umanistici e informatica (Association for Computers
and the Humanities, Association for Computational Linguistics, e Association for Literary and Linguistic Computing).
Nel 1994 la TEI ha pubblicato la prima versione delle sue Guidelines (P3); nel 2000 la TEI si è trasformata in un
consorzio ed ha pubblicato la nuova versione delle Guidelines (P4), compatibile con il linguaggio XML. Per l'italiano
parlato, infine, si veda anche http://languageserver.uni-graz.at/badip/badip/home.php .
3
12. In parallelo a questi contributi, nell'ambito della statistica testuale, cresce l'attenzione a
considerare per lo studio dei testi un' unità di analisi mista: forma testuale [forma/lemma/poliforme
Bolasco, 1990], o lessia nel senso di B. Pottier [1992], come particella minimale di senso.
La ridondanza dei segmenti ripetuti [Salem, 1987] viene messa in discussione, scorporando le
occorrenze delle sequenze lessicalizzate dalle occorrenze delle parole che le hanno generate.
Vengono individuate polirematiche8 e altre locuzioni grammaticali (avverbiali, preposizionali,
aggettivali ecc.) presenti nel testo, che -una volta isolate- permettono di abbassare drasticamente il
livello di ambiguità delle parole, prima della lemmatizzazione. In quest'ottica, viene messo a punto
un lessico di frequenza di poliformi [Bolasco & Morrone, 1998], come riferimento per l'italiano
standard.
13. Così facendo, si aprono nuovi problemi e conflitti, non già fra scuole di pensiero (come accadde
fra i sostenitori dell'analisi per lemmi e quelli per forme), bensì per la difficoltà di poter confrontare
efficacemente risultati di analisi diverse, in assenza di standard. Infatti persistono:
- 1) differenti criteri di normalizzazione dei testi ["Le Machinal" in Lafon et al. 1985, Labbé 1990],
- 2) differenti insiemi/classi di espressioni/forme composte, nel parsing di unità di tipo misto,
- 3) criteri diversi nel lemmatizzare (es. participio/aggettivo).
La diffusione di corpora di riferimento tende a risolvere alcuni di questi problemi (cf. punto 11).
13.1 Soprattutto in questi ultimi dieci anni, al fine di migliorare l'estrazione di informazione dai testi
[Bolasco et al., 2004] si integra la strategia di analisi del punto 9 con la raccolta di metainformazioni sui dati testuali [Bolasco, 1998, 2002], mediante:
- un'estrazione di termini del vocabolario del corpus definibili come linguaggio peculiare per
contrasto con un lessico di riferimento, le cui frequenze sono da assumersi come valori attesi;
- una categorizzazione delle unità lessicali con diversi criteri (liste di stop words, classi di parole per
categorie grammaticali [sostantivi, verbi, aggettivi e avverbi] e/o per classi d'interesse
[morfologiche, semantiche] o per funzione sintattica [soggetto, predicato ecc.], nomi di persone,
toponimi, altre_entità [sigle, date, numeri, valute ecc.], tipo di lessico [originale,
sovra/sottoutilizzato, banale]);
- una descrizione delle costanti del testo, in termini del suo imprinting (incidenza percentuale di
classi di parole) in grado di differenziare i testi, di individuarne il tono (discorso astratto/concreto,
positivo/negativo) o di selezionare il codice del materiale testuale (lessico parlato/scritto, il genere
dell'autore ecc.) [Bolasco & Canzonetti, 2003; Bolasco & della Ratta-Rinaldi, 2004].
14. L'incessante crescita delle risorse informatiche dimostra che ogni 2-3 anni le dimensioni dei testi
analizzabili con un personal computer si decuplica: nel 1995 analizzo corpus di 400mila occorrenze
(Tpg) [Bolasco, 1996], nel 1998 di 4 milioni (Polif), nel 2000 di 25 milioni (l'annata di un
quotidiano) e nel 2003 di oltre 250 milioni di occorrenze (DB_Rep90 [Bolasco & Canzonetti,
2003]. Quest'ultimo corpus produce un vocabolario di oltre 1 milione di forme grafiche diverse (non
tutte necessariamente parole) e un inventario con 4,5 milioni di segmenti ripetuti (non tutti
poliformi), a soglia di 20 occorrenze: un'immensa miniera di dati su cui sviluppare la linguistica da
corpus). Nel 2006 … dove arriveremo?
14.1 Con queste prospettive di crescita, si deduce che solo lo studio in profondità del significato del
testo può dare robustezza all'analisi automatica del testo. Con la crescita delle risorse linguistiche
disponibili (oltre ai dizionari elettronici, qui ci si riferisce alla costruzione di basi di conoscenza
[wordnet: http://www.cogsci.princeton.edu/~wn/], di thesauri, di ontologie, indispensabili a rappresentare
domini particolari; così come all'allineamento di dizionari multilingue per la traduzione automatica
8
cf. Bolasco (1999, p. 196).
4
[eurowordnet: http://www.illc.uva.nl/EuroWordNet/]), questo obiettivo comincia a diventare una realtà
praticabile9 e lo sarà sempre di più in futuro.
14.2 In quest'ottica, un ulteriore riferimento è costituito dai lavori sull' Information Extraction di
alcuni dipartimenti di Intelligenza Artificiale; fra gli altri, i contributi di M.T. Pazienza [1999, 2003]
dell'Università "Tor Vergata" di Roma.
15. In questo contesto, dalla metà degli anni '90, si sviluppano le tecnologie di Text Mining (TM)
che servono a far fronte all'eccesso di informazione, di cui tutti oramai "soffriamo" nel nostro agire
quotidiano. Si tratta di tecnologie e procedure utili soprattutto alle aziende/istituzioni che mettono in
concatenazione azioni di Information Retrieval e di Information Extraction. Tali procedure sono
possibili solo dopo un trattamento "in profondità" del linguaggio naturale (NLP) e con l'ausilio di
tecniche statistiche tipiche del Data Mining.
In generale, un'attività di TM presuppone l'esistenza di un document warehouse (DW) come corpus
da analizzare [Sullivan, 2001]. L'interesse di trasformare un insieme di testi non strutturati in un
insieme di dati strutturati (spesso allocati in un database tradizionale) dai quali estrarre
un'informazione che produca valore per l'azienda/istituzione è sviluppato in una logica di
Knowledge Management e di Business Intelligence [Sirmakessis, 2003].
I campi applicativi privilegiati nel TM sono:
• CRM: classificazione e indirizzamento automatico delle e-mail, nella gestione dei rapporti con
la clientela, mediante integrazione di tecnologie statistiche di classificazione (basate su parole
chiave o analisi di concetti) e tecnologie linguistiche di estrazione dell'informazione, basate sulla
comprensione del testo contenuto nel messaggio;
• Customer Opinion Survey: analisi automatica delle segnalazioni e/o reclami pervenuti per
telefono o posta elettronica; monitoraggio costante delle opinioni espresse dai clienti in forum di
discussione virtuale, come newsgroup e chat; analisi di domande aperte nelle survey
quali/quantitative;
• Gestione delle risorse umane: controllo della motivazione aziendale a partire dall'analisi
automatica delle opinioni espresse dai dipendenti in occasione di apposite rilevazioni; analisi dei
curriculum vitae on-line per l'estrazione di specifici skills professionali;
• Osservazioni sulla concorrenza e sull'utenza: monitoraggio della situazione del mercato – sia in
termini di potenziali clienti che di concorrenti – mediante il reperimento sul Web di liste di aziende,
corredate dalle informazioni desiderate; analisi dell’immagine dell’azienda così come emerge
dall’esame automatico di notizie e articoli;
• Technology Watch e analisi dei brevetti: ricerca e archiviazione sistematica di informazioni
sulle tecnologie esistenti per l’identificazione dei settori in maggiore sviluppo; analisi automatica
delle informazioni testuali contenute nei brevetti per identificare settori di ricerca emergenti;
• Analisi di basi documentali settoriali (economico-finanziarie, giuridiche, epidemiologiche,
medico-farmaceutiche ecc.) con estrazione automatica di contenuti (per parole chiave o per
concetti), riconoscimento di argomenti e relativa categorizzazione semantica;
• Natural Language Processing: costruzione di risorse linguistiche e di basi di conoscenza
specifiche (dizionari, grammatiche, liste di termini tipici di un determinato settore o argomento) e
predisposizione di sistemi per la gestione di interrogazioni in linguaggio naturale, ad esempio
nell'ambito di sistemi di e-government.
16. Dalle applicazioni di TM finora sviluppate emerge che:
9
Dal centro ricerche IBM di Pisa sono nate negli anni 1980-1990, a livello d'industrializzazione della lingua, società
(Synthema, Expert System e Celi) in grado di sviluppare tali risorse, assai costose, per l'elaborazione del linguaggio
naturale (NLP).
5
-
la messa a punto dei supporti al NLP è fortemente time consuming (le basi di conoscenza, le
regole di associazione, le ontologie sono dipendenti dal dominio applicativo e devono essere
costruite ad hoc);
una volta popolato il database strutturato a partire dal document warehouse non strutturato, non
sempre si utilizzano tecniche statistiche di sintesi e di ulteriore estrazione dell'informazione.
17. Il Text Mining è quindi un'applicazione specifica di Text Analysis (TA) ed in sostanza
costituisce solo una delle possibili finalizzazioni di un'analisi testuale. La statistica testuale riveste
una funzione cruciale nel TM per il successo dell'applicazione, ma dipende dagli sviluppi che, a
monte di essa, vengono posti in essere per realizzare l'analisi automatica del testo.
18. Fonti e strumenti. Contributi significativi riguardanti l'intero settore di studi e ricerche in TA e
TM sono in riviste quali, fra le altre: Cahiers de Lexicologie, Computers and Humanities, ACM
Computing Surveys, Journal of Quantitative Linguistics, Linguisticae Investigationes, Literary and
Linguistic Computing, Mots, Semiotica, TAL. Fra le riviste on-line da segnalare: Lexicometrica
(http://www.cavi.univ-paris3.fr/lexicometrica/).
Nell'ambito delle attività dell'european "Network of Excellence in text MIning and its applications
in Statistics", NEMIS (http://nemis.cti.gr), si contano oltre 160 software disponibili per la TA e il
TM. A questi devono aggiungersi altri applicativi spesso sviluppati direttamente presso i soggetti
istituzionali coinvolti nell'attività di TM.
Fra gli strumenti più diffusi per il TM sono da menzionare: i moduli nelle librerie di programmi di
SAS (Text Miner), di IBM (Intelligent Miner, DB2 Information Integrator for Content [http://www3.ibm.com/software/data/eip/features_infomining.html]), di SPSS (LexiQuest Mine and Clementine
[http://www.spss.it/solutions/lexiquest/default.htm], di TEMIS (On-line Miner).
Fra gli strumenti più noti per le analisi lessicometriche di scuola francese (in ordine di centralità dei
pacchetti):
Lexico3
(http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/),
Alceste
(http://www.image.cict.fr/),
Sphinx
(http://www.lesphinx-developpement.fr/),
WordMapper
(http://www.grimmersoft.com/Fr/index_fichiers/), Hyperbase (http://ancilla.unice.fr/~brunet/pub/hyperbase.html),
Spad (http://www.decisia.com/), Tropes (http://www.acetic.fr/).
Come strumenti di NLP: Intex (http://www.nyu.edu/pages/linguistics/intex/), Unitex (http://ladl.univ-mlv.fr/),
Glossanet (per ottenere concordanze dai principali giornali on line: http://glossa.fltr.ucl.ac.be/).
Fra gli strumenti sviluppati in Italia, per l'analisi del contenuto: Taltac (www.taltac.it) e T-Lab
(http://www.tlab.it/); per l'NLP:
Lexical Studio (http://www.synthema.it/documenti/Prodotti_LexicalStudio_i.pdf),
Dbt (http://www.ilc.cnr.it/viewpage.php/sez=ricerca/id=62/vers=ita).
19. Nel panorama di strumenti disponibili per l'italiano, in ambito della Text Analysis, TALTAC
[Bolasco (2000, 2002)] costituisce un ambiente integrato di risorse linguistiche e risorse statistiche
per il trattamento automatico lessico-testuale di un corpus di testi, con possibilità di:
- normalizzare il testo (standardizzazione di grafie, riconoscimento di poliformi ed altre
entità);
- individuare segmenti ripetuti e non;
- lessicalizzare sequenze/poliformi d'interesse e lavorare con unità miste e complesse;
- categorizzare il testo in termini sia grammaticali, sia semantici;
- effettuare concordanze, anche mediante espressioni regolari, e calcoli per l'estrazione di
informazione;
- effettuare statistiche sull'imprinting del testo;
- estrarre entità significative e il linguaggio peculiare con risorse
endogene (analisi delle specificità),
esogene (confronto con lessici di frequenza);
- importare liste/lessici personalizzati;
6
-
esportare matrici <forme × testi> o <frammenti × forme>;
esportare il corpus categorizzato/selezionato da elaborare anche con altri software di TA.
20. Nell'analisi automatica dei testi, le prospettive future riguardano:
a) sul versante linguistico, il progredire della lemmatizzazione semantica e del tagging tematico
rispetto a tassonomie generaliste e/o settoriali; lo sviluppare basi di conoscenza e reti semantiche
(anche multilingue, come eurowordnet) per consentire l'analisi in profondità del senso di ogni
termine (e quindi della frase) mediante parser morfo-sintattici (lemmatizzatori automatici), ai fini
dell'estrazione di informazione e della categorizzazione automatica;
b) sul versante statistico, lo sviluppare applicazioni "mirate"; fra queste, ad esempio, quelle legate
ad analisi di tipo discriminante, ad analisi di matrici a 3 vie, oppure alla sperimentazione dell'analisi
non simmetrica (in cui viene privilegiata una variabile "indipendente" - il linguaggio dipende da
elementi quali il sesso, l'età o il tempo -) nella tradizione dell'ANSC, o anche ad analisi delle cooccorrenze lessicali multiple [Martinez, 2003].
La comunità scientifica che lavora in Italia10 in questo ampio settore di ricerca comincia a
consolidarsi, come viene illustrato nell'indagine riportata nell'Appendice di questo volume.
Riferimenti bibliografici
Benzécri J. P. (1963). Cours de linguistique mathématique. Rennes: Université de Rennes.
Benzécri J. P. (1973). L'Analyse des Données (2 tomes), Dunod, Paris
Benzécri J.P. (1982). Histoire et Préhistoire de l'Analyse des Données, Bordas Dunod, Paris
Benzécri J. P. et al. (1981). Pratique de l'Analyse des Données Linguistique et Lexicologie, Paris: Dunod.
Benzécri J. P. et coll. (1986). Pratique de l'analyse des données. Medicine. Dunod, Paris
Biber D. et al. (1998). Corpus Linguistics. London
Bolasco S. (1990). Sur différentes stratégies dans une analyse des formes textuelles: une expérimentation à partir de
données d'enquête, in M. Bécue, L. Lebart, N. Rajadell (eds.) JADT 1990 Jornades Internationals D'Analisi
de Dades Textuals, Barcellona: UPC, 1982 p. 69-88
Bolasco S. (1996). Il lessico del discorso programmatico di governo in Villone M. Zuliani A. (a cura di) L'attività dei
governi della repubblica italiana (1948-1994), Bologna: Il Mulino, p. 163-349.
Bolasco S. (1998). Meta-data and Strategies of Textual Data Analysis: Problems and Instruments, , in Hayashi et al.
(eds.) Data Science, Classification and Related Methods, (proceedings V IFCS - Kobe, 1996) SpringerVerlag Tokio, pp. 468-479.
Bolasco S., Morrone A. (1998), La construction d’un lexique fondamental de polyformes selon leur usage, in S. Mellet
(ed.), JADT, Proceedings, Université de Nice, p. 155-66.
Bolasco S. (1999). Analisi Multidimensionale dei Dati. Carocci Ed., Roma.
Bolasco S. (2000a). TALTAC: un environnement pour l’exploitation de ressources statistiques et linguistiques dans
l’analyse textuelle. Un exemple d’application au discours politique. JADT2000, EPFL, Lausanne 9-11 marzo,
tome 2, p. 342-353.
Bolasco S. (2002). Integrazione statistico-linguistica nell'analisi del contenuto in B. Mazzara (a cura di) Metodi
qualitativi in psicologia sociale, Carocci Ed. Roma.
Bolasco S., Canzonetti A. (2003). Some insights into the evolution of 1990s' standard Italian using Text Mining
techniques and automatic categorisation. CLADAG-2003, Book of Short papers, Università di Bologna, p. 57-60.
Bolasco S., Baiocchi F., Canzonetti A., della Ratta F., Feldman A. (2004). Applications, sectors and strategies of Text
Mining, a first overall picture, in S. Sirmakessis (ed.) Text Mining and Its applications, Springer Verlag,
Heidelberg, p. 37-52.
Bolasco S., Bisceglia B., Baiocchi F. (2004). Estrazione di informazione dai testi in Mondo Digitale, III, 1, 2004, p. 2743
Bolasco S., della Ratta-Rinaldi F. (2004). “Experiments on semantic categorisation of texts: analysis of positive and
negative dimension”, in Purnelle G., Fairon C., Dister A. (eds), Le poids des mots, Actes des 7es journées
10
E non solo. Fra gli "italiani all'estero" si veda l'interessante contributo di Roberto Franzosi nella ricerca socio-storica,
testimoniato in un recente volume (2004), dove l'autore illustra il lavoro di raccolta, organizzazione e analisi dei dati in
una prospettiva di moderna analisi del contenuto, facendo uso di story grammars, di database relazionali e di modelli
reticolari.
7
Internationales d’Analyse Statistique des Données Textuelles, UCL, Presses Universitaires de Louvain, p.
202-210.
Bortolini U., Zampolli A. (1971). Lessico di frequenza della lingua italiana contemporanea: prospettive metodologiche,
in Atti del Convegno Internazionale di Studi "L' insegnamento dell'italiano in Italia e all'estero", Vol. 2,
Bulzoni, Roma 1971, 639-648.
Brunet E. (1981). Le vocabulaire français de 1789 à nos jours, Genève Paris: Slatkine-Champion.
Brunet E. (ed.) (1986). Méthodes quantitatives et informatiques dans l'étude des textes (ouvrage collectif en hommage à
Charles Muller), Genève - Paris, Slatkine - Champion.
Brunet E. (1988) Le vocabulaire de Victor Hugo, Champion Slatkine, Paris.
Busa R. (1974-1980). Index Thomisticus: Sancti Thomae Aquinatis operum omnium Indices et Concordantiae,
Frommann – Holzboog, Stuttgart, 56 voll.
Busa R. (1987). Fondamenti di Informatica Linguistica, Vita e pensiero, Milano.
Carli R., Paniccia R.M. (2002). L'analisi emozionale del testo. Franco Angeli, Milano.
Chiari I. (2004). Informatica e lingue naturali. Teorie e applicazioni computazionali per la ricerca sulle lingue. Aracne,
Roma, pp. 157.
Chomsky N. (1957). Syntactic Structures, Mouton.
De Mauro T. (1989). I Vocabolari ieri e oggi, in "Il vocabolario del 2000" a cura di IBM Italia, Roma.
De Mauro T. (1980). Guida all'uso delle parole. Roma: Editori Riuniti.
De Mauro, T., Mancini, F., Vedovelli, M., Voghera, M. (1993). Lessico di frequenza dell'italiano parlato, Milano:
EtasLibri.
Elia A. (1984). Le verbe italien. Les completives dans les phrases à un complement, Shena-Nizert, Fassano di Puglia Parigi.
Fairon C. (ed.) (1999). Analyse lexicale et syntaxique: le système Intex in Linguisticae Investigationes, Tome
XXII/1998-1999.
Franzosi R. (2004). From Words to Numbers. Narrative, Data and Social Science. Cambridge University Press.
Cambridge, pp. 476.
Gross M. (1968). Grammaire transformationnelle du français: 1) Syntaxe du verbe. Cantilène, Paris.
Guiraud P. (1954). Les caractères statistiques du vocabulaire. Puf, Paris
Harris Z.S. (1968). Mathematical structure of language. Wiley & Sons, New York.
Herdan G. (1956). Language as choice and chance. Groningen, Noordhoff.
Herdan G. (1964). Quantitative Linguistics. London, Butterworth & Co. Publishers (trad. it. 1971, Bologna: Il Mulino).
Labbé D. (1990). Normes de saisie et de dépouillement des textes politiques, Cahier du CERAT, Grenoble.
Labbé D. (1990). Le vocabulaire de François Mitterand, Presses de la Fondation Nationale de Sciences Politiques,
Paris.
Labbé D. (2003). Corneille dans l'ombre de Molière. Les Impressions Nuovelles, Paris.
Lafon P. (1980). Sur la variabilité de la fréquence des formes dans un corpus. Mots , 1, 127-165.
Lafon P. (1984). Dépouillement s et statistique en lexicométrie. Ed. Slatkine et Champion, Genève-Paris.
Lafon P., Lefevre J., Salem A., Tournier M., (1985). «Le Machinal » Principes d’enregistrement informatiquedes
textes, Publ. Inalf, coll. St. Cloud, Klincksieck, Paris.
Lauro C., D'Ambra L. (1984). L'analyse non symmétrique des correspondances, Third International Symposium Data
Analysis And Informatics, North-Holland.
Lebart L. (1982). Exploratory Analysis of Large Sparse Matrices, with Application to Textual Data. COMPSTAT,
Physica Verlag, Vienna p. 67-76.
Lebart L., Salem A. (1988). Analyse statistique des données textuelles. Dunod, Paris.
Lebart L., Piron M., Steiner .F. (2003). La sémiométrie. Essai de statistique structurale. Dunod, Paris.
Lebart L., Salem A. (1994). Statistique textuelle. Dunod, Paris.
Lebart L., Salem A., Berry L. (1998). Exploring textual data, Kluwer Academic Publishers.
Mani I., Maybury M.T. (2001). Advances in Automatic Text Summarization, The MIT Press, Cambridge (Mass).
Marconi L, Ratti D. et al. (1994). Lessico Elementare. Dati statistici sull'Italiano Scritto e Letto dai bambini delle
elementari, Bologna: Zanichelli.
Martinez W. (2003). Contribution à une méthodologie de l'analyse des cooccurrences lexicales multiples dans les
corpus textuels. (Thèse de doctorat) Univ. Paris 3.
Muller, Ch. (1973). Initiation aux méthodes de la statistique linguistique. Paris: Hachette. (ristampa Champion 1992).
Muller, Ch. (1977). Principes et méthodes de statistique lexicale. Paris: Hachette. (ristampa Champion 1992).
Pazienza M.T. (ed.) (1999). Information Extraction. Towards Scalable, Adaptable Systems. Lecture Notes in Artificial
Intelligence 1714. Springer-Verlag, Berlin Heidelberg.
Pazienza M.T. (ed.) (2003). Information Extraction in the Web Era. Lecture Notes in Artificial Intelligence 2700.
Springer-Verlag, Berlin Heidelberg.
Poibeau T. (2003). Extraction Automatique d'Information: du texte brut au web semantique, Hermes - Lavoisier, Paris.
Pottier B. (1992). Théorie et analyse en linguistique. Hachette, France.
Reinert M. (1986). Un logiciel d'analyse lexicale: ALCESTE. Les Cahiers de l'analyse des données, vol. XI, 4, pp.471484.
8
Reinert M., (1990). Alceste, une methodologie d'analyse des données textuelles et une application: Aurélia de Gerard
de Nerval, Bull. de Method. Sociol., 26.
Reinert, M. (1992). I mondi lessicali di un corpus di 304 racconti di incubi attraverso il metodo “Alceste” in Cipriani
R., Bolasco S., Ricerca qualitativa e computer. Milano: Franco Angeli, 1995.
Reinert M. (1993). Quelques problèmes méthodologiques posés par l'analyse de tableaux "Enoncés x Vocabulaire".
JADT 93, Secondes Journées Internationales d'Analyse Statistique de Données Textuelles - Montpellier 2122 octobre, TELECOM, Paris.
Reinert M. (2003). Le rôle de la répétition dans la representation du sens et son approche statistique par la méthode
"ALCESTE". Semiotica 147 - 1/4. p. 389-420.
Salem A. (1987). Pratique des segments répétés. Essai de statistique textuelle. Klincksieck, Paris.
Salton G. (1989) Automatic Text Processing : The Transformation, Analysis and Retrieval of Information by Computer,
Addison-Wesley.
Sebastiani F. (2002). Machine Learning in Automated Text Categorization, ACM Computing Surveys, Vol. 34, n°1, p.
1-47.
Silberztein, M. (1993). Dictionnaires électroniques et analyse automatique de textes.Le système INTEX. Paris: Masson.
Sirmakessis S. (ed.) (2004). Text Mining and Its applications, Springer Verlag, Heidelberg.
Sullivan, D. (2001). Document Warehousing and Text Mining: Techniques for Improving Business Operations,
Marketing, and Sales. Wiley, N.Y.
Tournier, M. (1980). D'où viennent les frequences de vocabulaire. Mots, 1, 189-209.
Vietri S., Elia A. (2001). Analisi automatica dei testi e dizionari elettronici in E. Burattini e R. Cordeschi (eds.),
Intelligenza artificiale, Carocci, Roma.
Yule G. U. (1944). A statistical study of vocabulary. Cambridge, Cambridge Univ. Press.
Zipf G. K., (1935). The psychobiology of language. An introduction to dynamic philology, Houghton-Mifflin, Boston,
(trad. franc. La psychobiologie du language, Paris, RETZ-CEPL, 1974).
Zipf G. K. (1949). Human Behaviour and the Principle of Least Effort, Addison-Wesley Press, Boston.
9