AIP L`ANALISI AUTOMATIZZATA dei DATI TESTUALI: IL

AIP
Seminario residenziale – Psicologia del discorso e
analisi dei discorsi
L’ANALISI AUTOMATIZZATA dei
DATI TESTUALI:
IL SOFTWARE ALCESTE
Silvia Gattino e Stefano Tartaglia
Dipartimento di Psicologia – Università degli Studi di Torino
Vico Equense, 25-28 agosto 2012
LE ANALISI LESSICALI
AUTOMATIZZATE
Si basano sulla numerizzazione del testo
trasformazione delle forme lessicali in numeri
Si attuano per mezzo di analisi quantitative basate
sul conto delle frequenze di parole nelle analisi
testuali le frequenze vengono chiamate occorrenze
Significato delle parole non considerato in fase di
analisi
LE ANALISI LESSICALI
AUTOMATIZZATE
Risultati ottenuti richiedono interpretazione
Permettono una lettura molto superficiale di testi
molto lunghi
hanno senso su testi molto grossi altrimenti meglio
analisi qualitative
Bolasco (1999): piccolo un testo di 15.000 parole
DUE CATEGORIE di PROGRAMMI
di ANALISI TESTUALI
1. Analisi dei dati qualitativi assistita dal
computer: approccio semiautomatico (Atlas-T; NVivo; Etnograph; NUD-IST)
2. Analisi statistica dei dati testuali: approccio di
tipo lessicometrico confronto dei profili
lessicali. Basato sulla distribuzione delle
occorrenze delle parole senza passare attraverso
la lettura diretta del testo. Analisi fondata sulle
parole, ossia sulla frammentazione del testo
nelle sue unità minime costitutive (Alceste,
Lexico, Taltac, Spad -T, T-Lab…)
4
L’UNITÀ di ANALISI
Prima scelta problematica che si incontra nell’analisi
informatizzata dei testi
L’unità di analisi è la parola, ma cosa si intende per
parola?
Una possibilità è considerare una parola ogni forma
grafica differente
L’UNITÀ di ANALISI
Però …
Vi sono forme grafiche differenti che hanno lo
stesso significato (singolari e plurali, maschili e
femminili)
Vi sono forme grafiche uguali che hanno
significati differenti.
Es.: Stato
LA LEMMATIZZAZIONE
Per lemmatizzazione si intende: riconduzione di una
forma flessa alla sua forma canonica (vocabolario)
Molti programmi fanno una lemmatizzazione
automatica con risultati non sempre soddisfacenti
Alceste fa differenti gradi di lemmatizzazione dalla
semplice riduzione alla radice al tagging
grammaticale
LA LEMMATIZZAZIONE
In qualsiasi lemmatizzazione automatica
bisogna mettere in conto un certo numero di
errori
Meglio effettuarne una parte a mano
(Disambiguazione)
CASI PARTICOLARI
Polirematiche: poliformi che acquistano un senso
diverso rispetto ai significati elementari delle parole
semplici che le compongono. Es.: capo dello stato, carta
di credito, fare l’indiano
Alcuni programmi (es.:Taltac) le riconoscono
automaticamente altri (es.:Alceste) creano elenchi di
segmenti ripetuti che possono servire ad individuare
alcune polirematiche presenti nei testi
Una volta individuate le polirematiche si possono legare
nel testo per considerarle un’unica unità di analisi
CASI PARTICOLARI
Parole utensili: vi sono parole molto frequenti nei
testi ma che non ci aiutano a descrivere il significato
veicolato dal testo.
Sono funzionali alla costruzione del discorso. Es.:
congiunzioni, verbi ausiliari …
Molti programmi (anche Alceste) ne riconoscono un
buon numero automaticamente
UNITÀ di TESTO
La logica su cui si basano la maggior parte delle
analisi lessicali automatizzate è la ricerca di cooccorrenza di parole (unità di analisi) all’interno
di testi.
Se due parole compaiono spesso insieme vuol
dire che veicolano un significato comune
Cosa si intende per testo?
UNITÀ di TESTO
Il testo è l’equivalente del caso in una normale
matrice dati. Le analisi vengono fatte su una matrice
Testi per Forme
Ad esempio un testo può essere:
un periodo o una frase
la risposta ad una domanda di un intervista
le associazioni libere prodotte da un soggetto ad
una parola stimolo
Testi brevi (associazioni libere, risposte a singole
domande concise): ogni testo è un caso
Testi lunghi: i programmi li tagliano in modo
automatizzato in frammenti più brevi
Utilizzando dei separatori ( , . ; : …)
In modo automatico ogni tot parole
La logica è che i frammenti non devono essere
troppo lunghi perché interessa rilevare quali parole
sono spesso vicine nel testo presupponendo che se
sono vicine sia per dei motivi ben precisi
Quando i testi vengono frammentati le righe della
matrice di lavoro non corrispondono per forza a casi
differenti (soggetti, articoli, documenti …)
Nella terminologia di Alceste si distingue tra:
Unità di Contesto Iniziali (UCI): testi interi
Unità di Contesto Elementari (UCE):
frammenti
ANALISI dei DATI
Due principali strategie svolte
Frammenti di testo per Forme
sulla
matrice
1. Classificazione gerarchica
Si riuniscono in classi i frammenti con il
testo più simile (ovvero con molte cooccorrenze di parole)
2. Analisi delle Corrispondenze Lessicali
Si estraggono Componenti latenti per
spiegare graficamente le relazioni tra parole
ANALISI dei DATI
Alceste opera una classificazione
discendente dei frammenti (UCE)
gerarchica
Vi è anche la possibilità di una Analisi delle
corrispondenze successiva prodotta sulla base della
matrice parole per classi utilizzando le classi create
in precedenza
Non sempre analisi fatte seguendo strategie differenti
portano a risultati interpretabili in modo simile
Tartaglia, S., Gonella, R., & Rollero, C. (2006)
Analisi di un corpus di titoli di giornale: un confronto tra
strategie
JADT 2006: 8es Journées Internationales d’Analyse
statistique des Données Textuelles. Besançon Cedex: Presses
Universitaires de Franche-Comté. pp. 889-901
http://lexicometrica.univ-paris3.fr/jadt/jadt2006/PDF/II-079.pdf