AIP Seminario residenziale – Psicologia del discorso e analisi dei discorsi L’ANALISI AUTOMATIZZATA dei DATI TESTUALI: IL SOFTWARE ALCESTE Silvia Gattino e Stefano Tartaglia Dipartimento di Psicologia – Università degli Studi di Torino Vico Equense, 25-28 agosto 2012 LE ANALISI LESSICALI AUTOMATIZZATE Si basano sulla numerizzazione del testo trasformazione delle forme lessicali in numeri Si attuano per mezzo di analisi quantitative basate sul conto delle frequenze di parole nelle analisi testuali le frequenze vengono chiamate occorrenze Significato delle parole non considerato in fase di analisi LE ANALISI LESSICALI AUTOMATIZZATE Risultati ottenuti richiedono interpretazione Permettono una lettura molto superficiale di testi molto lunghi hanno senso su testi molto grossi altrimenti meglio analisi qualitative Bolasco (1999): piccolo un testo di 15.000 parole DUE CATEGORIE di PROGRAMMI di ANALISI TESTUALI 1. Analisi dei dati qualitativi assistita dal computer: approccio semiautomatico (Atlas-T; NVivo; Etnograph; NUD-IST) 2. Analisi statistica dei dati testuali: approccio di tipo lessicometrico confronto dei profili lessicali. Basato sulla distribuzione delle occorrenze delle parole senza passare attraverso la lettura diretta del testo. Analisi fondata sulle parole, ossia sulla frammentazione del testo nelle sue unità minime costitutive (Alceste, Lexico, Taltac, Spad -T, T-Lab…) 4 L’UNITÀ di ANALISI Prima scelta problematica che si incontra nell’analisi informatizzata dei testi L’unità di analisi è la parola, ma cosa si intende per parola? Una possibilità è considerare una parola ogni forma grafica differente L’UNITÀ di ANALISI Però … Vi sono forme grafiche differenti che hanno lo stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati differenti. Es.: Stato LA LEMMATIZZAZIONE Per lemmatizzazione si intende: riconduzione di una forma flessa alla sua forma canonica (vocabolario) Molti programmi fanno una lemmatizzazione automatica con risultati non sempre soddisfacenti Alceste fa differenti gradi di lemmatizzazione dalla semplice riduzione alla radice al tagging grammaticale LA LEMMATIZZAZIONE In qualsiasi lemmatizzazione automatica bisogna mettere in conto un certo numero di errori Meglio effettuarne una parte a mano (Disambiguazione) CASI PARTICOLARI Polirematiche: poliformi che acquistano un senso diverso rispetto ai significati elementari delle parole semplici che le compongono. Es.: capo dello stato, carta di credito, fare l’indiano Alcuni programmi (es.:Taltac) le riconoscono automaticamente altri (es.:Alceste) creano elenchi di segmenti ripetuti che possono servire ad individuare alcune polirematiche presenti nei testi Una volta individuate le polirematiche si possono legare nel testo per considerarle un’unica unità di analisi CASI PARTICOLARI Parole utensili: vi sono parole molto frequenti nei testi ma che non ci aiutano a descrivere il significato veicolato dal testo. Sono funzionali alla costruzione del discorso. Es.: congiunzioni, verbi ausiliari … Molti programmi (anche Alceste) ne riconoscono un buon numero automaticamente UNITÀ di TESTO La logica su cui si basano la maggior parte delle analisi lessicali automatizzate è la ricerca di cooccorrenza di parole (unità di analisi) all’interno di testi. Se due parole compaiono spesso insieme vuol dire che veicolano un significato comune Cosa si intende per testo? UNITÀ di TESTO Il testo è l’equivalente del caso in una normale matrice dati. Le analisi vengono fatte su una matrice Testi per Forme Ad esempio un testo può essere: un periodo o una frase la risposta ad una domanda di un intervista le associazioni libere prodotte da un soggetto ad una parola stimolo Testi brevi (associazioni libere, risposte a singole domande concise): ogni testo è un caso Testi lunghi: i programmi li tagliano in modo automatizzato in frammenti più brevi Utilizzando dei separatori ( , . ; : …) In modo automatico ogni tot parole La logica è che i frammenti non devono essere troppo lunghi perché interessa rilevare quali parole sono spesso vicine nel testo presupponendo che se sono vicine sia per dei motivi ben precisi Quando i testi vengono frammentati le righe della matrice di lavoro non corrispondono per forza a casi differenti (soggetti, articoli, documenti …) Nella terminologia di Alceste si distingue tra: Unità di Contesto Iniziali (UCI): testi interi Unità di Contesto Elementari (UCE): frammenti ANALISI dei DATI Due principali strategie svolte Frammenti di testo per Forme sulla matrice 1. Classificazione gerarchica Si riuniscono in classi i frammenti con il testo più simile (ovvero con molte cooccorrenze di parole) 2. Analisi delle Corrispondenze Lessicali Si estraggono Componenti latenti per spiegare graficamente le relazioni tra parole ANALISI dei DATI Alceste opera una classificazione discendente dei frammenti (UCE) gerarchica Vi è anche la possibilità di una Analisi delle corrispondenze successiva prodotta sulla base della matrice parole per classi utilizzando le classi create in precedenza Non sempre analisi fatte seguendo strategie differenti portano a risultati interpretabili in modo simile Tartaglia, S., Gonella, R., & Rollero, C. (2006) Analisi di un corpus di titoli di giornale: un confronto tra strategie JADT 2006: 8es Journées Internationales d’Analyse statistique des Données Textuelles. Besançon Cedex: Presses Universitaires de Franche-Comté. pp. 889-901 http://lexicometrica.univ-paris3.fr/jadt/jadt2006/PDF/II-079.pdf