6. analisi lessicale avanzata ed esportazione dei dati

6.
ANALISI LESSICALE AVANZATA
ED ESPORTAZIONE DEI DATI
TESTUALI CON TALTAC
Il trattamento del testo con TALTAC, l’estrazione del lessico, dei segmenti e
le opzioni di modifica del corpus comportano la possibilità – e a volte la necessità - di esportare i file per analisi da condurre successivamente con altri
software, come DTM, SPAD, Alceste, WordMapper, ecc. In questo capitolo
vedremo come gli strumenti messi a disposizione da TALTAC permettono di
esportare tabelle lessicali ricche di informazioni e facilmente elaborabili da fogli elettronici come Excel, oppure di ricostruire il corpus secondo particolari
esigenze di ricerca.
Con questo scopo l’analisi lessicale può essere condotta con strumenti
più raffinati e con modifiche dei testi che possono incidere in modo significativo sulle forme grafiche e anche sul contenuto stesso del corpus. Alcune procedure illustrate in questo capitolo devono essere usate con molta cautela avendo bene in vista le finalità ultime dell’analisi e quindi le ipotesi che la sostengono.
6. 1. IL TAGGING GRAMMATICALE AVANZATO
Il riconoscimento di base delle categorie grammaticali lascia inalterate (e
quindi non riconosciute) molte forme grafiche. Tra le forme flesse dei verbi,
ad esempio, non vengono riconosciute le enclitiche, cioè le forme con i suffissi glielo, gliene, melo, telo, tene, ecc. Come pure non vengono classificate le forme
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
83
Capitolo 6
alterate con suffissi diminutivi, vezzeggiativi, peggiorativi, come gattino, gattaccio, libretto, libriccino, ecc.; o i derivati di sostantivi e aggettivi come decenne, ventenne, tredicenne, assistenziale, adolescenziale. Vi sono poi i prefissi come anti-, super-,
a-, ri-, in forme come antinvecchiamento, superlavoro, apolitico, rifare, ecc.
Dal menu Moduli, selezioniamo Analisi lessicale – Tagging grammaticale –
Vocabolario [TALTAC] e poi, nella finestra di dialogo (fig. 4.8) le fasi di tagging avanzato “Enclitiche verbali”, “Derivati e Alterati”, “Forme con prefissi
più comuni”, “Forme con altri Prefissi”.
Le forme riconosciute, che nel tagging di base erano 2.914, in seguito a
questa procedura sono 3.032 su un totale di 3.145 forme distinte. Le forme
flesse dei verbi, che erano 425 nel tagging di base, ora sono 468.
Sulla nuova lista “Vocabolario”, dal menu Calcola, selezioniamo il comando Fusioni di – Lemma/Lessia. I lemmi dei verbi individuati sono ora 284 a
fronte dei 267 del passaggio di base. Il guadagno di informazione, in questo
caso, non è altissimo: le 43 nuove forme flesse appartengono tutte alla classe
degli hapax e quindi, in termini di occorrenze, non comportano un guadagno
significativo nella copertura del testo. Questo risultato, tuttavia, è condizionato dalla dimensioni del corpus e dalla ricchezza del vocabolario. In genere
questo passaggio di raffinamento del tagging rende più efficiente la lemmatizzazione dei verbi che, spesso, è l’unica forma di lemmatizzazione consigliata
con una procedura automatica senza dover intervenire con operazioni “manuali”.
6. 2 RICOSTRUZIONE DEL CORPUS
Dopo la fase di tagging gramaticale è possibile procedere alla ricostruzione
del corpus sulla base delle forme grafiche categorizzate. Questo può essere
molto utile per l’esportazione del corpus e per analisi successive.
Dal menu Moduli selezioniamo Gestione unità lessicali e poi Ricostruzione del
Corpus con forme categorizzate.
L’output ci fornisce nuovamente il corpus aggiungendo alle forme
un’etichetta che ne permette l’identificazione. Le forme ambigue (J) sono senza etichetta di identificazione (J) con il segno di underline (Regno_); le forme
non riconosciute rimangono inalterate (Sardegna, Cipro, Gerusalemme).
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
84
Analisi lessicale avanzata ed esportazione dei dati testuali con TALTAC
$P#A_Statuto
statuto_N del_PREP Regno_ di_ Sardegna
Carlo_Alberto_NM
per_PREP la_ grazia_di_Dio_N Re_N di_ Sardegna , di_ Cipro e_ di_ Gerusalemme , Duca_N di_ Savoja , di_ Genova , di_ Monferrato , d'_PREP
Aosta , eccetera_AVV
con_PREP lealtà_N di_ Re_N e_ con_PREP affetto_ di_ Padre_N Noi_PRON
veniamo_V oggi_ a_ compiere_V quanto_ avevamo_V annunziato_ ai_ Nostri_ amatissimi_A sudditi_ col_PREP Nostro_ proclama_ dell'_PREP
8_NUM dell'_PREP ultimo_ scorso_ febbraio_N , con_PREP cui_PRON abbiamo_V voluto_ dimostrare_V , in_mezzo_agli_PREP eventi_N straordinarii_A che_ circondavano_V il_DET paese_N , come_ la_ Nostra_ confidenza_N in_ loro_ crescesse_V colla_ gravità_N delle_PREP circostanze_N , e_ come_ prendendo_V unicamente_AVV consiglio_ dagli_ impulsi_
Il file così generato viene salvato automaticamente nella cartella di lavoro
con un nome di file già identificato: LEX1_TT_ricoFG.txt (ricostruzione delle
Forme Grafiche).
La ricostruzione del corpus può avvenire anche in base alle forme lemmatizzate. Dal menu Moduli selezioniamo Ricostruzione del corpus e poi la voce:
Con lemmi.
L’output ci fornisce ancora una volta il corpus sostituendo, dove è possibile, alle forme grafiche il lemma corrispondente. Le forme ambigue o non
riconosciute restano inalterate. Come si è detto nel par. 4.6, questo tipo di
lemmatizzazione automatica effettuata per tutte le categorie grammaticali non
dà risultati attendibili. La procedura, per essere davvero efficiente, richiede degli interventi manuali di disambiguazione da parte dell’analista.
$P#A_Statuto
statuto_N di_PREP Regno_ di_ Sardegna
Carlo_Alberto_NM
per_PREP la_ grazia_di_Dio_N re_N di_ Sardegna , di_ Cipro e_ di_ Gerusalemme , duca_N di_ Savoja , di_ Genova , di_ Monferrato , di_PREP
Aosta , eccetera_AVV
con_PREP lealtà_N di_ re_N e_ con_PREP affetto_ di_ padre_N noi_PRON
veniamo_V oggi_ a_ compiere_V quanto_ avere_V annunziato_ ai_ nostro_
amato_A suddito_ con_PREP nostro_ proclama_ di_PREP 8_NUM di_PREP ultimo_ scorso_ febbraio_N , con_PREP cui_PRON avere_V voluto_ dimostrare_V , in_mezzo_a_PREP evento_N straordinario_A che_ circondare_V
il_DET paese_N , come_ la_ nostro_ confidenza_N in_ loro_ crescere_V
colla_ gravità_N di_PREP circostanza_N , e_ come_ prendere_V unicamente_AVV consiglio_ dagli_ impulsi_ di_PREP nostro_ cuore_N fosse_
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
85
Capitolo 6
Va osservato come la forma amatissimi_A (forma alterata) sia stata trasformata
durante la lemmatizzazione in amato_A, la forma avevamo_V in avere_V, ecc.
La forma Nostra_ confidenza_N è modificata in nostro_ confidenza_N perché nel
vocabolario la forma ambigua Nostra_J (A+N+PRON) può essere inequivocabilmente lemmatizzata in nostro_ anche senza essere stata disambiguata nelle
sue categorie grammaticali distinte.
Il file così generato viene salvato automaticamente nella cartella di lavoro
con il nome: LEX1_TT_ricoLEMMI.txt (ricostruzione delle Forme Grafiche).
6. 3. RICOSTRUZIONE DEL CORPUS CON SELEZIONE
DI ALCUNE CATEGORIE
Una terza modalità di ricostruzione del corpus ci permette di selezionare quali
forme vogliamo lemmatizzare lasciando le altre inalterate.
Fig. 6.1. – Selezione delle categorie grammaticali
Come si è detto nel par. 6.2, la lemmatizzazione dei verbi in genere porta ad
ottimi risultati anche in una procedura del tutto automatizzata. Le forme flesse
dei verbi e le enclitiche verbali generano raramente forme ambigue delle quali
il programma non sia in grado di decidere la categoria grammaticale di appartenenza. Questo vale, sebbene in misura minore, anche per gli aggettivi che
vengono ricondotti alla forma maschile singolare. Ve detto che per gli aggettivi la lemmatizzazione fa perdere questa distinzione di genere che, invece, è
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
86
Analisi lessicale avanzata ed esportazione dei dati testuali con TALTAC
fortemente connotata sul piano semantico. In ogni caso queste sono scelte che
l’analista può compiere con consapevolezza attraverso la procedura di selezione della categorie grammaticali.
Dal menu Moduli selezioniamo Ricostruzione del corpus e poi la voce: Con
selezione di alcune categorie.
Nella finestra di dialogo (fig. 6.1) possiamo lasciare inalterate le categorie di
default oppure de-selezionare aggettivi e preposizioni lasciando esclusivamente i verbi. Il corpus verrà ricostruito con le forme grafiche originali, lemmatizzando esclusivamente le categorie indicate. Il file così generato viene salvato
automaticamente nella cartella di lavoro con un nome di file già identificato:
LEX1_TT_ricoSELCAT.txt.
$P#A_Statuto
statuto_N di_PREP Regno_ di_ Sardegna
Carlo_Alberto_NM
per_PREP la_ grazia_di_Dio_N Re_N di_ Sardegna , di_ Cipro e_ di_ Gerusalemme , Duca_N di_ Savoja , di_ Genova , di_ Monferrato , di_PREP
Aosta , eccetera_AVV
con_PREP lealtà_N di_ Re_N e_ con_PREP affetto_ di_ Padre_N Noi_PRON
veniamo_V oggi_ a_ compiere_V quanto_ avere_V annunziato_ ai_ Nostri_
amato_A sudditi_ con_PREP Nostro_ proclama_ di_PREP 8_NUM di_PREP ultimo_ scorso_ febbraio_N , con_PREP cui_PRON avere_V voluto_ dimostrare_V , in_mezzo_a_PREP eventi_N straordinario_A che_ circondare_V
il_DET paese_N , come_ la_ Nostra_ confidenza_N in_ loro_ crescere_V
colla_ gravità_N di_PREP circostanze_N , e_ come_ prendere_V unicamente_AVV consiglio_ dagli_ impulsi_ di_PREP Nostro_ cuore_N fosse_
ferma_ Nostra_ intenzione_N di_ conformare_V le_ loro_ sorti_ alla_
ragione_N dei_ tempi_N , agli_ interessi_ ed_CONG alla_ dignità_N
di_PREP Nazione_N .
In questo caso, avendo scelto di lemmatizzare solo aggettivi, preposizione e
verbi (A, PREP, V) le forme ai_ Nostri_ amati_A sudditi sono state stata modificate in ai_ Nostri_ amato_A sudditi.
Utilizzando questa procedura è possibile generare un corpus in cui sono
state cancellate alcune forme grafiche a scelta dell’analista. Per questo scopo si
utilizza la casella in basso a sinistra della finestra di dialogo (fig. 6.1). La procedura è la seguente.
1) Dal menu Moduli selezioniamo Estrazione di informazione e poi la voce Visualizza DataBase di Sessione (la procedura si effettua più rapidamente dal
menu Finestra, se i DB di Sessione sono già state aperti in precedenza).
2) Apriamo la lista ”Vocabolario [TALTAC] (con TAG grammaticale” de-
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
87
Capitolo 6
selezionando la casella a destra in basso della finestra di dialogo “Sola lettura” in modo da aprire la lista in modalità “scrittura”.
3) Ora, nella lista delle forme grafiche, in corrispondenza delle forme che desideriamo cancellare nella ricostruzione del corpus, scriviamo DEL (delete)
nella colonna “Categoria grammaticale”. Questa procedura può essere
compiuta anche per selezione delle categorie con lo strumento “Text/Data
Mining” (vedi 6.4).
Al termine di questa operazione, tutte le forme che desideriamo eliminare nella ricostruzione del corpus riporteranno il tag DEL nel campo “Categoria
grammaticale”. In questo esempio abbiamo marcato con il tag DEL le preposizioni, i determinanti, le congiunzioni e i pronomi.
Dal menu Moduli selezioniamo Ricostruzione del corpus e poi la voce: Con
selezione di alcune categorie. Nella finestra di dialogo (fig. 6.1) lasciamo inalterate le
opzioni di default e marchiamo la casella in basso a sinistra: “Elimina FG classificate con DEL (funzione di pulitura del testo)”. Il risultato sarà il seguente:
$P#A_Statuto
statuto_N Regno_ di_ Sardegna
Carlo_Alberto_NM
la_ grazia_di_Dio_N Re_N di_ Sardegna , di_ Cipro e_ di_ Gerusalemme
, Duca_N di_ Savoja , di_ Genova , di_ Monferrato , Aosta , eccetera_AVV
lealtà_N di_ Re_N e_ affetto_ di_ Padre_N veniamo_V oggi_ a_ compiere_V quanto_ avere_V annunziato_ ai_ Nostri_ amato_A sudditi_ Nostro_
proclama_ 8_NUM ultimo_ scorso_ febbraio_N , avere_V voluto_ dimostrare_V , eventi_N straordinario_A che_ circondare_V paese_N , come_
la_ Nostra_ confidenza_N in_ loro_ crescere_V colla_ gravità_N circostanze_N , e_ come_ prendere_V unicamente_AVV consiglio_ dagli_ impulsi_ cuore_N fosse_ ferma_ Nostra_ intenzione_N di_ conformare_V
le_ loro_ sorti_ alla_ ragione_N dei_ tempi_N , agli_ interessi_ alla_ dignità_N Nazione_N .
Questa procedura può essere molto utile per la pulitura di testi digitalizzati
con un’alta componente di “rumore”, come i messaggi e-mail o i messaggi di
forum e newsgroup (Giuliano, 2004), oppure per ridurre le dimensioni di corpora molto grandi alle sole forme ritenute significative per l’analisi, specialmente nell’analisi multimensionale.
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
88
Analisi lessicale avanzata ed esportazione dei dati testuali con TALTAC
6. 4. TEXT/DATA MINING ED ESPORTAZIONE DI MATRICI
Lo strumento “Text/Data Mining” è di grande utilità, non solo per
l’esplorazione del corpus attraverso le liste generate dal programma, ma anche
per selezionare le matrici da esportare per il loro utilizzo in altri software di
analisi testuale. Negli esempi che seguono prenderemo come riferimento il
“Vocabolario” della sessione, ma le stesse operazioni possono essere compiute sulle altre liste come le liste di fusione delle forme/lessie, le liste dei segmenti, le liste di specificità o le liste di confronto tra lessici (intersezione, unione o forme originali).
Con la lista “Vocabolario” aperta nella finestra di lavoro, rendiamo attivo
un campo selezionando la colonna sulla quel desideriamo operare; per esempio selezioniamo la colonna “Forma grafica” ponendo il cursore
sull’intestazione della colonna stessa. Così facendo la colonna assume un colore e questo indica che è “attiva”.
Ora clicchiamo sull’icona “Text/Data Mining” della barra degli strumenti (oppure selezioniamo il comando Text/Data Mining dal menu Record) ed
apriamo la finestra di dialogo:
Fig. 6.2. – Finestra di dialogo del Text/Data Mining
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
89
Capitolo 6
Come si può osservare (fig. 6.2) il “criterio di selezione del campo” indicato
nella casella è quello da noi selezionato: “Forma grafica”. I parametri successivi ci permettono di compiere delle operazioni logiche e delle operazioni di selezione tali da visualizzare esclusivamente i record di nostro interesse. Tali record “visibili” possono essere salvati in matrici da esportare. Per esempio rispetto al campo “Forma Grafica”, per il criterio “Records LIKE” scriviamo
“giur*”. L’asterisco * sta per “qualsiasi carattere”. Così facendo otterremo
l’elenco delle forme grafiche che iniziano per “giur” (fig. 6.3).
Fig. 6.3. – Selezione delle forme grafiche che iniziano con giur-.
Oppure, selezionando il campo “Categoria grammaticale”, per il criterio “Records LIKE” scriviamo “V” ottenendo solo le forme grafiche della categoria
“Verbi” (fig. 6.4).
Fig. 6.4. – Selezione delle forme grafiche: verbi
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
90
Analisi lessicale avanzata ed esportazione dei dati testuali con TALTAC
Ciascuna di queste matrici è dotata di tutte le informazioni contenute nelle colonne della lista, compresi i campi “nascosti”, sempre visualizzabili dal menu
Formato, voce Scopri campo, e poi selezionando il campo da scoprire (per esempio le sub-occorrenze del corpus). La matrice attiva nella finestra di lavoro
è esportabile in un file di testo (perfettamente importabile in Excel) dal menu
File, comando Esporta in un file di testo, voce Solo i record visibili.
Le operazioni di selezione più interessanti che si possono compiere dalla
finestra di dialogo dello strumento Text/Data Mining sono:
1) La selezione dei nomi astratti (non direttamente percepibili dai sensi) come libertà, proprietà, famiglia, maggioranza, sicurezza, dignità, società, ecc. Nel corpus LEX1 sono 172.
2) La selezione secondo il numero delle occorrenze con gli operatori di > < e
=. Per esempio una selezione sulla base delle occorrenze maggiori di 5 visualizza una matrice di 393 record (forme grafiche distinte).
3) La selezione “Records LIKE” che, come si è visto, permette di individuare
le forme grafiche oppure di selezionare sulla base delle categorie grammaticali.
4) La selezione dei campi vuoti/non vuoti. Il campo vuoto è un campo in cui
non vi è alcun carattere. Le forme non riconosciute dal tag grammaticale
hanno il campo vuoto.
La casella “Applica solo i records visibili” permette le operazioni di affinamento della selezioni: marcando la casella, la selezione successiva avviene solo sulla
lista selezionata attiva.
Lo strumento “Text/Data Mining” permette di eseguire molte altre operazioni utili per la costruzione di matrici di lavoro. La consultazione del manuale, l’esperienza dell’utente, la sua fantasia e i problemi che si presentano in
ogni analisi in modo originale ed imprevisto, possono generare nuove soluzioni e nuovi percorsi. L’analisi dei dati testuali non trova facilmente procedure
standardizzate valide una volte per tute e applicabili a tutti i testi. Questo fa
parte del suo fascino. L’obiettivo è sempre molto ambizioso: ricavare da una
massa enorme di dati le informazioni ritenute essenziali e dotate di senso. E’
una sfida sempre aperta all’innovazione e quindi tale da richiedere approcci
nuovi e ancora inesplorati.
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
91
7.
ANALISI MULTIMENSIONALE
DEI DATI TESTUALI CON DTM
DTM (Data and Text Mining) è un software di statistica per l’esplorazione multidimensionale di dati complessi che comprendono dati numerici e testuali. Il
software è stato sviluppato sotto la direzione di Ludovic Lebart sulla base della versione per DOS di SPAD-N (Système Portable pour l’Analyse des Données) e
SPAD-T. Le applicazioni principali riguardano l’elaborazioni di dati quantitativi tratti da questionari e di risposte aperte (oppure di testi). In particolare, per
quanto riguarda l’analisi testuale, DTM permette di effettuare l’analisi delle
corrispondenze sulle tabelle di incrocio tra vocabolario e testi (APLUM) e tra
parole e risposte (ASPAR), di costruire le tabelle lessicali di contingenza tra
parole e testi (MOTEX e TALEX), di effettuare la classificazione gerarchica
automatica delle risposte (RECIP).
Il programma (aggiornato al 9 settembre 2004), sviluppato per fini didattici, è scaricabile dal sito www.lebart.org e funziona in Windows (qualsiasi versione) principalmente sulla base di esempi di applicazione delle procedure
principali. Seguendo le istruzioni è però possibile, con molte limitazioni rispetto al software completo (15.000 soggetti, righe; 1.000 variabili, colonne), far
girare il software anche sui propri dati. In generale si tratta di un software di
uso “non facilitato” che è rivolto a studiosi e non ad un generico pubblico di
utenti. Ne è una testimonianza lo stesso linguaggio utilizzato, una versione mista in francese e in inglese. L’uso del programma richiede l’apprendimento (in
gran parte “esecutivo”) di istruzioni e sintassi molto rigide sulle quali operare
pochi cambiamenti, trascurando tutto ciò che non è immediatamente utile e
lasciando inalterati molti parametri senza entrare nel merito delle loro funzioni.
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
93
Capitolo 7
7. 1. PREPARAZIONE DEL CORPUS
Dopo aver installato il programma (seguendo le istruzioni fornite sul sito)
prendiamo in esame, prima di tutto, il corpus originale del nostro esempio
(LEX1.txt) così come è stato ricostruito da TALTAC in seguito alla fase di
tagging grammaticale di base, senza la lessicalizzazione dei segmenti. Chiameremo questo corpus con il nome di LEX1_TT_ricoFG.txt e lo copiamo nella
cartella di lavoro LEX1_DTM (la cartella di lavoro può essere posizionata dovunque, anche sul desktop).
Tab. 7.1 – Caso A: un individuo / una riga
****Testo 1
questa è la
questa è la
...
questa è la
...
questa è la
****Testo 2
questa è la
questa è la
...
questa è la
...
questa è la
****Testo j
....
****Testo k
questa è la
questa è la
...
questa è la
...
questa è la
====
prima riga del testo 1
seconda riga del testo 1
! Individuo 1 – Testo 1
! Individuo 2 – Testo 1
i-esima riga del testo 1
! Individuo i – Testo 1
n-esima riga del testo 1
! Individuo n – Testo 1
prima riga del testo 2
seconda riga del testo 2
! Individuo 1 – Testo 2
! Individuo 2 – Testo 2
i-esima riga del testo 2
! Individuo i – Testo 2
n-esima riga del testo 1
! Individuo n – Testo 2
prima riga del testo k
seconda riga del testo k
! Individuo 1 – Testo k
! Individuo 2 – Testo k
i-esima riga del testo k
! Individuo i – Testo k
n-esima riga del testo k
! Individuo n – Testo k
Tab. 7.2 – Caso B: un individuo / più righe
****Testo 1
questa è la prima riga del testo 1
questa è la seconda riga del testo 1
Individuo 1 – Testo 1
---...
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
94
Analisi multidimensionale dei dati testuali con DTM
---questa è la
---...
---questa è la
...
****Testo 2
questa è la
questa è la
...
questa è la
---...
---questa è la
...
****Testo j
....
****Testo k
questa è la
questa è la
...
questa è la
---...
---questa è la
====
i-esima riga del testo 1
Individuo i – Testo 1
n-esima riga del testo 1
Individuo n – Testo 1
prima riga del testo 2
seconda riga del testo 2
Individuo 1 – Testo 2
i-esima riga del testo 2
n-esima riga del testo 2
prima riga del testo k
seconda riga del testo k
Individuo n – Testo 2
Individuo 1 – Testo k
i-esima riga del testo k
n-esima riga del testo k
Individuo n – Testo k
Il file deve essere preparato per il trattamento in DTM. La strategia generale
che adotteremo consiste esclusivamente nell’analisi del corpus secondo la partizione in quattro testi. Pertanto occorre inserire nel file i marcatori adeguati
per una corretta decodifica da parte del software.
In questo tipo di applicazione, che convenzionalmente si chiama Texte o
Text, il corpus può avere una delle due forme indicate in tabella 1 (caso A: un
individuo / una riga) o in tabella 2 (caso B: un individuo / più righe).
Nel caso A ogni riga (risposta) viene considerata come un individuo.
Ogni testo è composto di n individui (risposte).
Nel caso B ogni individuo può avere una risposta che continua su più righe. Pertanto la risposta viene considerata come un individuo. Anche in questo caso ogni testo è composto di n individui (risposte). Ogni risposta è delimitata dal marcatore ----.
In entrambi i casi (e anche per la redazione di tutti i file di lavoro: parametri, dizionario, dati) la lunghezza delle righe deve obbligatoriamente contenere al massimo 80 colonne (caratteri).
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
95
Capitolo 7
preparazione del testo viene effettuata nell’editor di testi TextPad (cap. 2) per
la riduzione della lunghezza delle righe e l’inserimento dei marcatori.
In seguito al passaggio in TextPad, il corpus (salvato con il nome
LEX1_TT_ricoFG80.txt ) si presenterà come segue:
****A_Statuto
statuto_N del_PREP Regno_ di_ Sardegna
Carlo_Alberto_NM
per_PREP la_ grazia_di_Dio_N Re_N di_ Sardegna , di_ Cipro e_ di_ Gerusalemme ,
Duca_N di_ Savoja , di_ Genova , di_ Monferrato , d'_PREP Aosta ,
eccetera_AVV
con_PREP lealtà_N di_ Re_N e_ con_PREP affetto_ di_ Padre_N Noi_PRON
veniamo_V oggi_ a_ compiere_V quanto_ avevamo_V annunziato_ ai_ Nostri_
amatissimi_A sudditi_ col_PREP Nostro_ proclama_ dell'_PREP 8_NUM dell'_PREP
ultimo_ scorso_ febbraio_N , con_PREP cui_PRON abbiamo_V voluto_ dimostrare_V
...
****B_Roma
costituzione_N DELLA_PREP REPUBBLICA_N ROMANA_ , 1849_NUM
principii_N FONDAMENTALI_
la_ sovranità_N è_V per_diritto_AVV eterno_ nel_PREP popolo_ . il_DET popolo_
dello_PREP Stato_N Romano_NM è_V costituito_ in_ repubblica_N democratica_ .
il_DET regime_N democratico_ ha_ per_PREP regola_ l'_DET eguaglianza_N , la_
libertà_N , la_ fraternità_N . non_ riconosce_V titoli_ di_ nobiltà_N ,
...
****C_Italia
costituzione_N della_PREP Repubblica_N italiana_
edizione_N del_PREP 1_NUM gennaio_N 1948_NUM
principî fondamentali_
l'_DET Italia_N è_V una_ Repubblica_N democratica_ , fondata_ sul_lavoro_AVV
...
****D_ONU
dichiarazione_N UNIVERSALE_ DEI_ DIRITTI_ DELL'_PREP UOMO_N
preambolo_N
considerato_ che_ il_DET riconoscimento_N della_PREP dignità_N inerente_ a_
tutti_ i_ membri_ della_PREP famiglia_N umana_ , i_ loro_ diritti_ , uguali_
ed_CONG inalienabili_A , costituisce_V il_DET fondamento_N della_PREP
libertà_N , della_PREP giustizia_ e_ della_PREP pace_N nel_PREP mondo_ ;
...
un_DET atto_ mirante_V alla_ distruzione_N dei_ diritti_ e_ delle_PREP
libertà_N in_ essa_ enunciati_ .
10_NUM dicembre_N 1948_NUM
====
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
96
Analisi multidimensionale dei dati testuali con DTM
7. 2. ANALISI DELLE CORRISPONDENZE BINARIE: PREPARAZIONE
DEL FILE DEI PARAMETRI PER LA PROCEDURA APLUM
DTM esegue il programma in fasi che devono essere sequenziali in base alle
istruzioni contenute nel file dei parametri.
ARTEX
SELOX
NUMER
MOTEX
MOCAR
APLUM
Fig. 7.1. – Fasi della procedura APLUM
Nella nomenclatura dei parametri illustrati qui di seguito, con:
• individuo (individu/individual) si intende l’entità in cui viene ripartito il testo
(ogni individuo può fornire una o più domande/risposte);
• risposte (réponses/responses) sono i testi attribuiti a ciascun individuo a seconda
delle domande (questions);
• stampa si intende la modalità di visualizzazione nel file di output dei risultati
dall’analisi (imp.txt).
I termini domande aperte e risposte derivano dal fatto che il software è utilizzato
soprattutto per l’elaborazione delle risposte alle domande aperte dei questionari.
Il file di output dei risultati viene ricoperto ad ogni analisi successiva. Se
si desidera salvare il risultato per ogni fase occorre rinominare il file imp.txt
prima di procedere con l’esecuzione della fase successiva.
ARTEX è la fase in cui viene costruito l’archivio dei dati testuali.
Parametri:
ityp:
ncol:
lirep:
tipo di dati testuali nel file ntexz
(text = 1, enquire = 2).
lunghezza dei record delle risposte.
indica la fine implicita della risposta
(1 = 1 riga/1 risposta).
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
97
Capitolo 7
SELOX è la fase in cui vengono scelte le domande aperte da trattare.
Parametri:
numq:
indice delle domande selezionate;
se numq = -1 o numq = list
allora ci saranno insieme diverse domande
(nella riga successiva saranno elencate
le domande secondo il n. d’ordine).
Se si tratta di un corpus suddiviso in testi (come nel caso in esempio), allora
nella fase ARTEX ityp = 1, ne consegue che nella fase SELOX numq = 1,
cioè si istruisce il programma ad elaborare una sola domanda.
NUMER è la fase di codifica numerica dei testi.
Parametri:
valore di default 1; da 2 a 10 per corpora più
grandi). Si tratta di un coefficiente tecnico che
indica al programma la frequenza delle forme
grafiche per lunghezza; in alcuni casi può essere
sostituito da histo (vedi sotto).
nseu:
numero che indica la soglia di frequenza delle
forme grafiche da trattare.
nxlet: numero massimo di lettere per forma.
nxmax: numero massimo di forme distinte.
ledit: stampa delle parole (0 = no, 1 ordine alfabetico,
2 ordine di frequenza, 3 = tutto).
nmomi: numero che indica la soglia di lunghezza delle
parole.
weak '"-+
(separatori deboli).
strong .;:()!?,
(separatori forti).
histo 40 110 220 430 550 550 600 530 450 300 210 110 75 60 >
50 25 10 10 05 05 (parametri di default che possono essere
modificati secondo le necessità).
end
(fine della fase).
coef:
Con il parametro coef il comando histo non è necessario. La sequenza di valori inserita qui come esempio è semplicemente la sequenza di default che viene attivata da coef = 1. Con coef = 2 i valori della sequenza saranno moltiplicati per 2:
80 220 440 860 1100 1100 1200 1060 900 600 420 220 150 120 >
100 50 20 20 10 10
Questi valori indicano che il programma si attende che ci siano 80 forme grafi-
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
98
Analisi multidimensionale dei dati testuali con DTM
che distinte con una lunghezza di 1 carattere; 220 con lunghezza 2, 440 con
lunghezza 3; e così via fino a 10 con lunghezza 20. Non è previsto che vi siano
parole più lunghe di 20 caratteri. Per quanto riguarda le parole di una lingua
questo è quasi sempre vero (benché la parola più lunga del vocabolario italiano sia di 26 lettere). Se vi sono parole più lunghe il programma le legge, ma le
tronca al ventesimo carattere. Questo non è un grosso problema perché le
forme sono quasi sempre riconoscibili con venti caratteri (cioè è piuttosto raro
che due forme con 21 o più caratteri abbiano i primi 20 caratteri nella stessa
sequenza).
Invece si tratta di un errore grave se le forme massime previste per una
certa lunghezza di caratteri sono inferiori a quelle effettive. Se accade questo, il
programma ignora le forme eccedenti. Nell’output questo è segnalato dal fatto
che alcuni valori della distribuzione delle forme per lunghezza sono identici sia
per le forme previste che per le forme effettive riscontrate. La procedura è
corretta solo se per tutti e venti i valori la forme previste eccedono di almeno
1 le forme effettive. Se questo non si verifica allora bisogna inserire, al posto
del parametro coef che può essere ignorato, il comando histo (senza il segno
di = ) seguito da una sequenza di valori secondo le necessità. La sequenza di
valori corretta si ottiene attraverso prove successive fino a quando tutti i valori
previsti sono maggiori dei valori effettivi.
Per l’esempio in corso dovremo preparare il seguente il file dei parametri
(denominato LEX1par1.txt) da salvare nella cartella di lavoro LEX1_DTM
che conterrà già il file con il corpus.
Tra gli esempi contenuti nel software non c’è un file parametri da seguire
come traccia per questa procedura. Occorre sottolineare anche che i nomi dei
parametri e dei comandi in alcuni esempi sono in inglese (weak, strong) mentre nell’help sono riportati in francese (faible, fort). Funzionano in entrambe le
dizioni. Anche le modalità dei parametri sono utilizzate in forma diversa (pur
essendo identiche); per esempio, nel seguente file di parametri, nella fase
NUMER, il parametro LEDIT può essere indicato come =3 oppure =tot.
Anche l’uso delle lettere maiuscole o minuscole è indifferente.
#****** Il programma richiede 2 file in formato txt
# ------------------------------------------#****** 1) Il presente file di parametri (LEX1_par1.txt)
#
2) Il file di testo (NTEXZ = 'LEX1_TT_ricoFG80.txt')
#****** Il programma produce il file di output IMP.txt (risultati)
#****** Sintassi: ">"= continuazione, "#"= commenti
LISTP = no, LISTF = no
# (lascia questo così com’è)
NTEXZ = 'LEX1_TT_ricoFG80.txt' # nome file di testo (nome libero)
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
99
Capitolo 7
STEP ARTEX
==== Archive - Texts or responses to open ended questions
ITYP=1
LIREP=1 NCOL=80
STEP SELOX
==== Selection of open questions and of individuals
NUMQ = 1
STEP NUMER
==== Numerical coding of words
NSEU=0 NMOMI=0 LEDIT=3 NXLET =20 NXMAX=5000
weak "-+
strong .;:()!?,
histo 40 110 220 430 550 550 600 530 450 400 400 300 200 150 >
150 100 100 100 100 100
end
STOP
Tra i separatori deboli è stato eliminato l’apostrofo per evitare che le forme
create da TALTAC come:
DELL'_PREP
al_principio_d'_PREP
all'_PREP
vengano spezzate nelle forme distinte:
DELL
PREP
al_principio_d
PREP
all
PREP
Il corpus ricostruito da TALTAC contiene sempre forme molto più lunghe
delle parole in lingua italiana, in quanto ogni parola riconosciuta è stata classificata in una forma grammaticale e quindi identificata da una tag. Inoltre vi
sono molti poliformi o segmenti lessicalizzati (creati dall’analista) che portano
la lunghezza delle forme ad eccedere il numero massimo di 20 caratteri (il poliforme dell’esempio qui sotto è costituito da 37 caratteri). Questo comporta un
innalzamento della frequenza di forme grafiche attese nelle classi di lunghezza
15-20. Purtroppo, in questi casi, accade anche che le forme abbiano i primi 20
caratteri in comune, per cui le forme vengono troncate e conteggiate come se
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
100
Analisi multidimensionale dei dati testuali con DTM
appartenessero ad una forma unica. Per esempio:
presidente_del_Consiglio_dei_ministri
presidente_del_Consiglio
occorr. 5
occorr. 1
Le due forme vengono riconosciute come:
presidente_del_Consi
occorr. 6
L’unico modo per distinguere le due forme (se fosse ritenuto necessario per
l’analisi) è di modificarle con un codice come prefisso. Per esempio:
1presidente_del_Cons (iglio_dei_ministri)
2presidente_del_Cons (iglio)
A questo punto, con il file del corpus LEX1_TT_ricoFG80.txt e con il file dei
parametri LEX1par1.txt nella stessa cartella di lavoro possiamo aprire il programma cliccando sull’icona DTM per accedere alla barra dei menu:
Fig. 7.2. – Barra dei menu di DTM
Dalla menu Parameters selezioniamo la voce Open e apriamo il file parametri
LEX1_par1.txt nella cartella di lavoro. Se necessario, possiamo modificare i
parametri, ricordandoci però di salvare il nuovo file dal menu File – Save o Save as...
Se non sono necessarie modifiche, clicchiamo sul comando Return e ritorniamo sulla barra del menu principale. Clicchiamo su Execute per avviare
l’esecuzione del programma. Dopo qualche secondo appare una finestra di
controllo delle fasi (step) eseguite.
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
101
Capitolo 7
Fig. 7.3. – Finestra di controllo delle fasi eseguite
Se non ci sono errori di scrittura della sintassi (segnalati da una interruzione
del programma) possiamo esaminare l’output cliccando sul menu Results –
Open. L’output va esaminato con estrema attenzione anche nel caso in cui tutte
le fasi vengano eseguite perché possono esserci ugualmente degli errori, sebbene non così decisivi da bloccare l’esecuzione del programma.
L’output (file imp.txt nella cartella di lavoro) è sempre piuttosto “pesante” e dovremo esaminarlo, per quanto è possibile, da monitor, stampando solo
le parti essenziali quando riterremo di aver completato l’analisi.
L’output illustra tutte le fasi eseguite e i rispettivi parametri, fornendo le
tabelle e gli eventuali grafici richiesti (che però sono visualizzabili in modo più
efficace sul “visualizzatore grafico”, come vedremo).
Nella fase NUMER dovremo fare attenzione ad alcune informazioni:
• number of responses per class: ci dice quante righe (individui) ci sono per ogni
testo. In questo caso la partizione in righe è solo una partizione di comodo
che non ha alcun significato per l’analisi, che verrà condotta sulla tabella di
contingenza delle forme × testi; in altri casi però può essere un dato di controllo essenziale.
• frequency according to the number of letters: occorre prestare attenzione (come si
è detto) al valore delle frequenze osservate in corrispondenza delle frequenze massime previste per ciascuna classe di lunghezza delle forme. Se la frequenza massima è uguale alla frequenza osservata è possibile che qualche
forma sia stata scartata in quanto eccedente il valore massimo indicato. In
questo caso sarà necessario aumentare il valore della frequenza massima
prevista nel comando histo ed eseguire di nuovo il programma.
Di seguito abbiamo i risultati principali del conteggio delle occorrenze:
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
102
Analisi multidimensionale dei dati testuali con DTM
Tab. 7.3. – Sommario dei risultati del corpus LEX1_TT a soglia 0
Summary of results
------------------total number of responses
total number of words
number of distinct words
percent.of distinct words
=
=
=
=
selection of words
-----------------frequency threshold =
kept words =
distinct kept word =
2147
14709
3149
21.4
0
14709
3149
I risultati non possono essere identici tra TALTAC (tab. 4.3) e DTM. Le piccole differenze nel conteggio delle occorrenze e delle forme grafiche distinte
(dell’ordine di qualche decina) derivano dalla diversa gestione delle forme e da
alcuni interventi (per esempio la lessicalizzazione dei segmenti) apportati sul
corpus durante il trattamento in TALTAC. L’output prosegue con l’elenco
delle forme in ordine alfabetico e in ordine di frequenza.
Nel passaggio successivo modifichiamo il parametro nseu (soglia di frequenza delle forme da conservare per l’analisi) portando il valore di soglia a 5,
cioè al valore consigliato da TALTAC (fig. 4.5). Con questo valore la frequenza minima delle forme da conservare sarà 6.
Inoltre, per selezionare le forme ai fini dell’analisi delle corrispondenze,
elaboriamo il file LEX1_TT_Lemmi_sv80.txt che contiene il corpus ricostruito
con il tag grammaticale e la lemmatizzazione dei verbi, aggettivi e sostantivi
ma senza le parole vuote. Questo nuovo corpus è stato ottenuto attraverso la
procedura di ricostruzione del corpus con selezione di alcune categorie (vedi
6.3) utilizzando la funzione DEL per le forme forzatamente marcate come
“vuote” (congiunzioni, articoli, preposizioni). Ancora una volta dobbiamo ricordare che questa lemmatizzazione “grezza” può essere utile, in questa fase,
solo per un’esplorazione descrittiva ed esemplificativa dell’associazione tra
forme e testi.
Il nuovo file dei parametri LEX1_par2.txt sarà:
#****** Il programma richiede 2 file in formato txt
# ------------------------------------------#****** 1) Il presente file di parametri (LEX1_par2.txt)
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
103
Capitolo 7
#
2) Il file di testo (NTEXZ = 'LEX1_TT_Lemmi_sv80.txt').
#****** Il programma produce il file di output IMP.txt (risultati
#****** Sintassi: ">"= continuazione, "#"= commenti
LISTP = no, LISTF = no
# (lascia questo così com’è)
NTEXZ = 'LEX1_TT_Lemmi_sv80.txt'
# nome file di testo (nome libero)
STEP ARTEX
==== Archive - Texts or responses to open ended questions
ITYP=1
LIREP=1 NCOL=80
STEP SELOX
==== Selection of open questions and of individuals
NUMQ = 1
STEP NUMER
==== Numerical coding of words
NSEU=5 NMOMI=0 LEDIT=3 NXLET =20 NXMAX=5000
weak "-+
strong .;:()!?,
histo 40 110 220 430 550 550 600 530 450 400 400 300 200 150 >
150 100 100 100 100 100
end
STOP
L’output, per la sola parte relativa al conteggio delle forme grafiche, ci
offre le seguenti informazioni.
Tab. 7.4. – Sommario dei risultati del corpus LEX1_TT a soglia 5
Summary of results
------------------total number of responses
total number of words
number of distinct words
percent.of distinct words
=
=
=
=
selection of words
-----------------frequency threshold =
kept words =
distinct kept word =
1671
8693
2500
28.8
5
5019
318
Al termine di questa fase conserviamo 318 parole distinte sulle quali possiamo
effettuare una analisi di specificità, come già si è fatto con Lexico3 e
TALTAC. Per eseguire questa procedura abbiamo bisogno di altre due fasi:
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
104
Analisi multidimensionale dei dati testuali con DTM
MOTEX e MOCAR.
MOTEX è la fase di costruzione della tabella parole × testi (mots/textes).
Parametri:
nvsel:
ledit:
numero di variabile categoriale di raggruppamento
delle risposte (valori >0 o <0 a seconda
dell’archivio; 0 se non vi sono dati associati).
parametro per la stampa della tabella
parole × testi (0 = no, 1 = si).
MOCAR è la fase di estrazione delle parole caratteristiche (mots caracteristiques).
Parametri:
nomot:
norep:
numero delle parole caratteristiche visualizzate
per ciascun testo.
numero delle risposte caratteristiche visualizzate
per ciascun testo.
Il file dei parametri LEX1_par3.txt sarà:
#****** Il programma richiede 2 file in formato txt
# ------------------------------------------#****** 1) Il presente file di parametri (LEX1_par3.txt)
#
2) Il file di testo (NTEXZ = 'LEX1_TT_Lemmi_sv80.txt').
#****** Il programma produce il file di output IMP.txt (risultati
#****** Sintassi: ">"= continuazione, "#"= commenti
LISTP = no, LISTF = no
# (lascia questo così com’è)
NTEXZ = 'LEX1_TT_Lemmi_sv80.txt'
# nome file di testo (nome libero)
STEP ARTEX
==== Archive - Texts or responses to open ended questions
ITYP=1
LIREP=1 NCOL=80
STEP SELOX
==== Selection of open questions and of individuals
NUMQ = 1
STEP NUMER
==== Numerical coding of words
NSEU=5 NMOMI=0 LEDIT=3 NXLET =20 NXMAX=5000
weak "-+
strong .;:()!?,
histo 40 110 220 430 550 550 600 530 450 400 400 300 200 150 >
150 100 100 100 100 100
end
STEP MOTEX
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
105
Capitolo 7
==== crosstabulating words and texts
NVSEL=0 LEDIT = 1
STEP MOCAR
==== caracteristics words
NOMOT=30 NOREP=20
STOP
L’output per ogni testo fornisce la frequenza normalizzata e la frequenza assoluta della forma all’interno del testo (% within), la frequenza normalizzata e la
frequenza assoluta sul corpus (global), il valore del test V e la probabilità α di
ottenere uno scarto positivo (o negativo) tra frequenza attesa e frequenza osservata.
Tab. 7.5. – Parole caratteristiche del testo A_Statuto
Selection of characteristic words
--------------------------------------------------------------------------spelling of
--- percentage--frequency
test.v
proba
word
within
global
within
global
--------------------------------------------------------------------------text number
1
A_St
---------------1 re_N
2 dopo_
3 Deputati_
4 anno_N
5 sessione_N
6 senato_N
7 Deputato_
8 Ministri_
9 statuto_N
10 camera_N
11 essere_V
12 Camera_dei_Deputati_
13 disposizione_N
14 magistrato_N
15 Stato_N
16 esecuzione_N
17 solo_
18 piú
19 membri_
20 età_N
21 giudicare_V
22 sette_
23 cinque_N
24 avere_V
25 prima_
=
atuto
4.84
1.99
.99
2.61
.87
1.61
.74
1.24
1.24
3.47
6.33
.99
.87
.99
2.11
.50
.62
.62
1.12
.50
.50
.50
.74
2.36
.50
.82
.46
.16
.92
.14
.46
.12
.34
.38
1.83
4.06
.34
.28
.36
1.14
.12
.18
.18
.50
.14
.14
.14
.30
1.51
.18
39.
16.
8.
21.
7.
13.
6.
10.
10.
28.
51.
8.
7.
8.
17.
4.
5.
5.
9.
4.
4.
4.
6.
19.
4.
41.
23.
8.
46.
7.
23.
6.
17.
19.
92.
204.
17.
14.
18.
57.
6.
9.
9.
25.
7.
7.
7.
15.
76.
9.
11.172
5.557
4.921
4.608
4.549
4.260
4.146
3.804
3.482
3.371
3.277
2.785
2.721
2.640
2.488
2.430
2.430
2.430
2.250
2.160
2.160
2.160
1.997
1.902
1.724
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
106
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.001
.003
.003
.004
.006
.008
.008
.008
.012
.015
.015
.015
.023
.029
.042
Analisi multidimensionale dei dati testuali con DTM
26 fare_V
.50
.18
4.
9.
1.724
.042
27 presente_
.62
.26
5.
13.
1.704
.044
-----------------------------17 costituzionale_A
.00
.36
0.
18.
-1.722
.043
16 regionale_A
.00
.36
0.
18.
-1.722
.043
15 lavoro_
.00
.38
0.
19.
-1.803
.036
14 ordinamento_N
.00
.38
0.
19.
-1.803
.036
13 legge_
2.11
3.19
17.
160.
-1.856
.032
12 componenti_
.00
.40
0.
20.
-1.882
.030
11 stabiliti_
.00
.42
0.
21.
-1.958
.025
10 Parlamento_
.00
.46
0.
23.
-2.104
.018
9 cittadini_
.00
.46
0.
23.
-2.104
.018
8 libertà_N
.12
.74
1.
37.
-2.251
.012
7 norma_N
.00
.54
0.
27.
-2.376
.009
6 presidente_della_Rep
.00
.62
0.
31.
-2.626
.004
5 individuo_
.00
.78
0.
39.
-3.075
.001
4 assemblea_N
.00
.80
0.
40.
-3.127
.001
3 costituzione_N
.00
.82
0.
41.
-3.179
.001
2 regione_N
.00
1.14
0.
57.
-3.934
.000
1 repubblica_N
.00
1.59
0.
80.
-4.826
.000
---------------------------------------------------------------------------
Le parole con il valore negativo del test V sono le parole “anti-caratteristiche”,
presenti significativamente nel testo in misura minore rispetto al corpus.
Al termine di questa procedura, oltre al file imp.txt con i risultati
dell’analisi, nella cartella di lavoro troveremo due nuovi file:
a) ncharword.txt che contiene l’elenco delle parole caratteristiche.
b) nchartex.txt che contiene l’elenco delle risposte caratteristiche.
In questo caso, come si è detto, le “risposte” corrispondono alle righe e
si tratta di una suddivisione di comodo non particolarmente interessante ai fini
dell’analisi.
APLUM è la fase di Analisi delle Corrispondenze sulla tabella lessicale forme
grafiche × testi.
Parametri:
naxe:
ledit:
ngraf:
npage:
nrows:
numero degli assi fattoriali
parametro di stampa delle forme (0 = no, 1 = si).
numero di grafici da visualizzare.
numero di pagine dei grafici.
numero di righe dei grafici.
Il file dei parametri LEX1_par4.txt sarà pertanto:
#****** Il programma richiede 2 file in formato txt
# ------------------------------------------#****** 1) Il presente file di parametri (LEX1_par4.txt)
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
107
Capitolo 7
#
2) Il file di testo (NTEXZ = 'LEX1_TT_Lemmi_sv80.txt').
#****** Il programma produce il file di output IMP.txt (risultati
#****** Sintassi: ">"= continuazione, "#"= commenti
LISTP = no, LISTF = no
# (lascia questo così com’è)
NTEXZ = 'LEX1_TT_Lemmi_sv80.txt'
# nome file di testo (nome libero)
STEP ARTEX
==== Archive - Texts or responses to open ended questions
ITYP=1
LIREP=1 NCOL=80
STEP SELOX
==== Selection of open questions and of individuals
NUMQ = 1
STEP NUMER
==== Numerical coding of words
NSEU=5 NMOMI=0 LEDIT=3 NXLET =20 NXMAX=5000
weak "-+
strong .;:()!?,
histo 40 110 220 430 550 550 600 530 450 400 400 300 200 150 >
150 100 100 100 100 100
end
STEP MOTEX
==== crosstabulating words and texts
NVSEL=0 LEDIT = 1
STEP APLUM
==== correspondence analysis table (words x texts)
NAXE=3 LEDIT=1 NGRAF=2
STOP
Per l’esecuzione della fase APLUM la fase MOCAR non è più necessaria.
Mentre invece è assolutamente necessaria la fase MOTEX che crea la tabella
parole × testi.
L’output della fase APLUM è molto esteso e di difficile lettura. Ne riportiamo solo una piccola parte iniziale, tralasciando i grafici che possono essere
visualizzati in DTM con un’altra procedura.
L’analisi delle corrispondenze trasforma lo spazio generato dalle variabili
di partenza in uno spazio euclideo generato da nuove variabili (assi) che permettono di sostituire le vecchie coordinate con le nuove coordinate ortogonali
(ottenute per combinazione lineare delle vecchie variabili). Il numero di dimensioni del nuovo spazio sarà pari al minimo tra righe (forme) e colonne (te-
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
108
Analisi multidimensionale dei dati testuali con DTM
sti) -1. In questo caso, con 4 testi ci saranno al massimo tre dimensioni.
L’inerzia totale riprodotta (detta anche traccia) è la somma degli autovalori,
pari a 0,78 (il massimo è 1). Il primo asse (la migliore approssimazione alla
matrice dei dati di partenza) riproduce il 46,88% dell’inerzia estratta (tab. 7.6).
In generale per una trattazione completa dell’analisi multidimensionale
dei dati e per una corretta interpretazione dei risultati si dovranno consultare
testi specialistici di statistica. In particolare si consiglia il manuale di S. Bolasco
(1999, 2004 - 2a edizione), con un’ampia bibliografia di riferimento. Per una
trattazione più agile alla portata di un utente privo di una conoscenza statistico-matematica di base, si consiglia il cap. 5 del testo di A. Tuzzi (2003), oppure il cap. 5 del manuale di Ercolani, Areni, Mannetti (1966).
Nella tab. 7.6 è riportata la somma dell’inerzia totale spiegata e la quota
di inerzia (eigenvalue; autovalore o valore proprio) spiegata da ciascun fattore.
Tab. 7.6. – Analisi delle corrispondenze: inerzia spiegata e autovalori
--------------------------------------------Accuracy of computation :
trace before diagonalisation
.7779
sum of eigenvalues
.7779
+--------+------------+----------+----------+
! number !
Eigen
! percent. ! cumulat. !
!
!
value
!
! percent. !
+--------+------------+----------+----------+
!
1
!
.3646
!
46.88 !
46.88 !
!
2
!
.2311
!
29.70 !
76.58 !
!
3
!
.1822
!
23.42 ! 100.00 !
+--------+------------+----------+----------+
Nella tab. 7.7 vediamo l’output della procedura APLUM di analisi delle corrispondenze binarie con riferimento alle coordinate e ai contributi delle colonne
della matrice (testi).
Tab. 7.7. – Analisi delle corrispondenze: coordinate e contributi delle colonne
*--------------------------------------------------------------------* name weight disto2 * coordinates * absolute con. * squared cos. *
**********************************************************************
* f1
f2
f3 * f1
f2
f3 * f1
f2
f3 *
**********************************************************************
* A_St .161 1.10 * .24 -.74
.70 * 2.5 37.7 43.8 * .05 49 .45 *
* B_Ro .114 1.58 * .24 -.79 -.95 * 1.8 30.7 56.2 * .04 39 .57 *
* C_It .610 .16 * .21
.35 -.01 * 7.4 31.6
.0 * .27 73 .00 *
* D_ON .116 2.78 *-1.67 -.03
.00 * 88.4
.0
.0 * 1.00 00 .00 *
*---------------------------------------------------------------------
Gli indicatori più rilevanti per la lettura dell’output e che quindi offrono maggiori informazioni per l’interpretazione degli assi fattoriali sono:
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
109
Capitolo 7
•
•
•
•
•
La massa (weigh): è il “peso relativo” di ciascuna modalità (testo) rispetto al
complesso della variabile (corpus). Per le forme grafiche (righe) il peso è
sempre piuttosto piccolo.
L’indice di distorsione (disto2): è la “distanza dall’origine” di ciascuna modalità; dà indicazioni sul carattere periferico di certe modalità; un indice di
distorsione molto alto si associa spesso ad una massa ridotta, il che dovrebbe indurre ad una certa cautela nel dare rilevanza a quella modalità
nell’interpretazione.
Le coordinate fattoriali (coordinates): indicano la posizione della modalità
sull’asse sia in termini di distanza dall’origine che in termini di “versante”
(positivo o negativo) dell’asse.
Il contributo assoluto (absolute contributions): è il contributo che ciascuna
modalità dà alla formazione dell’asse ed è proporzionale alla massa e al
quadrato della coordinata fattoriale; rappresenta la parte di inerzia totale del
fattore che è spiegata dalla modalità. Per ogni asse fattoriale la somma dei
contributi assoluti è uguale a 100.
Il contributo relativo (squared cosines): è un valore che rappresenta il contributo che un certo fattore Fi fornisce alla variabilità della modalità. Se il valore è basso vuol dire che la modalità non è ben rappresentata sull’asse fattoriale Fi e che quindi la sua variabilità è spiegata da altri fattori.
Per ragioni di brevità non si riporta l’output relativo alla matrice parole × testi
che è identico alla tabella 7.7 con l’unica differenza che sulle righe anziché i testi della partizione vi sono le parole. Per una valutazione dell’importanza dei
contributi assoluti alla formazione degli assi fattoriali, si può calcolare il contributo medio pari a 100/V (dove V rappresenta il numero di parole-righe della matrice). In questo caso il contributo medio assoluto è pari a 0,31 (le parole
in analisi sono 318). Pertanto potranno essere considerati “significativi” i contributi assoluti superiori a 0,3.
Le coordinate fattoriali delle modalità sono visualizzabili anche dal Menu cliccando su Axes View. Da questa finestra è possibile ottenere un primo
ordinamento delle forme grafiche in base al valore delle coordinate (cliccando
axis nella intestazione della tabella).
I grafici si apprezzano meglio con il visualizzatore grafico, cliccando dal
Menu su Plane View - Active elements, selezionando il piano che si intende visualizzare e poi confermando su Display.
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
110
Analisi multidimensionale dei dati testuali con DTM
Fig. 7.4. – Piano fattoriale degli assi 1 (ascissa) e 2 (ordinata)
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
111
Capitolo 7
Il grafico (fig. 7.4) – come capita spesso nell’analisi delle corrispondenze di
una matrice di dati testuali – è denso di punti rappresentati e quindi non sempre leggibile agevolmente. Una opzione molto utile permette di visualizzare i
punti attraverso una selezione delle forme. Cliccando su Manual selection point
dalla finestra di selezione degli assi (fig. 7.5) è possibile scegliere quali modalità
(forme grafiche) si vogliono rappresentare sul grafico.
Fig. 7.5. – Finestra di dialogo per la selezione dei punti da rappresentare sul piano
Per esempio, in questo caso, verranno selezionate le forme grafiche classificate
con il tag grammaticale come verbi (V). Il grafico che ne risulta è molto più
leggibile (fig. 7.6).
Dal grafico si osserva una netta contrapposizione sull’asse dell’ascissa tra
verbi che sono riferiti in massima parte ad atti compiuti da persone (godere, dovere, promuovere, assicurare, favorire) e verbi che si riferiscono ad atti legati a ruoli
istituzionali (stabilire, giudicare, emanare, promulgare, esercitare, potere). Sull’asse
dell’ordinata la polarità è meno chiara, ma sembrerebbe propendere sul semiasse positivo verso verbi che associano ai ruoli istituzionali funzioni di garanzia (stabilire, promuovere, promulgare, istituire) contro verbi, sul semiasse negativo, che denotano funzioni di esercizio del potere (venire, giudicare, ricevere, restare,
riunire). Questa interpretazione è solo esemplificativa perché non ci sono elementi sufficienti per sostenere una vera e propria ipotesi di strutturazione del
tessuto semantico, tuttavia appare interessante notare (fig. 7.4) come il testo
della Dichiarazione dei Diritti dell’Uomo (D_ONU) si collochi sull’estremità
sinistra del grafico (semiasse negativo dell’ascissa), il testo della Costituzione
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
112
Analisi multidimensionale dei dati testuali con DTM
Italiana (C_Italia) si collochi sul quadrante positivo (+/+) del piano, mentre lo
Statuto Albertino (A_Statuto) e il testo della Costituzione della Repubblica
Romana (B_Romana) si collochino entrambi sul quadrante negativo-positivo
(-/+).
L’analisi ha permesso di discriminare bene (e in modo automatico) tra il
testo ultra-garantista ed etico dell’ONU, riferito alla persona, e gli altri tre testi
prettamente giuridici. Tra questi è emersa una distinzione netta tra la costituzione moderna della Repubblica e le leggi costituzionali dell’Ottocento.
Fig. 7.6. – Rappresentazione dei verbi sul piano fattoriale 1 e 2
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
113
Capitolo 7
7. 3. ANALISI DELLE CORRISPONDENZE BINARIE: PREPARAZIONE
DELLA TABELLA LESSICALE PER LA PROCEDURA AFCOR
L’analisi delle corrispondenze binarie (su due variabili) può essere effettuata
anche direttamente sulla tabella lessicale forme × testi. La procedura è diversa,
ma il risultato, con una stessa tabella lessicale, sarà identico. L’interesse di questa procedura sta nella possibilità di costruire una tabella lessicale ad hoc che
contiene solo le forme grafiche ritenute interessanti per l’analisi.
La tabella lessicale che metteremo in analisi è LEX1_TT_Fusioni_di_
Lemma.txt che è stata salvata in TALTAC e contiene le forme lemmatizzate
secondo la partizione nei quattro testi. Possiamo acquisire il file in Excel per la
prima fase di preparazione in DTM. Eliminiamo le colonne che non interessano per l’analisi come Numero di unità lessicali che sono state fuse in
un’unica forma, Dispersione, Uso e Informazioni aggiuntive.
Eliminiamo le righe (forme) che non ci interessano per l’analisi: le parole
con frequenza inferiore a 11 (assumiamo una soglia di frequenza più alta che
nel caso precedente), le forme ambigue e le parole “vuote” (Congiunzioni,
Pronomi, Determinanti, Numeri, ecc.). Rimangono 121 forme: Aggettivi, Avverbi, Sostantivi, Verbi. A questo punto possiamo eliminare anche le colonne
Categoria grammaticale e Occorrenze nel corpus che ci sono servite per la selezione delle forme da conservare. Il file, salvato come LEX1_TT_Fusioni_di_
Lemma121.txt, sarà aperto in TextPad per la seconda fase di preparazione.
Il formato del file “dati” Motex121.txt in tabella per DTM deve essere il
seguente:
'essere'
'potere'
'avere'
'dovere'
'esercitare'
'promuovere'
'..........'
'..........'
51
29
19
4
2
0
..
..
33
20
6
5
3
1
..
..
108
94
39
17
13
11
..
..
12
13
12
11
1
4
..
..
Il file “dati” deve contenere una colonna di “etichette” tra gli apici che identificano le righe della tabella, cioè le forme grafiche. Gli apici possono essere
aggiunti con la procedura illustrata nel par. 2.3.12.
Il formato del file “dizionario” AC_dic.txt deve essere il seguente:
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
114
Analisi multidimensionale dei dati testuali con DTM
A_Statuto
B_Romana
C_Costituzione
D_ONU
Il file “dizionario” deve contenere le “etichette” di identificazione delle colonne della tabella, la partizione del corpus. Occorre fare attenzione alla modalità
di posizione di queste etichette che devono sempre iniziare da “colonna” 6
nella visualizzazione della pagina, cioè ogni etichetta deve essere preceduta da
5 spazi bianchi.
7. 4. ANALISI DELLE CORRISPONDENZE BINARIE: PREPARAZIONE DEL
FILE DEI PARAMETRI PER LA PROCEDURA AFCOR
Durante la procedura vengono eseguite le seguenti fasi
ARDAT
SELEC
AFCOR
Fig. 7.7. – Fasi della procedura AFCOR
Nella cartella di lavoro AC_Motex_LEX_121 copieremo tre file:
• AC_dic.txt – il file dizionario
• Motex121.txt – il file dati
• AC_par.txt– il file parametri
ARDAT è la fase in cui viene costruito l’archivio dei dati testuali.
Parametri:
nqexa:
niexa:
nidi:
numero di variabili nel dizionario ndicz
numero di individui (forme) nel file ndonz
numero di gruppi di 4 caratteri che identificano
gli individui (0=no; però è raccomandata la
presenza di almeno un gruppo di 4 caratteri).
SELEC è la fase di selezione delle variabili (attive e illustrative) e degli individui.
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
115
Capitolo 7
Parametri:
modalità di selezione degli individui (0 = tutti).
indice delle variabile “peso degli individui”
(0 = peso uniforme).
ledit: stampa del dizionario delle variabili selezionate
(0=no; 1=abbreviato; 2=esteso).
act ill nomi cont freq
end
lseli:
imass:
Il comando di selezione (prima di end) utilizza le seguenti parole chiave:
act per le variabili attive
ill per le variabili illustrative
nomi per le variabili nominali
cont per le variabili continue
freq per le frequenze
Ciascun comando deve essere seguito dall’elenco delle variabili corrispondenti.
AFCOR è la fase analisi delle corrispondenze.
Parametri:
naxe:
ledin:
naxed:
numero
stampa
(0=no;
numero
degli assi richiesti.
delle coordinate degli individui
1=attive; 2=tutte).
di coordinate stampate.
Il file parametri AC_par.txt sarà il seguente:
# Example of simple correspondence analysis
# continuation symbol = ">" (not necessary here),
# Comments symbol = "#"
#---------------------------------------------------------------LISTP = yes, LISTF=no
# Global Parameters (leave as it is)
#---------------------------------------------------------------NDICZ = 'AC_dic.txt'
NDONZ = 'MOTEX121.txt'
# name of dictionary file
# name of data file
STEP ARDAT
========== builds the Archive Dictionary and the Archive data file
NQEXA = 4, NIEXA = 121, NIDI = 1
#---------------------- Comments about step ARDAT --------------# NQEXA = ... number of questions (or variables) in both
#
the dictionary and the data file
# NIEXA = ... number of "individuals" (or rows) in the data file.
# NIDI =
... indicate the presence of an identifier (recommended)
#----------------------------------------------------------------
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
116
Analisi multidimensionale dei dati testuali con DTM
STEP SELEC
========== Selects active, supplementary variables and observations
LSELI = 0, IMASS = 0, LEDIT = 1
FREQ ACT 1 2 3 4
end
STEP AFCOR
========== two way correspondence analysis
NAXE = 3, LEDIN = 2
STOP
# End of parameter file.
L’output non è molto diverso da quelli ottenuti nella procedura APLUM. La
tabella lessicale sulla quale viene applicata l’analisi delle corrispondenze è generata in modo diverso e le forme grafiche, in questo caso sono molto più selezionate (121 a fronte della 318 selezionate in base alla soglia di frequenza 5).
Tuttavia il risultato complessivo si conforma all’interpretazione già data in
precedenza. Nella tab. 7.8 è riportata la somma dell’inerzia totale spiegata e la
quota di inerzia spiegata da ciascun fattore:
Tab. 7.8. – Analisi delle corrispondenze: inerzia spiegata e autovalori
--------------------------------------------Accuracy of computation :
trace before diagonalisation
.7258
sum of eigenvalues
.7258
+--------+------------+----------+----------+
! number !
Eigen
! percent. ! cumulat. !
!
!
value
!
! percent. !
+--------+------------+----------+----------+
!
1
!
.3365
!
46.36 !
46.36 !
!
2
!
.2102
!
28.96 !
75.32 !
!
3
!
.1791
!
24.68 ! 100.00 !
+--------+------------+----------+----------+
Nella tab. 7.9 vediamo l’output della procedura AFCOR di analisi delle corrispondenze binarie con riferimento alle coordinate e ai contributi delle frequenze attive (testi).
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
117
Capitolo 7
Tab. 7.9. – Analisi delle corrispondenze: coordinate e contributi delle frequenze
*---------------------------------------------------------------------*
* iden weight disto * coordinates * absolute con. * squared cos.
*
***********************************************************************
*
* f1
f2
f3 * f1
f2
f3 * f1
f2
f3 *
***********************************************************************
* A_St 16.02 .98 * .21 -.34 .90 * 2.1 8.9 72.9 * .05 .12 .83 *
* B_Ro 11.71 1.55 * .25 -1.08 -.58 * 2.1 64.5 21.7 * .04 .75 .21 *
* C_Co 61.40 .14 * .19
.30 -.12 * 6.7 26.5 5.3 * .26 .63 .11 *
* D_ON 10.87 2.76 *-1.66 -.04 .00 * 89.0
.1
.0 * 1.00 .00 .00 *
***********************************************************************
Anche in questo caso non si riporta l’output relativo alla matrice parole × testi ma
solo il grafico del piano fattoriale rappresentato dall’incrocio tra l’asse dell’ascissa
(F1) e l’asse dell’ordinata (F2). Dal Menu cliccando su Plane View - Active elements
richiamiamo il visualizzatore grafico e selezioniamo l’asse 1 (orizzontale) e l’asse 2
(verticale) confermando su Display.
Fig. 7.8. – Rappresentazione delle frequenze attive sul piano fattoriale 1 e 2
Il grafico (fig. 7.8) ci mostra soltanto la proiezione delle frequenze attive, cioè dei
profili colonna che rappresentano la partizione del corpus. Ancora una volta abbiamo la conferma della netta contrapposizione sull’asse dell’ascissa tra il testo
della Dichiarazione dei Diritti dell’Uomo (semiasse negativo) e le Costituzioni
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
118
Analisi multidimensionale dei dati testuali con DTM
(semiasse positivo). Sull’asse dell’ordinata vediamo invece la conferma di una differente collocazione della Costituzione Italiana (semiasse positivo) rispetto ai due
testi delle Costituzioni dell’Ottocento (semiasse negativo).
Per ottenere una rappresentazione delle parole sul piano dobbiamo ripetere l’operazione di visualizzazione del grafico chiudendo la finestra del grafico, cliccando su Return nella finestra successiva e poi dal Menu selezionando
Plane View – Individuals/rows. Tuttavia, per esemplificare meglio le possibiità di
gestione dei grafici che DTM offre all’utente, eseguiamo questa procedura selezionando dal Menu la voce Plane View2. Questo secondo visualizzatore grafico è dotato di meno opzioni rispetto al precedente ma permette di generare
un’immagine sulla quale è possibile intervenire direttamente (trascinando le
forme grafiche con il mouse) per disallineare le forme sovrapposte al fine di
ottenere una rappresentazione più leggibile, sebbene meno precisa. Dopo aver
effettuato le necessarie modifiche il grafico è salvabile in formato bitmap (fig.
7.9). La procedura richiede il passaggio attraverso una serie di finestre di dialogo di facile gestione nelle quali si istruisce il software sui punti che si vogliono rappresentare (in questo caso: Individuals/rows) e sugli assi per la formazione del piano (Horizontal axis 1 / Vertical axis 2). All’apparire della finestra con il
piano fattoriale, cliccare su View (in alto a sinistra del monitor) per visualizzare i punti.
L’interpretazione, basata questa volta sull’insieme delle forme grafiche
anziché solo sui verbi, è immediata e agevole. L’addensamento dei punti sul
semiasse positivo dell’ascissa (F1) non permette comunque di evitare la sovrapposizione delle forme. Sul semiasse negativo del primo fattore troviamo
parole come individuo, uomo, libertà, istituzione, eguale, diritto, persona che rappresentano bene il senso fondamentale della Dichiarazione dei Diritti dell’Uomo.
Sul semiasse positivo troviamo le parole con un riferimento più propriamente
giuridico. Sul semiasse positivo del secondo fattore troviamo parole come
norme, giurisdizione, tutela, ordinamento, regionale che identificano i contenuti della
Costituzione Italiana; mentre sulla parte estrema del semiasse negativo troviamo parole come potere, rappresentanti, popolo, assemblea, ministri che identificano
una costituzione con vocazione “rivoluzionaria” fortemente ancorata al potere
della rappresentanza assembleare come la Costituzione della Repubblica Romana. Lo Statuto Albertino, da questo punto di vista, si pone come punto di
equilibrio tra gli altri due testi.
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
119
Capitolo 7
Fig. 7.9. – Rappresentazione delle forme grafiche sul piano fattoriale 1 e 2
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
120
8.
CONCLUSIONE
Questa guida introduttiva all’analisi automatica dei dati testuali, dal punto di
vista metodologico, si inserisce all’interno del dibattito sempre attuale tra
“qualità” e “quantità” nelle scienze sociali. Nonostante i richiami anche recenti
alla “fallace opposizione qualitativo-quantitativo” (De Nigris, 2003, p. 46),
pienamente condivisibili e ampiamente documentati nella letteratura internazionale (Creswell, 1994; Silverman 2002; Trochim, 2001; Miles e Huberman,
2003) i due approcci sono solidamente ancorati a due differenti paradigmi epistemologici: l’interpretativismo sul versante delle tecniche qualitative e il positivismo (nella sue varianti moderne di neo e post-positivismo) sul versante
delle tecniche quantitative. Senza addentrarci in una discussione lunga e complessa di questi problemi metodologici, sinteticamente si può dire che ciò che
viene messo in evidenza di solito è il modo in cui il ricercatore si pone rispetto
alla realtà oggetto del suo processo conoscitivo (Corbetta, 1999, pp. 21 sg.). Se
l’accento viene posto su un mondo sociale conoscibile in modo imperfetto ma
sostanzialmente indipendente dall’agire degli individui, allora il ricercatore si
pone all’interno di una scelta di campo positivista; se invece l’accento viene
posto sul significato che gli individui attribuiscono alla realtà sociale e sulla interpretazione che essi ne danno, allora il ricercatore si pone in un ambito interpretativista. Questo modo di porre la questione è utile per definire e leggere
didatticamente le grandi strategie di ricerca che hanno caratterizzato più di un
secolo di sviluppo delle scienze sociali, ma oggi appare del tutto superato nella
pratica della ricerca che invece deve interrogarsi più propriamente sulle strategie di costruzione della base empirica piuttosto che sulle strategie di
analisi dei dati (De Nigris, 2003, p. 108). Il recupero di una dimensione metodologica all’interno delle logiche della scoperta e non solo delle logiche della
giustificazione (Giuliano, 2003) si inserisce in questo quadro di sviluppo.
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
121
Capitolo 8
Volendo parafrasare una provocazione famosa come quella di Feyerabend quando sosteneva che tutte le scienze sono umane perché lo sguardo
conoscente è sempre espressione di un essere umano (Feyerabend, 1993, p.
134), potremmo dire che tutti i dati sono qualitativi perché sono il risultato
di esperienze sensoriali tradotte in due linguaggi: il linguaggio delle parole
(“Carlo sta piangendo”, “Antonio è ubriaco”) oppure nel linguaggio dei numeri (il termometro segna 24 gradi centigradi, su 100 persone 51 hanno a votato
no, 39 hanno votato sì e 10 si sono astenute). Come abbiamo potuto verificare
nell’applicazione delle tecniche di analisi testuale, con la stessa modalità provocatoria potremmo affermare però che tutti i dati sono quantitativi perché
è sempre possibile convertire il linguaggio delle parole nel linguaggio dei numeri attraverso un processo di codifica e poi, a sua volta, riportare i numeri (o
meglio le misure) e le relazioni individuate tra i numeri in interpretazioni e
spiegazioni che non possono essere altro che sequenze ordinate di parole dotate di senso. E così ritorniamo al tema di partenza: dall’oralità come esperienza al testo come trascrizione del discorso e come interpretazione dell’esperienza.
Con l’analisi automatica dei dati testuali quello che cerchiamo di ottenere
è uno schema interpretativo che soggiace alla lettura diretta del testo; una
forma di gestione della conoscenza particolarmente adeguata per masse crescenti di informazioni che si accumulano soprattutto attraverso la digitalizzazione dei testi in Internet (Poibeau, 2003; Emirkanian et al., 2004; Mokrane et
al., 2004; Quatrain et al., 2004). Naturalmente nessun automatismo può supplire da solo alla conoscenza tacita che si esprime nel con-testo e nell’extratesto. Sarebbe assurdo pensare di individuare uno schema interpretativo nel
corpus del teatro di Shakespeare attraverso un’analisi automatica senza conoscere la mitologia classica, la storia dell’Inghilterra del XIV-XVI secolo e la
poetica del teatro elisabettiano. Dobbiamo dare per scontato che nessun ricercatore si avventurerà ingenuamente nell’analisi automatica dei dati testuali senza una ricognizione della complessità cognitiva che i testi esprimono sia che si
tratti di testi finzionali che di testi empirici. D’altra parte l’approccio automatico all’analisi del contenuto non è in grado di aggirare il problema del rapporto
tra teoria e osservazione imposto da Popper (Mohler e Zuell, 2000). I software
di computer-aided text analysis (Duriau e Reger, 2004) non sono in grado di offrire una soluzione generalizzata valida per tutti i tipi di dati testuali e non permettono di far nascere la teoria interpretativa dall’analisi dei dati come Atena
dalla testa di Zeus. La teoria precede l’osservazione così come l’apprendimento dei segni linguistici di base precede la comprensione della lingua e apre la strada a nuovi percorsi di apprendimento (Boyatzis, 1998).
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
122
Conclusione
La ricerca su basi empiriche qualitative, comunque la si voglia intendere,
è fortemente condizionata da processi decisionali del ricercatore e il ricercatore deve dunque essere consapevole che la sua è una ricerca soggettiva, o
comunque più soggettiva di un approccio che sceglie di muoversi sul piano
strettamente quantitativo. Non tragga in inganno il fatto che i dati testuali assumono una codifica numerica e – attraverso le occorrenze – le parole vengono trattate come frequenze e quindi come misure. Ciò che le occorrenze e le
relazioni tra occorrenze tentano di misurare è il significato. Le occorrenze delle forme grafiche sono soltanto gli elementi microscopici che compongono le
unità di senso, sono come coriandoli colorati che si dispongono in modo ordinato fino a costituire delle forme riconoscibili. Tuttavia è il ricercatore con le
sue ipotesi di lavoro e con le sue scelte che imprime una certa direzione
all’osservazione della nuvola di coriandoli e la lettura delle forme è guidata dai
modelli statistici, dalle sue intuizioni e dal rigore delle sue argomentazioni.
Allo stato attuale della conoscenza e dello sviluppo delle tecniche di analisi statistica dei dati testuali, il problema principale non è rappresentato dalla
applicazione dei modelli statistici: questa fase è stata già affrontata soprattutto
dagli studiosi della scuola francese dell’analyse des données come Benzécri, Lebart, Salem, Reinert, a partire dai primi anni ’70 fino alla metà degli anni ’80
del secolo scorso (Bolasco, 2003).
Il vero problema di ricerca dell’analisi automatica dei dati testuali è quello
della strategia di individuazione dell’informazione essenziale all’interno
del testo e quindi quello della selezione delle unità di informazione ritenute più
rilevanti per la ricostruzione del significato (Bolasco e della Ratta-Rinaldi,
2004; Poibeau, 2004). La prime tappe di questa strategia di analisi sono già in
parte codificate ed implementate in software come TALTAC:
• la normalizzazione preliminare del corpus;
• le misure lessicometriche di base;
• l’identificazione dei poliformi;
• l’individuazione dei segmenti ripetuti;
• la disambiguazione;
• a lemmatizzazione;
• l confronto con i lessici di frequenza per l’estrazione del linguaggio peculiare.
Le altre tappe sono rappresentate dalla classificazione delle forme dal punto di
vista grammaticale e semantico, dalla soluzione delle difficoltà dovute alla polisemia sintattica di tutte le categorie (Gross, 2004), oppure da problemi che
vengono posti in essere dalla disponibilità di testi che non sono sequenziali ma
vengono prodotti in interazione e in rapporto tra di loro come le trascrizioni
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
123
Capitolo 8
di focus groups, di dibattiti, di testi tratti da newgroups, da forum in Internet o da
mailing lists. Testi che presentano quella che André Salem ha chiamato “risonanza testuale”: frammenti di testo che sono in corrispondenza tra loro in due
o più partizioni del testo: frasi ripetute, citazioni reciproche, utilizzazione delle
stesse forme grafiche con connotazioni diverse, sovraccariche di significati che
non sono immediatamente decodificabili se non attraverso la lettura del contesto (Salem, 2004). La risonanza testuale mette profondamente in crisi il concetto di frequenza come criterio principale di selezione delle parole e apre prospettive completamente nuove di analisi.
Ogni strategia richiede una tattica, cioè una scelta che deve essere effettuata su aspetti singolari, decisioni che vengono prese in riferimento a problemi specifici che si impongono di volta in volta in modo diverso. La tattica,
come in ogni metodo di ricerca che si rispetti, non viene improvvisata ma ha
le sue regole (Miles e Huberman, 1994):
• osservare con attenzione gli aspetti quantitativi per rintracciare uniformità e
cambiamenti;
• classificare, raggruppare ciò che è simile e operare delle distinzioni;
• stabilire dei confronti, delle opposizioni, marcare differenze, far emergere le
interdipendenze;
• rarre profitto dai fatti sorprendenti, inattesi, da ciò che eccede le nostre attese o da ciò che non appare nonostante le previsioni;
• mettere alla prova le interpretazioni con congetture atte a creare ipotesi alternative: se... allora;
• trovare le linee di sintesi delle relazioni individuate, le componenti di base,
le tipologie, le risposte provvisorie alle domande che hanno dato luogo alla
costruzione del corpus analizzato.
Un manuale introduttivo come questo può soltanto suggerire o adombrare
questi problemi e queste strategie. L’analisi automatica dei dati testuali non è
più un metodo pionieristico ma è ancora – e forse lo sarà sempre – un metodo
di frontiera. Non offre una soluzione unica e valida per tutti i problemi di ricerca. Il ricercatore è costretto a muoversi con agilità e perizia tra diversi software e discipline cercando un percorso adeguato agli scopi che si prefigge.
Spesso il suo scopo principale è l’esplorazione preliminare, la navigazione nel
corpus in cerca di un approdo alle proprie idee o di un punto di appoggio alle
proprie convinzioni. E’ una frontiera affascinante proprio perché ogni volta si
pone come una sfida, la sfida di chi tenta di raccogliere gli indizi per sciogliere
l’intreccio, l’enigma del significato, l’interpretazione del testo.
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
124
BIBLIOGRAFIA
Amaturo, E. (1993), Messaggio, simbolo, comunicazione, Roma, La Nuova Italia Scientifica.
Bolasco, S. (1996), «Il lessico del discorso programmatico di governo», in M. Villone,
A. Zuliani (a cura di), L’attività dei governi della repubblica italiana (19471994), Bologna, Il Mulino, pp. 163-349.
Bolasco, S. (1997), «L’analisi informatica dei testi», in Ricolfi (1997), pp. 165-203.
Bolasco, S. (1999), Analisi multidimensionale dei dati. Metodi, strategie e criteri d’interpretazione,
Roma, Carocci (II ed. 2004).
Bolasco, S. (2003), «L’analisi statistica dei dati testuali: intrecci problematici e prospettive», Giornata di studio su Applicazioni di analisi testuale, Roma – 16 dicembre
2003.
Bolasco, S., Lebart, L., Salem, L. (a cura di) (1995), JADT 1995. Analisi statistica dei dati
testuali, Roma, CISU.
Bolasco, S., della Ratta Rinaldi, F. (2004), «Experiments on semantic categorisation of
texts: analysis of positive and negative dimension», in Purnelle et al. (2004), I,
pp. 202-210.
Boyatzis, R.E. (1998), Transforming qualitative information. Thousand Oaks (CA), Sage.
Brunet, E. (1978), Vocabulaire de Jean Giraudoux: Structure et Evolution. Genève, Slatkine.
Chiari, I. (2004), Informatica e lingue naturali. Teorie e applicazioni computazionali per la ricerca
sulle lingue, Roma, Aracne.
Cipriani, R., Bolasco, S. (a cura di) (1995), Ricerca qualitativa e computer. Teorie, metodi e
applicazioni, Milano, Franco Angeli.
Corbetta, P. (1999), Metodologia e tecniche della ricerca sociale, Bologna, Il Mulino.
Cossette, A. (1994), La richesse lexicale et sa mesure, Paris, Honoré Champion.
Creswell, J.W. (1994), Research design: Qualitative and Quantitative approaches, Thousand
Oaks (CA), Sage.
De Mauro, T. (1970), Introduzione alla semantica, Bari, Laterza.
De Nigris, D. (2003), Standard e non-standard nella ricerca sociale. Riflessioni metodologiche,
Milano, Franco Angeli.
Devoto, G. (1979), Avviamento alla etimologia italiana, Milano, Mondadori.
Duriau, V.J., Reger, R.K. (2004), «Choice of Text Analysis Software in Organization
Research: Insight from a Multi-dimensional Scaling (MDS) Analysis», in in
Purnelle et al. (2004), I, pp. 382-389.
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
125
Bibliografia
Emirkanian, L., Fouqueré, C., Issac, F. (2004), «Corpus issus du Web: analyse des pertinences thématique et informationelle», in Purnelle et al. (2004), I, pp. 390398.
Ercolani, A.P., Areni, A., Mannetti, L. (1999), La ricerca in psicologia, Roma, Carocci.
Feyerabend, P.K. (1993), Dialogo sul metodo, Bari, Laterza.
Ghiglione, R., Landré A., Bromber, M., Molette, P. (1998), L’analyse automatique des
contenus, Paris, Dunod.
Gianni, A. (a cura di) (1988), Dizionario italiano ragionato, Firenze, G. D’Anna – Sintesi.
Giuliano, L. (2002), «G8-2001: la rivolta nel monitor. Analisi testuale dei messaggi nel
newsgroup <it.eventi.g8-genova> durante gli scontri di piazza», in Morin et al.
(2002), pp. 301-311.
Giuliano, L. (2003), La logica della scoperta nelle scienze sociali, Milano, LED.
Giuliano, L. (2004), «Il lessico della guerra nei newsgroups della categoria it.politica
durante la guerra in Iraq», in Purnelle et al. (2004), I, pp. 504-514
Habert, B., Fabre, C., Issac, F. (1998), De l’écrit au numérique. Constituer, normaliser et exploiter les corpus électroniques, Paris, InterEdition – Masson.
Hjelmslev, L. (1970), Il linguaggio, Torino, Einaudi.
Labbé, D. (1995), «La structure du vocabulaire du Général De Gaulle», in Bolasco et
al., 1995, II, pp. 165-176.
Lepschy, G.C. (1979), «Lessico», in Enciclopedia, vol. VIII, Torino, Einaudi, pp. 129151.
Marchese, A. (1978), Dizionario di retorica e stilistica, Milano, Mondadori.
Miles, B.M., Huberman, A.M. (2003), Analyse des données qualitatives, (rev. de J.J. Bonniol), Paris, De Boeck.
Mokrane, A., Arezki, R., Dray, G., Poncelet, P. (2004), «Cartographie automatique du
contenu d’un corpus de documents textuels», in Purnelle et al. (2004), II, pp.
816-823.
Mohler, Ph.P., Zuell, C. (2000), «Observe! A Popperian Critique of Automatic
Content Analysis», in Rajman et al. (2004), II, pp. 389-395
Morin, A., Sébillot, P. (a cura di) (2002), Actes des 6es JADT, Saint-Malo, IRISAINRIA.
Palmer, F. (1982), Introduzione alla semantica. Milano, Mondadori.
Poibeau, T. (2003), Extraction d’information, du texte brut au web sémantique, Paris, Hermès.
Poibeau, T. (2004), «Pré-analyse de corpus», in Purnelle et al. (2004), II, pp. 897-903.
Purnelle, G., Fairon, C., Dister, A. (a cura di) (2004), Les poids des mots. Actes des 7es
JADT, Louvain-la-Neuve, Presses Universitaires de Louvain.
Quatrain, Y., Nugier, S., Peradotto, A., Garrouste, D. (2004), «Évaluation d’outils de
Text Mining», in Purnelle et al. (2004), II, pp. 916-925.
Ricolfi, L. (1997), La ricerca qualitativa, Roma, La Nuova Italia Scientifica.
Rizzi, A. (1992), “Orientamenti attuali della statistica linguistica”, in Statistica, 4, pp.
487-505.
Rizzi, A. (2001), Alcune analisi statistiche delle encicliche papali (in coll. con Bruno Bisceglia), Roma, Libreria Editrice Vaticana.
Rajman, M., Chappelier, J.-C. (a cura di), (2000), Actes des 5es JADT, Lousanne, École
Polytechnique Fédérale de Lousanne.
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
126
Bibliografia
Rorty, R. (1979), Philosophy and the Mirror of Nature, Princeton (N.J.), Princeton University Press.
Salem, A. (2004), «Introduction à la résonance textuelle», in Purnelle et al. (2004), II,
pp. 987-992.
Segre, C. (1981), «Testo», in Enciclopedia, vol. XIV, Torino, Einaudi, pp. 269-291.
Silverman, D. (2002), Come fare ricerca qualitativa, Roma, Carocci.
Trochim, W.M.K. (2001), The Research Methods Knowledge Base, Cincinnati (OH), Cornell
University.
Tuzzi, A. (2003), L’analisi del contenuto. Introduzione ai metodi e alle tecniche di ricerca, Roma,
Carocci.
Yule, G. (1997), Introduzione alla linguistica. Bologna, Il Mulino
Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso
http:// www.ledonline.it/ledonline/giulianoanalisi.html
127