DdR SOCIOLOGIA E SCIENZE SOCIALI APPLICATE (SeSSA) a.a. 2014-2015 Lezione del 15 APRILE 2015 ore 17:00-18:00, Aula B8 Prof.ssa Mary Fraire L’Analisi Automatica dei Dati Testuali (AADT): aspetti statistici introduttivi e un’applicazione all’analisi del “corpus” dei post del movimento “NO ALLA DISCARICA DEI RIFIUTI NELLA ZONA DEL DIVINO AMORE” Prof.ssa Mary Fraire – Professore ordinario di Statistica Dip.to di Scienze Sociali ed Economche (DiSSE) e-mail: [email protected] Sito web: http://www.sociologia.uniroma1.it/users/fraire Facoltà di Scienze Politiche, Sociologia, Comunicazione Università di Roma ‘La Sapienza’ Tab.2 - Bilancio lessicale del corpus 'File 46CIT2VAR.TXT': alcuni parametri Parametri Valore 46CIT4VAR_ Nome corpus_ Lingua Italiano N. testi 46 N.segmenti del testo 67 Occorrenze 1974 N.forme 907 N.Hapax 669 N.hapax in % forme 73,76% N.hapax in %occorrenze 33,89 L’analisi ‘statistica’ dei dati testuali: origini ed evoluzioni attuali nelle societa Web 2.0 e le nuove fonti di dati digitali. In passato, ed a tutt'oggi, molteplici sono le applicazioni della statistica all'analisi linguistica (cfr. ad es. Yule,1939, 'On the sentence length as statistical characteristic of style..'; Chomsky,1963, ' A new statistical approach to the study of language'; Rizzi, 1985, 'Alcune Analisi statistiche della lingua italiana'; De Mauro,1993 'Lessico di frequenza dell'italiano parlato' ecc.ecc.). In particolare le applicazioni della statistica all’analisi del contenuto ( Lasswell,, 1942;Shutz, 1950;Berelson,1952 ‘Content Analysis in communication research’;ecc.ecc.). E' da rilevare che l'analisi statistica dei dati testuali è diversa dalla lessicometria classica ossia focalizza l'attenzione (anche se qui sarà trattato solo a livello solo introduttivoesemplificativo), ad un approccio relativo all’ambito metodologico-statistico di quella che più propriamente oggi può essere denominata Analisi ‘Automatica’ dei Dati Testuali (AADT), Text Mining, intendendo le procedure e tecniche statistiche uni e multidimensionali adatte all’analisi di file di dati testuali di grandi dimensioni e alla sua importanza crescente come strumento adatto ad analizzare i cosiddetti SOCIAL BIG DATA in concomitanza dello svilupparsi delle nuove fonti di dati digitali. Per AADT si intendono le tecniche di analisi statistica multidimensionale, generalmente con approccio descrittivo- esplorativo, dei testi , cosiddetti ‘corpora’, basate principalmente da una parte sulla cluster analysis e l'analisi delle corrispondenze e dall'altra sui metodi di ricampionamento (Monte Carlo, Jack Knife, Bootstrap). Nuovi dati in forma digitale: caratteristiche e strumenti di analisi Nell’ambito dell’analisi automatica dei dati testuali è crescente l’interesse per l’utilizzo dei nuovi dati in forma digitale, derivanti dai Social media (blog,socialnetwork,forum,chat ,sms ecc..) denominati Big data , non solo per la dimensione ma per la differente natura dell’informazione: fortemente eterogenea e destrutturata da un utente passivo ad un utente “attivo” che interagisce con il web realizzando suoi contenuti e collocandoli in rete. Occorre avere strumenti innovativi di analisi per strutturare e analizzare questi dati, testuali, di dimensione notevole: oggi sono disponibili attraverso una serie di analisi statistiche la cosiddetta Analisi Automatica dei Dati Testuali (AADT) che si effettua tramite appositi software (Taltac, Lexico, Spad-T, Dtm-Vic di Lebart, Iramuteq) Scopi e recenti applicazioni dell’AADT In via del tutto generale si può dire che molteplici sono gli scopi e le applicazioni, attuali e ‘potenziali’, di queste analisi statistiche come, ad esempio, per citarne solo alcuni: individuare a priori ‘unità di scomposizione’ ad es. le ‘unità di contesto’ ossia contesti linguistici minimi aventi senso compiuto (ad es. segmenti = frasi di un certo numero di parole e frequenza che sono più ripetuti in un testo) per la classificazione del/dei testi; svelare (osservare) regolarità, organizzazioni linguistiche, 'mondi lessicali' nel confronto di testi brevi, post di social network , oppure, risposte a domande ‘libere’ di un questionario date da un campione di n individui a seconda delle loro caratteristiche sociodemografiche, economiche ecc.; effettuare studi cronologici miranti a stabilire cambiamenti nell'impiego dei vocaboli non osservabili tramite la semplice consultazione manuale dei testi ; oggi in presenza della comunicazione digitale in una società Web 2.0 si moltiplicano le applicazioni di analisi automatica di dati testuali (marketing, valutazioni della P.A., codifiche statistiche, ecc.). Alcuni importanti esempi ISTAT recenti: a) Recentemente la Dr.ssa Francesca Della Ratta-Rinaldi dell’ISTAT-DISA ha effettuato un’analisi dei dati testuali su ‘Le opinioni dei cittadini sulle misure del benessere – Risultati della consultazione ‘on line’ consultabile in: http://www.misuredelbenessere.it/fileadmin/relazione-questinarioBES.pdf in cui si richiede ai cittadini di indicare quali sono secondo loro le dimensioni sociali rilevanti che costituiscono i fondamenti del Benessere Equo e Sostenibile (BES) oggi definizione attuale di Qualità della Vita proposta dal CNEL e ISTAT b) Tramite procedure di Text Mining , sempre Dr.ssa Delle Ratta-Rinaldi ha è effettuato il controllo e correzione della codifica delle attività economiche effettuate dai rilevatori Istat nell’Indagine sulle Forze di lavoro. Consultabile in : http://www.istat.it/it/archvio/134852 Richiamo metodologico: l’Analisi Multidimensionale dei Dati (AMD) come ‘sistema’: la mappa concettuale delle 7 fasi statistico-informatiche di un’AMD In passato l’applicazione di una tecnica statistica multivariata consisteva sinteticamente in: tabella dei dati tecnica statistica multivariata output dei risultati Oggi l’ampliarsi dei campi di applicazione dei metodi di analisi dei dati sia nelle scienze sociali che naturali, la varietà e complessità delle situazioni specifiche di ricerca, hanno portato a dare rilievo sia dal punto di vista metodologico che informatico ad una serie di aspetti trascurati in passato: le 4 fasi ‘preliminari’ dell’AMD ossia la formalizzazione del problema, le codifiche a priori e a posteriori. In generale le fasi ‘preliminari’ di un’analisi dei dati sono relative al trattamento ‘a priori’ e a posteriori’ dei dati rilevati per ‘giungere’ alla ‘tabella dei dati’ da sottoporre alla tecnica statistica multivariata richiesta, esse costituiscono punti ‘cruciali’ dell’analisi statistica e influenti su tutte le fasi successive e quindi i risultati stessi e per le quali spesso non vi sono regole fisse o criteri unici di scelta, soprattuto nell’ambito della ricerca sociale. La loro ‘esplicitazione’ formale e sostanziale è dunque indispensabile al mantenimento della ‘scientificità’ dell’analisi empirica e all’interpretabilità-interpretazione dei risultati della ricerca. richiamo: Le 7 fasi dell’AMD • Per una descrizione dettagliata di tali fasi vedi: • Fraire, Rizzi, Analisi dei dati per il Data Mining, Carocci ed. 2013 • Fraire - Metodi di Analisi Multidimensionale dei Dati - Ed. CISU, Roma 1994, Cap.I. Mappa concettuale delle 7 fasi di un’AADT La scelta del ‘corpus’ TESTI-TESTI (saggi, biografie, discorsi parlamentari ecc.) o TESTI-FRAMMENTI (testi corti, sms, tweet o chat, blog ecc.) Creazione del ‘corpus’ file di testo ed eventuali meta-variabili associate La scelta delle unità lessicometriche di analisi : -forme grafiche -segmenti Prime analisi statistiche.) Possibili feedback Scelta della Scelta tabella dei della dati: metrica: -frammenti *forme es. ² -forme *parti - forma*forma Metodo e software* di ADT: Cluster Anal. ACS e ACM Output risultati - numerico - grafici particolari (nuvola lessicale, grafo lessicale * Taltac, Lexico, Spad-T, DtmVic di Lebart, Iramuteq 1^, 2^ e 3^ fase dell’AADT • • • • • • • • 1 La documentazione statistica di partenza : riguarda la scelta dei testi da analizzare es. raccolta di messaggi brevi che possono essere: post di social network , blog , sms ecc. su argomenti o trasmissioni radio-tv ma anche le risposte libere a domande ‘aperte’ di un questionario unitamente alle caratteristiche degli intervistati da ritenere (es. sesso, età, titolo di studio ecc.) in tal caso siamo in presenza di un corpus del tipo CORPUS TESTIFRAMMENTI). Analizzare invece interi testi, es. interi discorsi parlamentari per vari anni, o saggi, libri ecc. riguarda il cosiddetto CORPUS TESTI-TESTI che qui non sarà considerato. 2 La codifica a priori (matrice dei dati testuali iniziali): riguarda la creazione del file di testo , il cosiddetto “corpus”e l’eventuale file di dati-numerici meta-variabili ‘a priori’ (es. genere, età, data ecc.) o a ‘a posteriori’ad esso associato (classificazioni fatte a posteriori: argomenti, date ecc.). NOTA: per una stabilità statistica dell’AADT sono consigliate almeno 10.000 OCCORRENZE (n°tot.parole=forme grafiche). In questa fase si deve effettuare una prima pulizia del testo NETTOYAGE digitato che segue le regole del software impiegato . Occorre scegliere i separatori ‘forti’ per riconoscere le frasi (es. : .;?! ) , fare attenzione all’uso delle maiuscole e nomi propri ecc. 3 Le codifiche a posteriori: riguardano sostanzialmente la scelta delle unità di analisi sulle quali effettuare il conteggio lessicometrico: A) Forme grafiche = parole oppure segmenti (n° parole componenti un segmento, es.: da 3 a 10 max e che si ripeta almeno tre volte); B ) Disambiguazione tramite lemmatizzazione= per il riconoscimento delle categorie grammaticali (nomi, agg. .articoli, verbi ecc.). C) PRIME STATISTICHE TESTUALI SEMPLICI: Il bilancio lessicale; le tabelle di frequenza delle forme attive, supplementari,, hapax ecc. Particolari osservazioni sulla 2^ e 3^ fase • • • • • • • • • Le codifiche a posteriori nell’AMDT (2^ e 3^ fase) riguardano in sostanza la scelta delle unità di analisi ossia il problema della definizione delle unità di analisi nell'AADT Le parole di un testo sono sequenze di caratteri separate da uno spazio (Gross 1995). Esistono tuttavia separatori più complessi dello spazio: trattini, apostrofo, punti di interiezione ecc. che sono fondamentali per il trattamento statistico dei dati. Nelle procedure di conteggio il come trattare tali separatori è una questione rilevante. Focalizzare l'attenzione sull'aspetto formale delle parole ne esclude il significato; quest'ultimo è invece il centro di interesse prevalente nell'Analisi Multidimensionale dei Dati Testuali nel senso che le stesse parole possono avere più significati letterali. Così come altre parole, tipo le preposizioni o avverbi di locazione, non hanno molto significato. Si deve procedere quindi ad una loro disambiguazione. Il trattamento statistico classico dei testi si basa sulle sequenze di parole semplici ed ignora le difficoltà su accennate. La disambiguazione del testo con la creazine di dizionari elettronici. Alcune soluzioni sono state proposte come, ad esempio, le forme 'ridotte' consistenti nell'impiegare parole composte da usare come un'unica unità (es. ‘che cosa’: una parola, ‘vi sono’: una parola). Dizionari elettronici di parole semplici e composte sono stati costruiti per diverse lingue, per l'italiano, ad es. da A.Elia 1984, A.Elia, E.D'Agostino, M.Martinelli 1981. Un esempio: il corpus 46CIT2VAR.TXT del caso di studio n.1 che vedremo ****01 *Sex_1 *Istr_3 È STATO TUTTO UN GIOCO FATTO PER FAR PRENDERE TEMPO ALL'ECOFER CHE NEL FRATTEMPO HA SISTEMATO TUTTO. ADESSO A FINE 2013 INIZIERANNO DI NUOVO CON FALCOGNANA MA QUESTA VOLTA ARRIVERANNO I CAMION SCORTATI DALL'ESERCITO.IL PROBLEMA NON È LA GENTE MA IL FATTO CHE DOPO TUTTI I SOLDI SPESI DALL'ECOFER PER SCAVI, INVASI, NE DUBITO SI ARRENDANO. ****02 *Sex_2 *Istr_3 SUI LAVORI C'È SCRITTO ITALGAS, MA NON CI FIDIAMO. BISOGNA FARE QUALCOSA PER NON FAR PASSARE I TIR PERCHÉ E' DIVENTATO TROPPO PERICOLOSO. ****03 *Sex_1 *Istr_3 AL CONVEGNO "ROMA VERSO RIFIUTI ZERO" IN CAMPIDOGLIO 13 DICEMBRE CI SARÀ UN INTERVENTO DI MASSIMO PIRAS E PROMOTORI DEL CONVEGNO: ZEROWASTE LAZIO,COMITATO DIAMOCIDAFARE. IL VICEPRESIDENTE DEL PARLAMENTO EUROPEO É VENUTA A TROVARCI DOPO AVER EFFETTUATO UN SOPRALLUOGO ALLA ECOFER. ………………………………………………………………………………………………………………………………… ****44 *Sex_2 *Istr_2 LA MISCELAZIONE DEL RIFIUTO ATTUALMENTE CONFERITO IN DISCARICA CON I RESIDUI DELLE LAVORAZIONI DEL RIFIUTO INDIFFERENZIATO PROVENIENTE DA AMA. ESISTONO STUDI IN MERITO AI POTENZIALI DANNI ALLA SALUTE? LA SOCIETÀ GIUSTIFICA QUESTA DISPONIBILITÀ INIZIALE CONTENUTA PER RASSICURARELA POPOLAZIONE LOCALE.NO COMMENT!!! PREGO IL PRESIDIO DI UNIRE LE LISTE DELLE FIRME! ****45 *Sex_1 *Istr_1 MANIFESTARE CONTRO QUESTI DUE FURBACCHIONI GIÀ PER SE È OBBLIGATORIO. MA E' FATTO OBBLIGO A TUTTI PARTECIPARE IN QUANTO MANCANO 7 GIORNI AL PUNTO DI NON RITORNO! CONDIVIDO FIRME AL PRESIDENTE NAPOLITANO E AL PRESIDENTE DEL CONSIGLIO LETTA E CORTEO MERCOLEDÌ. ****46 *Sex_2 *Istr_1 BENE! IO SO CHE SIETE GRANDI!!! ===== ………………………………………………………………………………………………………………………… 4^-7^ fase dell’AADT: l’analisi multidimensionale dei dati testuali 4 La scelta della tabella dei dati testuali: riguarda la scelta del tipo di tabella dei dati adatta alla tecnica statistica multivariata che si vuole applicare. Sono tre le tabelle testuali per le analisi lessicali: 1) Per la cluster analysis una tabella frammenti (u.s.)* forme (parole diverse); scopo: trovare le unità di contesto con la massima similarità in termini delle parole (nello stesso cluster= mondi lessicali); 2) Per l’analisi delle corrispondenze semplice (ACS) una tabella di contingenza parole*testi oppure tabella forme* parti (sub testi) a seconda della codifica a posteriori effettuata. 3) Per l’ACM una matrice di prossimità forme*forme (booleana, presenza-assenza) 5 Scelta di una misura di rassomiglianza dissomiglianza tra unità statistiche (distanze, similarità) o di relazione tra caratteri (connessione, correlazione, dev e codev., var.covar.ecc.): riguarda la scelta della metrica adatta e compatibile con il tipo di tabella dei dati e il tipo di tecnica di AMD scelta, ad es., nel caso di un’ACS o ACM su una tabella di contingenza parole*testi la metrica adatta è quella del ². 6 Metodo e software di AMD: riguarda la scelta della tecnica statistica multivariata (es. Cluster Analysis, Analisi delle Corrispondenze ecc.) e del programma per l’esecuzione dell’analisi. Nelle applicazioni di seguito esposte si è scelta, ad es. la Cluster Analysis e l’analisi delle corrispondenze (ACS) con i software IRaMUTEQ e SPAD.T. 7 Output dei risultati numerico e grafico. Ad es. nell’AADT e a seconda dei software sono disponibili Dendrogrammi e Wordcloud, Piani fattoriali, Grafi lessicali ecc. Osservazioni sulla 2^ e 3^ fase • • • • • • • La ‘segmentazione’ del testo In generale nell'ADT una delle questioni preliminari più importanti è quella della scelta delle unità statistiche sulle quali effettuare il conteggio lessicometrico ed essa non ha criteri unici, regole fisse. Parole singole (=forme grafiche) o parole impiegate in associazione con altre, e ripetute almeno due volte (=segmenti) sono i due diversi possibili approcci nella scelta delle unità (di analisi) che presiede alla segmentazione del testo (Salem 1995). Piuttosto che scegliere a priori, all'inizio, queste unità di analisi, è oggi possibile, tramite metodi statistici ed appositi programmi (ad es. la procedura SEGME di SPADT) effettuare delle analisi preliminari osservate simultaneamente su diversi tipi di unità di analisi ossia considerando, ad es., il file di testo originale e una sua forma ridotta (‘segmentata’). Le ‘altre’ codifiche a posteriori Collegate alla scelta delle unità di analisi vi sono altre successive e ulteriori scelte di codifiche a posteriori (cfr. 3^ fase dell'AMDT) della matrice dei dati iniziali costituita nel caso dell'AMDT da file di testo o da file di risposte a domande libere di un questionario + eventuali file di dati numerici associati (caratteristiche degli intervistati, dei testi ecc.) , digitati in versione originale, ossia così come sono stati rilevati (2^ fase dell'AMDT) per la costruzione della tabella dei dati (4^ fase dell'AMDT) sulla quale effettuare le successive analisi: - soppressione di alcune parole; - correzione degli errori di ortografia; - messa in equivalenza di alcune parole: permette di rendere sinonimi delle parole giudicate equivalenti; - riduzione della soglia di frequenza delle parole; - scelta della soglia di lunghezza delle parole; - riduzione della soglia dei ‘segmenti’: sia fissando una soglia di frequenza dei segmenti ripetuti sia fissando una soglia sulla lunghezza delle risposte (numero dei segmenti) da ritenere. Le due analisi multidimensionali dei dati testuali più impiegate: La Cluster Analysis di dati testuali In una tabella Frammenti (u.s.) x parole si cerca di individuare le unità di contesto più simili (cluster) in altri termini le parole che più caratterizzano ciascun cluster , ‘mondi lessicali’, ‘profili lessicali’, in sostanza quindi dare una ‘struttura’ al corpus del file dei testi L’Analisi delle Corrispondenze di dati testuali : interpretazione degli assi fattoriali in chiave linguistica (S.Bolasco) Una frase=struttura sintagmatica. Più due parole sono vicine sul piano fattoriale tanto più esse CO-OCCORRONO NEL CORPUS. Gruppi di parole fra loro vicine sul piano ricostruiscono interi contesti di significati. Se il corpus è composto di frasi brevi è facile ritrovarsi in queste situazioni interpretabili. CASO DI STUDIO N.1 MOVIMENTO DI FALCOGNANA contro la discarica dei rifiuti di Roma nella zona del Divino Amore • Un esempio italiano di impiego dei social network per organizzare, diffondere e sostenere le mobilitazioni di difesa del territorio Un esempio italiano di impiego dei social network per organizzare, diffondere e sostenere le mobilitazioni di difesa del territorio: Il caso di Falcognana e la mobilitazione contro la discarica del Divino Amore A Falcognana la mobilitazione nasce il 30 luglio 2013 a seguito della dichiarazione del Commissario Straordinario ai rifiuti che decreta l’area idonea come sito alternativo a Malagrotta per raccogliere nei prossimi due anni i rifiuti trattati di Roma capitale. In entrambi i casi, Gamonal e Falcognana, la comunicazione tramite social network è stata determinante sia per l’organizzazione che per il coinvolgimento A titolo di esempio per analizzare nel caso di Falcognana N=96 post scritti e scambiati tramite social network nel periodo 27 luglio 2013 –7 febbraio 2014 (data in cui si è chiusa la mobilitazione ‘vincente’)si è impiegata come strategia di analisi l’analisi automatica dei dati testuali (AADT)utilizzando i software statistici SPADT e l’open source IRaMuTeQ Numerose manifestazioni e blocchi della circolazione: Roma-via dei Fori Imperiali Città del Vaticano -SAN PIETRO Le numerose manifestazioni e le mobilitazioni si fermano a seguito di due eventi: 1)Il 28 novembre 2013 la soprintendenza dei beni architettonici e paesaggistici chiede la sospensione dei lavori che a dicembre vengono bloccati; 2)Il 7 febbraio 2014 viene postata la lettera del Ministero dell’Ambiente in cui si afferma che non sussistono i presupposti di urgenza per approvare la discarica: E’ LA VITTORIA! Parlamento europeo Un esempio: il corpus 46CIT2VAR.TXT del caso di studio n.1 che vedremo ****01 *Sex_1 *Istr_3 È STATO TUTTO UN GIOCO FATTO PER FAR PRENDERE TEMPO ALL'ECOFER CHE NEL FRATTEMPO HA SISTEMATO TUTTO. ADESSO A FINE 2013 INIZIERANNO DI NUOVO CON FALCOGNANA MA QUESTA VOLTA ARRIVERANNO I CAMION SCORTATI DALL'ESERCITO.IL PROBLEMA NON È LA GENTE MA IL FATTO CHE DOPO TUTTI I SOLDI SPESI DALL'ECOFER PER SCAVI, INVASI, NE DUBITO SI ARRENDANO. ****02 *Sex_2 *Istr_3 SUI LAVORI C'È SCRITTO ITALGAS, MA NON CI FIDIAMO. BISOGNA FARE QUALCOSA PER NON FAR PASSARE I TIR PERCHÉ E' DIVENTATO TROPPO PERICOLOSO. ****03 *Sex_1 *Istr_3 AL CONVEGNO "ROMA VERSO RIFIUTI ZERO" IN CAMPIDOGLIO 13 DICEMBRE CI SARÀ UN INTERVENTO DI MASSIMO PIRAS E PROMOTORI DEL CONVEGNO: ZEROWASTE LAZIO,COMITATO DIAMOCIDAFARE. IL VICEPRESIDENTE DEL PARLAMENTO EUROPEO É VENUTA A TROVARCI DOPO AVER EFFETTUATO UN SOPRALLUOGO ALLA ECOFER. ………………………………………………………………………………………………………………………………… ****44 *Sex_2 *Istr_2 LA MISCELAZIONE DEL RIFIUTO ATTUALMENTE CONFERITO IN DISCARICA CON I RESIDUI DELLE LAVORAZIONI DEL RIFIUTO INDIFFERENZIATO PROVENIENTE DA AMA. ESISTONO STUDI IN MERITO AI POTENZIALI DANNI ALLA SALUTE? LA SOCIETÀ GIUSTIFICA QUESTA DISPONIBILITÀ INIZIALE CONTENUTA PER RASSICURARELA POPOLAZIONE LOCALE.NO COMMENT!!! PREGO IL PRESIDIO DI UNIRE LE LISTE DELLE FIRME! ****45 *Sex_1 *Istr_1 MANIFESTARE CONTRO QUESTI DUE FURBACCHIONI GIÀ PER SE È OBBLIGATORIO. MA E' FATTO OBBLIGO A TUTTI PARTECIPARE IN QUANTO MANCANO 7 GIORNI AL PUNTO DI NON RITORNO! CONDIVIDO FIRME AL PRESIDENTE NAPOLITANO E AL PRESIDENTE DEL CONSIGLIO LETTA E CORTEO MERCOLEDÌ. ****46 *Sex_2 *Istr_1 BENE! IO SO CHE SIETE GRANDI!!! ===== ………………………………………………………………………………………………………………………… Il 'corpus ‘ dei dati testuali e il bilancio lessicale (software IRaMuteq) • • • I 46 post scambiati dai cittadini e residenti è tecnicamente un ‘corpus’ del tipo "testi frammenti“ la prima analisi quantitativa che si fa di un corpus di dati testuali è il ‘bilancio lessicale‘ in cui figurano: il nome del file di testo; la lingua del testo; il numero di testi (qui post) esaminati; i segmenti del testo (frasi, sequenze di parole adiacenti nel testo che possono essere di varia lunghezza (es. min 3-max 10 parole), le occorrenze ossia il numero totale di parole (=forme grafiche), il numero delle forme (ossia parole diverse), numero di hapax ossia parole che si ripetono una sola volta nel testo, la percentuale degli hapax rispetto alle forme e alle occorrenze (indici della ricchezza lessicale dei post analizzati) Tab.2 - Bilancio lessicale del 46CIT2VAR.TXT': alcuni parametri corpus 'File Parametri Valore Nome 46CIT4VAR_corpus_ Lingua Italiano N. testi 46 N.segmenti del testo 67 Occorrenze 1974 N.forme 907 N.Hapax 669 N.hapax in % forme 73,76% N.hapax in %occorrenze 33,89 NOTA: la numerosità del corpus analizzato (1974 occorrenze: numero parole) risulta puramente esemplificativa perché per avere una discreta stabilità dei risultati per le analisi statistiche quantitative di dati testuali occorrono almeno 10.000 occorrenze : quindi per i big data testuali queste sono le analisi dei dati più adatte! Le prime analisi statistiche semplici del file A-Cittadini • Il file A-Cittadini è risultato di N=46 post, sono stati scelti quelli per i quali è stato possibile (tramite una nostra apposita ricerca sui blog) conoscere le seguenti caratteristiche soci-demografiche dei ‘postanti’ • 1)Genere; 2)Titolo di studio; 3)Occupazione; 4)N° di post scritti dalla stessa persona nel periodo considerato • Attraverso il cosiddetto File Numerico associato ai post (Fichier Numerique) fornito dal software Spadt si sono ottenuti i dati riportati nella seguente Tabella. considerato GENERE TITOLO DI STUDIO N % CONDIZ. OCCUPAZIONALE N % 1.Maschi 21 45,6 1.Dipl. o Liceo 9 19,6 1.Occupato/a 26 56,5 1.Una sola volta 11 23,9 2.Femmine 25 54,4 2.Laurea 18 39,1 2.Nessun dato 20 43,5 2. Da 2 a 4 volte 17 36,9 Totale 46 100 3.Nessun dato 19 41,3 100 3.Da 5 e più 18 39,2 Totale 46 100 Totale 100 100 Totale N 46 % FREQUENZA SCRITTURA POST N % L’Analisi lessicale statistica semplice dei segmenti caratteristici: Le Proc MOCAR e Proc RECAR Per segmenti si intendono ‘frasi’ insiemi di parole (almeno due in SPADT) che si ripetono almeno tre volte (in SPADT). In particolare con SPADT e le procedure denominate PROC MOCAR e PROC RECAR si ottengono delle “tipologie” dei contenuti dei post esaminati qui sono ora analizzati come ‘segmenti’. Nel Graf.1 sono riportati sinteticamente i 7 tipi di segmenti caratteristici secondo il genere. Graf. 1 _Tipologia dei segmenti secondo il genere M F • A titolo esemplificativo delle potenzialità dell’AADT è stata impiegata con il software Iramuteq al corpus 46CIT4VAR una cluster analysis al fine di individuare le unità di contesto più simili (cluster) in altri termini al fine di individuare le parole che più caratterizzano ciascun cluster , ‘mondi lessicali’, ‘profili lessicali’, in sostanza quindi dare una ‘struttura’ al corpus del file dei testi Cluster 1 individua i post inerenti la nuova discarica , caratteristiche negative del luogo, e netto rifiuto , mancanza di una politica dei rifiuti basata sulla raccolta differenziata. Cluster 2 individua invece le denunce,richieste, petizioni, interrogazioni parlamentari rivolte alle istituzioni, molte in particolare al sindaco di Roma Marino e al presidente della Regione Lazio Zingaretti, sia di rifiuto della nuova discarica nella zona del Divino Amore che della gestione da parte dell'Ecofer (già compromessa con la precedente gestione monopolitstica della discarica dei rifiuti di Roma nella zona di Malagrotta). Cluster 3 individua invece l’urgenza di unirsi, organizzarsi e mantenere vivo il “Presidio No alla Discarica del Divino Amore” con entusiasmo e coraggio, per la salute , contro i tumori . Le due analisi multidimensionali dei dati testuali più impiegate: L’Analisi delle Corrispondenze di dati testuali : interpretazione degli assi fattoriali in chiave linguistica (S.Bolasco) Una frase=struttura sintagmatica. Più due parole sono vicine sul piano fattoriale tanto più esse CO-OCCORRONO NEL CORPUS. Gruppi di parole fra loro vicine sul piano ricostruiscono interi contesti di significati. Se il corpus è composto di frasi brevi è facile ritrovarsi in queste situazioni interpretabili. Qualche osservazione conclusiva sui contenuti dei post Dai contenuti dei post analizzati si possono rilevare alcune caratteristiche specifiche di questo movimento: il carattere locale della protesta; nasce e si sviluppa su uno scopo preciso e delimitato : “no alla discarica nella zona del Divino Amore” ; l'interesse a non connotare politicamente tramite partiti, l'organizzazione e i contenuti del movimento; l'assenza di gerarchie tra le varie associazioni, la totale orizzontalità. Si possono denominare queste mobilitazioni dei cittadini per il territorio “ Globalizzazione Territoriale” CASO DI STUDIO N.2 • • • La qualità della Vita nelle Comunità Montane Italiane: Il questionario “Scheda descrittiva per problemi socia rilevanti”: il corpus è quindi del tipo TESTI-FRAMMENTI , risposte libere testuali a domande aperte del questionario Applicazioni dell’analisi multidimensionale dei dati testuali per la costruzione della teoria ausiliaria alla individuazione di indicatori empirici della QdV nelle CM Oggi la QdV è oggi BES: Recentemente la Dr.ssa Francesca Della Ratta-Rinaldi dell’ISTAT-DISA ha effettuato un’analisi dei dati testuali su ‘Le opinioni dei cittadini sulle misure del benessere – Risultati della consultazione ‘on line’ consultabile in http://www.istat.it/it/archvio/134852 in cui si richiede ai cittadini di indicare quali sono secondo loro le dimensioni sociali rilevanti che costituiscono i fondamenti del Benessere Equo e Sostenibile (BES) oggi definizione attuale di Qualità della Vita proposta dal CNEL e ISTAT : La mappa concettuale della misurazione di un fenomeno complesso tramite indicatori empirici Schematicamente la misurazione statistica di un fenomeno complesso tramite indicatori e eventuali indici sintetici possono essere rappresentate con la mappa concettuale seguente (Fraire 1987, 1989): La strategia di analisi multidimensionale dei dati testuali oggetto del presente caso di studio si riferisce al contributo che queste analisi proprio perché riferite ad aspetti ancora in forma ‘lessicale’ ma già empirici (statisticamente osservabili) possono dare nel passaggio dalla seconda alla terza fase ossia dagli aspetti costitutivi o dimensioni nei quali è stato definito ‘a priori’ il fenomeno sociale o concetto agli indicatori empirici corrispondenti. La mappa concettuale per l’AADT La scelta del ‘corpus’ TESTI-TESTI (saggi, biografie, discorsi parlamentari ecc.) o TESTI-FRAMMENTI (testi corti, sms, tweet o chat, blog ecc.) Creazione del ‘corpus’ file di testo (txt)ed eventuali meta-variabili associate La scelta delle unità lessicometriche di analisi : -forme grafiche -segmenti Prime analisi statistiche. Scelta della Scelta tabella dei della dati: metrica: -frammenti *forme es. ² -forme *parti - forma*forma Metodo e software* di ADT: Cluster Anal. ACS e ACM Output risultati - numerici - grafici particolari (nuvola lessicale, grafo lessicale * Taltac, Lexico, Spad-T, DtmVic di Lebart, Iramuteq Aspetti metodologici: La documentazione statistica di partenza: Indagine sulla Qualità della Vita (QdV) delle Comunità Montane (C.M.) italiane (INEMO, 1983) • Il questionario ‘Scheda descrittiva-per problemi’: 8 domande aperte miranti ad individuare le ‘preoccupazioni sociali rilevanti’(social worries) per le 8 aree di rilevanza sociale (social areas): A: ‘Salute’ (Health) ; B:’Istruzione e Formazione professionale’; (Education and Training) C: ‘Occupazione e Qualità del lavoro’; (Employment and Quality of Labour) D:’Impiego del tempo libero’; (Leisure) E: ‘Situazione economica personale’; (Personal Economic Situation) F:’Ambiente fisico’; (Physical Environment) G:’Ambiente sociale’;(Social Environment) H: ‘Sicurezza personale’(Personal Security) + I: ALTRA(altra eventuale area) Popolazione: 22 C.M. appartenenti a tutte le regioni italiane; Intervistati:22 operatori delle 22 C.M. Matrice dei dati iniziali: file di testo originario:tutte le risposte libere date dai 22 operatori delle CM per ciascuna delle 8 domande = social areas .8 sub-files; *dimensioni: indice V/N da 17,9% a 34%. file numerico associato (meta variabili a posteriori)al file di testo riguardante le caratteristiche delle N=22 CM. Nell’esempio considerato si è scelta come variabile attiva per le successive analisi la Ripartizione geografica di appartenenza della C.M. con le 5 modalità: Nord Ovest; Nord Est; Centro, Sud; Isole. il corpus dei dati testuali (Il questionario:1^fase dell’AMD) ………………………………… (2^fase dell’AADT) La matrice dei dati iniziali testuali : il file di testo nell’Analisi dei Dati Testuali: Il corpus ‘QdVCM.txt' - - ----01PIECN A) ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI. DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA DI SERVIZI DI TRASPORTO. ++++ B)DIFFICOLTA DI ACCESSO ALLA SCUOLA MEDIA SUPERIORE E SCUOLE PROFESSIONALI PER CARENZA TRASPORTI PUBBLICI. PROBLEMA DELLA MENSA PER GLI ALUNNI PENDOLARI. SCUOLE PROFESSIONALI SCARSAMENTE CORRELATE CON LE EFFETTIVE ESIGENZE DEL MONDO DEL LAVORO. ++++ C)FINO AD UN ANNO FA NON VI ERANO GROSSE DIFFICOLTA DI OCCUPAZIONE MA ATTUALMENTE IN VARI SETTORI INDUSTRIALI E ARTIGIANALI VI E RIDUZIONE DELL'OCCUPAZIONE. DIFFICOLTA SOPRATTUTTO PER I GIOVANI E LE DONNE IN CERCA DI PRIMA OCCUPAZIONE. AUMENTA IL LAVORO NERO E PART-TIME. ++++ D)LA ZONA PRESENTA SCARSE OPPORTUNITA DI CARATTERE CULTURALE. PIU FAVOREVOLI INVECE SONO LE POSSIBILITA DI ATTIVITA SPORTIVE. ++++ E) IN GENERALE IL REDDITO PRO-CAPITE E DISCRETO. PARTICOLARMENTE ONEROSO SPECIE PER LE CATEGORIE A BASSO REDDITO E IL COSTO PER IL RISCALDAMENTO. ++++ F)PARTICOLARMENTE CARENTE E LA SS20 DEL COLLEDITENDA PER IL TRAFFICO PROVINCIALE. DEGRADO DOVUTO ALL'ATTIVITA DELLE CAVEE LA PRESENZA DI INDUSTRIE. ++++ G) L'AMBIENTE SOCIALE E DIVERSO NEL FONDO-VALLE RISPETTO A QUELLO DELL'ALTA-VALLE. NEI PAESI DI FONDO-VALLE.NEI PAESI DI FONDO-VALLE IL SERVIZIO SOCIALE SI OCCUPA DEI PROBLEMI DEI GIOVANI E DELLE FAMIGLIE MENTRE NELL'ALTA VALLE I PROBLEMI RIGUARDANO L'ASSISTENZA AGLI ANZIANI. FENOMENO DIFFUSO E INOLTRE L'ALCOOLISMO MENTRE EMERGENTE E QUELLO DELLA DROGA. ++++ H) SONO IN AUMENTO NEL SETTORE DEI REATI I FURTI. IN GENERALE LA SICUREZZA PERSONALE NON PRESENTA PARTICOLARI PROBLEMI. ----02VADAO A)ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA DI TRASPORTI. ++++ B)LA FREQUENZA ALLE SCUOLE ELEMENTARI NON PRESENTA PROBLEMI MENTRE LA FREQUENZA ALLE SCUOLE SUPERIORI E UN PROBLEMA PER I BAMBINI CHE ABITANO NELLE FRAZIONO ALTE DELLE VALLATE. MANCA UNA SEDE UNIVERSITARIA. ++++ ………………………... ----22SARNU 3^fase AMD • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Analisi dei dati testuali Un esempio di codifiche a posteriori di 3^ fase: la selezione delle risposte caratteristiche Selezione delle risposte caratteristiche secondo le ripartizioni geografiche. (Criterio del Chi-quadrato) INDICE CHI-QUADRATO RISPOSTE CARATTERISTICHE Nord-Ovest .447 -1 ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI. .592 -2 ASSENZA DI OSPEDALI E PRONTO SOCCORSO 2 MALATTIE TIPICHE DEGLI ANZIANI.NEOPLASIE. .738 -3 ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE 3 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE PER CARENZA DI TRASPORTI. Nord-Est .480 -1 ELEVATA PRESENZA DI GOZZO PER CARENZA DI IODIO NELL'ACQUA POTABILE. 1 ALTO TASSO DI INVALIDI IN AGRICOLTURA PER INCIDENTI. .725 -2 ALTO TASSO DI HANDICAP E INVALIDI. .754 -3 NON FUNZIONALITA DEI DISTRETTI DI BASE 3 ASSENZA DI STRUTTURE PER HANDICAPPATI. .766 -4 CLIMA UMIDO MALATTIE REUMATICHE E BRONCHIALI . .864 -5 DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE IN CASO DI EMERGENZA. Centro .534 -1 STRUTTURE SANITARIE ACCENTRATE PRESSO L'OSPEDALE CIVILE. 1 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE IN CASO DI EMERGENZA PER ASS.DISTR DI BASE. .640 -3 CARENZA DI UN CONSULTORIO FAMILIARE 3 ASSENZA DI CENTRI DI IGIENE MENTALE .735 -4 ASSENZA DI PRESTAZIONI SANITARIE PERIFERICHE. .804 -5 ALTO TASSO MALATTIE REUMATICHE PER CLIMA UMIDO. 5 ALTO TASSO DI ANZIANI PER SPOPOLAMENTO. Sud .501 -1 ASSENZA DI ASILI NIDO E STRUTTURE PER HANDICAPPATI 504 2 ALTO TASSO DI HANDICAPS E INVALIDI CIVILI. 2 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE IN CASO DI EMERGENZA PER ASS.DI DISTR.DI BASE .561 -3 ALTO TASSO DI HANDICAPS PER POLIOMIELITE. .772 -4 ASSENZA DI SERVIZI PER ANZIANI.CARENZA DI STRUTTURE PER HANDICAPPATI. .778 -5 ALTO TASSO DI INVALIDI 5 ASSENZA DI PRESTAZIONI SANITARIE PUBBLICHE. Isole .376 -1 ASSENZA DI UN CENTRO DI RIANIMAZIONE. 1 CARENZA DI CENTRI DI SERVIZIO SOCIALE IN AMBITO USL .695 -2 ALTO TASSO DI INVALIDI CIVILI.CARENZA DI SERVIZI SANITARI. .937 -3 ALTO TASSO DI HANDICAP E INVALIDI. Le forme lessicali caratteristiche: un esempio Area A: Salute. Selezione di alcune delle risposte (segmenti) caratteristiche secondo le ripartizioni geografiche. (Criterio del Chi-quadrato) INDICE CHI-QUADRATO ALCUNE RISPOSTE CARATTERISTICHE Nord-Ovest .738 -- DIFFICOLTA’DI ACCESSO ALLE PRESTAZ.SANITARIE PER CARENZA DI TRASPORTI.* Nord-Est .864 -- DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE IN CASO DI EMERGENZA. Centro .804 -- ALTO TASSO MALATTIE REUMATICHE PER CLIMA UMIDO. ALTO TASSO DI ANZIANI PER SPOPOLAMENTO. Sud .778 -- ALTO TASSO DI INVALIDI ASSENZA DI PRESTAZIONI SANITARIE PUBBLICHE. Isole .937 -- CARENZA DI SERVIZI SANITARI. * ALTO TASSO DI HANDICAP E INVALIDI.* (*) segmenti con scarsa frequenza Osservazione 1: In alcuni casi i segmenti caratteristici sono assimilabili a veri e propri indicatori lessicali empirici delle ‘situazioni’ o ‘preoccupazioni sociali rilevanti’ basati sulla valutazione/percezione/conoscenza personale dell’operatore ossia indicatori soggettivi lessicali empirici. Osservazione 2: Si nota la diversità tra Nord, Centro e Sud dei bisogni legati all’area considerata (es. A:Salute) L’Analisi dei dati a 3-vie La scelta della tabella dei dati a 3-vie • Scopo: mediante l’analisi dei dati a tre-vie esaminare tutte insieme, contemporaneamente e globalmente, le 8 aree di rilevanza sociale (occasioni), le u.s. (5 ripartizioni geografiche) e le tre variabili (primi 3 fattori di ogni area) ossia le 8 tabelle di contingenza nella forma di tabelle di dati quantitativi ottenute dall’ACS. • Codifiche a posteriori: si sono impiegate le 8 tabelle di dati quantitativi i X n , k (i=1,..,8 aree di rilevanza sociale; n=1,..,5 ripartizioni geografiche; k=1,..,3 coordinate dei primi 3 fattori (punteggi fattoriali) di ciascuna area), per l’analisi a 3-vie. In tali tabelle sono state considerate diverse le 3 variabili rilevate nelle 8 occasioni (8 aree di rilevanza sociale) e uguali le u.s. (5 ripartizioni geografiche). • Software impiegato per le elaborazioni dei dati: ACT- Méthode STATIS. La tabella dei dati testuali a tre vie T X N , K(t 1,2,..., T ; n 1,2,..., N ; k 1,2,..., K ) N Unità statistiche 5 RipGeo X Occasioni es. 8 Domande libere (8 aree di ril.soc.) T N,K 8 Aree rilev.soc. T Parole (prime 3 assi fattoriali (punteggi) 5 Ripartiz.geograf. K Variabili primi 3 fattori A. Analisi dell’interstruttura L’analisi dell’interstruttura consente attraverso la rappresentazione globale di tutte le tabelle di conoscere: •le tabelle che hanno una struttura simile o diversa (tramite la matrice dei coefficienti RV di Escoufier indicanti la relazione tra tutte le coppie di tabelle); •le tabelle che contribuiscono maggiormente alla parte di variabilità eccedente quella comune rappresentata dalla matrice compromesso WD ossia la matrice media (mediante la rappresentazione sul piano delle prime due componenti centrate rispetto alla matrice WD delle 8 aree di rilevanza sociale) . Matrice dei coefficienti RV di Escoufier 1 1 2 3 4 5 6 7 8 1.000 .668 .610 .633 .802 .596 .643 .767 2 3 4 5 1.000 .637 .704 .658 .935 .973 .620 1.000 .926 .779 .723 .706 .750 1.000 .660 .695 .704 .838 1.000 .687 .702 .670 6 1.000 .973 .624 7 1.000 .577 8 1.000 Osservazione1: le matrici aventi struttura più simile sono risultate nell’esempio considerato quelle relative alle coppie di occasioni: 2-6:’Istruz. e Formaz.Prof.’/’Ambiente fisico’ (RV=0,935); 2-7:’Istruz. e Formaz.Prof.’/’Amb.Sociale’ (RV=0.973); 3-4: ‘Occupaz. e QdL/’Impieghi del T.L.’ (RV=0.926); 6-7: ‘Ambiente Fisico’/ ‘Ambiente Sociale’ (RV=0.973). Osservazione2 :la similitudine tra matrici riguarda la similitudine della nuvola dei punti-unità nelle diverse coppie di occasioni nel senso che gli individui che hanno la stessa struttura hanno le posizioni dei punti omologhi che non sono cambiate (sono stabili) a prescindere dal cambiamento delle variabili nelle diverse occasioni considerate (cfr. ad es. Bolasco 1999). B)Analisi dell’intrastruttura: la collocazione delle aree di rilevanza sociale attravero l’analisi dell’interstruttura(matrice compromesso) Fig.2 - Rappresentazione sul primo piano fattoriale centrato (72,04%) rispetto alla matrice compromesso delle 8 aree di rilevanza sociale -----------------------------------------------------------------------------------------------------------------------1! ! 1 ! 2 28,14% 2! ! ! 3! ! ! 4! ! ! 5! ! ! 6! ! ! 7! ! ! 8! ! ! 9! ! ! 10! ! ! 11! ! ! 12! ! ! 13! ! ! 14! ! ! 15! ! ! 16! ! ! 17! ! 5 ! 18! ! ! 19! ! ! 20! ! ! 21! ! ! 22! ! ! 29! ! ! 30! ! ! 31! ! ! 32! ! ! 33! ! ! 34! ! ! 35! ! ! 36! ! ! 37! ! ! 38! 2 ! 39! ! ! 1 43,90%, 40! ! ! 41!7 -------------------------------------------------------- WD -------------------------------------------------------! 42! ! ! ! 45! ! 8 ! 46! ! ! 47! 6 ! 48! ! ! 49! ! ! 50! ! ! 51! ! ! 52! ! ! 53! ! ! 54! ! ! 60! ! ! 61! ! ! 62! ! ! 63! ! ! 64! ! ! 65! ! ! 66! ! ! 67! ! ! 68! ! 3 69! ! ! 70! ! ! 71! ! ! 72! ! 4 ------------------------------------------------------------------------------------------------------------------------ (salute) (Situaz.econ.person.) (Istruz.e Form.Prof.) (Ambiente sociale) (Ambiente fisico) (Sicurezza sociale) (Occupazione) (Impieghi del t.l.) Questa classificazione ‘a posteriori’ in due clusters delle 8 aree definite ‘a priori’ emerge comunque dall’analisi della parte di variabilità delle 8 tabelle eccedente la variabilità ‘media’. Esaminiamo allora più dettagliatamente sia rispetto alle u.s. che alle variabili le caratteristiche della variabilità ‘media’. B)Analisi dell’intrastruttura: la collocazione delle ripartizoni geografiche (u.s.)rispetto alle preoccupazioni sociali rilevanti Rappresentazione delle 5 ripartizioni geografiche (5 punti unità-medi) rispetto ai primi due assi compromesso (60,48%) -----------------------------------------------------------------------------------------------------------------------1! SUD ! ! 2 2! ! ! 3! ! ! 4! ! ! 5! ! ! 6! ! ! 7! ! ! 8! ! ! 9! ! ! 10! ! ! 32! ! ! 33! ! ! 34! ! ! 35! ! ! 36! ! ! 37! ! ! 38! ! ! 39! ! ! 40! ! ! 41! ! ! 42! ! ! 43! ! ! 1 44! ! ! 45!------------------------------------ ! --------------------------------------------------------------------------------! 46! NEst ! 47! ! ! 48! ! ! 49! ! ! 50! ! ! 51! ! ! 52! ! ! 53! ! NOvest 54! ! ! 55! ! ! 56! ! ! 57! ISOL ! 58! ! ! 59! ! ! 60! ! ! 61! ! ! 62! ! ! 63! ! ! 64! ! ! 65!CENTRO ! ! ------------------------------------------------------------------------------------------------------------------------ 28,00% 32,48% Sul primo asse si evidenzia la contrapposizione tra NEst (-) e Novest (+), mentre sul secondo asse la contrapposizione tra Sud (+) e Isole (-). Il Centro come già rilevato nell’Analisi delle corrispondenze è scarsamente correlato (contributi assoluti molto bassi) su entrambi gli assi. C)Analisi delle traiettorie Fig.4 – Traiettorie delle 5 Ripartizioni geografiche primo (4a)e al secondo (4b)asse fattoriale in funzione di rilevanza sociale. rispetto al delle 8 aree 0!-----------------------------------------------------------------------------------------------------------------------1! Fig.4a : 32, 48% 1 2! A ! 3! A ! 4! ! 5! ! 6! A A ! 7! ! 8! ! 9! A A ! 10! ! 11! ! 12! ! 13! ! 14! ! 15! A ! 16! NOvest A ! 17! ! 24! ! 25! NEst B ! 26! ! 27! ! 28! ! 29! D ! 30! ! 31! ! 32! D ! 33! B ! 34!------------1 ----------2 ---------3E --------4 ----------5B --------6 ----------7 ----------8E -------------------35! 36! D ! 37! D D ! 38! E D B ! 39! D E ! 40! E ! 41! Isole E B ! 42! Centro C B ! 43! Sud D C ! 44! E ! 45! ! 46! E C C C B C ! 47! ! 48! B ! 49! C ! 50! C ! ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------1! 2! 3! 4! 5! 6! 7! 8! 9! 10! 11! 12! 13! Fig.4b: 2 28,00% D D D D Sud D D D I°asse D ! ! ! ! ! ! ! ! ! ! ! ! 23! B ! 24! ! 25! NEst B ! 26! ! 27! ! 28! B B ! 29! A ! 30!------------1 ----------2 ----------3 ----------4 ----------5 ----------6 ----------7 ----------8 ----------------------! 31! E B ! 32! E A C ! 33! A ! 34! C B ! 35! A ! 36! ! 37! E A E ! 38! Centro C A A ! 39! B E ! 40! NOvest A E E ! 41! B ! 42! C E ! Is ole 43! ! 44! C C 45! ! 46! ! 47! C ! 48! ! 49! ! 50! C ! ------------------------------------------------------------------------------------------------------------------------ II°asse Legenda:Ripart. Geograf.: A:Novest; B:NEst; C: Centro; D:Sud; E:Isole. AreediRil.Soc.:1:Salute;2:Istruz.eForm.Prof.;3:Occup.eQdL;4:ImpieghiT.L.;5:S it.Econ.Pers.;6: Ambiente Fisico;7: Ambiente Sociale; 8: Sicurezza Personale. Le linee tratteggiate ma qui sono solo strumentalmente impiegate per facilitare il confronto delle diverse traiettorie delle 4 Ripartizioni Geografiche x 8 aree di rilevanza sociale sovrapposte. Si noti (rispetto alle traiettorie del primo asse (Fig.a) è la ripartizione NOvest che si differenzia nettamente dalle altre nell’articolazione delle 8 aree di rilevanza sociale che costituiscono la definizione di QdV ipotizzata mentre rispetto al secondo asse (Fig.4b) è il Sud a differenziarsi nettamente dalle traiettorie delle altre ripartizioni. Inoltre, pur nella diversità dei ‘percorsi’ delle ripartizioni dovuti ad una diversa struttura delle preoccupazioni sociali rilevanti di ciascuna area, vi sono delle aree vicine ad esempio nella Fig.I°asse: l’area 1:‘Salute’ nelle Isole, Centro e Sud; l’area 7: ‘Ambiente sociale’ nel NEst e Sud; Centro e Isole; l’area 4: ‘Impieghi del T.L.’ per il Centro e NEst. Alcune considerazioni sull’utilità per la ricerca sociale dell’AADT nel caso considerato Attravero la strategia di analisi proposta è stato possibile: esplicitare empiricamente il contenuto degli aspetti costitutivi (social areas) impiegati per la definizione del fenomeno complesso (QdV) tramite gli indicatori lessicali empirici; individuare le dimensioni (social areas) più diverse nella loro struttura globale (interstruttura) e nel contempo quelle che contribuiscono di più alla differenziazione tra le u.s. (le ripartizioni geografiche) (intrastruttura); intravedere i possibili motivi delle differenziazioni tra le u.s.(ad es. l’emergere di due clusters di aree di rilevanza sociale assimilabili a bisogni ‘strutturali’ e ‘sovrastrutturali’ come fattori della differenziazione tra le ripartizioni geografiche); confrontare le diverse traiettorie delle u.s. (ripartizioni geografiche) disponendo così di un’analisi ‘compatta’ della dinamica tra le occasioni (es. aree di rilevanza sociale ‘diacroniche’ o ‘sincroniche’ rispetto ai bisogni espressi). Siti web per il downloading dei software di Analisi Statistica dei Dati Testuali IRaMuTeQ: http://www.iramuteq.org Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires DtM-Vic Lebart ("Data and Text Mining: Visualization, Inference, Classification“) http://www.dtmvic.com/05_SoftwareI.html TaltacC2 (versione 2.10): www.taltac.it , Riferimenti bibliografici ACT (1989), Installation e Description de la Méthode STATIS, CISIA, France Bolasco S., 1999, Analisi Multidimensionale dei Dati. Carocci Ed., Roma Bolasco S., 2013, L’Analisi automatica dei testi. Fare ricerca con il text mining., Carocci Ed.2013. Cannavò L.,1999, Teoria e Pratica degli Indicatori nella Ricerca Sociale, ed.LED, Milano, 1999 vol.I: Teorie e Problemi della Misurazione Sociale Chomsky N.,1969, L’analisi formale del linguaggio, Boringhieri, 1969 Della Ratta-Rinaldi,2000, L’analisi testuale: uno strumento per la ricerca sociale, in Sociologia e Ricerca Sociale anno XXIn.61 pagg.102-127. Della Ratta-Rinaldi (2005), L’interpretazione sistematica del materiale derivante da focus group attraverso l’analisi testuale, in Sociologia e Ricerca Sociale, pagg.91-104 De Mauro T., 1993, Lessico di frequenza dell’italiano parlato De Saussure F., 1972, Cours de linguistique générale, ed. con le note di T. De Mauro, Payot, 1972. Elia A., 1995, Dizionari elettronici e applicazioni informatiche, in JADT 1995, Roma Ed. CISU Fraire M.(1989), Problemi e metodologie statistiche di misurazione di fenomeni complessi tramite indicatori e indici sintetici, in Statistica, n.2,1989. Fraire M., 1994 - Metodi di Analisi Multidimensionale dei Dati, Ed.CISU, Roma, 1994 Fraire M., 2000, Analisi a tre vie nelle risposte a domande aperte e indicatori empirici, in Sociologia e Ricerca Sociale anno XXIn.61 pagg87101 Fraire M.Rizzi A., 2011, Analisi dei Dati per il data mining, Carocci Ed. 2011 Gross M., 1995 - On counting meaningful units in texts - in JADT 1995, Roma Ed.CISU Iezzi D.F. (2012) A new method for adapting the k-means algotithm to text mining, in Statistica Applicata-Italian Journal of Applied Statistics (special issue: Advances in Textual Data Analysis and Text Mining) 22,1, 2010 pp.65-76 INEMO (1983), Scheda descrittiva per problemi di 22 Comunità montane, in Inemo-informazioni, n.3/4 luglio/Dicembre 1983. Lebart L., 1995 - Analyse statistique des données textuelles: quelques problèmes actuels et futurs - in JADT 1995, Roma Ed. CISU Morrone A., 1995 - Una strategia di trattamento del testo per l’individuazione di variabili testuali rilevanti, in JADT 1995, Roma Ed. CISU Reinert M., 1995 - Quelques aspects du choix des unité d’analyse et leur controle dans la methode ‘ALCESTE’ - in JADT, 1995, Roma Ed. CISU Rizzi A., 1985, Alcune analisi statistiche della lingua italiana, Statistica n.1,1985 Rizzi A. (1985), Analisi dei dati, Ed. NIS, Roma, 1985. Rizzi A.(1987), Sulla matrice media, Quaderni del Dip.to SPSA,Università di Roma ‘La Sapienza’, Serie A-Ricerche n.2/1987 Rizzi A.,1992 - Orientamenti attuali della statistica linguistica - Quaderni del Dip.to di Statistica Probabilità e Statistiche Applicate, Serie A-Ricerche n.21,1992. Salem A. 1995, Les unités lexicometriques - in JADT 1995, Roma Ed.CISU SPAD.T (1993), Introduction à SPAD.T intégré.Version 1.5P.C., CISIA, Saint-Mandé, France Statera G. (1997), La ricerca sociale. Logica, strategie, tecniche, Ed.SEAM, Roma Zipf G.K. (1935), The psychobiology of language. An introduction to Dynamic Philology, Houghton-Mifflin, Boston