ANALISI Sergio Bolasco MULTIDIMENSIONALE Metodi, strategie e criteri d'interpretazione DEI DATI ·nez1à 'ISIVO • • .arocc1 Sergio Bolasco \ Analisi multidimensionale dei dati Metodi, strategie e criteri d'interpretazione ISTITUTO ur~IVERSITARIO ARCHITETTURA VENEZIA AREA SERVIZI BIBLIOGRAFICI EDOCUMENTALI •NV. CIA .... :.0.~.0..:7:J ......................... @ Carocci editore .' . Indice Prefazione 13 Introduzione 17 Complessità, modello e ·induzione La logica della scuola francese di "analisi dei dati" Caratteristiche dell'analisi dei dati in economia I modelli e gli obiettivi delle tecniche multidimensio- 18 20 21 nili u I. La costruzione deJle matrici dei dati 25 I.I. Il ciclo di aggregazione dei dati Ruoli degli elementi di una matrice dei dati Tipi di matrici di dati 29 1.2. 1.3. 25 30 1.3.1. Matrici unità-variabili I 1.p. Matrici unità-unità I 1.3.3. Matrici variabili-variabili 2. 2.1. 2.2. 2.3. 2-4. 2.5. Grafica statistica e trattamento grafico dell'informazione Alcune questioni di fondo Proprietà e limiti di un'immagine Alcuni principi della percezione visiva Costruzione di un'immagine e definizione di figura L'informazione utile 37 37 38 39 40 43 2.p. La visibilità 2.6. Le variabili visive 45 7 r i ANALISI MULTIDIMENSIONALE DEI DATI 2.7. 2.8. La costruzione normale o costruzione grafica standard Il principio di mobilità dell'immagine: la grafica di elaborazione 49 1.8.1. Matrici di permutazione I 1.8.2. Matrice ponderata Software per l'analisi grafica multidimensionale 3. Il modello dell'analisi fattoriale esplorativa 3.1. Analisi generale 59 3-1.1. Ricerca del sottospazio ottimale per le unità I J.1.2. Ricerca del sottospazio ottimale per le variabili I 3.1.3. Relazione fra lo spazio delle unità e lo spazio delle variabili I 3.1.4. Il modello di ricostruzione dei dati I J.J.5. Analisi con metriche e criteri di ponderazione qualunque 75 3.3. Elementi non-attivi (o fuori analisi) Soluzione del problema di ricerca di un massimo vincolato 4. Analisi in componenti principali 79 4.1. Logica di analisi nello spazio degli individui Logica di analisi nello spazio delle variabili Criterio per la ricerca del sottospazio fattoriale ottimale Elementi per l'interpretazione 3.2. 4.2. 4.3. 4-4· 4.4.1. Potere esplicativo della soluzione agli autovalori I 4+2. Combinazioni lineari e interpretazione geometrica delle relazioni fra i due spazi I 4.4.3. Elementi rilevanti nella costruzione di un fattore I 4+4· Qualità di rappresentazione dei punti nel sottospazio fattoriale 4.5. Elementi illustrativi 5. Analisi delle corrispondenze 5.1. Analisi delle corrispondenze semplici 101 5-1.1. Aspetti teorici e fasi dell'analisi I 5-1.2. Una presentazione formalizza. ta dell'analisi delle corrispondenze I p.J. Interpretazione statistica dell 'inerzia I P+ Inerzia e forme della nuvola dei punti I 5-1.5. Valutazione del risultato p. Analisi delle corrispondenze multiple p.1. Aspetti teorico-metodologici e fasi dell'analisi I p.2. Una descrizione formalizzata dell'analisi I p.3 . Alcune equivalenze e particolarità del- 8 127 INDICE l'analisi delle corrispondenze I P+ Caratteristiche dell 'interpretazione I 5.2.5. Significatività degli elementi illustrativi su un asse fattoriale 6. 6.r. Criteri d'interpretazione di un'analisi fattoriale: casi di studio e aspetti computazionali 147 Elementi generali per impostare un'analisi fattoriale di tipo esplorativo 147 6.r.r. A livello "oggetti" I 6.1.2. A livello "multidimensionalità" dello studio I 6.t.3. Strutturazione dei dati e scelta delle tecniche 6.2. Criteri generali per interpretare un risultato fattoriale 6.2.1. Orientamento degli assi fattoriali I 6 .2.2. Inerzia e ricerca di regolarità I 6 .2.3. Il meccanismo dell 'interpretazione I 6.2+ Una riflessione sulla logica d 'interpretazione dei fattori 6.3. L'interpretazione nell'analisi in componenti prmc1pali 6.3.1. Applicazione: i mercati regionali del lavoro L'interpretazione nell'analisi delle corrispondenze 6-4.J. Applicazione: le categorie socio-professionali nella popolazione italima • L'interpretazione nell'analisi delle corrispondenze multiple 170 6.p. Applicazione: un'analisi delle carriere di stud_e nti universitari 7· Analisi dei dati testuali 179 7.r. L'evoluzione degli studi sugli aspetti quantitativi della lingua Alcune definizioni e concetti generali 181 182 7.2. Corpus, testo, frammento ; contesto e situazio ne I 7. 2 .2 . Occorrenza, vocabolario, dizionario, lessico e rango I 7 .2.3. Sulla definizione di parola: form a grafica, lemma I 7.2.4. Per una nomenclatura di tipo statistico 7. 2.1. 7.3. Obiettivi di studio e tipologie di unità d'analisi 7.3. 1. Unità di contesto, segmenti ripetuti e poliformi I 7.3.2. La scelta di unità significative per lanalisi testuale: lessie, polirematiche e form e testuali 7.4. 7.5 . Sul concetto di frequenza Regolarità dei dati linguistici e altri aspetti quantitativi 7.p. La relazione fondament ale fra rango e frequenza I 7 .5.2. Le fasce di frequ enza di un vocabolario I 7.5.J. Dimensioni minime del corpus I 7.5.4. 9 197 200 ANALI S I MULTIDIMENSIONALE DEI DATI Livello di soglia e tasso di copertura del testo I 7.5.5. Concetto e misure di dispersione e uso 7.6. Le matrici dei dati testuali per l'analisi del contenuto 208 7.6.1. Ruolo delle unità di testo e delle unità di contesto I 7.6.1. Tipi di matrici di dati testuali 7.7. Il trattamento del testo 213 7.7.1. Criteri generali d'intervento sul testo I 7.7.2. Processo d'individua· zione di forme testu ali I 7.7.3. Strumenti per individuare le unità lessicali su cui intervenire I 7-7+ li linguaggio peculiare: parole tem a e parole chiave 7.8. L'analisi statistica multidimensionale del contenuto 225 7.8.1. Specificità di forme e frasi in un testo I 7.8.1. La ricostru zione di modelli di senso 7.9. Alcuni casi di studio 232 7.9.1. Un'analisi sociolinguistica da una survey sul territorio I 7.9 .2. Un'ana· lisi di documenti bi ografici sull'emigrazione I 7.9.3. Un'analisi sulla soddi- sfazione della clientela 7.10. Software e aspetti computazionali 247 8. Analisi di più matrici con tecniche multiway 249 8.1. 8.2. 8.3. Le matrici "unità x variabili x occasioni" Metodi per l'analisi di matrici multiway La logica delle analisi multiway Il metodo STATIS 8+ 8+1. L'analisi nei tre tipi di volumi I 8+2 La fase interstrutturale I 8+3 La fase intrastrutturale L'analisi fattoriale multipla 8.5.1. Analisi .generale (o media) I 8.p. Analisi interstrutturale I 8.5.3. Rap- presentazione delle nuvole parziali (analisi fine) 8.6. Un esempio d'applicazione 9· Metodi di classificazione automatica Strategie di analisi 274 9.1.1. Fasi del processo di classificazione I 9.1.2. Interventi e scelte nelle procedure di classificazione automatica 9.2. Misure di diversità 279 9.2.1. Alcune misure di diversit à fra nuclei 9.3. Metodi non gerarchici 9.3.1. Descrizione generale di un algoritmo non gerarchico I 9.3.2. Princi- IO INDI CE pio di convergenza del criterio di aggregazione I 9·3-3· Legame fra scelta del numero di gruppi a priori e gruppi finali 9-4· Metodi gerarchici 288 9+1. Algoritmi aggregativi di base I 9+1. Algoritmi ad aggregazioni simultanee I 9+3· Algoritmi divisivi o scissori 9.5. 9.6. 9.7. 9.8. A.I. A.2. Strategie miste di classificazione Caratterizzazione delle classi ottenute Descrizione e interpretazione della tipologia Applicazione e problemi interpretativi 306 308 312 314 Appendice. Glossario matematico 319 Introduzione Richiami di teoria degli insiemi 319 320 A.2.1. Operazioni fra insiemi Relazioni Proiezioni, vettori, spazi vettoriali 323 323 A+r. Operazioni fra vettori I A+2. Sistemi di riferimento I A+3· Corrispondenza fra vettori del piano e punti del piano I A+4· Sulla distanza I A+5· Prodotto scalare fra due vettori Matrici 334 A.p. Operazioni su matrici I A.5.2. Traccia di una matrice I A.5-J. Determinante di una matrice I A.5.4. Rango di una matrice A.6. A.7. Soluzioni di un sistema di equazioni lineari Autovalori e autovettori 339 340 Alcune proprietà degli autovalori I A.7. 2. Matrici simmetriche a elementi reali A.7.1. A.8. Forme quadratiche e forme bilineari Bibliografia 343 II Statistica L'analisi multidimensi onale de i dati è forse oggi il modo più comune per investigare empirica mente sui fenomeni reali, quando vengono studiati attraverso info rmazioni quantitative e/o qualitative. Queste ultime posson o essere espresse in forma numerica o codificata o direttam ente in linguaggio naturale, rispettivamente attraverso grandezze, dati categoriali o dati testuali. Elaborare tali informazioni implica costruire strategie di analisi, componendo in un percorso pertin ente di studio un insieme di strumenti e tecniche, all'interno di metod i prescelti, al fine di ricavarne qualche modello di comportamento che tenda a una rappresentatività più generale del caso esaminato. La trattazione scelta dall'autore è volutamente trasversale rispetto sia al tipo di dati sia al tipo di elaborazioni. L'ambito è quello dei metodi statistici a ca rattere esplorativo, come le analisi fattoriali - utili alla costruzione di indicatori complessi e di graduatorie multidimensionali - e le analisi di classificazione automatica delle unità statistiche, utili alla costruzione di tipologie. Un'attenzione parti colare è riservata anche ad alcune nuove frontiere fra gli strumenti de lla ricerca statistica, come l'analisi dei dati testuali, il confronto di stud i con tecn iche multiway, il trattamento grafico dell'informazione, nonché ai meccanismi dell'interpretazione del risultato. Atal fine , alcuni casi di studio sono trattati ad hoc con più tecnich e e illustrati a partire dagli output del software statistico utilizzato. Sergio Bolasco è professore ordinario di Statistica alla facoltà di Economia e doce nte presso il Master in Fonti, strumenti e metodi per la ri cerca sociale dell'Università di Roma "La Sapienza". ISBN 88-430-1401-3 € 24,50