ANALISI
Sergio Bolasco
MULTIDIMENSIONALE
Metodi, strategie e criteri d'interpretazione
DEI DATI
·nez1à
'ISIVO
•
•
.arocc1
Sergio Bolasco
\
Analisi multidimensionale
dei dati
Metodi, strategie e criteri d'interpretazione
ISTITUTO
ur~IVERSITARIO
ARCHITETTURA
VENEZIA
AREA SERVIZI BIBLIOGRAFICI EDOCUMENTALI
•NV. CIA .... :.0.~.0..:7:J
.........................
@
Carocci editore
.' .
Indice
Prefazione
13
Introduzione
17
Complessità, modello e ·induzione
La logica della scuola francese di "analisi dei dati"
Caratteristiche dell'analisi dei dati in economia
I modelli e gli obiettivi delle tecniche multidimensio-
18
20
21
nili
u
I.
La costruzione deJle matrici dei dati
25
I.I.
Il ciclo di aggregazione dei dati
Ruoli degli elementi di una matrice dei dati
Tipi di matrici di dati
29
1.2.
1.3.
25
30
1.3.1. Matrici unità-variabili I 1.p. Matrici unità-unità I 1.3.3. Matrici variabili-variabili
2.
2.1.
2.2.
2.3.
2-4.
2.5.
Grafica statistica e trattamento grafico dell'informazione
Alcune questioni di fondo
Proprietà e limiti di un'immagine
Alcuni principi della percezione visiva
Costruzione di un'immagine e definizione di figura
L'informazione utile
37
37
38
39
40
43
2.p. La visibilità
2.6.
Le variabili visive
45
7
r
i
ANALISI MULTIDIMENSIONALE DEI DATI
2.7.
2.8.
La costruzione normale o costruzione grafica standard
Il principio di mobilità dell'immagine: la grafica di
elaborazione
49
1.8.1. Matrici di permutazione I 1.8.2. Matrice ponderata
Software per l'analisi grafica multidimensionale
3.
Il modello dell'analisi fattoriale esplorativa
3.1.
Analisi generale
59
3-1.1. Ricerca del sottospazio ottimale per le unità I J.1.2. Ricerca del sottospazio ottimale per le variabili I 3.1.3. Relazione fra lo spazio delle unità e
lo spazio delle variabili I 3.1.4. Il modello di ricostruzione dei dati I J.J.5.
Analisi con metriche e criteri di ponderazione qualunque
75
3.3.
Elementi non-attivi (o fuori analisi)
Soluzione del problema di ricerca di un massimo vincolato
4.
Analisi in componenti principali
79
4.1.
Logica di analisi nello spazio degli individui
Logica di analisi nello spazio delle variabili
Criterio per la ricerca del sottospazio fattoriale ottimale
Elementi per l'interpretazione
3.2.
4.2.
4.3.
4-4·
4.4.1. Potere esplicativo della soluzione agli autovalori I 4+2. Combinazioni lineari e interpretazione geometrica delle relazioni fra i due spazi I
4.4.3. Elementi rilevanti nella costruzione di un fattore I 4+4· Qualità di
rappresentazione dei punti nel sottospazio fattoriale
4.5.
Elementi illustrativi
5.
Analisi delle corrispondenze
5.1.
Analisi delle corrispondenze semplici
101
5-1.1. Aspetti teorici e fasi dell'analisi I 5-1.2. Una presentazione formalizza.
ta dell'analisi delle corrispondenze I p.J. Interpretazione statistica dell 'inerzia I P+ Inerzia e forme della nuvola dei punti I 5-1.5. Valutazione del
risultato
p.
Analisi delle corrispondenze multiple
p.1. Aspetti teorico-metodologici e fasi dell'analisi I p.2. Una descrizione formalizzata dell'analisi I p.3 . Alcune equivalenze e particolarità del-
8
127
INDICE
l'analisi delle corrispondenze I P+ Caratteristiche dell 'interpretazione I
5.2.5. Significatività degli elementi illustrativi su un asse fattoriale
6.
6.r.
Criteri d'interpretazione di un'analisi fattoriale: casi
di studio e aspetti computazionali
147
Elementi generali per impostare un'analisi fattoriale
di tipo esplorativo
147
6.r.r. A livello "oggetti" I 6.1.2. A livello "multidimensionalità" dello studio I 6.t.3. Strutturazione dei dati e scelta delle tecniche
6.2.
Criteri generali per interpretare un risultato fattoriale
6.2.1. Orientamento degli assi fattoriali I 6 .2.2. Inerzia e ricerca di regolarità I 6 .2.3. Il meccanismo dell 'interpretazione I 6.2+ Una riflessione sulla
logica d 'interpretazione dei fattori
6.3.
L'interpretazione nell'analisi in componenti prmc1pali
6.3.1. Applicazione: i mercati regionali del lavoro
L'interpretazione nell'analisi delle corrispondenze
6-4.J. Applicazione: le categorie socio-professionali nella popolazione italima
•
L'interpretazione nell'analisi delle corrispondenze multiple
170
6.p. Applicazione: un'analisi delle carriere di stud_e nti universitari
7·
Analisi dei dati testuali
179
7.r.
L'evoluzione degli studi sugli aspetti quantitativi della lingua
Alcune definizioni e concetti generali
181
182
7.2.
Corpus, testo, frammento ; contesto e situazio ne I 7. 2 .2 . Occorrenza,
vocabolario, dizionario, lessico e rango I 7 .2.3. Sulla definizione di parola:
form a grafica, lemma I 7.2.4. Per una nomenclatura di tipo statistico
7. 2.1.
7.3.
Obiettivi di studio e tipologie di unità d'analisi
7.3. 1. Unità di contesto, segmenti ripetuti e poliformi I 7.3.2. La scelta di
unità significative per lanalisi testuale: lessie, polirematiche e form e testuali
7.4.
7.5 .
Sul concetto di frequenza
Regolarità dei dati linguistici e altri aspetti quantitativi
7.p. La relazione fondament ale fra rango e frequenza I 7 .5.2. Le fasce di
frequ enza di un vocabolario I 7.5.J. Dimensioni minime del corpus I 7.5.4.
9
197
200
ANALI S I MULTIDIMENSIONALE DEI DATI
Livello di soglia e tasso di copertura del testo I 7.5.5. Concetto e misure
di dispersione e uso
7.6.
Le matrici dei dati testuali per l'analisi del contenuto
208
7.6.1. Ruolo delle unità di testo e delle unità di contesto I 7.6.1. Tipi di
matrici di dati testuali
7.7.
Il trattamento del testo
213
7.7.1. Criteri generali d'intervento sul testo I 7.7.2. Processo d'individua·
zione di forme testu ali I 7.7.3. Strumenti per individuare le unità lessicali
su cui intervenire I 7-7+ li linguaggio peculiare: parole tem a e parole chiave
7.8.
L'analisi statistica multidimensionale del contenuto
225
7.8.1. Specificità di forme e frasi in un testo I 7.8.1. La ricostru zione di
modelli di senso
7.9.
Alcuni casi di studio
232
7.9.1. Un'analisi sociolinguistica da una survey sul territorio I 7.9 .2. Un'ana·
lisi di documenti bi ografici sull'emigrazione I 7.9.3. Un'analisi sulla soddi-
sfazione della clientela
7.10.
Software e aspetti computazionali
247
8.
Analisi di più matrici con tecniche multiway
249
8.1.
8.2.
8.3.
Le matrici "unità x variabili x occasioni"
Metodi per l'analisi di matrici multiway
La logica delle analisi multiway
Il metodo STATIS
8+
8+1. L'analisi nei tre tipi di volumi I 8+2 La fase interstrutturale I 8+3
La fase intrastrutturale
L'analisi fattoriale multipla
8.5.1. Analisi .generale (o media) I 8.p. Analisi interstrutturale I 8.5.3. Rap-
presentazione delle nuvole parziali (analisi fine)
8.6.
Un esempio d'applicazione
9·
Metodi di classificazione automatica
Strategie di analisi
274
9.1.1. Fasi del processo di classificazione I 9.1.2. Interventi e scelte nelle
procedure di classificazione automatica
9.2.
Misure di diversità
279
9.2.1. Alcune misure di diversit à fra nuclei
9.3.
Metodi non gerarchici
9.3.1. Descrizione generale di un algoritmo non gerarchico I 9.3.2. Princi-
IO
INDI CE
pio di convergenza del criterio di aggregazione I 9·3-3· Legame fra scelta
del numero di gruppi a priori e gruppi finali
9-4·
Metodi gerarchici
288
9+1. Algoritmi aggregativi di base I 9+1. Algoritmi ad aggregazioni simultanee I 9+3· Algoritmi divisivi o scissori
9.5.
9.6.
9.7.
9.8.
A.I.
A.2.
Strategie miste di classificazione
Caratterizzazione delle classi ottenute
Descrizione e interpretazione della tipologia
Applicazione e problemi interpretativi
306
308
312
314
Appendice. Glossario matematico
319
Introduzione
Richiami di teoria degli insiemi
319
320
A.2.1. Operazioni fra insiemi
Relazioni
Proiezioni, vettori, spazi vettoriali
323
323
A+r. Operazioni fra vettori I A+2. Sistemi di riferimento I A+3· Corrispondenza fra vettori del piano e punti del piano I A+4· Sulla distanza I
A+5· Prodotto scalare fra due vettori
Matrici
334
A.p. Operazioni su matrici I A.5.2. Traccia di una matrice I A.5-J. Determinante di una matrice I A.5.4. Rango di una matrice
A.6.
A.7.
Soluzioni di un sistema di equazioni lineari
Autovalori e autovettori
339
340
Alcune proprietà degli autovalori I A.7. 2. Matrici simmetriche a elementi reali
A.7.1.
A.8.
Forme quadratiche e forme bilineari
Bibliografia
343
II
Statistica
L'analisi multidimensi onale de i dati è forse oggi il modo più comune
per investigare empirica mente sui fenomeni reali, quando
vengono studiati attraverso info rmazioni quantitative e/o qualitative.
Queste ultime posson o essere espresse in forma numerica o codificata
o direttam ente in linguaggio naturale, rispettivamente attraverso
grandezze, dati categoriali o dati testuali. Elaborare tali informazioni
implica costruire strategie di analisi, componendo
in un percorso pertin ente di studio un insieme di strumenti
e tecniche, all'interno di metod i prescelti, al fine di ricavarne
qualche modello di comportamento che tenda
a una rappresentatività più generale del caso esaminato.
La trattazione scelta dall'autore è volutamente trasversale rispetto
sia al tipo di dati sia al tipo di elaborazioni. L'ambito è quello
dei metodi statistici a ca rattere esplorativo, come le analisi fattoriali
- utili alla costruzione di indicatori complessi e di graduatorie
multidimensionali - e le analisi di classificazione automatica
delle unità statistiche, utili alla costruzione di tipologie.
Un'attenzione parti colare è riservata anche ad alcune nuove frontiere
fra gli strumenti de lla ricerca statistica, come l'analisi dei dati testuali,
il confronto di stud i con tecn iche multiway, il trattamento grafico
dell'informazione, nonché ai meccanismi dell'interpretazione
del risultato. Atal fine , alcuni casi di studio sono trattati ad hoc
con più tecnich e e illustrati a partire dagli output
del software statistico utilizzato.
Sergio Bolasco è professore ordinario di Statistica alla facoltà
di Economia e doce nte presso il Master in Fonti, strumenti
e metodi per la ri cerca sociale dell'Università di Roma
"La Sapienza".
ISBN 88-430-1401-3
€ 24,50