L’analisi dei dati
Analisi mutlidimensionali:
• Analisi delle corrispondenze multiple
• Cluster Analysis
L’analisi dei dati
Analisi delle corrispondenze multiple: tipo di analisi
fattoriale basato sulla costruzione di nuove variabili
“sintetiche” (dette fattori), ottenute da combinazioni
delle variabili originarie
Tratta variabili categoriali e/o ordinali
L’analisi dei dati
Fu introdotta intorno agli anni Settanta da J.P.
Benzecri (1973) per lo studio di tabelle di
contingenza generate dall’incrocio di due variabili
qualitative, nominali e/o ordinali. In seguito fu
estesa ai casi con un numero qualsiasi di variabili.
Attualmente è tra le più potenti tecniche per l’analisi
descrittiva di dati qualitativi
Tipi di proprietà
Diversi tipi di proprietà su cui è possibile
applicare determinate operazioni di ricerca e
determinate procedure di analisi dei dati e
non altre.
• Proprietà discrete
• Proprietà continue
Tipi di proprietà
Proprietà discreta: assume un numero finito di
stati nettamente distinti l’uno dall’altro (ad es.
genere sessuale, titolo di studio, ecc.)
Proprietà continua: assume teoricamente un
numero infinito di stati lungo un ideale continuum
che va da un minimo ad un massimo d’intensità con
cui la proprietà si presenta nei casi in esame (ad
es. atteggiamento nei confronti della pubblicità,
grado
di
accordo/disaccordo,
grado
di
soddisfazione)
Tipi di proprietà
Proprietà discreta categoriale: presenta un
numero finito e, generalmente limitato, di stati non
ordinabili lungo una determinata dimensione
concettuale
La variabile categoriale costruita per questa
proprietà avrà modalità che corrispondono a
categorie non ordinate, a ciascuna delle quali viene
attribuito un valore numerico per designarla in base
alla sola condizione che questo valore sia diverso
da quello attribuito alle altre.
Tipi di proprietà
Possono essere stabilite relazioni di uguaglianza tra i casi
che presentano la stessa modalità e relazioni di diversità
tra i casi che presentano invece modalità differenti
Esempi
Genere sessuale:
1. maschio
2. femmina
Stato civile:
1. celibe/nubile 2. sposato/a 3. separato/a 4. divorziato/a 5.
vedovo/a
Tipi di proprietà
Proprietà discreta ordinale: presenta anch’essa
un numero finito e generalmente limitato di stati che
però possono essere ordinati lungo una certa
dimensione concettuale.
La variabile ordinale costruita per questa proprietà
avrà dunque modalità che corrispondono a
categorie ordinate alle quali viene attribuito un
valore non che ha soltanto la funzione di
designarle, ma anche quella di indicarne la
posizione
nell’ordinamento
rappresentato
dall’insieme di tutte le categorie.
Tipi di proprietà
E’ in questo caso possibile stabilire relazioni
del tipo maggiore-minore
Esempio
Titolo di studio:
1. Licenza elementare
2. Licenza di scuola media inferiore
3. Licenza di scuola media superiore
4. Laurea
5. Dottorato/specializzazioni post-lauream
Tipi di variabili
Tre classi di variabili:
• Variabili nominali
• Variabili ordinali
• Variabili cardinali
Distinzione che dipende dalla natura delle
operazioni
empiriche
effettuate
per
operativizzare gli stati della proprietà nel
momento della sua traduzione in variabile
L’analisi dei dati
La matrice di partenza (“casi x variabili”) viene
successivamente trasformata in matrice logicodisgiuntiva completa (casi x modalità associate alle
variabili)
matrice di Burt o matrice delle corrispondenze
multiple (modalità x modalità)
L’analisi dei dati (matrice c x v)
L’analisi dei dati (matrice logico-disgiuntiva completa)
L’analisi dei dati (matrice di Burt)
L’analisi dei dati
L’analisi dei dati (matrice dei profili-riga)
L’analisi dei dati (matrice di Burt)
celibe/nubile
celibe/nubile
spostato/a
separato/a
divorziato/a
vedovo/a
maschio
femmina
spostato/a
2
0
0
0
0
2
1
separato/a
0
3
0
0
0
1
3
divorziato/a
0
0
5
0
0
1
1
0
0
0
1
0
1
1
vedovo/a maschio femmina
0
0
0
0
2
1
6
0
1
0
7
L’analisi dei dati
Infine, viene analizzata la dispersione di ciascuna
linea (profilo-riga o profilo-colonna) rispetto ai totali
marginali, tramite il calcolo della distanza
(ponderata) al quadrato tra due profili
L’analisi dei dati
Punto di vista geometrico
Nello spazio generato da q modalità si possono
rappresentare gli n profili sotto forma di una nuvola
di punti (soggetti)
Ogni soggetto è rappresentato da un punto che ha
come coordinate i q elementi del suo profilo-riga
L’analisi dei dati
L’analisi dei dati
Scopo dell’analisi è individuare un sottospazio di
dimensioni ridotte (spazio a k dimensioni, con k < q)
che ha come origine il centro di gravità della nuvola
dei punti e come assi fattoriale le k dimensioni tra
loro ortogonali, in grado di riprodurre il più possibile
della varianza originaria (inerzia)
L’analisi dei dati
Passando dalle q modalità, che originavano lo spazio
a q dimensioni, a un numero ridotto di k nuove
variabili (fattori), che originano uno spazio a k
dimensioni, la perdita di informazione deve essere
minima
L’analisi dei dati
Una volta individuati gli assi fattoriali, per la
rappresentazione dei punti modalità su di essi si
utilizzano le “coordinate fattoriali”, generate in
funzione delle associazioni tra le variabili (l’analisi di
questa struttura è basata sulle “distanze” tra i punti
nello spazio fattoriale appropriato)
L’analisi dei dati
Il sottospazio a k dimensioni sarà quindi costituito dai
primi k assi fattoriali che soddisfano le seguenti
condizioni:
• sono tra loro ortogonali (ovvero indipendenti)
• sono combinazioni delle modalità dalle quali parte
l’analisi
• spiegano ciascuno, in ordine decrescente, il
massimo della variabilità della matrice originale dei
dati
L’analisi dei dati
La quota di inerzia spiegata da ciascun fattore è
denominato autovalore
Con q modalità è possibile estrarre fino a q fattori
25
L’analisi dei dati
Il primo fattore è la “migliore” approssimazione della
matrice dei dati di partenza; l’autovalore ad esso
associato è il più alto tra tutti gli autovalori
Il
secondo
fattore
è
la
seconda
migliore
approssimazione e spiega la seconda quota di
inerzia totale e così via
26
L’analisi dei dati
Il differente ruolo delle variabili:
• variabili attive che entrano direttamente nell’analisi,
concorrendo alla formazione degli assi fattoriali
• variabili supplementari o illustrative che sono escluse
dall’analisi vera e propria ma che vengono
successivamente utilizzate per interpretare alcuni
aspetti dei fattori considerati
27
L’analisi dei dati
Al fine di interpretare il significato dei fattori si
utilizzano alcuni parametri che permettono di valutare
l’importanza che ogni variabile attiva, con le relative
modalità, riveste nella formazione dei fattori stessi:
• massa (o peso relativo) di ciascuna modalità, data
dal rapporto tra la frequenza della modalità e il
numero totale di variabili attive
28
L’analisi dei dati
• indice di distorsione (o distanza dall’origine) di
ciascuna modalità, dà informazioni sul carattere
“periferico” di certe modalità; di solito a valori alti di
questo indice corrisponde una massa debole e quindi
una scarsa rilevanza della modalità stessa (e
viceversa)
• contributo assoluto di una modalità, rappresenta la
parte d’inerzia totale del fattore spiegata dalla
variabile, o modalità, cui si riferisce
29
L’analisi dei dati
• coseno quadrato di una modalità, permette di
valutare il contributo che un certo fattore F fornisce
alla spiegazione della variabilità della modalità; se
questo contributo è basso, vuol dire che la modalità
in questione non è ben rappresentata sull’asse
fattoriale e la sua variabilità è spiegata da altre
dimensioni
• coordinate fattoriali di una modalità, ne stabiliscono
la posizione sugli assi, sia in termini di distanza dal
centro, sia in termini
30
L’analisi dei dati
• versante positivo o negativo dell’asse considerato; le
modalità che presentano valori alti nelle coordinate
fattoriali sono quelle che, di solito, contribuiscono
maggiormente alla formazione dell’asse stesso;
attenzione però all’effetto “modalità rara”: un
elemento può essere tanto più distante
dall’origine quanto più bassa è la relativa
frequenza marginale
31
L’analisi dei dati
Per verificare se una modalità illustrativa occupa una
posizione rilevante su un asse fattoriale si calcola il
valore-test,
che
controlla
la
significatività
dell’associazione tra una variabile/modalità e un
fattore. Il valore-test è calcolato rispetto alla
distribuzione
normale
standardizzata
(sono
significativi al livello di probabilità del 5% i coefficienti
maggiori di 2 in valore assoluto)
32
L’analisi dei dati
L’ACM permette l’analisi grafica dei piani costituiti dagli
assi fattoriali considerati due a due. Su questi piani si
possono proiettare le variabili/modalità e/o i casi,
sotto forma di una nuvola di punti, utilizzando le loro
coordinate fattoriali. Valutando le posizioni dei punti
rispetto agli assi e le distanze tra i punti stessi si può
desumere la struttura delle relazioni fra le
variabili/modalità e fra queste e i fattori
33
L’analisi dei dati
In generale, si può ritenere che più un punto è lontano
dall’origine di un asse, maggiore è il suo contributo
alla formazione dell’asse stesso, e che più elevata è
la prossimità tra due variabili/modalità maggiore è
l’attrazione fra loro
34
L’analisi dei dati
Esempio di ricerca: “L’analisi della pubblicità sulla rivista
Glamour”
Estratto 1
SELECTION OF CASES AND VARIABLES
ACTIVE CATEGORICAL VARIABLES
49 VARIABLES 125 ASSOCIATED CATEGORIES
---------------------------------------------------------------------------------------------------16 . V16-Registro
(3 CATEGORIES)
18 . V18-Presenza di parole o frasi in lingua straniera
(2 CATEGORIES)
19 . V19-Presenza/assenza prodotto
(2 CATEGORIES)
20 . V20-Presenza/assenza figure umane
(2 CATEGORIES)
[…]
SUPPLEMENTARY CATEGORICAL VARIABLES
7 VARIABLES
21 ASSOCIATED CATEGORIES
---------------------------------------------------------------------------------------------------1 . V01-Nazione della rivista
(4 CATEGORIES)
2 . V02-Settore merceologico del prodotto
(3 CATEGORIES)
3 . V03-Valore commerciale del prodotto
(3 CATEGORIES)
[…]
35
L’analisi dei dati
Esempio di ricerca: “L’analisi della pubblicità sulla rivista
Glamour”
Estratto 2
MULTIPLE CORRESPONDENCE ANALYSIS
ELIMINATION OF ACTIVE CATEGORIES WITH SMALL WEIGHTS
THRESHOLD (PCMIN) :
2.00 %
WEIGHT:
9.82
BEFORE CLEANING : 49 ACTIVE QUESTIONS
125 ASSOCIATE
CATEGORIES
AFTER CLEANING : 49 ACTIVE QUESTIONS
123 ASSOCIATE
CATEGORIES
36
L’analisi dei dati
37
L’analisi dei dati
Esempio di ricerca: “L’analisi della pubblicità sulla rivista
Glamour”
38
L’analisi dei dati
Esempio di ricerca: “L’analisi della pubblicità sulla rivista
Glamour”
c.a
4.4
c.q
0.95
Bambini M. n°, Singolo
4.3
0.88
0.97
0.97
Adulti M. n°, Singolo
Personaggi Famosi n°, Più Di Uno
3.1
2.3
0.69
0.36
3.0
3.0
0.95
0.95
Giovani M. n°, Più Di Uno
Ambientazione Tempo, Passato
2.1
2.0
0.33
0.31
Cartoons, N.P.
3.0
0.95
Personaggio Famoso n°, Singolo
1.9
0.32
Personaggi Famosi, NonPresente
Giovani M. n°,N.P.
2.9
2.9
0.91
0.87
Giovane M. n°, Singolo
Uso Nudo Maschile, Presente
1.8
1.7
0.30
0.28
Adulti M., N.P.
Effetto sul destinatario,N.D.
Giovani F.n°, Singolo
Registro, Entrambi
Adulti F.n°, N.P.
2.8
2.0
1.8
1.4
1.1
0.76
0.44
0.36
0.26
0.18
Registro, Verbale
Attrazione Per Similarità, Presente
Informazione, Conoscenza, Presente
1.6
1.2
1.1
0.24
0.18
0.17
Anziani Femmine, N.P.
c.a.
3.0
c.q
0.98 Personaggi di fantasia n°, Singolo
Anziani M. n°, N.P.
3.0
0.97
Bambini F. n°, N.P.
Bambini M.n°, N.P.
3.0
3.0
Animali n°, N.P.
Personaggi mitologici, N.P.
39
L’analisi dei dati
Esempio di ricerca: “L’analisi della pubblicità sulla rivista
Glamour”
Target Età Prodotto, N.D.
Nazione, Italia
Formato, Una Pagina
Formato, Due o Più Pagine
Valore Commerciale Prodotto N.D.
Nazione, Germania
Settore Merceologico, Abbigliamento
Attività Associate, Più Prodotti
v.t.
18.5
16.2
9.1
8.0
7.8
7.2
6.9
6.5
v.t.
Formato, Mezza Pagina
17.1
Nazione, Spagna
14.7
Target Età Prodotto, Bambini
12.5
Nazione, Inghilterra
12.3
Target Età Prodotto, Giovani
9.8
Settore Merceologico, Alimentare
7.6
Valore Commerciale Prodotto, Alto
4.1
Valore Commerciale Prodotto, Medio- 2.7
Basso
Settore Merceologico, Altro
2.6
40