L’analisi dei dati Analisi mutlidimensionali: • Analisi delle corrispondenze multiple • Cluster Analysis L’analisi dei dati Analisi delle corrispondenze multiple: tipo di analisi fattoriale basato sulla costruzione di nuove variabili “sintetiche” (dette fattori), ottenute da combinazioni delle variabili originarie Tratta variabili categoriali e/o ordinali L’analisi dei dati Fu introdotta intorno agli anni Settanta da J.P. Benzecri (1973) per lo studio di tabelle di contingenza generate dall’incrocio di due variabili qualitative, nominali e/o ordinali. In seguito fu estesa ai casi con un numero qualsiasi di variabili. Attualmente è tra le più potenti tecniche per l’analisi descrittiva di dati qualitativi Tipi di proprietà Diversi tipi di proprietà su cui è possibile applicare determinate operazioni di ricerca e determinate procedure di analisi dei dati e non altre. • Proprietà discrete • Proprietà continue Tipi di proprietà Proprietà discreta: assume un numero finito di stati nettamente distinti l’uno dall’altro (ad es. genere sessuale, titolo di studio, ecc.) Proprietà continua: assume teoricamente un numero infinito di stati lungo un ideale continuum che va da un minimo ad un massimo d’intensità con cui la proprietà si presenta nei casi in esame (ad es. atteggiamento nei confronti della pubblicità, grado di accordo/disaccordo, grado di soddisfazione) Tipi di proprietà Proprietà discreta categoriale: presenta un numero finito e, generalmente limitato, di stati non ordinabili lungo una determinata dimensione concettuale La variabile categoriale costruita per questa proprietà avrà modalità che corrispondono a categorie non ordinate, a ciascuna delle quali viene attribuito un valore numerico per designarla in base alla sola condizione che questo valore sia diverso da quello attribuito alle altre. Tipi di proprietà Possono essere stabilite relazioni di uguaglianza tra i casi che presentano la stessa modalità e relazioni di diversità tra i casi che presentano invece modalità differenti Esempi Genere sessuale: 1. maschio 2. femmina Stato civile: 1. celibe/nubile 2. sposato/a 3. separato/a 4. divorziato/a 5. vedovo/a Tipi di proprietà Proprietà discreta ordinale: presenta anch’essa un numero finito e generalmente limitato di stati che però possono essere ordinati lungo una certa dimensione concettuale. La variabile ordinale costruita per questa proprietà avrà dunque modalità che corrispondono a categorie ordinate alle quali viene attribuito un valore non che ha soltanto la funzione di designarle, ma anche quella di indicarne la posizione nell’ordinamento rappresentato dall’insieme di tutte le categorie. Tipi di proprietà E’ in questo caso possibile stabilire relazioni del tipo maggiore-minore Esempio Titolo di studio: 1. Licenza elementare 2. Licenza di scuola media inferiore 3. Licenza di scuola media superiore 4. Laurea 5. Dottorato/specializzazioni post-lauream Tipi di variabili Tre classi di variabili: • Variabili nominali • Variabili ordinali • Variabili cardinali Distinzione che dipende dalla natura delle operazioni empiriche effettuate per operativizzare gli stati della proprietà nel momento della sua traduzione in variabile L’analisi dei dati La matrice di partenza (“casi x variabili”) viene successivamente trasformata in matrice logicodisgiuntiva completa (casi x modalità associate alle variabili) matrice di Burt o matrice delle corrispondenze multiple (modalità x modalità) L’analisi dei dati (matrice c x v) L’analisi dei dati (matrice logico-disgiuntiva completa) L’analisi dei dati (matrice di Burt) L’analisi dei dati L’analisi dei dati (matrice dei profili-riga) L’analisi dei dati (matrice di Burt) celibe/nubile celibe/nubile spostato/a separato/a divorziato/a vedovo/a maschio femmina spostato/a 2 0 0 0 0 2 1 separato/a 0 3 0 0 0 1 3 divorziato/a 0 0 5 0 0 1 1 0 0 0 1 0 1 1 vedovo/a maschio femmina 0 0 0 0 2 1 6 0 1 0 7 L’analisi dei dati Infine, viene analizzata la dispersione di ciascuna linea (profilo-riga o profilo-colonna) rispetto ai totali marginali, tramite il calcolo della distanza (ponderata) al quadrato tra due profili L’analisi dei dati Punto di vista geometrico Nello spazio generato da q modalità si possono rappresentare gli n profili sotto forma di una nuvola di punti (soggetti) Ogni soggetto è rappresentato da un punto che ha come coordinate i q elementi del suo profilo-riga L’analisi dei dati L’analisi dei dati Scopo dell’analisi è individuare un sottospazio di dimensioni ridotte (spazio a k dimensioni, con k < q) che ha come origine il centro di gravità della nuvola dei punti e come assi fattoriale le k dimensioni tra loro ortogonali, in grado di riprodurre il più possibile della varianza originaria (inerzia) L’analisi dei dati Passando dalle q modalità, che originavano lo spazio a q dimensioni, a un numero ridotto di k nuove variabili (fattori), che originano uno spazio a k dimensioni, la perdita di informazione deve essere minima L’analisi dei dati Una volta individuati gli assi fattoriali, per la rappresentazione dei punti modalità su di essi si utilizzano le “coordinate fattoriali”, generate in funzione delle associazioni tra le variabili (l’analisi di questa struttura è basata sulle “distanze” tra i punti nello spazio fattoriale appropriato) L’analisi dei dati Il sottospazio a k dimensioni sarà quindi costituito dai primi k assi fattoriali che soddisfano le seguenti condizioni: • sono tra loro ortogonali (ovvero indipendenti) • sono combinazioni delle modalità dalle quali parte l’analisi • spiegano ciascuno, in ordine decrescente, il massimo della variabilità della matrice originale dei dati L’analisi dei dati La quota di inerzia spiegata da ciascun fattore è denominato autovalore Con q modalità è possibile estrarre fino a q fattori 25 L’analisi dei dati Il primo fattore è la “migliore” approssimazione della matrice dei dati di partenza; l’autovalore ad esso associato è il più alto tra tutti gli autovalori Il secondo fattore è la seconda migliore approssimazione e spiega la seconda quota di inerzia totale e così via 26 L’analisi dei dati Il differente ruolo delle variabili: • variabili attive che entrano direttamente nell’analisi, concorrendo alla formazione degli assi fattoriali • variabili supplementari o illustrative che sono escluse dall’analisi vera e propria ma che vengono successivamente utilizzate per interpretare alcuni aspetti dei fattori considerati 27 L’analisi dei dati Al fine di interpretare il significato dei fattori si utilizzano alcuni parametri che permettono di valutare l’importanza che ogni variabile attiva, con le relative modalità, riveste nella formazione dei fattori stessi: • massa (o peso relativo) di ciascuna modalità, data dal rapporto tra la frequenza della modalità e il numero totale di variabili attive 28 L’analisi dei dati • indice di distorsione (o distanza dall’origine) di ciascuna modalità, dà informazioni sul carattere “periferico” di certe modalità; di solito a valori alti di questo indice corrisponde una massa debole e quindi una scarsa rilevanza della modalità stessa (e viceversa) • contributo assoluto di una modalità, rappresenta la parte d’inerzia totale del fattore spiegata dalla variabile, o modalità, cui si riferisce 29 L’analisi dei dati • coseno quadrato di una modalità, permette di valutare il contributo che un certo fattore F fornisce alla spiegazione della variabilità della modalità; se questo contributo è basso, vuol dire che la modalità in questione non è ben rappresentata sull’asse fattoriale e la sua variabilità è spiegata da altre dimensioni • coordinate fattoriali di una modalità, ne stabiliscono la posizione sugli assi, sia in termini di distanza dal centro, sia in termini 30 L’analisi dei dati • versante positivo o negativo dell’asse considerato; le modalità che presentano valori alti nelle coordinate fattoriali sono quelle che, di solito, contribuiscono maggiormente alla formazione dell’asse stesso; attenzione però all’effetto “modalità rara”: un elemento può essere tanto più distante dall’origine quanto più bassa è la relativa frequenza marginale 31 L’analisi dei dati Per verificare se una modalità illustrativa occupa una posizione rilevante su un asse fattoriale si calcola il valore-test, che controlla la significatività dell’associazione tra una variabile/modalità e un fattore. Il valore-test è calcolato rispetto alla distribuzione normale standardizzata (sono significativi al livello di probabilità del 5% i coefficienti maggiori di 2 in valore assoluto) 32 L’analisi dei dati L’ACM permette l’analisi grafica dei piani costituiti dagli assi fattoriali considerati due a due. Su questi piani si possono proiettare le variabili/modalità e/o i casi, sotto forma di una nuvola di punti, utilizzando le loro coordinate fattoriali. Valutando le posizioni dei punti rispetto agli assi e le distanze tra i punti stessi si può desumere la struttura delle relazioni fra le variabili/modalità e fra queste e i fattori 33 L’analisi dei dati In generale, si può ritenere che più un punto è lontano dall’origine di un asse, maggiore è il suo contributo alla formazione dell’asse stesso, e che più elevata è la prossimità tra due variabili/modalità maggiore è l’attrazione fra loro 34 L’analisi dei dati Esempio di ricerca: “L’analisi della pubblicità sulla rivista Glamour” Estratto 1 SELECTION OF CASES AND VARIABLES ACTIVE CATEGORICAL VARIABLES 49 VARIABLES 125 ASSOCIATED CATEGORIES ---------------------------------------------------------------------------------------------------16 . V16-Registro (3 CATEGORIES) 18 . V18-Presenza di parole o frasi in lingua straniera (2 CATEGORIES) 19 . V19-Presenza/assenza prodotto (2 CATEGORIES) 20 . V20-Presenza/assenza figure umane (2 CATEGORIES) […] SUPPLEMENTARY CATEGORICAL VARIABLES 7 VARIABLES 21 ASSOCIATED CATEGORIES ---------------------------------------------------------------------------------------------------1 . V01-Nazione della rivista (4 CATEGORIES) 2 . V02-Settore merceologico del prodotto (3 CATEGORIES) 3 . V03-Valore commerciale del prodotto (3 CATEGORIES) […] 35 L’analisi dei dati Esempio di ricerca: “L’analisi della pubblicità sulla rivista Glamour” Estratto 2 MULTIPLE CORRESPONDENCE ANALYSIS ELIMINATION OF ACTIVE CATEGORIES WITH SMALL WEIGHTS THRESHOLD (PCMIN) : 2.00 % WEIGHT: 9.82 BEFORE CLEANING : 49 ACTIVE QUESTIONS 125 ASSOCIATE CATEGORIES AFTER CLEANING : 49 ACTIVE QUESTIONS 123 ASSOCIATE CATEGORIES 36 L’analisi dei dati 37 L’analisi dei dati Esempio di ricerca: “L’analisi della pubblicità sulla rivista Glamour” 38 L’analisi dei dati Esempio di ricerca: “L’analisi della pubblicità sulla rivista Glamour” c.a 4.4 c.q 0.95 Bambini M. n°, Singolo 4.3 0.88 0.97 0.97 Adulti M. n°, Singolo Personaggi Famosi n°, Più Di Uno 3.1 2.3 0.69 0.36 3.0 3.0 0.95 0.95 Giovani M. n°, Più Di Uno Ambientazione Tempo, Passato 2.1 2.0 0.33 0.31 Cartoons, N.P. 3.0 0.95 Personaggio Famoso n°, Singolo 1.9 0.32 Personaggi Famosi, NonPresente Giovani M. n°,N.P. 2.9 2.9 0.91 0.87 Giovane M. n°, Singolo Uso Nudo Maschile, Presente 1.8 1.7 0.30 0.28 Adulti M., N.P. Effetto sul destinatario,N.D. Giovani F.n°, Singolo Registro, Entrambi Adulti F.n°, N.P. 2.8 2.0 1.8 1.4 1.1 0.76 0.44 0.36 0.26 0.18 Registro, Verbale Attrazione Per Similarità, Presente Informazione, Conoscenza, Presente 1.6 1.2 1.1 0.24 0.18 0.17 Anziani Femmine, N.P. c.a. 3.0 c.q 0.98 Personaggi di fantasia n°, Singolo Anziani M. n°, N.P. 3.0 0.97 Bambini F. n°, N.P. Bambini M.n°, N.P. 3.0 3.0 Animali n°, N.P. Personaggi mitologici, N.P. 39 L’analisi dei dati Esempio di ricerca: “L’analisi della pubblicità sulla rivista Glamour” Target Età Prodotto, N.D. Nazione, Italia Formato, Una Pagina Formato, Due o Più Pagine Valore Commerciale Prodotto N.D. Nazione, Germania Settore Merceologico, Abbigliamento Attività Associate, Più Prodotti v.t. 18.5 16.2 9.1 8.0 7.8 7.2 6.9 6.5 v.t. Formato, Mezza Pagina 17.1 Nazione, Spagna 14.7 Target Età Prodotto, Bambini 12.5 Nazione, Inghilterra 12.3 Target Età Prodotto, Giovani 9.8 Settore Merceologico, Alimentare 7.6 Valore Commerciale Prodotto, Alto 4.1 Valore Commerciale Prodotto, Medio- 2.7 Basso Settore Merceologico, Altro 2.6 40