ACP C1 = u11x1 + u12x2 + … + u1pxp La componente principale è un costrutto algebrico ottenuta come combinazione lineare delle variabili originarie Le up sono le correlazioni tra la componente e le variabili originari: son i contributi che le variabili forniscono alla formazione della componente principale ACP: interpretazione Autovalore della componente: permette di valutare il suo potere di sintesi – più è grande più è alta la % di varianza spiegata da quella componente Comunalità (o coseno quadrato): permette di valutare il contributo che un fattore fornisce alla riproduzione della dispersione (inerzia) di ogni modalità. Se è basso la modalità non è ben rappresentata dal fattore, se è alto è vero il contrario. Coordinata fattoriale (component loadings): stabiliscono la posizione della modalità sul fattore e possono avere segno positivo e negativo. Il valore 0 rappresenta la media delle coordinate sul fattore. Più il valore è distante dallo 0 più la modalità è significativa per il fattore. Analisi delle corrispondenze multiple L’analisi delle corrispondenze multiple (ACM) consente di ridurre la rappresentazione delle osservazioni da uno spazio a k dimensioni ad uno spazio a k* dimensioni in cui k* k, procedendo per combinazioni lineari di variabili e avendo come obiettivo la minor perdita di variabilità possibile. Le k* dimensioni costituiscono dei fattori ciascuno dei quali sintetizza un aspetto dell’insieme multivariato di informazione raccolta eliminando al tempo stesso la ridondanza di informazione. L’ACM richiede la costruzione di una matrice disgiunta dei dati, essendo stata ideata per essere applicata a variabili di qualsiasi scala (anche nominale). Per questo motivo l’ACM è particolarmente utile quando si abbiano dati qualitativi. Analisi delle corrispondenze multiple Per ogni variabile categoriale si definisce un insieme di nuove variabili dette variabili indicatrici che assumono valori 0/1 di presenza o assenza. Con una semplice operazione algebrica i software trasformano la matrice dei dati nella matrice di Burt o matrice delle corrispondenze multiple che è una distribuzione multipla di frequenze: contiene tutte le tabelle di contingenze che si possono ottenere incrociando tutte le variabili immesse nell’analisi. L’analisi prosegue sulla matrice di Burt. Scelta delle variabili Le variabili possono essere attive nell’analisi e contribuire alla formazione dei fattori oppure illustrative, proiettate sui piani fattoriali, ma non inserite all’inizio dell’analisi (cioè non contribuiscono alla formazione degli assi) Nell’analisi delle corrispondenze multiple la vicinanza tra modalità di variabili diverse può essere interpretata in termine di associazione tra variabili. La scelta dei fattori Nuovi fattori (che sono combinazione lineare dei profili riga di partenza): per ogni fattori viene indicato quanta inerzia riescono a riprodurre. Il massimo numero di fattori prodotto è uguale al numero delle modalità. Se utilizzassi tutti i fattori avrei riprodotto il 100% della variabilità. Quanta variabilità riprodotta accetto? Identifico una soglia a priori (solitamente il 70% di inerzia) Scelgo un numero fisso di fattori (ad esempio 2) Prendo solo valori di inerzia spiegata maggiori della media Utilizzo lo scree test, baso la scelta sul grafico Lettura dei risultati Per ogni fattore scelto ho degli indici statistica calcolati in base alle variabili di partenza che hanno contribuito a crearlo Contributo assoluto: rappresenta la parte di inerzia del fattore dovuta alla modalità di riferimento. Per ogni fattore la somma di tutti i contributi assoluti è uguale a 100. il contributo assoluto di una modalità è proporzionale alla sua massa. Si valuta quanto una modalità ha influenzato il fattore in esame. Lettura dei risultati Contributo relativo (o coseno quadrato): permette di valutare il contributo che un fattore fornisce alla riproduzione della dispersione (inerzia) di ogni modalità. Se è basso la modalità non è ben rappresentata dal fattore, se è alto è vero il contrario. Lettura dei risultati Coordinata fattoriale: stabiliscono la posizione della modalità sul fattore e possono avere segno positivo e negativo. Il valore 0 rappresenta la media delle coordinate sul fattore. Più il valore è distante dallo 0 più la modalità è significativa per il fattore. Configurazioni grafiche Ci sono alcune configurazioni grafiche tipiche: A forma di ellisse intorno all’asse principale (al primo fattore) Con nuvole separate: gli insieme non si compenetrano, si può fare una analisi separata tra due insiemi distinti A ferro di cavallo, a parabola: il secondo fattore incide poco A triangolo Si possono inserire anche le traiettorie sulle modalità della stessa variabile Critiche: Emerge ciò che è facilmente vedibile già dai dati grezzi Producono risultati instabili (i dati anomali rischiano di influenzare il modello) Sono tecniche esplorative Possibili soluzioni: Eliminazione dei casi anomali Riclassificazione di alcune variabili per ridurre le modlaità con pochi valori Avere matrici di dati abbastanza grandi