Analisi delle corrispondenze È una tecnica che permette una rappresentazione sintetica di un numero elevato di variabili in un numero ridotto di nuovi costrutti chiamati fattori. La sintesi avviene attraverso la combinazione delle variabili di partenza. Scopo è semplificare un insieme ricco e complesso di dati. Le variabili che si usano per l’analisi delle corrispondenze semplici o binarie (e multipla) sono variabili categoriali. Se sono presenti variabili quantitative bisogna ridurle in classi cioè trasformarle in variabili qualitative ordinabili Analisi delle corrispondenze semplici Il caso più semplice di AC: ho 2 variabili categoriali con un numero elevato di modalità inserite in una tabella di contingenza Requisito: presenza di valori positivi nelle celle Obiettivo: analisi della dipendenza fra le modalità delle due variabili. Si studia la somiglianza o la diversità tra le modalità attraverso la costruzione dei profili riga (frequenze relative di riga) e dei profili colonna (frequenze relative di colonna) Analisi delle corrispondenze semplici I profili (riga o colonna) si considerano le coordinate di uno spazio a più dimensioni pesate però per la rispettiva massa data dalla frequenza relativa (in questo caso facendo l’analisi sui profili riga, ossia come unità le testate e come variabile i tipi di articoli, la massa sarà data dalla percentuale di articoli scritti) I profili riga: posso proiettarli in un piano a c dimensioni (dove c = numero di modalità della variabile in colonna) Il profilo riga medio (quello calcolato sul totale) è il baricentro della nuvola di punti che si staglia sull’iperpiano (spazio a più dimensioni) Andremo a calcolare le distanze tra i profili riga e il profilo riga medio attraverso una metrica della distanza: utilizziamo la distanza del chiquadrato χ2 che tiene conto anche del peso (massa) delle modalità Analisi delle corrispondenze semplici Scopo è sintetizzare in uno spazio a meno dimensioni (2 massimo 3) la nuvola di punti. Le due (max 3) dimensioni nuove dovranno essere dei fattori che intersecano meglio la nuvola di punti, cioè si individua un sottospazio ottimale che consente di rappresentare al meglio le distanze tra i profili riga e il profilo medio attraverso l’individuazione di fattori che esprimono il massimo della variabilità espressa dalle variabili originarie. Lo spazio migliore è quello che massimizza l’inerzia (o variabilità) iniziale La scelta dei fattori Nuovi fattori (che sono combinazione lineare dei profili riga di partenza): per ogni fattori viene indicato quanta inerzia riescono a riprodurre. Il massimo numero di fattori prodotto è uguale al numero delle modalità. Se utilizzassi tutti i fattori avrei riprodotto il 100% della variabilità. Quanta variabilità riprodotta accetto? Identifico una soglia a priori (solitamente il 70% di inerzia) Scelgo un numero fisso di fattori (ad esempio 2) Prendo solo valori di inerzia spiegata maggiori della media Utilizzo lo scree test, baso la scelta sul grafico Lettura dei risultati Per ogni fattore scelto ho degli indici statistica calcolati in base alle variabili di partenza che hanno contribuito a crearlo Contributo assoluto: rappresenta la parte di inerzia del fattore dovuta alla modalità di riferimento. Per ogni fattore la somma di tutti i contributi assoluti è uguale a 100. il contributo assoluto di una modalità è proporzionale alla sua massa. Si valuta quanto una modalità ha influenzato il fattore in esame. Lettura dei risultati Contributo relativo (o coseno quadrato): permette di valutare il contributo che un fattore fornisce alla riproduzione della dispersione (inerzia) di ogni modalità. Se è basso la modalità non è ben rappresentata dal fattore, se è alto è vero il contrario. Lettura dei risultati Coordinata fattoriale: stabiliscono la posizione della modalità sul fattore e possono avere segno positivo e negativo. Il valore 0 rappresenta la media delle coordinate sul fattore. Più il valore è distante dallo 0 più la modalità è significativa per il fattore. Analisi delle corrispondenze multiple L’analisi delle corrispondenze multiple (ACM) consente di ridurre la rappresentazione delle osservazioni da uno spazio a k dimensioni ad uno spazio a k* dimensioni in cui k* k, procedendo per combinazioni lineari di variabili e avendo come obiettivo la minor perdita di variabilità possibile. Le k* dimensioni costituiscono dei fattori ciascuno dei quali sintetizza un aspetto dell’insieme multivariato di informazione raccolta eliminando al tempo stesso la ridondanza di informazione. L’ACM richiede la costruzione di una matrice disgiunta dei dati, essendo stata ideata per essere applicata a variabili di qualsiasi scala (anche nominale). Per questo motivo l’ACM è particolarmente utile quando si abbiano dati qualitativi. Analisi delle corrispondenze multiple Per ogni variabile categoriale si definisce un insieme di nuove variabili dette variabili indicatrici che assumono valori 0/1 di presenza o assenza. Con una semplice operazione algebrica i software trasformano la matrice dei dati nella matrice di Burt o matrice delle corrispondenze multiple che è una distribuzione multipla di frequenze: contiene tutte le tabelle di contingenze che si possono ottenere incrociando tutte le variabili immesse nell’analisi. L’analisi prosegue sulla matrice di Burt. Scelta delle variabili Le variabili possono essere attive nell’analisi e contribuire alla formazione dei fattori oppure illustrative, proiettate sui piani fattoriali, ma non inserite all’inizio dell’analisi (cioè non contribuiscono alla formazione degli assi) Nell’analisi delle corrispondenze multiple (e non nell’ac) la vicinanza tra modalità di variabili diverse può essere interpretata in termine di associazione tra variabili. Configurazioni grafiche Ci sono alcune configurazioni grafiche tipiche: A forma di ellisse intorno all’asse principale (al primo fattore) Con nuvole separate: gli insieme non si compenetrano, si può fare una analisi separata tra due insiemi distinti A ferro di cavallo, a parabola: il secondo fattore incide poco A triangolo Si possono inserire anche le traiettorie sulle modalità della stessa variabile Critiche: Emerge ciò che è facilmente vedibile già dai dati grezzi Producono risultati instabili (i dati anomali rischiano di influenzare il modello) Sono tecniche esplorative Possibili soluzioni: Eliminazione dei casi anomali Riclassificazione di alcune variabili per ridurre le modlaità con pochi valori Avere matrici di dati abbastanza grandi