Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Introduzione Strumenti quantitativi per l’economia e la finanza I Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Alfonso Iodice D’Enza [email protected] Strutture di dati e tecniche AMD Università degli studi di Cassino e del Lazio Meridionale A. Iodice () Introduzione Statistica 1 / 18 Outline Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD 1 Metodologie per l’analisi congiunta di più variabili statistiche 2 Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche 3 Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 2 / 18 Testo di riferimento Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Il testo di riferimento è Appunti di Analisi dei Dati Multidimensionalia a di Marco Gherghi e Carlo Lauro, RCE edizioni. Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 3 / 18 Metodologie per l’analisi congiunta di più variabili statistiche Introduzione A. Iodice Lo studio di p variabili statistiche osservate su n oggetti (o unità statistiche) può essere effettuato mediante tecniche di Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 4 / 18 Metodologie per l’analisi congiunta di più variabili statistiche Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Lo studio di p variabili statistiche osservate su n oggetti (o unità statistiche) può essere effettuato mediante tecniche di Analisi Multivariata Si assume che le p variabili seguano una distribuzione teorica (multinormale o distribuzioni ad essa collegate): i dati in esame vengono considerati come n realizzazioni indipendenti di un vettore p-dimensionale. Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche L’obbiettivo è specificare modelli per la verifica di ipotesi formulate circa la distribuzione delle variabili considerate Strutture di dati e tecniche AMD Approccio analitico Analisi confermativa A. Iodice () Introduzione Statistica 4 / 18 Metodologie per l’analisi congiunta di più variabili statistiche Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Lo studio di p variabili statistiche osservate su n oggetti (o unità statistiche) può essere effettuato mediante tecniche di Analisi Multidimensionale Analisi Multivariata Si assume che le p variabili seguano una distribuzione teorica (multinormale o distribuzioni ad essa collegate): i dati in esame vengono considerati come n realizzazioni indipendenti di un vettore p-dimensionale. Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche A. Iodice () L’obbiettivo è evidenziare la struttura latente che caratterizza i dati in esame Approccio analitico Approccio geometrico: si considera ciascuna unità rappresentabile come punto in uno spazio p-dimensionale e ciascuna variabile rappresentabile come punto in uno spazio n-dimensionale Analisi confermativa Analisi esplorativa L’obbiettivo è specificare modelli per la verifica di ipotesi formulate circa la distribuzione delle variabili considerate Strutture di dati e tecniche AMD Si pone l’attenzione sulle n unità statistiche descritte dalle p variabili empiriche Introduzione Statistica 4 / 18 Metodologie per l’analisi congiunta di più variabili statistiche Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Lo studio di p variabili statistiche osservate su n oggetti (o unità statistiche) può essere effettuato mediante tecniche di Analisi Multidimensionale Analisi Multivariata Si assume che le p variabili seguano una distribuzione teorica (multinormale o distribuzioni ad essa collegate): i dati in esame vengono considerati come n realizzazioni indipendenti di un vettore p-dimensionale. Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche L’obbiettivo è evidenziare la struttura latente che caratterizza i dati in esame Approccio analitico Approccio geometrico: si considera ciascuna unità rappresentabile come punto in uno spazio p-dimensionale e ciascuna variabile rappresentabile come punto in uno spazio n-dimensionale Analisi confermativa Analisi esplorativa L’obbiettivo è specificare modelli per la verifica di ipotesi formulate circa la distribuzione delle variabili considerate Strutture di dati e tecniche AMD Si pone l’attenzione sulle n unità statistiche descritte dalle p variabili empiriche Descrizione ed induzione la descrizione dei dati empirici osservati e la formulazione di ipotesi sono entrambi determinanti nel processo di acquisizione della conoscenza. A. Iodice () Introduzione Statistica 4 / 18 Esempio di distribuzione bivariata Introduzione A. Iodice Se si considerano p = 2 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti su un piano cartesiano(R2 ). Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 5 / 18 Esempio di distribuzione bivariata Introduzione A. Iodice Se si considerano p = 2 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti su un piano cartesiano(R2 ). Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD unità1 unità2 unità3 unità4 unità5 A. Iodice () 10 3 7 5 9 8 5 1 9 5 Introduzione Statistica 5 / 18 Esempio di distribuzione bivariata Introduzione A. Iodice Se si considerano p = 2 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti su un piano cartesiano(R2 ). Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD unità1 unità2 unità3 unità4 unità5 A. Iodice () 10 3 7 5 9 8 5 1 9 5 Introduzione Statistica 5 / 18 Esempio di distribuzione trivariata Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Se si considerano p = 3 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti in uno spazio cartesiano tridimensionale (R3 ). Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 6 / 18 Esempio di distribuzione trivariata Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Se si considerano p = 3 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti in uno spazio cartesiano tridimensionale (R3 ). unità1 unità2 unità3 unità4 unità5 7 8 10 8 2 5 10 10 5 9 1 4 9 1 2 Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 6 / 18 Esempio di distribuzione trivariata Introduzione Se si considerano p = 3 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti in uno spazio cartesiano tridimensionale (R3 ). A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD unità1 unità2 unità3 unità4 unità5 A. Iodice () 7 8 10 8 2 5 10 10 5 9 1 4 9 1 2 Introduzione Statistica 6 / 18 Esempio di distribuzione trivariata Introduzione Se si considerano p = 3 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti in uno spazio cartesiano tridimensionale (R3 ). A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD unità1 unità2 unità3 unità4 unità5 A. Iodice () 7 8 10 8 2 5 10 10 5 9 1 4 9 1 2 Introduzione Statistica 6 / 18 Esempio di distribuzione multivariata Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche unità1 unità2 unità3 unità4 unità5 unità6 unità7 unità8 unità9 unità10 Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () 3 2 7 3 2 1 8 5 10 5 5 9 6 3 7 9 1 7 4 9 Introduzione 6 8 5 4 2 2 7 4 6 2 7 4 9 9 6 5 9 9 7 9 7 4 3 4 6 8 4 9 6 4 8 6 5 7 7 8 10 6 9 2 Statistica 7 / 18 Esempio di distribuzione multivariata Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 8 / 18 Metodi di Analisi Multidimensionale dei Dati Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 9 / 18 Metodi di Analisi Multidimensionale dei Dati Introduzione Tecniche fattoriali A. Iodice Obbiettivo: individuare il miglior sottospazio di approssimazione della struttura delle relazioni tra le variabili e le unità osservate Metodologie per l’analisi congiunta di più variabili statistiche se la dimensione dello spazio di approssimazione è minore o uguale a 3, è possibile ottenere una visualizzazione della soluzione Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 9 / 18 Metodi di Analisi Multidimensionale dei Dati Introduzione Tecniche fattoriali Tecniche di classificazione automatica A. Iodice Obbiettivo: individuare il miglior sottospazio di approssimazione della struttura delle relazioni tra le variabili e le unità osservate Metodologie per l’analisi congiunta di più variabili statistiche se la dimensione dello spazio di approssimazione è minore o uguale a 3, è possibile ottenere una visualizzazione della soluzione Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Obbiettivo: individuare gruppi omogenei di unità statistiche: in altre parole, le unità statistiche appartenenti ad uno stesso gruppo presentano caratteristiche simili. Il grado di similirità tra le unità viene misurato attraverso opportuni indici, scelti sulla base della natura delle variabili osservate. scegliendo opportunamente il tipo di algoritmo di classificazione automatica è possibile visualizzare la struttura in classi ottenuta Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 9 / 18 Metodi fattoriali trattati Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Analisi in componenti principali (ACP): Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Analisi delle Corrispondenze Binarie (ACB) Analisi delle Corrispondenze Multiple (ACM) Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 10 / 18 Metodi fattoriali trattati Introduzione Analisi in componenti principali (ACP): A. Iodice Matrice di riferimento ACP Metodologie per l’analisi congiunta di più variabili statistiche n unità statistiche e p variabili quantitative Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Analisi delle Corrispondenze Binarie (ACB) Introduzione Statistica 10 / 18 Metodi fattoriali trattati Introduzione Analisi in componenti principali (ACP): Analisi delle Corrispondenze Binarie (ACB) A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Matrice di riferimento ACB tabella di contingenza tra due mutabili con k e h modalità rispettivamente; Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 10 / 18 Metodi fattoriali trattati Introduzione Analisi in componenti principali (ACP): Analisi delle Corrispondenze Binarie (ACB) Analisi delle Corrispondenze Multiple (ACM) A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Matrice di riferimento ACM: dati questionario Dati costituiti da indagini via questionario: n questionari somministrati e p mutabili o variabili suddivise in classi. Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 10 / 18 Metodi fattoriali trattati Introduzione Analisi in componenti principali (ACP): Analisi delle Corrispondenze Binarie (ACB) Analisi delle Corrispondenze Multiple (ACM) A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Matrice di riferimento ACM: dati codifica disgiuntiva presenza/assenza delle modalità relative a p variabili Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 10 / 18 Matrici strutturate Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Le matrici di dati possono avere una struttura in blocchi lungo le righe o le colonne; per rappresentare dati rilevati in diversi istanti di tempo, o in luoghi diversi, è possibile ricorrere a matrici a tre vie. Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 11 / 18 Trasformazione delle variabili Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Raccolti i dati in tabelle compatibili con il tipo di variabili osservate, si effettua una trasformazione delle variabili in funzione del metodo di analisi scelto una omogeneizzazione delle variabili per consentirne trattamento simultaneo Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche standardizzazione: se le variabili osservate sono continue categorizzazione: se le variabili osservate sono qualitative o miste Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 12 / 18 Matrici oggetto di AMD Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Le tecniche di analisi dei dati studiano le strutture delle associazione tra variabili e quella delle relazioni tra le unità Associazione tra variabili: matrice di correlazione relazioni tra unità: matrice di distanze Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 13 / 18 Selezione del metodo Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Il seguente diagramma di flusso (Gherghi e Lauro, 2004) indica la procedura per una corretta scelta del metodo di analisi Strategia di selezione del metodo AMD Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 14 / 18 Esempio ACP: La dieta di 16 paesi europei Introduzione A. Iodice Si consideri di aver rilevato le quantità di sostanze nutritive ingerite in sedici paesi europei Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 15 / 18 Rappresentazione delle variabili: il cerchio delle correlazioni Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 16 / 18 Rappresentazione delle unità Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 17 / 18 Rappresentazione congiunta unità/variabili Introduzione A. Iodice Metodologie per l’analisi congiunta di più variabili statistiche Metodi di Analisi Multidimensionale dei Dati: obbiettivi e tecniche Strutture di dati e tecniche AMD A. Iodice () Introduzione Statistica 18 / 18