Introduzione - Strumenti quantitativi per l`economia e la finanza I

Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Introduzione
Strumenti quantitativi per l’economia e la finanza I
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Alfonso Iodice D’Enza
[email protected]
Strutture di
dati e tecniche
AMD
Università degli studi di Cassino e del Lazio Meridionale
A. Iodice ()
Introduzione
Statistica
1 / 18
Outline
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
1
Metodologie per l’analisi congiunta di più variabili statistiche
2
Metodi di Analisi Multidimensionale dei Dati: obbiettivi e
tecniche
3
Strutture di dati e tecniche AMD
A. Iodice ()
Introduzione
Statistica
2 / 18
Testo di riferimento
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Il testo di riferimento è
Appunti di Analisi dei Dati Multidimensionalia
a
di Marco Gherghi e Carlo Lauro, RCE edizioni.
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
3 / 18
Metodologie per l’analisi congiunta di più variabili
statistiche
Introduzione
A. Iodice
Lo studio di p variabili statistiche osservate su n oggetti (o
unità statistiche) può essere effettuato mediante tecniche di
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
4 / 18
Metodologie per l’analisi congiunta di più variabili
statistiche
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Lo studio di p variabili statistiche osservate su n oggetti (o
unità statistiche) può essere effettuato mediante tecniche di
Analisi Multivariata
Si assume che le p variabili seguano una
distribuzione teorica (multinormale o
distribuzioni ad essa collegate): i dati in
esame vengono considerati come n
realizzazioni indipendenti di un vettore
p-dimensionale.
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
L’obbiettivo è specificare modelli per la
verifica di ipotesi formulate circa la
distribuzione delle variabili considerate
Strutture di
dati e tecniche
AMD
Approccio analitico
Analisi confermativa
A. Iodice ()
Introduzione
Statistica
4 / 18
Metodologie per l’analisi congiunta di più variabili
statistiche
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Lo studio di p variabili statistiche osservate su n oggetti (o
unità statistiche) può essere effettuato mediante tecniche di
Analisi Multidimensionale
Analisi Multivariata
Si assume che le p variabili seguano una
distribuzione teorica (multinormale o
distribuzioni ad essa collegate): i dati in
esame vengono considerati come n
realizzazioni indipendenti di un vettore
p-dimensionale.
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
A. Iodice ()
L’obbiettivo è evidenziare la struttura
latente che caratterizza i dati in esame
Approccio analitico
Approccio geometrico: si considera
ciascuna unità rappresentabile come
punto in uno spazio p-dimensionale e
ciascuna variabile rappresentabile come
punto in uno spazio n-dimensionale
Analisi confermativa
Analisi esplorativa
L’obbiettivo è specificare modelli per la
verifica di ipotesi formulate circa la
distribuzione delle variabili considerate
Strutture di
dati e tecniche
AMD
Si pone l’attenzione sulle n unità
statistiche descritte dalle p variabili
empiriche
Introduzione
Statistica
4 / 18
Metodologie per l’analisi congiunta di più variabili
statistiche
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Lo studio di p variabili statistiche osservate su n oggetti (o
unità statistiche) può essere effettuato mediante tecniche di
Analisi Multidimensionale
Analisi Multivariata
Si assume che le p variabili seguano una
distribuzione teorica (multinormale o
distribuzioni ad essa collegate): i dati in
esame vengono considerati come n
realizzazioni indipendenti di un vettore
p-dimensionale.
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
L’obbiettivo è evidenziare la struttura
latente che caratterizza i dati in esame
Approccio analitico
Approccio geometrico: si considera
ciascuna unità rappresentabile come
punto in uno spazio p-dimensionale e
ciascuna variabile rappresentabile come
punto in uno spazio n-dimensionale
Analisi confermativa
Analisi esplorativa
L’obbiettivo è specificare modelli per la
verifica di ipotesi formulate circa la
distribuzione delle variabili considerate
Strutture di
dati e tecniche
AMD
Si pone l’attenzione sulle n unità
statistiche descritte dalle p variabili
empiriche
Descrizione ed induzione
la descrizione dei dati empirici osservati e la formulazione di
ipotesi sono entrambi determinanti nel processo di acquisizione
della conoscenza.
A. Iodice ()
Introduzione
Statistica
4 / 18
Esempio di distribuzione bivariata
Introduzione
A. Iodice
Se si considerano p = 2 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti su un
piano cartesiano(R2 ).
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
5 / 18
Esempio di distribuzione bivariata
Introduzione
A. Iodice
Se si considerano p = 2 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti su un
piano cartesiano(R2 ).
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
unità1
unità2
unità3
unità4
unità5
A. Iodice ()
10
3
7
5
9
8
5
1
9
5
Introduzione
Statistica
5 / 18
Esempio di distribuzione bivariata
Introduzione
A. Iodice
Se si considerano p = 2 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti su un
piano cartesiano(R2 ).
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
unità1
unità2
unità3
unità4
unità5
A. Iodice ()
10
3
7
5
9
8
5
1
9
5
Introduzione
Statistica
5 / 18
Esempio di distribuzione trivariata
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Se si considerano p = 3 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti in uno
spazio cartesiano tridimensionale (R3 ).
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
6 / 18
Esempio di distribuzione trivariata
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Se si considerano p = 3 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti in uno
spazio cartesiano tridimensionale (R3 ).
unità1
unità2
unità3
unità4
unità5
7
8
10
8
2
5
10
10
5
9
1
4
9
1
2
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
6 / 18
Esempio di distribuzione trivariata
Introduzione
Se si considerano p = 3 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti in uno
spazio cartesiano tridimensionale (R3 ).
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
unità1
unità2
unità3
unità4
unità5
A. Iodice ()
7
8
10
8
2
5
10
10
5
9
1
4
9
1
2
Introduzione
Statistica
6 / 18
Esempio di distribuzione trivariata
Introduzione
Se si considerano p = 3 variabili statistiche, è possibile rappresentare gli n = 5 individui come punti in uno
spazio cartesiano tridimensionale (R3 ).
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
unità1
unità2
unità3
unità4
unità5
A. Iodice ()
7
8
10
8
2
5
10
10
5
9
1
4
9
1
2
Introduzione
Statistica
6 / 18
Esempio di distribuzione multivariata
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
unità1
unità2
unità3
unità4
unità5
unità6
unità7
unità8
unità9
unità10
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
3
2
7
3
2
1
8
5
10
5
5
9
6
3
7
9
1
7
4
9
Introduzione
6
8
5
4
2
2
7
4
6
2
7
4
9
9
6
5
9
9
7
9
7
4
3
4
6
8
4
9
6
4
8
6
5
7
7
8
10
6
9
2
Statistica
7 / 18
Esempio di distribuzione multivariata
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
8 / 18
Metodi di Analisi Multidimensionale dei Dati
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
9 / 18
Metodi di Analisi Multidimensionale dei Dati
Introduzione
Tecniche fattoriali
A. Iodice
Obbiettivo: individuare il miglior
sottospazio di approssimazione della
struttura delle relazioni tra le variabili e
le unità osservate
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
se la dimensione dello spazio di
approssimazione è minore o uguale a 3,
è possibile ottenere una visualizzazione
della soluzione
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
9 / 18
Metodi di Analisi Multidimensionale dei Dati
Introduzione
Tecniche fattoriali
Tecniche di classificazione automatica
A. Iodice
Obbiettivo: individuare il miglior
sottospazio di approssimazione della
struttura delle relazioni tra le variabili e
le unità osservate
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
se la dimensione dello spazio di
approssimazione è minore o uguale a 3,
è possibile ottenere una visualizzazione
della soluzione
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Obbiettivo: individuare gruppi omogenei
di unità statistiche: in altre parole, le
unità statistiche appartenenti ad uno
stesso gruppo presentano caratteristiche
simili. Il grado di similirità tra le unità
viene misurato attraverso opportuni
indici, scelti sulla base della natura delle
variabili osservate.
scegliendo opportunamente il tipo di
algoritmo di classificazione automatica è
possibile visualizzare la struttura in classi
ottenuta
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
9 / 18
Metodi fattoriali trattati
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Analisi in componenti principali (ACP):
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Analisi delle Corrispondenze Binarie (ACB)
Analisi delle Corrispondenze Multiple (ACM)
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
10 / 18
Metodi fattoriali trattati
Introduzione
Analisi in componenti principali (ACP):
A. Iodice
Matrice di riferimento ACP
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
n unità statistiche e p variabili quantitative
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Analisi delle Corrispondenze
Binarie (ACB)
Introduzione
Statistica
10 / 18
Metodi fattoriali trattati
Introduzione
Analisi in componenti principali (ACP):
Analisi delle Corrispondenze Binarie (ACB)
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Matrice di riferimento ACB
tabella di contingenza tra due mutabili con k e h modalità rispettivamente;
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
10 / 18
Metodi fattoriali trattati
Introduzione
Analisi in componenti principali (ACP):
Analisi delle Corrispondenze Binarie (ACB)
Analisi delle Corrispondenze Multiple (ACM)
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Matrice di riferimento ACM: dati questionario
Dati costituiti da indagini via questionario: n questionari somministrati e p mutabili o variabili suddivise in
classi.
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
10 / 18
Metodi fattoriali trattati
Introduzione
Analisi in componenti principali (ACP):
Analisi delle Corrispondenze Binarie (ACB)
Analisi delle Corrispondenze Multiple (ACM)
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Matrice di riferimento ACM: dati codifica disgiuntiva
presenza/assenza delle modalità relative a p variabili
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
10 / 18
Matrici strutturate
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Le matrici di dati possono avere una struttura in blocchi lungo
le righe o le colonne; per rappresentare dati rilevati in diversi
istanti di tempo, o in luoghi diversi, è possibile ricorrere a
matrici a tre vie.
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
11 / 18
Trasformazione delle variabili
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Raccolti i dati in tabelle compatibili con il tipo di variabili
osservate, si effettua
una trasformazione delle variabili in funzione del metodo di
analisi scelto
una omogeneizzazione delle variabili per consentirne
trattamento simultaneo
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
standardizzazione: se le variabili osservate sono continue
categorizzazione: se le variabili osservate sono qualitative o
miste
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
12 / 18
Matrici oggetto di AMD
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Le tecniche di analisi dei dati studiano le strutture delle
associazione tra variabili e quella delle relazioni tra le unità
Associazione tra variabili: matrice di correlazione
relazioni tra unità: matrice di distanze
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
13 / 18
Selezione del metodo
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Il seguente diagramma di flusso (Gherghi e Lauro, 2004) indica
la procedura per una corretta scelta del metodo di analisi
Strategia di selezione del metodo AMD
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
14 / 18
Esempio ACP: La dieta di 16 paesi europei
Introduzione
A. Iodice
Si consideri di aver rilevato le quantità di sostanze nutritive
ingerite in sedici paesi europei
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
15 / 18
Rappresentazione delle variabili: il cerchio delle
correlazioni
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
16 / 18
Rappresentazione delle unità
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
17 / 18
Rappresentazione congiunta unità/variabili
Introduzione
A. Iodice
Metodologie
per l’analisi
congiunta di
più variabili
statistiche
Metodi di
Analisi Multidimensionale
dei Dati:
obbiettivi e
tecniche
Strutture di
dati e tecniche
AMD
A. Iodice ()
Introduzione
Statistica
18 / 18