Metodi Quantitativi per Economia,
Finanza e Management
Lezione n°14
Riassunto e Case Study
Valutazione
La valutazione del lavoro di gruppo avverrà tenendo
conto dei seguenti criteri:
– 30%: completezza analisi
– 30%: qualità e correttezza dell’analisi
– 30%: implicazioni economico-manageriali
– 10%: editing
Dovrà essere consegnato
•
•
Report cartaceo in formato .ppt
CD Rom contenente il questionario, report in formato .ppt,
file di dati in formato xls o SAS, programma SAS e output
con le elaborazioni SAS.
L’analisi statistica dei dati
Statistica descrittiva insieme dei metodi che riguardano la
rappresentazione e sintesi di un insieme di dati al fine di
evidenziarne le caratteristiche principali
Statistica inferenziale insieme dei metodi che permettono la
stima di una caratteristica di una popolazione basandosi
sull’analisi di un campione
Misura riassuntiva,
La parte di popolazione
calcolata sui dati campionari,
utile per descrivere una selezionata per l’analisi
caratteristica non nota della
popolazione
Totalità degli elementi
presi in esame dalla
indagine
Percorso di Analisi
Tipo di analisi
ANALISI UNIVARIATA
Cosa è?
La statistica descrittiva univariata ha come
obiettivo lo studio della distribuzione di
ogni variabile, singolarmente considerata,
all’interno della popolazione. Fornisce
strumenti per la lettura dei fenomeni
osservati di rapida ed immediata
interpretazione.
Strumenti
- DISTRIBUZIONI DI FREQUENZA
- INDICI DI POSIZIONE (MISURE DI TENDENZA CENTRALE E MISURE
DI TENDENZA NON CENTRALE)
- INDICI DI DISPERSIONE
- MISURE DI FORMA DELLA DISTRIBUZIONE
La statistica descrittiva bivariata si occupa
Due variabili qualitative o quantitative discrete:
dello studio della distribuzione di due
TABELLA DI CONTINGENZA E INDICI CHI QUADRO E V DI CRAMER
variabili congiuntamente considerate.
TEST CHI QUADRO PER L'INDIPENDENZA STATISTICA
Due variabili quantitative continue:
ANALSI BIVARIATA E TEST STATISTICI I test statistici per lo studio
INDICE DI CORRELAZIONE DI PEARSON (ρ) E COVARIANZA
PER LO STUDIO DELL'ASSOCIAZIONE dell'associazione tra variabili ci
TRA VARIABILI
permettono di formulare delle ipotesi e TEST t PER L'INDIPENDENZA LINEARE
verificarle tramite i dati campionari. I dati Una variabile qualitativa e una quantitativa continua:
campionari sono utilizzati per stabilire se INDICE η2
tale ipotesi è ragionevolmente accettabile TEST F PER L'INDIPENDENZA IN MEDIA
o rifiutabile.
ANALISI MULTIVARIATA
L'analisi statistica multivariata e' l'insieme
di metodi statistici usati per analizzare
simultaneamente più variabili. Esistono
molte tecniche diverse, usate per
risolvere problemi anche lontani fra loro.
- ANALISI FATTORIALE
- REGRESSIONE LINEARE
- REGRESSIONE LOGISTICA
- SERIE STORICHE
Matrice dei dati: riconoscere la tipologia dei dati
variabili qualitative
Obs Sesso Professione
Marca
scale di preferenza
variabili
variabile numeriche: si usano
quantitative
quantitativa come var quantitative
discrete
continua
Componenti Nr_caffe
_famiglia
Eta
C_GUSTO C_PREZ C_MARCA C_PREP
1
M
STUD
ILLY
4
1
25
6
7
3
4
2
F
CASAL
NESPRESSO
4
1
55
10
8
8
10
3
M
LAV DIP
NESPRESSO
4
3
56
8
5
7
5
4
M
LAV AUT
LAVAZZA
2
3
61
10
3
3
3
5
M
STUD
NESPRESSO
4
3
22
10
6
8
9
6
M
LAV AUT
LAVAZZA
2
2
61
10
10
2
5
7
M
LAV DIP
LAVAZZA
4
2
43
9
5
5
7
8
F
LAV DIP
LAVAZZA
4
3
39
10
7
8
10
9
M
LAV DIP
PRIVATE
3
2
55
10
10
4
5
10 M
STUD
NESCAFE
4
3
18
10
8
6
7
11 F
CASAL
LAVAZZA
4
3
50
10
8
5
5
12 F
LAV DIP
LAVAZZA
3
5
33
10
8
5
3
13 M
LAV DIP
LAVAZZA
3
3
41
10
6
6
6
14 M
LAV DIP
LAVAZZA
4
2
57
8
3
7
2
15 M
LAV DIP
ILLY
4
2
27
10
4
9
2
16 F
CASAL
ILLY
3
4
45
9
4
9
2
17 F
CASAL
SEGAFREDO
2
2
31
10
10
5
9
18 M
LAV DIP
LAVAZZA
3
3
32
9
10
6
10
19 F
LAV DIP
LAVAZZA
1
1
46
10
6
6
10
20 F
LAV DIP
VERGNANO
4
3
55
10
9
10
9
Obiettivi dell’analisi univariata
• studio della distribuzione di ogni variabile,
singolarmente
considerata,
all’interno
della
popolazione
• lettura dei fenomeni osservati di rapida ed
immediata interpretazione
• Data Audit
• Errori di imputazione
• Dati mancanti (missing)
• Valori anomali (outliers)
• Analisi preliminari
Strumenti per l’analisi univariata
1. Variabili qualitative e
quantitative discrete e
variabili “punteggio”
1. Distribuzioni di frequenza
2. Variabili quantitative
(continue e discrete) e
variabili punteggio
2. Misure di sintesi
– Misure di posizione
– Misure di dispersione
– Misure della forma della distribuzione
Percorso di Analisi
Tipo di analisi
ANALISI UNIVARIATA
Cosa è?
La statistica descrittiva univariata ha come
obiettivo lo studio della distribuzione di
ogni variabile, singolarmente considerata,
all’interno della popolazione. Fornisce
strumenti per la lettura dei fenomeni
osservati di rapida ed immediata
interpretazione.
Strumenti
- DISTRIBUZIONI DI FREQUENZA
- INDICI DI POSIZIONE (MISURE DI TENDENZA CENTRALE E MISURE
DI TENDENZA NON CENTRALE)
- INDICI DI DISPERSIONE
- MISURE DI FORMA DELLA DISTRIBUZIONE
La statistica descrittiva bivariata si occupa
Due variabili qualitative o quantitative discrete:
dello studio della distribuzione di due
TABELLA DI CONTINGENZA E INDICI CHI QUADRO E V DI CRAMER
variabili congiuntamente considerate.
TEST CHI QUADRO PER L'INDIPENDENZA STATISTICA
Due variabili quantitative continue:
ANALSI BIVARIATA E TEST STATISTICI I test statistici per lo studio
INDICE DI CORRELAZIONE DI PEARSON (ρ) E COVARIANZA
PER LO STUDIO DELL'ASSOCIAZIONE dell'associazione tra variabili ci
TRA VARIABILI
permettono di formulare delle ipotesi e TEST t PER L'INDIPENDENZA LINEARE
verificarle tramite i dati campionari. I dati Una variabile qualitativa e una quantitativa continua:
campionari sono utilizzati per stabilire se INDICE η2
tale ipotesi è ragionevolmente accettabile TEST F PER L'INDIPENDENZA IN MEDIA
o rifiutabile.
ANALISI MULTIVARIATA
L'analisi statistica multivariata e' l'insieme
di metodi statistici usati per analizzare
simultaneamente più variabili. Esistono
molte tecniche diverse, usate per
risolvere problemi anche lontani fra loro.
- ANALISI FATTORIALE
- REGRESSIONE LINEARE
- REGRESSIONE LOGISTICA
- SERIE STORICHE
Statistica descrittiva bivariata
Indaga la relazione tra due variabili misurate. Si distingue
rispetto alla tipologia delle variabili indagate:
Tipologia variabili
Tipo di analisi
Indici di connessione
2 variabili qualitative
e/o quantitative
discrete
DIPENDENZA
STATISTICA
- Tabelle di contingenza o a doppia
entrata
- Indici di connessione (χ² (chiquadrato) e V di Cramer)
2 variabili quantitative
continue
DIPENDENZA
LINEARE
analisi di correlazione lineare (misure
di connessione Covarianza Cov(X,Y)
e Coefficiente di correlazione lineare
ρ(X,Y))
1 variabile
quantitativa continua
e 1 variabile
qualitativa
DIPENDENZA IN
MEDIA
confronto tra le medie (indice relativo
per misurare la dipendenza in media
η2 (ETA QUADRO))
Test statistici per lo studio
dell’associazione tra variabili
Tipo di test
Statistica test
Tipo di variabili a cui
si applica
Indipendenza
statistica
Chi quadro
2 variabili qualitative e/o
quantitative discrete
Indipendenza
lineare
t di Student
2 variabili quantitative
continue
Indipendenza in
media
F di Fisher
una variabile qualitativa
e una variabile
quantitativa continua
Percorso di Analisi
Tipo di analisi
ANALISI UNIVARIATA
Cosa è?
La statistica descrittiva univariata ha come
obiettivo lo studio della distribuzione di
ogni variabile, singolarmente considerata,
all’interno della popolazione. Fornisce
strumenti per la lettura dei fenomeni
osservati di rapida ed immediata
interpretazione.
Strumenti
- DISTRIBUZIONI DI FREQUENZA
- INDICI DI POSIZIONE (MISURE DI TENDENZA CENTRALE E MISURE
DI TENDENZA NON CENTRALE)
- INDICI DI DISPERSIONE
- MISURE DI FORMA DELLA DISTRIBUZIONE
La statistica descrittiva bivariata si occupa
Due variabili qualitative o quantitative discrete:
dello studio della distribuzione di due
TABELLA DI CONTINGENZA E INDICI CHI QUADRO E V DI CRAMER
variabili congiuntamente considerate.
TEST CHI QUADRO PER L'INDIPENDENZA STATISTICA
Due variabili quantitative continue:
ANALSI BIVARIATA E TEST STATISTICI I test statistici per lo studio
INDICE DI CORRELAZIONE DI PEARSON (ρ) E COVARIANZA
PER LO STUDIO DELL'ASSOCIAZIONE dell'associazione tra variabili ci
TRA VARIABILI
permettono di formulare delle ipotesi e TEST t PER L'INDIPENDENZA LINEARE
verificarle tramite i dati campionari. I dati Una variabile qualitativa e una quantitativa continua:
campionari sono utilizzati per stabilire se INDICE η2
tale ipotesi è ragionevolmente accettabile TEST F PER L'INDIPENDENZA IN MEDIA
o rifiutabile.
ANALISI MULTIVARIATA
L'analisi statistica multivariata e' l'insieme
di metodi statistici usati per analizzare
simultaneamente più variabili. Esistono
molte tecniche diverse, usate per
risolvere problemi anche lontani fra loro.
- ANALISI FATTORIALE
- REGRESSIONE LINEARE
- REGRESSIONE LOGISTICA
- SERIE STORICHE
Analisi Fattoriale – cosa è
E’ una tecnica descrittiva/esplorativa per l’analisi delle
relazioni lineari (correlazioni) esistenti tra variabili quantitative.
Nelle applicazioni è usata anche con variabili qualitative
ordinali che esprimono scale di preferenza numeriche
(punteggi).
A partire da una matrice di dati nxp con p variabili originarie,
consente di sintetizzare l’informazione in un set ridotto di
variabili trasformate (le componenti/i fattori latenti).
Perché sintetizzare?
- se l’informazione è condivisa tra più variabili correlate tra
loro, è ridondante utilizzarle tutte;
- la sintesi comporta una perdita di informazione non
rilevante e semplifica le analisi successive.
Analisi Fattoriale –
Step di analisi
Numero di fattori
• Regola Autovalori >1
• Lettura SCREEPLOT
• 1/3 variabili originali
• Variabilità spiegata 60%75%
Confronto
soluzioni scelte
• Comunalità finali
Analisi soluzione
• Rotazione fattori
• Interpretazione fattori
• Produzione dataset con
fattori
Regressione – impostazione del problema

variabile quantitativa continua
Regressione Lineare

variabile dicotomica
Regressione Logistica
Il modello di regressione - Obiettivi
• Esplicativo - Stimare l’influenza dei regressori sulla
variabile target.
• Predittivo - Stimare il valore non osservato della variabile
target in corrispondenza di valori osservati dei regressori.
• Comparativo - Confrontare la capacità di più regressori, o
di più set di regressori, di influenzare il target (= confronto
tra modelli di regressione diversi).
Regressione lineare - steps
1. Individuazione variabili dipendente e regressori
2. Trasformazione di eventuali variabili qualitative in dummy
3. Stimare un modello di regressione lineare utilizzando la
procedura automatica di selezione delle variabili
(stepwise)
4. Controllare la bontà del modello (R-square, Test F)
5. Controllare la significatività dei singoli coefficienti (Test t)
6. Analisi di influenza con i soli regressori scelti nella
stepwise.
 Se si è in presenza di osservazioni influenti: eliminarle
e ripetere i punti 3, 4, 5
 In assenza di osservazioni influenti: passare al punto 7
Regressione lineare - steps
7. Verificare la presenza di multicollinearità (se i regressori
del modello sono i fattori di un’analisi fattoriale non è
necessario perchè risultano non correlati per costruzione
 tutti i VIFj =1)
 Se si è in presenza di multicollinearità: azioni per
eliminarla e ripetere i punti 3, 4, 5, 6
 In assenza di multicollinearità: passare al punto 8
8. Verificare l’impatto dei regressori nella spiegazione del
fenomeno (ordinarli usando il valore assoluto dei
coefficienti standardizzati e controllare il segno dei
coefficienti)
9. Interpretazione del coefficienti standardizzati
Regressione logistica - steps
1) Individuare la variabile oggetto di analisi (variabile
dipendente dicotomica (0/1)) e i potenziali regressori
(variabili quantitative o dummy)
2) Stimare un modello di regressione logistica utilizzando il
metodo di selezione automatica STEPWISE per
selezionare le variabili
3) Valutare:
I. la bontà del modello (percentuale di Concordant e altre misure di
associazione tra valori predetti e valori osservati)
II. la significatività congiunta dei coefficienti (Likelihood ratio test/Score
test/Wald test )
III. la significatività dei singoli coefficienti stimati (Wald Chi-square test)
Regressione logistica - steps
4) Valutare la presenza di multicollinearità tra i regressori
(analogalmente alla regressione lineare si usa la PROC
REG con opzione VIF)
5) Importanza dei regressori e analisi dei segni