Metodi Quantitativi per Economia, Finanza
e Management
Lezione n°7
Statistica descrittiva bivariata
Indaga la relazione tra due variabili misurate. Si distingue
rispetto alla tipologia delle variabili indagate:
• var. qualitative/quantitative discrete: tavole di contingenza (o
a doppia entrata)
• var. quantitative: analisi di correlazione lineare
• una var. qualitativa e una quantitativa: confronto tra le medie
Correlazione lineare
Le misure di connessione possono essere applicate a variabili
qualitative. Se si vuole misurare il grado di concordanza tra due
variabili quantitative occorre utilizzare altri indici:
– Covarianza Cov(X,Y) è un indice che assume valori positivi se
vi è concordanza tra X e Y (a modalità elevate dell’una,
corrispondono modalità elevate dell’altra); assume valori
negativi nel caso di discordanza (a modalità elevate dell’una
non corrispondono modalità elevate dell’altra). Nel caso di
indipendenza statistica, la covarianza assumerà valore nullo.
È un indice assoluto, ovvero segnala la presenza e la
direzione di un legame tra due variabili, ma nulla si può dire
sul grado del loro legame.
Cov(X,Y)= Σ Σ (xi-μx) (yj- μy) p(xi,yj)
Correlazione lineare
• Covarianza tra due variabili:
Cov(x,y) > 0
x e y tendono a muoversi nella stessa direzione
Cov(x,y) < 0
x e y tendono a muoversi in direzioni opposte
Cov(x,y) = 0
x e y no relazione lineare
– Riguarda solo la forza della relazione, ma non implica un
effetto causale
Correlazione lineare
– Coefficiente di correlazione lineare ρ(X,Y) è un indice
relativo che ovvia al problema del precedente indice.
Assume valori compresi tra -1 e 1. In particolare vale 1 se
e solo se Y è funzione lineare di X (e viceversa) e in
questo caso i punti corrispondenti alle osservazioni sono
disposti su una retta con inclinazione positiva.
Analogamente l’indice assume valore -1 nel caso in cui i
punti siano disposti su una retta con inclinazione negativa.
Assume valore nullo se tra le variabili non è presente
alcun tipo di relazione lineare (indipendenti in
correlazione).
Correlazione lineare
• Coefficiente di correlazione lineare ρ(X,Y) :
Cov(X, Y)
ρ  Corr(X, Y) 
σ Xσ Y
• ρ=0
• ρ>0
• ρ<0
non c’è relazione lineare tra X e Y
relazione lineare positiva tra X e Y
» quando X assume valori alti (bassi) allora anche Y
probabilmente assume valori alti (bassi)
» ρ = +1 => dipendenza lineare perfetta positiva
relazione lineare negativa tra X e Y
» quando X assume valori alti (bassi) allora Y
probabilmente assume valori bassi (alti)
» ρ = -1 => dipendenza lineare perfetta negativa
Correlazione lineare
• Senza unità di misura
• Campo di variazione fra –1 e 1
• Quanto più è vicino a –1, tanto più è forte la relazione lineare
negativa
• Quanto più è vicino a 1, tanto più è forte la relazione lineare
positiva
• Quanto più è vicino a 0, tanto più è debole la relazione
lineare
Correlazione lineare
Y
Y
Y
X
X
r = -1
r = -0.6
Y
r=0
Y
Y
r = +1
X
X
X
r = +0.3
X
r=0
Correlazione lineare
Correlations
Qualità degli ingredienti
Genuinità
Leggerezza
Sapore/gusto
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Qualità degli
ingredienti
1
**. Correlation is s ignificant at the 0.01 level (2-tailed).
Genuinità Leggerezza Sapore/gusto
.629**
.299**
.232**
.000
.000
.001
220
220
218
220
.629**
1
.468**
.090
.000
.000
.181
220
220
218
220
.299**
.468**
1
.030
.000
.000
.657
218
218
219
219
.232**
.090
.030
1
.001
.181
.657
220
220
219
221
Statistica descrittiva bivariata
Indaga la relazione tra due variabili misurate. Si distingue
rispetto alla tipologia delle variabili indagate:
• var. qualitative/quantitative discrete: tavole di contingenza (o
a doppia entrata)
• var. quantitative: analisi di correlazione lineare
• una var. qualitativa e una quantitativa: confronto tra le medie
Confronto tra le medie
Per misurazione della connessione tra una
variabile quantitativa Y e una qualitativa X, è
possibile confrontare le distribuzioni condizionate
di Y tramite le medie condizionate.
Confronto tra le medie
Se si vuole incrociare una variabile quantitativa con una variabile
qualitativa, la loro relazione può essere descritta confrontando
le medie della variabile numerica all’interno delle categorie
definite dalla variabile misurata a livello nominale/ordinale.
Rapidità
Tipo cliente
Media
N
Persone fisiche
7.8403
357
Aziende
8.5132
76
Totale
7.9584
433
Confronto tra le medie
Un indice sintetico dell’intensità della relazione si basa sulla
scomposizione della varianza per la variabile quantitativa Y, di cui
viene studiata la dipendenza nei confronti della variabile
categorica X. La variabilità totale di Y è
SQTy=SQtra + SQnei
dove
•
SQTy (somma dei quadrati tot) è la variabilità totale,
•
SQtra variabilità tra i gruppi (somma dei quadr. tra i gruppi)
esprime quanta variabilità di Y può essere legata al variare delle
categorie di X,
•
SQnei variabilità interna ai gruppi (somma dei quadr. nei gruppi)
esprime la variabilità nell’andamento di Y indipendente da X.
Confronto tra le medie
E’ quindi possibile definire un indice relativo per misurare la
dipendenza in media, come
η2= SQtra /SQTy=1-(SQnei /SQTy)
Per l’interpretazione del valore assunto da η2 si consideri che:
• η2= 0 ⇒ indipendenza in media
• η2> 0 ⇒ dipendenza in media
• η2= 1 ⇒ massima dipendenza in media
η2 è sempre compreso tra 0 e 1.
Confronto tra le medie
Report
Measures of Association
Produzione artigianale
Età
18-25
26-35
36-50
Over 50
Total
Mean
5.01
5.53
6.00
6.09
5.55
Eta
N
78
55
41
47
221
Std. Deviation
2.224
2.609
2.098
2.320
2.352
Produzione
artigianale * Età
Eta Squared
.191
.036
Modesta dipendenza
in media della produzione
artigianale dall’età
In caso di indipendenza in media le medie dei diversi gruppi
(medie condizionate ai diversi livelli della variabile qualitativa)
saranno tutte uguali tra loro e quindi la variabilità tra i gruppi sarà
nulla. Viceversa qualora ad ogni livello della variabile qualitativa sia
associato un unico valore della variabile quantitativa, si parlerà di
massima dipendenza in media e si avrà variabilità interna ai gruppi
nulla. Per misurare l’intensità della dipendenza in media si può
utilizzare l’indice η2.
Test per lo studio dell’associazione tra
variabili
• Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la
distribuzione della popolazione; tali Hp sono parametriche se
riguardano il valore di uno ò più parametri della popolazione
conoscendone la distribuzione a meno dei parametri stessi;
non parametriche se prescindono dalla conoscenza della
distribuzione della popolazione.
• Obiettivo dei test: come decidere se accettare o rifiutare
un’ipotesi statistica alla luce di un risultato campionario.
Esistono due ipotesi: H0 e H 1, di cui la prima è l’ipotesi nulla,
la seconda l’ipotesi alternativa la quale rappresenta, di fatto,
l’ipotesi che il ricercatore sta cercando di dimostrare.
Test per lo studio dell’associazione tra
variabili
Cosa è un’ipotesi?
• Un’ipotesi è una affermazione
(assunzione) circa il parametro
della popolazione:
– media della popolazione
Esempio: In questa città, il costo medio della bolletta mensile
per il cellulare è μ = $42
L’ipotesi Nulla, H0 rappresenta l’ipotesi che deve
essere verificata, l’Ipotesi Alternativa, H1 è
generalmente l’ipotesi che il ricercatore stà cercando
di dimostrare
Test per lo studio dell’associazione tra
variabili
• Si può incorrere in due tipologie di errore:
Possibili Risultati Verifica di Ipotesi
Stato di Natura
Decisione
Non
Rifiutare
H0
Rifiutare
H0
H0 Vera
No errore
Errore
Primo Tipo
H0 Falsa
Errore
Secondo Tipo
No Errore
Test per lo studio dell’associazione tra
variabili
• Errore di Primo Tipo
– Rifiutare un’ipotesi nulla vera
– Considerato un tipo di errore molto serio
La probabilità dell’errore di primo tipo è 
• Chiamato livello si significatività del test
• Fissato a priori dal ricercatore
Test per lo studio dell’associazione tra
variabili
• Errore di Secondo Tipo
– Non rifiutare un’ipotesi nulla falsa
La probabilità dell’errore di secondo tipo è β
Test per lo studio dell’associazione tra
variabili
Possibili Risultati Verifica di Ipotesi
Stato di Natura
Legenda:
Risultato
(Probabilità)
Decisione
H0 Vera
Non
Rifiutare
H0
No errore
(1 -  )
Rifiutare
H0
Errore
Primo Tipo
()
H0 Falsa
Errore
Secondo Tipo
(β)
No Errore
(1-β)
Test per lo studio dell’associazione tra
variabili
 Errore di primo tipo ed errore di secondo tipo non si
posso verificare contemporanemente
 Errore di primo tipo può occorrere solo se H0 è vera
 Errore di secondo tipo può occorrere solo se H0 è falsa
Se la probabilità dell’errore di primo tipo (  )
,
allora la probabilità dell’errore di secondo tipo ( β )
Lettura di un test statistico (1)
Esempio:
H0:
b1= b2 = ....=bk = 0
1) Ipotesi
H1: bi = 0
2) Statistica test
3) p-value
Statistica F
Rappresenta la probabilità di commettere
l’errore di prima specie.
Può essere interpretato come la probabilità
che H0 sia “vera” in base al valore osservato
della statistica test
Lettura di un test statistico (2)
Il p-value:
- è la probabilità che H0 sia “vera” in base al valore
osservato della statistica test
- è anche chiamato livello di significatività osservato
- è il più piccolo valore di  per il quale H0 può
essere rifiutata
Lettura di un test statistico (3)
Regola di Decisione: confrontare il p-value con 
Se p-value piccolo ( < α )
RIFIUTO H0
Altrimenti ( >= α )
ACCETTO H0
Test χ² per l’indipendenza statistica
Si considera la distribuzione χ², con un numero di gradi di libertà
pari a (k-1)(h-1), dove k è il numero di righe e h il numero di
colonne della tabella di contingenza. Qui:
• H0 :indipendenza statistica tra X e Y
• H1 : dipendenza statistica tra X e Y
La regione di rifiuto cade nella coda di destra della distribuzione
0.2
0.15
0.1
0.05
La regione di rifiuto è
caratterizzata da valori
relativamente elevati di
χ²; se il livello di
significatività è al 5%,
si rifiuta per χ²> χ²0.95
0
Regione di rifiuto
0 1.1 2.2 3.3 4.4 5.5 6.6 7.7 8.8 9.9 11
Test χ² per l’indipendenza statistica
Chi-Square Tests
Pears on Chi-Square
Likelihood Ratio
N of Valid Cases
Value
5.471 a
5.402
221
df
3
3
Asymp. Sig.
(2-s ided)
.140
.145
a. 0 cells (.0%) have expected count les s than 5. The
minimum expected count is 15.95.
Chi-Square Tests
Pears on Chi-Square
Likelihood Ratio
N of Valid Cases
Value
26.304a
28.928
221
df
8
8
Asymp. Sig.
(2-s ided)
.001
.000
a. 0 cells (.0%) have expected count les s than 5. The
minimum expected count is 5.47.
Test χ² per l’indipendenza statistica
Esempio
H0: assenza di associazione tra mano dominante e sesso (indipendenza
statistica )
H1: mano dominante non è independente dal sesso (dipendenza statistica )
Mano dominante
Sesso
Sinistra
Destra
Femmina
12
108
120
Maschio
24
156
180
36
264
300
Se non c’è associazione, allora
P(Mancino | Femmina) = P(Mancino | Maschio) =P(Mancino)= 36/300= 0.12
Quindi ci aspetteremmo che Il 12% delle 120 femmine e Il 12% dei 180 maschi
siano mancini…
Test χ² per l’indipendenza statistica
Esempio
• Se H0 è vera, allora la proporzione di donne mancine
dovrebbe coincidere con la proporzione di uomini
mancini
• Le due proporzioni precedenti dovrebbero coincidere
con la proporzione generale di gente mancina
Mano dominante
Sesso
Sinistra
Destra
Femmina
Osservate = 12
Attese = 14.4
Osservate = 108
Attese = 105.6
120
Maschio
Osservate = 24
Attese = 21.6
Osservate = 156
Attese = 158.4
180
36
264
300
E11 
(120)(36)
 14.4
300
Test χ² per l’indipendenza statistica
Esempio
La statistica test chi-quadrato è:
r
c
  
2
i1 j1
con
(Oij  Eij )2
Regola di Decisione:
Eij
confrontare il p-value con 
g.d .l.  (r  1)(c  1)
dove:
Oij = frequenza osservate nella cella (i, j)
Eij = frequenza attesa nella cella (i, j)
r = numero di righe
c = numero di colonne
p-value = 0.32 > 0.05,
quindi accettiamo H0 e
concludiamo che sesso e
mano dominante non
sono associate
Test t per l’indipendenza lineare
Questo test verifica l’ipotesi di indipendenza lineare tra due
variabili, partendo dall’indice di correlazione lineare ρ. Si
ha:
• H0: indipendenza lineare tra X e Y (ρpopolaz=0)
• H1: dipendenza lineare tra X e Y (ρpopolaz ≠ 0)
La statistica test è distribuita come una t di Student con n-2
gradi di libertà, e tende a crescere all’aumentare
dell’ampiezza campionaria
t= ρ √(n-2)/ (1- ρ²)
Test t per l’indipendenza lineare
La regione di rifiuto è caratterizzata da valori relativamente
elevati di t in modulo; se il livello di significatività è al
5%, si rifiuta per |t| >t0,975
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
Regione di rifiuto
Regione di rifiuto
Test t per l’indipendenza lineare
Correlations
Qualità degli ingredienti
Genuinità
Leggerezza
Sapore/gusto
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Qualità degli
ingredienti
1
**. Correlation is s ignificant at the 0.01 level (2-tailed).
Genuinità Leggerezza Sapore/gusto
.629**
.299**
.232**
.000
.000
.001
220
220
218
220
.629**
1
.468**
.090
.000
.000
.181
220
220
218
220
.299**
.468**
1
.030
.000
.000
.657
218
218
219
219
.232**
.090
.030
1
.001
.181
.657
220
220
219
221
Test F per la verifica di ipotesi sulla
differenza tra medie
Si prende in considerazione la scomposizione della varianza; qui
• H0: le medie sono tutte uguali tra loro
• H1: esistono almeno due medie diverse tra loro
La statistica test da utilizzare, sotto l’ipotesi H0, si distribuisce
come una F di Fisher con (c-1,n-1) gradi di libertà. Tende a
crescere all’aumentare della varianza tra medie e al diminuire
della variabilità interna alle categorie. Cresce inoltre
all’aumentare dell’ampiezza campionaria.
Test F per la verifica di ipotesi sulla
differenza tra medie
La regione di rifiuto cade nella coda di destra della distribuzione,
cioè è caratterizzata da valori relativamente elevati di F; se il
livello di significatività è 5%, si rifiuta per F> F0,95
0.8
0.7
0.6
0.5
0.4
0.3
0.2
Regione di rifiuto
0.1
0
0
0.7
1.4
2.1
2.8
3.5
4.2
4.9
Test F per la verifica di ipotesi sulla
differenza tra medie
Report
Measures of Association
Produzione artigianale
Età
18-25
26-35
36-50
Over 50
Total
Mean
5.01
5.53
6.00
6.09
5.55
Eta
N
78
55
41
47
221
Std. Deviation
2.224
2.609
2.098
2.320
2.352
Produzione
artigianale * Età
Eta Squared
.191
.036
ANOVA Table
Produzione
artigianale * Età
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
44.296
1172.356
1216.652
df
3
217
220
Mean Square
14.765
5.403
F
2.733
Sig.
.045
Produzione artigianale
Età
18-25
26-35
36-50
Over 50
Total
Mean
5.01
5.53
6.00
6.09
5.55
N
78
55
41
47
221
Std. Deviation
2.224
2.609
2.098
2.320
2.352
ANOVA Table
Produzione
artigianale * Età
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
44.296
1172.356
1216.652
df
3
217
220
Mean Square
14.765
5.403
F
2.733
Sig.
.045
Report
Attenzione a bis ogni s pecifici
Età
18-25
26-35
36-50
Over 50
Total
Mean
4.05
4.53
5.00
5.83
4.73
N
78
53
41
47
219
Std. Deviation
2.772
2.791
2.837
8.168
4.536
ANOVA Table
Attenzione a bisogni
s pecifici * Età
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
97.921
4387.641
4485.562
df
3
215
218
Mean Square
32.640
20.408
F
1.599
Sig.
.191