Università degli studi della Tuscia
Dipartimento di Economia e Impresa
Statistica economica
a.a. 2013/14
Dr. Luca Secondi
07. Analisi dell’associazione tra variabili
La matrice dei dati
¾E’ una “tabella” contenente le informazioni disponibili
relativamente ad un insieme di unità statistiche.
¾Ciascuna riga della matrice contiene le informazioni
relative ad una determinata unità, mentre ciascuna colonna
contiene le modalità assunte da un determinato carattere
nelle diverse unità.
¾In generale, supponendo di aver osservato i valori di p
caratteri su un collettivo di n unità statistiche, la matrice di
dati, denotata X avrà dimensione n x p.
2
La matrice dei dati
⎡ x11
⎢x
⎢ 21
⎢ ...
⎢
xi1
⎢
X=
⎢ ...
⎢
⎢ xr 1
⎢ ...
⎢
⎢⎣ xn1
x12
x22
... x1h ... x1 j
... x2 h ... x2 j
xi 2
...
xih
...
xij
xr 2
... xrh
...
xrj
xn 2 ... xnh
...
xnj
... x1 p ⎤
... x2 p ⎥⎥
⎥
⎥
... xip ⎥
⎥
⎥
... xrp ⎥
⎥
⎥
... xnp ⎥⎦
3
La matrice dei dati
La matrice può essere vista come un insieme di n vettori riga
(di dimensioni 1 x p) contenenti ciascuno il profilo di una unità
statistica, ovvero i valori che in essa assumono le p variabili
osservate.
⎡ x11
⎢x
⎢ 21
⎢ ...
⎢
x i1
⎢
X=
⎢ ...
⎢
⎢ x r1
⎢ ...
⎢
⎢⎣ x n1
x12
x 22
...
...
x1h
x2 h
...
...
x1 j
x2 j
...
...
xi 2
...
x ih
...
x ij
...
xr 2
...
x rh
...
x rj
...
xn 2
...
x nh
...
x nj
...
x1 p ⎤
x 2 p ⎥⎥
⎥
⎥
x ip ⎥
⎥
⎥
x rp ⎥
⎥
⎥
x np ⎥⎦
o, alternativamente, indicando con xi il generico vettore
colonna contenente il profilo della i-esima unità.
4
Associazione tra variabili
In presenza di un qualche legame (associazione) tra X e Y, lo
studio della relazione tra i due caratteri richiede di:
• distinguere la tipologia di caratteri che si esaminano
• specificare se si è interessati a studiare la dipendenza o
l’interdipendenza
Dipendenza:
studia come le modalità di un carattere dipendano da quelle di
un altro carattere secondo un legame unidirezionale
Interdipendenza:
Si assume che i due caratteri abbiano lo stesso ruolo e che il
legame sia bidirezionale
5
Associazione tra variabili
Si osserva un’associazione tra due variabili se la
distribuzione della variabile risposta cambia in qualche
modo al variare della variabile esplicativa. La misura di
tale associazione dipende dal tipo variabili considerate
nel loro insieme che possono essere:
• categoriali (qualitative sconnesse);
• ordinali (qualitative ordinali);
• quantitative;
• miste.
Tabelle di contingenza
I dati per l’analisi di variabili categoriali sono organizzati in
tabelle di contingenza. Questo tipo di tabelle mostra il
numero di soggetti osservati per tutte le combinazioni delle
categorie delle due variabili.
6
Tabelle di contingenza: confronti tra distribuzioni
condizionate
Si dice che una variabile categoriale Y è statisticamente indipendente
da X ( o che Y non è connesso con X ) se tutte le distribuzioni
condizionate relative ( i profili-colonna ) di Y in corrispondenza
delle varie modalità di X sono uguali.
Analoghi concetti valgono per l’indipendenza di X da Y
(tutti i profili-riga di X dovranno essere uguali).
Le variabili sono statisticamente dipendenti se le distribuzioni
condizionate non sono identiche
Dipendenza perfetta
La variabile Y dipende perfettamente da X se ad ogni modalità di X
è associata una sola modalità di Y.
E,ovviamente, il carattere X dipende perfettamente da Y
se ad ogni modalità
di Y è associata una sola
modalità di X.
Test chi-quadrato di indipendenza
Permette di verificare se tra due variabili X e Y esiste o
meno associazione
E’ un test non parametrico in quanto l’ipotesi da
sottoporre a verifica non riguarda un parametro della
distribuzione ma la condizione di indipendenza statistica
Il test può essere applicato a qualsiasi tipo di carattere
purché le modalità siano raggruppate in classi qualora il
carattere sia di tipo quantitativo continuo.
Il test del chi-quadrato confronta le frequenze osservate
nella tabella di contingenza con valori che soddisfano
l’ipotesi nulla di indipendenza statistica.
8
Test chi-quadrato di indipendenza
Siano X e Y rispettivamente due caratteri tali che H siano le
modalità di X e K le modalità di Y (tabella di contingenza o a
doppia entrata)
Si vuole verificare sulla base delle n osservazioni campionarie
l’ipotesi nulla di indipendenza statistica tra X e Y nella
popolazione
H0 : le variabili sono statisticamente indipendenti
H1 : le variabili sono statisticamente dipendenti
Frequenze osservate nij
Frequenze teoriche o attese (quelle se si osserverebbero in
caso di indipendenza statistica) n' = ni. × n. j
ij
n
La condizione di indipendenza statistica si verifica a partire
dalle differenze cij tra ciascuna frequenza osservata e la
'
corrispondente frequenza teorica cij = nij − nij
9
Test chi-quadrato di indipendenza
La statistica test utilizzata è data da
χ
2
=
H
∑
i =1
c
∑
j =1 n
K
2
ij
'
ij
cij = nij − nij'
che, per n grande, ha una distribuzione chi-quadrato con (K1)(H-1) gradi di libertà
Quando Ho è vera, le frequenze osservate e quelle attese
tendono ad essere vicine in ciascuna cella e il chi-quadrato è
relativamente piccolo.
Se Ho è falsa, uno o più valori delle freq. osservate e teoriche
tenderanno a essere diversi portando un valore grande della
differenza al quadrato e quindi della statistica test.
10
Test chi-quadrato di indipendenza
Maggiore sarà il valore della statistica e maggiore sarà
l’evidenza contro l’ipotesi nulla (ipotesi di indipendenza), il
test pertanto è sempre ad una coda
α
χα2;(K −1)(H−1)
Se il valore del Chi-quadrato empirico è inferiore al valore
critico definito da α si accetta l’ipotesi di indipendenza tra
X e Y.
11
Test chi-quadrato di indipendenza
Il test del chi-quadrato è un test per grandi campioni. La
distribuzione del chi-quadro è la distribuzione campionaria
della statistica test χ2 soltanto se il campione è grande.
Per soddisfare l’esigenza di un campione di dimensioni
elevate si richiede che la frequenza teorica debba essere
maggiore di 5 in ogni cella.
NB. Un valore elevato di χ2 nel test di indipendenza suggerisce
che le variabili siano associate ma non implica che l’associazione sia
forte. La statistica indica, semplicemente, quanta evidenza c’è a
favore della dipendenza ma non misura la forza della dipendenza.
Esempio test di indipendenza
Per verificare la qualità di produzione in
un’azienda, il manager controlla il numero di pezzi
difettosi prodotti da due macchine e ottiene i
seguenti risultati
Pezzi
Difettosi
Non difettosi
Macchina 1 Macchina 2
100
80
50
20
Al livello di significatività del 5% il manager può
asserire che la quantità di pezzi difettosi non dipenda
dalla macchina?
13
Esempio test di indipendenza
Calcolo delle frequenze teoriche:
Pezzi
Macchina 1 Macchina 2
Non difettosi
difettosi
108
42
72
28
Calcolo del valore empirico della statistica test
χ 2 = 0,59 + 0,89 + 1,52 + 2,29 = 5,29
α =0,05
Poiché 5,29 > 3,84 si
rifiuta l’ipotesi di
indipendenza al livello di
significatività del 5%
p-value=
χ
2
0,05;1
= 3,84
= P( χ 2 > 5,29 ) = 0,02
14
Associazione tra caratteri qualitativi ordinati –
Indice rho di Spearman
Indice rho di Spearman
Si applica nel caso di caratteri ordinati che rappresentano delle
graduatorie.
La differenza tra i ranghi dell’i-esima unità è
n
di
unità statistiche.
n
ρs = 1 −
ρs = 1
ρ s = −1
ρs = 0
6 ∑ di2
i =1
2
n(n − 1)
− 1 ≤ ρs ≤ 1
I ranghi sono in perfetta concordanza
I ranghi sono in perfetta discordanza
Le due graduatorie non mostrano associazione
Associazione tra caratteri qualitativi ordinati –
Indice rho di Spearman
Il criterio sul quale si basa l’indice di Spearman, nella misurazione della
relazione esistente tra due fenomeni (variabili) H e J, consiste nella sostituzione
delle modalità di ciascun fenomeno con i rispettivi posti d’ordine o “gradi”
(ranks) che esse occupano nella graduatoria ordinata delle osservazioni.
Proprio perché si considerano solo i posti d’ordine, questo criterio è applicabile,
oltre che per le variabili quantitative, anche per le variabile rilevate su scala
ordinale.
Si
definisce
quindi
cograduazione
(rank
correlation) la metodologia statistica che studia le
relazioni tra i posti d’ordine delle modalità di variabili
quantitative oppure ordinali.
16
Associazione tra caratteri qualitativi ordinati –
Indice rho di Spearman
Si considerino due fenomeni (variabili) H e J, rilevati almeno su scala ordinale, per i
quali si conoscono le modalità xih e xij in corrispondenza delle n unità statistiche;
Si suppone che per ciascuna variabile le modalità siano tutte distinguibili fra loro (non vi
siano cioè modalità ripetute);
Se si sostituiscono alle modalità xih e xij di ciascun fenomeno i rispettivi “gradi”, g (xih) e g
(xij), che esse occupano nella successione ordinata in senso crescente, lo studio delle
relazioni tra H e J può essere condotto sui seguenti vettori:
⎡⎣ g ( x1h ) ...g ( xih ) ...g ( xnh ) ⎤⎦
⎡ g ( x1 j ) ...g ( xij ) ...g ( xnj ) ⎤
⎣
⎦
ciascuno dei quali contiene i numeri da 1 a n (in un ordine che dipende dalle
modalità dei due fenomeni).
17
Associazione tra caratteri qualitativi ordinati –
Indice rho di Spearman
Si dice che tra due fenomeni H e J esiste:
perfetta cograduazione se:
g(xih) = g(xij)
per i = 1, 2, …, n
cioè quando al primo posto nella graduatoria d’un fenomeno corrisponde il
primo posto nella graduatoria dell’altro fenomeno, al secondo corrisponde il
secondo, e così via;
perfetta contrograduazione se:
g(xih) = n + 1 – g(xij)
per i = 1, 2, …, n
cioè quando al primo posto nella graduatoria di un fenomeno corrisponde
l’ultimo posto nella graduatoria dell’altro fenomeno, al secondo corrisponde il
penultimo, etc.
18
quadrante II
y
Y
Consideriamo un diagramma
di dispersione in cui l’origine
degli assi sia stata traslata
sul
baricentro
(variabili
scarto):
quadrante I
y
x
quadrante III
quadrante IV
x
X
Classifichiamo le coordinate dei punti nei 4 quadranti secondo il loro segno algebrico:
quadrante
segno algebrico
Xi − x
I
II
III
IV
+
+
Yi − y
+
+
-
Interdipendenza tra due caratteri quantitativi
Perciò i prodotti degli scarti avranno segno positivo per i punti del
I e III quadrante e negativo per i punti del II e IV quadrante.
La somma dei prodotti degli scarti, chiamata codevianza tra X e
Y, sintetizza la distribuzione dei punti nei 4 quadranti:
n
∑ (x i − x ) ( yi − y )
i =1
>0
prevalgono i punti nel I e III quadrante:
relazione positiva (concordanza)
≅ 0
punti uniformemente distribuiti nei 4
quadranti:
relazione circa nulla
< 0
prevalgono i punti nel II e IV quadrante:
relazione negativa (discordanza)
Occorre però eliminare dalla codevianza l’influenza della numerosità delle
osservazioni, dividendola per n, ottenendo quindi la covarianza
Interdipendenza tra due caratteri
quantitativi
Covarianza: Indice simmetrico di associazione tra
due variabili quantitative
Cov (X, Y ) = σ XY
1 n
= ∑ (x i − x )(y i − y )
n i=1
Cov > 0 se prevalgono scostamenti concordi di X e Y
(bassi valori di X corrispondenti a bassi valori di Y
oppure alti valori di X corrispondenti a alti valori di Y).
Cov < 0 se prevalgono scostamenti discordi (alti valori
di una variabile associati a bassi valori dell’altra
variabile)
Cov = 0 in assenza di relazione lineare tra X e Y
21
Covarianza nulla
Cov(X,Y)=0
Covarianza positiva
(concordanza)
Cov(X,Y)>0
22
Covarianza negativa
(discordanza)
Cov(X,Y)<0
Legame non lineare
La relazione tra X e Y non è di
tipo lineare
Ci aspettiamo un valore di
Cov(X,Y) prossimo allo 0, il che
indica assenza di legame
lineare
X e Y NON sono indipendenti,
ma legati da una forte
relazione di tipo non lineare
23
Matrice di varianza-covarianza
Nel caso si consideri una matrice di dati, se si calcola la covarianza per tutte
le coppie di caratteri che sono oggetto di analisi si può costruire la matrice di
associazione (p x p) detta matrice delle covarianze
⎡ s11 s12
⎢s
⎢ 21 s22
⎢ ...
⎢
sh1 sh 2
⎢
S=
⎢ ...
⎢
⎢ s j1 s j 2
⎢ ...
⎢
⎢⎣s p1 s p 2
... s1h ... s1 j ... s1 p ⎤
... s2 h ... s2 j ... s2 p ⎥⎥
⎥
⎥
... shh ... shj ... shp ⎥
⎥
⎥
... s jh ... s jj ... s jp ⎥
⎥
⎥
... s ph ... s pj ... s pp ⎥⎦
La matrice è simmetrica e
sulla diagonale principale
presenta le varianze delle p
variabili.
n
shh =
∑ (x
i =1
ih
− xh )( xih − xh )
n
n
=
∑ (x
i =1
ih
− xh ) 2
n
= σ h2
I valori assunti dalle covarianze dipendono dalle scale di misura dei diversi caratteri e
non sono direttamente confrontabili, al fine di valutare se tra una coppia di variabili vi sia
una associazione maggiore o minore rispetto ad un’altra.
24
Correlazione lineare
¾Eliminare l’influenza sulla covarianza delle differenti unità di misura scelte,
dividendo la suddetta quantità per le deviazioni standard delle due variabili.
Indice di correlazione lineare di Bravais-Pearson
n
Corr(X, Y ) = ρ XY
σ XY
=
=
σXσ Y
∑ (x
i=1
i
− x )(yi − y )
n
n
2
(
)
(
)
x
−
x
y
−
y
∑ i
∑ i
2
i=1
ρXY = −1
− 1 ≤ ρ XY ≤ 1
i=1
correlazione lineare positiva perfetta
− 1 < ρXY < 0 correlazione negativa
ρXY = 0
0 < ρXY < 1
ρXY = 1
assenza di legame lineare
correlazione positiva
correlazione lineare positiva perfetta
25
Correlazione lineare
¾Il segno algebrico del coefficiente ρxy dipende dalla
covarianza
¾Tra due variabili X e Y esiste correlazione positiva
(concordanza)
se al crescere di X
anche Y, nel
complesso, tende a crescere e se al diminuire di X
anche Y , nel complesso, tende a diminuire.
La correlazione è invece negativa (discordanza) se al
diminuire di X la variabile Y, nel complesso, tende a
crescere e se al crescere di X, nel complesso, Y tende a
diminuire.
Se le variabili sono correlate, i punti del “diagramma di
dispersione” si disporranno secondo un andamento
globale facilmente individuabile: se tale andamento è
lineare, si parlerà di correlazione lineare.
26
Correlazione lineare circa nulla
ρ XY
σ XY
=
≅0
σ XσY
I quadrante
II quadrante
Y
µY
III quadrante
IV quadrante
µX
X
Correlazione lineare positiva
ρ XY
σ XY
=
>0
σ XσY
I quadrante
II quadrante
Y
µY
III quadrante
IV quadrante
µX
X
Correlazione lineare negativa
ρ XY
σ XY
=
<0
σ XσY
I quadrante
II quadrante
Y
µY
III quadrante
IV quadrante
µX
X
Correlazione lineare perfetta
ρ=1
Perfetta correlazione
positiva
ρ=-1
Perfetta correlazione
negativa
Matrice di correlazione
Da una matrice di dati, calcolata la correlazione per tutte le coppie di caratteri si può
costruire la matrice di associazione R (di dimensione pxp) detta matrice delle
correlazioni
⎡ r11
⎢r
⎢ 21
⎢ ...
⎢
rh1
⎢
R=
⎢ ...
⎢
⎢ r j1
⎢ ...
⎢
⎢⎣rp1
r12
r22
... r1h
... r2 h
... r1 j
... r2 j
rh 2
... rhh
... rhj
rj 2
... rjh
... rjj
rp 2 ... rph ... rpj
... r1 p ⎤
... r2 p ⎥⎥
⎥
⎥
... rhp ⎥
⎥
⎥
... rjp ⎥
⎥
⎥
... rpp ⎥⎦
La matrice è simmetrica e con
valori unitari sulla diagonale
principale.
31