Lo studio delle relazioni tra due caratteri

Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio delle relazioni tra due caratteri"
Analisi delle relazioni tra due caratteri
{
{
{
Dipendenza in distribuzione
si basa sul confronto delle distribuzioni
condizionate
Dipendenza in media
si basa sul confronto di medie condizionate
Dipendenza funzionale
si basa su una relazione funzionale che lega
le due variabili
Indipendenza in distribuzione
Il carattere X è indipendente in distribuzione
da Y se, qualunque sia la modalità con cui si
manifesta il carattere Y, la distribuzione
relativa condizionata di X rimane sempre la
stessa
le frequenze relative delle distribuzioni
condizionate della X rispetto alla Y devono
essere tutte fra loro uguali e uguali alla
distribuzione marginale relativa della X
1
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio delle relazioni tra due caratteri"
Indipendenza in distribuzione
Se per ogni i e h valgono le uguaglianze
n
nih
= i0
n0h
n
Y è indipendente in distribuzione da X
Se per ogni i e h valgono le uguaglianze
n
nih
= 0h
ni 0
n
X è indipendente in distribuzione da Y
Indipendenza in distribuzione
La prima uguaglianza implica la seconda e
viceversa
l’indipendenza in distribuzione è
simmetrica
Da esse si ricava che
∗
=
nih
ni 0 ⋅ n0h
n
2
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio delle relazioni tra due caratteri"
Tabella delle frequenze teoriche
.
xv
.
x1
.
. xh .
y1
n*11
.
. n*1h .
:
:
:
:
yi
n*
.
n*
:
:
:
:
yu
n*u1
.
. n*uh .
. n*uv
nu0
n01
.
. n0h .
. n0v
n
(n
)
i1
.
ih
. n*1v
n10
: :
.
.
∗
=
nih
:
n*
ni0
iv
: :
:
per
ni 0 ⋅ n0h
n
i = 1,..., u
h = 1,..., v
Chi quadrato
χ =
2
u
v
∑∑
i =1 h =1
χ2 = 0
χ2 > 0
ih
*
− nih
*
nih
2
X e Y indipendenti in distribuzione
X e Y NON indipendenti in distribuzione
3
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio delle relazioni tra due caratteri"
Distribuzione delle famiglie per titolo di studio
del capofamiglia e numero di componenti
Numero componenti
Titolo di studio
Licenza elementare
Licenza media inferiore
Diploma professionale (3 anni)
Diploma scuola media superiore
Specializzazione post-laurea
Totale
1
2
3
4
5
6 Totale
5
5
8
2
1
11
1
2
3
5
3
1
9
1
1
1
1
15
7
1
6
1
30
Frequenze teoriche
∗
=
nih
ni 0 ⋅ n0h
n
∗
=
n11
n10 ⋅ n01 15 ⋅ 5
=
= 2.5
30
n
∗
=
n12
n10 ⋅ n02 15 ⋅ 11
=
= 5.5
30
n
....
∗
=
n56
n50 ⋅ n06 1 ⋅ 1
=
= 0.03
30
n
4
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio delle relazioni tra due caratteri"
Distribuzione teorica delle famiglie per titolo di studio del
capofamiglia e numero di componenti
Numero componenti
1
2
3
4
5
6
Totale
2.5
1.2
0.2
1
0.2
5.5
2.6
0.4
2.2
0.4
1.5
0.7
0.1
0.5
0.2
0.03
0.2
0.03
0.5
0.6
0.1
4.5
2.1
0.3
1.8
0.3
0.2
0.03
15
7
1
6
1
5
11
3
9
1
1
30
Titolo di studio
Licenza elementare
Licenza media inferiore
Diploma professionale (3 anni)
Diploma scuola media superiore
Specializzazione post-laurea
Totale
χ2 =
(5 − 2.5)2
2.5
+
(8 − 5.5)2
χ 2 = 30.49 > 0
5.5
+ ... +
(0 − 0.03)2
0.03
0.5
0.03
= 30.49
I due caratteri sono
statisticamente connessi
Se le famiglie fossero 300, la distribuzione
diventerebbe …
Numero componenti
Titolo di studio
Licenza elementare
Licenza media inferiore
Diploma professionale (3 anni)
Diploma scuola media superiore
Specializzazione post-laurea
Totale
1
2
3
4
5
6 Totale
50
50
80
20
10
110
10
20
30
50
30
10
90
10
10
10
10
150
70
10
60
10
300
5
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio delle relazioni tra due caratteri"
Frequenze teoriche
∗
=
nih
ni 0 ⋅ n0h
n
∗
=
n11
n10 ⋅ n01 150 ⋅ 50
=
= 25
300
n
∗
=
n12
n10 ⋅ n02 150 ⋅ 110
=
= 55
300
n
....
∗
=
n56
n50 ⋅ n06 10 ⋅ 10
=
= 0.3
300
n
Distribuzione teorica delle famiglie per titolo di studio del
capofamiglia e numero di componenti
Numero componenti
1
2
3
4
5
6
Totale
25
11.7
1.7
10
1.7
55
25.7
3.7
22
3.7
15
7
1
5
2.3
0.3
2
5
6
1
45
21
3
18
3
0.3
2
0.3
150
70
10
60
10
50
110
30
90
10
10
300
Titolo di studio
Licenza elementare
Licenza media inferiore
Diploma professionale (3 anni)
Diploma scuola media superiore
Specializzazione post-laurea
Totale
χ2 =
(50 − 25)2
25
+
χ 2 = 304.94 > 0
(80 − 55)2
55
+ ... +
(0 − 0.3)2
0.3
2.3
0.3
= 304,94
a parità di associazione tale misura
aumenta al crescere di n
6
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio delle relazioni tra due caratteri"
Indice di contingenza quadratica media
2
Φ =
χ2
n
Φ2 = 0
indipendenza in distribuzione
Φ2 = 1
massima associazione se u=v
Φ2 > 1
massima associazione se u v
≠
Indice di contingenza quadratica media
Il valore di tale indice non dipende da n
Infatti, nei due esempi tale indice risulta
essere pari a
a) Φ 2 =
2
b) Φ =
30,94
= 1,016
30
309,4
= 1,016
300
7
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio delle relazioni tra due caratteri"
Indice di Tschuprov
2
T =
Φ2
(u − 1)(v − 1)
=
χ2
n (u − 1)(v − 1)
E’ un indice normalizzato
2
T = 0
connessione nulla
2
T = 1
connessione massima
Nell’esempio tale indice è pari a 0,4667.
Ciò significa che la connessione tra il numero di
componenti la famiglia e il titolo di studio è il
47,67% della massima connessione raggiungibile
Indipendenza in media
Concetto più debole di indipendenza, che
richiede che almeno uno dei due caratteri sia
quantitativo.
Non è simmetrico
Un carattere quantitativo Y è indipendente in
media da X se le medie condizionate di Y
rispetto a X sono tutte uguali, cioè
M a (Y | X = x i ) = y
8
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio delle relazioni tra due caratteri"
Dipendenza in media
Si dirà che Y è dipendente in media da X se le
medie condizionate di Y rispetto a X non sono
tutte uguali.
M a (Y | X = x i ) = y i
Un indice relativo di dipendenza in media è il
2
v
ηY2|X
=
∑ [y
i
i =1
u
∑ (y
i
− y ] ni
− y ) ni
2
2
v
=
∑ [y
i
− y ] ni
i =1
Dev(y )
i =1
Scomposizione della devianza
{
{
{
La devianza è una quantità additiva. Infatti,
se l’insieme delle n unità statistiche viene
suddiviso in v gruppi, la devianza si
scompone in due addendi:
la somma delle v devianze calcolate
all’interno di ogni gruppo,
la devianza delle v medie aritmetiche di
gruppo (indicate con y i) attorno a y
9
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio delle relazioni tra due caratteri"
Scomposizione della devianza
La devianza (totale) è quindi pari a:
u
∑ (y i
i =1
− y ) ni =
2
v
nl
∑ ∑ (y il
− yi ) +
2
i =1 l =1
v
∑ (y
i
− y ) ni
2
i =1
Devtot(Y) = Deventro(Y) + Devtra(Y)
Dipendenza in media
{
{
{
ηY2|X assume valore 0 quando tutte le medie
condizionate sono uguali tra loro
assume valore 1 quando ad ogni modalità
di X corrisponde un solo valore di Y
Se X e Y sono indipendenti in distribuzione
allora le distribuzioni condizionate sono
uguali tra loro e alla distribuzione marginale
di Y. Le medie condizionate sono quindi
uguali tra loro
indipendenza in media
10