Variabili statistiche bivariate
v.s. bivariata quantitativa
Unità
statistiche
Analisi delle
distribuzioni doppie:
dipendenza
Cicchitelli Cap. 9
{
S x , y = ( X , Y ) ∈ X ×Y ⊆ ℜ 2 : x = X (u ), y = Y (u ), u ∈ U
y1
u2
x2
y2
:
:
:
ui
xi
yi
:
:
:
un
xn
yn
X,Y sono le COMPONENTI di (X,Y)
y
}
16
Nuvola di punti o scatter-plot
% proteine
12
Frequenze congiunte
j
“nuvola” di punti
(scatter plot)
x
2
alimento energia kcal %proteine
( X , Y ) : {( xi , y j , f ij ), i = 1,2, K I , j = 1,2, K J }
{u ∈U : X (u) = x , Y (u) = y }
ui
yi
xi
Distribuzione di frequenza bivariata
nij=Nfij
x1
Rappresentazione grafica di una
successione bivariata
Supporto (v.s. quantitativa)
N
u1
( X , Y ) : U → X ×Y ⊆ ℜ 2
Statistica 2010/2011
Distribuzioni bivariate
f ij =
Y
1
Statistica 2010/2011
i
X
8
4
= pr ( X = xi , Y = y j )
0
200
300
400
pizza
247
4
pane
276
8.1
pasta
356
10.8
riso
362
7
fette
410
11.3
biscotti
418
6.6
crackers
428
9.4
grissini
433
12.3
Totale
2930
69.5
500
kcal
Frequenze assolute congiunte
Statistica 2010/2011
3
Statistica 2010/2011
4
Funzione di ripartizione congiunta
Rappresentazione grafica di una serie bivariata
Fxy ( x, y ) = pr ( X ≤ x, Y ≤ y )
Altezza proporzionale alle
frequenze congiunte
0.09
Distribuzione marginale
0.08
x
0.07
0.06
0.05
f _ ij
0.04
0.03
0.02
S5
S4
0.01
S3
0.00
S2
1
2
y
y
1
2
3
4
5
6
1
4.82 4.49 4.01 3.37 2.57 1.61
2
4.49 3.21 2.73 2.09 1.28 0.32
3
4.01 2.73 4.82 4.17 3.37 2.41
4
3.37 2.09 1.44 6.42 3.85 2.25
5
2.57 1.28 0.64 3.85 8.03 7.70
TOTALE 19.26 13.80 13.64 19.90 19.10 14.29
S x = {X ∈ ℜ : ( x, y ) ∈ S xy , per qualche y ∈ ℜ}
TOT
20.87
14.13
21.51
19.42
24.08
100.00
+∞
⎧
∫−∞ f xy ( x, y)dy
⎪
J
f x ( x) = ⎨
⎪∑ y∈S y f xy ( x, y ) = ∑ f ij
j =1
⎩
S1
3
Per (X,Y) quantitative: stereogramma con volume
proporzionale alle frequenze congiunte
Statistica 2010/2011
5
Distribuzioni condizionate
v.s. discreta
Statistica 2010/2011
6
Indipendenza in distribuzione
∀xi ∈ S x : Y | X = xi ~ Y | X = xi '
Y|X=xi : {(yj,fj|i),j=1,2,…,J}
freq. assolute condizionate
nj|i= nij
fj|i= nij /ni .freq. relative condizionate
TEOREMA
Condizione necessaria e sufficiente perché
Y sia indipendente da X
Σj fj|i = 1
f ij = f i. × f. j
Analogamente possono essere costruite
le J distribuzioni condizionate di X.
Oppure:
Statistica 2010/2011
v.s. continua
7
nij = (ni. × n. j ) / n
Statistica 2010/2011
8
Dipendenza funzionale biunivoca
Dipendenza funzionale univoca
I caratteri X e Y dipendono
funzionalmente uno dall’altro, con I=J
Y dipende funzionalmente da X quando
tutte le distribuzioni condizionate di Y sono
degeneri, con J≤I
Y
Y
y1
X
J n. modalità di Y
I n. modalità di X
x1
x2
x3
TOT
y2
4
0
4
0
2
2
3
0
3
7
2
9
Viceversa, X dipende funzionalmente da Y
quando tutte le distribuzioni condizionate di
X sono degeneri, con I ≤ J
ψ 2 = ∑∑
i =1 j =1
nij2
ni. × n. j
TOT
0
5
0
5
3
0
0
3
0
0
1
1
TOT
3
5
1
9
10
Statistica 2010/2011
(1)
X|Y=yj ~D(x0), j=1,2,…,J
X
Y
y1 y2 y3 Tot
x1 n11 0 n13 n1.
x2 0 n22 0 n2.
Tot n.1 n.2 n.3 N
−1
•In tabelle 2*2
(2)
−1≤ψ ≤ +1 segno di (n11n22-n12n21)
Y|X=xi ~D(y0), i=1,2,…,I
ψ2=J-1
•In tabelle I*J
0 ≤ ψ2 ≤ min[(I-1),(J-1)]
Statistica 2010/2011
y3
Dipendenza funzionale esatta
Indice di contingenza quadratica media
(Pearson)
J
y2
x1
x2
x3
9
Statistica 2010/2011
I
y1
X
TOT
11
Statistica 2010/2011
ψ2=I-1
X
Y
y1 y2 Tot
x1 n11 0 n1.
x2
0 n22 n2.
X3 n31
n3.
Tot n.1 n.2 N
12
Indice χ2 di Pearson
Indice C di Cramèr
ψ
C=
I
J
χ 2 = ∑∑
min[(I − 1), ( J − 1)]
(n
ij
nij* = (ni. × n. j ) / n
2
χ 2 = Nψ 2
χ2 =0 se X e Y sono indipendenti
χ2 ⇒∞ per NÆ∞
C =0indipendenza in distribuzione
C =1dipendenza funzionale esatta
Statistica 2010/2011
)
nij*
i =1 j =1
0 ≤ C≤1
− nij*
13
14
Statistica 2010/2011
Formula per il calcolo
Relazione tra caratteri
Al variare di X in Sx, si osserva una variazione
sistematica della distribuzione di Y?
2
I
J
⎡
⎤
n
ij
2
χ = N ⎢∑∑
− 1⎥
⎢⎣ i =1 j =1 ni. × n. j ⎥⎦
10
6
9
5
ρ=0
8
M(Y)
4
7
6
5
3
4
No variazioni lineari
2
3
2
1
1
I
J
N = ∑∑ nij
0
0
0
1
2
3
fy|X=x costante
i =1 j =1
0
4
1
2
3
4
5
6
7
8
9
10
4
3.5
3
χ2
=0 se X e Y sono indipendenti
χ2 ⇒∞ per NÆ∞
M(Y|X=x) costante
2.5
2
1.5
1
0.5
0
Statistica 2010/2011
15
0
1
2
3
4
16
alimento gruppo %proteine
Dipendenza in media
Studio della relazione tra caratteri
X gruppo
Y proteine
medie per gruppo
Studio della dipendenza di Y da X:
come varia Y|X=x al variare di x in Sx?
U
di posizione
„ Variabilità
„ Quantili
frutta
verdura
cereali
TOTALE
0,67
1,78
8,69
4,21
„ Indici
U1 sottoinsieme
Y|X=1
v.s. condizionata
frutta
Piccolo D. (1999) §7.4 (pagg. 189-194)
17
Statistica 2010/2011
Statistica 2010/2011
1
N
I
I
i =1
i =1
∑ M (Y X = xi )ni. = ∑ M (Y X = xi ) fi.
Frequenze relative
n. figli
NORD CENTRO
0
0.30
0.20
1
0.30
0.40
2
0.20
0.20
3
0.10
0.10
4
0.05
0.10
5
0.05
0.00
TOTALE
1.00
1.00
ni.
150
200
ni. = ∑ j =1 nij , fi. = ni. / N
J
0.9
0.8
0.7
M(Y)
0.6
1
0.2
uva
1
0.5
limoni
1
0.6
arance
1
0.7
pesche
1
0.8
banane
1
1.2
pomodori
2
1
carote
2
1.1
zucchine
2
1.3
lattuga
2
1.8
patate
2
2.1
spinaci
2
3.4
pizza
3
4
biscotti
3
6.6
riso
3
7
pane
3
8.1
crackers
3
9.4
pasta
3
10.8
fette bisc
3
11.3
grissini
3
12.3
Calcolo della media marginale attraverso le
medie condizionate
Media marginale e medie condizionate
M (Y ) =
mele
0.5
fi.
0.33
0.44
fj*yj
SUD
TOTALE n. figli
0.10
0.21
0
0.20
0.32
1
0.25
0.21
2
0.30
0.14
3
0.10
0.08
4
0.05
0.03
5
1.00
1.00 TOTALE
100
450 ni.
0.22
1.00 fi.
NORD CENTRO
0.00
0.00
0.30
0.40
0.40
0.40
0.30
0.30
0.20
0.40
0.25
0.00
1.45
1.50
150
200
0.33
0.44
SUD
TOTALE
0.00
0.00
0.20
0.32
0.50
0.42
0.90
0.43
0.40
0.33
0.25
0.14
2.25
1.65
100
450
0.22
1.00
0.4
0.3
0.2
0.1
M(Y)=1.45×0.33+ 1.50×0.44+ 2.25×0.22=1.65
0
-4
-3
-2
-1
0
1
2
3
4
5
M(Y|X=xi)
Statistica 2010/2011
19
Statistica 2010/2011
20
Indipendenza in media
Misura dell’indipendenza in media
„
Y
Misura della diversità tra le medie condizionate
… dato
X
xi
i =1
DY
j =1
− y ) n ij
2
j
=
∑ ∑ (y
I
J
21
i =1
=
j =1
− y i ) n ij
2
j
DR
+
i =1
+
y = M (Y ), y i = M (Y X = x i ) n i .
DI =
la devianza
i =1
− y ) ni.
2
i
22
Statistica 2010/2011
V(Y ) = M[σ y2 ( x)] + V[μ y ( x)]
− y ) ni.
2
i
DS
Varianza residua
V(Y)=M(σ2y(x))
23
Varianza spiegata
Y
Y
M(Y|X)
Statistica 2010/2011
I
∑ (y
Scomposizione della varianza
I
∑ (y
yi ni.
normalizzare la devianza per ottenere un
indice che varia tra 0 e 1
Dev tot=media dev condizionate+dev medie
∑ ∑ (y
i =1
… Conviene
Scomposizione della devianza
J
I
∑
DI=0 sse tutte le medie condizionate sono uguali tra loro
Statistica 2010/2011
I
1
N
… Consideriamo
Y indipendente in media da X
se M(Y|X=x)=c, ∀ x∈Sx
„
y =
xi
X
Indipendenza in media: μy(x)~D(μy)
M(Y|X)
V(Y)=V(μy(x))
xi
X
dipend. funz. esatta:
Y|X~D(μy(x))
24
Indagini ISTAT nel 1982 secondo l'area di studio e il
numero di questionari per indagine
Rapporto di correlazione
Area di studio
V(M(Y | x))
η =
, 0 ≤ ηy2|x ≤ 1
V(Y )
Demografica
2
y| x
Indipendenza in media
se M(Y|X=x)=M(Y) ∀ x∈Sx ⇒η2y|x=0
Statistica 2010/2011
1-|5
5-|10 10-|50
TOT M(Y|X=x) V(Y|X=x)
1
1
0
6
8
76.31
1684.56
Sociale
12
12
10
11
14
59
31.37
1568.34
Economica
39
24
8
14
12
97
18.38
1036.18
Altre
5
0
0
1
0
6
5.67
118.42
Totale
56
37
19
26
32
170
25.17
1395.11
V (M (Y | X ) ) 176.1
=
= 0.126
1395.11
V (Y )
Rapporto di
correlazione
η = η 2 = 0.355
25
>50
0
η y2| x =
Dipendenza funzionale esatta
se V(Y|X=x)=0 ∀ x∈Sx ⇒ η2y|x=1
<=1
Statistica 2010/2011
26