Esercitazioni del corso:

UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
A. A. 2011 – 2012
Esercitazioni del corso:
STATISTICA
Elena Siletti: [email protected]
Sommario Esercitazione 3:
•
Tabelle a doppia entrata
•
Distribuzioni marginali e condizionate
•
Indipendenza statistica
•
Connessione
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
ESERCIZIO 1
Si supponga di aver intervistato 10 studenti immatricolati nell’ a. a 2007 – 2008 alla
facoltà di sociologia. Tra le diverse informazioni fornite dallo studente vi è il sesso e la
residenza. Per quanto riguarda la residenza la domanda posta è stata “la sua famiglia
risiede abitualmente a Milano ?”.
I dati raccolti riguardo i due fenomeni sono riportati nella tabella successiva.
1
2
3
4
5
6
7
8
9
10
M
F
F
M
F
F
F
M
M
F
NO
SI
SI
SI
NO
NO
SI
NO
NO
NO
1.
2.
3.
4.
5.
fornire una rappresentazione sintetica dei dati;
mettere in evidenza le distribuzioni marginali;
costruire le distribuzioni condizionate;
dire se i due fenomeni sono in relazione tra loro;
misurare opportunamente, se esiste, tale relazione.
Svolgimento
1. Ai fini dell’analisi statistica bivariata il risultato della rilevazione congiunta viene
organizzato in una tabella a doppia entrata. Identificando con X il fenomeno “sesso”
con k = 2 due modalità e con Y il fenomeno “residenza” con h = 2 due modalità si
ottiene la seguente tabella (2 x 2):
X
Y
M
F
SI
NO
1
3
4
3
3
6
4
6
10
2. In tale tabella si possono riconoscere:
•
•
le frequenze congiunte, ovvero che riguardano entrambi i fenomeni, che
mettiamo in evidenza con il colore rosso;
le frequenze marginali, che riguardano i fenomeni considerati singolarmente,
che mettiamo in evidenza con il colore blu e verde.
Le frequenze marginali di riga si ottengono sommando le frequenze congiunte che
stanno sulla stessa riga (blu), mentre le frequenze marginali di colonna si ottengono
sommando le frequenze congiunte che stanno sulla stessa colonna (verde).
3. Le informazioni circa il comportamento di un fenomeno condizionatamente all’altro
si ottengono considerando le righe o le colonne della tabella a doppia entrata
separatamente, mediante la costruzione delle frequenze condizionate.
La distribuzione del fenomeno “residenza” rispetto al fenomeno “sesso” ovvero la
distribuzione condizionata di Y rispetto X è:
Elena Siletti: [email protected]
2
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
X
Y
M
F
SI
NO
1/4
3/6
3/4
3/6
4/4
6/6
Y
SI
0.25
0.5
M
X
NO
F
0.75 1
0.5 1
Mentre la distribuzione del fenomeno “sesso” rispetto al fenomeno “residenza” ovvero
la distribuzione condizionata di X rispetto Y è:
Y
X
M
F
SI
NO
1/4
3/4
4/4
3/6
3/6
6/6
Y
SI
NO
0.25 0.5
F 0.75
0.5
1
1
4. Il primo passo nell’analisi statistica dell’eventuale relazione tra i due fenomeni
considerati consiste nello stabilire se esiste una qualche relazione tra essi. Se non esiste
alcuna relazione statistica si dice che X ed Y sono statisticamente indipendenti.
X
M
Il metodo per stabilire se sono statisticamente indipendenti consiste nel confrontare le
frequenze condizionate. Se al variare delle modalità del fenomeno condizionante la
distribuzioni condizionate non variano, allora i due fenomeni sono statisticamente
indipendenti.
Nel nostro esercizio
M
0.25
0.75
F
0.5
0.5
è diverso da
quindi esiste una relazione tra i due fenomeni che non sono statisticamente indipendenti.
5. Se due fenomeni non sono statisticamente indipendenti allora esiste una qualche
relazione e si dice che i fenomeni sono connessi. Il passo successivo nell’analisi
bivariata consiste nello stabilire se la relazione è forte o debole, ovvero è necessario
misurare il grado di connessione.
Il metodo più utilizzato consiste nel considerare la differenza fra le frequenze congiunte
osservate e le frequenze teoriche ovvero le frequenze che si avrebbero in condizione di
indipendenza statistica. Se queste differenze sono vicine a zero si conclude che la
connessione è bassa ed all’aumentare del valore di tali differenze si ha connessione
sempre più alta.
Elena Siletti: [email protected]
3
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
L’indice utilizzato per misurare la connessione è il Chi quadro:
k
h
χ = ∑∑
2
(f
ij
− f ij* )
2
f ij*
È a disposizione una formula alternativa che non richiede il calcolo delle frequenze
teoriche e che è quindi più conveniente quando si devono fare i conti a mano:
 k h f 2

χ 2 = N  ∑∑ ij − 1
 i =1 j =1 f i . ⋅ f. j



i =1 j =1
Costruendo le frequenza teoriche otteniamo:
Y
X
M
F
SI
NO
4⋅4
= 1.6
10
4⋅6
= 2.4
10
4
4⋅6
= 2.4
10
6⋅6
= 3.6
10
6
4
6
10
ed utilizzando la prima formula otteniamo:
k
h
χ = ∑∑
2
(f
ij
i =1 j =1
− f ij* )
2
f ij*
 (1 − 1.6 )2 ( 3 − 2.4 )2 ( 3 − 2.4 )2 ( 3 − 3.6 )2 
=
+
+
+
=
2.4
2.4
3.6 
 1.6
 ( −0.6 )2 ( 0.6 )2 ( 0.6 )2 ( −0.6 )2   0.36 0.36 0.36 0.36 
=
+
+
+
+
+
+
=
=
2.4
2.4
3.6   1.6
2.4
2.4
3.6 
 1.6
= 0.23 + 0.15 + 0.15 + 0.1 = 0.63
Mentre utilizzando la formula alternativa otteniamo:
 k h f ij 2

 12

32
32
32
− 1 = 10 
+
+
+
− 1 =


 4⋅4 4⋅6 6⋅4 6⋅6 
 i =1 j =1 f i . ⋅ f. j

9
9
9
 1

= 10  +
+
+
− 1 = 10 ( 0.063 + 0.375 + 0.375 + 0.25 − 1) = 10 ⋅ 0.063 = 0.63
 16 24 24 36 
Abbiamo ottenuto un χ 2 = 0.63 , ma cosa significa ? I fenomeni considerati sono poco o
molto connessi ? Il valore assoluto dell’indice di Pearson non è interpretabile, è
necessario ricorrere alla normalizzazione:
χ 2 = N  ∑∑
χ% 2 =
χ2
N ⋅ min ( k − 1; h − 1)
=
0.63
0.63
=
= 0.063
10 ⋅ min (1;1) 10
Ovvero considerando che l’indice normalizzato varia da zero, assenza di connessione,
ad 1, massima connessione, i fenomeni “sesso” e “residenza” considerati nell’esercizio
sono scarsamente connessi.
Elena Siletti: [email protected]
4
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
ESERCIZIO 2
Si hanno i dati sulla spesa totale (Y) e sulla spesa per alimentari (X) di 20 famiglie. Tali
spese sono mensili e sono espresse in euro e sono riassunte nella matrice di dati
seguente.
ID famiglia
1
2
3
4
5
6
7
8
9
10
Y
500.00
450.00
600.00
750.00
800.00
380.00
380.00
740.00
700.00
850.00
X
410.00
300.00
200.00
640.00
610.00
180.00
250.00
500.00
550.00
700.00
ID famiglia
11
12
13
14
15
16
17
18
19
20
Y
340.00
410.00
810.00
900.00
900.00
800.00
790.00
790.00
480.00
520.00
X
280.00
320.00
680.00
760.00
510.00
380.00
690.00
430.00
340.00
390.00
1. Costruire la tabella a doppia entrata per i fenomeni X ed Y, utilizzando per X le
seguenti classi: minore o uguale a 250.00, 250.00 -| 500.00, 500.00 -| 750.00,
750.00 -| 1000.00; e per Y le seguenti classi: 300.00 -| 600.00, 600.00 -| 900.00;
2. Nella tabella costruita al punto 1. si possono individuare le distribuzioni
univariate dei fenomeni considerati;
3. Determinare la distribuzione di X condizionata alla classe di “spesa totale”
600.00 -| 900.00;
4. Verificare se le due variabili sono statisticamente indipendenti.
Svolgimento
1. La variabile X deve essere sintetizzata in k = 4 classi e la variabile Y in h = 2 classi.
X
Y
<= 250.00
250.00 -| 500.00
500.00 -| 750.00
750.00 -| 1000.00
300.00 -| 600.00
3
6
0
0
9
600.00 -| 900.00
0
3
7
1
11
3
9
7
1
2. le distribuzioni univariate dei fenomeni coincidono con le distribuzioni marginali
delle tabelle a doppia entrata quindi nel nostro caso:
X
<= 250.00
3
250.00 -| 500.00
9
500.00 -| 750.00
7
750.00 -| 1000.00
1
Rappresenta la distribuzione univariata o marginale della variabile X “spesa per
alimentari”;
Y
300.00 -| 600.00
9
600.00 -| 900.00
11
Rappresenta la distribuzione univariata o marginale della variabile Y “spesa totale”.
Elena Siletti: [email protected]
5
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
3. La distribuzione di X condizionata alla classe di “spesa totale” 600.00 -| 900.00 è
rappresentata dalla seconda colonna della tabella a doppia entrata:
<= 250.00
0
600.00 -| 900.00
250.00 -| 500.00
3
500.00 -| 750.00
7
750.00 -| 1000.00
1
500.00 -| 750.00
7/11 = 0.64
750.00 -| 1000.00
1/11 = 0.09
E se si considerano le frequenze relative è:
<= 250.00
0
600.00 -| 900.00
250.00 -| 500.00
3/11 = 0.27
4. già osservando la tabella a doppia entrata si può capire che i due fenomeni non sono
statisticamente perché sono presenti degli zeri, ma anche considerando le frequenze
condizionate, che risultano tra loro differenti, si evince che le due variabili non sono
statisticamente indipendenti.
<= 250.00
3/9 = 0.33
0
300.00 -| 600.00
600.00 -| 900.00
250.00 -| 500.00
6/9 = 0.67
3/11 = 0.27
500.00 -| 750.00
0
7/11 = 0.64
750.00 -| 1000.00
0
1/11 = 0.09
ESERCIZIO 3
Per un gruppo di 50 studenti si hanno le distribuzioni univariate riguardo a due
fenomeni: X “classe di età” (<= 20, 20-|25, >25) ed Y “sesso”.
X
<=20
20
Y
20 -| 25
20
>25
10
M
F
20
30
1. Costruire una tabella a doppia entrata per i due fenomeni X ed Y ipotizzando
una situazione di indipendenza statistica.
2. Costruire una tabella a doppia entrata per i due fenomeni X ed Y ipotizzando
una situazione di massima connessione.
Svolgimento
1. In caso di indipendenza statistica le frequenze congiunte coincidono con le frequenze
teoriche ovvero con le frequenze ottenute utilizzando le frequenze marginali o
univariate nel seguente modo:
f ij* =
f i . ⋅ f. j
N
Elena Siletti: [email protected]
6
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
Ottenendo:
Y
M
X
<= 20
20 -| 25
> 25
20 ⋅ 20
50
20 ⋅ 20
50
20 ⋅ 10
50
=
=
=
F
400
50
400
50
200
50
20 ⋅ 30
=8
50
20 ⋅ 30
=8
50
30 ⋅ 10
=4
50
20
=
=
600
50
600
=
50
300
= 12
20
= 12
20
=6
10
50
30
50
Volendo, per verifica, calcolare le frequenze condizionate si otterrebbe:
X
Y
<= 20
20 -| 25
> 25
M
F
8/20 = 0.4
8/20 = 0.4
4/10 = 0.4
20/50 = 0.4
12/20 = 0.6
12/20 = 0.6
6/10 = 0.6
30/50 = 0.6
1
1
1
1
Indipendentemente dall’età i maschi e le femmine si distribuiscono tra i 50 studenti
nella percentuale, rispettivamente, del 40 % e del 60 %.
2. Ci troviamo nel caso in cui h ≠ k, k > h: nell’ipotesi di massima connessione, fissata
una modalità della variabile X, a questa corrisponde una ed una sola modalità della
variabile Y. Ad esempio si ottiene:
X
Y
<= 20
20 -| 25
> 25
M
F
0
20
0
20
20
0
10
30
20
20
10
50
oppure:
X
Y
<= 20
20 -| 25
> 25
M
F
20
0
0
20
0
20
10
30
20
20
10
50
Elena Siletti: [email protected]
7
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
ESERCIZIO 4
Nella tabella sono riportati i dati inerenti il “numero di anni di attività” (Y) ed il “sesso”
(S) di 48 agenti di commercio dell’azienda KK.
Y
1
5
10
M
8
12
6
26
F
6
14
10
22
6
12
22
48
S
1.
2.
3.
4.
Calcolare media aritmetica e varianza del fenomeno Y.
Fornire un’adeguata rappresentazione grafica del fenomeno S.
Calcolare ed interpretare le contingenze.
2
Calcolare χ NOR
e darne un’adeguata interpretazione.
Svolgimento
1. Y è una variabile quantitativa discreta.
La media aritmetica è:
1
N
y=
h
∑y
j =1
j
⋅ f. j =
1
14 + 110 + 120 244
=
= 5.08
[1 ⋅ 14 + 5 ⋅ 22 + 10 ⋅ 12] =
48
48
48
ovvero circa 5 anni e 1 mese.
La varianza è:
σ2 =
=
1
N
h
∑( y
j =1
− y ) ⋅ f⋅ j =
2
j
1 
2
2
2
(1 − 5.08) ⋅ 14 + ( 5 − 5.08) ⋅ 22 + (10 − 5.08) ⋅ 12 =

48
1
233.1 + 0.132 + 290.52 523.75
=
= 10.9
[16.65 ⋅ 14 + 0.006 ⋅ 22 + 24.21 ⋅ 12] =
48
48
48
o utilizzando la formula operativa:
σ2 =
=
1
N
h
∑y
j =1
2
j
⋅ f⋅ j − y 2 =
1  2
2
2
2
1) ⋅ 14 + ( 5) ⋅ 22 + (10 ) ⋅ 12  − ( 5.08 ) =
(

48 
1
14 + 550 + 1200
1764
− 25.81 =
− 25.81 = 10.9
[1 ⋅ 14 + 25 ⋅ 22 + 100 ⋅ 12] − 25.81 =
48
48
48
2. S è una mutabile sconnessa o variabile categoriale, quindi una rappresentazione
grafica adeguata è il grafico a “barre” o a “rettangoli”.
Elena Siletti: [email protected]
8
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
Sesso
Sesso
27
56%
26
54%
54%
26
52%
25
50%
24
48%
23
22
46%
46%
22
44%
21
42%
20
40%
M
F
M
F
3. Le differenze tra le frequenze osservate e quelle teoriche sono dette contingenze e
sono date dalle quantità: Cij = f ij − f ij* .
In condizioni di indipendenza le contingenze sono nulle.
f ⋅f
Calcolare le frequenze teoriche date da: f ij* = i⋅ ⋅ j
N
Y
1
5
10
M
7.58
11.92
6.50
26
F
6.42
14
10.08
22
5.50
12
22
48
S
E successivamente calcolare le contingenze:
Y
1
5
10
M
0.42
0.08
-0.50
F
-0.42
-0.08
0.50
S
Non essendo nulle si può dire che i fenomeni S ed Y non sono statisticamente
indipendenti.
h
k
4. Il Chi quadrato di Pearson è dato da: χ 2 = ∑∑
i =1 j =1
Cij2
f ij*
2
3
= ∑∑
i =1 j =1
Cij2
f ij*
 0.422 ( −0.42 )2 0.082 ( −0.08 )2 ( −0.50 )2 0.502 
+
+
+
+
+
χ =
=
6.42
11.92
10.08
6.50
5.50 
 7.58

= [ 0.0233 + 0.0275 + 0.0005 + 0.0006 + 0.0385 + 0.0455] = 0.1359
2
Per normalizzare tale indice è necessario dividerlo per il suo massimo, ovvero per:
N ⋅ min ( k − 1) ; ( h − 1) = N ⋅ min [1;2] = 48
2
χ NOR
=
χ2
48
=
0.1359
= 0.0028
48
2
≤ 1 : l’indice vale 0 in presenza di indipendenza fra i 2 caratteri e
In generale 0 ≤ χ NOR
vale 1 quando c’è massima dipendenza; quindi in questo caso i due fenomeni sono
praticamente indipendenti.
Elena Siletti: [email protected]
9