FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012 Esame del 19-12

UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA
FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012
Esame del 19-12-2011 STATISTICA
ESERCIZIO 1
Un’indagine sociologica sui comportamenti familiari in un piccolo comune di 100 famiglie ha rilevato il reddito mensile ed il
numero di figli minori. In tab. A sono riportati i dati rilevati.
Reddito mensile (X)
Numero
figli (Y)
Tab A
0
500 -| 1000
0
1000 -| 2000
20
2000 -| 4000
25
1
1
5
5
2
10
15
4
3
12
3
0
a)
Rappresentare graficamente il reddito mensile rilevato sull’intero collettivo; inoltre, valutare e confrontare la
variabilità del numero di figli per i tre livelli di reddito osservati. (3 punti)
b) Stabilire se nel collettivo osservato i due fenomeni sono statisticamente indipendenti. Giustificare la risposta ed in
caso di risposta negativa, valutare con un opportuno indice l’intensità della relazione statistica. (2 Punti)
c) Costruire e commentare il diagramma a dispersione del reddito rispetto al numero di figli, individuare il modello di
regressione lineare, valutarne la bontà di adattamento e stabilire il livello di reddito prevedibile dal modello per una
famiglia con 5 figli. (4 punti)
Si assuma ora che i dati in Tab A siano un campione bernoulliano di ampiezza 100 di tutte le famiglie residenti nella
regione. Sapendo che il reddito X è ben interpretato da una v.c. Normale:
d) Si costruisca un intervallo di confidenza al 98% per la frequenza relativa di famiglie con un reddito compreso tra i
1000 -| 2000 €. Commentare il risultato ottenuto con riferimento all’intera regione. (3 Punti)
e) Secondo l’ISTAT, il reddito medio delle famiglie di quella regione è 20.000 euro. Tradurre in ipotesi nulla
l’affermazione dell’Istat e con i dati a disposizione verificarla con un test statistico a livello di significatività del
95%. (2 Punti)
ESERCIZIO 2 – “Domande Teoriche”
1)
a. Descrivere la variabile casuale Binomiale, discuterne le caratteristiche e fornirne un esempio di calcolo di probabilità di
eventi di interesse (3 Punti)
b. Discutere criticamente la media aritmetica quale sintesi di una variabile statistica quantitativa evidenziandone pregi e
difetti (3 Punti)
c. Definire lo Standard Error di uno stimatore, discuterne l’utilità ed esemplificare con il caso della Media campionaria e
della Percentuale campionaria (3 Punti)
d. Definire la varianza FRA gruppi e discuterne il ruolo nell’analisi della dipendenza di un fenomeno dall’altro e nella
costruzione degli indici di dipendenza η ; fornire un esempio con dati a scelta in cui la varianza NEI è nulla (3 Punti)
2
2) Uno stimatore è consistente se l’errore di stima diminuisce all’aumentare dell’ampiezza campionaria
a) vero;
b) falso;
(1 Punto)
3) Se la covarianza è nulla allora i due fenomeni sono sempre statisticamente indipendenti
a) vero;
b) falso;
(1 Punto)
4) La deviazione standard
σ
di un fenomeno quantitativo X è:
a) Il quadrato della varianza di X;
b) una misura assoluta della variabilità di X;
c) una misura relativa di variabilità X;
d) La radice quadrata della devianza di X
5) Se scegliamo il livello di confidenza (1 − α ) allora
α
è:
a) la probabilitàù del successo;
b) la probabilità di sbagliare;
c) La % di campioni rappresentativi
d) l’errore di stima
(1 Punto)
(1 Punto)
UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA
FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012
Esame del 19-12-2011 STATISTICA - SOLUZIONI
ESERCIZIO 1
Un’indagine sociologica sui comportamenti familiari in un piccolo comune di 100 famiglie ha rilevato il reddito mensile ed il
numero di figli minori. In tab. A sono riportati i dati rilevati.
Numero
figli (Y)
Tab A
Reddito mensile (X)
0
500 -| 1000
0
1000 -| 2000
20
2000 -| 4000
25
1
1
5
5
2
10
15
4
3
12
3
0
a) Rappresentare graficamente il reddito mensile rilevato sull’intero collettivo; inoltre, valutare e confrontare la
variabilità del numero di figli per i tre livelli di reddito osservati. (3 punti)
Il reddito mensile (X) è un fenomeno quantitativo continuo quindi il grafico più opportuno è l’istogramma, per il quale è
necessario calcolare le densità di frequenza. Per rappresentarlo in riferimento all’intero collettivo è necessario utilizzare le
frequenze marginali di colonna.
Reddito mensile (X)
Frequenze Marginali
500 -| 1000
23
1000 -| 2000
43
2000 -| 4000
34
Ampiezza delle Classi
500
1000
2000
Densità di Frequenza
0.046
0.043
0.017
Il numero di figli è un fenomeno di tipo quantitativo discreto, per poterne valutare la variabilità è necessario calcolare la
varianza, ma per poterla confrontare è necessario utilizzare il Coefficiente di Variazione (CV). Confrontando rispetto al
livello di reddito si dovrà di volta in volta utilizzare le rispettive frequenze condizionate, in corrispondenza dei tre livelli di
reddito.
Numero
figli (Y)
Reddito mensile (X)
0
500 -| 1000
0
1000 -| 2000
0.465
2000 -| 4000
0.735
1
0.043
0.116
0.147
2
0.435
0.349
0.118
3
0.522
0.070
0
1
1
1
2
UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA
FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012
Esame del 19-12-2011 STATISTICA - SOLUZIONI
La media del numero di figli per le famiglie con un reddito basso (500 -| 1000):
fi1
= 0 ⋅ 0 + 1 ⋅ 0.043 + 2 ⋅ 0.435 + 3 ⋅ 0.522 = 2.479
f .1
y |x1 = ∑ y i
La varianza del numero di figli per le famiglie con un reddito basso (500 -| 1000):
(
)
fi1
2
− y |x1 = 0 2 ⋅ 0 + 12 ⋅ 0.043 + 2 2 ⋅ 0.435 + 32 ⋅ 0.522 − ( 2.479 ) = 6.481 − 6.145 = 0.336
f .1
σ Y2|x = ∑ y i2 ⋅
1
Il coefficiente di variazione del numero di figli per le famiglie con un reddito basso (500 -| 1000):
CVY|x =
1
σ Y2|x
1
y |x1
=
0.336
= 0.234
2.479
La media del numero di figli per le famiglie con un reddito medio (1000 -| 2000):
y |x 2 = ∑ y i
fi 2
= 0 ⋅ 0.465 + 1 ⋅ 0.116 + 2 ⋅ 0.349 + 3 ⋅ 0.0.07 = 1.024
f .2
La varianza del numero di figli per le famiglie con un reddito medio (1000 -| 2000):
(
)
fi 2
2
− y |x 2 = 0 2 ⋅ 0.465 + 12 ⋅ 0.116 + 2 2 ⋅ 0.349 + 32 ⋅ 0.070 − (1.024 ) = 2.142 − 1.049 = 1.093
f .2
σ Y2|x = ∑ y i2 ⋅
2
Il coefficiente di variazione del numero di figli per le famiglie con un reddito medio (1000 -| 2000):
CVY|x =
1
σ Y2|x
1
y |x1
=
1.093
= 1.021
1.024
La media del numero di figli per le famiglie con un reddito alto (2000 -| 4000):
y |x 3 = ∑ y i
fi3
= 0 ⋅ 0.735 + 1 ⋅ 0.147 + 2 ⋅ 0.118 + 3 ⋅ 0 = 0.383
f .3
La varianza del numero di figli per le famiglie con un reddito alto (2000 -| 4000):
σ Y2|x = ∑ y i2 ⋅
3
(
)
fi3
2
− y |x 3 = 0 2 ⋅ 0.735 + 12 ⋅ 0.147 + 2 2 ⋅ 0.118 + 32 ⋅ 0 − ( 0.383 ) = 0.619 − 0.147 = 0.472
f .3
Il coefficiente di variazione del numero di figli per le famiglie con un reddito alto (2000 -| 4000):
CVY|x =
3
σ Y2|x
y |x 3
3
=
0.472
= 1.798
0.382
Confrontando i coefficienti di variazione si può concludere che il numero di figli è più variabile nelle famiglie con un reddito
alto (2000 -| 4000).
b) Stabilire se nel collettivo osservato i due fenomeni sono statisticamente indipendenti. Giustificare la risposta ed in
caso di risposta negativa, valutare con un opportuno indice l’intensità della relazione statistica. (2 Punti)
Utilizzando le frequenze condizionate calcolate al punto precedente, ed osservando che al cambiare del reddito, cambia la
distribuzione del numero di figli, si può concludere che i due fenomeni non sono statisticamente indipendenti, ma connessi.
Per valutare la connessione, ovvero la relazione tra i due fenomeni, è necessario calcolare l’indice chi quadro di Pearson, per
semplificare i calcoli è preferibile utilizzare la formula operativa come segue:
3
UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA
FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012
Esame del 19-12-2011 STATISTICA - SOLUZIONI



χ 2 = N  ∑∑
i
j
è quindi necessario normalizzarlo:

 02

20 2
02
− 1  = 100 
+
+ ... +
− 1  = 51.68

15 ⋅ 34 
f i . ⋅ f. j
 45 ⋅ 23 45 ⋅ 43

2
χ norm
f ij2
χ2
51.68
= 2 =
= 0.26
200
χ max
potendo così concludere che la connessione tra i due fenomeni è di circa il 26%.
c)
Costruire e commentare il diagramma a dispersione del reddito rispetto al numero di figli, individuare il modello di
regressione lineare, valutarne la bontà di adattamento e stabilire il livello di reddito prevedibile dal modello per
una famiglia con 5 figli. (4 punti)
Essendo i dati dei due fenomeni organizzati in una tabella di frequenza doppia, il diagramma a dispersione, può essere fornito
utilizzando il grafico delle medie condizionate o il grafico a bolle come riportato di seguito
4000
3500
3000
2500
2000
1500
1000
500
0
-1
0
1
2
3
4
Per individuare il modello di regressione lineare richiesto X = a + bY , è necessario ricavarne i coefficienti, ovvero, il
cov ( X ; Y )
coefficiente angolare: bˆ =
e l’intercetta â = x − b ⋅ y . È, quindi, necessario calcolare la media del reddito
2
σY
medio (X), la media del numero di figli (Y), la varianza del numero di figli (Y) e la covarianza.
Media del reddito medio (X), per il quale, essendo raggruppato in classi, è necessario utilizzare i valori centrali di classe, e le
frequenze marginali di colonna:
x=
1
N
c
∑ x j ⋅ f. j =
j =1
750 ⋅ 23 + 1500 ⋅ 43 + 3000 ⋅ 34
= 1837.50
100
Media del numero di figli (Y), per il quale è necessario utilizzare le frequenze marginali di riga:
y=
1
N
r
∑ yi ⋅ f i . =
i =1
0 ⋅ 45 + 1 ⋅ 11 + 2 ⋅ 29 + 3 ⋅ 15
= 1.14
100
4
UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA
FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012
Esame del 19-12-2011 STATISTICA - SOLUZIONI
Varianza del numero di figli (Y):
σ 2y =
1
N
r
∑
i =1
y i2 ⋅ f i . − y 2 =
0 2 ⋅ 45 + 12 ⋅ 11 + 2 2 ⋅ 29 + 32 ⋅ 15
− 1.14 2 = 2.62 − 1.30 = 1.32
100
Covarianza:
σ XY =
r
1
N
c
∑∑
i =1 j =1
x j ⋅ yi ⋅ f i . − x ⋅ y =
750 ⋅ 0 ⋅ 0 + 750 ⋅ 1 ⋅ 1 + ... + 3000 ⋅ 3 ⋅ 0
− (1837.50 ⋅ 1.14 ) = −617.25
100
cov ( X ; Y ) −617.25
bˆ =
=
= −467.61
1.32
σ Y2
aˆ = x − b ⋅ y = 1837.50 − 467.61 ⋅ 1.14 = 1304.42
 Cov ( X ; Y ) 
 , ovvero è necessario calcolare la varianza
 σ 2 ⋅σ 2 
X
Y 

Per valutare la bontà di adattamento è necessario ricavare R = 
2
del reddito medio (X):
σ x2 =
1
N
c
∑ x 2j ⋅ f . j − x 2 =
j =1
750 2 ⋅ 23 + 1500 2 ⋅ 43 + 3000 2 ⋅ 34
− 1837.50 2 = 4156875 − 3376406.25 = 780468.75
100
2
2
−617.25

  −617.25 
R =
 = 0.37
 =
 780468.75 ⋅ 1.32   1015 
2
Considerando che tale indice varia tra 0 ed 1, si può affermare che la bontà di adattamento è del 37%.
Il livello di reddito prevedibile dal modello per una famiglia con 5 figli è pari a:
x = 1304.42 − 467.61 ⋅ 5 = −1033.63 , ovvero avrebbero un reddito negativa, ma tale previsione, è poco significativa,
essendo il numero di 5 figli esterno al supporto utilizzato.
Si assuma ora che i dati in Tab A siano un campione bernoulliano di ampiezza 100 di tutte le famiglie residenti nella
regione. Sapendo che il reddito X è ben interpretato da una v.c. Normale:
d) Si costruisca un intervallo di confidenza al 98% per la frequenza relativa di famiglie con un reddito compreso tra i
1000 -| 2000 €. Commentare il risultato ottenuto con riferimento all’intera regione. (3 Punti)
Dato che n è grande, ’intervallo di confidenza per la frequenza relativa è dato dalla seguente formula:
pˆ ± z α
pˆ (1 − pˆ )
2
n
È quindi necessario ricavare la stima della frequenza relativa e lo z-score.
Stima delle frequenza relativa: pˆ =
numero di famiglie con un reddito da 1000 -| 2000 43
=
= 0.43
numero totale di famiglie
100
(
1 − α = 0.98 , α = 0.02 , α 2 = 0.01 , cercando sulle tavole lo z-score per cui P Z ≤ z α
2
) = 0.99 ,
si ottiene
z α 2 = 2.33
L’intervallo quindi si calcola come:
pˆ ± z α
pˆ (1 − pˆ )
2
n
= 0.43 ± 2.33
0.43 ⋅ 0.57
= 0.43 ± 2.33 ⋅ 0.05 = [ 0.3135; 0.5465] = [ 31.35%; 54.65%]
100
Si confida che l’intervallo individuato è uno dei 98 su cento che contiene l’ignota percentuale.
5
UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA
FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012
Esame del 19-12-2011 STATISTICA - SOLUZIONI
e)
Secondo l’ISTAT, il reddito medio delle famiglie di quella regione è 20.000 euro. Tradurre in ipotesi nulla
l’affermazione dell’Istat e con i dati a disposizione verificarla con un test statistico a livello di significatività del
95%. (2 Punti)
Il reddito medio annuo è per l’ISTAT di 20000 € annui ovvero 20000:12=1666.67 € al mese.
n = 100 si può considerare grande, mentre la varianza è ignota e va quindi stimata:
s2 =
n
100
σ X2 =
780468.75 = 788351.52
n −1
99
L’ipotesi nulla da verificare è x = 1666, 67 , ovvero si tratta di un test a due code, ad un livello di significatività
1 − α = 0.95 , α = 0.05 , α 2 = 0.025 , ovvero dalle tavole è possibile ricavare lo z-score per il quale
(
P Z ≤ zα
2
) = 0.975 , zα 2 = 1.96 , che rappresenta il valore critico del test.
Il valore empirico è ricavabile come: z =
x − µ0
s2
n
=
1837.5 − 1666.67 170.83
=
= 1.92
88.79
788351.52
100
Siccome 1.92<1.96, accettiamo l’ipotesi nulla.
ESERCIZIO 2 – “Domande Teoriche”
1)
a. Descrivere la variabile casuale Binomiale, discuterne le caratteristiche e fornirne un esempio di calcolo di probabilità di
eventi di interesse (3 Punti)
libro di testo pag. 305
b. Discutere criticamente la media aritmetica quale sintesi di una variabile statistica quantitativa evidenziandone pregi e
difetti (3 Punti)
libro di testo pag. 82
c. Definire lo Standard Error di uno stimatore, discuterne l’utilità ed esemplificare con il caso della Media campionaria e
della Percentuale campionaria (3 Punti)
libro di testo pag. 350
d. Definire la varianza FRA gruppi e discuterne il ruolo nell’analisi della dipendenza di un fenomeno dall’altro e nella
costruzione degli indici di dipendenza η ; fornire un esempio con dati a scelta in cui la varianza NEI è nulla (3 Punti)
libro di testo pag. 208
2
2) Uno stimatore è consistente se l’errore di stima diminuisce all’aumentare dell’ampiezza campionaria
a) vero;
b) falso;
(1 Punto)
3) Se la covarianza è nulla allora i due fenomeni sono sempre statisticamente indipendenti
a) vero;
b) falso;
(1 Punto)
4) La deviazione standard
σ
di un fenomeno quantitativo X è:
a) Il quadrato della varianza di X;
b) una misura assoluta della variabilità di X;
c) una misura relativa di variabilità X;
d) La radice quadrata della devianza di X
5) Se scegliamo il livello di confidenza (1 − α ) allora
α
è:
a) la probabilità del successo;
b) la probabilità di sbagliare;
c) La % di campioni rappresentativi
d) l’errore di stima
(1 Punto)
(1 Punto)
6