UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA
FACOLTÀ DI SOCIOLOGIA a. a. 2009– 2010
Esame del 30-06-2010 “Statistica”
ESERCIZIO 1 – “Relazioni tra Variabili” (totale punti: 10)
Ad una riunione del circolo “Amanti dell’acquario”, i 12 soci presenti discutono della presunta nocività di una sostanza chimica
comunemente presente nel mangime per pesci. Per valutare la veridicità di questa notizia, vengono registrati la quantità di questa
sostanza presente per razione di mangime utilizzato abitualmente, il numero di pesci morti nell’ultimo mese ed il tipo di acquario.
In Tabella A sono riportati i dati relativi alle 3 variabili: “quantità di sostanza sospetta per razione di mangime” [espressa in
milligrammi] (X), “numero di pesci morti nell’ultimo mese”(Y), “tipo di acquario” [T=Tropicale, N =Non tropicale] (Q).
Tab.A
ID
1
2
3
4
5
6
7
8
9
10
11
12
X
4
9
9
7
5
5
6
8
7
4
8
5
Y
1
6
5
3
3
2
4
5
4
2
3
2
Q
T
N
T
N
T
T
T
N
N
T
N
T
a)
Organizzare in una tabella a doppia entrata le variabili statistiche X e Y; per X raggruppare i valori osservati nelle classi:
(4|-6), (6|-8), (8|-10) e per Y raggruppare i valori osservati nelle classi: (1|-3), (3|-5), (5|-7) ( 1.5 punti).
b) Fornire la distribuzione condizionata del numero di pesci morti nell’ultimo mese (Y) date le tre classi relative al peso della
sostanza chimica presente nel mangime (X), confrontarle con la distribuzione marginale e stabilire se i due fenomeni sono
statisticamente indipendenti (1.5 punti)
c) In caso di risposta negativa al punto precedente, valutare con un opportuno indice la dipendenza in media del “numero di
pesci morti” dal “peso della sostanza chimica per razione”, commentando i risultati ottenuti. (2 punti).
d) Utilizzando i dati classificati nella tabella a doppia entrata, costruire il diagramma a dispersione, disegnare la spezzata di
regressione e commentare la natura matematica della relazione fra X e Y. Utilizzando sempre i dati classificati determinare
quindi la retta di regressione dei minimi quadrati che interpreta la dipendenza del numero di pesci morti dal peso della
sostanza chimica. Disegnare la retta sul diagramma e interpretare il valore ottenuto per i parametri. (3 punti)
e) Valutare la bontà di adattamento del modello costruito al punto d). Su tale base, prevedere il “numero di pesci morti” al
mese nel caso in cui venga utilizzato un mangime avente 10 milligrammi di sostanza chimica sospetta.(2 punti)
ESERCIZIO 2 – “Analisi Multivariata” (totale punti: 10)
a)
Si vuole estendere l’analisi precedente all’insieme di tutti i possessori di acquari d’Italia; i dati in Tabella A si assumono
come un campione bernoulliano di ampiezza 12 da tale popolazione.
Dai dati forniti dai produttori di mangimi per pesci risulta che il peso per razione della sostanza chimica sospetta (X) si
distribuisce nella popolazione come una Normale di media ignota e varianza nota pari a 2.89, utilizzando i dati in Tab. A:
1. Stimare il valore µ della media di X
2. In base al risultato ottenuto al punto precedente, calcolare la probabilità che, presa a caso una razione di mangime, il
peso della sostanza sospetta ivi presente sia maggiore di 7milligrammi. (2 Punti)
Un più ampio campione bernoulliano di numerosità 250 è stato estratto dalla stessa popolazione ed ha fornito i dati relativi alle
variabili Y e Q sintetizzati nella Tabella B:
Tab. B
Y:"Numero di pesci morti"
Q:"Tipo di
acquario"
(1|-3)
(3|-5)
(5|-7)
fi.
T
43
46
41
130
N
41
45
34
120
84
91
75
250
f.j
b) Utilizzare i dati campionari in Tab.B per verificare con un opportuno test e con α= 0.01 se nella popolazione di interesse
esiste una significativa relazione statistica tra numero di pesci morti e tipo di acquario. (3 Punti)
c) Stimare l’ignota proporzione di acquari di tipo tropicale nella popolazione di interesse e costruire un intervallo di
confidenza a livello 99%. Interpretare e commentare il risultato. (2.5 Punti)
d) Testare al livello di significatività del 95% l’ipotesi che l’ignota proporzione di acquari tropicali presenti in Italia sia pari
a 0.50. (2.5 Punti)
e)
1.
2.
ESERCIZIO 3 – “Domande Teoriche” (totale punti: 10)
Fornire un esempio con dati a scelta di tabella a doppia entrata in cui esista perfetta correlazione. Discutere in questo caso i
2
2
2
valori degli indici ρ XY , η X , η Y e χ (5 punti).
Dare le definizioni di: ipotesi statistica, ipotesi nulla, statistica test, livello di significatività, valore critico e valore
sperimentale e discuterne l’utilizzo nella conduzione di un test statistico. (5 punti)
UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA
FACOLTÀ DI SOCIOLOGIA a. a. 2009– 2010
Esame del 30-06-2010 “Statistica”- Soluzioni
ESERCIZIO 1 – “Relazioni tra Variabili”
a) Organizzare in una tabella a doppia entrata le variabili statistiche X e Y; per X raggruppare i valori osservati nelle
classi: (4|-6), (6|-8), (8|-10) e per Y raggruppare i valori osservati nelle classi: (1|-3), (3|-5), (5|-7) ( 1,5 punti).
Y:"Numero di pesci morti"
(1|-3)
X:"Peso per razione della
sostanza chimica
sospetta"
b)
(3|-5)
(5|-7)
fi.
(4|-6)
4
1
0
5
(6|-8)
0
3
0
3
(8|-10)
0
1
3
4
f.j
4
5
3
12
Fornire la distribuzione condizionata del numero di pesci morti nell’ultimo mese (Y) date le tre classi relative al peso
della sostanza chimica presente nel mangime (X), confrontarle con la distribuzione marginale e stabilire se i due fenomeni
sono statisticamente indipendenti (1.5 punti)
Y:"Numero di pesci morti"
(1|-3)
(3|-5)
(5|-7)
f1j
fi
4
1
0
5
0.8
0.2
0
1
0
3
0
3
0
1
0
1
0
1
3
4
0
0.25
0.75
1
4
5
3
12
0.33
0.42
0.25
1
(4|-6)
f2j
(6|-8)
X:"Peso per razione
della sostanza
chimica sospetta"
f3j
(8|-10)
f.j
TOT
Si osserva una notevole differenza fra le frequenze delle v.s. condizionate Y|X rispetto alle frequenze marginali di Y. Il
comportamento di Y condizionato alle diverse modalità di X è differente rispetto al comportamento marginale (indipendentemente
da X). Da ciò possiamo concludere che esiste una relazione statistica fra i due fenomeni nel collettivo di acquari osservati, in
particolare X condiziona Y.
c)
In caso di risposta negativa al punto precedente, valutare con un opportuno indice la dipendenza in media del “numero
di pesci morti” dal “peso della sostanza chimica per razione”, commentando i risultati ottenuti. (2 punti).
Considerando i valori centrali delle classi
, otteniamo rispettivamente la media marginale
2
e quelle condizionate
:
Le tre medie condizionate risultano diverse tra loro e diverse dalla media del fenomeno sull’intera popolazione Il fenomeno X
condiziona il fenomeno Y, Quindi Y dipende da X. Il grado di dipendenza viene calcolato tramite l’indice eta quadro:
Il peso medio di sostanza sospetta per razione di mangime spiega il 77% della variabilità del numero di pesci morti.
d)
Utilizzando i dati classificati nella tabella a doppia entrata, costruire il diagramma a dispersione, disegnare la spezzata
di regressione e commentare la natura matematica della relazione fra X e Y. Utilizzando sempre i dati classificati
determinare quindi la retta di regressione dei minimi quadrati che interpreta la dipendenza del numero di pesci morti dal
peso della sostanza chimica. Disegnare la retta sul diagramma e interpretare il valore ottenuto per i parametri. (3 punti)
La spezzata di regressione si disegna considerando per Y i valori delle medie condizionate calcolate al punto precedente e per X i
valori centrali degli intervalli relativi alle diverse classi:
x1 =
4+6
=5
2
x2 =
6+8
=7
2
3
x3 =
8 + 10
=9
2
La retta di regressione passante per tali punti (le medie condizionate di Y) è la seguente
I punti presentano una chiara struttura crescente che suggerisce una correlazione positiva tra X ed Y.
Determinando la retta dei minimi quadrati ŷ = a + bx si ottiene:
x=
1 3 *
5⋅5 + 7⋅3+ 9⋅4
xi f i• =
= 6.83
∑
12 i =1
12
σ x2 =
y = 3.83 (dall’esercizio precedente)
1 3
(xi − x )2 ⋅ f i• = (5 − 6.83) ⋅ 5 + (7 − 6.83) ⋅ 3 + (9 − 6.83) ⋅ 4 = 35.67 = 2.97
∑
12 i =1
12
12
2
2
2
σ Y2 = 2.31 (dall’esercizio precedente)
µ xy =
1 3 3
5 ⋅ 2 ⋅ 4 + 5 ⋅ 4 ⋅1 + ... + 9 ⋅ 6 ⋅ 3 342
xi y j f ij =
=
= 28.5
∑∑
12 j =1 i=1
12
12
σ xy = µ xy − x ⋅ y = 28.5 − 6.83 ⋅ 3.83 = 2.34
b=
σ xy 2.34
=
= 0.79
σ x2 2.97
Incremento del numero di pesci morti per un aumento unitario in milligrammi del peso medio della sostanza sospetta per razione
di mangime. Ogni
a = y − bx = 3.83 − 0.79 ⋅ 6.83 = −1.57
Numero medio di pesci morti con una presenza di zero grammi di sostanza sospetta.
La retta che si ottiene è la seguente :
y = −1.57 + 0.79 x
Dal grafico emerge che la spezzata di regressione ottenuta posizionando nel grafico le medie condizionate è ben approssimata
dalla retta.
e)
Valutare la bontà di adattamento del modello costruito al punto d). Su tale base, prevedere il “numero di pesci morti” al
mese nel caso in cui venga utilizzato un mangime avente 10 milligrammi di sostanza chimica sospetta.(2 punti)
Valutando la bontà di adattamento ai dati della retta si ottiene:
ρ xy =
σ xy
σ σ
2
x
2
y
=
2.34
2.34
2.34
=
=
= 0.89
2.97 ⋅ 2.31
6.86 2.62
ρ xy2 = (0.89 )2 = 0.79
Yˆ (10) = −1.57 + 0.79 ⋅ 10 = 6.33
4
Tramite la retta dei m.q. si prevede che il numero di morti è di 6.33 per un acquario in cui viene utilizzato un mangime con una
presenza media per razione di 10 milligrammi di sostanza sospetta. La previsione, a parità di trend, è affidabile al 79% (circa il
21% della variabilità totale di Y non è spiegata dalla retta).
ESERCIZIO 2 – “Analisi Multivariata” (totale punti: 10)
a) Si vuole estendere l’analisi precedente all’insieme di tutti i possessori di acquari d’Italia; i dati in Tabella A si assumono
come un campione bernoulliano di ampiezza 12 da tale popolazione.
Dai dati forniti dai produttori di mangimi per pesci risulta che il peso per razione della componente chimica sospetta (X)
si distribuisce nella popolazione come una Normale di media ignota e varianza nota pari a 2.89, utilizzando i dati in
Tabella A:.
1. Stimare il valore µ della media di X
2. In base al risultato ottenuto al punto precedente, calcolare la probabilità che, presa a caso una razione di mangime,
il peso della sostanza pericolosa ivi presente sia maggiore di 7 milligrammi. (2 Punti)
1. Stimatore non distorto ed efficiente per la media della popolazione è la media campionaria. Stimiamo dai dati campionari
la media campionaria :
x=
1 n
1 12
4 + 9 + ... + 5
x
=
xi =
=6.42
∑
∑
i
n i=1
12 i =1
12
2. La probabilità che, presa a caso una razione di mangime, il peso della sostanza pericolosa ivi presente sia maggiore di 7
milligrammi è data da:
0.58 
 Y − µ 7 − 6.42 

P ( X ≥ 7 ) = P
≥
 = P Z ≥
 = P (Z ≥ 0.34 ) = 1 − P(Z ≤ 0.34 ) = 1 − 0.63 = 0.37
1 .7 
2.89 

 σ
b) Utilizzare i dati campionari in Tab.B per verificare con un opportuno test e con α= 0.01 se nella popolazione di interesse
esiste una significativa relazione statistica tra numero di pesci morti e tipo di acquario. (3 Punti)
I dati forniti in tabella B sono i seguenti:
Y:"Numero di pesci morti"
Q:"Tipo di
acquario"
(1|-3)
(3|-5)
(5|-7)
fi.
T
43
46
41
130
N
41
45
34
120
f.j
84
91
75
250
La tabella delle frequenze teoriche di indipendenza statistica
f *ij =
f i• ⋅ f • j
N
è:
Y:"Numero di pesci morti"
Q:"Tipo di
acquario"
(1|-3)
(3|-5)
(5|-7)
fi.
T
43.68
47.32
39
130
N
40.32
43.68
36
120
f.j
84
91
75
250
Si vuole verificare l’ipotesi secondo cui Y e Q sono statisticamente indipendenti,
H0 : χ 2 = 0 .
Essendo n=250 sufficientemente elevato per utilizzare la statistica test χ con
un test ad una coda, con la regione critica sotto la coda destra e con α= 0.01.
2
Valore critico:
dalle tavole , dati
gradi di libertà si ottiene χ 2, 0.01 = 9.21
2
Valore sperimentale:
5
gradi di libertà. Eseguiamo
3
3
χ = ∑∑
2
(f
− f ij *)
2
ij
f ij *
i =1 j =1
Ricordando che si rifiuta l’ipotesi nulla H0:
=
(43 − 43.68)2 + (46 − 47.32)2 + ... + (34 − 36)2
43.68
χ2 = 0
47.32
36
= 0.31
con probabilità di sbagliare dell’1% se il valore sperimentale cade nella zona
critica o di rifiuto, ovvero se il valore sperimentale ≥ valore critico ossia se
χ 2 > χ 22, 0.01 ,
poiché 0.31<9.21, non è possibile
rifiutare l’ipotesi di indipendenza fra numero di pesci morti e tipologia di acquario nella popolazione di interesse a livello di
significatività del 99%.
c)
Stimare l’ignota proporzione di acquari di tipo tropicale nella popolazione di interesse e costruire un intervallo di
confidenza a livello 99%. Interpretare e commentare il risultato. (2.5 Punti)
n
Il campione fornisce la seguente stima per p:
pˆ =
∑q
i =1
i
n
=
130
= 0.52
250
Data l’elevata numerosità del campione è possibile, grazie al Teorema Centrale Limite, approssimare la distribuzione ad una
Normale di media p = pˆ e varianza σ P2 = pˆ (1 − pˆ )

σ P2
σ P2 
, pˆ + zα 2
 pˆ − zα 2

n
n 

E’ possibile quindi impiegare la statistica Z per costruire l’intervallo di confidenza:
Con livello di confidenza al 99%, si ha
1-α=0.99,
α=0.01
z (1−α )+α 2 = z0.995 = 2.58
α/2=0.005
p = pˆ = 0.52
σ = pˆ (1 − pˆ ) = 0.52 ⋅ 0.48 = 0.25
Ma quindi l’intervallo di confidenza cercato è il seguente:

0.25
0.25 
,0.52 + 2.58
0.52 − 2.58
 = [0.44, 0.60]
250
250 

2
P
Possiamo confidare che l’intervallo [0.44; 0.60] sia uno dei 99 su 100 che contengono la reale proporzione di acquari tropicali
nella popolazione di interesse.
d) Testare al livello di significatività del 95% l’ipotesi che l’ignota proporzione di acquari tropicali nella popolazione di
interesse sia pari a 0.50. (2.5 Punti)
Per la verifica dell’ipotesi bilaterale
H 0 : pˆ = 0.50 , essendo n sufficientemente grande, possiamo impiegare il test Z per grandi
campioni a due code.
n
Il campione fornisce la seguente stima per p:
pˆ =
∑q
i =1
i
n
1−α = 0.95
Valore critico dalle tavole :
z
1−
α
Il test rifiuta
α=0.05
α/2=0.025
2
pˆ − p0
=
p0 (1 − p0 )
n
0.52 − 0.50
0.02
=
= 0.0063
0.50(1 − 0.50) 3.16
250
H 0 : pˆ = 0.50 con probabilità di sbagliare del 5% se il valore sperimentale cade nella zona di rifiuto, ovvero se:
z=
Essendo
130
= 0.52
250
= z 0.975 = 1.96
z=
Valore sperimentale :
=
pˆ − p0
≥ 1.96
p0 (1 − p0 )
n
oppure se
z=
pˆ − p0
≤ −1.96
p0 (1 − p0 )
n
− 1.96 < 0.0063 < 1.96 il valore cade nella zona di non rifiuto e l’ipotesi H 0 : pˆ = 0.50 al livello di significatività
del 95% non può essere rifiutata.
6
7