Esercizio 1. Test di indipendenza tra mutabili In un`indagine

STATISTICA (2) – ESERCITAZIONE 7
11.03.2014
Dott.ssa Antonella Costanzo
Esercizio 1. Test di indipendenza tra mutabili
In un’indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
su un campione casuale di occupati:
X|Y
agricoltura
artigianato
industria
servizi
totale
F
0
8
12
80
100
M
10
52
58
20
140
totale
10
60
70
100
240
Testare ad un livello di significatività del 5% se i due caratteri possono essere
considerati indipendenti.
Soluzione
Per stabilire se esiste indipendenza tra i caratteri oggetto di analisi dobbiamo utilizzare
un test statistico basato sul chi-quadro χ.
Il sistema di ipotesi da sottoporre a verifica è il seguente:
H : X e Y sono indipendenti
H : X e Y non sono indipendenti
Livello di significatività
α=0.05
Definizione della statistica test sotto l’ipotesi nulla:
χ
doveE =
. ×.
(O − E ) = ~χ;()()
E
..
i = 1, . . h, righe; j = 1, . . k, colonne
1
Regola di decisione (regione di rifiuto)
Con il livello di significatività α = 0.05 e con k= 4 e h = 2 otteniamo
2
χ 3;0.05
= 7.815 .
2
= 7.815 si rifiuta l’ipotesi nulla
dunque, se χ > χ 3;0.05
Calcolo il valore della statistica test sotto l’ipotesi nulla
Tabella teorica sotto l’ipotesi di indipendenza (frequenze teoriche &'( )
X|Y
agricoltura
artigianato
industria
servizi
totale
F
4.17
25
29.17
41.67
100
M
5.83
35
40.83
58.33
140
totale
10
60
70
100
240
χ
= (O − E ) (0 − 4.17) (10 − 5.83)
=
+
+ ⋯ = 104.738
E
4.17
5.83
Formula alternativa per il calcolo di χ
1
2343
8
7
5'(
= 5.. (
− 1)
5'. ∙ 5.(
' (
ovvero:
0
8
12
10
1 2343 = 240 :;
+
+
+. +
+. . > − 1? = 104.738
100 ∗ 10 100 ∗ 60 100 ∗ 70
140 ∗ 10
Decisione:
Essendo 1 2343 > 1.A,B si rifiuta l’ipotesi nulla al livello di significatività α=5%.
2
Esercizio 2. Test sulla bontà di accostamento
In 600 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare con un
livello di significatività del 5% se il dado può considerarsi truccato.
1
Risultato
2
3
4
5
6
Freq. osservate 94 123 88 102 115 78
Soluzione
Se il dado non è truccato dovremmo osservare una distribuzione uniforme dei risultati
Risultato
1
2
3
Freq. Osservate 5'
94
123 88
4
5
6
102 115 78
Freq. Teoriche 5C' = 5D' 100 100 100 100 100 100
dove D' = E
Sistema di ipotesi
F : il dado non è truccato ( la distribuzione di frequenza osservata è una realizzazione
di una v.c. uniforme discreta)
F : il dado è truccato ( la distribuzione di frequenza osservata non è una realizzazione di
una v.c. uniforme discreta)
Livello di significatività
α=0.05
Costruzione della statistica test
1
2343
7
=
'
(5' − 5C' )
~1G;(7)
5C'
dove k rappresenta il numero di modalità.
3
Regola di decisione (regione di rifuto):
per il livello di significatività fissato il valore critico è in corrispondenza di:
1.A;(E)
= 11.07
per cui se il valore della statistica test 1 2343 è maggiore di 1.A;(E)
= 11.07 si rifiuta
l’ipotesi nulla
Il valore della statistica test sotto l’ipotesi nulla è data da:
1 2343 =
(94 − 100) (123 − 100) (88 − 100)
+
+
+ ⋯ = 14.22
100
100
100
Decisione
Siccome 1 2343 > 1.A;(E)
= 11.07 si rifiuta l’ipotesi nulla, quindi rifiuto l’ipotesi di
distribuzione uniforme discreta (il dado è truccato)
4
Esercizio 3. Test sulla bontà di accostamento (2)
Nell’arco di un triennio, sono stati registrati 1588 incidenti stradali capitati a 706
guidatori di una società di trasporto pubblico. La seguente tabella riporta come tali
incidenti sono distribuiti tra i vari autisti:
n. di incidenti n. di autisti
0
117
1
157
2
158
3
115
4
78
5
44
6
21
7
16
Verificare al un livello di significatività del 5% se questi dati sono compatibili con
l’ipotesi che il numero di incidenti per autista abbia una distribuzione di Poisson?
Soluzione
Il primo passo nel test di buon adattamento consiste nello stimare il parametro della
distribuzione di Poisson. Dalla tabella di frequenza si ottiene:
IJ = K̅ = 2.25
Sistema di ipotesi
H : i dati seguono una distribuzione di Poisson (IJ = 2.25)
H : i dati non seguono una distribuzione di Poisson
Livello di significatività
α=0.05
5
Definizione della statistica test sotto l’ipotesi nulla:
χ
=
(5' − 5C' ) ~χ;()
5C'
dove 5C' = frequenze attese sotto l’ipotesi che i dati seguano una legge di Poisson e
k = numero di modalità
Regola di decisione (Regione di Rifiuto)
Il valore critico in corrispondenza di un livello di significatività del 5% con 8-1=7 gdl è
dato da: χ.A,M = 14.07, per cui se χ > χ.A,M rifiutiamo l’ipotesi nulla.
Calcoliamo le frequenze attese sotto l’ipotesi che il numero di incidenti per autista
segua una legge di Poisson di parametro IJ, ricordando che:
N~OPQ(λ); &(N) = STU(N) = λ
Distribuzione di probabilità di X:
V W λX
O(N = K) =
K!
Es.
O(N = 0) = V .A = 0.1053 → 5O(N = 0) = 706 ∙ 0.1053 = 74.41
V .A ∙ 2.25
O(N = 1) = ;
> = 0.2371 → 5O(N = 1) = 706 ∙ 0.2371 = 167.42
1!
(…)
6
n. di incidenti n. di autisti (freq.osservate) n. di autisti (freq.teoriche sotto F )
5'
5C' = 5 ∙ O(N = K)
0
117
74.41
1
157
167.42
2
158
188.355
3
115
141.266
4
78
79.46
5
44
35.76
6
21
13.41
7
16
4.31
Il valore della statistica test è pari a:
χ =
(117 − 74.41)
(16 − 4.31)
+ ⋯+
≈ 57.9
74.41
4.31
Decisione
poiché χ > χ.A,M rifiuto l’ipotesi nulla. I dati non sono compatibili con l’ipotesi che
il numero di incidenti per autista segua una legge di Poisson.
7
Esercizio 4. Il modello di regressione: stima, bontà di adattamento, inferenza
Si desidera studiare la relazione tra il voto Y conseguito all’esame di statistica e il voto
X conseguito nell’esame di matematica. A partire da un campione casuale di n=200
studenti che hanno sostenuto entrambi gli esami in questione si osservano i seguenti
risultati campionari:
'
'
1
1
\' = 27.87 ;
K' = 25.24 ;
200
200
'
'
1
1
\' = 787.52;
K' = 645.39;
200
200
1
K' \' = 712.51
200
'
a) Ricavare con il metodo dei minimi quadrati (OLS, Ordinary Least Squares), una
stima dei parametri del modello di regressione con Y variabile dipendente e X
variabile indipendente.
b) Calcolare e interpretare il coefficiente di correlazione lineare e l’indice di
determinazione lineare
c) Sulla base del modello stimato, qual è il voto atteso in statistica di uno studente
che ha ottenuto un 24 in matematica?
d) Valutare la significatività del modello di regressione (verifica di ipotesi sul
coefficiente angolare) con α=0.05.
Soluzione
a) ] = ^ + ^ N + ε è il modello di regressione lineare per la popolazione
La stima della retta di regressione avviene sulla base del campione:
] = ^J + ^J N + V
^J e ^J sono rispettivamente gli stimatori per ^ e ^ della popolazione
8
^J :coefficiente angolare: inclinazione della retta di regressione, come varia in media Y
a fronte di un incremento unitario della X
^J :Intercetta della retta di regressione: indica il valore atteso della variabile di risposta
Y quando il predittore X assume valore 0.
Con il metodo dei minimi quadrati, il coefficiente angolare1 risulta:
1 c
1 c
1 c
`Pa(N, ]) 5 (∑' K' \' ) − (5 ∑' \' ) (5 ∑' K' )
^J =
=
STU(N)
1 c 1 c
∑
∑
5 ' K' − (5 ' K' )
^J =
712.51 − 27.87 ∙ 25.24 9.07
=
= 1.09
645.39 − 25.24
8.33
e l’intercetta è pari a:
^J = \d − ^J Kd = 27.87 − 1.09(25.24) = 0.36
b) Per determinare eX,f si può sfruttare la seguente relazione:
eX,f =
`Pa(N, ])
gSTU(N) ∙ STU(])
=
9.07
g8.33 ∙ (787.52 − 27.87 )
=
9.07
√8.33 ∙ 10.78
= 0.96
dove STU(]) = if = c ∑c' \' − (c ∑c' \' ) Il valore prossimo a 1 di eX,f indica la presenza di una forte relazione lineare positiva
tra i due voti in questione.
1
Nota: è possibile, in alternativa, esprimere il coefficiente angolare della retta di
regressione come:
^J =
`PjVa(N, ])
kVa(N)
=
5 ∑c' K' \' − ∑c' K' ∑c' \'
5 ∑c' K' − (∑c' K' )
9
L’indice di determinazione lineare (l ) può essere calcolato anche come:
l = eX,f = (0.96) = 0.92
m = 0.36 + 1.09N per cui in
c) Il modello di regressione stimato è pari a:]
corrispondenza di K = 24 il valore atteso di Y è dato da:
\C = 0.36 + 1.09(24) = 26.52
d) Valutare la significatività del modello stimato equivale a testare il seguente
sistema di ipotesi:
F : ^ = 0
F : ^ ≠ 0
livello di significatività o = 0.05
Per costruire la statistica test dobbiamo studiare la distribuzione campionaria di ^J.
Siccome una delle ipotesi del modello di regressione lineare classico è
p' ~q(0, i )Q. Q. j
allora si dimostra che2:
^J ~q ;^ ,
i
∑'(K' − K̅ )
>
Tuttavia ciò sarebbe vero (e quindi lo stimatore per ^ si distribuirebbe secondo una
legge normale) se conoscessimo la varianza degli errori del modello i . Nella realtà, gli
errori del modello non sono osservabili, mentre è possibile osservare i residui. In
particolare:
∑c'(\' − \C)
iC =
5−2
2
Nota: gli stimatori OLS di ^ e ^ sono B.L.U.E (Teorema di Gauss-Markov).
10
per cui la varianza corretta dello stimatore ^J per ^ è pari a:
r(s
m
t)
∑c'(\' − \C)
iC
5−2
=
=
∑'(K' − K̅ )
∑'(K' − K̅ )
Sfrutto questo risultato per costruire la statistica test; infatti sotto F essa risulta:
u
2343
=
^J − ^ |w
yr(smt )
x
~zG⁄;c
Nota: per il TLC essendo n sufficientemente grande (n = 200) è ragionevole
approssimare la distribuzione di u 2343 ad una normale standardizzata, in particolare:
u 2343 =
^J − ^ |w
yr|smt }
x
€€ q(0,1)
c→~
Regola di decisione
Con un livello di significatività del 5%, essendo il test bidirezionale e sfruttando
l’approssimazione normale (TLC) i valori critici da determinare sono in corrispondenza
di: ±ƒG⁄ = ±ƒ.„MA = ±1.96 per cui:
se |u 2343 | > ƒ.„MA rifiuto l’ipotesi nulla.
Calcoli
Dobbiamo determinare la quantità r|s
mt } . Sapendo che:
(K' − K̅ ) = 5 ∙ iX = 200 ∙ 8.33 = 1666
'
E, sfruttando il fatto che:
l = eX,f = 0.92 lo possiamo scrivere3 come:
3
Ricorda la definizione dell’indice di determinazione lineare
11
∑c'(\' − \C)
l =1− c
∑'(\' − \d)
dobbiamo risolvere rispetto alla quantità a numeratore del rapporto (in rosso), per cui:
c
c
'
'
(\' − \C) = (1 − l )
(\' − \d)
dove:
∑'(\' − \d) = 5 ∙ if = 200 ∙ 10.78 = 2156
quindi:
c
(\' − \C) = (1 − 0.92) ∙ 2156 = 172.48
'
Possiamo dunque calcolare:
r(s
mt )
∑c'(\' − \C)
172.48
iC
5
−
2
200
−2
=
=
= 1666 = 0.000522
∑'(K' − K̅ )
∑' (K' − K̅ )
E finalmente il valore della statistica test:
u 2343 =
1.09 − 0
√0.000522
=
1.09
= 47.81
0.0228
Decisione
Siccome |u 2343 | > ƒ.„MA rifiuto l’ipotesi nulla.
12