Esercitazioni CUBADDA - luisscampusduepuntozero

Esercitazioni di Statistica
16 Dicembre 2009
Riepilogo
Prof. Gianluca Cubadda
[email protected]
Dott.ssa Emmanuela Bernardini
[email protected]
Esercizio 1 I dati seguenti costituiscono le ore di studio da un campione di studenti
che hanno superato l’esame relativo a un insegnamento da 2 CFU.
(57, 58, 31, 55, 38, 102, 63, 63, 53, 259, 50, 11, 67, 4, 73, 33, 97, 28)
a) Calcolare la mediana e il MAD.
b) Lo scarto quadratico medio di questi dati è 55.1. A cosa è dovuta la differenza fra
il valore dello scarto quadratico medio e quello del MAD?
Soluzione
a) Per calcolare la mediana è necessario ordinare le osservazioni in maniera crescente.
Serie ordinata
x(1) = 4
x(2) = 11
x(3) = 28
x(4) = 31
x(5) = 33
x(6) = 38
x(7) = 50
x(8) = 53
x(9) = 55
x(10) = 57
x(11) = 58
x(12) = 63
x(13) = 63 x(14) = 67 x(15) = 73 x(16) = 97 x(17) = 102 x(18) = 259
1
per poi calcolare la profondità della mediana e il suo valore
prof(med) =
med =
n+1
19
=
= 9.5
2
2
x(9) + x(10)
55 + 57
=
= 56
2
2
Per calcolare il MAD si devono calcolare le deviazioni dalla mediana (56)
xi − Med(xi )
−52 −45 −28 −25 −23 −18 −6 −3 −1 1
1
1
2
3
6
2
7
7
11 17 41 46 203
|xi − Med(xi )| ordinati
7
7 11 17 18 23 25 28 41 45 46 52 203
e poi la mediana di questa nuova distribuzione
med =
x(9) + x(10)
17 + 18
=
= 17.5
2
2
MAD = 1.483 Med(|xi − Med(xi )|) = 1.483 · 17.5 = 25.95
b) La differenza tra lo scarto quadratico medio e il MAD è dovuta alla presenza di
valori anomali nella distribuzione (259). Mentre il MAD non risulta influenzato
dalla presenza di valori anomali, la varianza, essendo la media dei quadrati degli
scarti dalla media, è sensibile rispetto ai valori anomali, e così anche lo scarto
quadratico medio.
Esercizio 2 (10.9 Monti) La distribuzione dei voti conseguiti dagli studenti a un
esame di statistica ha una distribuzione approssimativamente normale, con media 24
e scarto quadratico medio 3.3. Invece la distribuzione dei voti conseguiti a un esame
di economia ha una distribuzione approssimativamente normale con media 25 e scarto
quadratico medio 1.5. Se i docenti utilizzano una graduatoria, in base alla quale sono
classificati con A il 10% dei più bravi, è preferibile ottenere 28 all’esame di statistica, o
27 all’esame di matematica?
Soluzione Chiamiamo X la variabile voto ottenuto all’esame di statistica e Y la
variabile voto ottenuto all’esame di matematica. Uno studente sarà classificato con A se
il suo voto sarà tra il 10% dei voti più alti conseguiti all’esame. Quindi per sapere se si
ricadrà nel gruppo A prendendo 28 a statistica, o 27 a matematica, è sufficiente calcolare
la probabilità che qualcuno ottenga un voto più alto del nostro. Ossia
¶
µ
28 − 24
= P (Z > 1.21) = 1 − 0.8869 = 0.1131
P (X > 28) = P Z >
3.3
2
e
µ
P (Y > 27) = P
27 − 25
Z>
1.5
¶
= P (Z > 1.33) = 1 − 0.9082 = 0.0918
Poichè nel caso dell’esame di matematica, se prendessimo 27, la probabilità che qualcuno prenda un voto più alto del nostro è solo del 9%, in questo caso dovremmo ricadere
tra il 10% dei migliori. Diversamente è nel caso di un 28 a statistica. Quindi sarebbe
meglio prendere un 27 a statistica.
Esercizio 3 Si calcolino le seguenti probabilità
a) P (t8 > 2.306)
b) P (t9 < −2.262)
c) P (t17 < 1.740)
d) P (t23 < 1.5)
e) P (χ229 > 19.77)
f) P (χ270 < 85.53)
Soluzione
a) P (t8 > 2.306) = 0.025
b) P (t9 < −2.262) = P (t9 > 2.262) = 0.025
c) P (t17 < 1.740) = 1 − P (t17 > 1.740) = 1 − 0.05 = 0.95
d)
P (t23 < 1.5) = 1 − P (t23 > 1.5)
0.05 < P (t23 > 1.5) < 0.1
1 − 0.1 < P (t23 < 1.5) < 1 − 0.05
0.9 < P (t23 < 1.5) < 0.95
e) P (χ229 > 19.77) = 0.9
f) P (χ270 < 85.53) = 1 − P (χ270 > 85.53) = 1 − 0.1 = 0.9
Esercizio 4 American Airline sostiene che il 5% degli individui che hanno prenotato il
volo non si presentano al check in. Se la compagnia ha venduto 240 biglietti per un volo
che ha solo 233 posti a sedere, qual è la probabilità che tutti i passeggeri che si presentano
abbiano un posto a sedere?
3
Soluzione
X = “Presentarsi al check-in”
X ∼ Ber(0.95)
X1 , X2 , . . . , X240 è un campione casuale di variabili casuali i.i.d di X. Definiamo
Y =
240
X
Xi ,
i=1
quindi, Y ∼ B(240, 0.95), essendo la somma di 240 variabili casuali indipendenti ed
identicamente distribuite secondo una Bernoulli di parametro 0.95.
Essendo n sufficientemente elevato, per il teorema del limite centrale si ha che:
a
Y ∼ N (240 × 0.95, 240 × 0.95 × (1 − 0.95)).
a
Y ∼ N (228, 11.4).
A questo punto l’esercizio è di facile risoluzione; considerando, infatti, un’approssimazione
per continuità, otteniamo che:
µ
¶
Y − 228
233 − 228
P (Y ≤ 233) = P
≤
' P (Z ≤ 1.48) = 0.9306
3.3764
3.3764
Esercizio 5 Per analizzare la riuscita scolastica degli adolescenti si estrae un campione
casuale semplice con reintroduzione di 600 studenti della prima classe superiore. In tale
campione il numero di ragazzi bocciati è pari a 220.
a) Definire lo stimatore puntuale per la media e la varianza della variabie casuale essere
bocciati, e le relative stime nel campione.
b) Definire lo stimatore per intervallo della proporzione di ragazzi bocciati al livello di
confidenza α, e ricavare la stima per intervallo per un livello di confidenza del 90%.
c) Calcolare la lunghezza della stima per intervallo al punto sopra.
d) Verificare l’ipotesi nulla che π = 0.4 contro l’alternativa che π 6= 0.4 al livello
di significatività del 10%. Possiamo utilizzare i risultati dei punti precedenti per
rispondere a questa domanda? Perchè?
e) Calcolare il p-valore associato al set d’ipotesi del punto precedente.
Soluzione Definiamo X la variabile essere bocciati.
(
1 se lo studente viene bocciato
prob = π
X=
0 se lo studente viene promosso
prob = 1 − π.
X ∼ Ber(π).
4
a) Poichè X è distribuita come una Bernulli, lo stimatore della media di X è la proporzione campionaria p̂, e lo stimatore della varianza di X è p̂(1 − p̂).
Le stime nel campione sono
Pn
xi
x̄ = p̂ = i=1 = 220/600 = 0.36
n
σ̂ 2 = p̂(1 − p̂) = 0.36(1 − 0.36) = 0.23
b) Di conseguenza la quantità pivot per la costruzione dello stimatore per intervalli è
la proporzione campionaria studentizzata
p̂ − π
p
p̂(1 − p̂)/n
Questa quantità per n sufficientemente elevato ha una distribuzione approssimativamente normale standard.
Lo stimatore per intervallo al livello di confidenza 1 − α è, quindi, un intervallo
casuale i cui estremi sono definiti dalle statistiche campionarie
p
p
L2 = p̂ + zα/2 p̂(1 − p̂)/n
L1 = p̂ − zα/2 p̂(1 − p̂)/n
dove zα/2 è il percentile di una variabile casuale normale standard, tale che P (Z >
zα/2 ) = α/2.
La stima per intervallo al livello di confidenza del 90%, è l’intervallo che ha come
estremi i valori di L1 e L2 in corrispondenza del campione osservato:
"
#
r
r
p̂(1 − p̂)
p̂(1 − p̂)
90%IC ' [l1 , l2 ] = p̂ − zα/2
; p̂ + zα/2
n
n
"
#
r
r
0.36(1 − 0.36)
0.36(1 − 0.36)
= 0.36 − 1.645
; 0.36 + 1.645
600
600
= [0.328; 0.392]
c) La lunghezza della stima per intervallo è data dalla differenza tra l’estremo superiore
e l’estremo inferiore della stima
Ã
!
r
r
p̂(1 − p̂)
p̂(1 − p̂)
L = (l2 − l1 ) = p̂ + zα/2
− p̂ + zα/2
n
n
Ã
!
r
p̂(1 − p̂)
=
2 · zα/2
= (0.392 − 0.328) = 0.064
n
d) Vogliamo verificare il seguente sistema d’ipotesi
(
H0 : π = 0.4
H1 : π 6= 0.4.
al livello di significatività del 10%. Per testare questa ipotesi si utilizza la statistica
test
p̂ − π0
' N (0, 1),
Tn = p
π0 (1 − π0 )/n
5
ossia la media campionaria standardizzata per una popolazione di Bernoulli. Per
il teorema del limite centrale, per n sufficientemente elevato, quando π = π0 , la
statistica test avrà una distribuzione approssimativamente normale.
Il test è bidirezionale, quindi dal confronto tra ipotesi nulla e ipotesi alternativa,
possiamo dire che la regione critica, e la regione di accettazione saranno del tipo:
¯
¯
¯
¯
p̂ − π0
¯
¯
R.C. : ¯ p
¯ > zα /2
¯ π0 (1 − π0 )/n ¯
¯
¯
¯
¯
p̂ − π0
¯
¯
p
R.A. : ¯
¯ ≤ zα/2
¯ π0 (1 − π0 )/n ¯
Il valore di z0.1 è determinabile attraverso la seguente relazione:
α = 0.1 → α/2 = 0.05 → Φ(z0.05 ) = 1−0.05 = 0.95 → zα/2 = 1.645, → −zα/2 = −1.645
.
Riassumendo si è trovato che la regione critica R.C. è data da:
¯
¯
¯
¯
p̂
−
π
¯
¯
0
R.C. : ¯ p
¯ > 1.645,
¯ π0 (1 − π0 )/n ¯
e la regione di accettazione
¯
¯
¯
¯
p̂ − π0
¯
¯
p
R.A. : ¯
¯ ≤ 1.645
¯ π0 (1 − π0 )/n ¯
Per decidere a favore o contro l’ipotesi nulla si calcola il valore della statistica test,
dato il nostro campione, sotto l’ipotesi nulla:
p̂ − π0
tn = p
π0 (1 − π0 )/n
0.36 − 0.4
=p
0.4(1 − 0.4)/600
= −2
Dato che il valore osservato della media campionaria standardizzata appartiene alla
regione critica, si può rigettare l’ipotesi nulla in favore di quella alternativa, data
l’evidenza empirica al livello di significatività del 10%.
Non si può utilizzare la stima per intervallo calcolata al punto b) per rispondere
a questa domanda perchè, nel caso di test sulla proporzione, la statistica test non
coincide con la quantità pivot per la costruzione dell’intervallo.
e) Il p-valore è la probabilità che una statistica test assuma un valore più estremo di
quello osservato sotto l’ipotesi nulla. Per un test d’ipotesi bilaterale
p − valore = P (Tn < −|tn |) + P (Tn > |tn |) = 2 · P (Tn > |tn |)
= 2 · P (Z > 2) = 2 · (1 − 0.9772) = 0.0456
Dato questo p-valore, si rifuta l’ipotesi nulla per valori di significatività superiori
al p-valore (come nel caso sopra 10%), e non si rifiuta l’ipotesi nulla per livelli di
significatività inferiori (Es: 1%).
6
SINTESI DELLE DISTRIBUZIONI DELLE STATISTICHE TEST E
DELLE QUANTITA’ PIVOT
a
Commento alle tavole: ∼ significa che la statistica test (o la quantità pivot) si
distribuisce approssimativamente. Dove non è riportata la distribuzione significa che la
statistica test (o la quantità pivot) non ha una distribuzione nota.
Tabella 1: Distribuzione della quantità pivot e della statistica test per la probabilità di
successo π
X ∼ Ber(π)
n piccolo
n grande
Quantità Pivot
Statistica Test
p̂−π
p̂(1−p̂)/n
√ p̂−π0
π0 (1−π0 )/n
√
7
a
p̂−π
∼ N (0, 1)
p̂(1−p̂)/n
a
√ p̂−π0
∼ N (0, 1)
π0 (1−π0 )/n
√
8
Statistica Test
Quantità Pivot
X̄−µ
√
σ/ n
X̄−µ
√0
σ/ n
∼ N (0, 1)
∼ N (0, 1)
X̄−µ
√
σ̂/ n
X̄−µ
√0
σ̂/ n
∼ tn−1
∼ tn−1
X̄−µ
√
σ/ n
X̄−µ
√0
σ/ n
∼ N (0, 1)
∼ N (0, 1)
a
X̄−µ
√ ∼
σ̂/ n
a
X̄−µ
√0 ∼
σ̂/ n
N (0, 1)
N (0, 1)
X̄−µ
√
σ/ n
X̄−µ
√0
σ/ n
X̄−µ
√
σ̂/ n
X̄−µ
√0
σ̂/ n
a
X̄−µ
√ ∼
σ/ n
a
X̄−µ
√0 ∼
σ/ n
N (0, 1)
N (0, 1)
σ̂ 2
a
X̄−µ
√ ∼ N (0, 1)
σ̂/ n
a
X̄−µ
√ 0 ∼ N (0, 1)
σ̂/ n
Tabella 2: Distribuzione della quantità pivot e della statistica test per la media µ
X ∼ N (µ, σ 2 )
X=
6 N (µ, σ 2 )
n piccolo
n grande
n piccolo
n grande
2
2
2
2
2
2
2
σ
σ̂
σ
σ̂
σ
σ̂
σ