Esercizio 8 (distribuzione campionaria della proporzione di successi)

Università degli Studi di Cassino, Anno accademico 2004-2005
Corso di Statistica 2, Prof. M. Furno
Esercitazione del 22/02/2005
dott. Claudio Conversano
Esercizio 1
Si supponga di estrarre con ripetizione 10 palline da un’urna contenente 1000 palline, delle quali il 10%
sono di colore rosso. Si determini:
a) La distribuzione campionaria della proporzione di palline rosse nel campione;
b) La probabilità di ottenere un campione con almeno 7 palline rosse.
SVOLGIMENTO
a) La distribuzione campionaria della proporzione di palline rosse nel campione;
L’universo di campioni di ordine 10 è formato da 100010 elementi. Se si contano le palline rosse estratte
in ciascun campione si ottiene una v.c. X che può assumere valori 1,2,….,10 ciascuno con probabilità
pari alla somma delle probabilità di tutti i campioni che danno luogo a quel risultato. La distribuzione
della v.c. X/10 è la distribuzione campionaria cercata.
In questo caso non è possibile costruire l’universo di tutti i possibili campioni (da cui poi derivare la
distribuzione di X/10). Poiché la distribuzione di frequenza del carattere dicotomico “estrazione di una
pallina rossa” è rappresentata da una v.c. di Bernoulli B(1,p=0.10), in cui p rappresenta la proporzione di
palline rosse nella popolazione, la v.c. X/10 ha una distribuzione Binomiale Bin(n=10, p=0.10), la cui
funzione di probabilità è:
10 − x
⎛ X ⎞ ⎛ 10 ⎞
f ⎜ ⎟ = ⎜ ⎟ 0.1x (1 − 0.1)
⎝ 10 ⎠ ⎝ x ⎠
Per x=0,1,…..,10 si ottiene la distribuzione campionaria della v.c. X/10:
10 − 0
⎛ 0 ⎞ ⎛10 ⎞
f ⎜ ⎟ = ⎜ ⎟ 0.10 (1 − 0.1)
= 0.34868
⎝ 10 ⎠ ⎝ 0 ⎠
10 −1
⎛ 1 ⎞ ⎛10 ⎞
f ⎜ ⎟ = ⎜ ⎟ 0.11 (1 − 0.1) = 0.38742
⎝ 10 ⎠ ⎝ 1 ⎠
10 − 2
⎛ 2 ⎞ ⎛10 ⎞
f ⎜ ⎟ = ⎜ ⎟ 0.12 (1 − 0.1)
= 0.19371
⎝ 10 ⎠ ⎝ 2 ⎠
10 − 3
⎛ 3 ⎞ ⎛10 ⎞
f ⎜ ⎟ = ⎜ ⎟ 0.13 (1 − 0.1) = 0.05739
⎝ 10 ⎠ ⎝ 3 ⎠
10 − 4
⎛ 4 ⎞ ⎛10 ⎞
= 0.01116
f ⎜ ⎟ = ⎜ ⎟ 0.14 (1 − 0.1)
⎝ 10 ⎠ ⎝ 4 ⎠
10 − 5
⎛ 5 ⎞ ⎛10 ⎞
= 0.00149
f ⎜ ⎟ = ⎜ ⎟ 0.15 (1 − 0.1)
⎝ 10 ⎠ ⎝ 5 ⎠
10 − 6
⎛ 6 ⎞ ⎛10 ⎞
= 0.00014
f ⎜ ⎟ = ⎜ ⎟ 0.16 (1 − 0.1)
⎝ 10 ⎠ ⎝ 6 ⎠
10 − 7
⎛ 7 ⎞ ⎛10 ⎞
= 0.00001
f ⎜ ⎟ = ⎜ ⎟ 0.17 (1 − 0.1)
⎝ 10 ⎠ ⎝ 7 ⎠
10 −8
⎛ 8 ⎞ ⎛10 ⎞
f ⎜ ⎟ = ⎜ ⎟ 0.18 (1 − 0.1)
= 0.00000
⎝ 10 ⎠ ⎝ 8 ⎠
10 − 9
⎛ 9 ⎞ ⎛10 ⎞
f ⎜ ⎟ = ⎜ ⎟ 0.19 (1 − 0.1)
= 0.00000
⎝ 10 ⎠ ⎝ 9 ⎠
10 −10
⎛ 10 ⎞ ⎛10 ⎞
f ⎜ ⎟ = ⎜ ⎟ 0.110 (1 − 0.1)
= 0.00000
⎝ 10 ⎠ ⎝10 ⎠
b) La probabilità di ottenere un campione con almeno 7 palline rosse.
La probabilità di estrarre un campione con almeno 7 palline rosse si ottiene sommando le probabilità:
10
⎛ i ⎞ ⎛10 ⎞
∑ f ⎜⎝ 10 ⎟⎠ = ⎜ i ⎟ 0.1 (1 − 0.1)
i =7
⎝
⎠
i
10 − i
= 0.00001
Esercizio 2
La durata delle telefonate effettuate ad un call-center nella fascia oraria 9-11 ha una distribuzione
normale con media 175 secondi e varianza 16. Si determini la probabilità che le prime 10 chiamate
effettuate nella fascia oraria di riferimento nella giornata di domani abbiano una durata media compresa
tra 173 e 176 secondi.
SVOLGIMENTO
Anche in questo caso non è possibile costruire l’universo di tutti i possibili campioni di ordine 10. Si
può ritenere che la distribuzione delle chiamate effettuate nella fascia oraria….., segua una distribuzione
normale con media 175 e varianza 16. Sotto questa ipotesi la media campionaria ha anch’essa una
2
distribuzione normale con media µ e varianza σ n .
La probabilità richiesta sarà quindi data da:
⎛ 173 − 175 X − µ 176 − 175 ⎞
P (173 ≤ X ≤ 176 ) = P ⎜
≤
≤
⎟=
4
10
n
4
10
σ
⎝
⎠
⎛
⎞
X −µ
= P ⎜ −1.58 ≤
≤ 0.79 ⎟ = 0.78542 − (1 − 0.94295 ) = 0.72819
σ n
⎝
⎠
Esercizio 3
Nella giornata di ieri il programma in onda in prima serata sulla rete X ha registrato uno share del 40%.
Si determini la probabilità che, estraendo con ripetizione un campione di 1000 telespettatori, almeno il
38% di essi abbia guardato il programma in oggetto.
SVOLGIMENTO
L’universo di campioni di ordine 1000 è formato da N1000 elementi. Se si contano i telespettatori che
hanno assistito al programma della rete X in ciascun campione si ottiene una v.c. X che può assumere
valori 1,2,….,1000 ciascuno con probabilità pari alla somma delle probabilità di tutti i campioni che
danno luogo a quel risultato. La distribuzione della v.c. X/1000 è la distribuzione campionaria cercata.
In questo caso non è possibile costruire l’universo di tutti i possibili campioni (da cui poi derivare la
distribuzione di X/1000). Poiché la distribuzione di frequenza del carattere dicotomico “estrazione di
un telespettatore che ha assistito al programma della rete X” è rappresentata da una v.c. di Bernoulli
B(1,p=0.40), in cui p rappresenta la proporzione di telespettatori che ha assistito al programma in
oggetto nella popolazione, la v.c. X/1000 ha una distribuzione Binomiale Bin(n=1000, p=0.40), la cui
funzione di probabilità è:
1000 − x
⎛ X ⎞ ⎛1000 ⎞ x
f⎜
⎟ = ⎜ x ⎟ 0.4 (1 − 0.4 )
⎝ 1000 ⎠ ⎝
⎠
La probabilità richiesta può essere calcolata nel seguente modo:
1000 − x
⎛ X
⎞ 1000 ⎛ 1000 ⎞ x
≥ 0.38 ⎟ = ∑ ⎜
P⎜
⎟ 0.4 (1 − 0.4 )
⎝ 1000
⎠ x =380 ⎝ x ⎠
Poiché per n che tende all’infinito la v.c. X/1000 tende ad una distribuzione normale
N ( µ = p, σ 2 = p (1 − p ) n )
quando si ha un campione sufficientemente grande si può approssimare la
distribuzione binomiale con la distribuzione normale. La probabilità cercata risulta:
⎛
⎜
0.38 − 0.40
P⎜Z ≥
⎜
( 0.4 )( 0.6 )
⎜⎜
1000
⎝
⎞
⎟
⎟ = P ( Z ≥ −1.29 ) = 0.90147
⎟
⎟⎟
⎠
Esercizio 4
Sia X il tempo di percorrenza di una intera corsa dell’autobus “128”. Si suppone che X sia distribuito
modo normale con media incognita e varianza σ 2 = 16 . Si determini la probabilità che la devianza
campionaria nS2 in un campione di n=13 corse risulti superiore a 6.304 σ 2 .
SVOLGIMENTO
La devianza campionaria nS2 è il numeratore della varianza campionaria S2 . Poiché il rapporto
nS 2 σ 2 ≈ χ ( n −1) avremo:
(
) (
)
P ( nS 2 ≥ 6.304σ 2 ) = P ( nS 2 σ 2 ≥ 6.304 ) = P χ ( n −1) ≥ 6.304 = P χ (12) ≥ 6.304 = 0.90
Esercizio 5
Sia X n = ( x1 , x2 , K , xn ) un campione casuale proveniente da una popolazione con media uguale a µ e
varianza σ 2 .
Determinare l’efficienza relativa del valore centrale campionario (semisomma dei due valori estremi
campionari) rispetto alla media campionaria.
SVOLGIMENTO
Sia Tn lo stimatore valore centrale campionario: Tn =
X (1) + X ( n )
2
.
Sia il valore centrale campionario che la media campionaria sono non distorti rispetto al parametro µ .
Infatti:
⎛ X (1) + X ( n ) ⎞ µ + µ
a) E (Tn ) = E ⎜
=µ
⎟⎟ =
⎜
2
2
⎝
⎠
b) E ( X ) = µ
L’efficienza relativa di Tn rispetto alla media campionaria è:
1
Var (Tn ) Var ( X n )
eff (Tn | X ) =
=
1
Var (Tn )
Var ( X n )
In cui:
( )
( )
⎛ X (1) + X ( n ) ⎞ Var X (1) + Var X ( n )
2σ 2 σ 2
Var (Tn ) = Var ⎜
=
=
⎟⎟ =
⎜
2
4
4
2
⎝
⎠
Var ( X ) =
σ2
n
Sostituendo questi risultati all’interno dell’espressione
eff (Tn | X ) =
Var ( X n )
Var (Tn )
eff (Tn | X )
si ottiene:
σ2
2
= n2 = ≤ 1
σ
n
2
L’uguaglianza sussiste solo nel caso n=2. In tal caso il valore centrale campionario coincide con la
media campionaria. Invece per n>2 lo stimatore Tn risulta meno efficiente della media campionaria.
Esercizio 6
Data una popolazione normale con media nulla e varianza σ 2 ed estratto un campione casuale di
ordine n=2, si stabilisca quale, fra i seguenti stimatori di σ 2 risulta preferibile e perché.
T1 = X 12 ;
T2 = X 12 + X 22 ;
T3 =
T2 ⎛ X 12 + X 22 ⎞
=⎜
⎟
2 ⎝
2
⎠
SVOLGIMENTO
Calcoliamo la distorsione dei 3 stimatori:
E (T1 ) = E ( X 12 ) = σ 2
perché la media è nulla;
E (T2 ) = E ( X 12 + X 22 ) = 2σ 2
E (T3 ) =
E (T2 ) 2σ 2
=
=σ2
2
2
Il primo ed il terzo stimatore risultano corretti mentre il secondo è distorto. Per quest’ultimo la
distorsione è:
b (T2 ) = 2σ 2 − σ 2 = σ 2
Il confronto tra i tre stimatori va fatto sulla base dei loro rispettivi Errori Quadratici Medi (EQM):
EQM (T1 ) = Var (T1 ) + ⎡⎣b (T1 ) ⎤⎦ =
2
( ) ( )
= E ( X ) − ⎡ E ( X ) ⎤ = µ − σ = 3σ
⎣
⎦
2
2
= Var (T1 ) − 02 = E T1 − ⎡ E T1 ⎤ =
⎣
⎦
4
1
2
1
2
4
4
4
− σ 4 = 2σ 4
perché per una v.c. normale µ4 = 3σ 4
( )
2
2
2
2
Var (T2 ) = E T2 − ⎡⎣ E (T2 ) ⎤⎦ = E ⎡⎢( X 12 + X 22 ) ⎤⎥ − ( 2σ 2 ) = E ( X 14 ) + E ( X 14 ) + 2 E ( X 12 ⋅ X 12 ) − 4σ 4 =
⎣
⎦
= 2 µ4 − 2 E ( X 12 ) E ( X 22 ) − 4σ 4 = 6σ 4 + 2σ 4 − 4σ 4 = 4σ 4
EQM (T2 ) = Var (T2 ) + ⎡⎣b (T2 ) ⎤⎦ = 4σ 4 + (σ 2 ) = 5σ 4
2
2
EQM (T3 ) = Var (T3 ) =
Var (T2 )
22
=
4σ 4
=σ4
4
Lo stimatore che presenta la minore variabilità intorno al parametro σ 2 e T3 .