Università degli Studi di Cassino, Anno accademico 2004-2005 Corso di Statistica 2, Prof. M. Furno Esercitazione del 22/02/2005 dott. Claudio Conversano Esercizio 1 Si supponga di estrarre con ripetizione 10 palline da un’urna contenente 1000 palline, delle quali il 10% sono di colore rosso. Si determini: a) La distribuzione campionaria della proporzione di palline rosse nel campione; b) La probabilità di ottenere un campione con almeno 7 palline rosse. SVOLGIMENTO a) La distribuzione campionaria della proporzione di palline rosse nel campione; L’universo di campioni di ordine 10 è formato da 100010 elementi. Se si contano le palline rosse estratte in ciascun campione si ottiene una v.c. X che può assumere valori 1,2,….,10 ciascuno con probabilità pari alla somma delle probabilità di tutti i campioni che danno luogo a quel risultato. La distribuzione della v.c. X/10 è la distribuzione campionaria cercata. In questo caso non è possibile costruire l’universo di tutti i possibili campioni (da cui poi derivare la distribuzione di X/10). Poiché la distribuzione di frequenza del carattere dicotomico “estrazione di una pallina rossa” è rappresentata da una v.c. di Bernoulli B(1,p=0.10), in cui p rappresenta la proporzione di palline rosse nella popolazione, la v.c. X/10 ha una distribuzione Binomiale Bin(n=10, p=0.10), la cui funzione di probabilità è: 10 − x ⎛ X ⎞ ⎛ 10 ⎞ f ⎜ ⎟ = ⎜ ⎟ 0.1x (1 − 0.1) ⎝ 10 ⎠ ⎝ x ⎠ Per x=0,1,…..,10 si ottiene la distribuzione campionaria della v.c. X/10: 10 − 0 ⎛ 0 ⎞ ⎛10 ⎞ f ⎜ ⎟ = ⎜ ⎟ 0.10 (1 − 0.1) = 0.34868 ⎝ 10 ⎠ ⎝ 0 ⎠ 10 −1 ⎛ 1 ⎞ ⎛10 ⎞ f ⎜ ⎟ = ⎜ ⎟ 0.11 (1 − 0.1) = 0.38742 ⎝ 10 ⎠ ⎝ 1 ⎠ 10 − 2 ⎛ 2 ⎞ ⎛10 ⎞ f ⎜ ⎟ = ⎜ ⎟ 0.12 (1 − 0.1) = 0.19371 ⎝ 10 ⎠ ⎝ 2 ⎠ 10 − 3 ⎛ 3 ⎞ ⎛10 ⎞ f ⎜ ⎟ = ⎜ ⎟ 0.13 (1 − 0.1) = 0.05739 ⎝ 10 ⎠ ⎝ 3 ⎠ 10 − 4 ⎛ 4 ⎞ ⎛10 ⎞ = 0.01116 f ⎜ ⎟ = ⎜ ⎟ 0.14 (1 − 0.1) ⎝ 10 ⎠ ⎝ 4 ⎠ 10 − 5 ⎛ 5 ⎞ ⎛10 ⎞ = 0.00149 f ⎜ ⎟ = ⎜ ⎟ 0.15 (1 − 0.1) ⎝ 10 ⎠ ⎝ 5 ⎠ 10 − 6 ⎛ 6 ⎞ ⎛10 ⎞ = 0.00014 f ⎜ ⎟ = ⎜ ⎟ 0.16 (1 − 0.1) ⎝ 10 ⎠ ⎝ 6 ⎠ 10 − 7 ⎛ 7 ⎞ ⎛10 ⎞ = 0.00001 f ⎜ ⎟ = ⎜ ⎟ 0.17 (1 − 0.1) ⎝ 10 ⎠ ⎝ 7 ⎠ 10 −8 ⎛ 8 ⎞ ⎛10 ⎞ f ⎜ ⎟ = ⎜ ⎟ 0.18 (1 − 0.1) = 0.00000 ⎝ 10 ⎠ ⎝ 8 ⎠ 10 − 9 ⎛ 9 ⎞ ⎛10 ⎞ f ⎜ ⎟ = ⎜ ⎟ 0.19 (1 − 0.1) = 0.00000 ⎝ 10 ⎠ ⎝ 9 ⎠ 10 −10 ⎛ 10 ⎞ ⎛10 ⎞ f ⎜ ⎟ = ⎜ ⎟ 0.110 (1 − 0.1) = 0.00000 ⎝ 10 ⎠ ⎝10 ⎠ b) La probabilità di ottenere un campione con almeno 7 palline rosse. La probabilità di estrarre un campione con almeno 7 palline rosse si ottiene sommando le probabilità: 10 ⎛ i ⎞ ⎛10 ⎞ ∑ f ⎜⎝ 10 ⎟⎠ = ⎜ i ⎟ 0.1 (1 − 0.1) i =7 ⎝ ⎠ i 10 − i = 0.00001 Esercizio 2 La durata delle telefonate effettuate ad un call-center nella fascia oraria 9-11 ha una distribuzione normale con media 175 secondi e varianza 16. Si determini la probabilità che le prime 10 chiamate effettuate nella fascia oraria di riferimento nella giornata di domani abbiano una durata media compresa tra 173 e 176 secondi. SVOLGIMENTO Anche in questo caso non è possibile costruire l’universo di tutti i possibili campioni di ordine 10. Si può ritenere che la distribuzione delle chiamate effettuate nella fascia oraria….., segua una distribuzione normale con media 175 e varianza 16. Sotto questa ipotesi la media campionaria ha anch’essa una 2 distribuzione normale con media µ e varianza σ n . La probabilità richiesta sarà quindi data da: ⎛ 173 − 175 X − µ 176 − 175 ⎞ P (173 ≤ X ≤ 176 ) = P ⎜ ≤ ≤ ⎟= 4 10 n 4 10 σ ⎝ ⎠ ⎛ ⎞ X −µ = P ⎜ −1.58 ≤ ≤ 0.79 ⎟ = 0.78542 − (1 − 0.94295 ) = 0.72819 σ n ⎝ ⎠ Esercizio 3 Nella giornata di ieri il programma in onda in prima serata sulla rete X ha registrato uno share del 40%. Si determini la probabilità che, estraendo con ripetizione un campione di 1000 telespettatori, almeno il 38% di essi abbia guardato il programma in oggetto. SVOLGIMENTO L’universo di campioni di ordine 1000 è formato da N1000 elementi. Se si contano i telespettatori che hanno assistito al programma della rete X in ciascun campione si ottiene una v.c. X che può assumere valori 1,2,….,1000 ciascuno con probabilità pari alla somma delle probabilità di tutti i campioni che danno luogo a quel risultato. La distribuzione della v.c. X/1000 è la distribuzione campionaria cercata. In questo caso non è possibile costruire l’universo di tutti i possibili campioni (da cui poi derivare la distribuzione di X/1000). Poiché la distribuzione di frequenza del carattere dicotomico “estrazione di un telespettatore che ha assistito al programma della rete X” è rappresentata da una v.c. di Bernoulli B(1,p=0.40), in cui p rappresenta la proporzione di telespettatori che ha assistito al programma in oggetto nella popolazione, la v.c. X/1000 ha una distribuzione Binomiale Bin(n=1000, p=0.40), la cui funzione di probabilità è: 1000 − x ⎛ X ⎞ ⎛1000 ⎞ x f⎜ ⎟ = ⎜ x ⎟ 0.4 (1 − 0.4 ) ⎝ 1000 ⎠ ⎝ ⎠ La probabilità richiesta può essere calcolata nel seguente modo: 1000 − x ⎛ X ⎞ 1000 ⎛ 1000 ⎞ x ≥ 0.38 ⎟ = ∑ ⎜ P⎜ ⎟ 0.4 (1 − 0.4 ) ⎝ 1000 ⎠ x =380 ⎝ x ⎠ Poiché per n che tende all’infinito la v.c. X/1000 tende ad una distribuzione normale N ( µ = p, σ 2 = p (1 − p ) n ) quando si ha un campione sufficientemente grande si può approssimare la distribuzione binomiale con la distribuzione normale. La probabilità cercata risulta: ⎛ ⎜ 0.38 − 0.40 P⎜Z ≥ ⎜ ( 0.4 )( 0.6 ) ⎜⎜ 1000 ⎝ ⎞ ⎟ ⎟ = P ( Z ≥ −1.29 ) = 0.90147 ⎟ ⎟⎟ ⎠ Esercizio 4 Sia X il tempo di percorrenza di una intera corsa dell’autobus “128”. Si suppone che X sia distribuito modo normale con media incognita e varianza σ 2 = 16 . Si determini la probabilità che la devianza campionaria nS2 in un campione di n=13 corse risulti superiore a 6.304 σ 2 . SVOLGIMENTO La devianza campionaria nS2 è il numeratore della varianza campionaria S2 . Poiché il rapporto nS 2 σ 2 ≈ χ ( n −1) avremo: ( ) ( ) P ( nS 2 ≥ 6.304σ 2 ) = P ( nS 2 σ 2 ≥ 6.304 ) = P χ ( n −1) ≥ 6.304 = P χ (12) ≥ 6.304 = 0.90 Esercizio 5 Sia X n = ( x1 , x2 , K , xn ) un campione casuale proveniente da una popolazione con media uguale a µ e varianza σ 2 . Determinare l’efficienza relativa del valore centrale campionario (semisomma dei due valori estremi campionari) rispetto alla media campionaria. SVOLGIMENTO Sia Tn lo stimatore valore centrale campionario: Tn = X (1) + X ( n ) 2 . Sia il valore centrale campionario che la media campionaria sono non distorti rispetto al parametro µ . Infatti: ⎛ X (1) + X ( n ) ⎞ µ + µ a) E (Tn ) = E ⎜ =µ ⎟⎟ = ⎜ 2 2 ⎝ ⎠ b) E ( X ) = µ L’efficienza relativa di Tn rispetto alla media campionaria è: 1 Var (Tn ) Var ( X n ) eff (Tn | X ) = = 1 Var (Tn ) Var ( X n ) In cui: ( ) ( ) ⎛ X (1) + X ( n ) ⎞ Var X (1) + Var X ( n ) 2σ 2 σ 2 Var (Tn ) = Var ⎜ = = ⎟⎟ = ⎜ 2 4 4 2 ⎝ ⎠ Var ( X ) = σ2 n Sostituendo questi risultati all’interno dell’espressione eff (Tn | X ) = Var ( X n ) Var (Tn ) eff (Tn | X ) si ottiene: σ2 2 = n2 = ≤ 1 σ n 2 L’uguaglianza sussiste solo nel caso n=2. In tal caso il valore centrale campionario coincide con la media campionaria. Invece per n>2 lo stimatore Tn risulta meno efficiente della media campionaria. Esercizio 6 Data una popolazione normale con media nulla e varianza σ 2 ed estratto un campione casuale di ordine n=2, si stabilisca quale, fra i seguenti stimatori di σ 2 risulta preferibile e perché. T1 = X 12 ; T2 = X 12 + X 22 ; T3 = T2 ⎛ X 12 + X 22 ⎞ =⎜ ⎟ 2 ⎝ 2 ⎠ SVOLGIMENTO Calcoliamo la distorsione dei 3 stimatori: E (T1 ) = E ( X 12 ) = σ 2 perché la media è nulla; E (T2 ) = E ( X 12 + X 22 ) = 2σ 2 E (T3 ) = E (T2 ) 2σ 2 = =σ2 2 2 Il primo ed il terzo stimatore risultano corretti mentre il secondo è distorto. Per quest’ultimo la distorsione è: b (T2 ) = 2σ 2 − σ 2 = σ 2 Il confronto tra i tre stimatori va fatto sulla base dei loro rispettivi Errori Quadratici Medi (EQM): EQM (T1 ) = Var (T1 ) + ⎡⎣b (T1 ) ⎤⎦ = 2 ( ) ( ) = E ( X ) − ⎡ E ( X ) ⎤ = µ − σ = 3σ ⎣ ⎦ 2 2 = Var (T1 ) − 02 = E T1 − ⎡ E T1 ⎤ = ⎣ ⎦ 4 1 2 1 2 4 4 4 − σ 4 = 2σ 4 perché per una v.c. normale µ4 = 3σ 4 ( ) 2 2 2 2 Var (T2 ) = E T2 − ⎡⎣ E (T2 ) ⎤⎦ = E ⎡⎢( X 12 + X 22 ) ⎤⎥ − ( 2σ 2 ) = E ( X 14 ) + E ( X 14 ) + 2 E ( X 12 ⋅ X 12 ) − 4σ 4 = ⎣ ⎦ = 2 µ4 − 2 E ( X 12 ) E ( X 22 ) − 4σ 4 = 6σ 4 + 2σ 4 − 4σ 4 = 4σ 4 EQM (T2 ) = Var (T2 ) + ⎡⎣b (T2 ) ⎤⎦ = 4σ 4 + (σ 2 ) = 5σ 4 2 2 EQM (T3 ) = Var (T3 ) = Var (T2 ) 22 = 4σ 4 =σ4 4 Lo stimatore che presenta la minore variabilità intorno al parametro σ 2 e T3 .