Esercitazioni di Statistica 16 Dicembre 2009 Riepilogo Prof. Gianluca Cubadda [email protected] Dott.ssa Emmanuela Bernardini [email protected] Esercizio 1 I dati seguenti costituiscono le ore di studio da un campione di studenti che hanno superato l’esame relativo a un insegnamento da 2 CFU. (57, 58, 31, 55, 38, 102, 63, 63, 53, 259, 50, 11, 67, 4, 73, 33, 97, 28) a) Calcolare la mediana e il MAD. b) Lo scarto quadratico medio di questi dati è 55.1. A cosa è dovuta la differenza fra il valore dello scarto quadratico medio e quello del MAD? Soluzione a) Per calcolare la mediana è necessario ordinare le osservazioni in maniera crescente. Serie ordinata x(1) = 4 x(2) = 11 x(3) = 28 x(4) = 31 x(5) = 33 x(6) = 38 x(7) = 50 x(8) = 53 x(9) = 55 x(10) = 57 x(11) = 58 x(12) = 63 x(13) = 63 x(14) = 67 x(15) = 73 x(16) = 97 x(17) = 102 x(18) = 259 1 per poi calcolare la profondità della mediana e il suo valore prof(med) = med = n+1 19 = = 9.5 2 2 x(9) + x(10) 55 + 57 = = 56 2 2 Per calcolare il MAD si devono calcolare le deviazioni dalla mediana (56) xi − Med(xi ) −52 −45 −28 −25 −23 −18 −6 −3 −1 1 1 1 2 3 6 2 7 7 11 17 41 46 203 |xi − Med(xi )| ordinati 7 7 11 17 18 23 25 28 41 45 46 52 203 e poi la mediana di questa nuova distribuzione med = x(9) + x(10) 17 + 18 = = 17.5 2 2 MAD = 1.483 Med(|xi − Med(xi )|) = 1.483 · 17.5 = 25.95 b) La differenza tra lo scarto quadratico medio e il MAD è dovuta alla presenza di valori anomali nella distribuzione (259). Mentre il MAD non risulta influenzato dalla presenza di valori anomali, la varianza, essendo la media dei quadrati degli scarti dalla media, è sensibile rispetto ai valori anomali, e così anche lo scarto quadratico medio. Esercizio 2 (10.9 Monti) La distribuzione dei voti conseguiti dagli studenti a un esame di statistica ha una distribuzione approssimativamente normale, con media 24 e scarto quadratico medio 3.3. Invece la distribuzione dei voti conseguiti a un esame di economia ha una distribuzione approssimativamente normale con media 25 e scarto quadratico medio 1.5. Se i docenti utilizzano una graduatoria, in base alla quale sono classificati con A il 10% dei più bravi, è preferibile ottenere 28 all’esame di statistica, o 27 all’esame di matematica? Soluzione Chiamiamo X la variabile voto ottenuto all’esame di statistica e Y la variabile voto ottenuto all’esame di matematica. Uno studente sarà classificato con A se il suo voto sarà tra il 10% dei voti più alti conseguiti all’esame. Quindi per sapere se si ricadrà nel gruppo A prendendo 28 a statistica, o 27 a matematica, è sufficiente calcolare la probabilità che qualcuno ottenga un voto più alto del nostro. Ossia ¶ µ 28 − 24 = P (Z > 1.21) = 1 − 0.8869 = 0.1131 P (X > 28) = P Z > 3.3 2 e µ P (Y > 27) = P 27 − 25 Z> 1.5 ¶ = P (Z > 1.33) = 1 − 0.9082 = 0.0918 Poichè nel caso dell’esame di matematica, se prendessimo 27, la probabilità che qualcuno prenda un voto più alto del nostro è solo del 9%, in questo caso dovremmo ricadere tra il 10% dei migliori. Diversamente è nel caso di un 28 a statistica. Quindi sarebbe meglio prendere un 27 a statistica. Esercizio 3 Si calcolino le seguenti probabilità a) P (t8 > 2.306) b) P (t9 < −2.262) c) P (t17 < 1.740) d) P (t23 < 1.5) e) P (χ229 > 19.77) f) P (χ270 < 85.53) Soluzione a) P (t8 > 2.306) = 0.025 b) P (t9 < −2.262) = P (t9 > 2.262) = 0.025 c) P (t17 < 1.740) = 1 − P (t17 > 1.740) = 1 − 0.05 = 0.95 d) P (t23 < 1.5) = 1 − P (t23 > 1.5) 0.05 < P (t23 > 1.5) < 0.1 1 − 0.1 < P (t23 < 1.5) < 1 − 0.05 0.9 < P (t23 < 1.5) < 0.95 e) P (χ229 > 19.77) = 0.9 f) P (χ270 < 85.53) = 1 − P (χ270 > 85.53) = 1 − 0.1 = 0.9 Esercizio 4 American Airline sostiene che il 5% degli individui che hanno prenotato il volo non si presentano al check in. Se la compagnia ha venduto 240 biglietti per un volo che ha solo 233 posti a sedere, qual è la probabilità che tutti i passeggeri che si presentano abbiano un posto a sedere? 3 Soluzione X = “Presentarsi al check-in” X ∼ Ber(0.95) X1 , X2 , . . . , X240 è un campione casuale di variabili casuali i.i.d di X. Definiamo Y = 240 X Xi , i=1 quindi, Y ∼ B(240, 0.95), essendo la somma di 240 variabili casuali indipendenti ed identicamente distribuite secondo una Bernoulli di parametro 0.95. Essendo n sufficientemente elevato, per il teorema del limite centrale si ha che: a Y ∼ N (240 × 0.95, 240 × 0.95 × (1 − 0.95)). a Y ∼ N (228, 11.4). A questo punto l’esercizio è di facile risoluzione; considerando, infatti, un’approssimazione per continuità, otteniamo che: µ ¶ Y − 228 233 − 228 P (Y ≤ 233) = P ≤ ' P (Z ≤ 1.48) = 0.9306 3.3764 3.3764 Esercizio 5 Per analizzare la riuscita scolastica degli adolescenti si estrae un campione casuale semplice con reintroduzione di 600 studenti della prima classe superiore. In tale campione il numero di ragazzi bocciati è pari a 220. a) Definire lo stimatore puntuale per la media e la varianza della variabie casuale essere bocciati, e le relative stime nel campione. b) Definire lo stimatore per intervallo della proporzione di ragazzi bocciati al livello di confidenza α, e ricavare la stima per intervallo per un livello di confidenza del 90%. c) Calcolare la lunghezza della stima per intervallo al punto sopra. d) Verificare l’ipotesi nulla che π = 0.4 contro l’alternativa che π 6= 0.4 al livello di significatività del 10%. Possiamo utilizzare i risultati dei punti precedenti per rispondere a questa domanda? Perchè? e) Calcolare il p-valore associato al set d’ipotesi del punto precedente. Soluzione Definiamo X la variabile essere bocciati. ( 1 se lo studente viene bocciato prob = π X= 0 se lo studente viene promosso prob = 1 − π. X ∼ Ber(π). 4 a) Poichè X è distribuita come una Bernulli, lo stimatore della media di X è la proporzione campionaria p̂, e lo stimatore della varianza di X è p̂(1 − p̂). Le stime nel campione sono Pn xi x̄ = p̂ = i=1 = 220/600 = 0.36 n σ̂ 2 = p̂(1 − p̂) = 0.36(1 − 0.36) = 0.23 b) Di conseguenza la quantità pivot per la costruzione dello stimatore per intervalli è la proporzione campionaria studentizzata p̂ − π p p̂(1 − p̂)/n Questa quantità per n sufficientemente elevato ha una distribuzione approssimativamente normale standard. Lo stimatore per intervallo al livello di confidenza 1 − α è, quindi, un intervallo casuale i cui estremi sono definiti dalle statistiche campionarie p p L2 = p̂ + zα/2 p̂(1 − p̂)/n L1 = p̂ − zα/2 p̂(1 − p̂)/n dove zα/2 è il percentile di una variabile casuale normale standard, tale che P (Z > zα/2 ) = α/2. La stima per intervallo al livello di confidenza del 90%, è l’intervallo che ha come estremi i valori di L1 e L2 in corrispondenza del campione osservato: " # r r p̂(1 − p̂) p̂(1 − p̂) 90%IC ' [l1 , l2 ] = p̂ − zα/2 ; p̂ + zα/2 n n " # r r 0.36(1 − 0.36) 0.36(1 − 0.36) = 0.36 − 1.645 ; 0.36 + 1.645 600 600 = [0.328; 0.392] c) La lunghezza della stima per intervallo è data dalla differenza tra l’estremo superiore e l’estremo inferiore della stima à ! r r p̂(1 − p̂) p̂(1 − p̂) L = (l2 − l1 ) = p̂ + zα/2 − p̂ + zα/2 n n à ! r p̂(1 − p̂) = 2 · zα/2 = (0.392 − 0.328) = 0.064 n d) Vogliamo verificare il seguente sistema d’ipotesi ( H0 : π = 0.4 H1 : π 6= 0.4. al livello di significatività del 10%. Per testare questa ipotesi si utilizza la statistica test p̂ − π0 ' N (0, 1), Tn = p π0 (1 − π0 )/n 5 ossia la media campionaria standardizzata per una popolazione di Bernoulli. Per il teorema del limite centrale, per n sufficientemente elevato, quando π = π0 , la statistica test avrà una distribuzione approssimativamente normale. Il test è bidirezionale, quindi dal confronto tra ipotesi nulla e ipotesi alternativa, possiamo dire che la regione critica, e la regione di accettazione saranno del tipo: ¯ ¯ ¯ ¯ p̂ − π0 ¯ ¯ R.C. : ¯ p ¯ > zα /2 ¯ π0 (1 − π0 )/n ¯ ¯ ¯ ¯ ¯ p̂ − π0 ¯ ¯ p R.A. : ¯ ¯ ≤ zα/2 ¯ π0 (1 − π0 )/n ¯ Il valore di z0.1 è determinabile attraverso la seguente relazione: α = 0.1 → α/2 = 0.05 → Φ(z0.05 ) = 1−0.05 = 0.95 → zα/2 = 1.645, → −zα/2 = −1.645 . Riassumendo si è trovato che la regione critica R.C. è data da: ¯ ¯ ¯ ¯ p̂ − π ¯ ¯ 0 R.C. : ¯ p ¯ > 1.645, ¯ π0 (1 − π0 )/n ¯ e la regione di accettazione ¯ ¯ ¯ ¯ p̂ − π0 ¯ ¯ p R.A. : ¯ ¯ ≤ 1.645 ¯ π0 (1 − π0 )/n ¯ Per decidere a favore o contro l’ipotesi nulla si calcola il valore della statistica test, dato il nostro campione, sotto l’ipotesi nulla: p̂ − π0 tn = p π0 (1 − π0 )/n 0.36 − 0.4 =p 0.4(1 − 0.4)/600 = −2 Dato che il valore osservato della media campionaria standardizzata appartiene alla regione critica, si può rigettare l’ipotesi nulla in favore di quella alternativa, data l’evidenza empirica al livello di significatività del 10%. Non si può utilizzare la stima per intervallo calcolata al punto b) per rispondere a questa domanda perchè, nel caso di test sulla proporzione, la statistica test non coincide con la quantità pivot per la costruzione dell’intervallo. e) Il p-valore è la probabilità che una statistica test assuma un valore più estremo di quello osservato sotto l’ipotesi nulla. Per un test d’ipotesi bilaterale p − valore = P (Tn < −|tn |) + P (Tn > |tn |) = 2 · P (Tn > |tn |) = 2 · P (Z > 2) = 2 · (1 − 0.9772) = 0.0456 Dato questo p-valore, si rifuta l’ipotesi nulla per valori di significatività superiori al p-valore (come nel caso sopra 10%), e non si rifiuta l’ipotesi nulla per livelli di significatività inferiori (Es: 1%). 6 SINTESI DELLE DISTRIBUZIONI DELLE STATISTICHE TEST E DELLE QUANTITA’ PIVOT a Commento alle tavole: ∼ significa che la statistica test (o la quantità pivot) si distribuisce approssimativamente. Dove non è riportata la distribuzione significa che la statistica test (o la quantità pivot) non ha una distribuzione nota. Tabella 1: Distribuzione della quantità pivot e della statistica test per la probabilità di successo π X ∼ Ber(π) n piccolo n grande Quantità Pivot Statistica Test p̂−π p̂(1−p̂)/n √ p̂−π0 π0 (1−π0 )/n √ 7 a p̂−π ∼ N (0, 1) p̂(1−p̂)/n a √ p̂−π0 ∼ N (0, 1) π0 (1−π0 )/n √ 8 Statistica Test Quantità Pivot X̄−µ √ σ/ n X̄−µ √0 σ/ n ∼ N (0, 1) ∼ N (0, 1) X̄−µ √ σ̂/ n X̄−µ √0 σ̂/ n ∼ tn−1 ∼ tn−1 X̄−µ √ σ/ n X̄−µ √0 σ/ n ∼ N (0, 1) ∼ N (0, 1) a X̄−µ √ ∼ σ̂/ n a X̄−µ √0 ∼ σ̂/ n N (0, 1) N (0, 1) X̄−µ √ σ/ n X̄−µ √0 σ/ n X̄−µ √ σ̂/ n X̄−µ √0 σ̂/ n a X̄−µ √ ∼ σ/ n a X̄−µ √0 ∼ σ/ n N (0, 1) N (0, 1) σ̂ 2 a X̄−µ √ ∼ N (0, 1) σ̂/ n a X̄−µ √ 0 ∼ N (0, 1) σ̂/ n Tabella 2: Distribuzione della quantità pivot e della statistica test per la media µ X ∼ N (µ, σ 2 ) X= 6 N (µ, σ 2 ) n piccolo n grande n piccolo n grande 2 2 2 2 2 2 2 σ σ̂ σ σ̂ σ σ̂ σ