STATISTICA A – K (60 ore) Marco Riani [email protected] http://www.riani.it Esercizio: stima della percorrenza media delle vetture diesel di un certo modello al primo guasto • n=400 scor=9000 Km X=34.000 Km; • Livello di confidenza (1-α)=0,95 z(0,05)=1,96 • P{33118 < µ< 34882}=0,95 • Livello di confidenza (1-α)=0,99 z(0,01)=2,58 • P{32839 < µ< 35161}=0,99 Esercizio • Il tempo impiegato da un meccanico in un negozio di biciclette per assemblare un certo tipo di bicicletta può essere considerato una vv.c. c normale con media 32 minuti e deviazione standard 3,5 minuti. Si calcoli la probabilità che il tempo medio per assemblare 10 biciclette – Non superi 33 minuti – Sia compreso tra 28,5 e 31,5 minuti Soluzione • Calcolo di Pr( 28,5 < X < 31,5) = ? Pr( X < 31,5) = Pr( Z < -0,45175 ) = 0,32572 Pr(( X < 28,5) = Pr(( Z < -3,16228 ) = 0,00078 Pr( 28,5 < X < 31,5) = 0,32494 Soluzione • X=v.c. tempo impiegato • X~N(32, 3,52) X ~ N( μ , σ 2 n Pr( X < 33) = Pr( ) X ~ N ( 32 , n=10 3 ,5 2 ) 10 X −μ 33 − 32 < ) σ / n 3,5 / 10 Pr( X < 33) = Pr( Z < 0,9035 ) = 0,8169 Il valore 0.8169 è stato ottenuto dalla funzione di Excel =DISTRIB.NORM.ST(0,9035). Utilizzando le tavole F(0,90)=0,81594 Esercizio • Sia X1 X2 …, X80 un campione casuale proveniente da una popolazione distribuita secondo il modello f(x)=3x2 (0<x<1). Si determini la probabilità che la media campionaria sia minore di 0,8. I valori 0,32572 e 0,00078 sono stati ottenuti con le funzioni di Excel =DISTRIB.NORM.ST(-0,45175) e =DISTRIB.NORM.ST(-3,16228). Utilizzando le tavole si ottiene F(-0,45)-F(-3,16)= 0.32636- 0.00079=0.32557 1 Soluzione • Passo 1. Calcolare la media e la varianza dell’universo X che presenta densità f(x)=3x2 (0<x<1) Distribuzione del fenomeno nell’universo • Rappresentazione grafica di f(x)=3x2 (0<x<1) • X presenta distribuzione non normale con E(X)=µ=3/4 e VAR(X)=σ2=3/80 • X presenta distribuzione non normale con E(X)=µ=3/4 e VAR(X)=σ2=3/80 Si consideri una generica popolazione X con media µ e varianza σ2 • La media campionaria di un campione di 80 osservazioni estratte da X presenta la seguente distribuzione approssimata (per il teorema centrale del limite) • Siano T1=(X1+X2+X3+X4)/4 e T2=(3X1+4X2+X3+2X4)/10 due stimatori di µ per campioni di ampiezza n=4 • Si effettuino le seguenti operazioni: X ~ N( μ , σ2 n – Si verifichi che lo stimatore T2 è non distorto – Si determini la varianza dei due stimatori e si stabilisca quale dei due stimatori è più efficiente Hint: X1 X2 X3 X4 are random variables IID (independent and identically distributed) with the same distribution of X ) Soluzione • Verifica che T2 è non distorto • E(T2)=(1/10)E(3X1+4X2+X3+2X4) =(1/10) [3 E(X1)+4E(X2)+E(X3)+2E(X4)]= = (1/10) [ 3µ +4µ + µ + 2µ]=µ • Calcolo della varianza dei due stimatori • VAR(T1)=σ2/4=0,25σ2 • VAR(T2)= (1/100) [ 9σ2 +16σ2 + σ2+4σ2] =(30/100) σ2=0,3σ2 • Dato che VAR(T1)<VAR(T2) T1 è più efficiente e quindi preferibile Esercizio • Si definisce errore quadratico medio (MSE=mean square error) di uno stimatore T di un parametro θ la quantità • E(TE(T θ)2. – Dimostrare che se lo stimatore T è corretto il suo MSE coincide con la sua varianza – Dimostrare che se lo stimatore T è distorto il suo MSE può essere scritto come: MSE(T)=VAR(T) + Bias2 2 Soluzione: Dimostrare che se lo stimatore T è corretto il suo MSE coincide con la sua varianza • Se T è uno stimatore non distorto di θ allora E(T)= θ quindi • MSE=E(T- θ)2. • MSE=E(TMSE E(T θ)2= E(TE(T E(T))2=VAR(T) VAR(T) Soluzione: Dimostrare che se lo stimatore T è distorto il suo MSE può essere scritto come: MSE(T)=VAR MSE(T) =VAR(T) (T) + Bias2 • MSE(T)=E(T - θ)2= E(T- E(T) +E(T) - θ)2 • Svolgendo il quadrato si ottiene: • MSE(T)=E(T – E(T))2 + (E(T) - θ)2 2*(E(T) - θ)*E(T – E(T)) • Il doppio prodotto è zero quindi MSE(T)= E(T – E(T))2 + (E(T) - θ)2=VAR(T)+Bias2 Esercizio • La deviazione standard della statura degli studenti iscritti ad una università è 5,8 cm. Quanti studenti si devono estrarre a sorte dalla popolazione se si vuole con probabilità del 90% che l’errore di stima della media non superi i 2 cm. Soluzione: informazioni note X~(µ X~ (µ 5,82) • Se l’intervallo di confidenza è al 90% si ottiene σ σ ⎫ ⎧ P ⎨ X − 1,65 ≤ μ ≤ X + 1,65 ⎬ = 0,90 n n⎭ ⎩ σ ⎫ ⎧ P ⎨| X − μ |≤ 1,65 ⎬ = 0,90 n⎭ ⎩ Se vogliamo che l’errore di stima della media non superi i 2 cm | X − μ |≤ 2 1,65 Esercizio • I dati che seguono si riferiscono alla durata (in migliaia di Km) di una cinghia da automobile in un campione di 15 osservazioni • 115,4 85,2 89,1 118,3 88,4 109,3 104,3 69,3 105,5 106,8 103,1 101,6 102,9 89,6 109,3 • Facendo le opportune ipotesi, si costruisca un intervallo di confidenza per la media al 99% σ n ≤2 n≥ (1,65 * 5,8)2 ≈ 23 4 Soluzione X • n=15 =99,87 mila Km; s2cor=170,24 • Ip. Distribuzione normale nell’universo s s ⎫ ⎧ P ⎨ X − t (α ) cor ≤ μ ≤ X + t (α ) cor ⎬ = 1 − α n n⎭ ⎩ 13,05 13,05 ⎫ ⎧ ≤ μ ≤ 99,87 + 2,977 P ⎨99,87 − 2,977 ⎬ = 0,99 15 15 ⎭ ⎩ P{89,84 ≤ μ ≤ 109,9} = 0,99 3 Esercizio • Di seguito sono riportati i Km percorsi in un giorno da un campione di taxi operante in una grande città • 173 195 115 122 154 149 120 148 152 68 132 91 120 148 103 101 • Sulla base di questo campione assumendo che la popolazione generatrice sia normale è stato determinato il seguente intervallo di confidenza (116,55 144,7). Si calcoli il livello di confidenza su cui è stato calcolato Soluzione Media campionaria=130,6875 n=16 Scor=32,21122 s ⎫ s ⎧ P ⎨ X − t (α ) cor ≤ μ ≤ X + t (α ) cor ⎬ = P{116,55 ≤ μ ≤ 144,7} = 1 − α n⎭ n ⎩ • Equazione da risolvere x + t (α ) scor = 144,7 n t (α ) = (144,7 − x ) n / scor = 1,74 Dalla tavola t(α)=1,74 con g=15 corrisponde ad α di poco superiore a 0,1 ossia ad un 1- α di poco inferiore a 0,9 (Utilizzando la funzione di Excel distrib.t(1,74;15;2) si ottiene α =0,102329) Variante al precedente esercizio • Se i dati di base fossero stati i seguenti: • 172 195 115 122 154 149 120 148 152 68 132 91 120 148 103 101 • Quale Q l sarebbe bb stato t t il lilivello ll di confidenza fid dell’intervallo (116,55 144,7)? • Media campionaria=130,625 • Scor=32,1245 t(α)=1,75 Î α≈0,10 • Î 1- α ≈ 0,9 Stima di µ in distribuzioni di frequenze Esercizio Un’azienda produce rotoli di stoffa della lunghezza di 70m. Tali rotoli possono presentare difetti di diversa natura. L’azienda è interessata a stimare il numero medio di difetti presenti nei rotoli prodotti. prodotti In un campione casuale di 85 rotoli si è trovata la seguente distribuzione n. difetti 0 1 2 3 4 5 6 Frequenza 16 26 22 13 5 2 1 Si determini l’intervallo di confidenza al 99% per la media dei difetti presenti nei rotoli di stoffa Stima corretta di σ in presenza di distribuzioni di frequenze r s cor = ∑ (x i =1 − x ) ⋅ ni 2 i r ∑n i −1 i =1 4 Soluzione • Media campionaria=1,7059 Scor=1,3347 • S2= 1,760554 s ⎫ s ⎧ P ⎨ X − 2,58 cor ≤ μ ≤ X + 2,58 cor ⎬ = 0,99 n n⎭ ⎩ P{1,33 ≤ μ ≤ 2,08} = 0,99 5