STATISTICA A – K (60 ore) Marco Riani [email protected] http://www.riani.it Esercizio: si consideri una generica popolazione X con media µ e varianza σ2 • Siano T1=(X1+X2+X3+X4)/4 e T2=(3X1+4X2+X3+2X4)/10 due stimatori di µ per campioni di ampiezza n=4 • Si effettuino le seguenti operazioni: – Si verifichi che lo stimatore T2 è non distorto – Si determini la varianza dei due stimatori e si stabilisca quale dei due stimatori è più efficiente Hint: X1 X2 X3 X4 are random variables IID (independent and identically distributed) with the same distribution of X Marco Riani, Univ. di Parma - Statistica AK 1 Soluzione • Verifica che T2 è non distorto • E(T2)=(1/10)E(3X1+4X2+X3+2X4) =(1/10) [3 E(X1)+4E(X2)+E(X3)+2E(X4)]= = (1/10) [ 3µ +4µ + µ + 2µ]=µ • Calcolo della varianza dei due stimatori • VAR(T1)=σ2/4=0,25σ2 • VAR(T2)= (1/100) [ 9σ2 +16σ2 + σ2+4σ2] =(30/100) σ2=0,3σ2 • Dato che VAR(T1)<VAR(T2) T1 è più efficiente e quindi preferibile Esercizio • Il tempo impiegato da un meccanico in un negozio di biciclette per assemblare un certo tipo di bicicletta può essere considerato una v.c. normale con media 32 minuti e deviazione standard 3,5 minuti. Si calcoli la probabilità che il tempo medio per assemblare 10 biciclette – Non superi 33 minuti – Sia compreso tra 28,5 e 31,5 minuti Marco Riani, Univ. di Parma - Statistica AK 2 Soluzione • X=v.c. tempo impiegato • X~N(32, 3,52) n=10 Il valore 0.8169 è stato ottenuto dalla funzione di Excel =DISTRIB.NORM.ST(0,9035). Utilizzando le tavole F(0,90)=0,81594 • Calcolo di I valori 0,32572 e 0,00078 sono stati ottenuti con le funzioni di Excel =DISTRIB.NORM.ST(-0,45175) e =DISTRIB.NORM.ST(-3,16228). Utilizzando le tavole si ottiene F(-0,45)-F(-3,16)= 0.32636- 0.00079=0.32557 Marco Riani, Univ. di Parma - Statistica AK 3 Esercizio • Sia X1 X2 …, X80 un campione casuale proveniente da una popolazione distribuita secondo il modello f(x)=3x2 (0<x<1). Si determini la probabilità che la media campionaria sia minore di 0,8. Esercizio • Sia X1 X2 …, X80 un campione casuale proveniente da una popolazione distribuita secondo il modello f(x)=3x2 (0<x<1). Si determini la probabilità che la media campionaria sia minore di 0,8. Marco Riani, Univ. di Parma - Statistica AK 4 Distribuzione del fenomeno nell’universo Rappresentazione grafica di f(x)=3x2 (0<x<1) Soluzione • Dato che • Per calcolare la probabilità che la media campionaria sia minore di 0,8 è necessario trovare la media (µ) e la varianza (σ2) dell’universo Marco Riani, Univ. di Parma - Statistica AK 5 Soluzione • Passo 1. Calcolare la media e la varianza dell’universo X che presenta densità f(x)=3x2 (0<x<1) • X presenta distribuzione (non normale) con E(X)=µ=3/4 e VAR(X)=σ2=3/80 • X presenta distribuzione non normale con E(X)=µ=3/4 e VAR(X)=σ2=3/80 • La media campionaria di un campione di 80 osservazioni estratte da X presenta la seguente distribuzione approssimata (per il teorema centrale del limite) Marco Riani, Univ. di Parma - Statistica AK 6 Esercizio • Si definisce errore quadratico medio (MSE=mean square error) di uno stimatore T di un parametro θ la quantità • E(T- θ)2. – Dimostrare che se lo stimatore T è corretto il suo MSE coincide con la sua varianza – Dimostrare che se lo stimatore T è distorto il suo MSE può essere scritto come: MSE(T)=VAR(T) + Bias2 Soluzione: dimostrare che se lo stimatore T è corretto il suo MSE coincide con la sua varianza • Se T è uno stimatore non distorto di θ allora E(T)= θ quindi • MSE=E(T- θ)2. • MSE=E(T- θ)2= E(T- E(T))2=VAR(T) Marco Riani, Univ. di Parma - Statistica AK 7 Soluzione: Dimostrare che se lo stimatore T è distorto il suo MSE può essere scritto come: MSE(T)=VAR(T) + Bias2 • MSE(T)=E(T - θ)2= E(T- E(T) +E(T) - θ)2 • Svolgendo il quadrato si ottiene: • MSE(T)=E(T – E(T))2 + (E(T) - θ)2 2*(E(T) - θ)*E(T – E(T)) • Il doppio prodotto è zero quindi MSE(T)= E(T – E(T))2 + (E(T) - θ)2=VAR(T)+Bias2 STIMA PER INTERVALLO Marco Riani, Univ. di Parma - Statistica AK 8 Stima per intervallo • Intervallo di confidenza di livello 1- α =intervallo che contiene il vero (ma ignoto) valore del parametro dell’universo con probabilità 1-α • 1-α= livello di confidenza Stima della media dell’universo (grandi campioni n>100) • Teorema centrale del limite Marco Riani, Univ. di Parma - Statistica AK 9 Costruzione dell’ int. di confidenza per la media campionaria al 95% 0,025 0,025 0,95 -1,96 1,96 Costruzione dell’ int. di confidenza per la media campionaria al 99% 0,005 0,005 0,99 -2,58 Marco Riani, Univ. di Parma - Statistica AK 2,58 10 Costruzione dell’ int. di confidenza per la media campionaria Costruzione dell’ int. di confidenza per la media campionaria al 95% Interpretazione: intervallo (simmetrico rispetto a X medio) entro il quale è compresa, con probabilità 0,95, la media d’un campione estratto a caso da un universo di cui si conoscono la media μ e la varianza σ2. Marco Riani, Univ. di Parma - Statistica AK 11 Esempio • Un’azienda ha 25000 dipendenti; la retribuzione media di tutti i dipendenti è µ=1800 Euro con σ=700 • Calcolare l’intervallo in cui è compresa con prob. 0,95 la media di un campione di 200 dipendenti • 1-α=0,95 Î z(α)=1,96 • µ=1800 • 1-α=0,95 Î z(α)=1,96 • µ=1800 • Intervallo in cui è compresa con prob. 0,95 la media delle retribuzioni di un campione di 200 dipendenti Marco Riani, Univ. di Parma - Statistica AK 12 Costruzione dell’ int. di confidenza per µ (p. 64) Intervallo di confidenza di µ • Intervallo entro cui è compresa con prob. 1-α l’ignota media dell’universo µ • Osservazione: la varianza dell’universo è solitamente ignota Î stimata con scor • Errore standard Marco Riani, Univ. di Parma - Statistica AK 13 Intervallo di confidenza di µ ad uso operativo (p. 65) • Ipotesi: n>=100 • Esempio: stima della durata media del funzionamento delle pile d’un certo tipo • n=160 =248 ore; s=26 ore • Livello di confidenza =0,99 Marco Riani, Univ. di Parma - Statistica AK 14 Osservazione • Nell’esempio precedente avevamo potuto applicare il teorema centrale del limite poiché n era elevato (n>30) • Cosa faccio quando n è piccolo? Ip. Il fenomeno presenta distribuzione normale nell’universo X~N(µ, σ2) • Se σ2 è noto • per qualunque n (anche n=1) • Se σ2 ignota e viene stimato con scor allora Distribuzione “t di Student” con n-1 gradi di libertà Marco Riani, Univ. di Parma - Statistica AK 15 Confronto tra una v.a. t di Student con g gradi di libertà ed una v.a. N(0,1) t(α) valori critici (“percentili”) nella v.a. t con g gradi di libertà • F[-t(α)]= α/2 F[t(α)]= 1-α/2 • Tavola in appendice: non riporta F(t) ma i “percentili” t(α) per α e g prefissati Marco Riani, Univ. di Parma - Statistica AK 16 VALORI CRITICI t(α) DELLA VARIABILE ALEATORIA T DI STUDENT PER g GRADI DI LIBERTA’ ED AL LIVELLO DI SIGNIFICATIVITA’ α α 0,1 0,05 0,02 0,01 0,001 1 6,314 12,706 31,821 63,656 636,578 2 2,920 4,303 6,965 9,925 31,600 3 2,353 3,182 4,541 5,841 12,924 4 2,132 2,776 3,747 4,604 8,610 5 2,015 2,571 3,365 4,032 6,869 6 1,943 2,447 3,143 3,707 5,959 7 1,895 2,365 2,998 α/2 3,499 5,408 8 1,860 2,306 2,896 3,355 5,041 g 9 1,833 2,262 2,821 3,250 4,781 10 1,812 2,228 2,764 3,169 -t(α) 4,587 11 1,796 2,201 2,718 3,106 4,437 12 1,782 2,179 2,681 3,055 4,318 13 1,771 2,160 2,650 3,012 4,221 14 1,761 2,145 2,624 2,977 ….. ….. …… ….. ……….. 1−α α/2 +t(α) 4,140 ……… 40 1,684 2,021 2,423 2,704 3,551 60 1,671 2,000 2,390 2,660 3,460 ∞ 1,645 1,960 2,326 2,587 3,291 Dato che • F[-t(α)]= α/2 Marco Riani, Univ. di Parma - Statistica AK F[t(α)]= 1-α/2 17 Intervallo di confidenza di livello 1 – α per la media dell’universo μ, nel caso di piccoli campioni e nell’ipotesi che X~N(μ, σ2) con σ ignoto: • Esempio: stima della durata media del funzionamento delle pile d’un certo tipo • n=10 =248 ore; s=26 ore • Livello di confidenza =0,99 Marco Riani, Univ. di Parma - Statistica AK 18 • Esempio: stima della durata media del funzionamento delle pile d’un certo tipo • n=10 =248 ore; s=26 ore • Livello di confidenza =0,99 • L’ipotesi X~N(µ, σ2) è ragionevole • g=9 Î t(0,01)=3,250 Confronto tra i due intervalli di confidenza • n elevato (v.a. normale standardizzata) • n piccolo (v.a. T di Student) Marco Riani, Univ. di Parma - Statistica AK 19 Elementi che fanno variare l’ampiezza dell’intervallo di confidenza (p. 70) • s.q.m. dell’universo σ • Più σ è elevato, maggiore è la variabilità della v.a. media campionaria Î stima meno precisa • Livello di confidenza 1-α • Aumentando 1- α, si riduce αÎ si incrementa z(α), t(α) (l’intervallo aumenta) Elementi che fanno variare l’ampiezza dell’intervallo di confidenza • Numerosità del campione n • Per dimezzare l’ampiezza occorre quadruplicare n • Se n è “piccolo” non vale più il teorema centrale del limite Î t(α) sostituisce z(α) • σ ignoto Î fattore correttivo (n/(n-1))0,5 Marco Riani, Univ. di Parma - Statistica AK 20 Significato della probabilità associata all’intervallo di confidenza • Formulazione deduttiva • Principio del campionamento ripetuto ⇒ distribuzione campionaria di • Formulazione induttiva μ è una costante (non una v.a.) ⇒ come si può attribuire una probabilità ad un’affermazione che riguarda μ? Principio del campionamento ripetuto ⇒ gli estremi dell’intervallo sono v.a. (v. esempio pp. 64-66) Marco Riani, Univ. di Parma - Statistica AK 21 Stima della frequenza relativa (grandi campioni) • V.a. Frequenza relativa campionaria, P: E(P) = π • Teorema centrale del limite Intervallo di conf. della frequenza relativa • Intervallo di confidenza di livello 1 – α per la frequenza relativa dell’universo π, nel caso di grandi campioni: Marco Riani, Univ. di Parma - Statistica AK 22 Esempio: stima della quota di mercato • n = 400 consumatori; 82 acquirenti • p = 82/400 = 0,205 ⇒ 20,5% (stima campionaria di π) • Calcolare l’intervallo di confidenza di π al livello di confidenza di 0,95 Esempio: stima della quota di mercato • n = 400 consumatori; 82 acquirenti • p = 82/400 = 0,205 ⇒ 20,5% (stima campionaria di π • errore standard della v.a. P: s(p) = = 0,020 • Teorema centrale del limite 1−α=0,95 ⇒ z(0,05) = 1,96 0,205±1,96⋅0,020 Marco Riani, Univ. di Parma - Statistica AK 23 Esempio: stima della quota di mercato • n = 400 consumatori; 82 acquirenti • p = 82/400 = 0,205 ⇒ 20,5% (stima campionaria di π) • Calcolare l’intervallo di confidenza di π al livello di confidenza di 0,99 • 1 − α = 0,99 ⇒ z(0,01) = 2,58 0,205 ± 2,58⋅0,020 • Intervalli ampi (stima poco precisa) aumentare n ⇒ Cosa succede se n è piccolo? Marco Riani, Univ. di Parma - Statistica AK 24 Esercizio Il direttore di un centro commerciale vuole modificare l’orario di apertura del centro. In un campione casuale di 300 clienti, 246 si sono dichiarati favorevoli al nuovo orario proposto. • Si determini l’intervallo di confidenza della frequenza relativa dell’universo • con probabilità 0,95 • con probabilità 0,995 e si commentino in termini comparati i suddetti intervalli Soluzione Marco Riani, Univ. di Parma - Statistica AK 25 Esercizio: stima della percorrenza media delle vetture diesel di un certo modello al primo guasto • n=400 =34.000 Km; scor=9000 Km • Calcolare l’intervallo di confidenza di µ al 95% e al 99% Soluzione Marco Riani, Univ. di Parma - Statistica AK 26 Esercizio • La deviazione standard della statura degli studenti iscritti ad una università è 5,8 cm. Quanti studenti si devono estrarre a sorte dalla popolazione se si vuole con probabilità del 90% che l’errore di stima della media non superi i 2 cm. Soluzione Marco Riani, Univ. di Parma - Statistica AK 27 Esercizio • I dati che seguono si riferiscono alla durata (in migliaia di Km) di una cinghia da automobile in un campione di 15 osservazioni • 115,4 85,2 89,1 118,3 88,4 109,3 104,3 69,3 105,5 106,8 103,1 101,6 102,9 89,6 109,3 • Facendo le opportune ipotesi, si costruisca un intervallo di confidenza per la media al 99% Soluzione Marco Riani, Univ. di Parma - Statistica AK 28 Esercizio • Di seguito sono riportati i Km percorsi in un giorno da un campione di taxi operante in una grande città • 173 195 115 122 154 149 120 148 152 68 132 91 120 148 103 101 • Sulla base di questo campione assumendo che la popolazione generatrice sia normale è stato determinato il seguente intervallo di confidenza (116,55 144,7). Si calcoli il livello di confidenza su cui è stato calcolato Soluzione Marco Riani, Univ. di Parma - Statistica AK 29 Variante al precedente esercizio • Se i dati di base fossero stati i seguenti: • 172 195 115 122 154 149 120 148 152 68 132 91 120 148 103 101 • Quale sarebbe stato il livello di confidenza dell’intervallo (116,55 144,7)? Soluzione Marco Riani, Univ. di Parma - Statistica AK 30 Esercizio Nella seguente distribuzione di frequenze è riportato il numero di dipendenti di 50 aziende tessili operanti in una determinata provincia. Numero di dipendenti Frequenze assolute 5 8 12 14 15 545 12 11 11 8 7 1 Si calcoli l'intervallo di confidenza al 99% della media dell'universo del numero di dipendenti commentando i risultati ottenuti (con o senza il valore anomalo) Soluzione Marco Riani, Univ. di Parma - Statistica AK 31 Esercizio Un’azienda produce rotoli di stoffa della lunghezza di 70m. Tali rotoli possono presentare difetti di diversa natura. L’azienda è interessata a stimare il numero medio di difetti presenti nei rotoli prodotti. In un campione casuale di 85 rotoli si è trovata la seguente distribuzione n. difetti 0 1 2 3 4 5 6 Frequenza 16 26 22 13 5 2 1 Si determini l’intervallo di confidenza al 99% per la media dei difetti presenti nei rotoli di stoffa Soluzione Marco Riani, Univ. di Parma - Statistica AK 32 Esercizio • Con riferimento all’esercizio precedente, si consideri che un rotolo risulta vendibile se presenta un massimo di 3 difetti. Sulla base dello stesso campione di cui all’esercizio precedente, si costruisca un intervallo di confidenza al 95% per la proporzione di rotoli considerati vendibili Soluzione Marco Riani, Univ. di Parma - Statistica AK 33 Esercizio • Nel processo di controllo del peso delle confezioni di un determinato prodotto l’azienda esamina un campione di 800 confezioni e trova che 15 di esse hanno un peso fuori norma. • Si determini l’intervallo di confidenza al 97% della proporzione di pezzi fuori norma. • Se la proporzione di pezzi fuori norma nell'universo fosse uguale a 1,5%, effettuando cinque estrazioni – si calcoli la probabilità di trovare esattamente due pezzi fuori norma; – si scriva e si calcoli l'espressione che consente di calcolare la probabilità di ottenere un numero di pezzi fuori norma compreso tra due e quattro (estremi compresi). – rappresentare graficamente la densità Soluzione Marco Riani, Univ. di Parma - Statistica AK 34 Esercizio • Data una scheda telefonica da 5 euro di cui non si sa se sia mai stata usata e nel caso sia stata usata non si conosce l’ammontare ancora disponibile, è ragionevole ipotizzare per tale ammontare X la seguente funzione di densità f(x)=1/5 per [0 ≤x≤5] • Verificare che f(x)=1/5 per [0 ≤x≤5] sia una densità e rappresentarla graficamente • Calcolare il credito residuo atteso (E(X)) • Calcolare la varianza del credito residuo (VAR(X)) • Devo fare una telefonata da 2 € calcolare la prob che la scheda sia sufficiente per fare la telefonata • Ho 60 schede tutte con un ammontare che si distribuisce come descritto sopra. Qual è la prob che l’ammontare complessivo sia superiore a 180 € Marco Riani, Univ. di Parma - Statistica AK 35 Soluzione Esercizio • La durata di un macchinario si distribuisce secondo una distribuzione normale di media 2 anni e scarto quadratico medio 0,5 anni. Si determini: 1. prob che il macchinario duri più di 28 mesi. 2. l’intervallo di ampiezza 2 anni al quale corrisponde la massima prob di contenere la durata effettiva del macchinario. Calcolare tale probabilità. 3. Se il costo di acquisto del macchinario è di 1000 euro e il costo del suo funzionamento è stimato in 150 euro all’anno, si calcolino la media e la varianza del costo complessivo del macchinario. Marco Riani, Univ. di Parma - Statistica AK 36 Soluzione Marco Riani, Univ. di Parma - Statistica AK 37