Come si distribuisce lo stimatore media campionaria? La media campionaria definita come 1 n X Xi n i 1 È una somma di v.c. indipendenti e ugualmente distribuite come la popolazione X di origine per cui se la popolazione X ≈ N(μ; σ) anche la media campionaria si distribuisce normalmente Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 1 Se la popolazione X ≠ N(μ; σ) si ricorre al Teorema del limite centrale Sia X 1, X 2 , X 3 ,... una successione di variabili casuali indipendenti e identicamente distribuite, con media e varianza 2 finite, posto 1 Xn n si ha che la v.c. Zn X n X i i 1 n n converge in distribuzione, per n , alla v.c. Normale standardizzata. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 2 Questo significa che lo stimatore media campionaria si distribuisce come una normale per n Per convenzione si assume valida tale convergenza per n ≥ 30 Fissata una probabilità pari a 1-α individuo le ascisse simmetriche che contengono tale probabilità. Ad esempio per una probabilità pari a 0,95 le ascisse corrispondono a -1,96 e +1,96 0,30 0,15 0,95 0,00 -1,96 0,00 1,96 Z= Se 1- α = 0,90 le ascisse simmetriche della curva normale standardizzata che contengono il 90% di probabilità sono = -1,645;+1,645 Se 1- α = 0,99 le ascisse simmetriche della curva normale standardizzata Paola Giacomello Dip. Scienze Sociali ed che contengono il 99% di probabilità sonoEconomiche = -2,576;+2,576 Uniroma1 x n 3 Intervallo di confidenza per la media (varianza nota) Sia X una v.c. che rappresenta un carattere osservato su una popolazione. Supponiamo che la v.c. sia distribuita come una Normale con varianza nota. Allora sappiamo che: X ~ N , 2 n X Z ~ N 0 , 1 n P z 2 Z z 2 1 X P z 2 z 2 1 n P z 2 X z 2 1 n n 4 P X z 2 X z 2 1 n ed n Paola Giacomello Dip. Scienze Sociali Economiche Uniroma1 Dato un campione casuale estratto da una popolazione Normale con media ignota e varianza nota, l’intervallo di confidenza per la media della popolazione al livello di confidenza 1-α è: X z , X z 2 2 n n Cosa significa livello di confidenza, perché non si legge l’intervallo in termini probabilistici? La corretta interpretazione si riferisce alla probabilità di avere un campione che ci fornisce una stima puntuale in grado di formare un intervallo che contenga al suo interno la media della popolazione. Se fisso il livello di confidenza al 95% significa che ho 95 campioni su 100 le cui medie campionarie ci permetteranno di creare intervalli che conterranno al loro interno il parametro incognito. Mi auguro che il campione da me scelto non appartenga ai 5 su 100 che non mi garantiscono quanto appena detto 5 Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 Esempio Nella seguente figura si mostrano, in corrispondenza di 6 campioni osservati, gli intervalli di confidenza stimati per la media della popolazione a un livello di confidenza 0,95. σ⁄√n x5 - 1,96 σ⁄√n x1 x6 x3x2 x4 μ Medie campionarie + 1,96 σ⁄√n La media campionaria fornita dal campione 5 produce un’intervallo Giacomello Dip. di confidenza che nonPaola contiene μ Scienze Sociali ed Economiche Uniroma1 6 La lunghezza o ampiezza dell’intervallo di confidenza si ricava dalla differenza tra estremo superiore e estremo inferiore: Lunghezza/ampiezza = 2 z 2 n Dipende da: 1. la dimensione del campione 2. il livello di confidenza 3. la varianza della popolazione Intervenendo sulla dimensione del campione o sul livello di confidenza si può aumentare o diminuire la lunghezza dell’intervallo. Una volta fissati questi due elementi, al variare dei campioni estratti, la lunghezza degli intervalli corrispondenti rimane costante. 7 Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 Esempio: Fissato n 100 n 70 n 50 n 10 1 n 1 0 ,85 1 0 ,90 1 0 ,95 Fissato 1 0 ,99 A parità di livello di confidenza aumentando n la lunghezza dell’intervallo diminuisce A parità di numerosità diminuendo il livello di confidenza la lunghezza dell’intervallo diminuisce 8 Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 Intervallo di confidenza per la media (varianza ignota) Sia X una v.c. che rappresenta un carattere osservato su una popolazione. Supponiamo che la v.c. X sia distribuita come una Normale con media e varianza ignota. Per stimare la varianza della popolazione si utilizza lo stimatore varianza campionaria corretta: 1 n 2 Sc x x i n 1 i 1 2 Quando standardizzo la v.c.media campionaria ottengo T X Sc n Che si distribuisce come una t- Student con n-1 gradi di libertà (n rappresenta la numerosità del campione) 9 Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 Intervallo di confidenza per la media (popolazioni non Normali e varianza ignota) 1. Quando non è nota la distribuzione della popolazione ma il campione ha una dimensione sufficientemente grande (n > 30), la media campionaria, grazie al teorema del limite centrale, si distribuisce in modo approssimativamente normale. 2. Se oltre a non conoscere la distribuzione della popolazione non conosciamo la varianza σ2 possiamo costruire l’intervallo di confidenza utilizzando ugualmente la N (0,1) Sc Sc X z , X z 2 2 n n Solo se n ≥ 120 perché la t di Student tende verso la normale all’aumentare dei gradi di libertà, ossia della numerosità del campione. 10 Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 Confronto tra i valori delle ascisse della normale standardizzata e della t di Student per il livello di confidenza pari a 0,95 • Valori della normale ± 1,96 • Valori della t di Student n=10 ± 2,23 n=20 ± 2,09 n=50 ± 2,01 n=80 ± 1,99 n=120 ± 1,98 n=∞ ± 1,96 Funzione di densità della t-Student per 2, 5 e 15 gradi di libertà e confronto con la Normale Paola Giacomello Dip. Scienze Sociali ed Standardizzata 11 Economiche Uniroma1 Un esempio Una casa farmaceutica dichiara che un nuovo antidolorifico che sta per immettere sul mercato fa effetto mediamente in un tempo pari a 12,75 minuti. Un campione casuale fornisce i seguenti risultati 12,9 13,2 12,7 13,1 13,0 13,1 13,0 12,6 13,1 13,0 13,1 12,8 Sapendo che il tempo si distribuisce normalmente e la deviazione standard della popolazione è pari a 0,5 trovare 1. La media campionaria 2. Gli estremi dell’intervallo di confidenza 3. Stabilire se sulla base dei dati campionari l’azienda fa una dichiarazione corretta con un livello di confidenza del 95% Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 12 xi 12,90 13,20 12,70 13,10 13,00 13,10 13,00 12,60 13,10 13,00 13,10 12,80 155,60 1. Media campione=155,6/12=12,97 livello di confidenza 95%; Deviazione standard della popolazione = 0,5 2. estremo inferiore 12,97- 1,96 estremo superiore 12,97+1,96 0,5 = 12,69; 12 0,5 12 = 13,25 3. La media della popolazione rientra nell’intervallo per cui l’azienda afferma il vero Ampiezza dell’intervallo=13,25-12,69=0,56 Se volessi un’ampiezza inferiore o uguale a 0,4 dovrei avere un campione di 0,5 numerosità 2 1,96 0,4 n pari a n=24,01 ossia 25 Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 13 xi 12,90 13,20 12,70 13,10 13,00 13,10 13,00 12,60 13,10 13,00 13,10 12,80 155,60 (xi-media)^2 0,004 0,054 0,071 0,018 0,001 0,018 0,001 0,134 0,018 0,001 0,018 0,028 0,367 Non conosco la varianza della popolazione la stimo tramite la realizzazione campionaria alla quale applico lo stimatore varianza corretta Varianza corretta campione=0,367/11=0,03 livello di confidenza 95%; Non posso ipotizzare che lo stimatore media campionaria si distribuisca normalmente perché n=12 devo usare la T di Student Le ascisse simmetriche che contengono il 95% di probabilità con r (gradi di libertà)=11 della T di Student sono – 2.201 e +2,201 Estremo inferiore= 12,97-2,201*0,03/√12= 12,951 Estremo superiore= 12,97+2,201*0,03/√12= 12,989 la media della popolazione non rientra nell’intervallo, l’azienda dice il falso Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 14