Facoltà di Sociologia Statistica: 7° settimana a.a. 20092009-2010 Docente: Elena Siletti - [email protected] Esercitatore: Alessandro Barbiero Intervalli di Confidenza Si utilizzano i dati campionari per produrre un intero insieme di valori che ragionevolmente contiene l’ignoto valore del parametro che vogliamo stimare Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 1 Stima puntuale: caratteristiche • È sempre applicabile • È semplice • È difficile “azzeccare” • Affidabilità della stima-proprietà dello stimatore Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti Stima intervallare: affidabilità alla stima intervallare è associabile un numero che misura la probabilità con cui il corrispondente stimatore intervallare contiene effettivamente l’ignoto parametro Errore campionario: è il rischio di costruire un insieme di valori che non contiene l’ignoto valore del parametro oggetto di stima • È quantificato in termine di probabilità • È scelto piccolo quanto si desidera Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 2 Intervallo di Confidenza: IC L’IC per un ignoto parametro è un intervallo di valori calcolato sui dati campionari, per il quale si può confidare, ad un prescelto livello probabilistico, che contenga l’ignoto valore del parametro • Sono meno rischiosi • Sono più informativi • L’affidabilità si misura con una probabilità scelta • Procedura più complessa Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti IC per la Media – Popolazione Normale e Varianza nota X ∼ N ( µ ; σ 2 nota ) • Fissata la numerosità n si estrae un campione bernoulliano Si calcola la stima puntuale per µ • x= • 1 n ∑ xi n i =1 Si sceglie la probabilità di sbagliare (α ), cioè di costruire un IC che non contenga µ • Standardizzando sappiamo che X −µ σ2 n = Z ∼ N ( 0;1) Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 3 IC per la Media – Popolazione Normale e Varianza nota Fissata la possiamo fare considerazioni probabilistiche su intervalli di valori dello stimatore Media Campionaria ed usare le tavole della Z P (a ≤ X ≤ b) = 1− α Livello di Confidenza a−µ a−µ X −µ b−µ b−µ = P = 1− α ≤ ≤ ≤Z≤ P 2 2 2 σ2 n σ2 n n n n σ σ σ Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti IC per la Media – Popolazione Normale e Varianza nota a−µ b−µ X −µ = P − zα 2 ≤ ≤Z≤ ≤ zα 2 = 1 − α P σ2 n σ 2 n σ2 n Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 4 IC per la Media – Popolazione Normale e Varianza nota Si inverte la relazione probabilistica in modo da ottenere un intervallo centrato sul parametro ignoto σ2 σ2 ≤ µ ≤ X + zα 2 P X − zα 2 = 1−α n n Sostituendo con la stima puntuale si ottiene l’intervallo cercato σ2 σ2 ; x + zα 2 x − zα 2 n n Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti Esempio X : “tempo in minuti” X ∼ N ( µ ; σ 2 = 1400 ) Considerati n = 92 studenti, per loro il tempo medio è stato di 85 minuti Volendo costruire una stima intervallare a livello del 95 % per l’intera popolazione proseguiamo come segue: (1 − α ) = 0.95 α = 0.05 zα 2 = z0.025 = ? P ( Z ≤ zα 2 ) = 1 − α 2 = 1 − 0.025 = 0.975 α 2 = 0.025 zα 2 = 1.96 Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 5 Esempio L’IC per la media a livello del 95% è allora: σ2 σ2 ; x + zα 2 x − zα 2 n n 1400 1400 ;85 + 1.96 85 − 1.96 = [ 77.35;92.65] 92 92 Possiamo confidare al 95% che l’intervallo individuato contenga il tempo medio per tutti gli studenti della popolazione Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti IC per la Media – Popolazione Normale e Varianza ignota X ∼ N ( µ ; σ 2 ignota ) Non conoscendo la varianza è necessario stimarla con la varianza campionaria corretta s2 = 1 n 2 ∑ ( xi − x ) n − 1 i =1 Utilizzando questa stima non standardizziamo ma studentizziamo X −µ S2 n = Tn −1 Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 6 IC per la Media – Popolazione Normale e Varianza ignota a−µ b−µ X −µ = P −tα 2 ≤ ≤T ≤ ≤ tα 2 = 1 − α P S2 n S 2 n S2 n Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti IC per la Media – Popolazione Normale e Varianza ignota Si inverte la relazione probabilistica in modo da ottenere un intervallo centrato sul parametro ignoto S2 S2 ≤ µ ≤ X + tα 2 P X − tα 2 = 1− α n n Sostituendo con le stime puntuali si ottiene l’intervallo cercato s2 s2 ; x + tα 2 x − tα 2 n n Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 7 Esempio X : “peso del prodotto” Considerato n = 6 X ∼ N ( µ ;σ 2 ) (1 − α ) = 0.90 e E sapendo che il peso medio nel campione è risultato pari a 1002.5 gr. ed una varianza campionaria corretta pari a 67.5 α α = 0.10 P (T5 ≤ tα 2 ) = 1 − α 2 = 1 − 0.05 = 0.95 2 = 0.05 tα 2 = 2.015 s2 s2 ; x + tα 2 x − tα 2 = n n 67.5 67.5 = 1002.5 − 2.015 ;1002.5 + 2.015 = [995.75;1009.25] 6 6 Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti Grandi Campioni Se non siamo nel caso di popolazione Normale, dobbiamo avere molti dati Solo se il campione è sufficientemente grande possiamo appellarci a un teorema di teoria delle probabilità fondamentale nell’inferenza statistica Teorema Centrale del Limite Qualunque sia la distribuzione del fenomeno X nella popolazione, se l’ampiezza campionaria n tende all’infinito, allora gli stimatori Media Campionaria e Frequenza Relativa Campionaria sono (asintoticamente) Normali σ2 X ≈ N µ; n p (1 − p ) Pˆ ≈ N p; n Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 8 Grandi Campioni IC per la Media s2 s2 x z ; x z − + α 2 α 2 n n IC per la Frequenza Relativa pˆ − zα 2 p (1 − p ) ; pˆ + zα 2 n p (1 − p ) n Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti Grandi Campioni Numerosità sufficiente per costruire un IC per la media n ≥ 100 Numerosità sufficiente per costruire un IC per le frequenza relativa n ≥ 30 Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 9 Interpretazione del Livello di Confidenza Interpretazione analitica: corrisponde alla probabilità con cui l’intervallo costruito con lo stimatore contenga effettivamente l’ignoto parametro È senz’altro una misura della fiducia che si può riporre nel fatto che l’IC contenga davvero l’ignoto parametro Interpretazione statistico - frequentista: su un gran numero di campioni bernoulliani, ci si può attendere che l’ (1 –α) % contenga davvero l’ignoto parametro e che il rimanente α % non lo contenga Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti Precisione degli IC un intervallo è tanto più preciso quanto più è stretto Ampiezza di un intervallo: è la differenza fra l’estremo superiore e l’estremo inferiore Il livello di confidenza e la precisione di un IC sono fra loro legati e, a loro volta, sono legati all’ampiezza campionaria n Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 10 l.c. – n – precisione La precisione di un IC è in relazione inversa con il livello di confidenza ed in relazione diretta con la numerosità campionaria • A parità di ampiezza campionaria n , un aumento del livello di confidenza (1 – α ) provoca una diminuzione della precisione (cioè un aumento dell’ampiezza dell’IC) • A parità di livello di confidenza (1 – α ), un aumento della numerosità campionaria n provoca un aumento della precisione (cioè una diminuzione dell’ampiezza dell’IC) Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti Pianificazione della numerosità campionaria La pianificazione di n è strategica per l’inferenza statistica Errore Assoluto di Stima: Err = |stimatore – parametro| È possibile scegliere a priori sia l’Errore Assoluto di Stima massimo che siamo disposti a tollerare sia il livello di probabilità con cui vogliamo che questo accada Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 11 Pianificazione di n per la stima della media La probabilità di fare bene è ( 1 − α = P X − µ ≤ Err ) 1 − α = P ( µ − Err ≤ X ≤ µ + Err ) Standardizzando: µ − Err − µ X − µ µ + Err − µ − Err + Err = P 1−α = P ≤ ≤ ≤Z≤ σ2 n σ2 n σ2 n σ 2 n σ 2 n Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti Pianificazione di n per la stima della media − Err + Err 1−α = P ≤Z≤ 2 σ2 n σ n Err σ2 n Per cui vale l’uguaglianza: = zα 2 Che risolvendo l’uguaglianza diventa: n= zα2 2 ⋅ σ 2 Err 2 È l’ampiezza campionaria che con probabilità ( 1 – α ) garantisce un errore assoluto di stima non superiore all’Errore Assoluto di Stima massimo fissato Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 12 Pianificazione di n per la stima della percentuale Errore Assoluto di Stima: Err = |stimatore – parametro| Err = Pˆ − p Se ci mettiamo nella situazione peggiore e dunque determinando l’n che ci tutela al massimo, ovvero quella di massima variabilità σ 2 = p (1 − p ) = 0.5 ⋅ 0.5 = 0.25 zα 2 n= 2 ⋅ Err 2 È l’ampiezza campionaria che garantisce la massima tutela. Se si dispone di informazioni a priori sulla varianza e è noto che è inferiore al caso peggiore, naturalmente conviene usare tali informazioni e la formula fornirà un valore di n più piccolo Università Università di Milano Bicocca - Facoltà Facoltà di Sociologia Statistica a.a. 20092009-2010 Elena Siletti 13