Alessandro Benedetti UniCAM-SSIS-FIM.11/0 Appunti di statistica inferenziale – Versione provvisoria (v. allegato foglio Excel LDS11_STIMA.xls) Elementi di teoria della stima dei parametri Popolazione Statistiche Campione 1 Parametri da stimare q1, q2, … Estrazione casuale Campione 2 Stimatori T1, T2, … (Gli stimatori sono variabili casuali) … Campione n Stime puntuali e stime di intervallo Terminologia: Intervallo fiduciario o di confidenza (q1, q2) Livello fiduciario (1 - a) Livello di significatività a Scelto lo stimatore T, del quale si conosce la distribuzione di probabilità, è possibile determinare due valori T1 e T2 tali che P(T1 § T § T2 ) = (1 - a) Ma essendo T dipendente solo da q, si può scrivere P(q1 § q § q2 ) = (1 - a) Intervallo fiduciario per la media Affronteremo qui solo il caso in cui la popolazione sia normalmente distribuita e la varianza sia nota. Nel caso in cui la varianza non sia nota, caso molto frequente, è necessario far riferimento a conoscenze più avanzate (distribuzione di Student), per cui si rimanda ad altri testi. Nel caso più generale (distribuzione della popolazione non normale e varianza incognita), si usano metodi approssimati; per campioni sufficientemente numerosi il teorema limite centrale permette di assumere che lo stimatore utilizzato abbia una distribuzione normale. Dunque, estratto un campione di n individui da una popolazione normalmente distribuita a varianza nota, la media campionaria X è una variabile casuale con distribuzione normale. X −µ La variabile normale standardizzata è Z = . Assegnato il livello di fiducia si tratta di trovare σ/ n i valori z1 e z2 per cui P(z1 § Z § z2 ) = (1 - a). 1 Alessandro Benedetti UniCAM-SSIS-FIM.11/0 Tra gli infiniti valori possibili, bisogna scegliere z1 e z2 in modo da minimizzare l’intervallo z2 - z1 Per motivi di simmetria, z1 = -Zc e z2 = Zc . P(Z § -Zc) = F(Z = -Zc ) = a/2 P(Z § Zc) = F(Z = Zc ) = 1 - a/2 Sostituendo il valore della variabile normalizzata si ha X −µ P(-zc § § zc ) = (1 - a) σ/ n E riscrivendo dopo qualche passaggio matematico: P( X − z c σ n § m § X + zc σ n ) = (1 - a) Esercitazione in Excel Supponiamo di disporre i dati del campione nell’area A21:A30, simulando i valori con la funzione =CASUALE(). In questa esercitazione faremo uso della denominazione di caselle di Excel con nomi significativi. A20: Dati A21: =CASUALE() Trascinare A21 fino a A30 Marcare A20:A30; Inserisci | Nome | Crea … Selezionare Riga superiore; clic su OK; in questo modo la zona A21:A30 può essere richiamata usando il nome Dati. A4: Sintesi dei dati (Grassetto) A5: n A6: Media (Allineare A5:A6 a destra) B5: =CONTA.NUMERI(Dati) B6: =MEDIA(Dati) A7: Input dell’utente (Grassetto) A8: Dev_Std A9: Liv_Confidenza (Allineare A8:A9 a destra) A10: Output (Grassetto) A11: Err_Std A12: z A13: Metà_Intervallo A14: Liv_Confidenza_Excel (Allineare A11:A14 a destra) A15: Intervallo di confidenza (Grassetto) A16: Limite inferiore A17: Limite superiore (Allineare A16:A17 a destra) Allargare opportunamente la colonna A. Nelle prossime operazioni, finché non sarà completata la definizione dei nomi e l’immissione di dati di prova, può comparire il messaggio d’errore #NOME? B11: =Dev_Std/RADQ(n) B12: =INV.NORM.ST(0,5+Liv_Confidenza/2) B13: =z*Err_Std B14: CONFIDENZA(1-Liv_Confidenza;Dev_Std;n) B16: =Media - Metà_Intervallo B17: =Media + Metà_Intervallo 2 Alessandro Benedetti UniCAM-SSIS-FIM.11/0 Tenendo premuto il tasto Ctrl, marcare con il mouse le zone A5:B6 e successivamente A8:B9 e infine A11:B14. Questa è la modalità per selezionare zone non contigue. Selezionare Inserisci | Nome | Crea e selezionare Colonna sinistra; clic su OK. In tal modo si assegnano alle colonne di destra i nomi delle colonne di sinistra; se i nomi sono stati digitati correttamente, dovrebbero scomparire i messaggi di errore. Le caselle B13 e B14 dovrebbero avere lo stesso valore; infatti è stata usata, a scopo di verifica, la funzione statistica Excel CONFIDENZA(alfa,dev_standard,dimens) Alfa è il livello di significatività utilizzato per calcolare il livello di confidenza. Il livello di confidenza è uguale a 100*(1 - alfa)% o, in altre parole, un alfa di 0,05 indica un livello di confidenza del 95%. Dev_standard è la deviazione standard della popolazione per l'intervallo di dati e si presuppone sia nota. Dimens è la dimensione del campione. 3