Statistica-UBG’0304 A.Fassò Statistica Prof. Alessandro Fassò ingegneria.unibg.it/fasso CdL: Ing.Informatica e Meccanica aa 2003/04 2 a parte Inferenza Statistica Parte 2a - Stima p.1 Statistica-UBG’0304 A.Fassò Inferenza e Campionamento Popolazione: finita/infinita, reale/virtuale Campione: sottoinsieme della popolazione Inferenza: Campione Popolazione Stima puntuale Intervalli di confidenza Verifica di ipotesi Parte 2a - Stima p.2 Statistica-UBG’0304 A.Fassò Stima Popolazione: X grandezza di interesse con distribuzione f x, parametro ignoto. f Campione casuale semplice da X (oppure da f, oppure da F): X 1 , . . . , X n iid f x Stima di : X 1 , . . . , X n è una particolare V.C. detta statistica Incertezza sull’errore di stima Parte 2a - Stima p.3 Statistica-UBG’0304 A.Fassò Principio del campionamento ripetuto Si valutano le proprietà di nell’ipotesi di ripetere il processo di campionamento un gran numero di volte. Sono rilevanti in quest’ottica l’interpretazione frequentista della probabilità, la legge dei grandi numeri ed il metodo Monte Carlo. Parte 2a - Stima p.4 Statistica-UBG’0304 A.Fassò Problemi di stima Indagini demoscopiche 1. Misura di una grandezza fisica 2. valutazione dell’errore e correzione (calibration) Qualità di un processo produttivo, 3. controllo in accettazione Stima di un segnale (a gradino) 4. 5. percentuale di "favorevoli" dominio delle frequenze e stima parametrica di un segnale Probabililtà di "aspettare troppo" in una coda. Parte 2a - Stima p.5 Statistica-UBG’0304 A.Fassò Stima della Media Dato X 1 , . . . , X n iid F con EX e VarX 2 , la media campionaria n X 1n Xi i1 è una stima di . Teorema delle 3M : EX Varianza della media campionaria Distribuzione di X VarX 2 n 2 X N , n Se Ft t questa distribuzione vale per ogni n In generale vale per n (Teorema limite centrale). Parte 2a - Stima p.6 Statistica-UBG’0304 A.Fassò Stima della Varianza Dato X 1 , . . . , X n iid F con EX e VarX 2 , n S2 1 n1 2 X X i i1 è una stima di 2 . Distribuzione Chi-Quadrato con n 1 gradi di libertà: se X i iid N, 2 allora S 2 n 2 1 è 2n1 Usando le proprietà del 2 si ottiene facilmente che: ES 2 2 VarS 2 Parte 2a - Stima 2 4 n1 p.7 Statistica-UBG’0304 A.Fassò Stima di una percentuale Caso 1 Schema di campionamento: ”n estrazioni con reinserimento” da un Urna binaria con composizione #A . N All’iesima estrazione si pone Xi 1 se evento A 0 se evento Ā da cui X 1 , . . . , X n iid Bin1, Parte 2a - Stima p.8 Statistica-UBG’0304 A.Fassò allora, il numero di eventi ”a” nel campione, S X 1 . . . X n è Binn, inoltre, la percentuale campionaria, X Sn è stima di : E Parte 2a - Stima e Var 1 . n p.9 Statistica-UBG’0304 A.Fassò Caso 2 Schema di campionamento: ”n estrazioni senza reinserimento. Allora S X 1 . . . X n è IGn, N, N e Sn è stima di : E e Var Parte 2a - Stima 1 n1 . 1 n N1 p.10 Statistica-UBG’0304 A.Fassò Stima nonparametrica di F Avendo a disposizione un campione X 1 , . . . , X n iid F, ci interessa stimare PX t Ft supponendo, per ora, t prefissato. A tal fine consideriamo la funzione di ripartizione empirica in t, detta anche frequenza cumulata n IX i t i1 F n t #X i t, i 1, . . . , n . n n Si nota che EIX i t PX t Ft e IX i t iid Bin1, Ft Parte 2a - Stima p.11 Statistica-UBG’0304 A.Fassò da quanto visto per la stima di , si ha che nF n t~Binn, Ft e (con probabilità uno): F n t Ft per n NB: In realtà la stima fatta per un prefissato t può essere estesa a tutto il funzionale, infatti la convergenza di F n è uniforme in t: Var F t Ft1 Ft 0. 25 n n Perciò, usando la f.r. empirica, possiamo stimare il parametro funzionale t Ft t. Parte 2a - Stima p.12 Statistica-UBG’0304 A.Fassò Teoria Generale della stima Consideriamo un campione X 1 , . . . , X n iid f x ed uno stimatore n n X 1 , . . . , X n Correttezza o non distorsione: E n Bias o distorsione b Parte 2a - Stima E p.13 Statistica-UBG’0304 A.Fassò Correttezza asintotica n lim E n Esercizio: Dimostrare che 2 1n è astinoticamente non-distorto. Parte 2a - Stima X i X 2 p.14 Statistica-UBG’0304 A.Fassò Errore quadratico medio Sia o meno presente l’errore sistematico di uno stimatore dato dal bias, l’incertezza, in termini di campionamento ripetuto è data dalla probabilità di avere "errori di stima" o, in sintesi quadratica: MSE E 2 Var b Parte 2a - Stima 2 p.15 Statistica-UBG’0304 A.Fassò Consistenza Si dice che n è una stima consistente se "l’incertezza su scompare per n ", cioè se n per n Questo limite è da intendersi "in probabilità" cioè occorre che, 0, valga il limite P n 0 Parte 2a - Stima p.16 Statistica-UBG’0304 A.Fassò Condizione sufficiente per la consistenza E n Var n per n 0 per n Corollario: Se MSE n Parte 2a - Stima 0 allora n è consistente. p.17 Statistica-UBG’0304 A.Fassò Dimostrazione Dimostriamo dapprima la disuguaglianza di Chebychev per una v.c.c. X di varianza 0 2 : EX a 2 P|X a| 2 A tal fine indichiamo con A l’evento di interesse A x : |x a| Ā x a 2 fxdx A x a 2 fxdx x a 2 fxdx A 2 fxdx A EX a 2 2 PX A Parte 2a - Stima p.18 Statistica-UBG’0304 A.Fassò Abbiamo dunque ottenuto la disuguaglianza di Chebychev. Parte 2a - Stima p.19 Statistica-UBG’0304 A.Fassò ... segue dimostrazione Per la consistenza di n basta ora porre X , a e ricordare l’espressione dell’MSE : E n Parte 2a - Stima 2 Var n b n 2 0 p.20 Statistica-UBG’0304 A.Fassò Osservazioni Gli stimatori X , S 2 e soddisfano queste proprietà per campioni provenienti da popolazioni regolari con e 2 finiti, esempi sono la normale, l’esponenziale, la gamma, la weibull, la t n con n 4, la poisson, la binomiale. Parte 2a - Stima p.21 Statistica-UBG’0304 A.Fassò Efficienza Efficienza: dati due stimatori A e B il confronto fra i due stimatori si basa su MSE B eA, B MSE A se eA, B è 1 A è più efficiente 1 A e A sono equivalenti 1 A è meno efficiente Parte 2a - Stima p.22 Statistica-UBG’0304 A.Fassò Problemi: Vedi MRH inglese p.142 e 143. esercizi_stima_MRH_p142.pdf Parte 2a - Stima p.23 Statistica-UBG’0304 A.Fassò Stima di Massima Verosimiglianza Finora come stima di abbiamo usato il suo equivalente campionario, fortunatamente 1. abbiamo trovato un equivalente campionario di 2. e questo è rislutato una ”buona” stima Quando f è nota nella forma, il metodo della massima verosimiglianza fornisce in automatico una ”buona” stima di . A tal fine, osservato un particolare campione: X 1 x 1 , . . . , X n x n , definiamo verosimiglianza di la (densità di) probabilità del campione estratto n L f x i i1 Parte 2a - Stima p.24 Statistica-UBG’0304 A.Fassò NB: Fissato X 1 x 1 , . . . , X n x n L è funzione di . Al variare di X 1 , . . . , X n , L è una v.c. fissato . L’idea allora è quella di usare come stima di quel valore ML che massimizza la probabilità del campione effettivamente osservato: ML arg maxL Chiamiamo ML stima di massima verosimiglianza MLE. Parte 2a - Stima p.25 Statistica-UBG’0304 A.Fassò Problemi 1. X è MLE per la N, 2 , la Poisson, Bin1, . 2. 2 1 n 2 X X i è MLE per 2 in campioni dalla normale. è asintoticamente corretto e consistente. Sia X 1 , . . . , X n iid N, 2 3. Studiare L per fissato Studiare L 2 per fissato Verificare che ML X per X 1 , . . . , X n da N, 2 . Hint: ML è soluzione di ln L 0. Parte 2a - Stima p.26 Statistica-UBG’0304 A.Fassò Proprietà di MLE MLE gode di diverse buone proprietà soprattutto per grandi campioni (entro opportune ipotesi su f): è consistente: ML,n per n è asintoticamente efficiente: per ogni stimatore T n MSE ML,n MSET n per n n T è asintoticamente normale: esiste una varianza asintotica 2 0 tale per cui ML N , 2 n cioè: ML P t / n Parte 2a - Stima t p.27 Statistica-UBG’0304 A.Fassò NB: la convergenza legata alla consistenza è da intendersi in senso stocastico, per esempio, nelle stesse ipotesi in cui vale la normalità asintitotica si ha 2 E ML,n 0 Parte 2a - Stima p.28