TEORIA DELLA STIMA E’ possibile evincere da un campione alcuni parametri della popolazione da cui è estratto (inferenza statistica). Tuttavia esiste un margine di possibile errore in questa operazione dovuta al fatto che si sta compiendo un’induzione. Dato un campione casuale x1,x2,x3,…xn di determinazioni di un carattere X della popolazione, è possibile determinare una costante caratteristica della sua distribuzione. Utilizzeremo questa costante come una stima di un parametro del carattere X , stima che comporta un margine di errore. Definiamo allora stimatore la v.a. costituita dai valori che la stima assume al variare del campione estratto. Definiamo quindi un generico stimatore T T ( X ) T ( X 1 , X 2 ,..., X n ) dove X è la v.a. definita sulla popolazione. La v.a. X ha la sua funzione densità f(X;), dove è il parametro incognito da stimare. X 1 , X 2 ,..., X n sono le v.a. campionarie corrispondenti a n estrazioni campionarie bernoulliane dalla popolazione. Lo stimatore di un parametro è una v.a., e la stima è il valore assunto dallo stimatore in seguito all’estrazione di un campione di n elementi e ad un computo statistico. Compito della statistica è quindi cercare quello stimatore, funzione dei dati campionari, che fornisca una stima con probabilità massima di avvicinarsi al valore vero del parametro da stimare. Se indichiamo con x1,x2,x3,…xn i valori assunti dalle n variabili campionarie X 1 , X 2 ,..., X n , allora la stima è definita da: t T ( x1 , x2 ,..., xn ) Nella teoria della stima distinguiamo: - stima puntuale, che assegna un solo valore al parametro stima intervallare, che assegna un intervallo che include il parametro con una prefissata fiducia. PROPRIETA’ DI UNO STIMATORE E’ opportuno che uno stimatore possegga proprietà di correttezza, consistenza, efficienza, sufficienza, normalità asintotica. Correttezza Uno stimatore T(X) si dice corretto o non distorto quando il suo valor medio E[T ( X )] coincide con il valore del parametro da stimare per qualsiasi suo valore: E[T ( X )] In generale, l’espressione d ( ) E[T ( X )] indica la distorsione dello stimatore. Lo stimatore X media campionaria della media di una popolazione è sempre corretto. Infatti E[X ] Invece lo stimatore Ŝ 2 varianza campionaria della varianza 2 è distorto. Infatti x Sˆ 2 (X i 1 i X )2 n ha valor medio n 1 2 E[ Sˆ 2 ] n in cui si vede che la condizione di non distorsione non è soddisfatta. Per questo motivo come stimatore corretto della varianza si utilizza x Sˆ 2 (X i 1 i X )2 n 1 n ˆ2 S n 1 il cui valor medio è E[ Sˆ 2 ] 2 . Consistenza Si tratta di una proprietà asintotica di uno stimatore: uno stimatore è consistente quando la sua distribuzione tende ad accentrarsi, al crescere di n, sempre più vicino al parametro . Consistenza in media quadratica: se tende a zero l’errore quadratico medio, ossia se lim E[T ( X ) ] 2 0 n dove E[T ( X ) ]2 Var[T ( X )] d 2 ( ) Consistenza in probabilità: lim P[| Tn ( X ) | ] 1 n 0 Il pedice n allo stimatore indica il fatto che questo è in generale funzione delle osservazioni campionarie. La consistenza indica che la precisione della stima aumenta all’aumentare della numerosità del campione. Efficienza T1 ( X ) si dice più efficiente di T2 ( X ) se l’errore quadratico medio di T1 ( X ) è inferiore al corrispondente errore quadratico medio di T2 ( X ) (efficienza relativa). Si parla di efficienza assoluta se uno stimatore T ( X ) presenta un errore quadratico medio inferiore a quello di qualunque altro stimatore per il parametro . Se gli stimatori non sono distorti è sufficiente confrontarne le varianze: Dati due stimatori T1 ( X ) e T2 ( X ) dello stesso parametro , diremo che T1 ( X ) è più efficiente di T2 ( X ) se vale E [T1 ( X ) ] 2 1 E[T2 ( X ) ] 2 Viceversa T2 ( X ) è più efficiente di T1 ( X ) se il rapporto è maggiore di 1. Sufficienza Sono detti sufficienti gli stimatori che non disperdono informazione sul parametro da stimare. Per verificarne la sufficienza occorre conoscere la distribuzione della v.a. corrispondente. Se X è una v.a., le v.a. campionarie ottenute da X sono utilizzate in modo che tutte le informazioni che si posseggono su siano impiegate dallo stimatore T(X) e non se ne perda nessuna. Definiamo T(X) uno stimatore sufficiente ( x1, x 2 ,...., x n | T t 0 ) è indipendente da . quando la distribuzione condizionata Normalità asintotica E’ una proprietà asintotica dello stimatore T(X) , per cui al crescere della numerosità campionaria, esso tende a distribuirsi come una v.a. normale. METODI DI STIMA Sono metodi per stimare i parametri incogniti di una popolazione. METODO DEI MINIMI QUADRATI Proposto da Gauss e Legendre, consiste nell’identificare come stime dei parametri i valori che rendono minima la somma dei quadrati delle differenze fra valori osservati della variabile dipendente e valori teorici. METODI DEI MOMENTI Consiste nell’imporre l’uguaglianza fra momenti campionari e momenti della popolazione. Si creerà un sistema di equazioni la cui soluzione fornisce la stima dei parametri cercati. Data una v.a. X, supponiamo che la sua distribuzione abbia m parametri incogniti, ossia un vettore a valori in R m 1 , 2 ,......, m Supponiamo di avere un campione casuale X 1 , X 2 ,..., X n da cui si deducono i momenti r 1,2,..., m campionari M r ,n Se indichiamo i momenti empirici come r r ( ) il metodo dei momenti consiste nell’imporre l’uguaglianza M r ,n r ( ) r 1,2,..., m . Dal sistema si deducono gli stimatori T1n , T2n ,..., Tmn e quindi le stime dei parametri, ˆ ,ˆ ,......,ˆ . 1 2 m Tuttavia l’efficienza degli stimatori non è garantita. METODO DELLA MASSIMA VEROSIMIGLIANZA Definiamo la funzione di verosimiglianza (likelihood function) come n L( xi ; ) f ( x1 ; ) f ( x 2 ; ) .... f ( x n ; ) f ( xi ; ) i 1 Dove le f ( xn ; ) sono le variabili campionarie x1,x2,x3,…xn con distribuzione coincidente con la popolazione, e il parametro da stimare. La funzione di verosimiglianza esprime: - per variabili discrete, la probabilità che prima dell’esperimento si verifichi il campione (x1,x2,x3,…xn ) - per variabili continue, la probabilità congiunta che prima dell’esperimento si verifichino valori campionari in intervalli infinitesimi centrati su (x1,x2,x3,…xn ). Dopo l’osservazione del campione, la funzione verosimiglianza dipende solo dal parametro , ed esprime quindi la credibilità del campione in rapporto al parametro. Al variare di esprime differenti gradi di verosimiglianza. Il metodo della massima verosimiglianza consiste nello scegliere come stima del parametro il valore che massimizza la funzione di verosimiglianza. Sotto certe condizioni produce stimatori sufficienti, efficienti, consistenti, normali asintoticamente, e può essere usato qualsiasi sia la distribuzione della popolazione. Passando ai logaritmi, il valore di è la soluzione dell’equazione ln L 0 . INTERVALLI DI CONFIDENZA La stima puntuale del parametro non fornisce indicazioni sulla probabilità che il suo valore sia prossimo al valore reale del parametro, e quindi l’attendibilità della stima. Questa informazione si può ottenere però nel caso della stima per intervallo. La probabilità che il valore del parametro da stimare sia compreso nell’intervallo [1 , 2 ] si esprime come P(1 2 ) 1 1 è detto livello di fiducia (o di confidenza) è detto livello di significatività ed è la probabilità di compiere un errore affermando che è compreso nell’intervallo [1 , 2 ] . L’intervallo di confidenza permette quindi di dare un giudizio di validità alla stima dei parametri. Gli intervalli vengono fissati in base a convenzioni. In generale un livello di confidenza più elevato richiede campioni più numerosi. A parità di livello di significatività (a parità di ), al crescere della dimensione del campione l’intervallo di confidenza si restringe. Infatti il campione diviene maggiormente rappresentativo della popolazione, quindi diminuisce lo scarto quadratico medio dello stimatore ed aumenta la precisione delle stime campionarie. INTERVALLO DI CONFIDENZA PER LA MEDIA DI UNA POPOLAZIONE NORMALE CON VARIANZA NOTA Vogliamo stimare la media di una popolazione distribuita in modo normale con varianza nota 2 . Estraiamo un campione di numerosità n>30 . La variabile scarto standardizzato Z X / n è distribuita come una v.a. standardizzata. Scrivendo Px za / 2 x za / 2 1 n n indichiamo che nel 100(1- )% dei campioni la media della popolazione è compresa fra ; x za / 2 gli estremi x z a / 2 n n e 1- è detto livello di confidenza. INTERVALLO DI CONFIDENZA PER LA MEDIA DI UNA POPOLAZIONE NORMALE CON VARIANZA NON NOTA Estraiamo un campione di prefissata numerosità e calcoliamo la media campionaria x e la varianza campionaria. Si è visto che lo scarto standardizzato T X S/ n si distribuisce come una v.a. t di student con n-1 gradi di libertà. La scrittura s s P x t a / 2,n 1 x t a / 2,n 1 1 n n Indica che nel 100(1- )% dei campioni la media della popolazione è compresa fra gli s s estremi x t a / 2,n 1 ; x t a / 2,n1 . n n INTERVALLO DI CONFIDENZA PER LA DIFFERENZA FRA MEDIE DI DUE POPOLAZIONI NORMALI CON VARIANZA NON NOTA Volendo stimare la differenza fra medie 1 e 2 di due popolazioni normali con varianze non note, si estraggono due campioni di dimensione rispettivamente n 1 e n2 . Abbiamo visto che la differenza delle medie campionarie X 1 X 2 si distribuisce in modo normale per numerosità sufficientemente alte, costituendo un buono stimatore. La stima della varianza si ottiene da S2 (n1 1) S12 (n2 1) S 22 n1 n2 2 e la scrittura 1 1 1 1 P ( x1 x 2 ) t a / 2,n1 n 2 2 s ( 1 2 ) x1 x 2 ) t a / 2,n1 n 2 2 s 1 n1 n2 n1 n2 indica che nel 100(1- )% dei campioni la differenza fra le medie della popolazione è 1 1 1 1 ; x1 x 2 ) t a / 2,n1 n 2 2 s . compresa fra gli estremi ( x1 x 2 ) t a / 2,n1 n 2 2 s n1 n2 n1 n2 INTERVALLO DI CONFIDENZA PER LA PROPORZIONE DI UNA POPOLAZIONE NORMALE Vogliamo stimare la proporzione p di una popolazione distribuita in modo normale. Estraiamo un campione di numerosità n e calcoliamo la frequenza campionaria relativa X F che abbiamo visto essere un buono stimatore. n Scriveremo P f za / 2 f (1 f ) p f za / 2 n f (1 f ) 1 n ad indicare che nel 100(1- )% dei campioni la proporzione p della popolazione è f (1 f ) f (1 f ) ; f za / 2 compresa fra gli estremi f z a / 2 . n n INTERVALLO DI CONFIDENZA PER LA DIFFERENZA TRA LE PROPORZIONI DI DUE POPOLAZIONI NORMALI Se vogliamo stimare la differenza fra proporzioni di due popolazioni normali, estraiamo due campioni n1 e n2 . La differenza fra le proporzioni campionarie F1-F2 è un buono stimatore del parametro corrispondente e si distribuisce in modo normale per numerosità sufficienti. La scrittura P ( f 1 f 2 ) z a / 2 f1 (1 f1 ) f 2 (1 f 2 ) p1 p 2 ( f1 f 2 ) z a / 2 n1 n2 f1 (1 f1 ) f 2 (1 f 2 ) 1 n1 n2 indica che nel 100(1- )% dei campioni la differenza delle proporzioni delle due popolazioni è compresa fra gli estremi ( f 1 f 2 ) z a / 2 f 1 (1 f 1 ) f 2 (1 f 2 ) ; ( f1 f 2 ) z a / 2 n1 n2 f 1 (1 f 1 ) f 2 (1 f 2 ) n1 n2 INTERVALLO DI CONFIDENZA PER LA VARIANZA DI UNA POPOLAZIONE NORMALE Vogliamo stimare per intervalli la varianza di una popolazione normale di cui non è noto il valor medio , sulla base di un campione di grandi dimensioni di cui si conosce la varianza. Supponiamo che la popolazione sia distribuita normalmente con varianza 2 . (n 1) S 2 La variabile è distribuita come una v.a. 2 con n-1 gradi di libertà, e si ha 2 (n 1) s 2 2 / 2;n1 2 (n 1) s 2 21 / 2;n 1 in cui s2 è la varianza campionaria e 2 / 2;n 1 , 2 / 2;n 1 sono i valori assunti da 2 per / 2 e 1- / 2 , per n-1 gradi di libertà. INTERVALLO DI CONFIDENZA PER IL RAPPORTO FRA VARIANZE DI POPOLAZIONI NORMALI Vogliamo stabilire un intervallo di confidenza per la stima del rapporto 12 22 fra le varianze di due popolazioni normali di cui non si conoscono né medie 1 , 2 né le varianze 12 , 22 . Estraiamo da ciascuna popolazione un campione di dimensione rispettivamente n1 e n2 e calcoliamo le varianze s12 e s 22 . Il rapporto S12 Fn1;n 2 12 S 22 22 si distribuisce come una v.a. F di Fisher con n1-1 e n2-2 gradi di libertà. Si scrive allora S2 /S2 2 S12 / S 22 P 1 2 12 1 F / 2;n11;n 21 2 F1 / 2;n11;n 21 Ad indicare che nel 100(1- )% dei campioni il rapporto fra le varianze delle due popolazioni è compresa fra gli estremi S12 / S 22 S12 / S 22 ; . F / 2;n11;n 21 F1 / 2;n11;n 21 STIMA DEI COEFFICIENTI DI REGRESSIONE L’equazione della retta di regressione è, come si è visto, Yˆ 0 1 X Scegliamo come metodo di stima quello dei minimi quadrati. Sceglieremo quindi la retta per la quale la somma dei quadrati degli scostamenti fra valori teorici e quelli osservati del carattere Y è minima. Ossia dobbiamo minimizzare S ( yi 0 1 xi ) 2 min Deriviamo rispetto ai due parametri ed uguagliamo a zero: S 2 ( yi 0 1 ) 0 0 S 2 ( yi 0 1 ) xi 0 1 ossia 0 n 1 xi yi 2 0 xi 1 xi xi yi La cui soluzione è yi xi2 xi xi yi ˆ 0 n xi2 ( xi ) 2 xi yi xi yi ˆ1 n xi2 ( xi ) 2 Questi stimatori dei parametri di un modello di regressione risultano essere in media non distorti e consistenti. Il Teorema di Gauss-Markov dimostra che gli stimatori dei minimi quadrati B0,B1 sono i più efficienti nella classe degli stimatori lineari e non distorti per 0 , 1 . Anche per il valore stimato ˆ può essere costruito un intervallo di confidenza, perché lo stimatore B si distribuisce normalmente. Si dimostra che gli intervalli di confidenza si traggono dalla variabile t di Student con n-2 gradi di libertà: ˆ ˆ 0 t / 2;n2 Es( B0 ) 0 0 t / 2;n2 Es( B0 ) ˆ1 t / 2;n2 Es( B0 ) 1 ˆ1 t / 2;n2 Es( B1 ) Dove Es( B0 ), Es( B1 ) sono gli errori standard della stima. METODO MONTE CARLO Un importante algoritmo basato sulla legge dei grandi numeri è il metodo Monte Carlo. Si tratta di un metodo di simulazione utile quando un problema reale è così complesso da rendere impossibile una soluzione analitica o numerica tradizionale. E’ possibile analizzare le caratteristiche di una v.a. attraverso la generazione di determinazioni della variabile. Per generare campioni casuali si utilizzano algoritmi che producono numeri pseudocasuali. Queste sequenze vengono considerate realizzazioni di un dato modello probabilistico di cui si replica la struttura per via simulativa, in modo da poterne studiare distribuzione o parametri. NUMERI PSEUDO-CASUALI Un algoritmo di generazione di sequenza di numeri pseudo casuali fornisce numeri xi nell’intervallo (0,M), M numero intero che indica la lunghezza massima del ciclo di generazione, raggiunta la quale la sequenza si ripete. Dividendo tali numeri per M si ottengono numeri compresi nell’intervallo (0,1), che si possono mettere in relazione quindi con la v.a. Y ~ U (0,1) . Dovremo identificare un generatore di numeri adatto alla v.a. (discreta o continua) XF(x). Si individua allora un metodo ricorsivo della forma xi (axi 1 b) mod m (due numeri sono congrui modulo m se la loro differenza è un multiplo di m). Dove x1 è il seme, mentre a,b,xi sono scelti in modo da generare numeri uniformi in (0,1,…,m-1), ossia ogni intero in questo intervallo è ugualmente probabile e ogni valore è indipendente dai precedenti. I numeri così ottenuti devono ora essere trasformati in valori per la v.a. XF(x). Una tecnica si basa sulla funzione inversa della funzione di ripartizione. Data la v.a. X con funzione di ripartizione F(x) crescente da 0 a 1, se F(x) risulta essere continua esisterà una funzione inversa tale che F 1 (Y ) F 1 ( F ( X )) X F ( X ) . Data allora una v.a. esponenziale negativa XEn() di funzione densità per x 0 exp( x) f ( x) 0 per x0 di funzione di ripartizione F ( x) 1 exp( x) (per x 0) la sua inversa sarà F 1 ( y ) ln( 1 y ) Infatti sostituendo in y la F(x) si ha: ln( 1 1 exp( x)) ln(exp( x)) essendo la funzione ln( e x ) x, e ln(x ) x . logaritmo x funzione inversa della funzione esponenziale: Allora dati n numeri pseudo casuali y1 , y2 ,..., yn generati da una variabile uniforme YU(0,1), possiamo usarli per ottenere la sequenza a sua volta pseudo casuale x1 x2 ln( 1 y1 ) ln( 1 y 2 ) ..... xn ln( 1 y n ) della v.a. X . APPLICAZIONE DEL METODO MONTE CARLO ALLA STIMA PROBABILISTICA Supponiamo di dover calcolare l’integrale 1 I g (w)dw 0 che rappresenta il valor medio della v.a. g(W) dove W~U(0,1). Per la legge dei grandi numeri, la successione I converge in probabilità ad I, ossia 1 n g (Wi ) n i 1 In I . p Per cui possiamo sostituire all’integrale vero I una media In calcolata su un certo numero di campioni wi. Il metodo Monte Carlo grezzo permette di ottenere il valore dell’integrale attraverso un campione ottenuto mediante sequenza di numeri pseudo casuali uniformi wi. Si calcolano poi le funzioni corrispondenti g(wi) e se ne ottiene la media aritmetica. Il metodo Monte Carlo Hit or Miss permette invece di calcolare l’integrale come area sottesa a g(x). Allo stesso modo sarà possibile calcolare qualsiasi tipo di area . Lo schema del ragionamento è il seguente. Delimitiamo l’area da valutare con un quadrato di lato noto. Si genera una serie di X numeri pseudo casuali. N di questi verranno messi in corrispondenza con punti non posizionati nell’area da valutare, X-N con punti posizionati nell’area da valutare: superficie quadrato noto X superficie area da valutare X N Se la quantità di numeri pseudo-casuali è sufficientemente alta, si avrà il valore della superficie dell’area con superficie area da valutare (X - N) superficie quadrato noto X