Elementi di Teoria sugli Stimatori Susanna Ragazzi Università degli Studi di Ferrara Centro per la Modellistica, il Calcolo e la Statistica Technical Report 01-2006 1. 1.1 La Teoria degli Stimatori Premessa L’inferenze statistica concerne lo studio di informazioni campionarie per prendere decisioni riguardanti tutta la popolazione. Parte centrale dell’inferenza è la teoria che discute la determinazione numerica di un parametro θ, incognito ma fisso, caratterizzante la popolazione X ∼ f (x; θ), anche detta teoria degli stimatori. Si discutono alcune importanti proprietà degli stimatori ed in particolare della proprietà di sufficienza, e di come accertare quali requisiti conferiscono alla stima un giudizio di qualità ossia si discute il problema della validità statistica di uno stimatore. 1.2 Differenza tra Stimatore e Stima di un Parametro Sostanzialmente la differenza tra stimatore e stima di un parametro è che il primo è una statistica (=una qualunque a funzione a valori reali del campione casuale da cui proviene la popolazione) mentre il secondo è il corrispondente valore numerico calcolato sulla base del campione osservato. Sia considerata una variabile casuale X ∼ f (x; θ) la cui forma funzionale è nota a meno del vettore di parametri θ ∈ Ω(θ), dove con Ω(θ) si intende lo spazio parametrico. Sia X = (X1 , ..., Xn ) un campione casuale estratto dalla variabile casuale x la cui determinazione numerica fornisce il campione osservati x = (x1 , ..., xn ) è possibile enunciare le seguenti: Definizione Si definisce stima tn qualunque funzione T (.) nota e a valori reali definita sulla n-upla di numeri reali (x1 , ..., xn ), cioè tn = T (x1 , ..., xn ). La stima di un parametro è dunque un numero reale. Definizione Si definisce stimatore Tn una qualunque funzione T (.) nota e a valori reali definita sulla n-upla di variabili casuali (X1 , ..., Xn ), cioè Tn = T (X1 , ..., Xn ). Quindi lo stimatore è definito come una variabile casuale. Una questione assai rilevante, sia per la valutazione di una particolare procedura di stima che per il confronto di stimatori alternativi, è la conoscenza della distribuzione campionaria dello stimatore Tn. In generale per individuare lo stimatore Tn per un parametro θ si deve: 1. stabilire cosa si intende con "bontà di uno stimatore", enucleando gli aspetti ritenuti più sensibili della distribuzione di Tn per la determinazione numerica di θ. Tale discussione risulta piuttosto complessa poiché essendo θ un numero e Tn una variabile casuale esistono molti modi per parlare di bontà, accuratezza, affidabilità di uno stimatore. 2. individuare dei "metodi di costruzione degli stimatori", di stabilire quindi come si effettua la sintesi dei valori di (X1 , ..., Xn) per giungere a Tn = T (X1 , ..., Xn ) in modo tale da fornire proprietà desiderabili allo stimatore per stimare correttamente θ. 3. considerare che per natura lo stimatore è un prodotto statistico per cui la sua bontà dipende dalla validità degli assunti da rispettare, dalla correttezza delle derivazioni e dal rigore con cui viene usato nelle applicazioni. 1.3 Le proprietà degli Stimatori: La Sufficienza e le Proprietà Finite La Sufficienza degli Stimatori Il concetto di sufficienza nella teoria degli stimatori sottostà ad un principio di riduzione del campione osservato (x1 , ..., xn ) in un sottospazio di dimensione molto inferiore, per la determinazione numerica del parametro da stimare θ secondo il quale tra le infinite possibili riduzioni di (x1 , ..., xn ) la statistica sufficiente dovrà preservare l’essenziale riguardo θ. Sia X = (X1 , ..., Xn ) un campione casuale generato dalla variabile casuale X ∼ f (x; θ) dove θ ∈ Ω(θ) è il parametro oggetto di stima. Definizione Si dice che Tn è sufficiente per θ se la distribuzione condizionata di (X1 , ..., Xn ) , assunto che Tn abbia un valore t0 non dipende da θ; cioè Tn è sufficiente per θ se e solo se ϕ(X1 , ..., Xn | Tn = t0 ) non dipende da θ. Se lo stimatore Tn è sufficiente per θ allora la distribuzione condizionata: ϕ(X1 , ..., Xn | Tn = t0 ) = h(x1 , ..., xn , Tn = t0 ; θ) g(Tn = t0 ; θ) non dipende da θ; anche se la distribuzione di ciascuna variabile Xi dipende da θ e la distribuzione multivariatandel cam pione casuale f (x1 , ..., xn ; θ) = f (xi ; θ) dipenda ancora da θ. i=1 In questo modo tutte le informazioni circa il parametro θ vengono trasferite nello stimatore Tn in modo integrale. E’ importante osservare che se uno stimatore è sufficiente per un parametro θ di una variabile casuale può non esserlo per quello di un’altra variabile casuale appartenente ad una famiglia diversa (Garthwaite et al. 1995, pp19-20). In sede applicativa la definizione formale di stimatore sufficiente risulta piuttosto complessa da verificare, a tal fine si introduce il teorema proposto da Fisher, noto come teorema di fattorizzazione nel quale si esplica le condizioni necessarie e sufficienti per verificare se un dato stimatore Tn è sufficiente per θ. Teorema 1 (di Fattorizzazione di Fisher) Sia (X1 , ..., Xn ) un campione casuale generato da X ∼ f(x; θ) allora Tn = T (X1 , ..., Xn ) è sufficiente per θ se e solo se esistono due funzioni non negative g(.) e h(.) tali che la funzione di verosimiglianza si possa fattorizzzare nel modo seguente: L(θ; x) = g(T (x1 , ..., xn ); θ)h(x1 , ..., xn) dove g(.) dipende dalle osservazioni campionarie solo attraverso la sintesi T (x1 , ..., xn )ottenuta dallo stimatore Tn , mentre h(.) è funzione del campione e non dipende dal parametro θ. E’ possibile inoltre generalizzare la definizione di stimatore sufficiente al caso di un vettore θ di m > 1 parametri nel modo seguente. Se θ è un vettore di parametri della variabile casuale X ∼ f (x; θ) dalla quale è generato un campione casuale (X1 , ..., Xn ) allora lo stimatore vettore Tn è congiuntamente sufficiente (=joint sufficiente) per il vettore di parametri θ se la distribuzione di ϕ(X1 , ..., Xn | Tn = t0 ) non dipende da θ. In maniera analoga si generalizza il teorema di fattorizzazione: un vettore di stimatori Tn è congiuntamente sufficiente per il vettore di parametri θ se e solo è possibile scrivere L(θ; x) = g(T(x1 , ..., xn ); θ)h(x1 , ..., xn ) dove θ e T(x1 , ..., xn ) sono rispettivamente vettori di parametri e numeri. L’importanza della Sufficienza La proprietà di sufficienza di uno stimatore è molto importante perchè da un lato si considerano stimatori che non trascurano nessuna informazione campionaria rilevante dall’altro non includono informazioni ridondanti per la stima del parametro. L’importanza della sufficienza si può formalizzare col seguente Teorema Teorema 2 L’informazione di Fisher fornita da uno stimatore sufficiente Tn coincide con quella fornita dall’intero campione casuale (X1 , ..., Xn ). Dimostrazione Grazie al teorema di fattorizzazione, l’informazione di Fisher sarà funzione del campione solo attraverso ∂ log g(T (x); θ) perchè ∂θ ∂ log h(x1 , ..., xn ) = 0. ∂θ Si ricorda che per informazione attesa di Fisher si intende: 2 ∂ In (θ) = E log L(θ; X) = 2 ∂θ ∂ −E log L(θ; X) ∂θ2 ∂ dove log L(θ; X) rappresenta la fun∂θ zione score; cioè la derivata della funzione log-verosimiglianza (=logaritmo della funzione di verosimiglianza). Si ricorda che per valore atteso indicato con E(X) di una variabile casuale X si intende l’equivalente della media aritmetica nella statistica descrittiva, è definito come il momento (il momento semplice di ordine k di una variabile casuale X discreta è definito come la media k-esima potenza dei valn della k ori µk = i=1 xi pi - con pi si denota la funzione di massa di probabilità della variabile casuale X discreta- di una variabile casuale X continua è definito come la media della k+∞ esimapotenza di valori µk = −∞ xk f (x)dx con f (x) si denota la funzione di densità della variabile casuale., f (x) denota la funzione di densità della variabile casuale) Si osserva che se Tn è sufficiente per θ allora lo sarà anche per qualsiasi altra funzione biunivoca di Tn , per questo tra le infinite funzioni di uno stimatore Tn si deve individuare quella che realizza la massima riduzione possibile (conservando l’informazione campionaria utile per il parametro θ). Definizione Si dice che Tn è uno stimatore sufficiente minimale per θ se per qualsiasi altro stimatore sufficiente Tn∗ la statistica Tn è una funzione di Tn∗ . Si osserva che lo stimatore Tn opera una partizione dello spazio campionario Cn ⊂ Rn in funzione del valore t0 assunto nel campione; così , l’evento Tn = t0 è formato da tutte le n-uple di Cn tali che T (x1 , ..., xn ) = t0 . Il problema allora è quello di operare su Cn la suddivisione più fine possibile, cioè con il minor numero di insiemi possibili. Teorema 3 (di Lehmann e Scheffé) Siano (X1 , ..., Xn ) e (Y1 , ..., Yn ) due campioni casuali generati da X ∼ f (x; θ). Si individui una partizione dello spazio campionario Cn tale che i due campioni appartengano ad essa se e solo se L(θ; X)/L(θ; Y ) non dipende da θ. Allora ogni stimatore corrispondente a tale partizione è sufficiente minimale. Il teorema di Lehmann e Scheffé del 1950 fornisce le condizioni necessarie e sufficienti per l’esistenza e la ricerca di statistiche sufficienti minimali. Le proprietà di Ancillarità e Completezza La proprietà di ancillarità di una statistica è insieme alla sufficienza collegata alla proprietà di completezza, introdotta da Lehmann e Scheffé nel 1950, la ,proprietà di completezza in statistica è di importanza fondamentale poiché per famiglie complete alcune procedure inferenziali sono uniche (Cox e HinKley 1974, pp 30-31). La proprietà di ancillarità di una statistica è connessa alle informazioni contenute in un campione casuale (introdotta da Fisher). Definizione Una statistica Tn è ancillare se la sua distribuzione di probabilità non dipende dal parametro θ. Dalla definizione di ancillarità si deduce che una statistica ancillare non contiene informazioni sul parametro θ ma se utilizzata assieme ad una statistica sufficiente minimale allora può migliorare le informazioni su θ. Definizione Sia X ∼ f (x; θ) e Tn uno stimatore sufficiente per θ. Si dice che Tn è uno stimatore completo se, per qualsiasi funzione q(Tn ) tale che E [q(Tn )] = 0, per ogni θ, sussiste l’identità q(Tn ) ≡ 0. In altri termini, uno stimatore Tn è completo se l’unica funzione di Tn il cui valor medio è 0 è la funzione identicamente nulla. E’ possibile individuare il legame tra sufficienza minimale, completezza ed ancillarità nel teorema di Basu del 1955. Proprietà Finite di uno Stimatore Si fa ora riferimento a quei stimatori validi solamente per le dimensioni campionarie finite. Le proprietà finite di maggiore rilevanza di uno stimatore sono sostanzialmente due: la proprietà di non distorsione e la proprietà di efficienza. La proprietà di non distorsione costituisce uno degli elementi fondamentali circa il giudizio di bontà di uno stimatore poichè, come si vedrà in seguito, indica come baricentro dello stimatore Tn proprio il parametro θ che si vuole stimare. Definizione Un stimatore Tn è non distorto (=unbiased) per il parametro θ se il valore atteso di Tn è uguale a θ. Cioè E(Tn ) = θ. Si osserva che la distorsione (=bias) di uno stimatore Tn è definita in generale da: b(Tn ) = E(Tn )− θ; di conseguenza la distorisione è positiva se E(Tn ) > 0, se E(Tn ) < 0 è definita negativa. Uno stimatore non distorto presenta distorsione identicamente nulla. Osservazione L’utilità del teorema di Basu (il cui viceversa è falso) affiora quando è possibile dimostrare l’indipendenza di due statistiche senza conoscerne la distribuzione congiunta. Teorema 6 Se Tn è uno stimatore sufficiente e completo per θ ed esiste una funzione ψ(Tn ) tale che lo stimatore ψ(Tn ) sia non distorto per θ, cioè E [ψ(Tn )] = θ, allora ψ(Tn ) è unico. Dimostrazione Si supponga che esistano due funzioni di Tn , siano ψ 1 (Tn) e ψ 2 (Tn ) sufficienti, complete e non distorte per θ. Allora: E [ψ 1 (Tn ) − ψ 2 (Tn )] = 0; ma a causa della completezza, la relazione E [ψ 1 (Tn ) − ψ 2 (Tn)] = 0 implica ψ 1 (Tn ) − ψ 2 (Tn ) ≡ 0 per ogni θ, e quindi ψ 1 (Tn ) ≡ ψ 2 (Tn ). Teorema 5 Una statistica sufficiente completa è sempre minimale. Dimostrazione Da Zacks (1971) sufficienza e completezza implicano sufficienza minimale, ma non è vero il viceversa. La proprietà di non distorsione è di importanza fondamentale poiché indica come baricentro della distribuzione dello stimatore Tn proprio il parametro θ da stimare; infatti il valore medio di una variabile casuale è Teorema 4 (di Basu) Se Tn è una statistica sufficente minimale, allora Tn è indipendente da ogni statistica ancillare. tanto più rappresentativo quanto più la varianza è piccola. Si ricorda che la varianza di uno stimatore misura la dispersione dello stimatore attorno al suo valor medio quindi se lo stimatore è distorto, cioè se E(Tn ) = θ, la varianza non può essere indicativa circa la bontà dello stesso. Conviene considerare la variabile casuale definita da (Tn − θ) per pervenire ad un criterio utile sia a stimatori distorti che non distorti, infatti se tale variabile è accentrata sullo zero allora lo stimatore assume valori campionari attorno al parametro θ, sarebbe inoltre auspicabile che la sua distribuzione fosse con alta probabilità addensata sullo zero. Il teorema di Markov assicura che per variabili casuali Tn dotate di momento secondo, questa probabilità è tanto più elevata quanto più piccolo è il momento secondo della variabile casuale (Tn − θ). Un criterio valido per la bontà di uno stimatore consiste nel richiedere che la media dei quadrati della variabile casuale (Tn − θ) sia minima. Definizione Si definisce errore quadratico medio (=Mean Square Error) di uno stimatore Tn per il parametro θ il seguente valore medio: M SE(Tn ) = E(Tn − θ)2 . L’errore quadratico medio di uno stimatore è uguale alla varianza dello stimatore più la distorsione al quadrato, ossia M SE(Tn ) = V ar(Tn ) + b2 (Tn ). Si osserva che l’errore quadratico medio di uno stimatore non distorto coincide con la varianza dello stimatore. L’errore quadratico risulta importante poiché il confronto degli stimatori deve avvenire sempre confrontando i rispettivi M SE come criterio di vicinanza relativa rispetto al parametro θ preferendo quello con M SE inferiore. Questo concetto può essere formalizzato con il concetto di efficienza di uno stimatore. Definizione Uno stimatore T1n si dice più efficiente di uno stimatore T2n per lo stesso parametro θ se M SE(T1n ) < M SE(T2n ). In generale per confrontare due stimatori per un dato parametro si utilizza i reciproci dei MSE e si misura l’efficienza relativa di T1n rispetto a T2n tramite il seguente indice: 1 M SE(T1n ) ef f (T1n | T2n ) = = 1 M SE(T2n ) M SE(T2n ) . M SE(T1n ) Se ef f (T1n | T2n ) > 1 allora si preferisce lo stimatore T1n rispetto a T2n ; se ef f(T1n | T2n ) < 1 si preferisce lo stimatore T2n rispetto a T1n infine se ef f (T1n | T2n ) = 1 allora i due stimatori sono equivalenti in termini di M SE.. Si osserva che se entrambi gli stimatori sono non distorti per θ, allora l’efficienza relativa di T1n rispetto a T2n equivale a: V ar(T2n ) ef f (T1n | T2n) = . V ar(T1n ) In altri termini l’efficienza relativa di uno stimatore rispetto ad un altro è il rapporto tra le rispettive numerosità occorrenti per ottenere lo stesso M SE e la stessa varianza nel caso di stimatori non distorti. Viene ora introdotta la disuguaglianza (o limite) di Cramér e Rao utile a risolvere il problema di trovare un limite inferiore per la variabilità di uno stimatore di un certo parametro. Definizione Se esiste uno stimatore Tn non distorto per il parametro θ che, fra tutti gli stimatori non distorti è quello con varianza più piccola, cioè è il più efficiente, allora Tn sarà detto stimatore non distorto con varianza minima (=UMVUE Uniformly Minimun Variance Unbiased Estimator). Disuguaglianza di Cramér e Rao Se (X1 , ..., Xn ) è un campione casuale generato da X ∼ f (x; θ) sotto le usuali condizioni di regolarità sulla famiglia della variabile casuale X allora per ogni stimatore Tn non distorto per θ si ha: V ar(Tn ) ≥ 1 1 = ; dove con In (θ) si intende In (θ) nI(θ) l’informazione di Fisher. Dimostrazione Sia per uno stimatore generico Tn l’eventuale distorsione indicata con bn (Tn ; θ) = b(θ), mentre con b(θ) sia indicata la derivata della distorsione rispetto a θ. Allora si ha che: ∂ E(Tn ) = 1 + E(Tn ) = θ + b(θ), e che ∂θ b(θ). D’altra parte se E(Vn ) = 0 allora sarà anche che Cov(Tn , Vn ) = E(Tn Vn ) per le condizioni di regolarità, vale la ∂ seguente: E(Tn Vn ) = Tn ( log f)f dx = ∂θ f ∂ ∂ Tn ( )f dx = Tn ( f )dx = Tn f f ∂θ ∂θ ∂ E(Tn ) = 1 + b (θ), dove con f e f dx = ∂θ si indica la funzione di densità congiunta del campione e la sua derivata rispetto a θ; mentre dx = dx1 ...dxn . Per la disuguaglianza di Cauchy e Schwarz (=per due variabili casuali che possiedono il momento secondo vale sem pre Cov(X, Y ) ≤ V ar(X)V ar(Y )) sarà 2 [Cov(Tn , Vn )] ≤ V ar(Tn )V ar(Tn ) e quindi: [Cov(TnVn )]2 V ar(Tn ) ≥ = V ar(Vn ) [E(Tn Vn )]2 [1 + b (θ)]2 = . V ar(Vn ) In (θ) Se lo stimatore è non distorto b(θ) = b (θ) = 0, è così dimostrata la disuguaglianza. Nel 1991 Pieraccini e Rizzi dimostrano il teorema seguente che afferma l’unicità di uno stimatore non distorto che raggiunge il limite di Cramér e Rao. Teorema 7 Se esiste uno stimatore Tn non distorto per θ che raggiunge il limite di Cramér e Rao allora esso è unico. Dimostrazione Siano T1n e T2n due stimatori non distorti per θ con la stessa varianza: V ar(T1n ) = V ar(T2n ) = 1/In (θ) = v, allora il nuovo stimatore Tn definito come Tn = (T1n + T2n )/2 sarà non distorto e presenterà varianza uguale a: V ar(Tn ) = 1 [V ar(T1n ) + V ar(T2n ) + 2Cov(T1n , T2n )] = 4 1 v(1 + ρ); 2 avendo posto che ρ = Corr(T1n , T2n ). Se ρ < 1 allora V ar(Tn ) < v, ma è impossibile perché v è il valore minimo per la varianza di uno stimatore non distorto per θ. Allora deve essere ρ = 1 che implica MT2n = c0 + c1 T1n . Tuttavia essendo non distorti per θ sarà anche: θ = E(T2n ) = c0 + c1 E(T1n ) = c0 +c1 θ, il che avviene solo se c0 ≡ 0, c1 ≡ 1. Ma questo significa che T1n ≡ T2n , cioè che lo stimatore è unico. Grazie alla disuguaglianza di Cramér e Rao è possibile introdurre il concetto di efficienza assoluta o semplicemente efficienza. Definizione Uno stimatore Tn non distorto si dice efficiente per un parametro θ di una variabile casuale X ∼ f (x; θ), che soddisfa le usuali condizioni di regolarità, se e solo se: V ar(Tn ) = [In (θ)]−1 . Si osserva quindi che se uno stimatore efficiente esiste ed è non distorto, è quello stimatore la cui varianza raggiunge il limite inferiore della disuguaglianza di Cramér e Rao. Confrontando la varianza di uno stimatore con la varianza di uno stimatore efficiente (se esso esiste) si misura l’efficienza di uno stimatore, cioè si confronta la varianza di ogni stimatore con il limite inferiore di Cramér e Rao. Definizione Si definisce efficienza di uno stimatore Tn la quantità: 1 V ar(Tn ) ef f (Tn ) = = 1 1/In (θ) [V ar(Tn )In (θ)]−1 . Dato che 0 ≤ ef f (Tn ) ≤ 1 uno stimatore è preferibile quanto più la sua efficienza è vicina ad 1, se Tn è lo stimatore efficiente allora ef f (Tn ) ≡ 1. 1.4 Alcuni Commenti L’efficienza determina dunque quanto la distribuzione di uno stimatore Tn sia vicina ad un parametro θ, aggiungendo inoltre, nelle condizioni di regolarità di una famiglia parametrica, la valutazione di quanto tale vicinanza sia piccola o grande in rapporto a quella massima raggiungibile dallo stimatore efficiente. E’ importante sottolineare che: • L’efficienza di uno stimatore impone la conoscenza della variabile casuale perchè, dopo aver controllato le condizioni di regolarità, si devono calcolare le derivate della funzione logverosimiglianza ed i rispettivi valor medi. • La varianza di qualsiasi stimatore non può superare il reciproco dell’informazione di Fisher, ma questo non significa che necessariamente esiste uno stimatore che raggiunga effettivamente quel limite. • Se lo stimatore Tn presenta la distorsione b(θ) la disuguaglianza di Cramér e Rao si generalizza come segue: [1 + b (θ)]2 . In (θ) Tuttavia se gli stimatori sono non distorti, è più coerente esprimere la disuguaglianza in termini di M SE cioè: V ar(Tn ) ≥ [1 + b (θ)]2 + [b(θ)]2 . M SE(Tn ) ≥ In (θ) • Se ψ(θ) è una funzione che soddisfa le usuali condizioni di regolarità tale che ψ(Tn ) sia il corrispondente stimatore non distorto per ψ(θ) allora: ∂ ( ψ(θ))2 V ar(Tn ) ≥ ∂θ . In (θ) Molto importante è il teorema seguente poiché fornisce le risposte circa le condizioni sotto le quali la varianza di uno stimatore possa effettivamente raggiungere il limite inferiore della disuguaglianza di Cramér e Rao. Teorema 8 Condizione necessaria e sufficiente affinché esista uno stimatore Tn efficiente e non distorto per θ è che sia: ∂ log L(θ; X) = In (θ)(Tn − θ). Vn = ∂θ Dimostrazione La disuguaglianza 2 [Cov(Tn , Vn )] ≤ V ar(Tn )V ar(Tn ) diventa un’uguaglianza se e solo se esiste una relazione lineare tra Tn e Vn , cioè se: Vn = c0 + c1 Tn . Se si applica ad ambo i membri il valor medio, ricordando che E(Vn ) = 0, E(Tn ) = θ si ha che: 0 = c0 + c1 θ ⇒ c0 = −c1 θ, il quale sostituito alla relazione Vn = c0 + c1 Tn , implica che: Vn = −c1 θ + c1 Tn = c1 (Tn − θ). Se si moltiplica quest’ultima relazione per Vn e si considera il valore medio di entrambi i membri, ricordando che E(Vn Tn ) = 1 si ha che: E(Vn )2 = c1 E(Vn Tn ) − c1 θE(Vn ) = c1 (1) − c1 θ(0) = c1 , da cui si deduce che: c1 = E(Vn )2 = In (θ) ed infine: Vn = In (θ)(Tn − θ). Osservazione Emulando la dimostrazione per uno stimatore non distorto è possibile pervenire alla famiglia delle variabili casuali per la quale esiste uno stimatore efficiente, cioè la famiglia esponenziale. Osservazione L’efficienza può essere verificata solo se le condizioni di regolarità sono valide, che non avviene sempre, come ad esempio per variabili casuali Uniformi e per variabili casuali troncate. In questi casi il limite di Cramér e Rao può essere abbassato parlando così di super efficienza. (Azzalini 1992 e Rizzi 1992a). E’ possibile individuare i legami tra i concetti di sufficienza, non distorsione ed efficienza trattai finora con il seguente teorema: Teorema 9 (di Rao e Blackwell) Sia (X1 , ..., Xn ) un campione casuale estratto da X ∼ f (x; θ) e sia T1n uno stimatore sufficiente per θ mentre T2n è un qualsiasi stimatore non distorto di θ. Allora posto Tn = E(T2n /T1n ) si ha che: i) Tn è funzione esclusiva di T1n ; ii) E(Tn ) è funzione esclusiva di T1n ; iii) V ar(Tn ) ≤ V ar(T2n ). Dimostrazione T2n è uno stimatore non distorto per θ, per le proprietà del valor medio si ha che: E(Tn ) = E(E(T2n | T1n )) = E(T2n ) = θ. E’ noto che per ogni variabile casuale doppia (X, Y ) si ha: V ar(Y ) = V ar(Y | X) + V ar [E(Y | X)] ≥ V ar [E(Y | X)] ; segue che: V ar(T2n ) ≥ V ar(E(T2n | T1n )) = V ar(Tn ); la quale dimostra il punto iii) del Teorema. Si osservi infine che mentre la ii) e la iii) derivano da proprietà dei valori medi condizionati per qualsiasi stimatore, è la sufficienza di T1n che permette di ottenere lo stimatore Tn = E(T2n | T1n ). Infatti per effettuare tale calcolo si deve conoscere la funzione di densità (T2n | T1n = t), la quale non dipende da θ solo perché T1n è uno stimatore sufficiente. Il teorema di Rao e Blackwell fornisce le indicazioni su come costruire uno stimatore più efficiente di uno stimatore non distorto utilizzando la conoscenza di uno stimatore sufficiente. Tale teorema è importante perché mostra che uno stimatore non distorto di θ con varianza minima deve essere funzione di una statistica sufficiente Tn ; altrimenti la media condizionata produrrebbe stimatori piùefficienti. Osservazione Se esiste uno stimatore UM V UE per θ e ψ(Tn ) è non distorto per θ; dove Tn è uno stimatore completo sufficiente (minimale), allora ψ(Tn ) è uno stimatore UM V UE. Un requisito di semplicità per la formulazione analitica di uno stimatore è la linearità. Definizione Uno stimatore si dice lineare se può essere espresso mediante una combinazione lineare di variabili casuali campèionarie, cioè se: Tn = ni=1 ai Xi ; dove le costanti ai con i = 1, ..., n sono quantità note. La linearità semplifica la derivazione dei momenti di uno stimatore e, in taluni casi, anche della sua distribuzione di probabilità. E’ possibile ora riassumere le proprietà di uno stimatore derivato da un campione casuale di numerosità finita: • La sufficienza è una proprietà essenziale per l’intera Inferenza statistica e la completezza aggiunge la garanzia della unic- ità per lo stimatore; insieme inducono sufficienza minimale. • Efficienza e non distorsione, in condizione di regolarità della famiglia di variabili casuali assicurano una vicinanza tra i valori campionari ed il valore teorico del parametro perché garantiscono il massimo addensamento possibile della distribuzione dello stimatore attorno al parametro. • Quando la variabile casuale appartiene ad una famiglia per la quale la varianza dello stimatore raggiunge il limite della disuguaglianza di Cramér e Rao, allora esiste uno stimatore efficiente, non distorto, sufficiente e completo (quindi sufficiente minimale). Tale stimatore è unicoi. 1.5 Proprietà Asintotiche di Uno Stimatore Premesssa Si sono finora discusse le proprietà statistiche degli stimatori quando la numerosità campionaria è finita, è ragionevole peraltro richiedere un miglioramento di tali proprietà quando la numerosità campionaria diverge con l’introduzione di ulteriori proprietà statistiche, in modo da rendere sempre più rappresentativo il campione per la popolazione ed in modo da utilizzare nella "direzione giusta" ogni nuovo dato disponibile. La Non Distorsione Asintotica, La Consistenza Definizione Uno stimatore Tn si dice asintoticamente non distorto per θ se: lim lim E(Tn ) = θ ⇔ b(Tn ) = 0. n→∞ n→∞ Quindi uno stimatore asintoticamente non distorto è uno stimatore eventualmente distorto per n finito, ma cui la distorsione tende a zero al crescere della numerosità campionaria. Le proprietà connesse alla proprietà di consistenza (in media quadratica, in probabilità, quasi certa) sono di maggior rilievo nell’ambito delle proprietà asintotiche di uno stimatore. Definizione Uno stimatore Tn si dice consistente in media quadratica per θ se: lim lim M SE(Tn ) = E(Tn − n→∞ n→∞ θ)2 = 0. Uno stimatore è consistente in media quadratica se il suo M SE tende a zero al crescere della numerosità campionaria. Essendo il MSE di uno stimatore la somma di due quantità non negative (V ar(Tn ) e [b(Tn )]2 ) la definizione sopra è equivalente alla verifica contemporanea delle seguenti condizioni: lim V ar(Tn ) = 0 n→∞ lim [bn (Tn )]2 = 0. n→∞ Se uno stimatore è non distorto (o asintoticamente non distorto) allora è consistente in media quadratica se la varianza dello stimatore tende a zero al crescere della numerosità campionaria, e vale anche il viceversa; di conseguenza è possibile affermare che la consistenza in media quadratica implica la distorsione asintotica. Definizione Uno stimatore Tn è consistente in probabilità per θ se per ogni * > 0 fissato, si ha: lim Pr(|Tn − θ| < *) = 1. n→∞ Notazione Per indicare la consistenza in probabilità di uno stimatore si usp ano le seguenti notazioni: Tn → θ oppure p lim(Tn ) = θ. La consistenza inm probabilità risulta particolarmente utile quando si conosce la distribuzione di probabilità della variabile casuale X. Esiste un’analogia tra la convergenza quasi certa di una successione di varìiabili casuali ad una costante e la convergenza di uno stimatore: la si può definire come una forma più forte di consistenza. A tal fine sia data la seguente definizione. Definizione Uno stimatore Tn è qc consistente quasi certamente per θ se Tn → θ; ovvero se per ogni * > 0 si ha che: lim Pr(|Tn − θ| < *, ∀m ≥ n) = 1. n→∞ L’Efficienza Asintotica e Normalità Asintotica Definizione Uno stimatore Tn non distorto per θ si dice asintoticamente efficiente se: lim 1 V ar(Tn ) = ⇔ n→∞ In (θ) lim ef f(Tn) = 1. n→∞ Quindi uno stimatore Tn è asintoticamente efficiente se, pur non raggiungendo il limite di Cramér e Rao per un n finito, lo raggiunge quando n diverge. Definizione Uno stimatore Tn per il parametro θ si dice asintoticamente Normale se: lim Tn − E(Tn ) Pr( ≤ t) = φ(t); n→∞ V ar(Tn ) cioè al crescere della numerosità campionaria la funzione di ripartizione dello stimatore standardizzato tende alla funzione di ripartizione della variabile casuale Z N (0, 1). Si osserva che l’uso della distribuzione Normale per approssimare la distribuzione di uno stimatore semplifica le elaborazioni numeriche, inoltre la convergenza alla Normalità delle variabili casuali Tn consente di applicare allo stimatore tutte le proprietà notevoli di cui gode tale distribuzione, anche se valgono solo quando la dimensione campionaria diverge. Osservazione Uno stimatore Tn per il parametro θ viene definito stimatore BAN (=Best Asymptotically Normal), oppure CAN E (=Consistent Asymptotically Normal Efficient), se è asintoticamente Normale, consistente in media quadratica e possiede la varianza più piccola nella classe di tutti gli stimatori di θ consistenti ed asintoticamente Normali. 1.6 Principi Generali per la Stima di Un Parametro Viene ora presentato un elenco dei principi generali per effettuare la stima di un parametro. 1. La stima di un parametro deve essere espressa nella stessa unità di misura del parametro. Per controllare il rispetto di tale criterio ci si affida al valore medio del campione per constatare che l’unità di misura rispetta quella attesa. Connesso a tale requisito vi è il principio dell’invarianza in base al quale l’inferenza non può essere modificata dalla particolare unità di misura utilizzata o dal particolare problema di cui si discute. 2. Se tutte le informazioni del campione sono accurate allo stesso modo, nessuna sintesi dovrebbe privilegiare qualcuna più di altre per cui il loro ordine di acquisizione dovrebbe essere irrilevante. Ciò implica che per la stima di un parametro occorre utilizzare funzioni simmetriche di (x1 , ..., xn) il che conduce al concetto di scambiabilità. 3. La sintesi Tn , per il parametro θ deve essere coerente per θ nel senso che deve valutare θ e non ψ(θ). 4. Un principio differente di coerenza, denominato consistenza, afferma che se le unità campionarie sono repliche indipendenti e somiglianti della popolazione ciascuna di esse deve apportare delle informazioni aggiuntive per la determinazione di θ, cioè al crescere di n la distribuzione di Tn deve essere unimodale ma che occorre richiedere che la probabilità |Tn − θ| < * per * > 0 piccolo tenda a crescere con n. 5. Un altro principio è quello di richiedere che uno stimatore Tn possieda una probabilità elevata di assumere valori attorno a θ a parità di ampiezza dell’intervallo. Questo conduce al concetto di massima concentrazione di probabilità; infatti se T1n e T2n sono due stimatori per θ per i quali: Pr(T1n ∈ θ ± ∆) ≥ Pr(T2n ∈ θ ± ∆), per tutti i ∆ > 0; allora T1n è uniformemente preferibile a T2n . 6. Deve essere rispettato il principio di utilizzare al meglio le osservazioni campionarie nel senso di estrarre da un campione tutto e solo ciò che riguarda il parametro da stimare. Questo conduce al principio di sufficienza di uno stimatore che è prioritario e decisivo per tutta la discussione sulla scelta dello stimatore. 7. Vi numerosi altri principi e a seconda dell’impostazione inferenziale si preferisce l’uno o l’altro, si cita, tra tutti, il principio di condizionamento secondo il quale la stima per θ deve essere ricavata condizionatamente al valore assunto dalle informazioni presenti nel campione. 1.7 Riferimenti Bibliografici 1) Azzalini, A. Inferenza Statistica. Una introduzione basata sul concetto di verosimiglianza, Berlin, Springer-Verlag (1992). pp 137-138. 2) Casella, G. e Berger, R.L. Statistical Inference, Belmont, CA, Duxbury Press (1990). pp 222, pp 316. 3) Lehmann, E.L. Theory of Point Estimation, New York, J. Wiley &Sons (1983). 4) Pieraccini, L. (1976) Fondamenti di inferenza statistica, Torino, Giappichelli (1991). pp 210-211, 212-214, 260-268. 5) Piccolo, D. Statistica, Bologna, Il Mulino (1998). pp 534-577.Ricci, F. Statistica ed elaborazione statistica delle informazione, Bologna, Zanichelli (1975). 6) Rao, C.R. Linear Statistical Inference and Its Applications, New York, J.Wiley &Sons, II Edizione (1973). 7) Ricci, F. Statistica ed elaborazione statistica delle informazione, Bologna, Zanichelli (1975). 8) Rizzi, A: Inferenza Statistica, Torino, Utet-Libreria (1992a). pp 113-117.