Elementi di Teoria sugli Stimatori
Susanna Ragazzi
Università degli Studi di Ferrara
Centro per la Modellistica, il Calcolo e la Statistica
Technical Report 01-2006
1.
1.1
La Teoria degli Stimatori
Premessa
L’inferenze statistica concerne lo studio
di informazioni campionarie per prendere
decisioni riguardanti tutta la popolazione.
Parte centrale dell’inferenza è la teoria che
discute la determinazione numerica di un
parametro θ, incognito ma fisso, caratterizzante la popolazione X ∼ f (x; θ), anche
detta teoria degli stimatori. Si discutono alcune importanti proprietà degli stimatori ed
in particolare della proprietà di sufficienza, e
di come accertare quali requisiti conferiscono
alla stima un giudizio di qualità ossia si discute il problema della validità statistica di
uno stimatore.
1.2 Differenza tra Stimatore e Stima
di un Parametro
Sostanzialmente la differenza tra stimatore e stima di un parametro è che il primo è
una statistica (=una qualunque a funzione
a valori reali del campione casuale da cui
proviene la popolazione) mentre il secondo
è il corrispondente valore numerico calcolato
sulla base del campione osservato.
Sia considerata una variabile casuale
X ∼ f (x; θ) la cui forma funzionale è nota
a meno del vettore di parametri θ ∈ Ω(θ),
dove con Ω(θ) si intende lo spazio parametrico.
Sia X = (X1 , ..., Xn ) un campione casuale estratto dalla variabile casuale x la
cui determinazione numerica fornisce il campione osservati x = (x1 , ..., xn ) è possibile
enunciare le seguenti:
Definizione
Si definisce stima tn
qualunque funzione T (.) nota e a valori
reali definita sulla n-upla di numeri reali
(x1 , ..., xn ), cioè tn = T (x1 , ..., xn ). La stima
di un parametro è dunque un numero reale.
Definizione
Si definisce stimatore
Tn una qualunque funzione T (.) nota e a valori reali definita sulla n-upla di variabili casuali (X1 , ..., Xn ), cioè Tn = T (X1 , ..., Xn ).
Quindi lo stimatore è definito come una variabile casuale.
Una questione assai rilevante, sia per
la valutazione di una particolare procedura
di stima che per il confronto di stimatori alternativi, è la conoscenza della distribuzione campionaria dello stimatore Tn. In
generale per individuare lo stimatore Tn per
un parametro θ si deve:
1. stabilire cosa si intende con "bontà di
uno stimatore", enucleando gli aspetti
ritenuti più sensibili della distribuzione
di Tn per la determinazione numerica
di θ. Tale discussione risulta piuttosto
complessa poiché essendo θ un numero
e Tn una variabile casuale esistono molti
modi per parlare di bontà, accuratezza,
affidabilità di uno stimatore.
2. individuare dei "metodi di costruzione
degli stimatori", di stabilire quindi
come si effettua la sintesi dei valori
di (X1 , ..., Xn) per giungere a Tn =
T (X1 , ..., Xn ) in modo tale da fornire
proprietà desiderabili allo stimatore per
stimare correttamente θ.
3. considerare che per natura lo stimatore è un prodotto statistico per cui la
sua bontà dipende dalla validità degli
assunti da rispettare, dalla correttezza
delle derivazioni e dal rigore con cui
viene usato nelle applicazioni.
1.3
Le proprietà degli Stimatori: La
Sufficienza e le Proprietà Finite
La Sufficienza degli Stimatori Il concetto di sufficienza nella teoria degli stimatori sottostà ad un principio di riduzione
del campione osservato (x1 , ..., xn ) in un sottospazio di dimensione molto inferiore, per
la determinazione numerica del parametro
da stimare θ secondo il quale tra le infinite possibili riduzioni di (x1 , ..., xn ) la statistica sufficiente dovrà preservare l’essenziale
riguardo θ.
Sia X = (X1 , ..., Xn ) un campione casuale generato dalla variabile casuale X ∼
f (x; θ) dove θ ∈ Ω(θ) è il parametro oggetto
di stima.
Definizione
Si dice che Tn è sufficiente per θ se la distribuzione condizionata
di (X1 , ..., Xn ) , assunto che Tn abbia un valore t0 non dipende da θ; cioè Tn è sufficiente
per θ se e solo se ϕ(X1 , ..., Xn | Tn = t0 ) non
dipende da θ.
Se lo stimatore Tn è sufficiente per θ allora la distribuzione condizionata:
ϕ(X1 , ..., Xn
|
Tn
=
t0 )
=
h(x1 , ..., xn , Tn = t0 ; θ)
g(Tn = t0 ; θ)
non dipende da θ; anche se la distribuzione di ciascuna variabile Xi dipende
da θ e la distribuzione multivariatandel cam
pione casuale f (x1 , ..., xn ; θ) =
f (xi ; θ)
dipenda ancora da θ.
i=1
In questo modo tutte le informazioni
circa il parametro θ vengono trasferite nello
stimatore Tn in modo integrale.
E’ importante osservare che se uno stimatore è sufficiente per un parametro θ di
una variabile casuale può non esserlo per
quello di un’altra variabile casuale appartenente ad una famiglia diversa (Garthwaite et
al. 1995, pp19-20).
In sede applicativa la definizione formale
di stimatore sufficiente risulta piuttosto complessa da verificare, a tal fine si introduce il
teorema proposto da Fisher, noto come teorema di fattorizzazione nel quale si esplica le
condizioni necessarie e sufficienti per verificare se un dato stimatore Tn è sufficiente per
θ.
Teorema 1
(di Fattorizzazione di
Fisher) Sia (X1 , ..., Xn ) un campione casuale generato da X ∼ f(x; θ) allora Tn =
T (X1 , ..., Xn ) è sufficiente per θ se e solo
se esistono due funzioni non negative g(.) e
h(.) tali che la funzione di verosimiglianza si
possa fattorizzzare nel modo seguente:
L(θ; x) = g(T (x1 , ..., xn ); θ)h(x1 , ..., xn)
dove g(.) dipende dalle osservazioni
campionarie solo attraverso la sintesi
T (x1 , ..., xn )ottenuta dallo stimatore Tn ,
mentre h(.) è funzione del campione e non
dipende dal parametro θ.
E’ possibile inoltre generalizzare la
definizione di stimatore sufficiente al caso
di un vettore θ di m > 1 parametri
nel modo seguente. Se θ è un vettore
di parametri della variabile casuale X ∼
f (x; θ) dalla quale è generato un campione
casuale (X1 , ..., Xn ) allora lo stimatore vettore Tn è congiuntamente sufficiente (=joint
sufficiente) per il vettore di parametri θ
se la distribuzione di ϕ(X1 , ..., Xn | Tn =
t0 ) non dipende da θ.
In maniera
analoga si generalizza il teorema di fattorizzazione: un vettore di stimatori Tn
è congiuntamente sufficiente per il vettore
di parametri θ se e solo è possibile scrivere L(θ; x) = g(T(x1 , ..., xn ); θ)h(x1 , ..., xn )
dove θ e T(x1 , ..., xn ) sono rispettivamente
vettori di parametri e numeri.
L’importanza della Sufficienza La proprietà di sufficienza di uno stimatore è molto
importante perchè da un lato si considerano stimatori che non trascurano nessuna informazione campionaria rilevante dall’altro
non includono informazioni ridondanti per la
stima del parametro.
L’importanza della sufficienza si può formalizzare col seguente Teorema
Teorema
2
L’informazione di
Fisher fornita da uno stimatore sufficiente
Tn coincide con quella fornita dall’intero
campione casuale (X1 , ..., Xn ).
Dimostrazione
Grazie al teorema
di fattorizzazione, l’informazione di Fisher
sarà funzione del campione solo attraverso
∂
log g(T (x); θ)
perchè
∂θ
∂
log h(x1 , ..., xn ) = 0.
∂θ
Si ricorda che per informazione attesa di
Fisher si intende:
2
∂
In (θ)
=
E
log L(θ; X)
=
2
∂θ
∂
−E
log L(θ; X)
∂θ2
∂
dove
log L(θ; X) rappresenta la fun∂θ
zione score; cioè la derivata della funzione
log-verosimiglianza (=logaritmo della funzione di verosimiglianza).
Si ricorda che per valore atteso indicato
con E(X) di una variabile casuale X si intende l’equivalente della media aritmetica
nella statistica descrittiva, è definito come il
momento (il momento semplice di ordine k
di una variabile casuale X discreta è definito
come la media
k-esima potenza dei valn della
k
ori µk = i=1 xi pi - con pi si denota la funzione di massa di probabilità della variabile
casuale X discreta- di una variabile casuale
X continua è definito come la media della k+∞
esimapotenza di valori µk = −∞ xk f (x)dx
con f (x) si denota la funzione di densità
della variabile casuale., f (x) denota la funzione di densità della variabile casuale)
Si osserva che se Tn è sufficiente per θ allora lo sarà anche per qualsiasi altra funzione
biunivoca di Tn , per questo tra le infinite
funzioni di uno stimatore Tn si deve individuare quella che realizza la massima riduzione
possibile (conservando l’informazione campionaria utile per il parametro θ).
Definizione
Si dice che Tn è uno
stimatore sufficiente minimale per θ se per
qualsiasi altro stimatore sufficiente Tn∗ la
statistica Tn è una funzione di Tn∗ .
Si osserva che lo stimatore Tn opera una
partizione dello spazio campionario Cn ⊂ Rn
in funzione del valore t0 assunto nel campione; così , l’evento Tn = t0 è formato da tutte
le n-uple di Cn tali che T (x1 , ..., xn ) = t0 . Il
problema allora è quello di operare su Cn la
suddivisione più fine possibile, cioè con il minor numero di insiemi possibili.
Teorema 3
(di Lehmann e
Scheffé) Siano (X1 , ..., Xn ) e (Y1 , ..., Yn )
due
campioni
casuali
generati
da
X ∼ f (x; θ).
Si individui una partizione dello spazio campionario Cn tale che
i due campioni appartengano ad essa se e
solo se L(θ; X)/L(θ; Y ) non dipende da θ.
Allora ogni stimatore corrispondente a tale
partizione è sufficiente minimale.
Il teorema di Lehmann e Scheffé del 1950
fornisce le condizioni necessarie e sufficienti
per l’esistenza e la ricerca di statistiche sufficienti minimali.
Le proprietà di Ancillarità e Completezza La proprietà di ancillarità di una
statistica è insieme alla sufficienza collegata
alla proprietà di completezza, introdotta da
Lehmann e Scheffé nel 1950, la ,proprietà di completezza in statistica è di importanza fondamentale poiché per famiglie
complete alcune procedure inferenziali sono
uniche (Cox e HinKley 1974, pp 30-31).
La proprietà di ancillarità di una statistica è connessa alle informazioni contenute in
un campione casuale (introdotta da Fisher).
Definizione
Una statistica Tn è ancillare se la sua distribuzione di probabilità
non dipende dal parametro θ.
Dalla definizione di ancillarità si deduce
che una statistica ancillare non contiene informazioni sul parametro θ ma se utilizzata
assieme ad una statistica sufficiente minimale allora può migliorare le informazioni su
θ.
Definizione
Sia X ∼ f (x; θ) e Tn
uno stimatore sufficiente per θ. Si dice che
Tn è uno stimatore completo se, per qualsiasi
funzione q(Tn ) tale che E [q(Tn )] = 0, per
ogni θ, sussiste l’identità q(Tn ) ≡ 0.
In altri termini, uno stimatore Tn è completo se l’unica funzione di Tn il cui valor
medio è 0 è la funzione identicamente nulla.
E’ possibile individuare il legame tra sufficienza minimale, completezza ed ancillarità
nel teorema di Basu del 1955.
Proprietà Finite di uno Stimatore Si fa
ora riferimento a quei stimatori validi solamente per le dimensioni campionarie finite.
Le proprietà finite di maggiore rilevanza
di uno stimatore sono sostanzialmente due:
la proprietà di non distorsione e la proprietà
di efficienza.
La proprietà di non distorsione costituisce uno degli elementi fondamentali
circa il giudizio di bontà di uno stimatore
poichè, come si vedrà in seguito, indica
come baricentro dello stimatore Tn proprio
il parametro θ che si vuole stimare.
Definizione
Un stimatore Tn è non
distorto (=unbiased) per il parametro θ se
il valore atteso di Tn è uguale a θ. Cioè
E(Tn ) = θ.
Si osserva che la distorsione (=bias) di
uno stimatore Tn è definita in generale da:
b(Tn ) = E(Tn )− θ; di conseguenza la distorisione è positiva se E(Tn ) > 0, se E(Tn ) <
0 è definita negativa. Uno stimatore non
distorto presenta distorsione identicamente
nulla.
Osservazione
L’utilità del teorema
di Basu (il cui viceversa è falso) affiora
quando è possibile dimostrare l’indipendenza
di due statistiche senza conoscerne la distribuzione congiunta.
Teorema 6
Se Tn è uno stimatore
sufficiente e completo per θ ed esiste una
funzione ψ(Tn ) tale che lo stimatore ψ(Tn )
sia non distorto per θ, cioè E [ψ(Tn )] = θ,
allora ψ(Tn ) è unico.
Dimostrazione
Si supponga che esistano due funzioni di Tn , siano ψ 1 (Tn) e
ψ 2 (Tn ) sufficienti, complete e non distorte
per θ. Allora: E [ψ 1 (Tn ) − ψ 2 (Tn )] = 0;
ma a causa della completezza, la relazione
E [ψ 1 (Tn ) − ψ 2 (Tn)] = 0 implica ψ 1 (Tn ) −
ψ 2 (Tn ) ≡ 0 per ogni θ, e quindi ψ 1 (Tn ) ≡
ψ 2 (Tn ).
Teorema 5
Una statistica sufficiente completa è sempre minimale.
Dimostrazione
Da Zacks (1971)
sufficienza e completezza implicano sufficienza minimale, ma non è vero il viceversa.
La proprietà di non distorsione è di importanza fondamentale poiché indica come
baricentro della distribuzione dello stimatore
Tn proprio il parametro θ da stimare; infatti il valore medio di una variabile casuale è
Teorema 4
(di Basu) Se Tn è una
statistica sufficente minimale, allora Tn è indipendente da ogni statistica ancillare.
tanto più rappresentativo quanto più la varianza è piccola.
Si ricorda che la varianza di uno stimatore misura la dispersione dello stimatore attorno al suo valor medio quindi se lo stimatore è distorto, cioè se E(Tn ) = θ, la varianza
non può essere indicativa circa la bontà dello
stesso.
Conviene considerare la variabile casuale
definita da (Tn − θ) per pervenire ad un criterio utile sia a stimatori distorti che non
distorti, infatti se tale variabile è accentrata
sullo zero allora lo stimatore assume valori
campionari attorno al parametro θ, sarebbe
inoltre auspicabile che la sua distribuzione
fosse con alta probabilità addensata sullo
zero. Il teorema di Markov assicura che
per variabili casuali Tn dotate di momento
secondo, questa probabilità è tanto più elevata quanto più piccolo è il momento secondo
della variabile casuale (Tn − θ).
Un criterio valido per la bontà di uno
stimatore consiste nel richiedere che la media
dei quadrati della variabile casuale (Tn − θ)
sia minima.
Definizione
Si
definisce
errore quadratico medio (=Mean Square
Error) di uno stimatore Tn per il
parametro θ il seguente valore medio:
M SE(Tn ) = E(Tn − θ)2 .
L’errore quadratico medio di uno stimatore è uguale alla varianza dello stimatore più la distorsione al quadrato, ossia
M SE(Tn ) = V ar(Tn ) + b2 (Tn ). Si osserva
che l’errore quadratico medio di uno stimatore non distorto coincide con la varianza
dello stimatore.
L’errore quadratico risulta importante
poiché il confronto degli stimatori deve
avvenire sempre confrontando i rispettivi
M SE come criterio di vicinanza relativa
rispetto al parametro θ preferendo quello con
M SE inferiore. Questo concetto può essere
formalizzato con il concetto di efficienza di
uno stimatore.
Definizione
Uno stimatore T1n si
dice più efficiente di uno stimatore T2n
per lo stesso parametro θ se M SE(T1n ) <
M SE(T2n ). In generale per confrontare due
stimatori per un dato parametro si utilizza i
reciproci dei MSE e si misura l’efficienza
relativa di T1n rispetto a T2n tramite il
seguente indice:
1
M SE(T1n )
ef f (T1n | T2n ) =
=
1
M SE(T2n )
M SE(T2n )
.
M SE(T1n )
Se ef f (T1n | T2n ) > 1 allora si preferisce
lo stimatore T1n rispetto a T2n ; se ef f(T1n |
T2n ) < 1 si preferisce lo stimatore T2n
rispetto a T1n infine se ef f (T1n | T2n ) = 1
allora i due stimatori sono equivalenti in termini di M SE..
Si osserva che se entrambi gli stimatori
sono non distorti per θ, allora l’efficienza
relativa di T1n rispetto a T2n equivale a:
V ar(T2n )
ef f (T1n | T2n) =
.
V ar(T1n )
In altri termini l’efficienza relativa di uno
stimatore rispetto ad un altro è il rapporto
tra le rispettive numerosità occorrenti per ottenere lo stesso M SE e la stessa varianza nel
caso di stimatori non distorti.
Viene ora introdotta la disuguaglianza (o
limite) di Cramér e Rao utile a risolvere il
problema di trovare un limite inferiore per
la variabilità di uno stimatore di un certo
parametro.
Definizione
Se esiste uno stimatore Tn non distorto per il parametro θ che,
fra tutti gli stimatori non distorti è quello
con varianza più piccola, cioè è il più efficiente, allora Tn sarà detto stimatore non
distorto con varianza minima (=UMVUE
Uniformly Minimun Variance Unbiased Estimator).
Disuguaglianza di Cramér e Rao
Se (X1 , ..., Xn ) è un campione casuale generato da X ∼ f (x; θ) sotto le usuali condizioni di regolarità sulla famiglia della variabile casuale X allora per ogni stimatore
Tn non distorto per θ si ha: V ar(Tn ) ≥
1
1
=
; dove con In (θ) si intende
In (θ)
nI(θ)
l’informazione di Fisher.
Dimostrazione
Sia per uno stimatore generico Tn l’eventuale distorsione indicata con bn (Tn ; θ) = b(θ), mentre con
b(θ) sia indicata la derivata della distorsione rispetto a θ.
Allora si ha che:
∂
E(Tn ) = 1 +
E(Tn ) = θ + b(θ), e che
∂θ b(θ). D’altra parte se E(Vn ) = 0 allora sarà anche che Cov(Tn , Vn ) = E(Tn Vn )
per le condizioni di regolarità, vale la
∂
seguente: E(Tn Vn ) = Tn ( log f)f dx =
∂θ
f
∂
∂ Tn ( )f dx = Tn ( f )dx =
Tn f
f
∂θ
∂θ
∂
E(Tn ) = 1 + b (θ), dove con f e f dx =
∂θ
si indica la funzione di densità congiunta del
campione e la sua derivata rispetto a θ; mentre dx = dx1 ...dxn . Per la disuguaglianza di
Cauchy e Schwarz (=per due variabili casuali
che possiedono il momento
secondo vale sem
pre Cov(X, Y ) ≤
V ar(X)V ar(Y )) sarà
2
[Cov(Tn , Vn )] ≤ V ar(Tn )V ar(Tn ) e quindi:
[Cov(TnVn )]2
V ar(Tn )
≥
=
V ar(Vn )
[E(Tn Vn )]2
[1 + b (θ)]2
=
.
V ar(Vn )
In (θ)
Se lo stimatore è non distorto b(θ) =
b (θ) = 0, è così dimostrata la disuguaglianza.
Nel 1991 Pieraccini e Rizzi dimostrano
il teorema seguente che afferma l’unicità di
uno stimatore non distorto che raggiunge il
limite di Cramér e Rao.
Teorema 7
Se esiste uno stimatore
Tn non distorto per θ che raggiunge il limite
di Cramér e Rao allora esso è unico.
Dimostrazione
Siano T1n e T2n due
stimatori non distorti per θ con la stessa varianza: V ar(T1n ) = V ar(T2n ) = 1/In (θ) = v,
allora il nuovo stimatore Tn definito come
Tn = (T1n + T2n )/2 sarà non distorto e presenterà varianza uguale a:
V ar(Tn )
=
1
[V ar(T1n ) + V ar(T2n ) + 2Cov(T1n , T2n )] =
4
1
v(1 + ρ);
2
avendo posto che ρ = Corr(T1n , T2n ). Se
ρ < 1 allora V ar(Tn ) < v, ma è impossibile
perché v è il valore minimo per la varianza
di uno stimatore non distorto per θ. Allora
deve essere ρ = 1 che implica MT2n = c0 +
c1 T1n . Tuttavia essendo non distorti per θ
sarà anche: θ = E(T2n ) = c0 + c1 E(T1n ) =
c0 +c1 θ, il che avviene solo se c0 ≡ 0, c1 ≡ 1.
Ma questo significa che T1n ≡ T2n , cioè che
lo stimatore è unico.
Grazie alla disuguaglianza di Cramér e
Rao è possibile introdurre il concetto di efficienza assoluta o semplicemente efficienza.
Definizione
Uno stimatore Tn non
distorto si dice efficiente per un parametro
θ di una variabile casuale X ∼ f (x; θ), che
soddisfa le usuali condizioni di regolarità, se
e solo se: V ar(Tn ) = [In (θ)]−1 .
Si osserva quindi che se uno stimatore
efficiente esiste ed è non distorto, è quello
stimatore la cui varianza raggiunge il limite inferiore della disuguaglianza di Cramér
e Rao.
Confrontando la varianza di uno stimatore con la varianza di uno stimatore efficiente (se esso esiste) si misura l’efficienza
di uno stimatore, cioè si confronta la varianza di ogni stimatore con il limite inferiore
di Cramér e Rao.
Definizione
Si definisce efficienza
di uno stimatore Tn la quantità:
1
V ar(Tn )
ef f (Tn )
=
=
1
1/In (θ)
[V ar(Tn )In (θ)]−1 .
Dato che 0 ≤ ef f (Tn ) ≤ 1 uno stimatore
è preferibile quanto più la sua efficienza è
vicina ad 1, se Tn è lo stimatore efficiente
allora ef f (Tn ) ≡ 1.
1.4
Alcuni Commenti
L’efficienza determina dunque quanto la
distribuzione di uno stimatore Tn sia vicina ad un parametro θ, aggiungendo inoltre,
nelle condizioni di regolarità di una famiglia
parametrica, la valutazione di quanto tale
vicinanza sia piccola o grande in rapporto a
quella massima raggiungibile dallo stimatore
efficiente.
E’ importante sottolineare che:
• L’efficienza di uno stimatore impone
la conoscenza della variabile casuale
perchè, dopo aver controllato le condizioni di regolarità, si devono calcolare le derivate della funzione logverosimiglianza ed i rispettivi valor
medi.
• La varianza di qualsiasi stimatore non può superare il reciproco
dell’informazione di Fisher, ma questo
non significa che necessariamente
esiste uno stimatore che raggiunga
effettivamente quel limite.
• Se lo stimatore Tn presenta la distorsione b(θ) la disuguaglianza di Cramér
e Rao si generalizza come segue:
[1 + b (θ)]2
.
In (θ)
Tuttavia se gli stimatori sono non distorti, è più coerente esprimere la disuguaglianza in termini di M SE cioè:
V ar(Tn ) ≥
[1 + b (θ)]2
+ [b(θ)]2 .
M SE(Tn ) ≥
In (θ)
• Se ψ(θ) è una funzione che soddisfa le
usuali condizioni di regolarità tale che
ψ(Tn ) sia il corrispondente stimatore
non distorto per ψ(θ) allora:
∂
( ψ(θ))2
V ar(Tn ) ≥ ∂θ
.
In (θ)
Molto importante è il teorema seguente
poiché fornisce le risposte circa le condizioni
sotto le quali la varianza di uno stimatore
possa effettivamente raggiungere il limite inferiore della disuguaglianza di Cramér e Rao.
Teorema 8
Condizione necessaria e
sufficiente affinché esista uno stimatore Tn
efficiente e non distorto per θ è che sia:
∂
log L(θ; X) = In (θ)(Tn − θ).
Vn =
∂θ
Dimostrazione
La disuguaglianza
2
[Cov(Tn , Vn )] ≤ V ar(Tn )V ar(Tn ) diventa
un’uguaglianza se e solo se esiste una relazione lineare tra Tn e Vn , cioè se: Vn =
c0 + c1 Tn . Se si applica ad ambo i membri
il valor medio, ricordando che E(Vn ) = 0,
E(Tn ) = θ si ha che:
0 = c0 + c1 θ ⇒ c0 = −c1 θ,
il quale sostituito alla relazione Vn = c0 +
c1 Tn , implica che:
Vn = −c1 θ + c1 Tn = c1 (Tn − θ).
Se si moltiplica quest’ultima relazione
per Vn e si considera il valore medio di entrambi i membri, ricordando che E(Vn Tn ) =
1 si ha che:
E(Vn )2 = c1 E(Vn Tn ) − c1 θE(Vn ) =
c1 (1) − c1 θ(0) = c1 ,
da cui si deduce che:
c1 = E(Vn )2 = In (θ) ed infine:
Vn = In (θ)(Tn − θ).
Osservazione
Emulando la dimostrazione per uno stimatore non distorto
è possibile pervenire alla famiglia delle variabili casuali per la quale esiste uno stimatore
efficiente, cioè la famiglia esponenziale.
Osservazione
L’efficienza può essere verificata solo se le condizioni di regolarità sono valide, che non avviene sempre,
come ad esempio per variabili casuali Uniformi e per variabili casuali troncate. In
questi casi il limite di Cramér e Rao può
essere abbassato parlando così di super efficienza. (Azzalini 1992 e Rizzi 1992a).
E’ possibile individuare i legami tra i
concetti di sufficienza, non distorsione ed efficienza trattai finora con il seguente teorema:
Teorema 9
(di Rao e Blackwell) Sia
(X1 , ..., Xn ) un campione casuale estratto da
X ∼ f (x; θ) e sia T1n uno stimatore sufficiente per θ mentre T2n è un qualsiasi stimatore non distorto di θ. Allora posto Tn =
E(T2n /T1n ) si ha che:
i)
Tn è funzione esclusiva di T1n ;
ii)
E(Tn ) è funzione esclusiva di
T1n ;
iii)
V ar(Tn ) ≤ V ar(T2n ).
Dimostrazione
T2n è uno stimatore non distorto per θ, per le proprietà del
valor medio si ha che:
E(Tn ) = E(E(T2n | T1n )) = E(T2n ) = θ.
E’ noto che per ogni variabile casuale
doppia (X, Y ) si ha:
V ar(Y )
=
V ar(Y
|
X) +
V ar [E(Y | X)] ≥ V ar [E(Y | X)] ;
segue che:
V ar(T2n ) ≥ V ar(E(T2n | T1n )) =
V ar(Tn );
la quale dimostra il punto iii) del Teorema. Si osservi infine che mentre la ii) e
la iii) derivano da proprietà dei valori medi
condizionati per qualsiasi stimatore, è la sufficienza di T1n che permette di ottenere lo
stimatore Tn = E(T2n | T1n ). Infatti per effettuare tale calcolo si deve conoscere la funzione di densità (T2n | T1n = t), la quale non
dipende da θ solo perché T1n è uno stimatore
sufficiente.
Il teorema di Rao e Blackwell fornisce
le indicazioni su come costruire uno stimatore più efficiente di uno stimatore non distorto utilizzando la conoscenza di uno stimatore sufficiente. Tale teorema è importante perché mostra che uno stimatore non
distorto di θ con varianza minima deve essere
funzione di una statistica sufficiente Tn ; altrimenti la media condizionata produrrebbe
stimatori piùefficienti.
Osservazione
Se esiste uno stimatore UM V UE per θ e ψ(Tn ) è non distorto
per θ; dove Tn è uno stimatore completo sufficiente (minimale), allora ψ(Tn ) è uno stimatore UM V UE.
Un requisito di semplicità per la formulazione analitica di uno stimatore è la linearità.
Definizione
Uno stimatore si dice
lineare se può essere espresso mediante
una combinazione lineare di variabili casuali campèionarie,
cioè se:
Tn = ni=1 ai Xi ;
dove le costanti ai con i = 1, ..., n sono
quantità note.
La linearità semplifica la derivazione dei
momenti di uno stimatore e, in taluni casi,
anche della sua distribuzione di probabilità.
E’ possibile ora riassumere le proprietà
di uno stimatore derivato da un campione
casuale di numerosità finita:
• La sufficienza è una proprietà essenziale
per l’intera Inferenza statistica e la completezza aggiunge la garanzia della unic-
ità per lo stimatore; insieme inducono
sufficienza minimale.
• Efficienza e non distorsione, in condizione di regolarità della famiglia di
variabili casuali assicurano una vicinanza tra i valori campionari ed il valore teorico del parametro perché garantiscono il massimo addensamento possibile della distribuzione dello stimatore
attorno al parametro.
• Quando la variabile casuale appartiene
ad una famiglia per la quale la varianza
dello stimatore raggiunge il limite della
disuguaglianza di Cramér e Rao, allora
esiste uno stimatore efficiente, non distorto, sufficiente e completo (quindi sufficiente minimale). Tale stimatore è unicoi.
1.5
Proprietà Asintotiche di Uno Stimatore
Premesssa Si sono finora discusse le proprietà statistiche degli stimatori quando la
numerosità campionaria è finita, è ragionevole peraltro richiedere un miglioramento di
tali proprietà quando la numerosità campionaria diverge con l’introduzione di ulteriori proprietà statistiche, in modo da rendere
sempre più rappresentativo il campione per
la popolazione ed in modo da utilizzare nella
"direzione giusta" ogni nuovo dato disponibile.
La Non Distorsione Asintotica, La
Consistenza Definizione
Uno stimatore Tn si dice asintoticamente non distorto
per θ se:
lim
lim
E(Tn ) = θ ⇔
b(Tn ) = 0.
n→∞
n→∞
Quindi uno stimatore asintoticamente
non distorto è uno stimatore eventualmente
distorto per n finito, ma cui la distorsione
tende a zero al crescere della numerosità
campionaria.
Le proprietà connesse alla proprietà di
consistenza (in media quadratica, in probabilità, quasi certa) sono di maggior rilievo
nell’ambito delle proprietà asintotiche di uno
stimatore.
Definizione
Uno stimatore Tn si
dice consistente in media quadratica per θ
se:
lim
lim
M SE(Tn ) =
E(Tn −
n→∞
n→∞
θ)2 = 0.
Uno stimatore è consistente in media
quadratica se il suo M SE tende a zero al
crescere della numerosità campionaria. Essendo il MSE di uno stimatore la somma
di due quantità non negative (V ar(Tn ) e
[b(Tn )]2 ) la definizione sopra è equivalente
alla verifica contemporanea delle seguenti
condizioni:
lim
V ar(Tn ) = 0
n→∞
lim
[bn (Tn )]2 = 0.
n→∞
Se uno stimatore è non distorto (o asintoticamente non distorto) allora è consistente in media quadratica se la varianza dello
stimatore tende a zero al crescere della numerosità campionaria, e vale anche il viceversa; di conseguenza è possibile affermare che
la consistenza in media quadratica implica la
distorsione asintotica.
Definizione
Uno stimatore Tn è
consistente in probabilità per θ se per ogni
* > 0 fissato, si ha:
lim
Pr(|Tn − θ| < *) = 1.
n→∞
Notazione
Per indicare la consistenza in probabilità di uno stimatore si usp
ano le seguenti notazioni: Tn → θ oppure
p lim(Tn ) = θ.
La consistenza inm probabilità risulta
particolarmente utile quando si conosce la
distribuzione di probabilità della variabile
casuale X.
Esiste un’analogia tra la convergenza
quasi certa di una successione di varìiabili
casuali ad una costante e la convergenza di
uno stimatore: la si può definire come una
forma più forte di consistenza.
A tal fine sia data la seguente definizione.
Definizione
Uno stimatore Tn è
qc
consistente quasi certamente per θ se Tn →
θ; ovvero se per ogni * > 0 si ha che:
lim
Pr(|Tn − θ| < *, ∀m ≥ n) = 1.
n→∞
L’Efficienza Asintotica e Normalità Asintotica Definizione
Uno stimatore Tn non distorto per θ si dice asintoticamente efficiente se:
lim
1
V ar(Tn )
=
⇔
n→∞
In (θ)
lim
ef f(Tn) = 1.
n→∞
Quindi uno stimatore Tn è asintoticamente efficiente se, pur non raggiungendo il
limite di Cramér e Rao per un n finito, lo
raggiunge quando n diverge.
Definizione
Uno stimatore Tn per il
parametro θ si dice asintoticamente Normale
se:
lim
Tn − E(Tn )
Pr( ≤ t) = φ(t);
n→∞
V ar(Tn )
cioè al crescere della numerosità campionaria la funzione di ripartizione dello stimatore standardizzato tende alla funzione
di ripartizione della variabile casuale Z N (0, 1).
Si osserva che l’uso della distribuzione
Normale per approssimare la distribuzione
di uno stimatore semplifica le elaborazioni
numeriche, inoltre la convergenza alla Normalità delle variabili casuali Tn consente di
applicare allo stimatore tutte le proprietà
notevoli di cui gode tale distribuzione, anche
se valgono solo quando la dimensione campionaria diverge.
Osservazione
Uno stimatore Tn per
il parametro θ viene definito stimatore BAN
(=Best Asymptotically Normal), oppure
CAN E (=Consistent Asymptotically Normal Efficient), se è asintoticamente Normale,
consistente in media quadratica e possiede la
varianza più piccola nella classe di tutti gli
stimatori di θ consistenti ed asintoticamente
Normali.
1.6 Principi Generali per la Stima di
Un Parametro
Viene ora presentato un elenco dei principi generali per effettuare la stima di un
parametro.
1. La stima di un parametro deve essere
espressa nella stessa unità di misura del
parametro. Per controllare il rispetto
di tale criterio ci si affida al valore
medio del campione per constatare che
l’unità di misura rispetta quella attesa.
Connesso a tale requisito vi è il principio dell’invarianza in base al quale
l’inferenza non può essere modificata
dalla particolare unità di misura utilizzata o dal particolare problema di cui si
discute.
2. Se tutte le informazioni del campione
sono accurate allo stesso modo, nessuna sintesi dovrebbe privilegiare qualcuna più di altre per cui il loro ordine
di acquisizione dovrebbe essere irrilevante. Ciò implica che per la stima di
un parametro occorre utilizzare funzioni
simmetriche di (x1 , ..., xn) il che conduce
al concetto di scambiabilità.
3. La sintesi Tn , per il parametro θ deve
essere coerente per θ nel senso che deve
valutare θ e non ψ(θ).
4. Un principio differente di coerenza, denominato consistenza, afferma che se
le unità campionarie sono repliche indipendenti e somiglianti della popolazione ciascuna di esse deve apportare
delle informazioni aggiuntive per la determinazione di θ, cioè al crescere di n
la distribuzione di Tn deve essere unimodale ma che occorre richiedere che la
probabilità |Tn − θ| < * per * > 0 piccolo tenda a crescere con n.
5. Un altro principio è quello di richiedere
che uno stimatore Tn possieda una
probabilità elevata di assumere valori attorno a θ a parità di ampiezza
dell’intervallo. Questo conduce al concetto di massima concentrazione di
probabilità; infatti se T1n e T2n sono due
stimatori per θ per i quali:
Pr(T1n ∈ θ ± ∆) ≥ Pr(T2n ∈ θ ± ∆),
per tutti i ∆ > 0; allora T1n è uniformemente preferibile a T2n .
6. Deve essere rispettato il principio di utilizzare al meglio le osservazioni campionarie nel senso di estrarre da un campione tutto e solo ciò che riguarda il
parametro da stimare. Questo conduce
al principio di sufficienza di uno stimatore che è prioritario e decisivo per tutta
la discussione sulla scelta dello stimatore.
7. Vi numerosi altri principi e a seconda dell’impostazione inferenziale si
preferisce l’uno o l’altro, si cita, tra
tutti, il principio di condizionamento
secondo il quale la stima per θ deve essere ricavata condizionatamente al valore assunto dalle informazioni presenti
nel campione.
1.7
Riferimenti Bibliografici
1)
Azzalini, A. Inferenza Statistica. Una introduzione basata sul concetto
di verosimiglianza, Berlin, Springer-Verlag
(1992). pp 137-138.
2)
Casella, G. e Berger, R.L. Statistical Inference, Belmont, CA, Duxbury Press
(1990). pp 222, pp 316.
3)
Lehmann, E.L. Theory of Point
Estimation, New York, J. Wiley &Sons
(1983).
4)
Pieraccini, L. (1976) Fondamenti
di inferenza statistica, Torino, Giappichelli
(1991). pp 210-211, 212-214, 260-268.
5)
Piccolo, D. Statistica, Bologna, Il
Mulino (1998). pp 534-577.Ricci, F. Statistica ed elaborazione statistica delle informazione, Bologna, Zanichelli (1975).
6)
Rao, C.R. Linear Statistical Inference and Its Applications, New York,
J.Wiley &Sons, II Edizione (1973).
7)
Ricci, F. Statistica ed elaborazione statistica delle informazione,
Bologna, Zanichelli (1975).
8)
Rizzi, A: Inferenza Statistica,
Torino, Utet-Libreria (1992a). pp 113-117.