Capitolo 4 ELEMENTI DI TEORIA DELLA STIMA PARAMETRICA

Capitolo 4
ELEMENTI DI TEORIA DELLA STIMA
PARAMETRICA
4.1 Introduzione
Nell’ambito della Teoria delle Probabilità si suppone di conoscere esattamente le caratteristiche delle variabili casuali o popolazioni soggette a situazioni di incertezza. In altri termini, di ogni v.c. X, descrivente le caratteristiche di dati fenomeni, si suppone di conoscere la loro distribuzione probabilistica. In pratica, di un fenomeno descritto da X si conoscono solo un
numero finito e limitato di informazioni ed utilizzando queste bisogna risalire ad alcune caratteristiche determinanti della popolazione.
Nel seguito supporremo che le informazioni di cui si dispone siano solo di tipo campionario. Tali informazioni vengono utilizzate per inferire sulla
popolazione o sulla variabile casuale da cui le informazioni sono state ottenute. L’inferenza è, quindi, una tipica procedura induttiva: risalire dal particolare (le informazioni raccolte su X e di cui si dispone) al generale (la popolazione o variabile casuale X oggetto di analisi) con tecniche messe a punto
dalla statistica.
D’altra parte, quando si parla di informazioni parziali o campionarie è necessario specificare il tipo di campione che si prende in considerazione dato che questo influenza in modo decisivo le conclusioni che vengono prese sulla popolazione o v.c.
È evidente che bisogna possedere un campione che sia rappresentativo
della v.c. e non delle aspirazioni soggettive del ricercatore. Per evitare gli
inconvenienti legati alle aspirazioni soggettive degli operatori, nella formazione del campione, bisogna affidarsi a procedure neutrali cioè a metodi
che prescindono da influenze personali.
Il modo più semplice per ottenere tali campioni, come accennato
all’inizio del corso, è di considerare campioni casuali, cioè campioni costruiti
in modo tale che ogni unità della popolazione abbia la stessa probabilità di
fare parte del campione. È utilizzando campioni casuali che verrà costruita
la teoria della stima, quella del test delle ipotesi e la teoria della regressione
114
Capitolo 4
così come verranno illustrate nei capitoli seguenti. Infatti, nel seguito, quando si parlerà di campioni ci si riferirà esclusivamente a campioni casuali.
4.2 La stima parametrica
L’importanza dell’inferenza risiede nella necessità e possibilità di costruire
un modello per la popolazione a partire dal campione su di essa osservato
in modo da potere capire quale è la struttura o alcuni aspetti importanti della struttura della popolazione. A tale proposito supponiamo di avere un fenomeno aleatorio descritto dalla v.c. X con funzione di densità (nel caso
continuo) o distribuzione di probabilità (nel caso discreto) f(x; θ ) ove la
funzione f( .) si suppone nota mentre θ è il parametro incognito da stimare (da
cui il nome di stima parametrica) utilizzando le informazioni campionarie
che si hanno su X. Naturalmente, θ può anche essere, e spesso lo è, un vettore di k parametri incogniti:
θ = (θ1 , θ2 , ..., θk )
Esempio 1
a) Supponiamo che il fenomeno X sia distribuito come una v.c. Normale, cioè
2
X~N(µ,σ ). In tale caso f(.) è data da
f(x; µ, σ2) =
1
2πσ
2
 1

( x − µ )2 
exp −
2
 2σ

2
ed è nota a meno del vettore composto da due parametri θ = (µ, σ ).
b) Supponiamo che il fenomeno X si distribuisca come una v.c. Binomiale, cioè risulta
X~B(N, p). In tal caso f(.) è data da
N-x
N x
p(x) =  x  p (1-p) , x = 0,1,2,...,N
 
che è nota a meno del vettore di parametri θ = (N, p).
c) Supponiamo che il fenomeno di interesse X si distribuisca come una v.c. di Poisson, cioè
sia X~P(λ). In tal caso f( .) è data da
λ x e −λ
p( x ) =
, x = 0, 1, 2,...
x!
che è nota a meno del parametro θ =λ.
Elementi di teoria della stima parametrica
115
Il nostro problema, come già detto in precedenza, consiste nel valutare
quanto vale (nella terminologia statistica stimare) il parametro incognito θ, nota la forma di f(.), sulla base di un campione casuale estratto da X. Inoltre, si
vuole che la stima così ottenuta sia accettabile , cioè soddisfi un certo numero
di proprietà ritenute indispensabili.
Sia quindi X~f(x; θ) ed x = (x1 , x2 , ..., xn ) un campione estratto bernoullianamente (cioè con rimessa) da X. Se si ripete l’operazione di campionamento x varia al variare del campione e descrive la v.c. n-pla:
X = (X1 , X2 , ..., Xn )
detta v.c. campionaria. Dato che l’estrazione è fatta con rimessa le v.c. X1 , X2
, ..., Xn sono fra di loro indipendenti ed inoltre, per quanto abbiamo illustrato nel paragrafo 2.2, hanno tutte la stessa distribuzione coincidente con
quella della popolazione da cui sono state estratte:
Xi ~ f(xi ; θ), i= 1, 2 ,..., n
Questo vuole dire che la v.c. campionaria ha la distribuzione di probabilità
X = (X1 , X2 , ..., Xn ) ~ f(x1 ; θ) f(x2 ; θ) ... f(xn ; θ) =
n
=
∏
f(xi ; θ)
i =1
Naturalmente, qualsiasi sia il parametro da stimare la sua stima, che indichiamo con θ̂ , sarà sempre una funzione del campione:
θ̂ = dn ( x ) = d(x1 , x2 , ..., xn )
Al variare del campione θ̂ varia e descrive una v.c. che prende il nome di
stimatore di θ:
θ̂ = dn ( X ) = d(X1 , X2 , ..., Xn )
(notare che, per semplicità, per la stima e lo stimatore utilizziamo, impropriamente, lo stesso simbolo) la cui distribuzione, note la forma funzionale
di f( .) e dn ( .), è teoricamente derivabile.
4.3 Cenni di teoria delle decisioni
116
Capitolo 4
Vediamo di affrontare in questo paragrafo il problema della stima da un
punto di vista molto generale. D’altra parte, abbiamo già accennato al fatto
che stimare vuole dire valutare in base all’esperienza (il campione) quanto vale
un qualche cosa (i parametri). Questo vuole dire che quando si stima un parametro incognito non si fa altro che prendere una decisione su quel parametro mescolando informazioni a priori e informazioni campionarie. Vediamo, perciò, come il problema di stima può essere affrontato utilizzando la
teoria delle decisioni statistiche di cui nel seguito si daranno brevi cenni.
A tale proposito supponiamo di avere un fenomeno descritto dalla v.c.
X di cui si conosce la sua funzione di densità (o, se discreta, la sua distribuzione di probabilità) a meno di un parametro θ. Supponiamo che tale funzione di densità sia data da f(x ;θ) con θ parametro incognito. Il problema è
stimare θ utilizzando l’informazione sulla funzione di densità di X e le informazioni campionarie ottenute da X. Per fare questo definiamo:
- l’insieme degli stati di natura o insieme parametrico: Ω, definito da tutti i possibili valori che θ può assumere,
- la variabile casuale campionaria: X n = (X1 ,..., Xn ) ottenuta da X con rimessa,
- la funzione di decisione (o stimatore ): dn = d(X1 ,..., Xn ),
- l’insieme delle azioni : D, definito da tutte le possibili decisioni dn ,
- la funzione di perdita: l(d ; θ) che misura il costo che bisogna sopportare se si
sceglie la decisione dn e si verifica θ ,
- la funzione di rischio: R(dn ; θ) = E[l(dn ; θ)] che rappresenta la perdita media.
Questo ci permette di giudicare uno stimatore non da come si comporta in
un dato campione, ma su tutti i possibili campioni che possono essere estratti da X.
Utilizzando questi elementi, è necessario definire una regola, logicamente
corretta, che ci permetta di scegliere in D la decisione d * ottimale in qualche
senso. Una regola di decisione accettabile potrebbe essere la seguente:
si sceglie d * tale che sia
R ( d * ; θ ) ≤ R ( d ; θ )
R ( d * ; θ ) < R ( d ; θ )

per ogni θ ∈ Ω
per almeno un θ ∈ Ω
Elementi di teoria della stima parametrica
117
La figura seguente illustra il caso in cui è D = {d1 , d2 , d3} ove la decisione
d3 è quella preferibile dato che, qualsiasi sia θ ∈Ω, il relativo rischio è inferiore a quello delle altre due decisioni possibili.
Per poter calcolare R(dn ;θ) è necessario conoscere la forma funzionale
di l(dn ;θ ). Nelle pratiche applicazioni si considera, per la sua semplicità di
calcolo e per alcune proprietà statistiche che possiede, la seguente
l(dn ;θ) = (dn - θ)
2
che viene anche chiamata perdita quadratica, oppure
l(dn ;θ) = d n − θ
Entrambe le perdite sopra definite sono nulle se la decisione presa coincide con il parametro incognito, mentre crescono quanto più dn e θ divergono.
La regola di decisione sopra riportata ci permette di effettuare un parziale ordinamento sull’insieme delle decisioni D dato che vi sarà un sotto insieme, diciamo D *⊂ D che soddisferà la regola di decisione e D* potrà contenere anche infiniti elementi.
L’insieme D * viene detto insieme delle decisioni ammissibili rispetto alla
funzione di perdita utilizzata.
È chiaro che si è interessati non a D, ma a D* ed al modo come scegliere
una sola decisione (stimatore) da D *. Naturalmente, se D* contiene un solo d *
questa è la decisione (stimatore) ottimale di θ. Se D* contiene più di un ele-
118
Capitolo 4
mento risulta impossibile, a meno di non introdurre altre condizioni, derivare la decisione ottimale.
Anche se esiste uno stimatore ottimo d *, secondo la regola di decisione
considerata, può succedere che sia d * = g(Xn ; θ), cioè lo stimatore ottimo
risulti funzione del parametro incognito che si vuole stimare per cui d * ha
poco o punto utilità pratica.
Esistono diverse strategie che permettono di superare le difficoltà prima
segnalate, qui di seguito accenniamo ad alcune.
METODO DEL MINI-MAX
Consiste nel considerare come stimatore di θ quella decisone d * tale
che sia
max R(d *; θ) = min max R(d ; θ),
d
θ
θ
*
cioè si sceglie quello stimatore d il cui rischio massimo è più piccolo dei
massimi di tutti gli altri stimatori. Questo metodo ha l’inconveniente di focalizzare l’attenzione su un punto specifico: i massimi dei diversi rischi, per
cui si può presentare una situazione simile a quella della figura seguente.
In tal caso il principio ci porta a scegliere la decisione d2 anche se d1 è nettamente preferibile per quasi tutti i θ esclusi quelli di un intorno di θ * in
cui il rischio di d 1 è di poco superiore a quello di d 2 .
In ogni caso, questo metodo è molto utile per alcune sue implicazioni
teoriche e per i legami che ha con altri approcci.
METODO DELL'AREA MINIMA
Consiste nel considerare come stimatore di θ quel d* tale che
Elementi di teoria della stima parametrica
A(d*) =
∫
R(d * ; θ) dθ = min
Ω
d ∈D
∫
119
R(d ; θ) dθ
Ω
Cioè quello stimatore d* il cui rischio, al variare di θ, ha area minima. Questo metodo di stima ha il limite di individuare come stimatore ottimale stimatori che da un punto di vista intuitivo si è portati a considerare poco accettabili come illustrato nella figura che segue
in cui, se è A(d1 ) = ∞ e A(d2 ) < ∞ si sceglie con questo metodo d2 anche se,
intuitivamente, si è portati a preferire d1.
METODO DELLE PROPRIETÀ OTTIMALI
La logica di questo principio è quella di considerare, come stimatori di
θ , quelle decisioni dn che soddisfano alcune proprietà ottimali. In altri termini, al posto di D si considera un suo sotto insieme, D *, di modo che le decisioni appartenenti a D* soddisfano alcune condizioni di ottimalità. Una
volta fissate queste proprietà si elaborano dei metodi di stima che, automaticamente, sotto date condizioni più o meno restrittive, posseggono alcune di
quelle proprietà. Ciò permette di generare stimatori con date proprietà senza che debbano, di volta in volta, essere verificate.
4.4 Alcune proprietà ottimali degli stimatori
La stima di θ sarà accettabile se il relativo stimatore θ̂ soddisfa una o più
proprietà ritenute importanti. In questo paragrafo illustreremo brevemente
alcune di queste proprietà ottimali.
SUFFICIENZA
Data la v.c. X con f.d. o distribuzione di probabilità f(x ; θ), con θ incognito e da stimare, sia X=(X1 ,..., Xn ) la v.c. campionaria estratta da X e d( X)
120
Capitolo 4
= d lo stimatore di θ . È evidente che nel passaggio dalla v.c. campionaria npla X = (X1 ,..., Xn ) alla v.c. semplice d = d( X) si possono perdere informa-
zioni su θ .
Uno stimatore d( X) è sufficiente se possiede le stesse informazione che
X =(X1 ,..., Xn ) ha su θ.
Ciò vuole dire che fra tutti i possibili stimatori di θ bisogna prendere in
considerazione, se esistono, solo quelli che non disperdono alcuna informazione che il campione ha sul parametro incognito che si vuole stimare.
Esempio 2
Se il parametro da stimare è µ e X=(X1 ,..., Xn ) la v.c. campionaria, è evidente che
m
d1 =
∑X
i
,
con m < n
i =1
è meno informativo su µ di quanto non lo sia
n
d2 =
∑X
i
i =1
Questo concetto viene formalizzato nella definizione seguente
d( X) è uno stimatore sufficiente per il parametro θ se e solo se la distribuzione
condizionata ( X|d( X) = d) è indipendente da θ per ogni d.
Da questa definizione segue immediatamente che se d è sufficiente per θ,
quello che rimane di X dopo la sintesi, cioè ( X|d( X) = d), non possiede
altre informazioni sul parametro incognito θ.
Un modo semplice per stabilire se uno stimatore d( X ) sia sufficiente
per il parametro θ è di utilizzare, piuttosto che la definizione precedente,
che da un punto di vista operativo è piuttosto complessa, il seguente teorema riportato senza dimostrazione.
Teorema (di fattorizzazione)
Sia d(X) uno stimatore di θ∈Ω , condizione necessaria e sufficiente perché d(X) sia sufficiente per θ è che sia
Elementi di teoria della stima parametrica
121
n
f(x1 ,x2 ,…,xn ; θ) = f(x ;θ) =
∏
f(xi ;θ) = g[d(x) ; θ] h(x)
i =1
ove g[d(x) ;θ ] dipende da θ e dalle osservazioni campionarie solo tramite
d(x), mentre h(x) è indipendente da θ .
Come corollario a questo teorema si può dimostrare che se θ̂ = d(X) è
sufficiente per θ, allora essa è l’unica statistica sufficiente per θ, ad eccezione di una
qualsiasi funzione di d(X), con una corrispondenza uno ad uno, che è ancora sufficiente per
θ.
L’importanza di questo corollario risiede nel fatto che se esiste uno stimatore sufficiente (cioè che non disperde le informazioni contenute nel
campione) per θ allora esistono infiniti stimatori sufficienti date da tutte le
sue trasformazioni biunivoche. Questo vuole dire che la sola sufficienza
non basta per caratterizzare uno stimatore come accettabile, ma è necessario prendere in considerazione anche altre possibili proprietà. Funzioni
che non sono in corrispondenza uno ad uno con uno stimatore sufficiente
possono, in particolari casi, essere ancora sufficienti.
La definizione di sufficienza ed il teorema di fattorizzazione possono
essere estesi al caso di un vettore θ di k parametri, ma questo problema non
verrà affrontato in queste lezioni.
Notare che, dato il parametro θ da stimare e la v.c. campionaria X =(X1 ,...,
Xn ), esiste sempre uno stimatore detto ordinamento statistico,
( X ( 1 ) ≤ ... ≤ X ( n ) )
ottenuto ordinando in senso non decrescente le n osservazioni campionarie (x1
,..., xn ), che è sufficiente per il parametro o il vettore di parametri. In pratica,
si cerca di individuare la statistica sufficiente minimale cioè quel vettore di dimensione m < n e possibilmente con m = 1 nel caso di un singolo parametro, che contenga le stesse informazioni che ha l’ordinamento statistico su
θ. Ricordiamo che l’ordinamento dei dati l’abbiamo più volte utilizzato nella statistica descrittiva ed in particolare nel calcolo dei quartili e nella concentrazione.
Esempio 3
Supponiamo di avere un fenomeno X distribuito come una v.c. di Poisson con parametro λ incognito. Si vuole derivare uno stimatore sufficiente per λ a partire dal campione
casuale x = (x1 ,..., xn ) estratto da X.
In questo problema risulta θ = λ e
122
Capitolo 4
λ x e −λ
x!
p(x ; λ) =
e quindi, utilizzando il teorema di fattorizzazione, avremo
n
p(x1, x2, ..., xn ; λ) =
∏
n
p(xi ; λ) =
i =1
∏
i =1
λx i e − λ
=
xi !
λ∑ i e − nλ
x1 ! x 2 !...x n !
x
=
in cui si può identificare
n
d(x) =
∑x
i
; h(x) =
i =1
1
; g[d(x ) ; λ] = λd ( x ) e − nλ
x 1 ! x 2 !...x n !
Questo vuole dire che lo stimatore
n
d(X) =
∑
Xi
i =1
è sufficiente per λ, ma lo è anche lo stimatore
1
1
λ̂ = d(X) =
n
n
n
∑
Xi
i =1
essendo una trasformazione lineare, e quindi biunivoca, di d(X). Osserviamo che, in questo
caso, λ̂ è la media campionaria delle osservazioni.
Si noti che dato un generico θ relativo a X ~ f(x ; θ) e la v.c. campionaria
(X1 ,..., Xn ), spesso non si riesce a ricavare, ma molte volte non esiste, uno
stimatore sufficiente per θ e quando esiste non è unico. Una implicazione
di questa osservazione è che la sola sufficienza non basta per rendere uno
stimatore accettabile.
NON DISTORSIONE
Una proprietà molto importante di uno stimatore è la non distorsione:
Data la v.c. X~f(x ;θ), con θ incognito, lo stimatore dn (X) = d(X1 ,..., Xn ) è
non distorto per θ se E[dn (X)] = θ , qualsiasi sia n.
Elementi di teoria della stima parametrica
123
In altri termini, d(X) è non distorto per θ se il baricentro della sua distribuzione coincide proprio con θ , cioè d(X) non sovrastima né sottostima,
in media, il parametro o il vettore di parametri di interesse.
La non distorsione non è invariante, in generale, sotto trasformazioni
funzionali per cui anche se d(X) è non distorto per θ , di solito, g(d(X)) è distorto per g(θ). Notare che la sola non distorsione non basta per rendere accettabile uno stimatore dato che possono esistere stimatori non distorti, ma
del tutto inaccettabili come si mostra nell’esempio che segue.
Esempio 4
Sia data la v.c. X~f(x ; µ), con µ la media incognita di X. Sia x = (x1 ,..., xn ) un
campione estratto da X, consideriamo gli stimatori:
µ̂ =
1
n
n
∑X
i
= X;
µ̂ ( i ) = Xi ,
i=1, ..., n
i =1
mostriamo che tutti questi stimatori sono non distorti. Infatti, si ha:
1
E( µ̂ ) = E 
n
n
∑
i =1
 1
Xi  =
 n
E( µ̂ ( i ) ) = E(Xi ) = µ ,
n
∑
E(Xi ) = µ
i =1
i = 1, ..., n.
Che dimostra quanto avevamo asserito. Notare che µ̂ è la media campionaria.
Si può dimostrare che se uno stimatore possiede entrambe le proprietà
che abbiamo illustrato fino ad ora: sufficienza e non distorsione allora è lo stimatore ottimale per il parametro incognito nel senso che la sua variabilità è la
più piccola possibile.
Abbiamo visto che uno stimatore dn (X) dipende, oltre che dalle caratteristiche delle v.c. X i , anche dalla numerosità n. Può capitare che dn (X) sia
distorto, ma che tale distorsione diventi sempre più piccola al crescere di n.
In tal caso diremo che:
Lo stimatore dn (X) è asintoticamente non distorto per θ se risulta
lim E[dn (X)] = θ .
n →∞
Naturalmente, uno stimatore non distorto è sempre asintoticamente non
124
Capitolo 4
distorto. Se uno stimatore è distorto, se ne può misurare la distorsione con:
Dn = E( θ̂ ) - θ.
Dn tende a zero se lo stimatore è asintoticamente non distorto, mentre è identicamente pari a zero se è non distorto. Se è Dn > 0 lo stimatore sovrastima sistematicamente il parametro incognito, viceversa se è D n < 0 lo sottostima
sistematicamente.
EFFICIENZA
Sia X~f( x ; θ) con θ parametro incognito, sia X = (X1 , X2 , ..., Xn ) la v.c.
campionaria ottenuta da X e dn (X) uno stimatore di θ. La quantità
2
E[(dn (X) - θ ) ]
prende il nome di errore quadratico medio (spesso siglato con MSE) dello
stimatore dn (X). Risulta immediatamente:
2
2
E[(dn (X) -θ ) ] = E{[dn (X) - E(dn (X)) + E(dn (X)) - θ ] } =
2
= E{[(dn (X) - E(dn (X))) + Dn ] }=
2
= E{[dn (X) - E(dn (X))] + Dn2 +2[dn (X)-E(dn (X))] Dn }=
2
= E{[dn (X) - E(dn (X))] } + Dn2 } +
2Dn E[dn (X)-E(dn (X))] = var(dn (X)) + D n2
ove nell’ultima espressione si è tenuto conto del fatto che la media degli
scarti dalla media è sempre nulla. In definitiva abbiamo che, qualsiasi sia lo
stimatore dn (X) di θ , risulta sempre
MSE(dn ) = var(dn (X)) + D n2 .
In altri termini, MSE(dn ) è la somma di due addendi:
- la varianza dello stimatore: var(dn )
2
- la distorsione al quadrato dello stimatore: D n2 = [E(dn )-θ] .
Come si può notare, a parità di altre condizioni, MSE decresce al decrescere della distorsione e coincide con la varianza nel caso in cui lo stimatore è
non distorto. Quanto detto ci porta a restringere la classe degli stimatori a
Elementi di teoria della stima parametrica
125
quelli non distorti e all’interno di questa ricercare quello, se esiste, che ha
varianza minima.
Gli stimatori che sono non distorti e con varianza minima, fra quelli non
distorti, vengono chiamati efficienti o anche stimatori UMVU (Uniformly Minimum Variance Unbiased).
Fra le altre cose, si può dimostrare che se dn (X) è non distorto e sufficiente per θ allora è anche UMVU. Ma risulta anche che non sempre esistono stimatori non distorti di un parametro θ che si vuole stimare. E quindi non sempre esistono stimatori efficienti.
Esempio 5
Supponiamo di avere una popolazione X che assume i tre valori seguenti 1, 2, 3 e
quindi possiede la seguente distribuzione di frequenza
xi
fi
1
1/3
2
1/3
3
1/3
Tot
1
In tal caso risulta immediatamente µ x = 2, σ x2 = 2 / 3 . Vogliamo stimare il parametro
θ = µ x utilizzando i risultati di un campione estratto bernoullianamente di ampiezza
n= 2. La v.c. campionaria X = (X1 , X2 ), costituita da tutti i possibili campioni che si
possono estrarre da X, assume in tal coso le seguenti 9 coppie di valori
(1, 1) (1, 2) (1, 3) (2, 1) (2, 2) (2, 3) (3, 1) (3 2) (3, 3)
che implicano la seguente variabile casuale campionaria doppia X = (X1, X2)
x 1\x2
1
2
3
pi.
1
1/9
1/9
1/9
1/3
2
1/9
1/9
1/9
1/3
3
1/9
1/9
1/9
1/3
p.j
1/3
1/3
1/3
1
Come si può notare, le marginali X1 e X2 della v.c. campionaria hanno la stessa distribuzione della popolazione X ed inoltre sono indipendenti dato che risulta pi j = pi. p.j equivalente a 1/9=(1/3)( 1/3) per ogni i e j.
Per stimare µ usiamo le seguenti 6 funzioni della v.c. campionaria:
µˆ 1 = X1 ; µˆ 2 = min( X1 , X 2 ) ; µˆ 3 = max( X1 , X 2 ) ;
126
Capitolo 4
µˆ 4 = ( X1 + X 2 ) ; X = ( X1 + X 2 ) / 2 ; µ6 = X1 X 2
ed otteniamo per ciascuno i valori che possono assumere
µ̂1
1
1
1
2
2
2
3
3
3
µ̂ 2
1
1
1
1
2
2
1
2
3
µ̂ 3
1
2
3
2
2
3
3
3
3
µ̂ 4
2
1
1
3
1,5
4
2
3
1,5
5
2,5
4
2
5
2,5
2
3
2
4
2
2
6
3
6
6
3
3
X
µ̂ 6
che implicano le seguenti 6 v.c. per ciascuno degli stimatori considerato
µ̂ 2
µ̂1
xi
1
2
2
pi
1/3
1/3
1/3
1
xi
1
2
3
µ̂ 3
pi
5/9
3/9
1/9
1
xi
1
2
3
pi
1/9
3/9
5/9
1
µ̂ 4
xi
2
3
4
5
6
µ̂ 6
X
pi
1/9
2/9
3/9
2/9
1/9
1
xi
1
1,5
2
2,5
3
pi
1/9
2/9
3/9
2/9
1/9
1
xi
1
2
3
2
6
3
pi
1/9
2/9
2/9
1/9
2/9
1/9
1
Nella tabella che segue riportiamo la media, la varianza e l’errore quadratico medio
(MSE) per ciascuno dei 6 stimatori che abbiamo derivato
Stimatore
Media
Varianza
MSE
µ̂1
µ̂ 2
µ̂ 3
µ̂ 4
X
2
0,6666
0,6666
1,5555
0,4691
0,6666
2,4444
0,4691
0,6666
4
1,3333
5,3333
2 1,9101
0,3333 0,3512
0,3333 0,3593
µ̂ 6
Si nota così che i due stimatori µ̂1 e X sono non distorti, ma che X è il più efficiente dei
6 dato che il suo MSE è il più piccolo. Osserviamo che X è la v.c. media campionaria cioè
la media costruita sulla v.c. campionaria X =(X1, X2).
Esempio 6
Nell’esempio 3 abbiamo visto che se X~P( λ), con λ incognita, uno stimatore sufficiente di λ è dato da
Elementi di teoria della stima parametrica
1
n
λ̂ = X =
D’altro lato risulta
1
E( λ̂ ) = E
n
n
∑X
i =1
i

1
=

n

n
∑X
i
.
i =1
n
∑
127
E(Xi) =
i =1
1
n
n
∑
λ=λ.
i =1
Questo vuole dire che λ̂ è non distorto e sufficiente per λ e quindi efficiente.
Dato che non sempre esistono stime UMVU si è cercato di costruire
stimatori sotto condizioni meno restrittive. La definizione seguente serve a
tale scopo
Si dice che dn (X) è efficiente asintoticamente per θ se per ogni altro stimatore d n* (X) questi sono entrambi asintoticamente non distorti e risulta
2
lim E
n →∞
[ n ( d n ( X ) − θ )]
< lim E
n →∞
[ n( d
*
n(
2
]
X ) − θ ) , per ogni θ∈Ω.
In termini meno precisi, possiamo dire che dn (X) è asintoticamente efficiente per θ se la sua variabilità tende a zero più rapidamente della variabilità di qualsiasi altro stimatore d n* ( X ) .
Infine, diciamo che dn (X) è più efficiente di d n* ( X ) se
EFR =
MSE( d n )
<1
MSE( d n* )
Quest’ultima formula permette di calcolare l’efficienza relativa fra due stimatori. Si osservi che nel caso in cui dn e d n* sono entrambi non distorti si
ottiene più semplicemente:
var( d n )
EFR =
var( d n* )
CONSISTENZA
Abbiamo visto che non sempre si riesce a costruire stimatori UMVU
per un parametro di interesse sia perché non si riesce ad individuare uno
stimatore non distorto, sia perché spesso riesce difficile mostrare che que-
128
Capitolo 4
sto è sufficiente. Per ottenere stimatori con qualche proprietà ottimale si è
spesso costretti a richiedere che soddisfino almeno qualche proprietà asintotica, quella più rilevante da un punto di vista pratico è la consistenza:
Lo stimatore dn (X) è consistente in media quadratica a g(θ) se
2
lim E[(dn (X) - g(θ)) ] = 0; per ogni θ∈Ω
n →∞
Questa definizione implica che d n (X) è consistente per g( θ ) in media quadratica se contemporaneamente è
lim var(dn (X)) = 0; lim Dn (g(θ)) = 0
n →∞
n →∞
Naturalmente, nel caso in cui dn (X) è non distorto per g(θ) la definizione di
consistenza in media quadratica diviene
lim var(dn (X)) = 0
n →∞
Da un punto di vista grafico, la consistenza è illustrata nella figura seguente
Esempio 7
2
Data una v.c. X~f(x; µ), con σ < ∞ , abbiamo visto che X è non distorta per µ inoltre, tenendo conto che le Xi sono v.c. indipendenti, risulta
1
var( X ) = var 
n
n
∑X
i =1
i

1
= 2
 n

n
∑
i =1
var(Xi ) =
1
n2
n
∑
i =1
2
σ =
σ2
n
Elementi di teoria della stima parametrica
129
e quindi X è uno stimatore consistente in media quadratica per la media µ.
Esempio 8
2
Data una v.c. X~f(x ; µ , σ ) dimostriamo che
1
S =
n
2
n
∑ (X
2
i
− X)
i =1
2
è uno stimatore asintoticamente non distorto e consistente per σ .
Sappiamo che X è uno stimatore non distorto e consistente per µ. In particolare si ha
2
2
2
σ2
= var( X ) = E( X 2 ) - [E( X )] = E( X ) - µ
n
da cui si ricava
2
σ2
+µ
n
2
E( X ) =
D’altra parte abbiamo
n
1
2
E(S ) = E 
n
=
1
n
n
∑
∑X
i =1
2
E(X i2 ) - E( X ) =
i =1
2
i

− X2=

1
n
n
∑µ
2
2
− E (X )
i=
2
e sostituendo in questa espressione quella ricavata per E( X ) si ottiene
2
2
σ2
σ2
n −1 2
σ
-µ =σ =
n
n
n
2
2
2
che dimostra come S sia uno stimatore asintoticamente non distorto per σ . S viene detta varianza campionara . Da questo risultato è facile verificare che
2
1 n
(X i − X )2
s =
n − 1 i =1
2
E(S ) = µ2 -
∑
2
è uno stimatore non distorto per σ .
Inoltre si ha
2
2
2
2
2
2
2
2
var(S ) = E[(S ) ] - [E(S )] = E[(m2 - m 12 ) ] - [E(S )] =
130
Capitolo 4
= E(m 22 ) - 2E(m2 m 12 ) + E(m 14 ) -
( n −1)2 4
σ
n2
ove con
mr =
1
n
n
∑
X ir
i =1
si è indicato il momento campionario r-esimo. E dopo alcuni passaggi algebrici si può dimostrare che è
2
var(S ) =
( n −1)2 σ 4
n3
n−3

γ 2 + 3 −

n −1 

2
2
Questo implica che S è consistente, in media quadratica per σ . Ovviamente anche s
2
sarà consistente in media quadratica per σ .
2
Esempio 9
Data la v.c. doppia (X,Y) da cui è estratto il campione casuale (Xi , Yi ), i=1, 2 ,...,n ,
il coefficiente di correlazione campionario, come stimatore della correlazione ρ di (X,Y), è
dato da
n
r=
∑( X
i
− X )( Yi − Y )
i =1
 n
2
 ( Xi − X )
 i =1
∑
12
n
∑( Y
i =1
i
2
−Y ) 

Si può dimostrare che
lim var
n →∞
( n r )= (1 − ρ 2 )2
e quindi r è uno stimatore consistente di ρ.
4.5 Alcuni metodi di costruzione delle stime
Nei paragrafi precedenti abbiamo illustrato alcune proprietà ottimali che
uno stimatore deve possedere per essere considerato accettabile. Inoltre, ricorrendo all’errore quadratico medio, o alla varianza per gli stimatori non
distorti, si è elaborata una procedura capace di discriminare fra diversi stimatori.
In questo paragrafo illustreremo i metodi di stima più utilizzati nelle
pratiche applicazioni che ci permettono di ottenere, automaticamente e sotto specificate condizioni, stimatori che posseggono alcune delle proprietà
Elementi di teoria della stima parametrica
131
analizzate. In sintesi, i metodi di stima che verranno presi in considerazione
sono:
(a) metodo dei momenti
(b) metodo dei minimi quadrati
(c) metodo della massima verosimiglianza
In fine, tratteremo brevemente della distribuzione di probabilità di alcuni
dei più noti stimatori. In questo ambito presenteremo due tecniche basate
sul riuso del campione (il jackknife ed il bootstrap) per ottenere informazione sulla distribuzione di probabilità degli stimatori.
METODO DEI MOMENTI
Questo metodo di stima è il più semplice da applicare ed è quello che,
per la sua utilizzazione, richiede un numero limitato di condizioni. Infatti,
per utilizzarlo non è necessaria la conoscenza della distribuzione della popolazione su cui si vuole fare inferenza, ma solo delle informazioni sulla
struttura di alcuni dei suoi momenti. In pratica, questo metodo di stima viene applicato quando non è possibile ricorrere ad altri più precisi e potenti.
La sua logica può essere illustrata nel modo seguente. Data la popolazione
X~f(x ;θ ) con θ = (θ 1 ,…,θk ) vettore di parametri incogniti e da stimare.
Siano
+∞
µr =
∫
r
x f(x ; θ) dx , r =1,2,...,k
−∞
i primi k momenti teorici della popolazione X che si suppone esistano finiti. Naturalmente tali momenti sono funzione dei parametri incogniti θ,
cioè
µr = µr (θ), r=1,2,...,k
Il problema che ci si pone è quello di stimare il vettore dei parametri θ a
partire dalla v.c. campionaria X = (X1 ,…, Xn ) estratta da X. Se si suppone di
conoscere la forma funzionale µ r (θ), r =1, 2, …, k , indicando con
1
mr =
n
n
∑
X ir , r = 1 , 2 ,…, k
i =1
i momenti campionari, uno stimatore di θ può essere ottenuto risolvendo
132
Capitolo 4
rispetto a θ il seguente sistema di k equazioni in k incognite
 µ1 ( θ ) = m1
µ ( θ ) = m
 2
2

..........
.........

 µk ( θ ) = m k
(
)
Se indichiamo con θ̂ = θˆ1 ,...., θˆ k una soluzione del sistema, questa rappresenta uno stimatore di θ ottenuto con il metodo dei momenti.
Esempio 10
Se X =(X1 ,…, Xn ) è la variabile campionaria generata da un campione casuale estratto
da una qualsiasi v.c. X si ha
µ1 =
1
n
n
∑
Xi = X
i =1
e quindi m1 = X è lo stimatore della media, se esiste, della v.c. X ottenuto con il metodo
dei momenti.
Un limite del metodo dei momenti è che bisogna, a priori, conoscere i
legami che esistono fra i parametri da stimare ed i momenti della v.c. di cui
si vogliono stimare i parametri. L’uso di questo metodo di stima non richiede la conoscenza della distribuzione della v.c. , ma solo quella della
forma funzionale dei primi k momenti in funzione dei parametri che vogliamo stimare. Inoltre, è un metodo di stima facilmente applicabile e quindi può essere utilizzato per generare stime preliminari. Il sistema da risolvere è, in generale, non lineare ed ammette spesso più di una soluzione; in
tali casi è necessario utilizzare un qualche criterio di scelta come l’errore
quadratico medio. Si può dimostrare che gli stimatori ottenuti con il metodo dei momenti sono, in generale, distorti.
Si può dimostrare che se la v.c. X di cui vogliamo stimare i parametri
ammette i momenti fino all’ordine k , gli stimatori ottenuti con il metodo
dei momenti sono consistenti.
Esempio 11
Data una qualsiasi v.c. X con i primi due momenti finiti, si voglia stimare media e
2
varianza di tale v.c. utilizzando il metodo dei momenti. Dato che è µ1 = µ e µ2 = µ
2
+ σ si ottiene il sistema seguente
Elementi di teoria della stima parametrica
 µ = m1
 2
2
µ + σ = m 2
da cui si ricava
µ̂ = X
σ̂ 2 =
1
n
133
n
∑
X i2 − X 2 =
i =1
1
n
n
∑( X
i
− X )2 = S 2
i =1
e, come è ben noto, X è non distorto e consistente per µ, mentre σ̂ 2 è consistente ed asinto2
2
ticamente non distorto per σ . Ricordiamo che lo stimatore non distorto di σ
2
s =
1
n −1
n
∑( X
− X )2
i
i =1
non è uno stimatore dei momenti.
Con il metodo dei momenti si può ottenere, facilmente, lo stimatore di
qualsiasi momento della v.c. X senza conoscere la forma funzionale della f.d.
di X. Infatti, lo stimatore dei momenti di µr , se esiste, è dato da
mr = µ̂ r =
1
n
n
∑X
r
i
i =1
che risulta essere non distorto e consistente per µ r .
METODO DEI MINIMI QUADRATI
Questo metodo, che viene fatto risalire a Gauss, è largamente utilizzato
per la stima dei parametri specie nell’ambito della modellistica econometrica. Il suo successo e la sua conseguente diffusione è legato, sia ad alcune
proprietà che i relativi stimatori, in date circostanze, posseggono, sia alla sua
facilità di applicazione.
Per illustrare la logica di tale metodo supponiamo di avere la v.c. X, la
cui distribuzione di probabilità dipende dal parametro θ da stimare, e la v.c.
campionaria X = (X1 ,…, Xn ) estratta da X. Supponiamo, inoltre, che sia
E(X) = g(θ)
In tali condizioni si ha
E(Xi ) = g(θ),
questo implica che gli scarti
i = 1 , 2 , ..., n
134
Capitolo 4
ei = Xi - g(θ),
i = 1 , 2 , ..., n
rappresentano le deviazioni dalla media che si riscontrano nelle osservazioni campionarie. Ovviamente risulta
E(ei) = E(Xi ) - g(θ) = 0,
i = 1 , 2 , ..., n
Da quanto abbiamo detto sembra naturale scegliere come stimatore di θ
quel valore che minimizza la somma dei quadrati degli scarti, cioè
n
n
2
i
∑ e = ∑ [X
i =1
i
− g ( θ ) ]2 = min .
θ
i =1
Lo stimatore così ottenuto viene chiamato dei minimi quadrati (o anche
LSE: Least Square Estimation).
Questo metodo può essere facilmente generalizzato al caso in cui si
vuole stimare un vettore di p parametri incogniti e le informazioni di cui si
dispone non sono necessariamente indipendenti ed identicamente distribuite. Questo aspetto più generale lo tratteremo nell’ultimo capitolo quando illustreremo il modello di regressione.
Per l’applicazione di questo metodo non è necessaria la conoscenza della distribuzione della popolazione, ma solo la forma funzionale di
E(Xi ) = gi
Gli stimatori ottenuti con tale metodo sono, in generale, consistenti ma non
i più efficienti.
Esempio 12
Data la v.c. Y con distribuzione dipendente dal parametro θ e tale che sia E(Y) = θ
ed E(Yi ) = θ, i=1,2,…,n, stimiamo θ con il metodo dei minimi quadrati. In tal caso si
ha
e i2 = ( Yi − θ ) 2 = min imo
∑
∑
da cui si ricava
d
dθ
∑e
e lo stimatore LS per θ è dato da
2
i
= −2
∑( Y
i
−θ ) = 0
Elementi di teoria della stima parametrica
1
θˆ =
n
∑Y
i
135
=Y
Notare che in questo caso è
d2
dθ2
∑e
2
i
= 2n > 0
e quindi effettivamente θ̂ minimizza la somma dei quadrati degli scarti. Notare che lo
stimatore della media ottenuta con il metodo dei minimi quadrati coincide con quello ottenuto con il metodo dei momenti.
METODO DI MASSIMA VEROSIMIGLIANZA
Anche l’idea originaria di questo metodo di stima, pure in un contesto
differente, pare sia da attribuire a Gauss anche se è stato Fisher ad investigarne le proprietà ed a divulgarlo. Gli stimatori generati da tale metodo vengono di solito indicati con MLE (Maximun Likelihood Estimators) ed hanno
una grande rilevanza sia sul piano teorico che operativo dato che, generalmente, forniscono stimatori abbastanza accettabili per le numerose proprietà, spesso di tipo asintotico, che posseggono. L’uso di questo metodo di
stima, a differenza di quanto accade con quello dei minimi quadrati, richiede la conoscenza della distribuzione della v.c. di cui vogliamo stimare i parametri.
Data la v.c. X con distribuzione di probabilità o funzione di densità f(x ;
θ) nota a meno di θ, con θ ∈ Ω , la distribuzione di probabilità (nel caso discreto) o la funzione di densità (nel caso continuo) della v.c. campionaria X
= (X1 , X2 , ..., Xn ) generata da n estrazioni bernoulliane da X è data da
f(x1 , x2 , ..., xn ) = f(x1 ; θ) f(x2 ; θ) ... f(xn ; θ)
vista come funzione della n-pla x = ( x1 , x2 , ... , xn ). La stessa funzione si
chiama funzione di verosimiglianza se vista come funzione di θ e si indin
ca conL(θ ; x) =
∏
f(xi ; θ)
i =1
in questo caso (x1 , x2 , ..., xn ) è noto e rappresenta gli n valori che il campione casuale ha effettivamente assunti. Notare che la funzione di verosimiglianza è funzione solo di θ ed è sempre non negativa dato che è il prodotto di n funzioni di densità.
Data la v.c. X con distribuzione f(x ; θ ) nota a meno di θ su cui è stata
136
Capitolo 4
costruita la funzione di verosimiglianza L(θ ; x ), si chiama stimatore ML di
θ quel θ̂ tale che
n
L( θ̂ ; x) = max L(θ ; x) = max
θ ∈Ω
θ ∈Ω
∏
f(xi ; θ )
i =1
È da notare che la definizione di stima ML è equivalente a
L( θ̂ ; x) ≥ L(θ ; x),
L( θ̂ ; x) > L(θ ; x),
∀ θ ∈ Ω;
per almeno un θ ;
Se la v.c. X è discreta e quindi f(xi ; θ) = P(Xi = x i ; θ), risulta
L( θ̂ ; x) = max P(X1 = x 1 , X2 = x 2 ,…, Xn = x n ; θ)
θ ∈Ω
e nella stima ML bisogna scegliere quel θ per cui è massima la probabilità
che si presenti proprio il campione che è stato estratto. Se X è continua si
ha
f(xi;θ)dxi = P(xi ≤ Xi < x i + dxi ; θ)
che implica una interpretazione identica al caso discreto. Le definizioni sopra date, e le relative interpretazioni, continuano a valere anche quando θ è
un vettore di parametri. Nella figura seguente è schematizzata
l’individuazione della stima di massima verosimiglianza come individuazione del massimo assoluto nella funzione di verosimiglianza.
Come abbiamo sottolineato, e come è illustrato nella figura che segue,
nella scelta della stima ML non è importante quanto vale il massimo della
funzione di verosimiglianza, ma dove questo è localizzato. Se invece di L(θ ;
x) consideriamo il suo logaritmo, essendo la funzione logaritmo monotona
crescente, i punti dove la funzione è massima o minima rimangono immutati.
Questo vuole implica che L( θ ; x ) e logL(θ ;x) forniscono esattamente la
stessa stima ML. Spesso si preferisce ricercare le stime ML massimizzando
logL(θ ;x) perché questo ne semplifica la procedura:
n
l(θ ;x) = logL(θ ;x) =
∑
i=
log f(xi ;θ)
Elementi di teoria della stima parametrica
137
*
Riportiamo, senza dimostrazione, una serie di risultati che caratterizzano
gli stimatori ML e ne giustificano il loro largo uso.
Teorema
Sotto condizioni molto generali, risulta che:
(a) se T è l’unica, a meno di trasformazioni uno ad uno, statistica sufficiente per θ e se θ̂ è lo stimatore ML di θ allora θ̂ è funzione
di T;
(b) se θ* è uno stimatore UMVU di θ allora lo stimatore ML è funzione di θ *;
(c) θ̂ è l’unico stimatore ML consistente di θ;
(d) gli stimatori ML sono asintoticamente normali;
(e) se θ̂ è uno stimatore ML di θ allora g( θ̂ ) è uno stimatore ML di
g( θ), qualsiasi sia la funzione g( ⋅).
L’importanza del punto (e) sopra riportato è evidente dato che permette
di ottenere stimatori ML, con le relative proprietà, come funzioni di altri
stimatori ML. In particolare, se si vuole stimare g(θ) e questo è complicato,
si può stimare θ con ML ottenendo θ̂ , che spesso risulta di più facile derivazione, e quindi risalire a g( θ̂ ) che è sicuramente uno stimatore ML di
g(θ). I risultati stabiliti nel caso di stima ML di un solo parametro possono
essere estesi, con qualche complicazione in più, al caso di più parametri.
Esempio 13
2
2
Supponiamo che sia X ~ N(µ ;σ ) con µ e σ incogniti, si vuole stimare tali parametri con il metodo della massima verosimiglianza utilizzando il campione x = (x1
138
Capitolo 4
,…, xn ) estratto da X.
Dato che
1
2
f(x ;µ , σ ) =
2πσ
 1

( x − µ )2 
exp −
2
 2σ

2
la funzione di verosimiglianza risulta pari a
2
n
L(µ , σ ; x)=
∏( 2πσ
2
i =1
2 -n/2
= (2πσ )
)
-1/2
 1

( x i − µ )2  =
exp −
2
 2σ

 1
exp −
2
 2σ
∑( x
i

− µ )2 

e prendendone il logaritmo si ha
2
log L(µ , σ ; x) = −
2
n
n
1
log(2π) − log(σ ) −
2
2
2σ 2
∑ (x
2
2
i
− µ)
Derivando quest'ultima espressione rispetto a µ e σ ed uguagliando a zero si ottiene il
seguente sistema di due equazioni in due incognite:
 1
( xi − µ ) = 0
 σ 2

− n 1 + 1
( xi − µ )2 = 0
 2 σ 2 2σ 4
∑
∑
da cui, dopo alcuni semplici passaggi, si ottengono gli stimatori ML
ˆ 1
Xi = X
 µ = n

σˆ 2 = 1 ( X i − X ) 2 = S 2

n
∑
∑
che, in questo caso particolare, coincidono con quelli dei momenti.
Elementi di teoria della stima parametrica
139
Se le osservazioni x i , i= 1,2,…,n, pur essendo indipendenti non sono identicamente distribuite, e quindi la distribuzione di Xi è fi (xi ; θ), allora la
funzione di verosimiglianza diviene
n
L(θ ; x) =
∏
fi (xi ; θ)
i =1
e le proprietà degli stimatori ML non risultano più vere, in particolare non
è vero neanche che tali stimatori sono, in generale, consistenti.
4.6 La distribuzione di probabilità di alcuni stimatori campionari
Prima di entrare nel merito delle tecniche che presenteremo, notiamo
che nell’inferenza statistica si possono, schematicamente, individuare due
momenti distinti:
I
Il momento della stima
di una quantità statistica
II
Il momento della valutazione
delle proprietà della quantità
statistica stimata
L’ambito in cui ci muoveremo in questo e nel prossimo paragrafo è essen-zialmente il II: valutare le proprietà statistiche di una quantità stimata con uno
dei metodi disponibili. In questo paragrafo l’attenzione è rivolta ad alcuni
semplici metodi analitici utilizzabili per derivare la distribuzione di alcuni
stimatori come quelli della media, della varianza, della correlazione, mentre
nel prossimo tratteremo di due procedure numeriche basate su particolari
tecniche di ricampionamento dei dati osservati per derivare la distribuzione, praticamente, di tutti gli stimatori che si incontrano nelle applicazioni
correnti.
2
Abbiamo visto che, data una v.c. X con µ e σ finite ma incognite, degli
stimatori accettabili di questi parametri sono:
X=
1
n
n
∑X
i =1
i
per µ
140
Capitolo 4
M̂ e = Mediana{X1 , ..., Xn }
σ̂ 2 =
2
s =
1
n
n
∑ (X
i
per Me
2
− µ )2
per σ , se µ è nota
i =1
1
n −1
n
∑ (X
2
2
i
− X)
per σ , se µ è incognita
i =1
e che data una v.c. doppia (X,Y), uno stimatore accettabile del coefficiente
di correlazione ρ è quello campionario
n
r=
∑( X
i
− X )( Yi − Y )
i =1
 n
2
 ( Xi − X )
 i =1
∑
12
n
∑( Y
i =1
i
2
−Y ) 

Dato che questi stimatori sono delle v.c. con distribuzione di probabilità
dipendente da quella della v.c. di partenza, sorge il problema di derivare, in
modo esatto o approssimato, la loro distribuzione in modo da potere inferire sulle relative proprietà statistiche.
DISTRIBUZIONE DI PROBABILITÀ DELLA MEDIA CAMPIONARIA
2
Data la v.c. X con media e varianza finite, supponiamo che σ sia nota.
Uno stimatore accettabile di µ è la media campionaria
1 n
Xi
n i =1
ove le X i sono, per costruzione indipendenti, inoltre sappiamo che
X=
∑
E( X ) = µ ; var (X )=
σ2
n
che ci permettono di costruire la v.c. standardizzata
Elementi di teoria della stima parametrica
Z=
X −µ
var( X )
=
n
∑( X
i
141
−µ)
σ
ed applicando il teorema limite centrale si ha
L
Z → N(0,1)
Questo vuole dire che se n è sufficientemente grande, in pratica basta che
sia n ≥ 30, qualsiasi sia la distribuzione di X risulta
 σ2
X ≈ N  µ ;
n




Nel caso particolare, ma di grande rilevanza applicata, in cui è X~N( µ, σ 2 )
segue immediatamente che, per una delle proprietà delle v.c. normali (una
trasformazione lineare di normali indipendenti è ancora una normale) risulta
 σ2
X ~ N  µ ;
n




qualsiasi sia n.
In definitiva, possiamo affermare che qualsiasi sia la distribuzione di partenza da cui è estratto il campione, se questa possiede media e varianza finita, allora la media campionaria X , per n sufficientemente grande, può esse2
re approssimata da una v.c. normale con media µ e varianza σ /n.
Nelle figure seguenti mostriamo la distribuzione effettiva di X a
partire da v.c. note ma molto diverse fra di loro. I grafici vanno letti per colonna.
142
Capitolo 4
Distribuzione della v.c. X
Distribuzione di X per n= 2
Distribuzione di X per n= 4
Distribuzione di X per n=25
Elementi di teoria della stima parametrica
Distribuzione della v.c. X
Distribuzione di. X per n= 2
Distribuzione di X per n= 4
Distribuzione di X per n=25
143
144
Capitolo 4
Le figure delle due pagine precedenti mostrano quanto sia potente, nel
caso dello stimatore della media, il Teorema del Limite Centrale. Infatti, partendo da distribuzioni molto diverse (triangolare, uniforme, esponenziale, a
forma di U), per n= 25 si ottiene una distribuzione che è molto simile a
quella della normale.
Il risultato precedente può essere facilmente esteso al caso di trasformazioni di X . Infatti, si può dimostrare che data la trasformazione Y = g( X ),
se g(⋅) ha derivata prima g’(µ) non nulla in µ, posto
2
2
v = σ [g’(µ)]
2
si ha

v2 

Y = g( X ) ≈ N  g ( u ),
n 

cioè lo stimatore g( X ) di g(µ ) è, per n sufficientemente grande, approssi2
mati-vamente normale con media g(µ) e varianza v /n.
In definitiva, possiamo affermare che la distribuzione di X o di una sua
trasformata regolare g( X ) è sempre, in modo esatto o approssimata, normale.
DISTRIBUZIONE DI PROBABILITÀ DEI PERCENTILI CAMPIONARI
Data una v.c. X continua, e quindi con f.d. f(x), indichiamo con
il p-esimo percentile di X cioè tale da soddisfare l’equazione seguente
Qp
Qp
∫
f(x) dx = p,
−∞
e con Q̂ p la relativa stima ottenuta sul campione e definita nel modo seguente
[
[
]
]
 proporzione osservazioni ≤ Q̂ p ≥ p

Q̂ p : 
 proporzione osservazioni ≥ Q̂ p ≥ 1 − p
Se Q̂ p è unico si dimostra (teorema di Glivenko-Cantelli) che
Elementi di teoria della stima parametrica
145

p( 1 − p ) 
L
n Q̂ p − Q p →
N 0;
.
2 

[
f
(
Q
)]
p


In altri termini, sotto le condizioni sopra riportate, se n è sufficientemente
grande (in pratica deve essere n ≥ 80) risulta
(
)

p( 1 − p )
Q̂ p ≈ N  Q p ;

n [ f ( Q p )]

2




Si noti che per p=0.5 il relativo percentile è la mediana, per p=0.25 è il primo quartile, per p = 0.75 è il terzo quartile. Si osservi che Q̂ p è asintoticamente non distorta e consistente per Q p.
DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA
Distinguiamo due diverse situazioni
(A) Caso di µ nota
2
Supponiamo che la v.c. X abbia media µ nota e varianza σ incognita e
2
momenti µ3 e µ4 finiti, in tal caso uno stimatore accettabile di σ è
σ̂ 2 =
1
n
n
∑( X
i
−µ) 2
i =1
2
Dato che le v.c. (Xi - µ) sono indipendenti per costruzione ed hanno media
e varianza finita per ipotesi, applicando il teorema limite centrale per n sufficientemente grande risulta
(
σˆ 2 ≈ N σˆ 2 ; var( σˆ 2 )
)
con
var( σ̂ 2 ) =
=
1
n2
n
∑
i =1
2
var((Xi - µ) ) =
2
1
var[( X - µ) ]
n
2
4
4
1
[µ4 - 4µ3 µ + 6µ2 µ - 3µ - σ ]
n
146
Capitolo 4
2
Nel caso particolare in cui è X~N(µ; σ ) da σ̂ 2 si ottiene
2
n
n σˆ 2
 Xi − µ 
=


σ 
σ2
i =1 
∑
e per costruzione (Xi - µ)/σ = Zi è una normale standardizzata per cui
n
nσˆ 2
=
σ2
∑Z
2
i
~ χ n2 .
i =1
In altri termini, se la variabile casuale X è normale allora σ̂ 2 è proporzionale
ad una v.c. Chi-quadrato con n gradi di libertà, inoltre risulta immediatamente
σ 2 2  σ 2
2
E( σ̂ ) = E 
 n χ n  = n E χ n


( )= σ
2
2
σ 2 2  σ 4
2σ 4
χ n  = 2 var χ n2 =
var( σ̂ 2 ) = var 
.
n
n
 n

( )
(B) Caso di µ incognita
2
In questa situazione, uno stimatore accettabile di σ è dato da:
2
S =
1
n
n
∑( X
i
− X )2
i =1
e vale il seguente
Teorema
2
Se X~N(µ ; σ ) allora
n 2
2
S ~ χ n−
1;
σ2
2
 σ2
X ~ N  µ ,
n




2
con X e S indipendenti. Una conclusione analoga si ha se al posto di S si
Elementi di teoria della stima parametrica
147
2
considera lo stimatore ottimale s .
Questo risultato è di grande importanza pratica perché ci permette di
derivarne altri di notevole interesse. In particolare, dato che
n( X − µ )
~ N(0; 1);
σ
n −1 2
2
s ~ χ n−
1
2
σ
e queste v.c. sono indipendenti, segue immediatamente che
t=
N( 0; 1 )
χ n2−1
=
( X −µ) n
σ
( n −1)
1
n −1 s 2
σ 2 n −1
=
( X −µ) n
~ T(n-1)
s
Cioè, t si distribuisce, al variare del campione nell’universo campionario,
come una v.c. T di Student con (n-1) gradi di libertà. Come si può notare, la
v.c.
( X −µ) n
s
ha una distribuzione indipendente dai parametri incogniti µ e σ 2 , per questo viene detta pivotale.
DISTRIBUZIONE DELLA CORRELAZIONE CAMPIONARIA
Abbiamo visto che, data una v.c. doppia (X, Y) una stima accettabile della
correlazione fra X ed Y è data dalla correlazione campionaria la cui distribuzione è derivata nei teoremi seguenti:
Teorema
Data la v.c. (X, Y) ~ N2 ( µx , µy , σ 2x , σ 2y , ρ ) con correlazione ρ = 0, sia
(Xi , Yi), i = 1,2,…,n, la v.c. campionaria estratta da (X , Y), sia r la stima campionaria di ρ, si dimostra che
r
n−2
~ T(n-2).
1−r2
Osserviamo che in questo caso X ed Y sono indipendenti.
Teorema
148
Capitolo 4
Data la v.c. (X , Y) ~ N2 ( µx , µy , σ 2x , σ 2y , ρ), con correlazione ρ ≠ 0, se
(Xi , Yi ), i=1,2,…,n, è la v.c. campionaria estratta da (X, Y), posto
1 1 + ρ 
1 1 + r 
Z = log 

z p = log 
;
2 1 − r 
2  1 − ρ 
per n moderatamente grande risulta

1
4 − ρ2 

+
(Z - z p ) ≈ N  0 ;
n − 1 2( n − 1 ) 

È facile verificare che
1
4 − ρ4
1
+
≈
n − 1 2( n − 1 ) n − 3
4.7 Due metodi di inferenza basati sul ricampionamento
Nel paragrafo precedente abbiamo derivato, in modo esatto o approssimato, la distribuzione degli stimatori della media, dei percentili, della varianza e della correlazione utilizzando procedure di tipo analitico. Di solito
queste procedure, esclusi i semplici casi sopra analizzati, richiedono assunzioni molto restrittive come la normalità di X, ma anche sotto questa assunzione, in molti casi, la distribuzione che si conosce è solo di tipo asintotico,
quando si riesce a derivarla, e spesso non è analiticamente trattabile. Qui di
seguito presentiamo due procedure che forniscono informazioni sulla distribuzione di probabilità dello stimatore riutilizzando ripetutamente i dati
campionari.
Le procedure di riuso del campione, ed in particolare le metodologie
che vanno sotto il nome di Bootstrap e Jackknife, hanno assunto nei problemi
di inferenza un ruolo sempre più rilevante come vie alternative a quella analitica classica. Questo ha portato alla comparsa di un numero sempre più
rilevante di lavori nella letteratura internazionale, sia di tipo teorico che applicato, sulle metodologie citate. Una caratteristica specifica su cui poggiano
queste tecniche di ricampionamento, ed il Bootstrap in particolare, è la simulazione con metodi Monte Carlo di una procedura statistica, utilizzando il minor numero possibile di assunzioni a priori.
Nel seguito daremo un rapido cenno della procedura Bootstrap nella
versione non parametrica, che è quella che riserva i maggiori sviluppi e i
Elementi di teoria della stima parametrica
149
più interessanti sbocchi applicativi, e la problematica ad essa connessa, e
della procedura Jackknife per la sua semplicità d’uso e per le relazioni che
questa ha con il Bootstrap. Più in particolare:
- data la variabile casuale o popolazione X con f.r. F(x ;θ), con θ parametro incognito di interesse;
- sia X=(X1 ,…,Xn ) la v.c. campionaria estratta da X;
- sia θ̂ n = θ (X) uno stimatore di θ ottenuto con uno dei metodi classici
di stima,
si vuole inferire sulle proprietà statistiche di θ̂ n come stimatore di θ . Da
un punto di vista statistico ciò può volere dire, per esempio:
(a) ottenere una stima di var( θ̂ n )
(b) fissate le costanti a e b, e ottenere una stima di P{a ≤ θ̂ n - θ ≤ b}
(c) trovare le quantità σ̂ , x ( 1−α ) , x ( α ) di modo che sia
P{θ ∈ [ θ̂ n - n
-1/2
σ̂ x ( 1−α ) ; θ̂ n - n
-1/2
σ̂ x ( α ) ]} = 1-2α.
La soluzione a problemi del tipo sopra esposti può essere ottenuta con
due diversi approcci:
(i) tenuto conto delle caratteristiche di X, delle informazioni contenute in
X =(X1 ,...,Xn ), del problema che si vuole risolvere, si deriva analiticamente,
in modo esatto o asintotico, la distribuzione di Rn (funzione monotona
di θ̂ n ) e la si usa per ottenere risposte ai problemi del tipo (a)-(c). Questa
impostazione è stata seguita nel paragrafo precedente.
I casi più noti di statistiche Rn sono
Rn (x ; θ̂ ) = θ̂ n - θ
Rn (x ; θ̂ ) =
θˆ n − θ
sn
con sn stima dello scarto quadratico medio di θ̂ n ;
(ii) in molte situazioni è difficile o impossibile ottenere la distribuzione di
probabilità di R n , altre volte l’approssimazione asintotica che si ottiene è
non soddisfacente specie per piccoli campioni. In questi casi si può tentare di stimare la distribuzione di R n con metodi di simulazione Monte
150
Capitolo 4
Carlo basati sul ricampionamento da X = (X1 ,...,Xn ). Le procedure Bootstrap e Jackknife sono di questo tipo.
Qui di seguito presentiamo sinteticamente le due procedure nella loro
versione originaria.
LA PROCEDURA JACKKNIFE
Questa procedura è stata proposta per la prima volta da Quenouille nel
1956 e ripresa e generalizzata da Tukey nel 1958. È una procedura nata, ed
usata per molti anni, essenzialmente per ridurre o eliminare la distorsione
presente in alcuni stimatori. Successivamente il suo uso è stato esteso alla
stima della varianza di stimatori ed infine per derivare una distribuzione
approssimata dello stimatore o di una sua trasformazione.
Dato il campione x= (x1 ,…,xn ) e la stima θ̂ n = θ (x) di θ, costruiamo le
stime θ̂( i ) = θ (x (i) ), i=1, 2 ,…, n, ove
x (i) = x escluso xi .
Le n stime θ̂( i ) rappresentano la distribuzione Jackknife di θ̂ n , queste vengono utilizzate per ottenere stime Jackknife di θ , della distorsione e della
varianza di θ̂ n . Più in particolare,
(i) la stima Jackknife di θ basata su θ̂ n è
1
θˆ J ( ⋅ ) =
n
n
∑θˆ( i ) ;
i =1
(ii) la stima della distorsione di θ̂ n è
d̂ J ( θ̂ n ) = (n-1) ( θˆ J ( ⋅ ) - θ̂ n )
si dimostra che questa stima della distorsione, sotto condizioni non eccessivamente restrittive, è non distorta per la distorsione vera di θ̂ n
(iii) la stima Jackknife corretta di θ basata su θ̂ n risulta
(
)
(
)
θˆ J = θˆ n − ( n − 1 ) θˆ J (.) − θˆ n = θˆ J ( ⋅ ) - n θˆ J ( ⋅ ) − θˆ n =
Elementi di teoria della stima parametrica
=
1
n
n
1
151
n
∑ [n θˆ n − ( n − 1 ) θˆ( i ) ]= n ∑ [θˆ( i ) + n (θˆ n − θˆ( i ) )];
i =1
i =1
(iv) la stima Jackknife della varianza di θ̂ n è data da
n −1 n ˆ
V J2 θˆ n =
θ( i ) − θˆ J (.)
n i =1
∑[
()
]
2
(v) Tukey nel 1958 ipotizzò che
tJ =
θˆ J − θˆ n
V θˆ
J
()
n
potesse essere approssimata con una v.c. normale standardizzata. Altri autori come Arvesen, Beran, Miller, Sen dimostrarono che l’ipotesi di Tukey è vera sotto condizioni.
È importante osservare che la procedura Jackknife per la stima della varianza di θ̂ n non sempre fornisce risultati accettabili. Per esempio tale stima, a meno di non considerare generalizzazioni particolari del Jackknife qui
non presentate, non è consistente per la varianza della mediana campionaria
e per i percentili campionari in generale.
Esempio 14
Sia θ = µ e θˆ n = X lo stimatore di µ. In questo caso è noto che
2
E( X ) = µ; var( X ) = σ /n
ed una stima non distorta di var( X ) è
2
s
^ (x
var
) =
n
con
2
s =
1 n
( x i − θˆ n ) 2 .
n − 1 i =1
∑
Se si utilizza la procedura Jackknife si ottiene
x( i ) =
1
n −1
n
∑
j ≠i
xj =
n 1
n −1 n
n
1
∑x j − n −1 x i =
j =1
n x − xi
n −1
152
Capitolo 4
e quindi
x J (.) =
1
n
n
∑
mentre è
x( i ) =
i =1
n
2
x −nx
=x
n ( n −1)
d̂ J ( x ) = ( n − 1 ) ( x J (.) − x ) = 0 .
In definitiva, in questo caso si ha
x J (.) = x J = x
Per la stima Jackknife della varianza di x si ottiene:
n −1 n
VJ ( x ) =
x(
n i =1
∑[
j)
− x J (.)
2
]
2
n −1 n n x − x i

=
− x =

n i =1  n − 1

∑
2
=
2
n −1 n  x − x i 
1 1 n
s2
[
]
=
x
−
x
=
.
i
n i =1  n − 1 
n n − 1 i =1
n
∑
∑
Come si può notare, in questo caso particolare, l’uso della procedura Jackknife genera gli stessi stimatori di quella classica. Naturalmente questo
non succede in generale.
LA PROCEDURA BOOTSTRAP
Questa procedura è una generalizzazione di quella Jackknife. È stata
proposta per la prima volta da Efron nel 1979. Ripresa da altri ricercatori,
oltre allo stesso Efron, è stata via via approfondita ed applicata a numerose
situazioni concrete.
Dato il campione x = (x1 ,…, x n ), estratto bernoullianamente dalla v.c. X
con funzione di ripartizione F(x ;θ), data la stima θ̂ n = θ (x) di θ, si estraggono con rimessa da x i campioni x 1* , x 2* ,..., x B* e si calcolano le stime di θ :
θˆ1* = θ ( x 1* ) , θˆ 2* = θ ( x 2* ) ,..., θ B* = θ ( x B* )
le B stime θ̂ *b rappresentano la distribuzione Bootstrap di θ̂ n e vengono
utilizzate per ottenere:
Elementi di teoria della stima parametrica
153
(i) la stima Bootstrap di θ tramite
1
θˆ B =
B
B
∑θˆb*
i =1
(ii) la stima Bootstrap della varianza di θ̂ n utilizzando la seguente
()
V B θˆ n =
1 B * ˆ
θb − θ B
B − 1 b =1
∑[
2
]
(iii) si ipotizza che
tB =
θˆ B − θˆ n
1/ 2
V θˆ
[ ( )]
B
n
si distribuisce asintoticamente come una normale standardizzata. Efron, Bickel, Hall fissano le condizioni, che risultano essere molto generali, per cui
una tale affermazione è vera.