teoria della stima

TEORIA DELLA STIMA
E’ possibile evincere da un campione alcuni parametri della popolazione da cui è estratto
(inferenza statistica).
Tuttavia esiste un margine di possibile errore in questa operazione dovuta al fatto che si
sta compiendo un’induzione.
Dato un campione casuale x1,x2,x3,…xn di determinazioni di un carattere X della
popolazione, è possibile determinare una costante caratteristica della sua distribuzione.
Utilizzeremo questa costante come una stima di un parametro del carattere X , stima che
comporta un margine di errore.
Definiamo allora stimatore la v.a. costituita dai valori che la stima assume al variare del
campione estratto.
Definiamo quindi un generico stimatore T
T ( X )  T ( X 1 , X 2 ,..., X n )
dove
X è la v.a. definita sulla popolazione. La v.a. X ha la sua funzione densità f(X;), dove  è
il parametro incognito da stimare.
X 1 , X 2 ,..., X n sono le v.a. campionarie corrispondenti a n estrazioni campionarie
bernoulliane dalla popolazione.
Lo stimatore di un parametro  è una v.a., e la stima è il valore assunto dallo stimatore in
seguito all’estrazione di un campione di n elementi e ad un computo statistico.
Compito della statistica è quindi cercare quello stimatore, funzione dei dati campionari,
che fornisca una stima con probabilità massima di avvicinarsi al valore vero del parametro
da stimare.
Se indichiamo con x1,x2,x3,…xn i valori assunti dalle n variabili campionarie X 1 , X 2 ,..., X n ,
allora la stima è definita da:
t  T ( x1 , x2 ,..., xn )
Nella teoria della stima distinguiamo:
-
stima puntuale, che assegna un solo valore al parametro 
stima intervallare, che assegna un intervallo che include il parametro  con una
prefissata fiducia.
PROPRIETA’ DI UNO STIMATORE
E’ opportuno che uno stimatore possegga proprietà di correttezza, consistenza, efficienza,
sufficienza, normalità asintotica.
Correttezza
Uno stimatore T(X) si dice corretto o non distorto quando il suo valor medio E[T ( X )]
coincide con il valore del parametro  da stimare per qualsiasi suo valore:
E[T ( X )]  
In generale, l’espressione
d ( )  E[T ( X )]  
indica la distorsione dello stimatore.
Lo stimatore X media campionaria della media  di una popolazione è sempre corretto.
Infatti
E[X ]  
Invece lo stimatore Ŝ 2 varianza campionaria della varianza  2 è distorto. Infatti
x
Sˆ 2 
(X
i 1
i
 X )2
n
ha valor medio
n 1 2
E[ Sˆ 2 ] 

n
in cui si vede che la condizione di non distorsione non è soddisfatta. Per questo motivo
come stimatore corretto della varianza si utilizza
x
Sˆ 2 
(X
i 1
i
 X )2
n 1

n ˆ2
S
n 1
il cui valor medio è E[ Sˆ 2 ]   2 .
Consistenza
Si tratta di una proprietà asintotica di uno stimatore: uno stimatore è consistente quando la
sua distribuzione tende ad accentrarsi, al crescere di n, sempre più vicino al parametro  .
Consistenza in media quadratica: se tende a zero l’errore quadratico medio, ossia se
lim
E[T ( X )   ] 2  0
n  
dove
E[T ( X )   ]2  Var[T ( X )]  d 2 ( )
Consistenza in probabilità:
lim
P[| Tn ( X )   |  ]  1
n  
  0
Il pedice n allo stimatore indica il fatto che questo è in generale funzione delle osservazioni
campionarie.
La consistenza indica che la precisione della stima aumenta all’aumentare della
numerosità del campione.
Efficienza
T1 ( X ) si dice più efficiente di T2 ( X ) se l’errore quadratico medio di T1 ( X ) è inferiore al
corrispondente errore quadratico medio di T2 ( X ) (efficienza relativa).
Si parla di efficienza assoluta se uno stimatore T ( X ) presenta un errore quadratico
medio inferiore a quello di qualunque altro stimatore per il parametro  . Se gli stimatori
non sono distorti è sufficiente confrontarne le varianze:
Dati due stimatori T1 ( X ) e T2 ( X ) dello stesso parametro  , diremo che T1 ( X ) è più
efficiente di T2 ( X ) se vale
E [T1 ( X )   ] 2 
1
E[T2 ( X )   ] 2 
Viceversa T2 ( X ) è più efficiente di T1 ( X ) se il rapporto è maggiore di 1.
Sufficienza
Sono detti sufficienti gli stimatori che non disperdono informazione sul parametro da
stimare.
Per verificarne la sufficienza occorre conoscere la distribuzione della v.a. corrispondente.
Se X è una v.a., le v.a. campionarie ottenute da X sono utilizzate in modo che tutte le
informazioni che si posseggono su  siano impiegate dallo stimatore T(X) e non se ne
perda nessuna.
Definiamo T(X) uno stimatore sufficiente
 ( x1, x 2 ,...., x n | T  t 0 ) è indipendente da  .
quando
la
distribuzione
condizionata
Normalità asintotica
E’ una proprietà asintotica dello stimatore T(X) , per cui al crescere della numerosità
campionaria, esso tende a distribuirsi come una v.a. normale.
METODI DI STIMA
Sono metodi per stimare i parametri incogniti di una popolazione.
METODO DEI MINIMI QUADRATI
Proposto da Gauss e Legendre, consiste nell’identificare come stime dei parametri i valori
che rendono minima la somma dei quadrati delle differenze fra valori osservati della
variabile dipendente e valori teorici.
METODI DEI MOMENTI
Consiste nell’imporre l’uguaglianza fra momenti campionari e momenti della popolazione.
Si creerà un sistema di equazioni la cui soluzione fornisce la stima dei parametri cercati.
Data una v.a. X, supponiamo che la sua distribuzione abbia m parametri incogniti, ossia un
vettore  a valori in R m
  1 , 2 ,......, m
Supponiamo di avere un campione casuale X 1 , X 2 ,..., X n da cui si deducono i momenti
r  1,2,..., m
campionari M r ,n
Se indichiamo i momenti empirici come  r   r ( )
il metodo dei momenti consiste nell’imporre l’uguaglianza
M r ,n   r ( ) r  1,2,..., m .
Dal sistema si deducono gli stimatori T1n , T2n ,..., Tmn e quindi le stime dei parametri,
ˆ ,ˆ ,......,ˆ .
1
2
m
Tuttavia l’efficienza degli stimatori non è garantita.
METODO DELLA MASSIMA VEROSIMIGLIANZA
Definiamo la funzione di verosimiglianza (likelihood function) come
n
L( xi ; )  f ( x1 ; )  f ( x 2 ; )  .... f ( x n ; )   f ( xi ; )
i 1
Dove le f ( xn ; ) sono le variabili campionarie x1,x2,x3,…xn con distribuzione coincidente
con la popolazione, e  il parametro da stimare.
La funzione di verosimiglianza esprime:
- per variabili discrete, la probabilità che prima dell’esperimento si verifichi il campione
(x1,x2,x3,…xn )
- per variabili continue, la probabilità congiunta che prima dell’esperimento si verifichino
valori campionari in intervalli infinitesimi centrati su (x1,x2,x3,…xn ).
Dopo l’osservazione del campione, la funzione verosimiglianza dipende solo dal
parametro , ed esprime quindi la credibilità del campione in rapporto al parametro. Al
variare di  esprime differenti gradi di verosimiglianza.
Il metodo della massima verosimiglianza consiste nello scegliere come stima del
parametro il valore che massimizza la funzione di verosimiglianza. Sotto certe
condizioni produce stimatori sufficienti, efficienti, consistenti, normali asintoticamente, e
può essere usato qualsiasi sia la distribuzione della popolazione.
Passando ai logaritmi, il valore di  è la soluzione dell’equazione
 ln L
0 .

INTERVALLI DI CONFIDENZA
La stima puntuale del parametro  non fornisce indicazioni sulla probabilità che il suo
valore sia prossimo al valore reale del parametro, e quindi l’attendibilità della stima.
Questa informazione si può ottenere però nel caso della stima per intervallo.
La probabilità che il valore del parametro  da stimare sia compreso nell’intervallo [1 , 2 ]
si esprime come
P(1     2 )  1  
1   è detto livello di fiducia (o di confidenza)
 è detto livello di significatività ed è la probabilità di compiere un errore affermando
che  è compreso nell’intervallo [1 , 2 ] .
L’intervallo di confidenza permette quindi di dare un giudizio di validità alla stima dei
parametri.
Gli intervalli vengono fissati in base a convenzioni. In generale un livello di confidenza più
elevato richiede campioni più numerosi.
A parità di livello di significatività (a parità di ), al crescere della dimensione del campione
l’intervallo di confidenza si restringe. Infatti il campione diviene maggiormente
rappresentativo della popolazione, quindi diminuisce lo scarto quadratico medio dello
stimatore ed aumenta la precisione delle stime campionarie.
INTERVALLO DI CONFIDENZA PER LA MEDIA DI UNA POPOLAZIONE NORMALE
CON VARIANZA NOTA
Vogliamo stimare la media  di una popolazione distribuita in modo normale con varianza
nota  2 . Estraiamo un campione di numerosità n>30 . La variabile scarto standardizzato
Z
X 
/ n
è distribuita come una v.a. standardizzata.
Scrivendo


 
Px  za / 2
   x  za / 2
  1
n
n

indichiamo che nel 100(1-  )% dei campioni la media  della popolazione è compresa fra


 
; x  za / 2
gli estremi  x  z a / 2

n
n

e 1-  è detto livello di confidenza.
INTERVALLO DI CONFIDENZA PER LA MEDIA DI UNA POPOLAZIONE NORMALE
CON VARIANZA NON NOTA
Estraiamo un campione di prefissata numerosità e calcoliamo la media campionaria x e la
varianza campionaria. Si è visto che lo scarto standardizzato
T
X 
S/ n
si distribuisce come una v.a. t di student con n-1 gradi di libertà.
La scrittura

s
s 
P  x  t a / 2,n 1
   x  t a / 2,n 1
  1
n
n

Indica che nel 100(1-  )% dei campioni la media della popolazione è compresa fra gli

s
s 
estremi  x  t a / 2,n 1
; x  t a / 2,n1
.
n
n

INTERVALLO DI CONFIDENZA PER LA DIFFERENZA FRA MEDIE DI DUE
POPOLAZIONI NORMALI CON VARIANZA NON NOTA
Volendo stimare la differenza fra medie 1 e  2 di due popolazioni normali con varianze
non note, si estraggono due campioni di dimensione rispettivamente n 1 e n2 .
Abbiamo visto che la differenza delle medie campionarie X 1  X 2 si distribuisce in modo
normale per numerosità sufficientemente alte, costituendo un buono stimatore.
La stima della varianza si ottiene da
S2 
(n1  1) S12  (n2  1) S 22
n1  n2  2
e la scrittura

1
1
1
1 
P ( x1  x 2 )  t a / 2,n1 n 2 2 s

 ( 1   2 )  x1  x 2 )  t a / 2,n1 n 2 2 s
   1
n1 n2
n1 n2 

indica che nel 100(1-  )% dei campioni la differenza fra le medie della popolazione è

1
1
1
1 
 ; x1  x 2 )  t a / 2,n1 n 2 2 s
 .
compresa fra gli estremi ( x1  x 2 )  t a / 2,n1 n 2 2 s
n1 n2
n1 n2 

INTERVALLO DI CONFIDENZA PER LA PROPORZIONE DI UNA POPOLAZIONE
NORMALE
Vogliamo stimare la proporzione p di una popolazione distribuita in modo normale.
Estraiamo un campione di numerosità n e calcoliamo la frequenza campionaria relativa
X
F
che abbiamo visto essere un buono stimatore.
n
Scriveremo

P f  za / 2

f (1  f )
 p  f  za / 2
n
f (1  f ) 
  1
n

ad indicare che nel 100(1-  )% dei campioni la proporzione p della popolazione è

f (1  f )
f (1  f ) 
; f  za / 2
compresa fra gli estremi  f  z a / 2
.
n
n


INTERVALLO DI CONFIDENZA PER LA DIFFERENZA TRA LE PROPORZIONI DI DUE
POPOLAZIONI NORMALI
Se vogliamo stimare la differenza fra proporzioni di due popolazioni normali, estraiamo
due campioni n1 e n2 . La differenza fra le proporzioni campionarie F1-F2 è un buono
stimatore del parametro corrispondente e si distribuisce in modo normale per numerosità
sufficienti.
La scrittura

P ( f 1  f 2 )  z a / 2

f1 (1  f1 ) f 2 (1  f 2 )

 p1  p 2  ( f1  f 2 )  z a / 2
n1
n2
f1 (1  f1 ) f 2 (1  f 2 ) 

  1
n1
n2

indica che nel 100(1-  )% dei campioni la differenza delle proporzioni delle due
popolazioni è compresa fra gli estremi

( f 1  f 2 )  z a / 2

f 1 (1  f 1 ) f 2 (1  f 2 )

; ( f1  f 2 )  z a / 2
n1
n2
f 1 (1  f 1 ) f 2 (1  f 2 ) 


n1
n2

INTERVALLO DI CONFIDENZA PER LA VARIANZA DI UNA POPOLAZIONE
NORMALE
Vogliamo stimare per intervalli la varianza di una popolazione normale di cui non è noto il
valor medio  , sulla base di un campione di grandi dimensioni di cui si conosce la
varianza. Supponiamo che la popolazione sia distribuita normalmente con varianza  2 .
(n  1) S 2
La variabile
è distribuita come una v.a.  2 con n-1 gradi di libertà, e si ha
2

(n  1) s 2
 2  / 2;n1
2 
(n  1) s 2
 21 / 2;n 1
in cui s2 è la varianza campionaria e  2 / 2;n 1 ,  2 / 2;n 1 sono i valori assunti da  2 per  / 2
e 1-  / 2 , per n-1 gradi di libertà.
INTERVALLO DI CONFIDENZA PER IL RAPPORTO FRA VARIANZE DI POPOLAZIONI
NORMALI
Vogliamo stabilire un intervallo di confidenza per la stima del rapporto
 12
 22
fra le varianze
di due popolazioni normali di cui non si conoscono né medie 1 ,  2 né le varianze  12 ,  22 .
Estraiamo da ciascuna popolazione un campione di dimensione rispettivamente n1 e n2 e
calcoliamo le varianze s12 e s 22 .
Il rapporto
S12
Fn1;n 2 
 12
S 22
 22
si distribuisce come una v.a. F di Fisher con n1-1 e n2-2 gradi di libertà.
Si scrive allora
 S2 /S2
2
S12 / S 22 
P  1 2  12 
  1
 F / 2;n11;n 21  2 F1 / 2;n11;n 21 
Ad indicare che nel 100(1-  )% dei campioni il rapporto fra le varianze delle due
popolazioni è compresa fra gli estremi
 S12 / S 22
S12 / S 22 
;

 .
 F / 2;n11;n 21 F1 / 2;n11;n 21 
STIMA DEI COEFFICIENTI DI REGRESSIONE
L’equazione della retta di regressione è, come si è visto,
Yˆ   0  1 X
Scegliamo come metodo di stima quello dei minimi quadrati. Sceglieremo quindi la retta
per la quale la somma dei quadrati degli scostamenti fra valori teorici e quelli osservati del
carattere Y è minima. Ossia dobbiamo minimizzare
S   ( yi   0  1 xi ) 2  min
Deriviamo rispetto ai due parametri ed uguagliamo a zero:
 S  2 ( yi   0  1 )  0
  0


 S
   2 ( yi   0  1 ) xi  0
1
ossia
  0 n  1  xi   yi


2

 0  xi  1  xi   xi yi
La cui soluzione è

yi  xi2   xi  xi yi

ˆ
 0 
n xi2  ( xi ) 2



 xi yi   xi  yi
 ˆ1 
n xi2  ( xi ) 2

Questi stimatori dei parametri di un modello di regressione risultano essere in media non
distorti e consistenti.
Il Teorema di Gauss-Markov dimostra che gli stimatori dei minimi quadrati B0,B1 sono i più
efficienti nella classe degli stimatori lineari e non distorti per  0 , 1 .
Anche per il valore stimato ˆ può essere costruito un intervallo di confidenza, perché lo
stimatore B si distribuisce normalmente.
Si dimostra che gli intervalli di confidenza si traggono dalla variabile t di Student con n-2
gradi di libertà:
 ˆ
ˆ
  0  t / 2;n2 Es( B0 )   0   0  t / 2;n2 Es( B0 )

 ˆ1  t / 2;n2 Es( B0 )  1  ˆ1  t / 2;n2 Es( B1 )

Dove Es( B0 ), Es( B1 ) sono gli errori standard della stima.
METODO MONTE CARLO
Un importante algoritmo basato sulla legge dei grandi numeri è il metodo Monte Carlo. Si
tratta di un metodo di simulazione utile quando un problema reale è così complesso da
rendere impossibile una soluzione analitica o numerica tradizionale.
E’ possibile analizzare le caratteristiche di una v.a. attraverso la generazione di
determinazioni della variabile.
Per generare campioni casuali si utilizzano algoritmi che producono numeri pseudocasuali.
Queste sequenze vengono considerate realizzazioni di un dato modello probabilistico di
cui si replica la struttura per via simulativa, in modo da poterne studiare distribuzione o
parametri.
NUMERI PSEUDO-CASUALI
Un algoritmo di generazione di sequenza di numeri pseudo casuali fornisce numeri xi
nell’intervallo (0,M), M numero intero che indica la lunghezza massima del ciclo di
generazione, raggiunta la quale la sequenza si ripete. Dividendo tali numeri per M si
ottengono numeri compresi nell’intervallo (0,1), che si possono mettere in relazione quindi
con la v.a. Y ~ U (0,1) .
Dovremo identificare un generatore di numeri adatto alla v.a. (discreta o continua) XF(x).
Si individua allora un metodo ricorsivo della forma
xi  (axi 1  b) mod m
(due numeri sono congrui modulo m se la loro differenza è un multiplo di m).
Dove x1 è il seme, mentre a,b,xi sono scelti in modo da generare numeri uniformi in
(0,1,…,m-1), ossia ogni intero in questo intervallo è ugualmente probabile e ogni valore è
indipendente dai precedenti.
I numeri così ottenuti devono ora essere trasformati in valori per la v.a. XF(x).
Una tecnica si basa sulla funzione inversa della funzione di ripartizione.
Data la v.a. X con funzione di ripartizione F(x) crescente da 0 a 1, se F(x) risulta essere
continua esisterà una funzione inversa tale che
F 1 (Y )  F 1 ( F ( X ))  X  F ( X ) .
Data allora una v.a. esponenziale negativa XEn() di funzione densità
per x  0
 exp( x)
f ( x)  
0
per
x0

di funzione di ripartizione
F ( x)  1  exp( x) (per x  0)
la sua inversa sarà
F 1 ( y ) 
 ln( 1  y )

Infatti sostituendo in y la F(x) si ha:
 ln( 1  1  exp( x))


 ln(exp( x))
essendo la funzione
ln( e x )  x, e ln(x )  x .

logaritmo
x
funzione
inversa
della
funzione
esponenziale:
Allora dati n numeri pseudo casuali y1 , y2 ,..., yn generati da una variabile uniforme
YU(0,1), possiamo usarli per ottenere la sequenza a sua volta pseudo casuale
x1 
x2 
 ln( 1  y1 )

 ln( 1  y 2 )

.....
xn 
 ln( 1  y n )

della v.a. X .
APPLICAZIONE DEL METODO MONTE CARLO ALLA STIMA PROBABILISTICA
Supponiamo di dover calcolare l’integrale
1
I   g (w)dw
0
che rappresenta il valor medio della v.a. g(W) dove W~U(0,1).
Per la legge dei grandi numeri, la successione
I
converge in probabilità ad I, ossia
1 n
 g (Wi )
n i 1
In  I .
p
Per cui possiamo sostituire all’integrale vero I una media In calcolata su un certo numero
di campioni wi.
Il metodo Monte Carlo grezzo permette di ottenere il valore dell’integrale attraverso un
campione ottenuto mediante sequenza di numeri pseudo casuali uniformi wi. Si calcolano
poi le funzioni corrispondenti g(wi) e se ne ottiene la media aritmetica.
Il metodo Monte Carlo Hit or Miss permette invece di calcolare l’integrale come area
sottesa a g(x). Allo stesso modo sarà possibile calcolare qualsiasi tipo di area .
Lo schema del ragionamento è il seguente.
Delimitiamo l’area da valutare con un quadrato di lato noto. Si genera una serie di X
numeri pseudo casuali. N di questi verranno messi in corrispondenza con punti non
posizionati nell’area da valutare, X-N con punti posizionati nell’area da valutare:
superficie quadrato noto
X

superficie area da valutare
X N
Se la quantità di numeri pseudo-casuali è sufficientemente alta, si avrà il valore della
superficie dell’area con
superficie area da valutare 
(X - N)  superficie quadrato noto
X