6_lastima - statistica@unimib

annuncio pubblicitario
6) LA STIMA
1
Stima del valore dei parametri ignoti che
caratterizzano la leggi delle v.c. assunte ad
interpreti dei fenomeni oggetto d’attenzione.
2 Verifica di ipotesi , ovvero dell’idoneità o
meno delle leggi scelte come modelli
interpretativi dei fenomeni medesimi
nell’intento di dominare il meccanismo che
presiede alle loro manifestazioni.
Cioè (1): si supponga che un certo fenomeno X
possa trovare la sua corretta interpretazione con
una v.c. X Binomiale, vale a dire con una v.c.
avente legge dalla forma funzionale:
 n x
n x
f  x        1   
 x
essendo, per conoscenze già acquisite dal
lettore, x =0,1,2,… e q>0 la media della v.c.
medesima.
Il valore del parametro q deve essere stimato
ricorrendo a qualche conveniente procedura.
Si ottengano quindi n manifestazioni casuali
del fenomeno x1, …, xn, cioè un campione
della v.c. X.
Ora: come dagli n valori xi può ricavarsi un
valore capace di interpretare q?
Si potrebbe (essendo q la media della v.c.
interprete di X) stimare il parametro in
questione calcolando la media:
1 n
x   xi
n i1
degli n valori campionari.
Tuttavia, essendone q anche la varianza
(trattandosi di una v.c. di Poisson), si potrebbe
porre:
1 n
2
s   x i  x 
n i1
2
Il problema di quale dei due valori campionari
debba essere preferito ai fini della stima di q
rimane per ora aperto.
Ora: il fenomeno X viene ritenuto interpretabile
con una v.c. Binomiale che come tale ha legge:
 n x
n x
f  x        1   
 x
ma, ai fini della stima di q, ciò che si possiede in
concreto sono solo gli n valori campionari x1,…,xn
che rappresentano gli unici elementi che, seppur
in modo non palese, contengono informazioni a
proposito di q. Sorge pertanto la domanda: la
sintesi
contiene ancora tutte le informazioni
x n-upla suddetta o la sintesi ha
presenti nella
prodotto una perdita parziale o totale delle
informazioni medesime? È chiaro che se perdita
c’è stata la sintesi
, quale interprete
dell’ignoto q, ha scarso
x valore e potrebbe non
maritare considerazione.
A tale proposito, sia E un evento che può
verificarsi con probabilità q ignota (0<q<1). Per
stimarla si sono effettuate n=4 prove bernoulliane
nelle quali E si è verificato f=3 volte.
Così stando le cose sembra naturale assumere
quale stima di q la frequenza relativa:
3
p   0.75
4
Supponendo tuttavia di eseguire altre 4 prove, il
risultato potrebbe essere diverso. Potrebbe essere
ad esempio f’=1 e in tal caso la stima di q
sarebbe:
1
p'   0.25
4
Che credito dare alla prima stima, e che credito
dare alla seconda? Per ottenere una soluzione
al problema si seguirà il cosiddetto approccio
“fisheriano” (da R.A.Fisher). Secondo tale
scuola, nei problemi di stima non deve farsi
riferimento in modo esclusivo al valore
calcolato sulla base dei risultati che formano il
campione osservato, ma il riferimento va
soprattutto rivolto alla variabile casuale di cui
il valore medesimo è una determinazione.
Nel caso dell’esempio precedente, non deve
tanto badarsi al valore p=f/n = ¾ ottenuto con le
n=4 prove casuali nei riguardi dell’evento E, ma
alle proprietà della v.c.:
F
p
n
descritta dalla frequenza relativa f/n al variare
del campione, v.c. che può assumere le
determinazioni:
0 1 2 3 4
0  , , , , 1
4 4 4 4 4
in relazione al fatto che nelle n=4 prove l’evento
E, per effetto del caso, può verificarsi 0, 1, 2, 3,
4 volte.
Quali garanzie offre allora la v.c. medesima?
“correttezza”
“consistenza”
“efficienza”
Introduciamo prima il concetto di “statistica”.
Sia X la v.c. di Bernoulli associata ad un
esperimento casuale riguardante un evento E,
che può assumere i valori 1 e 0 secondo che E si
verifichi con probabilità ignote q e (1-q),
(0<q<1).
Effettuando n=3 prove indipendenti, i possibili
esiti delle stesse sono:
(0,0,0)
(0,0,1)
(0,1,0)
(1,0,0)
(0,1,1)
(1,0,1)
(1,1,0)
(1,1,1)
che costituiscono le determinazioni della v.c.
(X1,X2,X3), dove X1,X2,X3 sono le v.c. di
Bernoulli che descrivono il risultato delle prove,
mentre le probabilità associate alle terne
suddette sono nell’ordine:
(1-q)3
(1-q)2q (1-q)q(1-q) q(1-q)2
(1-q)q2
q(1-q)q
q2(1-q)
q3
La v.c. (X1,X2,X3), che descrive i risultati delle
n=3 prove nei riguardi dell’evento E, è chiamata
“statistica”.
Un’altra statistica è la v.c. Y   X i che
descrive il “numero” delle voltei1in cui E può
verificarsi nelle n=3 prove e che può assumere le
determinazioni:
3
0,
1,
2,
3
con probabilità:
(1-q)3
3q(1-q)2
q3
3q2(1-q)
e statistica è anche la v.c. U funzione di
Y: U=3Y che assume i valori:
0 restando
(3  0) le
0 probabilità:
(3  0) 0  (3  0)
ferme
(1-q)3
3q(1-q)2
3q2(1-q)
0  (3  0)
q3
Pertanto (definizione):
Per “statistica” si intende una v.c.
T=f(X1,…,Xn) funzione della v.c. (X1,…,Xn)
“descritta” dalla
n-upla campionaria
(x1,…,xn), dove f non dipende dal parametro q
elemento dello “spazio parametrico”
Q
formato dai possibili valori che può assumere
il parametro medesimo. Ovviamente è una
statistica la stessa n-upla (X1,…,Xn).
Dev’essere precisato che con la locuzione: “la
v.c. (X1,…,Xn) descritta dalla
n-upla
(x1,…,xn)” vuole intendersi la v.c. le cui
possibili determinazioni sono tutte le distinte
n-uple campionarie che possono ottenersi con
n prove indipendenti nella v.c. X con legge
j(x;q).
Scarica