6) LA STIMA 1 Stima del valore dei parametri ignoti che caratterizzano la leggi delle v.c. assunte ad interpreti dei fenomeni oggetto d’attenzione. 2 Verifica di ipotesi , ovvero dell’idoneità o meno delle leggi scelte come modelli interpretativi dei fenomeni medesimi nell’intento di dominare il meccanismo che presiede alle loro manifestazioni. Cioè (1): si supponga che un certo fenomeno X possa trovare la sua corretta interpretazione con una v.c. X Binomiale, vale a dire con una v.c. avente legge dalla forma funzionale: n x n x f x 1 x essendo, per conoscenze già acquisite dal lettore, x =0,1,2,… e q>0 la media della v.c. medesima. Il valore del parametro q deve essere stimato ricorrendo a qualche conveniente procedura. Si ottengano quindi n manifestazioni casuali del fenomeno x1, …, xn, cioè un campione della v.c. X. Ora: come dagli n valori xi può ricavarsi un valore capace di interpretare q? Si potrebbe (essendo q la media della v.c. interprete di X) stimare il parametro in questione calcolando la media: 1 n x xi n i1 degli n valori campionari. Tuttavia, essendone q anche la varianza (trattandosi di una v.c. di Poisson), si potrebbe porre: 1 n 2 s x i x n i1 2 Il problema di quale dei due valori campionari debba essere preferito ai fini della stima di q rimane per ora aperto. Ora: il fenomeno X viene ritenuto interpretabile con una v.c. Binomiale che come tale ha legge: n x n x f x 1 x ma, ai fini della stima di q, ciò che si possiede in concreto sono solo gli n valori campionari x1,…,xn che rappresentano gli unici elementi che, seppur in modo non palese, contengono informazioni a proposito di q. Sorge pertanto la domanda: la sintesi contiene ancora tutte le informazioni x n-upla suddetta o la sintesi ha presenti nella prodotto una perdita parziale o totale delle informazioni medesime? È chiaro che se perdita c’è stata la sintesi , quale interprete dell’ignoto q, ha scarso x valore e potrebbe non maritare considerazione. A tale proposito, sia E un evento che può verificarsi con probabilità q ignota (0<q<1). Per stimarla si sono effettuate n=4 prove bernoulliane nelle quali E si è verificato f=3 volte. Così stando le cose sembra naturale assumere quale stima di q la frequenza relativa: 3 p 0.75 4 Supponendo tuttavia di eseguire altre 4 prove, il risultato potrebbe essere diverso. Potrebbe essere ad esempio f’=1 e in tal caso la stima di q sarebbe: 1 p' 0.25 4 Che credito dare alla prima stima, e che credito dare alla seconda? Per ottenere una soluzione al problema si seguirà il cosiddetto approccio “fisheriano” (da R.A.Fisher). Secondo tale scuola, nei problemi di stima non deve farsi riferimento in modo esclusivo al valore calcolato sulla base dei risultati che formano il campione osservato, ma il riferimento va soprattutto rivolto alla variabile casuale di cui il valore medesimo è una determinazione. Nel caso dell’esempio precedente, non deve tanto badarsi al valore p=f/n = ¾ ottenuto con le n=4 prove casuali nei riguardi dell’evento E, ma alle proprietà della v.c.: F p n descritta dalla frequenza relativa f/n al variare del campione, v.c. che può assumere le determinazioni: 0 1 2 3 4 0 , , , , 1 4 4 4 4 4 in relazione al fatto che nelle n=4 prove l’evento E, per effetto del caso, può verificarsi 0, 1, 2, 3, 4 volte. Quali garanzie offre allora la v.c. medesima? “correttezza” “consistenza” “efficienza” Introduciamo prima il concetto di “statistica”. Sia X la v.c. di Bernoulli associata ad un esperimento casuale riguardante un evento E, che può assumere i valori 1 e 0 secondo che E si verifichi con probabilità ignote q e (1-q), (0<q<1). Effettuando n=3 prove indipendenti, i possibili esiti delle stesse sono: (0,0,0) (0,0,1) (0,1,0) (1,0,0) (0,1,1) (1,0,1) (1,1,0) (1,1,1) che costituiscono le determinazioni della v.c. (X1,X2,X3), dove X1,X2,X3 sono le v.c. di Bernoulli che descrivono il risultato delle prove, mentre le probabilità associate alle terne suddette sono nell’ordine: (1-q)3 (1-q)2q (1-q)q(1-q) q(1-q)2 (1-q)q2 q(1-q)q q2(1-q) q3 La v.c. (X1,X2,X3), che descrive i risultati delle n=3 prove nei riguardi dell’evento E, è chiamata “statistica”. Un’altra statistica è la v.c. Y X i che descrive il “numero” delle voltei1in cui E può verificarsi nelle n=3 prove e che può assumere le determinazioni: 3 0, 1, 2, 3 con probabilità: (1-q)3 3q(1-q)2 q3 3q2(1-q) e statistica è anche la v.c. U funzione di Y: U=3Y che assume i valori: 0 restando (3 0) le 0 probabilità: (3 0) 0 (3 0) ferme (1-q)3 3q(1-q)2 3q2(1-q) 0 (3 0) q3 Pertanto (definizione): Per “statistica” si intende una v.c. T=f(X1,…,Xn) funzione della v.c. (X1,…,Xn) “descritta” dalla n-upla campionaria (x1,…,xn), dove f non dipende dal parametro q elemento dello “spazio parametrico” Q formato dai possibili valori che può assumere il parametro medesimo. Ovviamente è una statistica la stessa n-upla (X1,…,Xn). Dev’essere precisato che con la locuzione: “la v.c. (X1,…,Xn) descritta dalla n-upla (x1,…,xn)” vuole intendersi la v.c. le cui possibili determinazioni sono tutte le distinte n-uple campionarie che possono ottenersi con n prove indipendenti nella v.c. X con legge j(x;q).