STIMATORI, STIME E INTERVALLI DI CONFIDENZA ovvero STIME PUNTUALI E STIME PER INTERVALLO Stime puntuali Supponiamo di avere l’ormai consueto macchinario che produce viti. Le specifiche tecniche dichiarano che la lunghezza dei pezzi prodotti si distribuisce secondo una gaussiana di media µ e varianza σ 2 . Supponiamo inoltre di essere particolarmente diffidenti e di voler quindi controllare se le dichiarazioni in merito alla lunghezza media corrispondono a verità oppure no. Come possiamo impostare una verifica? Intuitivamente chiunque sarà portato a estrarre una vite dalla linea produttiva per misurarne la lunghezza e confrontare l’esito della misura con la media µ dichiarata dal produttore. Naturalmente non arriveremo a capo di nulla in quanto, detta X la v.a. che misura la lunghezza della vite, avremo sempre P( X = µ ) = 0 cioè la probabilità che l’esito della nostra misura coincida proprio col valore dichiarato dalle specifiche è inesorabilmente pari a zero essendo la gaussiana continua. Qualcuno potrebbe suggerire di misurare un congruo numero di viti generando quindi un campione di ampiezza n . Ma che ce ne facciamo poi di questo campione? Prima dobbiamo capire come procedere! Dobbiamo sottoporre a verifica un numero (la media della distribuzione teorica) quindi ci serve un numero per fare un confronto. Detto in modo rigoroso dobbiamo stimare un parametro della distribuzione sfruttando i dati campionati. Come prima cosa dobbiamo scegliere la formula di calcolo che, a partire dai dati campionati, ci fornisca un numero atto a stimare statisticamente il parametro della distribuzione. In questo ambito “stimare statisticamente” significa (cfr. Cicchitelli pag. 225) “attribuire un valore plausibile ad una grandezza non misurabile esattamente”. Nel nostro caso, ad esempio, il numero in questione potrebbe essere la media campionaria ma nessuno ci vieta utilizzare la mediana oppure, perchè no, il valore centrale del campione ovvero la media aritmetica dei due valori minimo e massimo. Le possibilità, nel caso specifico della media, sono molteplici e di facile individuazione. La teoria, comunque, ci viene in aiuto sia per individuare una formula di calcolo sia per stabilire, in caso si abbiano a disposizione più formule, quale sia la formula migliore. Pertanto abbandoniamo temporaneamente l’esempio e dedichiamoci ad un po’ di teoria. Abbiamo già visto che ad ogni osservazione xi è associata una v.a. X i e ad un campione { xi } un’intera famiglia { X i } di v.a. i.i. d. Allo stesso modo ad ogni numero funzione delle osservazioni del campione t = f ( x1 ,K , xn ) è associata una v.a. funzione della famiglia di v.a. T = f ( X 1, K , X n ) . Tale funzione viene detta statistica (o statistica campionaria) a patto che non dipenda dai parametri incogniti della distribuzione della famiglia. Se la statistica T viene utilizzata per stimare un parametro ϑ allora viene detta stimatore e una qualsiasi sua determinazione t viene detta stima. Vi sono vari metodi per l’individuazione di stimatori che forniscano risultati plausibili. Uno di questi è il metodo dei momenti (cfr. Cicchitelli pag. 244). Ad esempio dovendo ricavare uno stimatore per la media della popolazione il metodo dei momenti ci fornisce come stimatore proprio la media campionaria ovvero T = X n Uno stimatore, in quanto variabile aleatoria, ha la sua distribuzione e, naturalmente, ha pure media e varianza. E’ più che lecito pretendere da uno stimatore di un parametro che la sua media coincida col valore del parametro (o tenda ad esso al crescere di n) Se così è, ovvero se ET = θ , lo stimatore verrà detto corretto (oppure asintoticamente corretto se limET = ϑ ). n→∞ Inoltre, affinchè le sue osservazioni siano attendibili, è indispensabile che la varianza dello stimatore sia “contenuta”. Diremo che uno stimatore corretto è anche consistente se la sua varianza tende a zero al crescere di n. Infine se siamo in possesso di due stimatori corretti del medesimo parametro verrà considerato più efficiente quello con la varianza più piccola. Ad esempio la v.a. media campionaria è uno stimatore della media µ sia corretto σ2 (infatti E X n = µ ) che consistente (infatti Var X n = → 0 per n → ∞ ). n Stime per intervallo Torniamo al nostro esempio. Abbiamo appreso come trattare il campione per ricavare una stima della media e quindi abbiamo calcolato la media campionaria xn = 1 n ∑x . n i =1 i Ma se dovessimo ripetere l’operazione dall’inizio estraendo un nuovo campione dalla 1 n linea produttiva otterremmo un nuovo e diverso valore y n = ∑ y i come media n i=1 campionaria. Questo perchè, come abbiamo già detto, la media campionaria xn è solo una delle possibili determinazioni della v.a. media campionaria X n e anche in questo caso la probabilità che il valore campionato coincida proprio con la media µ è nulla perchè la v.a. media campionaria, per il Teorema Centrale del Limite, al crescere di n tende a distribuirsi intorno alla media µ come una gaussiana indipendentemente dal modello della popolazione (cfr. Cicchitelli pag. 163). Proprio questo fatto (cioè che la v.a. media campionaria si comporta come una gaussiana) da un lato ci lega le mani impedendoci di “azzeccare” la media µ con la media campionaria xn ma dall’altro ci consente di associare ad un intervallo centrato nella media la probabilità che un’osservazione della media campionaria cada proprio in quell’intervallo attraverso la relazione ( ) P Xn − µ <E =α (1) In altre parole applicando la (1) (che siamo in grado di calcolare con le tavole perchè, ripetiamo, X n tende a comportarsi come una gaussiana) possiamo fissare la semiampiezza E dell’intervallo e trovare la probabilità α che xn sia vicino a µ per meno di E oppure, viceversa, possiamo fissare la probabilità α e trovare la semiampiezza E dell’intervallo centrato in xn che potrà contenere il valore vero della media proprio con probabilità α (cfr. Cicchitelli pag.265 e dintorni). Posto che la probabilità in (1) è un integrale definito e che quest’ultimo non è altro che l’area di una superficie determinata dalla funzione di densità possiamo riassumere la precedente affermazione dicendo che, tramite la (1), nota l’area α possiamo ricavare l’ampiezza 2E della base o, viceversa, nota la base possiamo ricavare l’area. Osserviamo che per simmetria del problema affermare che un intorno della media µ di raggio E può contenere xn con probabilità α è equivalente ad affermare che un intorno della media campionaria xn può contenere µ con probabilità α e poichè nel nostro problema xn è un dato e l’incognita è µ useremo sempre la seconda espressione e scriveremo µ ∈ ( xn − E, xn + E ) e mai il contrario. Ciò è ovvio se ricordiamo che stiamo cercando di trovare un intervallo che racchiuda la media da stimare con un certo livello di probabilità e non il contrario. L’intervallo centrato nella media campionaria viene chiamato intervallo di confidenza (o intervallo fiduciario) e i suoi estremi vengono detti limiti fiduciari. La probabilità α che la media sia contenuta in tale intervallo viene detta livello di confidenza (o coefficiente fiduciario). Attenzione a non abbinare mnemonicamente questo concetto alla lettera greca utilizzata per rappresentarlo. Il coefficiente fiduciario è sempre la probabilità associata all’intervallo di confidenza qualunque sia la lettera utilizzata. Qualche autore (cfr. Cicchitelli pag. 267) ha scelto di indicare con α la probabilità associata alla regione esterna all’intervallo di confidenza e pertanto secondo questi autori il coefficiente fiduciario sarà (1 − α ) . Se la marca delle vostre sigarette è Alfa non vuol dire che vi state fumando un coefficiente fiduciario... Perchè soffermarsi così a lungo su questo fatto? perché quando affrontate il problema diretto (cioè la ricerca della semiampiezza noto il coefficiente fiduciario) dovete calcolare un quantile il cui livello dipende dal coefficiente fiduciario e se avete studiato a memoria la formula su un testo che chiama il coefficiente fiduciario in un modo ma l’esercizio che state risolvendo ha chiamato il coefficiente fiduciario nell’altro, l’applicazione pedestre della formula vi porta inesorabilmente ad un risultato errato! Studente avvisato, mezzo promosso...