σ . ) 0 PX µ iid

STIMATORI, STIME E INTERVALLI DI CONFIDENZA
ovvero
STIME PUNTUALI E STIME PER INTERVALLO
Stime puntuali
Supponiamo di avere l’ormai consueto macchinario che produce viti. Le specifiche
tecniche dichiarano che la lunghezza dei pezzi prodotti si distribuisce secondo una
gaussiana di media µ e varianza σ 2 .
Supponiamo inoltre di essere particolarmente diffidenti e di voler quindi controllare se
le dichiarazioni in merito alla lunghezza media corrispondono a verità oppure no.
Come possiamo impostare una verifica?
Intuitivamente chiunque sarà portato a estrarre una vite dalla linea produttiva per
misurarne la lunghezza e confrontare l’esito della misura con la media µ dichiarata dal
produttore. Naturalmente non arriveremo a capo di nulla in quanto, detta X la v.a. che
misura la lunghezza della vite, avremo sempre P( X = µ ) = 0 cioè la probabilità che
l’esito della nostra misura coincida proprio col valore dichiarato dalle specifiche è
inesorabilmente pari a zero essendo la gaussiana continua.
Qualcuno potrebbe suggerire di misurare un congruo numero di viti generando quindi
un campione di ampiezza n . Ma che ce ne facciamo poi di questo campione?
Prima dobbiamo capire come procedere!
Dobbiamo sottoporre a verifica un numero (la media della distribuzione teorica) quindi
ci serve un numero per fare un confronto.
Detto in modo rigoroso dobbiamo stimare un parametro della distribuzione sfruttando i
dati campionati.
Come prima cosa dobbiamo scegliere la formula di calcolo che, a partire dai dati
campionati, ci fornisca un numero atto a stimare statisticamente il parametro della
distribuzione.
In questo ambito “stimare statisticamente” significa (cfr. Cicchitelli pag. 225) “attribuire
un valore plausibile ad una grandezza non misurabile esattamente”.
Nel nostro caso, ad esempio, il numero in questione potrebbe essere la media
campionaria ma nessuno ci vieta utilizzare la mediana oppure, perchè no, il valore
centrale del campione ovvero la media aritmetica dei due valori minimo e massimo.
Le possibilità, nel caso specifico della media, sono molteplici e di facile individuazione.
La teoria, comunque, ci viene in aiuto sia per individuare una formula di calcolo sia per
stabilire, in caso si abbiano a disposizione più formule, quale sia la formula migliore.
Pertanto abbandoniamo temporaneamente l’esempio e dedichiamoci ad un po’ di teoria.
Abbiamo già visto che ad ogni osservazione xi è associata una v.a. X i e ad un
campione { xi } un’intera famiglia
{ X i } di v.a. i.i. d.
Allo stesso modo ad ogni numero funzione delle osservazioni del campione
t = f ( x1 ,K , xn ) è associata una v.a. funzione della famiglia di v.a.
T = f ( X 1, K , X n ) . Tale funzione viene detta statistica (o statistica campionaria) a
patto che non dipenda dai parametri incogniti della distribuzione della famiglia.
Se la statistica T viene utilizzata per stimare un parametro ϑ allora viene detta
stimatore e una qualsiasi sua determinazione t viene detta stima.
Vi sono vari metodi per l’individuazione di stimatori che forniscano risultati plausibili.
Uno di questi è il metodo dei momenti (cfr. Cicchitelli pag. 244).
Ad esempio dovendo ricavare uno stimatore per la media della popolazione il metodo
dei momenti ci fornisce come stimatore proprio la media campionaria ovvero T = X n
Uno stimatore, in quanto variabile aleatoria, ha la sua distribuzione e, naturalmente, ha
pure media e varianza.
E’ più che lecito pretendere da uno stimatore di un parametro che la sua media coincida
col valore del parametro (o tenda ad esso al crescere di n)
Se così è, ovvero se ET = θ , lo stimatore verrà detto corretto (oppure asintoticamente
corretto se limET = ϑ ).
n→∞
Inoltre, affinchè le sue osservazioni siano attendibili, è indispensabile che la varianza
dello stimatore sia “contenuta”. Diremo che uno stimatore corretto è anche consistente
se la sua varianza tende a zero al crescere di n.
Infine se siamo in possesso di due stimatori corretti del medesimo parametro verrà
considerato più efficiente quello con la varianza più piccola.
Ad esempio la v.a. media campionaria è uno stimatore della media µ sia corretto
σ2
(infatti E X n = µ ) che consistente (infatti Var X n =
→ 0 per n → ∞ ).
n
Stime per intervallo
Torniamo al nostro esempio. Abbiamo appreso come trattare il campione per ricavare
una stima della media e quindi abbiamo calcolato la media campionaria xn =
1 n
∑x .
n i =1 i
Ma se dovessimo ripetere l’operazione dall’inizio estraendo un nuovo campione dalla
1 n
linea produttiva otterremmo un nuovo e diverso valore y n = ∑ y i come media
n i=1
campionaria. Questo perchè, come abbiamo già detto, la media campionaria xn è solo
una delle possibili determinazioni della v.a. media campionaria X n e anche in questo
caso la probabilità che il valore campionato coincida proprio con la media µ è nulla
perchè la v.a. media campionaria, per il Teorema Centrale del Limite, al crescere di n
tende a distribuirsi intorno alla media µ come una gaussiana indipendentemente dal
modello della popolazione (cfr. Cicchitelli pag. 163).
Proprio questo fatto (cioè che la v.a. media campionaria si comporta come una
gaussiana) da un lato ci lega le mani impedendoci di “azzeccare” la media µ con la
media campionaria xn ma dall’altro ci consente di associare ad un intervallo centrato
nella media la probabilità che un’osservazione della media campionaria cada proprio in
quell’intervallo attraverso la relazione
(
)
P Xn − µ <E =α
(1)
In altre parole applicando la (1) (che siamo in grado di calcolare con le tavole perchè,
ripetiamo, X n tende a comportarsi come una gaussiana) possiamo fissare la
semiampiezza E dell’intervallo e trovare la probabilità α che xn sia vicino a µ per
meno di E oppure, viceversa, possiamo fissare la probabilità α e trovare la
semiampiezza E dell’intervallo centrato in xn che potrà contenere il valore vero della
media proprio con probabilità α (cfr. Cicchitelli pag.265 e dintorni).
Posto che la probabilità in (1) è un integrale definito e che quest’ultimo non è altro che
l’area di una superficie determinata dalla funzione di densità possiamo riassumere la
precedente affermazione dicendo che, tramite la (1), nota l’area α possiamo ricavare
l’ampiezza 2E della base o, viceversa, nota la base possiamo ricavare l’area.
Osserviamo che per simmetria del problema affermare che un intorno della media µ di
raggio E può contenere xn con probabilità α è equivalente ad affermare che un
intorno della media campionaria xn può contenere µ con probabilità α e poichè nel
nostro problema xn è un dato e l’incognita è µ useremo sempre la seconda espressione
e scriveremo µ ∈ ( xn − E, xn + E ) e mai il contrario. Ciò è ovvio se ricordiamo che
stiamo cercando di trovare un intervallo che racchiuda la media da stimare con un certo
livello di probabilità e non il contrario.
L’intervallo centrato nella media campionaria viene chiamato intervallo di confidenza
(o intervallo fiduciario) e i suoi estremi vengono detti limiti fiduciari. La probabilità α
che la media sia contenuta in tale intervallo viene detta livello di confidenza (o
coefficiente fiduciario).
Attenzione a non abbinare mnemonicamente questo concetto alla lettera greca utilizzata
per rappresentarlo. Il coefficiente fiduciario è sempre la probabilità associata
all’intervallo di confidenza qualunque sia la lettera utilizzata. Qualche autore (cfr.
Cicchitelli pag. 267) ha scelto di indicare con α la probabilità associata alla regione
esterna all’intervallo di confidenza e pertanto secondo questi autori il coefficiente
fiduciario sarà (1 − α ) .
Se la marca delle vostre sigarette è Alfa non vuol dire che vi state fumando un
coefficiente fiduciario...
Perchè soffermarsi così a lungo su questo fatto? perché quando affrontate il problema
diretto (cioè la ricerca della semiampiezza noto il coefficiente fiduciario) dovete
calcolare un quantile il cui livello dipende dal coefficiente fiduciario e se avete studiato
a memoria la formula su un testo che chiama il coefficiente fiduciario in un modo ma
l’esercizio che state risolvendo ha chiamato il coefficiente fiduciario nell’altro,
l’applicazione pedestre della formula vi porta inesorabilmente ad un risultato errato!
Studente avvisato, mezzo promosso...