S.S.I.S TOSCANA F.I.M. -II anno STATISTICA INDUTTIVA: STIMA DI

S.S.I.S TOSCANA
F.I.M. -II anno
STATISTICA INDUTTIVA: STIMA DI PARAMETRI
STIMA PUNTUALE
PROBLEMA 1
Vogliamo valutare la percentuale p di donne fumatrici tra le donne in età
fertile.
Procediamo all’estrazione di un campione casuale semplice dalla
popolazione di riferimento
Come possiamo utilizzare un preciso campione di ampiezza n, che ha
dato h risposte affermative alla domanda: “fumi più di un certo numero
stabilito di sigarette, in media, al giorno?”, per valutare o, più
precisamente, stimare p?
Se attribuissimo a p il valore p* =h/n, questo valore sarebbe una “buona”
stima di p?
Quando pensiamo di attribuire a p il valore p*, in realtà stiamo
interpretando il dato campionario secondo un preciso modello
probabilistico. Stiamo pensando ogni unità statistica del campione come
una variabile aleatoria di Bernoulli che vale 1 con probabilità p e 0 con
probabilità 1-p. Il risultato campionario, che rappresenta la frequenza
relativa delle donne fumatrici nel campione, (x1 + x2 +…+xn)/n = h/n è
interpretato come la v.a. (X1 + X2 +…+Xn)/n, dove ciascuna v.a. Xi è una
variabile di Bernoulli di parametro p ed ogni variabile è indipendente
dalle altre. Il valor medio di questa variabile aleatoria è E((X1 + X2
+…+Xn)/n) = p , la sua varianza è V((X1 + X2 +…+Xn)/n) = p(1-p)/n.
Quindi la media campionaria ci fornirà in media il valore “vero” di p, ed
inoltre si osserva che la varianza intorno a tale valor medio diminuisce
al crescere dell’ampiezza campionaria n.
Si potrebbe osservare che il modello probabilistico adottato è binomiale,
la variabile X1 + X2 +…+Xn è distribuita secondo una binomiale di
parametri p ed n , che potrebbe sembrare poco idoneo ad un
campionamento casuale, in cui non si penserebbe mai di sorteggiare con
rimessa, ma piuttosto senza rimessa e quindi secondo un modello
ipergeometrico. D’altra parte la popolazione da cui effettuare il
campionamento è pensata talmente grande da ritenere praticamente nulla
la probabilità di sorteggiare più di una volta uno stesso individuo e quindi
di poter ragionevolmente adottare un modello binomiale.
ALCUNE OSSERVAZIONI E DEFINIZIONI
Il campione è interpretato secondo un preciso modello probabilistico che
lo vede come una variabile aleatoria vettoriale, la cui legge congiunta può
dipendere da uno o più parametri. Nella maggior parte dei casi, la
variabile aleatoria vettoriale è pensata composta da variabili aleatorie
indipendenti tra loro e quindi la legge congiunta è prodotto delle leggi
marginali delle singole variabili aleatorie. Del resto, il campionamento
casuale comporta una indipendenza di risultato tra le varie unità
statistiche del campione.
Abbiamo già detto che una statistica è, in senso tecnico, una quantità
numerica calcolata a partire dal campione, quindi possiamo dire che una
statistica è una funzione delle osservazioni campionarie.
Una statistica utilizzata per ricavare stime di un parametro θ (da cui la
legge congiunta della variabile aleatoria, che interpreta il campione
secondo un preciso modello probabilistico, dipende) si dice uno
stimatore di θ. Una statistica ed, in particolare, uno stimatore, sono
quindi variabili aleatorie.
DEFINIZIONE 1 Uno stimatore θ* di un parametro incognito θ si dice
corretto o non distorto se il suo valore medio coincide con il parametro
stesso: E(θ*) = θ
DEFINIZIONE 2 Se abbiamo due stimatori θ 1 e θ2 non distorti dello
stesso parametro θ si dice che θ1 è più efficiente di θ2 se la varianza di θ1
è minore di quella di θ2.
DEFINIZIONE 3 Si dice che θ* è uno stimatore consistente di θ se,
all’aumentare della dimensione del campione, la probabilità che θ* si
discosti da θ tende ad essere nulla. Vale a dire
∀ε>0 lim P(|θn* - θ|< ε) = 1
dove con θn* si è indicato lo stimatore e la sua dipendenza dalla
dimensione n del campione.
PROBLEMA 2-A ERRORI DI MISURA
Supponiamo di effettuare delle prove di laboratorio in cui vengono
rilevate n misure di una grandezza incognita, nelle stesse condizioni e
indipendentemente l’una dall’altra, con uno strumento di misurazione la
cui precisione è nota.
E’ noto che la curva sperimentale delle misure è ben rappresentata da
una densità gaussiana di varianza σ2 nota (perché dipendente dalla
precisione dello strumento di misurazione) e di media µ incognita (in
quanto esprime il valore medio della grandezza incognita).
Sia x la generica misura effettuata, essa viene dunque interpretata come


 (x-µ)2
1
una v.a. X di densità f(x) =
exp−

2πσ
 2σ2 
Le n misure effettuate sono interpretate come una v.a. vettoriale di
densità congiunta data dal prodotto delle densità marginali, essendo le
variabili indipendenti:
 Σ (x −µ)2
 1 n
i i

 exp−
f(x1 , x2 , ...., xn ) = 
2



2πσ
2σ
Come stimatore del parametro µ possiamo usare la media campionaria
µ*= Σ1xi/n
Si ha E(µ*) = µ , quindi lo stimatore è non distorto, e V(µ*) = σ2/n da cui
si ottiene che lo stimatore è consistente.
Il procedimento per cui si usa come stimatore di un parametro incognito
la funzione analoga calcolata sul campione si dice METODO DEI
MOMENTI
ALTRO
METODO:
STIMATORI
DI
MASSIMA
VEROSIMIGLIANZA
Funzione di verosimiglianza: la funzione del parametro che, nel modello
probabilistico adottato, fornisce il valore di probabilità da attribuire al
risultato osservato.
Si sceglie come valore di stima del parametro quello in corrispondenza
del quale tale probabilità è massima, vale a dire, quello in
corrispondenza del quale il risultato ottenuto è più verosimile.
PROBLEMA 2-B
µ NOTA
ERRORI DI MISURA CON σ2 INCOGNITA e
Effettuiamo n misure indipendenti di una grandezza nota con uno
strumento di misura di precisione incognita, ai fini di valutare appunto la
precisione dello strumento. Abbiamo ancora una distribuzione gaussiana
di cui, però, stavolta è nota la media ed incognita la varianza.
Procedendo con il metodo dei momenti (ma anche con il metodo di
massima verosimiglianza si otterrebbe, in questo caso, lo stesso
stimatore) si adotta come stimatore di σ2 lo stimatore s2 = Σ i(xi -µ)2/n ,
vale a dire la varianza campionaria.
Si può dimostrare che lo stimatore è non distorto e consistente.
PROBLEMA 2-C ERRORI DI MISURA CON σ 2 INCOGNITA e
µ INCOGNITA
Effettuiamo n misure indipendenti di una grandezza incognita con uno
strumento di misura di cui non è nota la precisione. Abbiamo ancora una
distribuzione gaussiana di cui, però, non è nota né la media né la
varianza.
Per stimare µ adottiamo, come nel problema 2-A, come stimatore la
media campionaria
µ*= Σ1xi/n
Se per stimare σ 2 adottassimo, come nel problema 2-B, la varianza
campionaria, lo stimatore s2 = Σ i(xi -µ∗)2/n risulterebbe consistente, ma
distorto.
Dimostriamo che lo stimatore è distorto.
Utilizziamo la relazione E(X2) = µ2 + σ2 , si ha
s2 = Σi(xi -µ∗)2/n = Σi(xi)2/n – (µ∗)2 , quindi
E(s2 ) = E(Σi(xi)2/n) – E((µ∗)2) = µ2 + σ2 - σ2/n -µ2 = (n-1)/n σ2
Dunque, per ottenere uno stimatore non distorto, dobbiamo moltiplicare
per n e dividere per n-1 la varianza campionaria, ottenendo
s2 * = Σi(xi -µ∗)2/(n-1)
A differenza del problema 2-B, qui la media non è nota e quindi la
dobbiamo stimare con la media campionaria, introducendo quindi una
relazione algebrica tra le n variabili. Diciamo quindi che questa statistica
ha n-1 gradi di libertà.
GRADI DI LIBERTA’
Siano (x1 , x2 , ...., xn ) un campione di n misure e g una statistica
g:Rn→R, si dirà che a g corrispondono n gradi di libertà se in g non
compare nessuna relazione che lega fra loro le variabili
(X1 , X2 , ...., Xn ), al contrario n-k gradi di libertà se nella definizione
di g sono presenti k relazioni tra le variabili. In tal caso è possibile
espicitare dalle relazioni k variabili in funzione delle restanti n-k e
definire
g:Rn-k→R.
INTERVALLI DI CONFIDENZA
Il metodo fornisce sia informazioni sul valore del parametro incognito
che sul grado di attendibilità della stima stessa, vale a dire la sua
precisione.
Il metodo si basa sulla determinazione, in base ai dati campionari, di due
valori L1 e L2 in modo tale che
P(L1 ≤ θ ≤ L2) = α (α di solito scelto come 0.9, 0.95, 0.99)
α è appunto detto livello di confidenza. Si osserva che L1 e L2 , essendo
funzioni dei dati, sono di fatto delle statistiche ed, in particolare, degli
stimatori. Ci possono essere infiniti modi di determinare L1 e L2 , di solito
si limita la ricerca agli intervalli di confidenza centrali, vale a dire gli
intervalli per cui si ha P(L1 ≥ θ)= P(L2 ≤ θ) = (1-α)/2
Un intervallo di confidenza fornisce un metodo di stima che, applicata un
gran numero di volte, dà luogo ad una conclusione corretta in media
nell’α100% dei casi.
Si osserva che all’aumentare del livello di confidenza aumenta
l’ampiezza dell’intervallo; per ridurre l’ampiezza dell’intervallo, a parità
di livello di confidenza, si aumenta (se possibile) l’ampiezza del
campione.
INTERVALLO DI CONFIDENZA PER LA MEDIA µ DI UNA
GAUSSIANA DI VARIANZA σ2 NOTA
Si eseguono, come nel problema 2-A, n misure di una grandezza di
misura incognita con uno strumento di precisione nota, stavolta, invece di
una stima puntuale, vogliamo determinare un intervallo in cui il valor
medio incognito verrà a cadere con probabilità assegnata α . Il modello
probabilistico adottato è quello gaussiano, per cui la media campionaria
Σ1xi/n è interpretata come una v.a. gaussiana Σ1Xi/n di media µ e
varianza σ2/n. L’intervallo di confidenza cercato è centrale. Si osserva
che la v.a. (Σ1Xi/n − µ )/(σ/√n) è gaussiana standard, perciò se poniamo
P(-a ≤ (Σ1xi/n − µ )/(σ/√n) ≤ a)= α, siamo in grado di determinare a dalle
tavole della gaussiana standard e quindi possiamo ottenere
P(Σ1xi/n − aσ/√n ≤ µ ≤ Σ1xi/n + aσ/√n)= α
Quindi l’intervallo di confidenza è dato da
[Σ1xi/n − aσ/√n , Σ1xi/n + aσ/√n ]
ESEMPIO Supponiamo di avere rilevato un campione casuale di 50
osservazioni per una grandezza vista come una variabile aleatoria di
legge gaussiana di media incognita e varianza nota σ 2 =4, e di avere
ottenuto una media campionaria µ* = 20. Vogliamo determinare un
intervallo di confidenza centrale al livello α = 0.95 per la media µ.
Inseriamo i dati nell’intervallo precedentemente determinato
[Σ1xi/n − aσ/√n , Σ1xi/n + aσ/√n ] = [20 – a2/√50, 20 + a 2/√50]
resta da determinare a dalle tavole della normale ridotta, cercando il
valore a per cui la funzione di ripartizione Φ(a)= 0.975, quindi a=1.96.
Dunque otteniamo l’intervallo [19.45, 20.55]
OSSERVAZIONE: Qualunque sia la legge di probabilità del modello che
interpreta i dati statistici, per il teorema centrale di convergenza la legge
di distribuzione della media campionaria delle n osservazioni di un
campione casuale, per n grande, è ben approssimata da una normale di
media µ = E(Σ 1Xi/n) e varianza σ 2 =Var(Σ 1Xi/n). Perciò, per campioni
casuali di taglia n grande, l’intervallo precedentemente trovato per la
media rappresenta una buona approssimazione qualunque sia la legge di
X.
INTERVALLO DI CONFIDENZA PER LA MEDIA µDI UNA
GAUSSIANA DI VARIANZA σ2 INCOGNITA
Si procede come nel caso precedente, con la differenza che, non
conoscendo la varianza, si deve utilizzare, al posto di σ 2 , la varianza
stimata dai dati campionari s2 * = Σi(xi -µ∗)2/(n-1).
Si dimostra (vedi Appendice) che la v.a. (Σ1Xi/n − µ )/(s*/√n) è distribuita
secondo una legge di densità di Student con n-1 gradi di libertà. Quindi
posto P(-a ≤ (Σ1xi/n − µ )/(s*/√n) ≤ a)= α, siamo in grado di determinare a
utilizzando le tavole di una Student con n-1 gradi di libertà. Una volta
determinato a, si ottiene P(Σ1xi/n − as*/√n ≤ µ ≤ Σ1xi/n + as*/√n)= α
Quindi l’intervallo di confidenza è dato da
[Σ1xi/n − as*/√n , Σ1xi/n + as*/√n ]
ESEMPIO Supponiamo di avere rilevato un campione casuale di 50
osservazioni per una grandezza vista come una variabile aleatoria di
legge gaussiana di media e varianza incognita , e di avere ottenuto una
media campionaria µ* = 20 ed inoltre Σi(xi -µ∗)2= 500. Vogliamo
determinare un intervallo di confidenza centrale al livello α = 0.95 per la
media µ.
Inseriamo i dati nell’intervallo precedentemente determinato
[Σ1xi/n − as*/√n , Σ1xi/n + as*/√n ]= [20 – a·sqr(500/(49)(50)), 20 + a
sqr(500/(49)(50)]
resta da determinare a dalle tavole della Student con 49 gradi di libertà,
cercando il valore a per cui la funzione di ripartizione vale 0.975, quindi
a=2.04. Dunque otteniamo l’intervallo [19.08, 20.92]
INTERVALLO DI CONFIDENZA PER LA VARIANZA σ2 DI UNA
GAUSSIANA DI MEDIA µ NOTA
Tenendo conto che la v.a. Σ i(Xi -µ) 2/σ2 è distribuita (vedi Appendice)
secondo una legge chi-quadrato con n gradi di libertà, possiamo ottenere
un intervallo di confidenza per σ2 nel modo seguente:
P(a ≤ Σi(xi -µ)2/σ2 ≤ b) = α , dove a e b sono determinati dalle tavole della
legge chi-quadrato con n gradi di libertà, in modo tale che
P(Σi(xi -µ)2/σ2 ≤ a)=P(Σi(xi -µ)2/σ2 ≥ b)= (1-α)/2, dunque si ottiene
P(Σi(xi -µ)2/b ≤ σ2 ≤ Σi(xi -µ)2/a)= α e quindi l’intervallo di confidenza
[Σi(xi -µ)2/b, (Σi(xi -µ)2/a]
ESEMPIO: Supponiamo di avere un campione casuale di 15 osservazioni
relative ad una grandezza vista come una variabile aleatoria di media nota
µ = 8 e varianza incognita, e di avere ottenuto che Σi(xi -µ)2 = 17.3.
Vogliamo determinare un intervallo di confidenza centrale per la varianza
σ2 al livello α= 0.9.
Inseriamo i dati nell’intervallo precedentemente determinato
[Σi(xi -µ)2/b, (Σi(xi -µ)2/a] = [17.3/b, 17.3/a]
Restano da determinare a e b dalle tavole della chi-quadro con 15 gradi di
libertà con a tale che la corrispondente funzione di ripartizione F15(a)
=0.05 e b tale che F15(b)=0.95, si ottiene a=7.26 e b=25, da cui
l’intervallo [17.3/25, 17.3/7.26]≈ [0.692, 2.383]
INTERVALLO DI CONFIDENZA PER LA VARIANZA σ2 DI UNA
GAUSSIANA DI MEDIA µ INCOGNITA
A differenza dal caso precedente, qui non è nota la media µ , quindi
dobbiamo utilizzare al posto di µ la media campionaria µ*.
Tenendo conto che la v.a. Σ i(Xi -µ*)2/σ2 è distribuita (vedi Appendice)
secondo una legge chi-quadrato con n-1 gradi di libertà, possiamo
ottenere un intervallo di confidenza per σ2 analogamente al caso
precedente:
P(a ≤ Σi(xi -µ*)2/σ2 ≤ b) = , dove a e b sono determinati dalle tavole della
legge chi-quadrato con n – 1 gradi di libertà, in modo tale che
P(Σi(xi -µ*)2/σ2 ≤ a)=P(Σi(xi -µ*)2/σ2 ≥ b)= (1-α)/2, dunque si ottiene
P(Σi(xi -µ * )2/b ≤ σ2 ≤ Σ i(xi -µ * )2/a) )= α e quindi l’intervallo di
confidenza
[Σi(xi -µ*)2/b, (Σi(xi -µ*)2/a]
ESEMPIO: Supponiamo di avere un campione casuale di 15 osservazioni
relative ad una grandezza vista come una variabile aleatoria gaussiana di
media e varianza incognita, e di avere ottenuto che Σi(xi -µ*)2 = 17.3.
Vogliamo determinare un intervallo di confidenza centrale per la varianza
σ2 al livello α= 0.9.
Inseriamo i dati nell’intervallo precedentemente determinato
[Σi(xi -µ)2/b, (Σi(xi -µ)2/a] = [17.3/b, 17.3/a]
Restano da determinare a e b dalle tavole della chi-quadro con 14 gradi di
libertà con a tale che la corrispondente funzione di ripartizione F14(a)
=0.05 e b tale che F14(b)=0.95, si ottiene a=6.57 e b=23.7, da cui
l’intervallo [17.3/23.7, 17.3/6.57]≈ [0.73, 2.63]
INTERVALLO DI CONFIDENZA PER IL PARAMETRO p DI UNA
BINOMIALE
Se i dati campionari (x1 , x2 , ...., xn ) sono interpretati come v.a. (X1 ,
X2 , ...., Xn ) Bernoulliane di parametro p incognito, per determinare un
intervallo di confidenza centrale per il parametro p, si procede nel modo
seguente:
uno stimatore efficiente e non distorto per p è p*=Σ1xi/n;
per il teorema del limite centrale p*=Σ1Xi/n, interpretato come v.a., tende
a diventare, per n grande, normale di media p e varianza p(1-p)/n, perciò
p*-p
per n grande è approssimativamente gaussiana standard,
p(1-p)/n
quindi sarebbe possibile dalle tavole della gaussiana standard determinare
p*-p
a in modo tale che P(-a ≤
≤ a) = α
p(1-p)/n
è opportuno però, per arrivare ad un intervallo di confidenza per p,
sostituire alla varianza p(1-p) un suo stimatore, ad esempio, lo stimatore
p*(1-p*), ottenendo
P( -a ≤
p*-p
≤ a)=P(p* -a p*(1-p*)/n ≤ p ≤ p* + a p*(1-p*)/n )
p*(1-p*)/n
=α
E quindi l’intervallo di confidenza al livello α
[p* − a p*(1-p*)/n , p* + a p*(1-p*)/n ]
L’intervallo trovato è valido solo per n piuttosto grande.
Talvolta si preferisce utilizzare come stima della varianza, invece dello
stimatore p*(1-p*), il valore massimo della varianza, che si ottiene per
p=0.5.
ESEMPIO: In un campione casuale di 250 individui, estratto da una data
popolazione molto ampia, 72 hanno mostrato una certa caratteristica C.
Determinare un intervallo di confidenza al livello 0.9 per la percentuale p
effettiva nella popolazione degli individui che presentano C.
Si ottiene p*=72/250 ≈ 0.288, utilizziamo l’intervallo
[p* − a p*(1-p*)/n , p* + a p*(1-p*)/n ]
dove resta da determinare a dalle tavole della normale ridotta in modo
tale che Φ(a)=0.95, otteniamo a=1.65 e dunque l’intervallo [0.240, 0.335]
Se per la varianza avessimo utilizzato il valore p=0.5, invece di p*,
avremmo ottenuto l’intervallo [0.236, 0.340], leggermente più ampio del
precedente
APPENDICE
Se (X1 , X2 , ...., Xn ) sono v.a. gaussiane standard, tra loro indipendenti,
la v.a (X1 2 + X2 2 + ....,+Xn 2) si dimostra essere distribuita secondo una
legge di densità chi-quadrato con n gradi di libertà.
Se (X1 , X2 , ...., Xn ) sono v.a. gaussiane di media µ e di varianza σ2 ,
tra loro indipendenti, la variabile aleatoria Σi(Xi -µ)2/σ2 è ancora
distribuita secondo una legge di densità chi-quadrato con n gradi di
libertà (infatti ogni variabile Xi è stata standardizzata).
Se la media µ non è nota e al suo posto si utilizza lo stimatore µ*
corrispondente alla media campionaria, la v.a Σi(Xi -µ*)2/σ2 si dimostra
essere distribuita secondo una legge chi-quadrato con n-1 gradi di libertà.
W
, dove W è una v.a gaussiana
Z/n
standard e Z una chi-quadrato con n gradi di libertà, è distribuita secondo
una legge di Student con n gradi di libertà.
Si dimostra inoltre che la v.a T =
Se (X1 , X2 , ...., Xn ) sono v.a. gaussiane di media µ e di varianza σ2 ,
µ*−µ
( µ* indica la media
σ/ n
campionaria) è una gaussiana standard, abbiamo già detto che
Σi(Xi -µ*)2/σ2 è distribuita secondo una chi-quadrato con n-1 gradi di
libertà, per cui risulta evidente che la v.a.
µ*−µ
σ/ n
n(n-1)
T=
= (µ*−µ)
= (µ*−µ)/s*/√n
Σi(Xi−µ*)2
2
Σi(Xi −µ*)
σ2(n-1)
tra loro indipendenti, la v.a. W =
è una t di Student con n-1 gradi di libertà