Capitolo 3 Stima di parametri e intervalli di confidenza

Capitolo 3
Stima di parametri e intervalli
di confidenza
3.1
Stima di parametri
La statistica parametrica consiste nell’ipotizzare che i dati osservati provengano da un modello probabilistico ben definito eccetto per il valore di alcuni
parametri. Le osservazioni ci forniscono allora delle informazioni per inferire
il valore di tali parametri. Contrariamente all’approccio Bayesiano in cui vogliamo arrivare ad assegnare una probabilità ai possibili valori dei parametri,
nell’approccio frequentista (tuttora il più diffuso nella statistica inferenziale)
si ritiene che esista un valore vero dei parametri (non ha quindi senso assegnarvi una probabilità) e si tratta di stimarlo meglio possibile sulla base
delle osservazioni.
A questo scopo useremo delle statistiche, cioè dei valori numerici calcolati
a partire dai dati osservati: se x1 , . . . xn sono i dati osservati, una statistica
è una funzione g(x1 , . . . , xn ); ad esempio, la media campionaria x̄ = (x1 +
· · · + xn )/n è una statistica.
Generalizzando quanto detto prima sul campionamento, assumiamo che
le n osservazioni siano il risultato di n variabili casuali X1 , . . . Xn con una
data distribuzione che però contiene parametri ignoti. Ogni statistica può
essere considerata quindi il risultato della variabile casuale g(X1 , . . . Xn ) che
avrà anch’essa una sua distribuzione; potremo quindi parlare del valore atteso
o della varianza di una statistica, come visto nel capitolo dedicato a media e
varianza campionarie.
I parametri ignoti li rappresentiamo in genere con la lettera ϑ dove ϑ
può essere uni-dimensionale (ed essere quindi un unico parametro) oppure
multi-dimensionale (ad esempio potremmo non conoscere né la media µ né
23
la varianza σ 2 di una distribuzione normale e quindi ϑ rappresenterebbe la
coppia: ϑ = (µ, σ 2 ). Se conoscessimo ϑ, il modello probabilistico sarebbe
definito; indichiamo quindi con Pϑ0 (A) la probabilità di un evento A (che
coinvolge le variabili X1 , . . . Xn ) usando il valore ϑ0 per il parametro ignoto,
e con Eϑ0 (Y ) il valore atteso di una variabile casuale Y (costruita a partire
da X1 , . . . Xn ) usando il valore ϑ0 per il parametro ignoto.
In genere vogliamo stimare ϑ ovvero una delle componenti nel caso ϑ sia
multidimensionale; ad esempio, potrebbe essere ϑ = (µ, σ 2 ) e a noi interessa
stimare solo µ o solo σ 2 (o comunque è utile considerare separatamente le due
quantità). Volendo usare una notazione unica, scrivo che vogliamo stimare
la quantità τ (ϑ) dove τ è una qualche funzione del parametro ϑ. In genere
τ (ϑ) = ϑ se ϑ è uni-dimensionale, oppure se ϑ = (µ, σ 2 ) sarà τ (ϑ) = µ
oppure τ (ϑ) = σ 2 . La notazione τ (ϑ) è solo un modo per scrivere il problema
in generale, senza dover considerare troppi casi particolari.
Uno stimatore di τ (ϑ) è semplicemente una statistica che usiamo per
stimare τ (ϑ). Ovviamente vorremmo trovare una statistica g(x1 , . . . , xn )
che effettivamente approssimi il valore vero τ (ϑ). Siccome i dati x1 , . . . , xn
sono il prodotto delle variabili casuali X1 , . . . , Xn anche lo stimatore τ̂ =
g(X1 , . . . , Xn ) è una variabile casuale. Non possiamo quindi pretendere che
fornisca sempre il valore giusto.
Una delle proprietà che spesso si richiede ad uno stimatore è che sia
corretto (o non distorto), ossia che valga
Eϑ τ̂ = Eϑ g(X1 , . . . , Xn ) = τ (ϑ)
(3.1)
ovvero che se ripetessimo tante volte il processo di stima usando osservazioni
diverse, in media troveremmo il valore giusto.
Ci sono delle altre proprietà che si possono richiedere ad uno stimatore,
come quello di avere una varianza piccola (o minima possibile) in modo che
le deviazioni dal valore giusto non siano troppo grandi. Possiamo anche
domandarci se ci siano dei metodi standard per costruire stimatori. Esiste
tutta una teoria statistica che discute questi problemi, che però non affronto
in questo corso.
Mi limito a ricordare gli stimatori standard per media e varianza di una
distribuzione, ossia la media e varianza campionaria, visti prima come (1.6)
e (1.9).
Preferisco invece affrontare la stima intervallare, ossia il metodo per
assegnare un intervallo in cui si ritiene debba essere il valore vero τ (ϑ).
24
3.2
Intervalli di confidenza
Un intervallo di confidenza per τ (ϑ) al livello γ (tradizionalmente per γ si
usa il 95% o il 90% o il 99%) è un intervallo casuale (T1 , T2 ) dove T1 =
t1 (X1 , . . . , Xn ) e T2 = t1 (X1 , . . . , Xn ) sono funzioni dei dati e quindi sono
variabili casuali tali che
Pϑ (T1 ≤ τ (ϑ) ≤ T2 ) ≥ γ
∀ ϑ.
(3.2)
La relazione (3.2) va letto come la probabilità che l’intervallo casuale (T1 , T2 )
contenga il valore vero e non come la probabilità che τ (ϑ) appartenga ad
un dato intervallo, perché nel modello usato τ (ϑ) è un numero (non una
variabile casuale) e quindi non ha senso parlarne di probabilità (non avrebbe
senso parlare della probabilità che 3 sia minore di 5).
In altri termini, se ad esempio γ = 95%, chiedamo che se ripetessimo 100
volte le osservazioni con lo stesso ϑ, costruendo ogni volta l’intervallo casuale
(T1 , T2 ) (che sarà diverso tutte le volte), ci aspetteremmo che 95 di queste
volte il valore vero τ (ϑ) sarebbe nell’intervallo costruito e 5 volte sarebbe
fuori.
Come facciamo a costruire un intervallo di confidenza? Senza voler fare
una teoria generale, facciamo alcuni esempi. Si noterà nel seguito una certa
similarità al problema del test di ipotesi.
3.2.1
Intervallo di confidenza per µ con σ 2 noto.
Supponiamo che X1 , . . . , Xn siano normali indipendenti di media µ e varianza
σ 2 . Vogliamo trovare un intervallo di confidenza per µ supponendo che σ 2
sia noto (anche se la situazione mi sembra improbabile).
2
Abbiamo già visto che in questo caso X̄ ∼ N (µ, σn ). Questo fatto si può
anche scrivere come
√
X̄ − µ
n(X̄ − µ)
√ =
Z=
∼ N (0, 1).
σ
σ/ n
Dalle tabelle della distribuzione normale troviamo zγ tale che
P(|Z| ≤ zγ ) = γ.
Ad esempio, se γ = 95%, zγ = 1.96.
Usando la definizione di Z, abbiamo allora
√
n(X̄ − µ)
≤ zg ) = γ
P(−zg ≤
σ
25
(3.3)
Poiché
√
σzg
n(X̄ − µ)
⇐⇒ µ ≤ X̄ + √
−zg ≤
e
σ
n
√
n(X̄ − µ)
σzg
≤ zg ⇐⇒ X̄ − √ ≤ µ
σ
n
possiamo riscrivere (3.3) come
σzg
σzg
P(X̄ − √ ≤ µ ≤ X̄ + √ ) = γ.
n
n
(3.4)
σz
√ g , X̄ + √ g ) è un
Confrontando (3.4) con (3.2) possiamo dire che (X̄ − σz
n
n
intervallo di confidenza per µ al livello γ.
Dalla definizione sarebbe possibile anche scegliere intervalli di confidenza
non simmetrici. Ad esempio si ha anche
P(−1.75 ≤ N (0, 1) ≤ 2.33) = 95% = P(−1.96 ≤ N (0, 1) ≤ 1.96),
√ , X̄ + σ2.33
√ ) è un intervallo
Usando questo fatto possiamo dire che (X̄ − σ1.75
n
n
σ1.96
√ ). E’ pero
di confidenza per µ al 95% tanto quanto lo è (X̄ − √n , X̄ + σ1.96
n
consuetudine (giustificabile in vari modi) scegliere intervalli di confidenza
σz
√ g , X̄ + √ g ) è l’intervallo
simmetrici (in probabilità) e quindi diremo che (X̄ − σz
n
n
di confidenza per µ al livello γ
3.2.2
Intervallo di confidenza per la probabilità di successo nel modello binomiale
Approssimazione normale.1
Come si è visto, il modello binomiale è molto utilizzato ed è naturale volere
stimare la probabilità di successo p. Ad esempio, possiamo aver fatto un
sondaggio elettorale su un campione di n elettori e vogliamo dare un intervallo
di confidenza per la vera percentuale di votanti per il candidato Y.
Possiamo formalizzare il tutto dicendo che Xi = 1 in caso di successo alla
prova i, i = 1 . . . n (con probabilità p che vogliamo stimare) e Xi = 0 incaso
di insuccesso (con probabilità 1 − p)
Chiamando S = X1 +· · ·+Xn il numero di successi, abbiamo che la media
campionaria X̄ = S/n è lo stimatore naturale della media µ di Xi , ossia di
p; chiameremo p̂ = S/n.
Per trovare un intervallo di confidenza, possiamo usare il fatto che X̄ è
approssimativamente normale se n è grande, ossia X̄ ∼ N (p, p(1 − p)/n).
Applicando brutalmente il calcolo compiuto per l’intervallo di confidenza per
26
µ nel caso di σ 2 noto (possiamo
usare√
la formula (3.4) con σ 2 = p(1 − p)/n e
√
p̂(1−p̂)zg
p̂(1−p̂)zg
n = 1), troveremmo (p̂− √n , p̂+ √n ) come intervallo di confidenza
per p al livello γ.
Se ad esempio fosse n = 6, S = 4 eqquindi p̂ = 2/3,
q e scegliessimo γ =
1 2
1
, 3 + 1.96 27
) ≈ (0.290, 1.044).
95%, otterremmo l’intervallo ( 32 − 1.96 27
Queto calcolo è poco ragionevole per due motivi: prima di tutto perché abbiamo utilizzato p̂(1−p̂) per la varianza, come se essa fosse nota; in secondo luogo
perché n = 6 certamente non è abbastanza grande perché l’approssimazione
normale sia giustificata.
Approssimazione normale.2
Per correggere il primo problema, notiamo che il teorema centrale afferma
che
√
n(p̂ − p)
p
=⇒ N (0, 1).
p(1 − p)
Quindi trovato zγ possiamo scrivere
√
n|p̂ − p|
≤ zγ ) = γ.
P( p
p(1 − p)
(3.5)
Dobbiamo quindi trasformare le disuguaglianze
√
n|p̂ − p|
p
≤ zγ in p1 ≤ p ≤ p2 .
p(1 − p)
Facendo il quadrato di entrambi i membri, abbiamo
n(p̂ − p)2
≤ zγ2 ⇐⇒ p2 (n + zγ2 ) − p(2np̂ + zγ2 ) + np̂2 ≤ 0,
p(1 − p)
(3.6)
che si risolve facilmente in p1 ≤ p ≤ p2 dove 0 < p1 < p2 < 1 sono le radici
dell’equazione quadratica ottenuta da (3.6).
Nell’esempio n = 6, S = 4, l’equazione è
9.84p2 − 11.84p + 2.66 = 0 =⇒ p1 = 0.30, p2 = 0.90
e quindi l’intervallo di confidenza al 95% sarebbe (0.30, 0.90).
Per tenere conto del fatto che si approssima una distribuzione discreta (la
binomiale) con una continua, si usa la correzione di continuità di Yates che va
al di là del livello di queste note. In R la procedura prop.test calcola (anche)
l’intervallo di confidenza per p, applicando (a meno che uno esplicitamente
27
indichi il contrario) la correzione di Yates. Calcolando questo esempio in R, si
trova che, grazie alla correzione di Yates, In questo modo l’intervallo trovato
è (0.24, 0.94), un po’ diverso da quanto trovato senza correzione. Se n è più
grande, la differenza fra gli intervalli di confidenza con e senza correzione di
Yates è invece molto piccola.
Intervallo di confidenza per la probabilità di successo nel modello
binomiale: calcolo esatto
E’ possibile calcolare l’intervallo di confidenza usando in modo esatto la distribuzione binomiale. Il calcolo è molto più lungo, ma se n è piccolo, vale decisamente la pena fare il calcolo esatto, se uno ha a disposizione un
computer.
Il metodo per il calcolo dell’intervallo di confidenza è generale, anche se
specificato solo per l;’esempio della binomiale. Consideriamo una funzione
dei dati che ci serve per stimare il parametro che ci interessa; in questo caso il
parametro è p, e come funzione scegliamo S, il numero di successi1 . Per ogni
p troviamo quali sono i valori possibili di S al livello di confidenza richiesto.
Per la precisione troviamo g1 (p) e g2 (p) tali che
• Pp (g1 (p) ≤ S ≤ g2 (p)) ≥ γ,
• Pp (S < g1 (p)) ≤
1−γ
,
2
Pp (S > g2 (p)) ≤
1−γ
.
2
Richiediamo ≤ 1−γ
, e non = 1−γ
perché S ha una distribuzione discreta
2
2
e non si può in genere trovare un valore g2 (p) tale che Pp (S > g2 (p)) = 1−γ
.
2
Ad esempio, se γ = 95%, n = 6 e p = 1/2, vediamo che Pp (S > 5) =
Pp (S = 6) = p6 = 0.01625 < 2.5%, quindi g2 (p) ≥ 5, ma Pp (S > 4) =
Pp (S = 5) + Pp (S = 6) = 0.109375 > 2.5%, quindi g2 (p) = 5. Analogamente
g1 (p) = 1.
1
potremmo usare anche p̂ = S/n, ma la notazione è più semplice usando S
28
Supponendo che g1 e g2 siano funzioni crescenti di p, possiamo considerarne le inverse g1−1 (S) e g2−1 (S) e poniamo t1 (S) = g2−1 (S), t2 (S) = g1−1 (S).
Abbiamo (vedi figura)
g1 (p) ≤ S ≤ g2 (p) ⇐⇒ t1 (S) ≤ p ≤ t2 (S).
(3.7)
Di conseguenza
Pp (t1 (S) ≤ p ≤ t2 (S)) = Pp (g1 (p) ≤ S ≤ g2 (p)) ≥ γ
∀p
cioè (t1 (S), t2 (S)) è un intervallo di confidenza per p al livello γ.
In realtà non abbiamo bisogno di costruire esplicitamente le funzioni g1
e g2 e di invertirle, e neanche che tali funzioni siano invertibili. Per esempio,
nel caso della distribuzione binomiale, g1 e g2 sono delle funzioni a scalino che
possono prendere solo i valori 0, 1, . . . , n e quindi non sono invertibili. Dal
disegno ci accorgiamo che, fissato un valore S0 se p < t1 (S0 ) si ha S0 > g2 (p)
e quindi Pp (S ≥ S0 ) ≤ (1 − γ)/2. Possiamo allora definire .
t1 (S0 ) = max{p : Pp (S ≥ S0 ) ≤ (1 − γ)/2}
t2 (S0 ) = min{p : Pp (S ≤ S0 ) ≤ (1 − γ)/2}.
(3.8)
La definizione (3.8) si può usare senza problemi anche al caso di distribuzioni
discrete.
Riprendiamo l’esempio precedente di un campionamento dalla binomiale
con n = 6, S = 4 e scegliamo γ = 95%. Per prima cosa dobbiamo trovare
{p : Pp (S ≥ 4) ≤ 0.025}, ossia l’insieme dei p tali che la probabilità di avere
almeno 4 successi su 6 tentativi sia più piccola del 2,5%. t1 (4) sarà il massimo
di tale insieme. Si ha
Pp (S ≥ 4) = Pp (S = 6)+Pp (S = 5)+Pp (S = 4) = p6 +6p5 (1−p)+15p4 (1−p)2 .
Ponendo f (p) = p6 +6p5 (1−p)+15p4 (1−p)2 , dobbiamo trovare il massimo valore di p tale che f (p) ≤ 0.025. Poiché f (p) è crescente2 in [0, 1] (l’insieme dei
valori posssibili per p), dobbiamo trovare p ∈ [0, 1] tale che f (p) = 0.025. Risolvendo questa equazione con l’aiuto di un apposito programma al computer
troviamo p ≈ 0.223, ossia t1 (4) ≈ 0.223.
Passiamo ora al limite superiore. Dobbiamo trovare min{p : Pp (S ≤ 4) ≤
0.025}.
Pp (S ≤ 4) = 1 − Pp (S = 5) − Pp (S = 6) = 1 − p6 − 6p5 (1 − p).
2
controllare
29
Questa volta dobbiamo risolvere 1 − p6 − 6p5 (1 − p) = 0.025, ossia
p6 + 6p5 (1 − p) = 0.975.
La soluzione è p ≈ 0.957, ossia t2 (4) ≈ 0.957.
In conclusione, l’intervallo di confidenza trovato è (0.223, 0.957).
Come si è visto, si tratta di calcoli non fattibili a mano, neanche nel caso
di numeri estremamente piccoli. Esistono delle tabelle per n piccolo, ma
soprattutto è possibile calcolare l’intervallo di confidenza tramite software
statistici; in R si usa l’istruzione binom.test.
3.2.3
Intervallo di confidenza per µ con σ 2 ignoto.
Supponiamo come prima che X1 , . . . , Xn siano normali indipendenti di media
µ e varianza σ 2 , ma che σ 2 non sia noto. I conti precedenti valgono ancora,
σz
√ g , X̄ + √ g ) non può essere considerato un intervallo di confidenza,
ma (X̄ − σz
n
n
perché non conosciamo σ e quindi non possiamo calcolare tale intervallo.
Si potrebbe sostituire σ con la varianza campionaria S 2 , ma allora i calcoli precedenti non sarebbero corretti, anche se, per n grande, l’intervallo
calcolato sarebbe quasi giusto, come discusso sotto. Consideriamo invece la
variabile ottenuta da Z sostituendo S 2 a σ 2 . Otteniamo
√
n(X̄ − µ)
X̄ − µ
√ =
.
T =
S
S/ n
Abbiamo già visto in (1.16) che T segue la distribuzione t(n − 1). Leggendo
le tabelle della distribuzione t con n − 1 gradi di libertà, possiamo allora
trovare tγ tale che
P(|T | ≤ tγ ) = γ.
Con passaggi analoghi ai precedenti, arriviamo a
Stγ
Stγ
P(X̄ − √ ≤ µ ≤ X̄ + √ ) = γ
n
n
(3.9)
St
√ γ , X̄ + √ γ ) è un intervallo di confidenza al livello γ per µ.
ossia (X̄ − St
n
n
La quantità tγ è sempre un po’ maggiore di zγ , quindi l’intervallo trovato
è un pochino più ampio di quanto avremmo avuto sostituendo S a σ nel caso
precedente. Però la distribuzione t(n) tende alla normale standard al crescere
di n → ∞; quindi la differenza fra i due casi diventa sempre più piccola fino
ad essere trascurabile per n > 100 e poco significativa già per n > 20.
In R la procedura t.test calcola (anche) l’intervallo di confidenza (di
default al 95%) per la media di un campione di dati.
30
I calcoli precedenti valgono solo se X1 , . . . , Xn seguono la distribuzione
normale. Però il teorema centrale afferma che X̄ si può approssimare con
una normale per n abbastanza grande. E’ quindi comune usare gli intervalli
di confidenza per la media calcolati sopra, anche nel caso in cui X1 , . . . , Xn
non seguano la distribuzione normale, purché n non sia troppo piccolo e le
distribuzioni di Xi troppo asimmetriche.
3.2.4
Intervallo di confidenza per la varianza
Si è detto in (1.15) che (n − 1)S 2 /σ 2 segue una distribuzione chi-quadro con
n − 1 gradi di libertà, se X1 , . . . , Xn sono distribuiti secondo una normale (e
vi si avvicina per n grande, qualunque sia la distribuzione di X1 , . . . , Xn ).
Possiamo usare questo fatto per calcolare gli intervalli di confidenza per
σ 2 . Fissato il livello di confidenza γ, troviamo c1 e c2 tali che
P(c1 ≤ χ2 (n − 1) ≤ c2 ) = γ,
1−γ
P(χ2 (n − 1) ≤ c1 ) =
= P (χ2 (n − 1) ≥ c2 ).
2
(3.10)
[Notare che in (3.10) abbiamo scelto c1 e c2 in modo che le probabilità dei
segmenti esclusi sia uguale sui due lati].
Ad esempio, se γ = 95% e n = 20, ossia n − 1 = 19, troviamo c1 ≈ 8.9,
c2 ≈ 32.9.
L’equazione (3.10) indica che
P(c1 ≤
(n − 1)S 2
≤ c2 ) = γ.
σ2
E’ molto semplice riscrivere questa espressione in termini di un intervallo di
confidenza per σ 2 . Infatti
c1 ≤
(n − 1)S 2
(n − 1)S 2 (n − 1)S 2
(n − 1)S 2
2
2
⇐⇒
σ
≤
e
≤
c
⇐⇒
σ
≥
.
2
σ2
c1
σ2
c2
2
2
( (n−1)S
, (n−1)S
) è quindi un intervallo di confidenza al livello γ per σ 2 .
c2
c1
Supponiamo per esempio che con n = 20 abbiamo trovato S 2 = 1.9.
L’intervallo di confidenza al 95% per σ 2 satà circa (1.10, 4.05).
Se n = 100, l’intervallo di confidenza sarebbe (1.46, 2.56).
Non mi sembra che esista in R un’istruzione per calcolare direttamente
tale intervallo.
31
3.2.5
Intervallo di confidenza per la differenza fra le
medie di due gruppi
Spesso più che stimare quanto vale la media di una certa quantità in una
popolazione, ci interessa confrontare i valori di una quantità in due gruppi
diversi; per dare qualche esempio della cui verosimiglianza biologica non sono certo, confrontare la concentrazione di clorofilla nelle piante di una certa
specie che crescono nel sottobosco con quelle che crescono nelle radure, ovvero fra le foglie appena spuntate e quelle più “vecchie” della stessa pianta;
confrontare i livelli di colesterolo fra le persone che svolgono attività sportiva
e quelle con vita sedentaria, oppure in un certo gruppo di individui prima e
dopo una cura farmacologica.
Gli esempi dovrebbero mostrare che ci possono essere due classi di osservazioni: quelle in cui i due gruppi studiati sono indipendenti, e quelle in
cui ci sono campioni naturalmente appaiati (le foglie della stessa pianta; la
stessa persona prima e dopo il trattamento). Il tipo di analisi e di ipotesi
sono diversi nei due casi.
Campioni indipendenti
Abbiamo due gruppi di campioni x1 , . . . , xn e y1 , . . . , ym , di cui supponiamo
2
X1 , . . . , Xn ∼ N (µX , σX
), Y1 , . . . , Ym ∼ N (µY , σY2 ), e indipendenti.
Vogliamo ottenere una stima di µX − µY , il cui stimatore più ovvio è x̄ − ȳ.
Si trova facilmente che
X̄ − Ȳ ∼ N (µX − µY ,
2
σ2
σX
+ Y ).
n
m
2
Supponendo di non conoscere σX
e σY2 , vogliamo ricondurci al caso della
distribuzione t usato nel caso di un solo campione.
Per potere procedere con passaggi matematici relativamente semplici, è
2
necessario fare l’ipotesi di uguaglianza delle varianze: σX
= σY2 = σ 2 . Quando si procede in questo modo, è bene assicurarsi (almeno tramite un’ispezione
veloce dei valori della varianza campionaria nei due gruppi) che tale ipotesi
sia verosimile. Senza questa ipotesi, le procedure diventano più complesse e
approssimate; in ogni caso, i programmi statistici analizzano senza problemi
anche il caso in cui le varianze sono diverse. Per esempio in R, il comando
t.test, quando viene usato per il confronto di due campioni, svolge i calcoli sotto l’ipotesi che le varianze siano diverse, a meno che l’utente chieda
altrimenti tramite l’opzione var.equal=TRUE.
32
Supponendo la varianza uguale nei due gruppi, prima di tutto ci serve
uno stimatore della varianza comune. Quello standard è
2
SX,Y
=
n−1
m−1
2
SX
+
S2
n+m−2
n+m−2 Y
2
2
dove SX
e SY2 sono la varianza campionaria nei due gruppi; si vede che SX,Y
è una media pesata (dalla dimensione del gruppo) delle varianze campionarie
dei due gruppi.
Poi, con dei conti analoghi a quelli usati per un gruppo solo, si vede che
X̄ − Ȳ − (µX − µY )
q
∼ t(n + m − 2).
S n1 + m1
(3.11)
Il modo di ottenere un intervallo di confidenza per µX −µY da (3.11) è uguale
ai casi precedenti. Fissato il livello di confidenza γ (es. 95%), troviamo tγ
tale che P(|t(n + m − 2)| ≤ tγ ) = γ. Allora
P(
|X̄ − Ȳ − (µX − µY )|
q
≤ tγ ) = γ
S n1 + m1
e con un po’ di manipolazioni algebriche troviamo
r
r
1
1
1
1
P(X̄ − Ȳ − tγ S
+
≤ µX − µY ≤ X̄ − Ȳ + tγ S
+ )=γ
n m
n m
ossia
r
1
1
(X̄ − Ȳ − tγ S
+ , X̄ − Ȳ + tγ S
n m
è un intervallo di confidenza per µX − µY .
r
1
1
+ )
n m
Campioni appaiati
Nel caso di campioni appaiati, necessariamente m = n e l’ipotesi generale
che facciamo è che
Xi − Yi ∼ N (µ, σ 2 ),
i = 1 . . . n.
Notiamo che non facciamo alcuna ipotesi su come le variabili Xi e Yi siano distribuite nella popolazione, ma soltanto che la loro differenza abbia una certa
distribuzione, normale, con dato valore atteso (µ su cui vogliamo ottenere un
intervallo di confidenza) e varianza.
33
Di conseguenza, posto Zi = Xi − Yi , cerchiamo di trovare un intervallo di
confidenza per la media della variabile Z; possiamo quindi usare le tecniche
viste nel caso di un singolo campione alla differenza dei due. Per fare i calcoli
avremo bisogno di conoscere
n
2
SX−Y
n
1 X
1 X
=
(zi − z̄)2 =
(xi − yi − (x̄ − ȳ))2
n − 1 i=1
n − 1 i=1
2
la varianza delle differenze. Informazioni su SX
e SY2 non sono quindi sufficienti, in questo caso.
3.3
La stima di massima verosimiglianza
Gli esempi di stima di parametri visti finora appaiono tutti metodi “ad hoc”
seppure ragionevoli. Esistono invece metodi generali per costruire stimatori
ed intervalli di confidenza.
Qui presento brevemente un metodo generale per costruire stimatori, il
metodo della massima verosimiglianza, giustificandolo soltanto perché convincente a livello intuitivo. Non discuto invece proprietà generali di tale
metodo.
La verosimiglianza è un termine che comprende i casi di probabilità sia
discreta sia continua. Siano x1 , . . . , xn i dati osservati. Se le variabili casuali
X1 , . . . , Xn previste nel modello (comprendente i parametri ϑ da stimare)
che si ritiene abbia generato i dati sono discrete, definiamo la funzione di
verosimiglianza L(·) come
L(ϑ) = Pϑ (X1 = x1 , . . . , Xn = xn ).
Se, come in tutti i casi considerati, X1 , . . . , Xn sono indipendenti, L si scrive
come prodotto
L(ϑ) = Pϑ (X1 = x1 ) · · · Pϑ (Xn = xn ).
Se invece le variabili casuali X1 , . . . , Xn sono continue, esse avranno una
densità f e porremo
L(ϑ) = fϑ (x1 , . . . , xn ) = (se X1 , . . . , Xn sono indipendenti) = fϑ (x1 ) · · · fϑ (xn ).
Esempi. Se X1 , . . . , Xn sono variabili casuali indipendenti distribuite secondo Poisson, il parametro da stimare è λ e x1 , . . . , xn sono i dati osservati
(necessariamente interi) avremo
L(λ) =
λxn −λ
λx1 +···+xn −λn
λx1 −λ
e ···
e =
e .
x1 !
xn !
x1 ! · · · xn !
34
Se X1 , . . . , Xn sono variabili casuali indipendenti normali, i parametri da
stimare sono µ e σ 2 e x1 , . . . , xn sono i dati osservati
L(µ, σ 2 ) = √
1
2πσ 2
e−
(x1 −µ)2
2σ 2
(x1 −µ)2 +···+(xn −µ)2
(xn −µ)2
1
2σ 2
··· √
.
e− 2σ2 = (2πσ 2 )−n/2 e−
2
2πσ
Se X1 , . . . , Xn sono variabili casuali di Bernoulli (ossia che può avere
valore 1 con probabilità p e 0 con probabilità 1 − p), ossia X1 + · · · + Xn è
una variabile casuale binomiale di parametri n e p dove n è noto mentre p è
da stimare, e i dati consistono in k successi e n − k insuccessi, allora
n k
L(p) =
p (1 − p)n−k .
k
Il criterio della massima verosimiglianza consiste nello stimare ϑ tramite
il valore ϑ̂ che rende L massima. In altre parole lo stimatore di massima
verosimiglianza ϑ̂ ha la proprietà che L(ϑ̂) = max L(ϑ) dove il massimo si
cerca su tutti i valori ϑ ammissibili.
Esempio. Consideriamo il caso della stima di p, la probabilità di successo in
un modello binomiale. Abbiamo visto L(p) = nk pk (1 − p)n−k . Per trovarne
il massimo, conviene passare ai logaritmi, ossia considerare
n
LL(p) = log(L(p)) = log
+ k log(p) + (n − k) log(1 − p)
k
la cui derivata
LL0 (p) =
k(1 − p) − (n − k)p
k − np
k n−k
−
=
=
p
1−p
p(1 − p)
p(1 − p)
E’ evidente che LL0 (p) = 0 se p = k/n, LL0 (p) > 0 se 0 < p < k/n,
LL0 (p) < 0 se k/n < p < 1 (trascuriamo il caso banale in cui sia k = 0
ovvero k = n). Di conseguenza il massimo di LL (e quindi anche di L) si
ha in p = k/n, ovvero lo stimatore di massima verosimiglianza p̂ = k/n, la
scelta più ovvia (numero di successi/numero di tentativi).
35