http://www.windizio.altervista.org/appunti/
Parte
1.
File distribuito con licenza Creative Commons BY-NC-SA 2.5 IT
Copyright © 2008 - Michele Tartara
Inferenza parametrica
1. Probabilità
Alcune formule e proprietà utili:
FX = P (X ≤ x)
0
fX (x) = FX
= P (X = x) ∀x ∈ R
P (X > x) = 1 − P (X ≤ x)
P (x < X ≤ y) = P (X ≤ y) − P (X ≤ x)
Funzione di ripartizione:
Densità:
1.1.
Proprietà del valore atteso.
P (X = c) = 1 allora E(X) = c
E(aX) = aE(X)
E(X + a) = E(X) + a
E(g(X) + h(X)) = E(g(X)) + E(h(X)) se h e g sono
E(XY ) = E(X)E(Y ) se X e Y sono indipendenti.
(1) Se
(2)
(3)
(4)
(5)
1.2.
(2)
(3)
(4)
(5)
e
E(h(X))
esistono
V ar(aX) = a2 V ar(X)
V ar(X + β) = V ar(X) con β ∈ R
V ar(V ) = E(V 2 ) − E2 (V ) = E[(V − µ)2 ] con µ := E(V )
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2 Cov(X, Y ) con Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))].
Nel caso di variabili X e Y indipendenti, si riduce a V ar(X + Y ) = V ar(X) + V ar(Y ).
Se X = cost allora V ar(X) = 0.
Proprietà della normale.
(1) Se
(2) Se
1.4.
E(g(X))
Proprietà della varianza.
(1)
1.3.
funzioni tali che
2
2
+ b2 σY2 )
) e Y ∼ N (µY , σY2 ) e X ⊥ Y allora aX + bY ∼ N (aµX + bµY , a2 σX
X ∼ N (µX , σX
2
2 2
X ∼ N (µ, σ ) allora aX + b ∼ N (aµ + b, a σ )
Proprietà della normale standard N (0, 1). φ : R → [0, 1] è la funzione di ripartizione della normale standard
z : [0, 1] → R
(1)
è il quantile della normale standard, cioè la funzione opposta di
φ.
φ(−x) = 1 − φ(x)
2. Momenti
Denition 2.1.
Data una variabile aleatoria
X,
il momento
n-esimo
di
X
è il numero reale
µn := E(X n )
Remark. Il momento primo equivale al valor medio di
X : µ1 = E(X).
Var(X) = µ2 − (µ1 )2 = E(X 2 ) − E(X)2
Il momento secondo e il momento primo assieme deniscono la varianza:
Una distribuzione di probabilità è completamente determinata dai suoi momenti
Denition 2.2.
Sia
X
una variabile aleatoria. La funzione generatrice dei momenti
MX (t) := E(etX ) =
per tutti i valori di
dPX (x)
t
di
X
è denita come
etx dPX (x)
X.
La funzione generatrice dei momenti prende questo nome perchè a partire da essa è possibile ottenere
(per dierenziazione nel punto
t = 0)
tutti i momenti di
n
X
secondo la formula
µn = E(X ) =
sotto la condizione che
E(eε|X| )
Denition 2.4.
e
Se
MX
per cui l'espressione ha senso.
è la densità di probabilità di
Proposition 2.3.
Z
X
Y
esista per qualche
ε>0
d
dt
n
MX (t)
t=0
(se questa condizione vale, esistono tutti i momenti di
sono variabili aleatorie indipendenti e
il membro a destra ha senso.
1
S = X +Y
allora
MS (t) = MX (t)MY (t)
X ).
per ogni
t
per cui
http://www.windizio.altervista.org/appunti/
File distribuito con licenza Creative Commons BY-NC-SA 2.5 IT
Copyright © 2008 - Michele Tartara
2
3. Famiglia delle densità gamma
Denition 3.1.
X ∼ Γ(a, β)
Si dice che una variabile aleatoria
X
ha
densità gamma di parametri a, β
(entrambi > 0) e si scrive
se la funzione di ripartizione della variabile è
(1/β)a −x/β a−1
e
x
1(0,∞) (x)
Γ(a)
f (x, a, β) =
In particolare,
Denition 3.2.
Γ(a)
assume la forma data dalla denizione seguente.
L'integrale gamma
Γ(a)
è
Z
∞
Γ(a) =
e−x xa−1 dx,
a>0
0
Note. La notazione
Proprietà di
Γ(a)
si riferisce all'integrale gamma, mentre
Γ(a, β)
alla densità gamma.
Γ(a):
√
Γ(1) = 1 e Γ(1/2) = π
Derivando per parti Γ(a + 1), si ottiene:Γ(a + 1) = aΓ(a)
Se a è un numero naturale n ≥ 1, allora Γ(n + 1) = n! ∀n ∈ N
(1) Valori particolari:
(2)
(3)
Proposition 3.3. X ∼ Γ(a, β)
ha
funzione generatrice dei momenti
M (t) = E etX =
Si ha inoltre
3.1.
E(X) = aβ , E(X 2 ) = a(a + 1)β 2
Proprietà di Γ(a, β).
Sia
e
1
(1 − βt)a
Var(X) = aβ 2
X ∼ Γ(a, β).
c > 0 e Y = cX allora Y ∼ Γ(a, cβ)
X e Y sono v.a. indipendenti e Y ∼ Γ(c, β) allora X + Y ∼ Γ(a + c, β)
Se c > 0 vale anche l'inverso della precendente, cioè da Y ∼ Γ(c, β) e X + Y ∼ Γ(a + c, β) si può ricavare X ∼ Γ(a, β).
(1) Se
(2) Se
(3)
3.2.
La distribuzione esponenziale.
La densità esponenziale
Exp(β) = Γ(1, β) è un caso particolare della densità gamma.
Assume la seguente forma:
1
x
Exp(β) = exp −
I(0,+∞) (x)
β
β
e la sua FDR è
y
FX (x) = P (X ≤ x) = 1 − e− β
dove
3.3.
β
è il parametro che caratterizza l'esponenziale.
Distribuzione chi quadro.
La densità chi quadro a n gradi di libertà è un sottocaso della distribuzione gamma:
χ2n = Γ( n2 , 2).
Già sappiamo che se
X ∼ N (0, 1)
3.4.
Distribuzione F di Fisher.
m
n
e
gradi di libertà. Se
U
e
V
allora
X 2 ∼ χ21 .
Si dimostra inoltre che, in tal caso,
Si supponga di avere
U
e
V
Pn
i=1
Xi2 ∼ χ2n
variabili aleatorie con distribuzione
χ2
con rispettivamente
sono statisticamente indipendenti, la statistica
U/m
V /n
ha distribuzione F con
m
gradi al numeratore e
fF (x) =
n
Γ
Γ
m
2
gradi al denominatore, la cui densità è
m+n
2
Γ
n
2
m m/2
n
m+n
m
m − 2
x 2 −1 1 + x
n
χ2 ma con picco più alto e più schiacciato lungo l'asse x.
2
Y1 , . . . , Yn ∼ N (µX , σX
) sono indipendenti e S 2 è lo stimatore della
Il suo graco assomiglia a quello di una
Se
2
)
X1 , . . . , Xm ∼ N (µX , σX
e
2
2
SX
/σX
SY2 /σY2
ha distribuzione F con
3.4.1. Proprietà.
m−1
V ∼ Fm,n
gradi di libertà al numeratore e
⇒
1
V
∼ Fn,m
n−1
al denominatore.
varianza, allora
http://www.windizio.altervista.org/appunti/
File distribuito con licenza Creative Commons BY-NC-SA 2.5 IT
Copyright © 2008 - Michele Tartara
3
4. Funzione di verosimiglianza
Denition 4.1.
f (x, θ), θ ∈ Θ,
n variabili aleatorie X1 , . . . , Xn è data dalla funzione
X1 , . . . , Xn è un campione casuale estratto dalla densità
La funzione di verosimiglianza (Likelihood function) di
di densità congiunta di
X1 , . . . , Xn considerata come funzione di θ.
Se
la funzione di verosimiglianza è
θ 7→ Lθ (x1 , . . . , xn ) =
n
Y
f (xj , θ)
j=1
5. Stimatori
Denition 5.1.
κ(θ),
X1 , . . . , Xn i.i.d. ∼ f (x, θ), θ ∈ Θ, e κ(θ) una caratteristica della popolazione. Uno stimatore di
X1 , . . . , Xn è una statistica T = g(X1 , . . . , Xn ) usata per stimare κ(θ). Il valore assunto da uno
detto stima di κ(θ).
Siano
basato sul campione
stimatore
T
di
κ(θ)
è
Uno stimatore, quindi, è una statistica che permette di stimare una quantità a partire dalla sola conoscenza dei campioni.
Denition 5.2.
Si dice distorsione (bias) di uno stimatore il valore atteso dell'errore commesso nella stima
bias(T ) = E(T − θ) = E(T ) − θ
Perciò uno stimatore con bias pari a zero si dice non distorto:
Denition 5.3.
Una statistica
della caratteristica
κ(θ)
T
che ammette media per ogni
θ
in
Θ
è detta stimatore non distorto o corretto (unbiased)
se
Eθ (T ) = κ(θ) ∀θ ∈ Θ
La media campionaria è stimatore non distorto della media teorica. La varianza campionaria è stimatore non distorto
della varianza teorica.
Note 5.4. Combinazioni lineari di stimatori non distorti danno origine a stimatori non distorti.
La qualità di uno stimatore è misurata tramite il suo errore quadratico medio:
Denition 5.5.
Si denisce errore quadratico medio (Mean Square Error) il valore
M SE := E (T − θ)2
1
che, tramite le proprietà del valore atteso e della varianza , si dimostra essere
M SE = V ar(T ) + bias2 (T )
In particolare, se
T
è uno stimatore non distorto, si ha
M SE(T ) = V ar(T )
Denition 5.6.
Si dice consistente in media quadratica uno stimatore
Tn
di
κ(θ) il cui MSE tende a 0 al crescere del numero
di campioni, cioè tale che
lim E[(Tn − κ(θ))2 ] = 0 ∀θ ∈ Θ
n→∞
dove
n
è il numero di campioni.
Dal punto di vista pratico, per vericare la consistenza in media quadratica è conveniente vericare le due seguenti
condizioni:
lim Eθ (Tn ) = κ(θ)
n→∞
lim V arθ (Tn ) = 0
n→∞
Denition 5.7.
Sia
X1 , . . . , Xn
una successione di variabili aleatorie i.i.d. con comune densità
una statistica funzione solo delle
n
σn2 (θ)
se
µn (θ)
e varianza asintotica
osservazioni.
La successione
Tn − µn (θ)
≤z
σn
lim P
n→∞
{Tn }n
f (x, θ)
con
θ∈Θ
e sia
Tn
è asintoticamente gaussiana con media asintotica
= φ(z) ∀z ∈ R
Questa proprietà è utile nel caso di grandi campioni, per poter approssimare lo stimatore
Tn
con una gaussiana.
1E[(T − θ)2 ] = E[T 2 + θ2 − 2T θ] = E[T 2 ] + θ2 − 2θE[T ] + E2 [T ] − E2 [T ] = E[T 2 ] − E2 [T ] + E2 [T ] + θ2 − 2θE[T ] = V ar(T ) − bias2 (T )
|
{z
} |
{z
}
V ar(T )
(E[T ]−θ)2 =bias2 (T )
http://www.windizio.altervista.org/appunti/
File distribuito con licenza Creative Commons BY-NC-SA 2.5 IT
Copyright © 2008 - Michele Tartara
4
5.1.
Stimatori a massima verosimiglianza.
Denition 5.8.
X1 , . . . , Xn un campione casuale con
g(x1 , . . . , xn ) un valore in Θ tale che
Siano
zazione campionaria e
funzione di verosimiglianza
Lθ , θ ∈ Θ, x1 , . . . , xn
una realiz-
Lg(x1 ,...,xn ) (x1 , . . . , xn ) = maxLθ (x1 , . . . , xn )
θ∈Θ
La statistica
θ̂ = g(X1 , . . . , Xn )
è detta stimatore di massima verosimiglianza di
θ.
Per indicare
θ̂
useremo l'acronimo ML
(Maximum Likelihood ) o MLE (Maximum Likelihood Estimator ).
Generalmente, per semplicare alcuni conti, quando si calcola uno stimatore a massima verosimiglianza si preferisce
introdurre il logaritmo di
L.
L
=0
θ̂ : ∂ log
∂θ
caratteristica κ(θ) dipendente
Lo stimatore risulta quindi essere
Lo stimatore di una
dalla quantità
θ
stimata da
θ̂
è dato da
κ(θ̂).
Lo stimatore di massima verosimiglianza di una distribuzione esponenziale è la media campionaria:
θ̂(X1 , . . . , Xn ) = X̄ .
Lo stimatore di massima verosimiglianza di una distribuzione di Poisson è la media campionaria.
5.2.
Stimatori UMVUE.
Denition 5.9.
(1)
(2)
T ∗ che
κ(θ)
Uno stimatore
∗
T è non distorto per
V arθ (T ∗ ) ≤ V arθ (T ) per
ogni
gode delle proprietà
θ
e per ogni stimatore T non distorto e a varianza nita
è detto stimatore non distorto a varianza uniformemente minima (Uniform Miminum Variance Unbiased Estimator), o
stimatore UMVUE.
Remark 5.10. Proprietà degli stimatori UMVUE
Unicità: se lo stimatore UMVUE esiste, è unico.
Simmetria: Sia T ∗ = g(X1 , . . . , Xn ) UMVUE, allora
Pθ g(X1 , . . . , Xn ) = g(Xπ(1) , . . . , Xπ(n) ) = 1 ∀θ ∈ Θ
per ogni permutazione
Nosense:
π
di
{1, . . . , n}.
Lo stimatore UMVUE potrebbe esistere ma essere insensato.
5.2.1. Disuguaglianza di Fréchet-Cramer-Rao. È possibile trovare un conne inferiore (lower bound) della varianza nella
classe di tutti gli stimatori non distorti che sia funzione solo della caratteristica da stimare
mediante la verosimiglianza
Lθ .
κ(θ)
e del modello statistico
È anche possibile costruire uno stimatore che abbia varianza coincidente con esso.
Tale
stimatore sarà lo stimatore UMVUE. Il lower bound e lo stimatore possono essere trovati tramite la disuguaglianza di
Fréchet-Cramer-Rao,
V arθ (T ) ≥
(κ0 (θ))2
nI(θ)
∀θ ∈ Θ
denita dall'omonimo teorema:
Theorem 5.11.
Sia (X1 , . . . , Xn ) un campione aleatorio dalla famiglia di densità
(perchè dovremo derivarlo).
f (x, θ)
κ(θ) la caratteristica da stimare e T = g(X1 , . . . , Xn ) lo stimatore non distorto per
Supponiamo che valgano le seguenti ipotesi (dette di regolarità):
Sia
(1)
(2)
(3)
(4)
Θ intervallo aperto di R
S = {x : f (x, θ) > 0} non dipende da θ
θ7→ f (x, θ) è dierenziabile
in Θ,∀x
∂
Eθ ∂θ
log f (X1 , θ) = 0, ∀θ
(5) Deve essere:
0 < I(θ) < +∞, ∀θ,
con
(6)
κ
S
κ(θ)
θ ∈ Θ ⊂ R
(a varianza nita).
è il supporto)
I(θ) = Eθ
Note 5.12. Se la (4) è vericata, allora
(4)
(NB:
a parametro reale
h
∂
∂θ
I(θ) = V ar
log f (X1 , θ)
∂
∂θ
2 i
log f (X1 , θ) ,
che è detta
perché
informazione di sher
V ar[X] = E[X 2 ] − (E[X])2 ,
ma per la
E[X] = 0.
è dierenziabile in
Θ
e
κ0 (θ) = E T ·
∂
∂θ
log L(θ; X1 , . . . , Xn ) ∀θ ∈ Θ,
Allora:
dove
L
è la funzione di verosimiglianza.
2
V ar(T ) ≥
(κ0 (θ))
, ∀θ ∈ Θ
n · I(θ)
Note 5.13. I modelli Esponenziale, Gaussiano e di Poisson soddisfano le ipotesi di Fréchet-Cramer-Rao.
Denition 5.14.
T ∗ di κ(θ) non distorto
0
(θ))2
V ar(T ∗ ) = (κnI(θ)
.
Uno stimatore
Cramer-Rao è detto eciente e
la cui
varianza raggiunge il conne inferiore
di Fréchet-
http://www.windizio.altervista.org/appunti/
File distribuito con licenza Creative Commons BY-NC-SA 2.5 IT
Copyright © 2008 - Michele Tartara
5
κ(θ) = θ,
Nel caso in cui
allora
V ar(T ∗ ) =
1
nI(θ) .
.
Uno stimatore eciente è anche UMVUE
Condizione necessaria e suciente perchè uno stimatore sia eciente è che
∂
log L(θ, X1 , . . . , Xn ) = a(n, θ)(T − κ(θ))
∂θ
cioè che la derivata in
da stimare e
T
θ
del logaritmo della funzione di verosimiglianza sia una funzione lineare di
stima di
T − κ(θ), con κ(θ) quantità
κ(θ).
6. Media e varianza campionarie
Denition 6.1.
X
Data una serie di variabili aleatorie
X1 , . . . , Xn
è uno stimatore (puntuale) non distorto del valore atteso
Denition 6.2.
S2
σ2 .
µ,
S 2 :=
in quanto
1
n−1
X=
Pn
i=1
Xi
n
.
E(X) = µ
Pn
Pn
(X 2 )−nX̄ 2
j
j=1
2
.
j=1 (Xj − X) =
n−1
P
n
2
E(S 2 ) = σ 2 (perchè E
= (n − 1)σ 2 )
j=1 (Xj − X)
La varianza campionaria è denita come
è uno stimatore (puntuale) della varianza
la media campionaria è denita come
quindi, poichè in
media assume il valore corretto, viene denito stimatore non distorto della varianza.
Distribuzioni di media e varianza campionarie di popolazione gaussiana.
6.1.
Proposition 6.3.
(1)
(2)
(3)
Sia
X1 , . . . , Xn
un campione casuale gaussiano dalla f.d.r.
N (µ, σ 2 ).
Per ogni
µ∈R
e per ogni
σ2 > 0
2
X ∼ N (µ, σn )
2
le statistiche S e X sono
2
2
(n − 1)S /σ ∼ χ2n−1
Questo sarà utile come
(4) La statistica
indipendenti.
statistica
test
√
X−µ
√ (dove
S/ n
S2)
S=
per calcolare gli intervalli di condenza
ha densità t di student con
n−1
per la varianza.
gradi di libertà.
statistica test per la media
X−µ
√ è la media campionaria normalizzata da usare come
S/ n
quando la varianza è incognita, e quindi stimata da S . Conoscendone la distribuzione, possiamo sfruttare le tavole
Questo è utile in quanto
per lavorare con questa statistica.
t di Student.
6.2.
Denition 6.4.
Si dice che
Siano
√Z
Y
k
Z
e
Y
Z ∼ N (0, 1) e Y ∼ χ2k .
Student con k gradi di libertà, cioè tk .
due v.a. indipendenti. Sia
è distribuita secondo una
t
di
Tale distribuzione ha densità:
Γ k+1
1
2
fk (t) = √
t∈R
k+1
k
kπΓ 2 1 + t2 2
k
che è simile ad una gaussiana, ma con code più alte.
Quando
k → +∞,
la distribuzione
t
si avvicina sempre più ad una normale.
7. Intervalli di confidenza
Gli stimatori puntuali non sono particolarmente interessanti in quanto è nulla la probabilità che assumano il vero valore
(incognito) della variabile da stimare. Ad esempio, nel caso della media campionaria (stimatore della media)
Pµ,σ2 (X = c) = 0, ∀c ∈ R, µ ∈ R, σ 2 > 0
Possiamo tuttavia calcolare, a priori e indipendentemente dalla realizzazione campionaria, con un certo grado di ducia
un intervallo all'interno del quale andrà con buona approssimazione a cadere il valore cercato.
Per trovare intervalli di condenza bilateri di livello
γ100%
si usa la seguente formula:
P(a < T < b) = γ
T
dove
è la statistica test opportuna e
a
e
b
sono quantili di tale statistica test.
Tale formula dovrà essere risolta in funzione della quantità per la quale si cerca l'intervallo.
7.1.
con
Per la media.
2
s
Per la media si usa come statistica test
varianza campionaria, se la varianza è incognita.
x̄−µ
√0
σ/ n
∼ N (0, 1)
se la varianza
σ2
è nota, oppure
x̄−µ
√0
s/ n
∼ tn−1 ,
http://www.windizio.altervista.org/appunti/
File distribuito con licenza Creative Commons BY-NC-SA 2.5 IT
Copyright © 2008 - Michele Tartara
6
7.2.
Per la varianza.
• µ
incognita
S 2 (n−1)
σ2
Per trovare un intervallo di condenza si parte dalla quantità aleatoria
a
determinare sono
a
b
e
e
b
2
S (n−1)
σ2
Pµ,σ2 a <
tali che
sono quantili di una f.d.r.
< b = γ.
∼ χ2n−1 .
Ciò che si vuole
χ2n−1 .
Si presentano diversi casi:
(1) [a
= 0]
b = χ2n−1 (γ)
Denition 7.1.
x1 , . . . , x n
Sia
γ ∈ (0, 1) e sia s2
il valore assunto da
livello
in corrispondenza della realizzazione campionaria
di un campione casuale estratto da una popolazione
(dove
S2
χ2n−1 (γ)
γ100%
è il quantile di ordine
per la varianza
σ
2
γ
2
s (n − 1)
, +∞
χ2n−1 (γ)
della f.d.r
µ
, quando
N (µ, σ 2 ).
Allora
χ2n−1 )
è un intervallo di condenza a una coda superiore di
è incognita. Inoltre, la statistica
S 2 (n−1)
è detta limite inferiore di
χ2n−1 (γ)
condenza per la varianza.
(2) [b
= +∞]
a = χ2n−1 (1 − γ)
Denition 7.2.
x1 , . . . , xn di
Sia
γ ∈ (0, 1) e sia s2
il valore assunto da
S2
in corrispondenza della realizzazione campionaria
un campione casuale estratto da una popolazione
2
0,
s (n − 1)
χ2n−1 (1 − γ)
N (µ, σ 2 ).
Allora
γ100% per la varianza
S 2 (n−1)
Inoltre, la statistica 2
è detta limite superiore di condenza per la varianza.
χn−1 (1−γ)
è un intervallo di condenza a una coda inferiore di livello
(3) [0
σ2
quando
µ
è incognita.
< a < b < +∞]
La massa rimanente deve essere distribuita uniformemente a destra e a sinistra dell'intervallo, quindi:
χ2n−1 ( 1−γ
2 )
e
Denition 7.3.
x1 , . . . , x n
Sia
γ ∈ (0, 1) e sia s2
di un campione casuale
S 2 in corrispondenza della realizzazione campionaria
2
estratto dalla f.d.r. N (µ, σ ). Allora
!
s2 (n − 1)
s2 (n − 1)
, 2
χ2n−1 1+γ
χn−1 1−γ
2
2
il valore assunto da
è un intervallo di condenza bilatero per
• µ
a =
1+γ
2
b = χ2n−1 ( 1−γ
2 + γ) = χn−1 ( 2 )
σ2
di livello
γ100%,
quando
µ
è incognita.
nota
Essendo
µ
nota, possiamo stimare
σ2
con la statistica
µ).
S02 n
2
si ottiengono i seguenti intervalli
σ 2 ha densità χn , quindi
S02 :=
Pn
2
j=1 (Xj −µ)
n
(che è lo stimatore di massima
verosimiglianza di
Pn
di condenza per
σ2
di livello
γ100%
quando
2
j=1 (xj−µ )
, +∞ (intervallo di condenza a una coda superiore)
χ2n (γ)
Pn
2
j=1 (xj −µ)
0, χ2 (1−γ)
(intervallo di condenza a una coda inferiore)
n
Pn
P
2
n
2
j=1 (xj −µ)
j=1 (xj −µ)
,
(intervallo di condenza bilatero)
χ2n ( 1+γ
χ2n ( 1−γ
2 )
2 )
8. Intervalli di confidenza per grandi campioni
8.1.
Per la media µ.
Essendo
n
Sia
X1 , . . . , Xn
un campione con
n
grande da una popolazione con media
grande, il campione può essere trattato come una normale
La statistica
X̄−µ
√ , dove
σ/ n
X̄
P
µ
di dimensione
σ
X̄ − µ
√ < z 1+γ
−z 1+γ √ <
2
2
n
σ/ n
'γ
L'intervallo di condenza è quindi
IC =
e varianza
N (µ, σ ).
è la media campionaria, è distribuita come una normale standard
È quindi possibile denire un intervallo di condenza per la media
µ
2
σ
σ
X̄ − z 1+γ √ , X̄ + z 1+γ √
2
2
n
n
γ
N (0, 1).
calcolando
σ2 .
µ
è nota :
http://www.windizio.altervista.org/appunti/
File distribuito con licenza Creative Commons BY-NC-SA 2.5 IT
Copyright © 2008 - Michele Tartara
7
Per una generica caratteristica κ(θ).
8.2.
κ̂ ∼ N κ(θ),
matore di massima verosimiglianza
V ar(κ̂))
colabile come
Supponiamo di dover stimare una caratteristica
(κ0 (θ))2
nI(θ)
di cui abbiamo lo sti-
, con media pari alla caratteristica da stimare e varianza (cal-
che raggiunge il limite inferiore di Fréchet-Cramer-Rao.
∂
log f (X1 , θ))2
I(θ) = E ( ∂θ
κ(θ)
Per
n
κ̂−κ(θ)
grande, r
(κ0 (θ))2
nI(θ)
∼ N (0, 1),
dove
è l'informazione di Fisher.
γ
Un intervallo di condenza di ampiezza
si denisce quindi a partire da


κ̂ − κ(θ)
< q 0 2 < z 1+γ  = γ
Pθ −z 1+γ
(κ (θ))
nI(θ)
2
2
ed è
s
κ̂ − z 1+γ
(κ0 (θ̂))2
nI(θ̂)
2
θ
dove tutti i
s
, κ̂ + z 1+γ
(κ0 (θ̂))2
2
!
nI(θ̂)
presenti al denominatore del pivot della equazione precedente possono essere approssimati con l'MLE
perché è dimostrabile che questa sostituzione mantiene l'asintoticità a
θ̂
N (0, 1).
9. Test di ipotesi
Denition 9.1. Una ipotesi H è una aermazione sulla distribuzione F della popolazione.
semplice: se l'ipotesi specica completamente (determina) un'unica distribuzione
composta: altrimenti
Un'ipotesi si denisce
Ciò che ci interessa è una procedura statistica (test) che stabilisca se i dati campionari sono compatibili con l'ipotesi
In tal caso si dice che accetto
Se i dati non sono compatibili con
Denition 9.2.
H,
H.
allora riuto
Una verica di ipotesi è una terna ordinata
(X1 , . . . , Xn ; H0 , H1 ;
{z
} | {z }
|
campione
con
Se
Se
H.
H.
G
|{z}
)
ipotesi regione critica
G ⊆ Rn .
(x1 , . . . , xn ) ∈ G ⇒ riuto l'ipotesi H0 e accetto H1
(x1 , . . . , xn ) ∈ Gc ⇒ non riuto H0 e riuto H1 .
VERO
H0
H1
ACCETTO
H0
H1
OK
Errore di II specie
Errore di I specie
OK
Denition 9.3. (Taglia del test) α := sup Pθ (x ∈ G) con θ ∈ Θ0
α è anche detto livello di signicatività
PH0 (Accetto H1 ) = PH0 (Riuto H0 ).
Denition 9.4.
la probabilità
Il più piccolo valore di
PH0 (Riuto H0 )
del test ed è la probabilità di commettere un errore di I specie, cioè
α per cui, in presenza di x, riuto H0 è detto p-value.
α =
Per calcolare il p-value, si calcola
sotto l'ipotesi che la regione di riuto cominci nel punto indicato dall'attuale realizzazione
campionaria della statistica test.
Quindi:
Se p-value
Se p-value
≤α
≥α
riuto
Analogamente ad
Denition 9.5.
H0
non riuto
di livello di signicatività
H0
α.
di livello di signicatività
α, è possibile denire una funzione β
α.
che rappresenta la probabilità di commettere un errore di II specie:
β := sup Pθ (x ∈ Gc ) con θ ∈ Θ1 .
Cioè, β = PH1 (Riuto H1 )
Allora π = 1 − β(θ) con θ ∈ Θ1 è la funzione di potenza
Sia
Calcolare la potenza di un test sotto l'ipotesi
critica, con
θ
H1 ,
del test.
equivale a calcolare la probabilità dell'appartenenza di T alla regione
determinato dall'ipotesi scelta, riconducendo la scrittura della regione critica a quella di una distribuzione nota,
se ciò è necessario per il calcolo di
P: π(θ ∈ ΘH1 ) = 1−β(θ) = 1−PH1 (Riuto H1 ) = 1−PH1 (Accetto H0 ) = PH1 (Riuto H0 ).
α, è possibile costruire una regione critica tale da massimizzare la potenza del test. Ciò
Data una dimensione pressata di
può essere fatto tramite il Lemma di Neyman-Pearson.
http://www.windizio.altervista.org/appunti/
File distribuito con licenza Creative Commons BY-NC-SA 2.5 IT
Copyright © 2008 - Michele Tartara
8
Denition 9.6. (Lemma di Neyman-Pearson)
Dato un campione (X1 , . . . , Xn ) da f (x, θ) con θ ∈ Θ = {θ0 , θ1 },
=
L(θ
;
x
,
.
.
.
,
x
)
,
L
H0 : θ = θ0 , H1 : θ =
θ
;
L
(x)
0
1
n o 1 (x) = L(θ1 ; x1 , . . . , xn ).
n 1 0
L0 (x)
n
Sia G = G(δ) = (x1 , . . . , xn ) ∈ R :
L1 (x) ≤ δ la regione critica e sia α la sua taglia.
Allora, tra tutte le regioni critiche per vericare H0 contro H1 di taglia α, H è quella con potenza massima.
Una volta impostata la regione critica, per denirla completamente bisogna calcolare
P H0
δ
in modo tale che eettivamente
L0 (x)
L1 (x)
≤ δ = α.
NB: nel fare ciò, tutto ciò che è costante può essere incorporato direttamente dentro a
δ,
rendendo così più semplice la
denizione della regione critica.
H0 e cosa in H1 .
H0 : ciò che ci viene chiesto di vericare. Vericare l'ipotesi che...
H1 : ciò che vogliamo dimostrare. C'è evidenza sperimentale che...?, Possiamo
Remark 9.7. È importante scegliere correttamente cosa va in
In
In
concludere che...?.
10. Test per campioni gaussiani accoppiati indipendenti
Siano
2
X1 , . . . , Xm i.i.d. ∼ N (µX , σX
)
Test F.
2
Y1 , . . . , Yn i.i.d. ∼ N (µX , σX
).
e
2
σX
, σY2 sono incognite e m, n sono grandi.
2
2
2
2
Mira a vericare l'ipotesi H0 : σX = σY contro l'ipotesi H1 : σX 6= σY .
Le varianze, in quanto incognite, devono essere approssimate a partire dai campioni nel seguente modo:
10.1.
Applicabile quando
Pm
2
SX
j=1
=
x2j − m ∗ x̄2
m−1
2
2
j=1 yj − n ∗ ȳ
Pn
SY2 =
dove
x̄, ȳ
L'ipotesi
H0
Fm,n
S2
T = SX2 ∼ Fm−1,n−1 cade nella regione di riuto:
Y
n
α
α o
G = T ≤ Fm−1,n−1
oppure T ≥ Fm−1,n−1 1 −
2
2
di ampiezza α:
α
α Fm−1,n−1
, Fm−1,n−1 1 −
2
2
è riutata quando
cioè nell'itervallo di condenza
dove
n−1
sono le medie dei due campioni.
è la funzione F di Fisher come presente nelle tabelle (attenzione all'ordine dei pedici, alcune tabelle li riportano
al contrario).
Parte
2.
Inferenza non parametrica
Denition 10.1.
La funzione di ripartizione empirica associata al campione
da
F̂n (x) =
F̂n
è una funzione su
R a valori in [0, 1] denita
#{j : Xj ≤ x}
∀x ∈ R
n
11. Media e varianza campionarie
Denition 11.1.
La media di
F̂n
Il momento
r-esimo
F̂n
è
Mr =
1
n
Pn
j=1
Xjr
è uguale alla media campionaria , e, come nel caso parametrico, si ha:
Denition 11.2. E[F̂n ] = M1 =
Quindi
campionario di
1
n
Pn
j=1
Xj
X = M1 .
Nel caso si abbia la distribuzione campionaria è comodo calcolare la media come media pesata:
E[F̂n ] =
n
X
xj dj
j=1
xj è il valore del campione
dj = Fn (xj ) − F (xj − 1).
dove
e
dj
la sua densità, eventualmente ricavabile dalla funzione di ripartizione empirica
F̂n è
Pn
1
Al contrario della media, la varianza di
Denition 11.3.
(Varianza)
V ar[F̂n ] =
n
diversa dalla varianza campionaria, infatti si ha:
j=1 (Xj
− X)2
e
Denition 11.4.
(Varianza campionaria)
S2 =
1
n−1
Pn
j=1 (Xj
n
− X)2 = V ar[F̂n ] n−1
F̂n
come
http://www.windizio.altervista.org/appunti/
File distribuito con licenza Creative Commons BY-NC-SA 2.5 IT
Copyright © 2008 - Michele Tartara
9
V ar(F̂n ) = E[F̂n2 ] − E2 [F̂n ].
con dj denito come sopra.
La varianza è calcolabile anche tramite le normali proprietà di media e varianza, quindi
2
In tal caso, si può calcolare E[F̂n ] come il momento secondo, cioè
E[F̂n2 ]
=
Pn
j=1
2
x dj ,
12. Test di Kolmogorof-Smirnov
Serve a vericare se una funzione F è distribuita secondo una determinata funzione F0 completamente
specicata (cioè con tutti i parametri ssati: ad esempio N (0, 1), Exp(5), ecc) e continua.
Vale per un numero
n
qualsiasi di campioni.
ipotesi nulla
In particolare si controlla l'
H0 : F = F0
contro
Statistica test: Dn :=
Riuto
H0
se
H1 : F 6= F0
|F̂ (x) − F0 (x)|
sup
x∈{n campioni}
Dn > qDn (1 − α)
dove
α
è il livello di signicatività e
qDn
è il quantile della statistica test di Kolmogorof-
Smirnov, cioè riuto se la funzione di ripartizione empirica si discosta più di un massimo sopportabile dalla FDR teorica
F0
(per quanto osservabile con i campioni a nostra disposizione).
NB: essendo
F̂n (x)
discontinua, la dierenza da
F0 (x)
va calcolata sia nell'intorno sinistro, sia nell'intorno destro di ogni
campione, dove essa assumerà valori diversi. Bisognerà quindi calcolare sia
13. Test
χ2
|F̂n (xi ) − F0 (xi )|
sia
|F̂n (xi−1 ) − F0 (xi )|.
di adattamento
Serve a vericare se una serie di dati si adatta ad un determinato modello teorico.
campioni di dimensione n grande, perchè è un test asintotico. Bisogna infatti vericarne
regole empiriche di applicabilità: n ≥ 50 e n · p0i > 5, ∀i ∈ 1, . . . , k
Funziona su dati discreti, oppure su dati continui purchè essi vengano discretizzati tramite suddivisione in classi (il
Può essere usato solo per
le seguenti
test non distingue come la massa si distribuisce all'interno delle classi, ma solo tra le diverse classi).
Si imposta sulle seguenti ipotesi:
H0 : F = F0
contro
H1 : F 6= F0
che possono essere riscritte come:
di
H0 : pi = p0i ∀i = 1, . . . , k contro H1 : pi 6= p0i per qualche i.
dove pi = PF (Xi = ai ) e p0i = PF0 (Xi = ai ), (ai sono le diverse classi),
una certa classe, e p0i è la densità teorica che tale classe dovrebbe avere.
cioè
pi
è la densità osservata in corrispondenza
Per eseguire il test, bisogna calcolare la frequenza assoluta campionaria di ogni
campione che assumono valore
ai ,
cioè il numero di osservazioni del
ai :
Ni = # {j : Xj = ai }
∀i = 1, . . . , k
e misurare lo scostamento fra tali osservazioni e i valori teorici che esse dovrebbero avere (n
· p0i ).
Tale misura viene eettuata mediante la statistica di Pearson:
Qn :=
k
X
(Ni − n p0i )2
i=1
Riutiamo
H0
a livello
α
sse
n p0i
=
k
X
Ni2
−n
np0i
i=1
Qn > χ2k−1 (1 − α), cioè se lo scostamento è troppo grande.
p = 1 − Fχ2k−1 (qn ) dove qn è la realizzazione di Qn .
Il p-value di questo test è calcolabile come:
NB: nel caso la distribuzione teorica non sia completamente specicata e che si debbano stimare a partire dal campione
m
parametri, la regione di riuto sarà:
Qn > χ2k−m−1 (1 − α).
Analogamente, varierà il p-value.
R per l'uso con questo test, il valore ideale è k = n2/5 .
1
esse sia equiprobabile sotto F0 : P (Xi ∈ Ai ) =
k ∀i
Remark 13.1. Se bisogna decidere il numero di classi in cui suddividere
Si sceglieranno poi gli estremi di tali classi in modo che ognuna di
14. Test di indipendenza
Test χ2 di indipendenza.
Serve a vericare se due serie di campioni X e Y sono tra loro indipendenti.
χ2 di indipendenza può essere impostato a partire dalle seguenti ipotesi:
H0 : H(x, y) = F (x) · G(y) ∀x ∈ R ∀y ∈ R cioè X e Y sono indipendenti.
H1 : H(x, y) 6= F (x) · G(y) per almeno un (x, y) ∈ R2 .
Il test lavora discretizzando F in r classi e G in c classi, e contando il numero di coppie tali che il primo elemento è nella
classe Ai e il secondo in Bj , ossia Nij = #(Xk , Yk ) ∈ Ai · Bj , cioè le densità congiunte.
Si calcola poi la probabilità teorica che una coppia ha di appartenere a ogni classe: pi,j = PH (X1 ∈ Ai , Y1 ∈ Bj ), i =
1, . . . , r j = 1, . . . , c
fX (x)·fY (y)
Possiamo anche calcolare, al suo posto, direttamente il numero teorico di elementi di ogni classe, pari a Ei,j =
,
n
dove fx e fY sono le distribuzioni marginali.
14.1.
Il test
http://www.windizio.altervista.org/appunti/
File distribuito con licenza Creative Commons BY-NC-SA 2.5 IT
Copyright © 2008 - Michele Tartara
10
asintotico ed è applicabile solo se valgono le seguenti regole empiriche:
n ≥ 50, nr > 5, nc > 5.
Pr Pc (Nij −Eij )2
P P (Nij )2 Usiamo come statistica test: U :=
=
− n cioè lo scostamento dei valori registrati
i=1
j=1
i
j Eij
Eij
Il test è
dai valori teorici.
Riuto
14.2.
H0
a livello
α
se
Un
è grande, cioè se
Un ≥ χ2(r−1)(c−1) (1 − α).
Test di indipendenza per dati gaussiani.
se il coeciente di correlazione lineare
ρ
Se
(X, Y )
è congiuntamente gaussiana, X,Y sono indipendenti se e solo
è nullo.
Cov(X, Y )
ρ= p
V ar(X) · V ar(Y )
Un valore positivo di
ρ indica concordanza di tipo lineare tra i due campioni, mentre un valore negativo indica discordanza
(quando un campione cresce, l'altro tende a diminuire).
H0 :ρ = 0
H1 :ρ 6= 0.
(indipendenza) contro
Nel caso di campione accoppiato gaussiano con parametri tutti incogniti, uno stimatore di
campionario (o empirico)
ρ è il coeciente
di correlazione
Pn
− X̄)(Yj − Ȳ )
Pn
2
2
j=1 (Yj − Ȳ )
j=1 (Xj − X̄)
R = qP
n
per la quale vale sempre
Theorem 14.1.
Sia
−1 ≤ R ≤ 1
j=1 (Xj
e il seguente
∼ N e ρ = 0. Allora
√
n − 2R
T := √
∼ tn−2 n ≥ 3
1 − R2
(X1 , Y1 ), . . . , (Xn , Yn )
i.i.d.
Tale grandezza è la statistica test che utilizziamo per vericare l'indipendenza dei campioni.
Quindi:
si riuta
H0
nel caso in cui
T ≥ tn−2 (1 − α2 ).
Per
n
grandi,
t
è approssimabile da una gaussiana standard.
È anche possibile impostare i seguenti test, con le relative regioni di riuto:
H0 : ρ ≤ 0
contro
H1 : ρ > 0
con
G = {campioni : T ≥ tn−2 (1 − a)}
contro
H1 : ρ < 0
con
G = {campioni : T ≤ −tn−2 (1 − a)}
e
H0 : ρ ≥ 0
15. Test di omogeneità di Wilcoxon-Mann-Whitney
vericare se due campioni aleatori sono regolati dallo stesso modello,
Un test di omogeneità serve a
hanno la stessa funzione di ripartizione.
Tramite un'opportuna ipotesi alternativa
H1 ,
può essere utilizzato anche per
stocasticamente l'altra (cioè se è più grande).
e
cioè se
determinare se una variabile domina
Siano X e Y le due variabili aleatorie dei cui campioni si vuole vericare l'omogeneità e F
X1 , . . . , Xm i.i.d. ∼ F e Y1 , . . . , Yn i.i.d. ∼ G i due campioni di dati raccolti.
e
G le loro funzioni di ripartizione
L'ipotesi nulla indica omogeneità ed è:
H0 : F (x) = G(x) ∀x ∈ R
L'alternativa può indicare non omogeneità:
H1 : F (x) 6= G(x) per qualche x ∈ R
oppure può indicare che
X
domina stocasticamente
Y:
H1 : F (x) ≤ G(x) ∀x ∈ R
oppure può indicare che
Y
e
F (x) < G(x)
per qualche
x
H1 : F (x) ≥ G(x) ∀x ∈ R
e
F (x) > G(x)
per qualche
x
X
e
Y
domina stocasticamente
X:
Per eseguire il test si riuniscono tutte le osservazioni di
in ordine crescente e si assegna loro un rango
r
= 1)
semplicità che non ci siano ripetizioni nel campione.
Chiamiamo
Chiamiamo
m + n, le si
= m + n). Si
in un unico campione di lunghezza
crescente dalla minore (r
TX la somma dei ranghi delle osservazioni presenti da X : TX =
wa il quantile della f.d.r. di TX (tabulato per m, n ≤ 20).
alla maggiore (r
Pm
i=1
Ri
con
dispongono
assume per
Ri = rango(Xi )
st
Se
X≤Y
mi aspetto che tante
xi
siano più piccole delle
yj ,
quindi
TX
assumerà valori piccoli.
mi aspetto che tante
xi
siano più grandi delle
yj ,
quindi
TX
assumerà valori grandi.
st
Se
X≥Y
Valgono le seguenti regole di signicatività per
Riuto
Riuto
H0 : F (x) = G(x) ∀x
H0 : F (x) = G(x) ∀x
e accetto
e accetto
α:
H1 : F (x) ≥ G(x) ∀x
H1 : F (x) ≤ G(x) ∀x
st
e
F (x) > G(x)
per qualche
x
(ossia
X ≤Y)
st
e
F (x) < G(x)
per qualche
x
(ossia
se
Tx < wα .
X ≥ Y )se Tx > w1−α .
http://www.windizio.altervista.org/appunti/
File distribuito con licenza Creative Commons BY-NC-SA 2.5 IT
Copyright © 2008 - Michele Tartara
11
H0 : F (x) = G(x) ∀x e accetto H1 : F (x) 6= G(x) se Tx < wα/2 oppure TX > w1−α/2 .
TX è distribuita (più o meno come una gaussiana) attorno alla propria media c.
c + (c − wm,n (α)) = 2c − wm,n (α) = m(m + n + 1) − wm,n (α)
Riuto
NB: la statistica
Quindi
wm,n (1 − α) =