qui - Dipartimento di Scienze Ambientali, Informatica e Statistica

Tutorato di Probabilità e Statistica
Samuel Rota Bulò
Università Ca’ Foscari di Venezia
Dipartimento di informatica
6 giugno 2006
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Statistica
In un problema di statistica abbiamo delle quantità osservate
x1 , . . . , xn .
Le osservazioni sono modellate come valori assunti da una
famiglia di v.a. X1 , . . . , Xn .
La legge degli Xi dipende da un parametro θ ∈ Θ
P θ rappresenta la funzione di probabilità associata al
parametro θ.
Indichiamo con E θ (X ) la speranza matematica di X rispetto
alla probabilità P θ .
Definition
Definiamo modello statistico la tupla (Ω, A, (P θ )θ∈Θ ).
OBIETTIVO: costruire un modello statistico che descriva
ragionevolmente il problema che analizziamo. Stabilire i
possibili valori di θ.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Problemi di stima . . .
Definition
Consideriamo un modello statistico ed un osservazione
X = (X1 , . . . , Xn ). Si chiama statistica una v.a. della forma
T = t(X1 , . . . , Xn )
dove t è una funzione nota.
Definition
Data una funzione ψ : Θ → Rm chiameremo stimatore del
parametro ψ(θ) una statistica T a valori in R m .
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
. . . Problemi di stima . . .
Example
Consideriamo {Xn }n una famiglia di v.a. di una certa legge di
parametro θ, L(θ). Due esempi di quantità da stimare e quindi
valori ψ(θ) sono la media e la varianza. Se pensiamo ad esempio
ad una legge di Bernoulli, il parametro θ è p, e sia la media che la
varianza sono funzioni (ψ) di questo parametro. Lo stimatore
invece è una funzione cha a partire dalle osservazioni di queste v.a.,
cerca di fornire un valore plausibile per la quantià ψ(θ) da stimare.
Definition
Uno stimatore T del parametro ψ(θ) è non distorto o (corretto) se
per ogni θ ∈ Θ si ha
E θ [T ] = ψ(θ)
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Stimatori non distorti di media e varianza
Stimatore non distorto della media
n
X =
1X
Xi
n
i=1
Stimatore non distorto della varianza con media µ nota
n
σ2 =
1X
(Xi − µ)2
n
i=1
Stimatore non distorto della varianza
n
S2 =
2
1 X
Xi − X
n−1
i=1
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
. . . Problemi di stima
Definition
Uno stimatore T del parametro ψ(θ) è consistente, se al crescere
della dimensione del campione i suoi valori si avvicinano sempre più
al parametro da stimare
lim P θ {|T − ψ(θ)| < } = 1
n→+∞
o equivalentemente se
lim Var [T ] = 0
n→+∞
Definition
Uno stimatore T è detto efficiente, se la sua varianza è piccola.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Intervallo di confidenza
Definition
Date due statistiche T1 = t1 (X1 , . . . , Xn ) e T2 = (X1 , . . . , Xn ), si
dice che IX = [T1 , T2 ] è un intervallo di confidenza (o di fiducia)
per ψ(θ) di livello 1 − α, 0 < α < 1 se per ogni θ ∈ Θ si ha
P θ {ψ(θ) ∈ IX } ≥ 1 − α
IX è un intervallo aleatorio, mentre ψ(θ) non è una v.a.
aleatoria ma semplicemente un parametro.
gli intervalli di confidenza di un certo livello, non sono unici !
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Quantità pivotali
Definition
Si chiama quantità pivoltale una v.a. Q(X , θ) tale che la sua legge
rispetto a P θ non dipende da θ; tale cioè che non dipenda da θ la
quantità
P θ {Q(X , θ) ∈ A}
per ogni A ⊂ R.
Se la legge di Q(X , θ) è nota si possono calcolare i quantili
q1 , q2 tali che per un certo 0 < α < 1
P θ {q1 ≤ Q(X , θ) ≤ q2 } = 1 − α
Se ora riusciamo ad isolare θ otteniamo
{q1 ≤ Q(X , θ) ≤ q2 } = {t1 (X ) ≤ θ ≤ t2 (X )}
con [t1 (X ), t2 (X )] un intervallo di confidenza di livello 1 − α
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Legge t di Student
Definition
Si chiama legge t di Student con n gradi di libertà (e si scrive
t(n)) la legge di una v.a. Z della forma
X √
n
Z=√
Y
dove X ∼ N(0, 1) e Y ∼ X 2 (n) = Γ
n 1
2, 2
Per la f.r. di una legge t di Student facciamo riferimento a
delle tavole numeriche.
I quantili di ordine α di una legge t di Student con n gradi di
libertà li indichiamo con tα (n)
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Intervallo di confidenza di campioni gaussiani
Supponiamo di avere delle osservazioni X1 , . . . , Xn indip. di
legge normale
Per il teorema
del limite centrale abbiamo che
√
(X − µ) σn ∼ N(0, 1).
Supponiamo la varianza nota, allora
σ
σ
X − √ φ1−α/2 , X + √ φ1−α/2
n
n
è un intervallo di confidenza per la media di livello 1 − α.
Se la varianza non è nota e la approssimiamo con S 2 allora
S
S
X − √ t1−α/2 (n − 1), X + √ t1−α/2 (n − 1)
n
n
è un intervallo di confidenza per la media di livello 1 − α.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Stima di una proporzione
Determiniamo un intervallo di fiducia per una proporzione (o
frequenza)
Ci troviamo di fronte ad un campione di v.a. Bernoulliane,
che indicano se un certo oggetto è di un certo tipo oppure no.
Per il teorema del limite centrale per n → ∞,
√ X −θ
n√
∼ N(0, 1)
θ(1−θ)
Un intervallo di fiducia per il parametro θ di livello α per n
grande è


s
s
X
(1
−
X
)
X
(1
−
X
)

X − φ1−α/2
, X + φ1−α/2
n
n
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Test . . .
Definition
Con un problema di test ci troviamo di fronte ad una partizione
{ΘH , ΘA } di Θ e si vuole stabilire se θ ∈ ΘH oppure no. L’insieme
ΘH è detto ipotesi, mentre ΘA è l’alternativa.
L’insieme delle osservazioni D che conducono al rigetto
dell’ipotesi è detto regione critica (o di rigetto).
Errori
L’errore di prima specie è la probabilità di respingere un’ipotesi che
in realtà è vera. L’errore di seconda specie è invece la probabilità
di non respingere un’ipotesi che in realtà è falsa.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
. . . Test . . .
Definition
Si chiama potenza del test di regione critica D la funzione
πD : Θ → [0, 1] definita da
πD (θ) = P θ {X ∈ D}
Se θ ∈ ΘH (ipotesi vera), πD (θ) è l’errore di prima specie.
Se θ ∈ ΘA (ipotesi non vera), 1 − πD (θ) è l’errore di seconda
specie.
Definition
Si chiama livello del test di regione critica D la quantità
αD = sup P θ {X ∈ D} = sup πD (θ)
θ∈ΘH
θ∈ΘH
Il livello αD è l’estremo superiore delle probabilità di errore di
prima specie.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
. . . Test
Posto θ0 un parametro di riferimento, distinguiamo
principalmente 3 tipi di test:
1
2
3
test bilaterale: H : θ = θ0 , A : θ 6= θ0
test unilaterale destro: H : θ ≤ θ0 , A : θ > θ0
test unilaterale sinistro: H : θ ≥ θ0 , A : θ < θ0
Il test bilaterale è anche detto a due code, mentre quelli
unilaterali ad una coda.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Test su media di campioni gaussiani . . .
Consideriamo un campione gaussiano X1 . . . Xn di varianza
nota e fissiamo una media di riferimento µ0 .
√
0
Poniamo T = n X −µ
σ .
Test bilaterale della media
H : µ = µ0 , A : µ 6= µ0
Regione critica di livello α: {|T | > φ1−α/2 }
Test unilaterale destro della media
H : µ ≤ µ0 , A : µ > µ0
Regione critica di livello α: {T > φ1−α }
Test unilaterale sinistro della media
H : µ ≥ µ0 , A : µ < µ0
Regione critica: {T < −φ1−α }
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
. . . Test su media di campioni gaussiani
Consideriamo un campione gaussiano X1 . . . Xn di varianza
non nota e fissiamo una media di riferimento µ0 .
√
0
Poniamo T = n X −µ
S .
Test bilaterale di Student della media
H : µ = µ0 , A : µ 6= µ0
Regione critica di livello α: {|T | > t1−α/2 (n − 1)}
Test unilaterale destro di Student della media
H : µ ≤ µ0 , A : µ > µ0
Regione critica di livello α: {T > t1−α (n − 1)}
Test unilaterale sinistro di Student della media
H : µ ≥ µ0 , A : µ < µ0
Regione critica: {T < −t1−α (n − 1)}
Samuel Rota Bulò
Tutorato di Probabilità e Statistica