qui - Dipartimento di Scienze Ambientali, Informatica e Statistica

Tutorato di Probabilità e Statistica
Samuel Rota Bulò
Università Ca’ Foscari di Venezia
Dipartimento di informatica
6 giugno 2006
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Statistica
In un problema di statistica abbiamo delle quantità osservate
x1 , . . . , xn .
Le osservazioni sono modellate come valori assunti da una
famiglia di v.a. X1 , . . . , Xn .
La legge degli Xi dipende da un parametro θ ∈ Θ
P θ rappresenta la funzione di probabilità associata al
parametro θ.
Indichiamo con E θ (X ) la speranza matematica di X rispetto
alla probabilità P θ .
Definition
Definiamo modello statistico la tupla (Ω, A, (P θ )θ∈Θ ).
OBIETTIVO: costruire un modello statistico che descriva
ragionevolmente il problema che analizziamo. Stabilire i
possibili valori di θ.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Problemi di stima . . .
Definition
Consideriamo un modello statistico ed un osservazione
X = (X1 , . . . , Xn ). Si chiama statistica una v.a. della forma
T = t(X1 , . . . , Xn )
dove t è una funzione nota.
Definition
Data una funzione ψ : Θ → Rm chiameremo stimatore del
parametro ψ(θ) una statistica T a valori in R m .
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
. . . Problemi di stima . . .
Example
Consideriamo {Xn }n una famiglia di v.a. di una certa legge di
parametro θ, L(θ). Due esempi di quantità da stimare e quindi
valori ψ(θ) sono la media e la varianza. Se pensiamo ad esempio
ad una legge di Bernoulli, il parametro θ è p, e sia la media che la
varianza sono funzioni (ψ) di questo parametro. Lo stimatore
invece è una funzione cha a partire dalle osservazioni di queste v.a.,
cerca di fornire un valore plausibile per la quantià ψ(θ) da stimare.
Definition
Uno stimatore T del parametro ψ(θ) è non distorto o (corretto) se
per ogni θ ∈ Θ si ha
E θ [T ] = ψ(θ)
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Stimatori non distorti di media e varianza
Stimatore non distorto della media
n
X =
1X
Xi
n
i=1
Stimatore non distorto della varianza con media µ nota
n
σ2 =
1X
(Xi − µ)2
n
i=1
Stimatore non distorto della varianza
n
S2 =
2
1 X
Xi − X
n−1
i=1
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
. . . Problemi di stima
Definition
Uno stimatore T del parametro ψ(θ) è consistente, se al crescere
della dimensione del campione i suoi valori si avvicinano sempre più
al parametro da stimare
lim P θ {|T − ψ(θ)| < } = 1
n→+∞
o equivalentemente se
lim Var [T ] = 0
n→+∞
Definition
Uno stimatore T è detto efficiente, se la sua varianza è piccola.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Intervallo di confidenza
Definition
Date due statistiche T1 = t1 (X1 , . . . , Xn ) e T2 = (X1 , . . . , Xn ), si
dice che IX = [T1 , T2 ] è un intervallo di confidenza (o di fiducia)
per ψ(θ) di livello 1 − α, 0 < α < 1 se per ogni θ ∈ Θ si ha
P θ {ψ(θ) ∈ IX } ≥ 1 − α
IX è un intervallo aleatorio, mentre ψ(θ) non è una v.a.
aleatoria ma semplicemente un parametro.
gli intervalli di confidenza di un certo livello, non sono unici !
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Quantità pivotali
Definition
Si chiama quantità pivoltale una v.a. Q(X , θ) tale che la sua legge
rispetto a P θ non dipende da θ; tale cioè che non dipenda da θ la
quantità
P θ {Q(X , θ) ∈ A}
per ogni A ⊂ R.
Se la legge di Q(X , θ) è nota si possono calcolare i quantili
q1 , q2 tali che per un certo 0 < α < 1
P θ {q1 ≤ Q(X , θ) ≤ q2 } = 1 − α
Se ora riusciamo ad isolare θ otteniamo
{q1 ≤ Q(X , θ) ≤ q2 } = {t1 (X ) ≤ θ ≤ t2 (X )}
con [t1 (X ), t2 (X )] un intervallo di confidenza di livello 1 − α
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Legge t di Student
Definition
Si chiama legge t di Student con n gradi di libertà (e si scrive
t(n)) la legge di una v.a. Z della forma
X √
n
Z=√
Y
dove X ∼ N(0, 1) e Y ∼ X 2 (n) = Γ
n 1
2, 2
Per la f.r. di una legge t di Student facciamo riferimento a
delle tavole numeriche.
I quantili di ordine α di una legge t di Student con n gradi di
libertà li indichiamo con tα (n)
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Intervallo di confidenza di campioni gaussiani
Supponiamo di avere delle osservazioni X1 , . . . , Xn indip. di
legge normale
Per il teorema
del limite centrale abbiamo che
√
(X − µ) σn ∼ N(0, 1).
Supponiamo la varianza nota, allora
σ
σ
X − √ φ1−α/2 , X + √ φ1−α/2
n
n
è un intervallo di confidenza per la media di livello 1 − α.
Se la varianza non è nota e la approssimiamo con S 2 allora
S
S
X − √ t1−α/2 (n − 1), X + √ t1−α/2 (n − 1)
n
n
è un intervallo di confidenza per la media di livello 1 − α.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Stima di una proporzione
Determiniamo un intervallo di fiducia per una proporzione (o
frequenza)
Ci troviamo di fronte ad un campione di v.a. Bernoulliane,
che indicano se un certo oggetto è di un certo tipo oppure no.
Per il teorema del limite centrale per n → ∞,
√ X −θ
n√
∼ N(0, 1)
θ(1−θ)
Un intervallo di fiducia per il parametro θ di livello α per n
grande è


s
s
X
(1
−
X
)
X
(1
−
X
)

X − φ1−α/2
, X + φ1−α/2
n
n
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Test . . .
Definition
Con un problema di test ci troviamo di fronte ad una partizione
{ΘH , ΘA } di Θ e si vuole stabilire se θ ∈ ΘH oppure no. L’insieme
ΘH è detto ipotesi, mentre ΘA è l’alternativa.
L’insieme delle osservazioni D che conducono al rigetto
dell’ipotesi è detto regione critica (o di rigetto).
Errori
L’errore di prima specie è la probabilità di respingere un’ipotesi che
in realtà è vera. L’errore di seconda specie è invece la probabilità
di non respingere un’ipotesi che in realtà è falsa.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
. . . Test . . .
Definition
Si chiama potenza del test di regione critica D la funzione
πD : Θ → [0, 1] definita da
πD (θ) = P θ {X ∈ D}
Se θ ∈ ΘH (ipotesi vera), πD (θ) è l’errore di prima specie.
Se θ ∈ ΘA (ipotesi non vera), 1 − πD (θ) è l’errore di seconda
specie.
Definition
Si chiama livello del test di regione critica D la quantità
αD = sup P θ {X ∈ D} = sup πD (θ)
θ∈ΘH
θ∈ΘH
Il livello αD è l’estremo superiore delle probabilità di errore di
prima specie.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
. . . Test
Posto θ0 un parametro di riferimento, distinguiamo
principalmente 3 tipi di test:
1
2
3
test bilaterale: H : θ = θ0 , A : θ 6= θ0
test unilaterale destro: H : θ ≤ θ0 , A : θ > θ0
test unilaterale sinistro: H : θ ≥ θ0 , A : θ < θ0
Il test bilaterale è anche detto a due code, mentre quelli
unilaterali ad una coda.
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
Test su media di campioni gaussiani . . .
Consideriamo un campione gaussiano X1 . . . Xn di varianza
nota e fissiamo una media di riferimento µ0 .
√
0
Poniamo T = n X −µ
σ .
Test bilaterale della media
H : µ = µ0 , A : µ 6= µ0
Regione critica di livello α: {|T | > φ1−α/2 }
Test unilaterale destro della media
H : µ ≤ µ0 , A : µ > µ0
Regione critica di livello α: {T > φ1−α }
Test unilaterale sinistro della media
H : µ ≥ µ0 , A : µ < µ0
Regione critica: {T < −φ1−α }
Samuel Rota Bulò
Tutorato di Probabilità e Statistica
. . . Test su media di campioni gaussiani
Consideriamo un campione gaussiano X1 . . . Xn di varianza
non nota e fissiamo una media di riferimento µ0 .
√
0
Poniamo T = n X −µ
S .
Test bilaterale di Student della media
H : µ = µ0 , A : µ 6= µ0
Regione critica di livello α: {|T | > t1−α/2 (n − 1)}
Test unilaterale destro di Student della media
H : µ ≤ µ0 , A : µ > µ0
Regione critica di livello α: {T > t1−α (n − 1)}
Test unilaterale sinistro di Student della media
H : µ ≥ µ0 , A : µ < µ0
Regione critica: {T < −t1−α (n − 1)}
Samuel Rota Bulò
Tutorato di Probabilità e Statistica