Intervalli di Fiducia

annuncio pubblicitario
Intervalli di Fiducia
Introduzione
Intervalli di fiducia per la media – Caso varianza
nota
Intervalli di fiducia per la media – Caso varianza
non nota
Intervalli di fiducia per i coefficienti di
regressione
Intervalli di fiducia per la risposta media
I t
Intervalli
lli di fiducia
fid i per i coefficienti
ffi i ti di
regressione multilineare
1
Intervalli di fiducia - Media
aritmetica
Intervalli
di fiducia
• Sino ad ora si sono considerati diversi stimatori puntuali:
– per esempio la media Y è un oggetto il cui valore atteso
coincide con il parametro cercato μ. D
D’altronde
altronde ll’osservazione
osservazione
di Y sarà (sempre) un po’ più grande o un po’ più piccola del
valore vero
– non possiamo affermare che y è esattamente uguale a μ.
• Si potrebbe costruire un intervallo del tipo
μ = y ± Δy
•
cui riteniamo
te a o molto
o to probabile
p obab e cada il valore
a o e vero
e o di
d μ
μ.
in cu
Y
Δy dipenderà dall’ampiezza delle fluttuazioni
di
• Tale tipo di intervallo prende il nome di
– intervallo di fiducia
– o intervallo fiduciario
– o intervallo di confidenza
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
1
Intervalli di Fiducia
Introduzione
Intervalli
di fiducia
• Determinare l’intervallo di fiducia di una grandezza misurata θ,
equivale alla determinazione di due numeri θ1 e θ2, tali che
includano il valore vero con certezza.
• Comunque, si è visto che non è possibile, da un campione finito di
dati sperimentali, trarre delle conclusioni riguardo alla popolazione
che siano certe al 100 %
• E’ possibile stabilire però un intervallo in cui il valore vero ha
probabilità molto elevata (esempio: 95% o 99%) di cadere.
cadere
3
Intervalli di Fiducia
Procedura
Intervalli
di fiducia
• Si sceglie una probabilità γ vicina a 1. Tale probabilità prende il
nome di livello di fiducia.
• Si determinano quindi due quantità Θ1 e Θ2 tali che la probabilità
che Θ1 e Θ2 racchiudano il valore esatto Θ sia eguale a γ.
• L’intervallo di estremi Θ1 e Θ2 si chiama intervallo di fiducia e si
indica con il simbolo:
CONF {Θ1 ≤ Θ ≤ Θ 2 }
4
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
2
Intervalli di Fiducia
Procedura
Intervalli
di fiducia
• Scegliere γ = 95% equivale a dire che in presenza di un campione
di dati c’è una probabilità del 95% che il valore vero ricada
nell’intervallo determinato.
• La scelta di γ implica una differente ampiezza dell’intervallo di
fiducia calcolato.
• All’aumentare di γ, quale è il comportamento della “larghezza”
dell’intervallo di fiducia?
5
Intervalli di fiducia della Media
nel caso di varianza nota.
Intervalli
di fiducia
• Sia dato un certo campione di dati sperimentali
y1 , y2 , ... , yn
• Ipotesi:
– Tutte le grandezze misurate sono caratterizzate dalla stessa
variabile aleatoria (eguale media e varianza) e sono
indipendenti.
– La varianza della variabile aleatoria è nota (per esempio da
pregresse misure)
– La
L media,
di invece,
i
è ignota.
i
t
6
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
3
Intervalli di Fiducia
Caso di varianza nota
Intervalli
di fiducia
La determinazione dell’intervallo di fiducia passa per i seguenti punti:
1. Scegliere un livello di fiducia γ
2 Calcolare il valore c tale che:
2.
FX (c ) − FX (− c ) = γ
dove F è la distribuzione cumulativa della normale di tipo
standard, ovvero X ~ N(0,1)
3. Calcolare
k = cσ
n
1. L’intervallo di fiducia per la popolazione sarà:
conf {y − k ≤ μ ≤ y + k }
7
Intervalli di Fiducia
Caso di varianza nota
Intervalli
di fiducia
• Gli n campioni dei dati sperimentali possono essere visti come n
singole osservazioni della stessa variabile aleatoria Y (con eguale
distribuzione,, eguale
g
varianza,, eguale
g
media).
)
• La variabile media del campione è quindi una variabile aleatoria
di media μ e varianza σ2/n.
⎛ σ2 ⎞
Yn ~ N ⎜⎜ μ, ⎟⎟
⎝ n ⎠
• La variabile aleatoria
X=
Y −μ
n ~ N (0,1)
σ
È una variabile aleatoria normale di tipo standard.
8
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
4
Intervalli di Fiducia
Caso di Varianza Nota
Intervalli
di fiducia
• Il valore y è quindi un valore osservato della variabile Y
• Determiniamo innanzitutto il valore di c tale che
P(− c ≤ X ≤ c ) = γ
• Questa ineguaglianza può essere scritta come:
⎛
Y −μ
⎞
P⎜⎜ − c ≤ n
≤ c ⎟⎟ = γ
σ
⎝
⎠
9
Intervalli di Fiducia
Caso di Varianza Nota
Intervalli
di fiducia
• Da cui:
σ
σ ⎞
⎛
P⎜ − c
≤Y −μ ≤c
⎟=γ
n
n⎠
⎝
• Con qualche passaggio si ottiene infine:
P (Y − k ≤ μ ≤ Y + k ) = γ
• dove
k =c
σ
n
Questo
passaggio
merita un po’
di attenzione!
(riflettere sulle
VA in gioco)
• La relazione di prima si legge:
– La probabilità che il valore vero della media μ sia racchiuso
in un intervallo centrato sulla stima Y con uno spessore k è
pari a γ
10
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
5
Intervalli di fiducia - Media aritmetica –
Caso Varianza a priori nota
Intervalli
di fiducia
• Importante:
Nella diseguaglianza μ è sempre costante. È l’intervallo di fiducia
p
che varia con il campione.
• Per chiarire il concetto, si consideri il caso (poco realistico) in cui
si abbia la conoscenza della popolazione in termini di media e
varianza.
• La popolazione sia, per esempio, di tipo Gaussiano con media e
varianza:
μY = 69
σ Y = 3.32
• Si prelevi da questa popolazione un campione di 10 elementi per
cui la variabile aleatoria media sia:
μY = 69
σY =
σY
= 1.02
N
Intervalli di fiducia - Media aritmetica –
Caso Varianza a priori nota
Intervalli
di fiducia
Intervalli di fiducia
a
calcolati
• Se uno statistico ripete il calcolo dell’intervallo di fiducia più volte
(ovviamente su campioni differenti):
67
…
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
69
71
Solo una
volta su 20
ll’intervallo
intervallo
di fiducia
non
racchiude il
valore vero
6
Intervalli di Fiducia
Caso di Varianza Nota
Intervalli
di fiducia
• L’intervallo di fiducia rappresenta un intervallo di numeri reali in
cui ricada il valore vero della media (μ), con una probabilità pari al
95%.
• Nel caso in cui l’intervallo di fiducia sia del 99%, l’intervallo è più
grande o più piccolo di quello determinato precedentemente?
• Quale sarebbe l’intervallo di confidenza per un livello γ del 100%?
13
Intervalli di fiducia - Media aritmetica –
Caso Varianza a priori nota
Intervalli
di fiducia
• All’aumentare del numero di prove, la varianza della media
aritmetica (ovvero l’incertezza nella stima) decresce
• L
L’intervallo
intervallo di valori in cui sono più ricorrenti le stime per la media
aritmetica si restringe:
N 2 > N1
1.2
σY1 =
1
σ
1.2
N1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0
0
μ−c1
μ
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
μ+c1
σY 2 =
σ
N2
μ−c2 μ μ+c2
7
Intervalli di fiducia - Media aritmetica –
Caso Varianza a priori nota
Intervalli
di fiducia
• Come valutare lo spessore c dell’intervallo di fiducia
• La costante cγ può essere valutata dalla seguente probabilità:
(
)
P − cγ < Z < cγ = γ
• Essendo Z la variabile aleatoria Gaussiana standard (di media 0 e
varianza 1)
0.5
Valori tipici di cγ per differenti livelli di fiducia γ
γ
cγ
09
0.9
1 645
1.645
0.95
1.960
0.99
2.576
0.999
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
3.291
0
-3
-2
-1
0
1
2
3
γ=0.95
γ=0.99
Intervalli di fiducia - Media
aritmetica – Caso Varianza non nota
Intervalli
di fiducia
• Il calcolo dell’intervallo di fiducia emerge in maniera naturale dalla
natura Gaussiana dello stimatore media aritmetica
• Tale derivazione è possibile grazie alla conoscenza pregressa della
varianza dell’errore sperimentale
• Nella realtà, questo è raramente possibile e si conosce solo una
stima della varianza dell’errore sperimentale:
s2 =
1 n
( yi − y )2
∑
N − 1 i =1
• Tale eventualità implica un’ulteriore sorgente di incertezza da
tenere in conto nel calcolo dell’intervallo di fiducia
• In maniera intuitiva, dovremmo considerare degli intervalli più
ampi di quelli registrati nel caso di conoscenza della varianza
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
8
Intervalli di fiducia della Media
Caso di Varianza non nota.
Intervalli
di fiducia
I passi per la determinazione dell’intervallo di fiducia sono i seguenti:
1. Scegliere un livello di fiducia γ
2 Calcolare il valore c tale che:
2.
FT (c ) =
1
(1 + γ )
2
Dove FT(y) è la funzione di distribuzione cumulativa della T di
student ad (n-1) gradi di libertà
3. Calcolare la media y e la varianza s2 del campione dei dati
sperimentali
sperimentali.
s
4. Calcolare
k =c
n
5. L’intervallo di fiducia sarà:
conf {y − k ≤ μ ≤ y + k }
17
Intervalli di fiducia della Media
Caso di Varianza non nota.
Intervalli
di fiducia
• La variabile aleatoria:
X= n
Y −μ
σ
• È una variabile normale di tipo standard
• Si è gia visto che lo stimatore imparziale varianza s2 può essere
correlata ad una variabile aleatoria χ2 a n-1 gradi di libertà :
s2 =
1 n
σ2 2
2
Y
Y
−
=
) n − 1 χ n −1
∑( i
n − 1 i =1
⇒
χ n2−1
=
s2
n −1 σ 2
18
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
9
Intervalli di fiducia della Media
Caso di Varianza non nota.
Intervalli
di fiducia
• In conclusione la variabile aleatoria:
Y −μ
T=
Z
χ n2−1
n −1
= n
σ
s2
= n
Y −μ
s
σ2
• È una variabile aleatoria di tipo T di student ad n -1 gradi di
libertà
• Il passaggio alla T di student è necessario per la semplificazione
della varianza σ2 ignota.
19
Intervalli di fiducia della Media
Caso di Varianza non nota.
Intervalli
di fiducia
• Il campione di risultati sperimentali può quindi essere visto, nel
suo insieme, come un risultato della variabile aleatoria T di
student,, una volta nota la media dei dati sperimentali
p
e la
varianza stimata.
• È possibile quindi determinare quale è la probabilità che tale
variabile assumi valori compresi in un certo intervallo.
P (Θ1 ≤ Θ ≤ Θ 2 ) = γ
20
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
10
Intervalli di fiducia della Media
Caso di Varianza non nota.
Intervalli
di fiducia
• È necessario quindi determinare, data la simmetria della
distribuzione, un numero c tale che
P(− c ≤ T ≤ c ) = FT (c ) − FT (− c ) = γ
• Data la simmetria della distribuzione, F(-c) = 1-F(c) e quindi
P(− c ≤ T ≤ c ) = 2 FT (c ) − 1 = γ
• Da cui
FT (c ) =
1
(1 + γ )
2
21
Intervalli di fiducia della Media
Caso di Varianza non nota.
Intervalli
di fiducia
• La distribuzione T di student è generalmente più larga della
distribuzione normale di tipo standard.
0.5
0.4
n
0.3
y
0.2
0.1
0.0
‐3
‐2
‐1
0
1
2
3
x
• Pertanto ci attendiamo un intervallo di ampiezza più grande,
rispetto al caso in cui la varianza sia nota in modo esatto.
22
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
11
Intervalli di fiducia per stimatori
Caso generica per varianza non nota.
Intervalli
di fiducia
• Dato uno stimatore generico θ̂ (N.B. di tipo gaussiano), la
variabile aleatoria
θˆ − θ
sθ2
• Rappresenta sempre una variabile aleatoria di tipo T di student.
• Intuitivamente, tale grandezza è la distanza tra valore osservato e
valore vero, normalizzata per la radice della varianza
2
• La grandezza sθ è il valore osservato della varianza dello
stimatore
• Il numero di gradi di libertà della T di student dipende invece da
caso a caso. Si deve fare riferimento ai gradi di libertà della stima
della varianza
23
Intervalli di fiducia per i coefficienti
di regressione
Intervalli
di fiducia
• Oltre alle stime puntuali sui coefficienti di regressione è possibile
valutare un intervallo di fiducia per i coefficienti stimati della
regressione.
g
• Lo “spessore” dell’intervallo di fiducia è una misura della qualità
della regressione.
24
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
12
Intervalli di fiducia per i coefficienti
di regressione
Intervalli
di fiducia
• Nel caso della regressione lineare, è necessaria una stima
imparziale della varianza dell’errore sperimentale:
n
s 2 = MSE =
∑ (y
i =1
− b0 − b1 xi )
2
i
n−2
• In parecchi libri di testo tale espressione prende anche il nome di
Errore Quadratico Medio (in inglese: Mean Square Errore,
acronimo MSE)
25
Intervalli di fiducia per i coefficienti
di regressione
Intervalli
di fiducia
• Si è gia visto che gli stimatori b0 e b1 sono delle variabili aleatorie
Gaussiane, nell’ipotesi che l’errore nella misura all’esperimento iesimo sia Gaussiano.
• Si può dimostrare che le seguenti variabili aleatorie:
b1 − β1
MSE
S xx
e
b0 − β0
⎛ 1 x2 ⎞
⎟⎟
MSE ⎜⎜ +
⎝ n S xx ⎠
sono delle distribuzioni T di student ad n-2 gradi di libertà.
26
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
13
Intervalli di fiducia per i coefficienti
di regressione
Intervalli
di fiducia
• Procedura:
• Si sceglie un livello di fiducia γ
• Calcolare il valore c tale che:
FT (c ) =
1
(1 + γ )
2
• Dove F è la distribuzione t di student ad n-2 gradi di libertà.
• Calcolare
k1 = c
⎛ 1 x2 ⎞
⎟
k 0 = c MSE ⎜ +
⎜n S ⎟
xx ⎠
⎝
MSE
S xx
• Gli intervalli di fiducia saranno:
conf { b1 − k1 ≤ β1 ≤ b1 + k1 }
conf { b0 − k0 ≤ β0 ≤ b0 + k0 }
e
27
Intervalli di fiducia per i coefficienti
di regressione
Intervalli
di fiducia
• La quantità:
se(b1 ) =
MSE
S xx
• Si chiama errore standard della pendenza e misura la precisione
con cui β1 è stata stimata.
• In modo analogo, la quantità:
⎡1 x ⎤
se(b0 ) = MSE ⎢ +
⎥
⎣ n S xx ⎦
• Si chiama errore standard dell’intercetta e misura la precisione
con cui β0 è stata stimata.
28
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
14
Intervalli di fiducia per la risposta
media
Intervalli
di fiducia
• Un ulteriore esempio è la determinazione dell’intervallo di fiducia
per la risposta media E(y=b0+b1x) per un particolare valore della
variabile regressore
g
x
• La stima puntuale fornisce un valore:
yˆ 0 = b0 + b1 x0
• Ci si pone il problema della determinazione di un intervallo di
fiducia per la variabile y0 in corrispondenza del valore x0
29
Intervalli di fiducia per la risposta
media
Intervalli
di fiducia
• Il primo passaggio consiste nella determinazione della varianza
della variabile aleatoria
• La varianza è:
V ( yˆ 0 ) = V (b0 + b1 x0 ) = V [Y + b1 ( x0 − x )] =
2
⎡ 1 ( x − x )2 ⎤
σ 2 σ 2 ( x0 − x )
+
= σ2 ⎢ + 0
⎥ + Cov (Y , b1 )
n
S xx
S xx ⎦
⎣n
Si può
dimostrare che
le VA Y e b1
sono
indipendenti
• Se per σ2 prendiamo lo stimatore MSE si può dimostrare che la
variabile aleatoria:
y0 − yˆ 0
⎛ 1 ( x − x )2
MSE ⎜ + 0
⎜n
S xx
⎝
⎞
⎟
⎟
⎠
• È una distribuzione T di student ad n-2 g.d.l.
30
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
15
Intervalli di fiducia per la risposta
media
Intervalli
di fiducia
• Procedura:
• Scegliere un livello di fiducia γ
• Calcolare il valore c tale che:
FT (c ) =
1
(1 + γ )
2
Dove F è la distribuzione T di student ad n-2 gradi di libertà.
• Calcolare
⎛ 1 ( x0 − x )2 ⎞
⎟
k ( x0 ) = c MSE ⎜⎜ +
⎟
n
S
xx
⎝
⎠
• L’intervallo di fiducia sarà:
conf {yˆ 0 − k ( x0 ) ≤ y0 ≤ yˆ 0 + k (x0 )}
31
Intervalli di fiducia per la risposta
media
Intervalli
di fiducia
• L’intervallo di fiducia è variabile con x, esso assumerà valore
minimo in corrispondenza del centroide dei dati.
1.3
1.2
1.1
1
0.9
0.8
0.7
0.6
0.5
0.4
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
32
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
16
Intervalli di fiducia per i Coefficienti
di una regressione multilineare
Intervalli
di fiducia
• Problema:
• Regressione multilineare:
y
(n ×1)
=
F⋅α
(n × p )( p ×1)
⇒
(
)
−1
a = FT ⋅ F FT ⋅ y
• Ipotesi:
• Gli errori εi sono indipendenti e normalmente distribuiti.
• La varianza degli errori è uguale a σ2
• Ne segue che la stima a è normalmente distribuita con vettore
media α e matrice di covarianza σ2(FT F)-1
• Questo implica che la marginale di ogni coefficiente di
regressione è normale con media αj e varianza σ2Cjj, l’elemento
diagonale della matrice (FT F)-1
33
Intervalli di fiducia per i Coefficienti
di una regressione multilineare
Intervalli
di fiducia
• Ne consegue che la generica statistica:
aj −α j
MSE C jj
• È una distribuzione t di student ad n-p gradi di libertà, dove MSE è
la stima di σ2, così come definito nel semplice caso della
regressione lineare.
34
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
17
Intervalli di fiducia per i Coefficienti
di una regressione multilineare
Intervalli
di fiducia
• Procedura:
• Scegliere un livello di fiducia γ
• Calcolare il valore c tale che:
FT (c ) =
1
(1 + γ )
2
• Dove F è la distribuzione t di student ad n-p gradi di libertà.
• Calcolare
k = c MSE C jj
• L’intervallo di fiducia sarà:
conf {a j − k ≤ α j ≤ a j + k }
35
Analisi dei Processi Chimici e Biotecnologici ‐
Intervalli di fiducia
18
Scarica