Inferenza Statistica
• Intervalli di fiducia
• Introduzione
• Caso varianza nota
• Caso varianza non nota
• Intervalli di fiducia per i coefficienti di regressione
1
Inferenza Statistica - Riepilogo
• Il campione è un sottoinsieme scelto a caso nella
popolazione
CAMPIONE
POPOLAZIONE
Frequenza relativa f con cui
si osservano i risultati sono
utilizzati per calcolare
Le probabilità p(y) sono
usate per il calcolo di
Y
e
s2
Essi cambiano valore al
variare del campione
La media è un esito di una
VA:
⎛ σ2 ⎞
YN ~ N ⎜⎜ μ , ⎟⎟
⎝ N ⎠
M. Grosso Statistica
Intervalli di Fiducia
μ e σ2
che sono dei parametri
COSTANTI della
popolazione
1
Intervalli di Fiducia - Introduzione
• Sino ad ora si sono considerati diversi stimatori
puntuali:
– per esempio la media Y è un oggetto il cui valore
atteso coincide con il parametro cercato μ.
L’osservazione di Y sarà un po’ più grande o un po’
più piccolo del valore vero
• Non possiamo affermare che Y è esattamente uguale a
μ
μ.
• Si potrebbe costruire un intervallo di fiducia del tipo
μ = y ± Δy
in cui è molto probabile cada il valore vero di μ.
Δy dipenderà dall’ampiezza delle fluttuazioni di Y
3
Intervalli di fiducia
• Il primo passo è decidere quale è il livello di fiducia γ
tale che ll’intervallo
intervallo di valori ottenuto contenga
verosimilmente il valore vero μ.
• Il livello di fiducia rapresenta quindi una probabilità.
In genere (ma non sempre) si fissa un livello di fiducia
pari a γ = 0.95.
• In parole povere,
povere si utilizzerà una tecnica che ci darà
darà,
nel momento in cui si ripetono un gran numero di
campioni, un intervallo corretto γ·100 volte su 100
4
M. Grosso Statistica
Intervalli di Fiducia
2
Intervalli di fiducia
• Esempio:
• Si consideri un campione
mp
di dimensioni
m
N proveniente
p
da una popolazione di tipo gaussiano di media μ e
deviazione standard σ
• Sarà quindi
Media campione Y
Popolazione Y
media :
deviazione standard
μY
σY
media :
μY
deviazione standard
SE =
σY
N
5
Intervalli di fiducia
• Scelto il livello di fiducia (esempio: γ=0.95), il nostro
obiettivo è la determinazione di un intervallo di valori
tale che l’esito della variabile aleatoria “media
campione” cada nel 95% dei casi in tale intervallo
• Sfruttando le tabelle delle probabilità per la
distribuzione di tipo Standard e le proprietà delle
trasformazioni lineari
P(− c < Z < c ) = 0.95
⇒
c = z0.025 = 1.96
⎛
⎞
Y −μ
P⎜⎜ − z0.025 <
< z0.025 ⎟⎟ = P (− 1.96 SE < Y − μ < 1.96 SE )
SE
⎝
⎠
6
M. Grosso Statistica
Intervalli di Fiducia
3
Intervalli di fiducia
• Da cui:
P(μ − 1.96 SE < Y < μ + 1.96 SE ) = 0.95
Area = 0.95
PY ( y )
μ−1.96 SE
μ
C’è il 95% di
probabilità che il
valore osservato
della media cada
nell’intervallo rosso
μ+1.96 SE
Intervallo simmetrico rispetto all’origine
7
Intervalli di fiducia
• Manipolando la diseguaglianza all’interno della
parentesi
parentesi:
P(Y − 1.96 SE < μ < Y + 1.96 SE ) = 0.95
• La relazione ottenuta fornisce una stima
dell’intervallo di fiducia
• N.B. in questo caso la deviazione standard σ della
popolazione
l i
è supposta nota
• Importante:
Nella diseguaglianza μ è sempre costante. È
l’intervallo di fiducia che varia con il campione.
8
M. Grosso Statistica
Intervalli di Fiducia
4
Intervalli di fiducia – Esempio
• Si consideri un caso (irrealistico) in cui si ha accesso
alla conoscenza della popolazione in termini di media e
varianza.
varianza
• La popolazione sia di tipo Gaussiano con media e
varianza:
μY = 69
σ Y = 3.32
Sono entrambi noti a priori
• Si prelievi da questa popolazione un campione di 10
elementi per cui la variabile aleatoria media sia:
μY = 69
SE = σ Y =
σY
= 1.02
N
9
Intervalli di fiducia - Esempio
Intervalli di fidu
ucia
calcolati
• Se uno statistico ripete il calcolo dell’intervallo di
fiducia piu’ volte (su campioni differenti):
M. Grosso Statistica
Intervalli di Fiducia
67
…
69
71
Solo una
volta su 20
l’intervallo
di fiducia
non
racchiude il
valore vero
10
5
Intervalli di fiducia - Esempio
• Ovviamente,l’opportunità di ripetere più volte
ll’esperienza
esperienza (e considerare quindi differenti campioni)
è possibile solo dal punto di vista teorico e lo
statistico sa che avrà a disposizione solo un campione
per trarre le sue conclusioni dalla media.
• La cosa importante è avere uno strumento che
permette potenzialmente,
permette,
potenzialmente di dare la risposta esatta il
95% delle volte
Intervalli di fiducia – Revisione concetti
1. Il parametro μ della popolazione è costante e resta
tale La variabile aleatoria è ll’intervallo
tale.
intervallo di fiducia il
cui centro Ŷ è una variabile aleatoria
2. Si può scrivere l’intervallo di fiducia nel modo
seguente:
μ = Y ± z0.025 SE
ovvero, in forma più generale:
μ = Y ± z0.025
σ
n
3. Al crescere di n l’intervallo di fiducia si restringe
(perché?).
M. Grosso Statistica
Intervalli di Fiducia
6
Intervalli di fiducia – Revisione concetti
• Se volessimo aumentare il livello di fiducia (per
esempio: γ=0.99),
esempio
0.99), ci aspettiamo che l’intervallo
l intervallo diventi
più grande
γ=0.95
μ−θ
μ
γ=0.99
μ+θ
μ−θ
θ = z0.025 SE
μ
μ+θ
θ = z0.005 SE
Intervalli di fiducia per campioni di
piccole dimensioni – Varianza non nota
• Sinora si è supposto che fosse nota la deviazione
standard σ della popolazione
popolaz one (e di
d conseguenza, la
deviazione standard del campione a disposizione).
• Questo si verifica raramente
• Nel caso in cui s non fosse nota, dovremmo ricorrere
ad una sua stima. La deviazione standard s del
campione appare il migliore candidato:
s = s2 =
1 n
2
∑ (xi − x )
n − 1 i =1
• L’introduzione di s introduce però un’ulteriore
sorgente di incertezza nella nostra analisi,
soprattutto se il campione è piccolo.
M. Grosso Statistica
Intervalli di Fiducia
7
Intervalli di fiducia della Media
Caso di Varianza non nota.
I passi per la determinazione dell’intervallo di fiducia
sono i seguenti
seguenti:
1. Scegliere un livello di fiducia γ
2. Calcolare il valore tα tale che:
F (tα ) = 1 −
α
2
=
1
(1 + γ )
2
(α = 1 − γ )
Dove F(x) è la funzione di distribuzione cumulativa della
T di Student ad (n-1) gradi di libertà
Intervalli di fiducia della Media
nel caso di Varianza non nota - Esempio
Probabilità a associata al livello di fiducia
g.d.l della
student
tα = 2.776
16
M. Grosso Statistica
Intervalli di Fiducia
8
Intervalli di fiducia della Media
Caso di Varianza non nota.
3. Calcolare la media y e la varianza s2 del campione dei
dati sperimentali.
4. Calcolare
s2
k = tα
n
5. L’intervallo di fiducia sarà:
conff {y − k ≤ μ ≤ y + k }
Intervalli di fiducia della Media
Caso di Varianza non nota.
• Perché ricorrere alla T di student nel caso di varianza
non nota.
• Si può innanzitutto osservare che la variabile
aleatoria:
Y −μ
Z= n
σ
• è una variabile normale di tipo standard
• Si è inoltre visto che lo stimatore imparziale varianza
s2 può
ò essere correlata
l
ad
d una variabile
i bil aleatoria
l
i χ2 a
n-1 gradi di libertà :
s2 =
M. Grosso Statistica
Intervalli di Fiducia
σ2 2
2
1 n
χ n −1
∑ (Yi − Y ) =
n − 1 i =1
n −1
⇒
χ n2−1
=
s2
n −1 σ 2
9
Intervalli di fiducia della Media
Caso di Varianza non nota.
• Con qualche semplice passaggio si osserva che la
variabile aleatoria
aleatoria:
Y −μ
Z
Y −μ
= n σ = n
T=
2
2
s
χ
s
n −1
n −1
σ2
• È una variabile aleatoria di tipo
p T di student ad n -1
gradi di libertà
• Da notare che il passaggio alla T di student è
obbligatorio per permettere la cancellazionedella
varianza σ2 ignota dalla formula
Intervalli di fiducia della Media
Caso di Varianza non nota.
• Quindi il nostro campione di risultati sperimentali può
essere visto, nel suo insieme, come un risultato della
variabile aleatoria t di Student descritta
precedentemente, una volta nota la media dei dati
sperimentali e la varianza stimata.
• È possibile quindi determinare quale è la probabilità
che tale variabile assumi valori compresi in un certo
ntervallo.
intervallo.
P (Θ1 ≤ Θ ≤ Θ 2 ) = γ
M. Grosso Statistica
Intervalli di Fiducia
10
Intervalli di fiducia della Media
Caso di Varianza non nota.
• È necessario quindi determinare, data la simmetria
della distribuzione, un numero c tale che
P (− c ≤ T ≤ c ) = F (c ) − F (− c ) = γ
• Data la simmetria della distribuzione, F(-c) = 1-F(c) e
quindi
P(− c ≤ T ≤ c ) = 2 F (c ) − 1 = γ
• Da cui
F (c ) =
1
(1 + γ )
2
Intervalli di fiducia della Media
Caso di Varianza non nota.
• La distribuzione t di Student è generalmente più larga
della distribuzione normale di tipo standard.
0.5
0.4
n
0.3
y
0.2
0.1
0.0
-3
-2
-1
0
1
2
3
x
• Pertanto ci attendiamo un intervallo di ampiezza più
grande, rispetto al caso in cui la varianza sia nota in
modo esatto.
M. Grosso Statistica
Intervalli di Fiducia
11
Intervalli di fiducia della Media
Caso di Varianza non nota.
• Esercizio:
• In una classe molto numerosa,
numerosa si estraggono 4 voti a
caso di una prova d’esame
64, 68, 89, 77
• Calcolare l’intervallo di fiducia al 95% per la media di
tutta la classe
Intervalli di fiducia della Media
Caso di Varianza non nota.
• Esercizio (svolgimento)
• Il primo passo è la determinazione dei gradi di libertà
n=4
⇒
g .d .l. = 3
t0.025 = 3.18
• Si calcola inoltre:
y = 74,
s 2 = 132.7
• L
L’intervallo
intervallo di fiducia sarà in conclusione
μ = 74 ± 3.18
132.7
= 74 ± 18
4
Da notare che l’intervallo è molto grande, dato che deve rispecchiare
la scarsa informazione per le dimensioni piccole del campione
M. Grosso Statistica
Intervalli di Fiducia
12
Intervalli di fiducia della Media
Caso di Varianza non nota.
• Qualche esercizio
• Una scelta casuale di 5 stati negli USA ha fornito le
seguenti superfici (in migliaia di miglia quadrate)
• 147, 84, 24, 85, 159
per la superficie
p
• Trovare l’intervallo di fiducia al 95% p
media dell’insieme dei 50 stati degli USA
25
Intervalli di fiducia della Media
Caso di Varianza non nota.
• Un campione di 151 dati sperimentali ha fornito un
valore medio Ŷ = 1.0 e una varianza pari a 2.0
• Stimare l’intervallo di fiducia per un tale campione
• Confrontare i risultati con quelli ottenuti utilizzando
una distribuzione normale (ultima riga nella tabella 2,
corrispondente a n = 150)
• L’approssimazione di varianza nota sarebbe stata in
questo caso ragionevole?
26
M. Grosso Statistica
Intervalli di Fiducia
13
Intervalli di fiducia per stimatori
Caso generica per varianza non nota.
• Dato uno stimatore generico θ̂ (N.B. di tipo gaussiano), la
variabile aleatoria
θθ̂ − θ
sθ2
• rappresenta sempre una variabile aleatoria di tipo T di student.
• Intuitivamente, tale grandezza è la distanza tra valore osservato
e valore vero, normalizzata per la radice della varianza
2
• La grandezza sθ è il valore osservato della varianza dello
stimatore θ̂
• Il numero di gradi di libertà della T di student dipende invece da
caso a caso. Si deve fare riferimento ai gradi di libertà della
stima della varianza
Intervalli di fiducia per i Coefficienti di
regressione
• Oltre alle stime puntuali sui coefficienti di
regressione è possibile valutare un intervallo di
fiducia per i coefficienti stimati della regressione.
• Lo “spessore” dell’intervallo di fiducia è una misura
della qualità della regressione.
M. Grosso Statistica
Intervalli di Fiducia
14
Intervalli di fiducia per i Coefficienti di
regressione
• Nel caso della regressione lineare, è necessaria una
stima della varianza dell’errore
dell errore sperimentale:
sperimentale
∑ (y
n
s2 =
i =1
i
− βˆ0 − βˆ1 xi
)
2
n−2
• In parecchi libri di testo tale espressione prende
anche il nome di Errore Quadratico Medio (in inglese:
Mean Square Errore, acronimo MSE)
Intervalli di fiducia per i Coefficienti di
regressione
• Si è gia visto che gli stimatori β̂1 e β̂0 sono delle
variabili aleatorie gaussiane, nell’ipotesi
nell ipotesi che l’errore
l errore
nella misura all’esperimento i-esimo sia gaussiano.
• Si può dimostrare che le seguenti variabili aleatorie:
βˆ1 − β1
2
s
S xx
e
βˆ0 − β 0
⎛ 1 x2 ⎞
⎟⎟
s 2 ⎜⎜ +
⎝ n S xx ⎠
• Sono delle distribuzioni T di student ad n-2 gradi di
libertà.
M. Grosso Statistica
Intervalli di Fiducia
15
Intervalli di fiducia per i Coefficienti di
regressione
• Procedura:
• Si sceglie
g un livello di fiducia γ
• Calcolare il valore c tale che:
F (c ) =
1
(1 + γ )
2
• Dove F è la distribuzione t di student ad n-2 gradi di libertà.
• Calcolare
k1 = c
⎛ 1 x2 ⎞
⎟⎟
k0 = c s 2 ⎜⎜ +
⎝ n S xx ⎠
s2
S xx
• Gli intervalli di fiducia saranno:
{
conf βˆ 1 − k1 ≤ β1 ≤ βˆ 1 + k1
}
e
{
conf βˆ 0 − k0 ≤ β0 ≤ βˆ 0 + k0
}
Intervalli di fiducia per i Coefficienti di
regressione
• La quantità:
( )
se β
β̂1 =
s2
S xx
• Si chiama errore standard della pendenza e misura la precisione
con cui β1 è stata stimata.
• In modo analogo, la quantità:
( )
⎡1 x ⎤
se βˆ0 = s 2 ⎢ +
⎥
⎣ n S xx ⎦
• Si chiama errore standard dell’intercetta e misura la precisione
con cui β0 è stata stimata.
M. Grosso Statistica
Intervalli di Fiducia
16