parte 1 - Stima della media

annuncio pubblicitario
Infe 01 - 1 / 71
Lezione 6
Inferenza
statistica
Infe 01 - 2 / 71
parte 1
Stime
per punti e
per intervalli della media
Infe 01 - 3 / 71
la media campionaria
come strumento di inferenza
• Si definiscono “stimatori” quelle statistiche che vengono usate per
stimare un parametro o una sua funzione.
– I valori ottenuti mediante gli stimatori si dicono “stime” del parametro.
• La media campionaria X n può essere usata come stimatore della
media m dell’intera popolazione essendo uno stimatore corretto e
consistente.
Infe 01 - 4 / 71
media campionaria e stima puntuale di m
• estraendo da una popolazione per cui è definita la variabile
casuale X avente densità f (x) qualsiasi con media m e
varianza s2 un campione di n elementi a cui corrisponde
l’insieme di variabili casuali { X1, X2, …, Xn } si può usare la
media campionaria per stimare il valore del parametro m relativo
all’intera popolazione.
1
m  Xn 
n
X
n
j
j 1
• il valore ottenuto viene indicato come “stima puntuale di m ”
Infe 01 - 5 / 71
Strumenti di misura e strumenti di inferenza
1
m  Xn 
n
X
n
j 1
j
Infe 01 - 6 / 71
incertezza dello stimatore campionario
• estraendo da una popolazione per cui è definita la variabile
casuale X avente densità f (x) qualsiasi con media m e
varianza s2 un campione di n elementi a cui corrisponde
l’insieme di variabili casuali { X1, X2, …, Xn } si può usare la
media campionaria per stimare il valore del parametro m relativo
all’intera popolazione.
• come tutti gli strumenti
di misura, anche gli stimatori
n
sono imperfetti 1e la loro stima del parametro presenta
m  X n che deveXessere
j
un’incertezza
quantificata.
n

j 1
1 n
m   X j  m
n j 1
Vx  Vindicato  V
Infe 01 - 7 / 71
incertezza dello strumento di misura
Vx  Vindicato  V
Vind  V  Vx  Vind  V
Vx  Vind  V , Vind  V 
Fascia di valore (a meno di 60 ppm)
Infe 01 - 8 / 71
incertezza dello strumento di misura
Vx  Vind  V , Vind  V 
Infe 01 - 9 / 71
incertezza dello strumento di misura
Vx  Vindicato  V
Vind  V  Vx  Vind  V
Vx  Vind  V
Vx  Vind  V
Infe 01 - 10 / 71
incertezza dello stimatore campionario
1 n
m   X j  m
n j 1
• Qual è la probabilità che, estraendo a caso un campione
di n elementi dalla popolazione, il valore della media m della
variabile X per la intera popolazione sia compreso nell’intervallo
X
P X
n
n
 εm , X n  εm 
 εm  μ  X n  εm 
Infe 01 - 11 / 71
incertezza dello stimatore campionario
1 n
m   X j  m
n j 1
• Qual è la probabilità che, estraendo a caso un campione
di n elementi dalla popolazione, l’intervallo casuale
X
n
 εm , X n  εm 
contenga il valore della media m della variabile X per la intera
popolazione?
Infe 01 - 12 / 71
incertezza dello stimatore campionario
• Con quale “confidenza”, dopo aver estratto a caso un campione
di n elementi dalla popolazione e calcolato il valore della
corrispondente media campionaria, si può affermare che il valore
della media m della variabile X per la intera popolazione è
compreso nell’intervallo
X
n
 εm , X n  εm 
X n  μ  εm
P
P Xμ εε
n
mm
μ nXμn εεmm
 X
Infe 01 - 13 / 71
incertezza dello stimatore campionario
• La “probabilità” dell’evento:
P  μ ε
m
 X n  μ  εm 
è uguale alla “confidenza” con cui posso affermare:
μ  X n  ε m , X n  ε m 
“ Intervallo di confidenza ”
Infe 01 - 14 / 71
incertezza dello stimatore campionario
P  μ ε
m
 X n  μ  εm 
• La determinazione dell’incertezza degli stimatori campionari si
conduce tramite lo studio della distribuzione di probabilità della
variabile casuale costituita dallo stimatore.
Infe 01 - 15 / 71
Distribuzione della media campionaria
1
Xn 
n
n
X
j 1
j
Infe 01 - 16 / 71
distribuzione della media campionaria
• estraendo da una popolazione per cui è definita la
variabile casuale X avente densità f (x) qualsiasi,
media m e varianza s2,
un campione di n elementi a cui corrisponde l’insieme di
variabili casuali { X1, X2, …, Xn },
se n è sufficientemente grande la media campionaria
1 n
Xn   X j
n j 1
fornisce una variabile casuale
distribuita in modo normale,
con media m e varianza s2 / n
Infe 01 - 17 / 71
distribuzione della media campionaria
• Avendo una popolazione per cui è definita la variabile casuale X
con densità f (x) qualsiasi, media m e varianza s2 ed estraendo
da essa un campione di n elementi a cui corrisponde l’insieme di
vc. { X1, X2, …, Xn }, qual è la probabilità che la media
campionaria
n
1
Xn   X j
n j 1
differisca da m per una quantità minore di
s
n?
Infe 01 - 18 / 71
distribuzione della media campionaria
• La risposta al quesito si ottiene individuando la probabilità
dell’evento:
s
s
m
 Xn m
n
n
• Tale probabilità è rappresentata dall’area della regione
evidenziata in verde nel grafico sopra riportato.
Infe 01 - 19 / 71
distribuzione della media campionaria
• il valore ricercato si ottiene da:
P a  X
in cui:
n

b


 b   f Xn d Xn
a
s
s
am
; bm
n
n
Infe 01 - 20 / 71
distribuzione della media campionaria
f  Xn


1

exp 
 2


1
2
s
n




 Xn  m 
 s 


 n 
• il valore ricercato si ottiene da:
P a  X
in cui:
n

b


 b   f Xn d Xn
a
s
s
am
; bm
n
n
2






Infe 01 - 21 / 71
distribuzione della media campionaria
f  Xn


1

exp 
 2


1
s
n
2




 Xn  m 
 s 


 n 
• sviluppando i calcoli si ottiene:
P a  X
con:
am
s
n
n

 b  0,6826  0,68
; bm
s
n
2






Infe 01 - 22 / 71
distribuzione della media campionaria
• esplicitando l’espressione dell’evento si ottiene:
P
s
s 

 Xn m
m 
  0,68
n
n

• è quindi possibile fare la seguente affermazione:
Infe 01 - 23 / 71
distribuzione della media campionaria
estraendo a caso un campione con n sufficientemente elevato
da una popolazione per cui è definita una variabile casuale X
con densità f (x) qualsiasi, media m e varianza s2,
c’è una probabilità pari a 0,68 che la media campionaria
1 n
Xn   X j
n j 1
appartenga all’intervallo
s
s 

m  n , m  n 


Infe 01 - 24 / 71
distribuzione della media campionaria
• Ricordiamo che: la “probabilità” dell’evento:
P
s
s 

 Xn m
m 
  0,68
n
n

è uguale alla “confidenza” con cui posso affermare:
σ
σ 

μ  Xn 
, Xn 

n
n


Infe 01 - 25 / 71
distribuzione della media campionaria
che può essere tradotta nelle seguenti affermazioni:
•
estraendo a caso un campione con n sufficientemente elevato
da una popolazione per cui è definita una variabile casuale X
con distribuzione qualsiasi, media m e varianza s2, c’è una
probabilità pari a 0,68 che un intervallo di ampiezza
s

n
centrato sul valore della variabile casuale “media campionaria”
1 n
Xn   X j
n j 1
contenga il valore della media m della popolazione.
Infe 01 - 26 / 71
intervallo di confidenza per la media
• estraendo a caso un campione con n sufficientemente elevato
da una popolazione per cui è definita una variabile casuale X
con distribuzione qualsiasi, media m e varianza s2, c’è una
probabilità pari a 0,68 che l’intervallo casuale
s
s  
s 

I  X n 
, Xn 
 Xn 


n
n  
n

contenga il valore della media m .
• questo intervallo viene chiamato:
intervallo di confidenza allo 0,68 per la media
Infe 01 - 27 / 71
intervallo di confidenza allo ( 1 – a ) per la media
in generale, se
a  xn
α
2
; b  xn
1
α
2
sono i quantili a/2 e 1 – a/2 per la media campionaria
P a  X
n

b
 
 b   f X n d X n  1 α
a
Infe 01 - 28 / 71
intervallo di confidenza allo ( 1 – a ) per la media
con una confidenza pari a 1 – a possiamo affermare che

μ  I   xn

a
2
, xn
1
a
2



Infe 01 - 29 / 71
Proprietà della media campionaria
teorema 4.4:
• dato un campione di n elementi prelevato senza ripetizione da
una popolazione composta da N elementi per cui è deifinita la
variabile casuale X, posto :
• si ha:
1
Xn 
n
n
X
j
j 1
s2 N  n
var  X n  

n N 1
N  10000
N n
 0,99

n  100 
N 1
;
N  500 
N n
 0,80

n  100 
N 1
Infe 01 - 30 / 71
Distribuzione della media campionaria se n ≈ N
P a  X
am
s
n
n

b
 
 b   f X n d X n  0,68
a
N n
s
; bm
N 1
n
N n
N 1
se il numero n degli elementi del campione non è molto minore
della numerosità N (finita) della popolazione.
Infe 01 - 31 / 71
Attenzione
alla numerosità
del campione
!!!
Infe 01 - 32 / 71
Dalla lezione 4:
Distribuzione della media campionaria
Infe 01 - 33 / 71
Dalla lezione 4:
Distribuzione della media campionaria
teorema 4.3:
• Sia data una popolazione su cui è definita una variabile causale
X con densità f (x) ed avente media m e varianza s 2 finite.
• Detta: X n la media campionaria di un campione casuale di
dimensione n estratto da essa,
• allora, al tendere di n ad infinito,
la media campionaria
1
Xn 
n
- segue una distribuzione normale
n
X
j
j 1
- con media m e varianza s 2 / n
- qualunque sia la distribuzione della popolazione
Infe 01 - 34 / 71
Dalla lezione 4:
Distribuzione della media campionaria
• La possibilità di costruire un campione di dimensione n che
tende all’infinito è ovviamente solo teorica, ma l’enunciato del
teorema deve essere inteso nel senso che:
– quanto più il campione è numeroso,
– tanto meglio la distribuzione della media campionaria
approssima una distribuzione normale con media m e con
varianza s 2 / n
– in pratica si può ritenere che un valore di n non inferiore a
30 sia già sufficiente per approssimare la distribuzione della
media campionaria con quella normale con media m e con
varianza s 2 / n.
Infe 01 - 36 / 71
la caratteristica comune di una popolazione
e il suo modello probabilistico:
la distribuzione “normale”
Infe 01 - 37 / 71
la caratteristica comune di una popolazione
e il suo modello probabilistico:
la distribuzione “normale”
• Il modello basato sulla distribuzione “normale” può essere usato
per descrivere l’andamento della caratteristica comune di una
popolazione quando i valori assunti da tale
caratteristica sono determinati dalla azione
di molteplici cause che agiscono
indipendentemente le une
dalle altre
Infe 01 - 38 / 71
Distribuzione della media campionaria
• Sia data una popolazione su cui è definita una variabile causale
X con distribuzione normale, media m e varianza s 2 finite.
• Detta: X n la media campionaria di un campione casuale di
dimensione n estratto da essa,
• allora, per qualsiasi n,
la media campionaria
1
Xn 
n
- segue una distribuzione normale
- con media m e varianza s 2 / n
n
X
j 1
j
Infe 01 - 39 / 71
dalla
media campionaria
alla
media campionaria standardizzata
Infe 01 - 40 / 71
intervallo di confidenza per la media
• Ricordiamo che: la “probabilità” dell’evento:
P a  X
n

b
 
 b   f X n d X n  1 α
a
è uguale alla “confidenza” con cui posso affermare:
μI  a ,b 
Infe 01 - 41 / 71
Dalla media campionaria alla
media campionaria standardizzata
nota:
• La determinazione del valore della probabilità di un evento
analogo a quelli studiati richiede il calcolo di un integrale definito
in cui figurano, oltre agli estremi di integrazione, tre parametri
variabili in funzione della popolazione e del campione che ne
viene estratto: i valori della media m e della varianza s2 della
popolazione e la numerosità n del campione estratto.
• Ciò rende di fatto impossibile fornire in forma tabulare i valori di
probabilità degli eventi.
• Per questi motivi si introduce la versione standardizzata della
media campionaria.
Infe 01 - 43 / 71
Dalla media campionaria alla
media campionaria standardizzata
• Considerazioni già fatte ci permettono di affermare che la
media campionaria, sotto determinate ipotesi, segue una
distribuzione normale con media m e varianza s2 / n
• è quindi facile costruire una variabile casuale
con distribuzione normale standard, cioè
con media nulla e varianza unitaria.
Xn  m
Z
s
n
Infe 01 - 44 / 71
Dalla media campionaria alla
media campionaria standardizzata
• La probabilità che il valore della variabile Z sia compreso fra gli
estremi a e b:
P a  Z  b   f  Z  d Z
b
a
si può facilmente ricavare dalle tabelle che ogni libro di
probabilità e statistica riporta.
Infe 01 - 45 / 71
Intervallo di confidenza a (1 – a ) :
media campionaria standardizzata
• se indichiamo con z1-a/2 il quantile 1 - a/2 della variabile Z :
P
pertanto :
P
α
Z  z1α / 2   1 
2
α
Z  z1α / 2  
2
Infe 01 - 46 / 71
Intervallo di confidenza a (1 – a ) :
media campionaria standardizzata
• Per la simmetria della distribuzione della variabile Z :
P  z
1α / 2
da cui :
 Z   z1α / 2   1  2P Z   z1α / 2 
P  z
1α / 2
 Z   z1α / 2   1  α
Infe 01 - 47 / 71
Intervalli di confidenza a (1 – a ) :
media campionaria standardizzata
P  z
1α / 2
 Z   z1α / 2   1  α
• se esplicitiamo la variabile Z:
P




  z1α / 2  X n  m  z1α / 2   1  α
s




n


Infe 01 - 48 / 71
Intervalli di confidenza a (1 – a ) :
media campionaria standardizzata
P
• da cui:
P




  z1α / 2  X n  m  z1α / 2   1  α
s




n


s
s


 z1α / 2  X n  μ 
 z1α / 2   1  α
μ 
n
n


Infe 01 - 49 / 71
Intervalli di confidenza a (1 – a ) :
media campionaria standardizzata
P
s
s


 z1α / 2  X n  μ 
 z1α / 2   1  α
μ 
n
n


• Esaminiamo l’evento di cui abbiamo determinato la probabilità:
μ
s
n
 z1α / 2  X n  μ 
s
n
 z1α / 2
Infe 01 - 50 / 71
Intervalli di confidenza a (1 – a ) :
media campionaria standardizzata
μ
s
n
 z1α / 2  X n  μ 
s
n
 z1α / 2
• da cui, con passaggi algebrici:
Xn 
s
n
 z1α / 2  μ  X n 
s
n
 z1α / 2
Infe 01 - 51 / 71
Intervalli di confidenza a (1 – a ) :
media campionaria standardizzata
• La probabilità:
P
s
s


m


z

X

m


z
n

1 a / 2
1 a / 2   1  a
n
n


• è uguale alla confidenza con cui possiamo affermare che:
Xn 
s
n
 z1α / 2  μ  X n 
s
n
 z1α / 2
Infe 01 - 52 / 71
Intervalli di confidenza a (1 – a ) :
media campionaria standardizzata
possiamo quindi sostenere che:
estraendo a caso un campione di n elementi da una popolazione
per cui è definita una variabile casuale X con distribuzione
qualsiasi, media m e varianza s2, c’è una
probabilità pari a 1 - a che l’intervallo casuale
I1a
s
s


 X n 
 z1a / 2 , X n 
 z1a / 2 
n
n


con Z variabile normale standard
e con z1-a/2 il valore del suo quantile (1 - a/2)
contenga il valore della media m per l’intera popolazione.
I1-a è l’intervallo di confidenza allo 1 - a per la media
Infe 01 - 57 / 71
Campioni con
bassa numerosità
n < 30
W.S.Gosset – “ Student ”
Infe 01 - 58 / 71
Distribuzione t di Student con n-1 g.d.l.
• La variabile casuale
• in cui:
–
–
–
T
Z
c2
n 1
Z è una variabile casuale normale standardizzata,
c2 è una variabile chi-quadro con n-1 gradi di libertà,
Z e c2 sono indipendenti l’una dall’altra,
• segue una distribuzione t di Student con n-1 gradi di libertà
Infe 01 - 59 / 71
Distribuzione t di Student con n-1 g.d.l.
Z
Xn  μ
σ n
2
S
V  (n  1)
σ
T
2
n
2
Z
c2
n 1
Xn  μ
σ
n
2
T
S
(n  1)
σ
n 1
2
n
2
Infe 01 - 60 / 71
Distribuzione t di Student con n-1 g.d.l.
T
Xn  μ
Xn  μ
σ2
n
σ2
n
S n2
2
σ
S n2
(n  1) 2
σ
n 1


Xn  μ
σ2
n
S n2
2
σ

Xn  μ
S n2
n
Infe 01 - 61 / 71
Distribuzione t di Student con n-1 g.d.l.
T
Xn  μ
2
n
S
n
segue una distribuzione t di Student con n-1 gradi di libertà
Infe 01 - 62 / 71
Distribuzione t di Student con n g.d.l.
Infe 01 - 63 / 71
Distribuzione della media campionaria
standardizzata per n finito
teorema 5.1:
• estraendo a caso un campione di numerosità n finita
da una popolazione su cui è definita una variabile casuale X
con distribuzione normale e media m,
la variabile casuale
Xn  m
T
Sn
n
segue una distribuzione t di Student con n-1 gradi di libertà
Infe 01 - 64 / 71
Intervalli di confidenza: media
campionaria standardizzata con n finito
• La distribuzione t di Student è simmetrica rispetto allo 0, pertanto
gli intervalli di confidenza sono centrati sul valore dello stimatore
Infe 01 - 65 / 71
Intervalli di confidenza: media
campionaria standardizzata con n finito
• se indichiamo con t1-a/2 il quantile 1-a/2 della variabile T :
P
α
T  t1α / 2   1  
2
P  t
1α / 2
P
α
T  t1α / 2  
2
 T  t1α / 2   1  α
Infe 01 - 66 / 71
Intervalli di confidenza: media
campionaria standardizzata con n finito
P  t
1α / 2
 T  t1α / 2   1  α
• se esplicitiamo la variabile T:
P




Xn  m
t
  1 α


t
1 α / 2
Sn
 1α / 2



n


Infe 01 - 67 / 71
Intervalli di confidenza: media
campionaria standardizzata con n finito
P
• da cui:
P




X

m
n
t

 t1α / 2   1  α
1 α / 2
Sn




n


Sn
Sn


 t1α / 2  X n  μ 
 t1α / 2   1  α
μ 
n
n


Infe 01 - 68 / 71
Intervalli di confidenza: media
campionaria standardizzata con n finito
P
Sn
Sn


 t1α / 2  X n  μ 
 t1α / 2   1  α
μ 
n
n


• dall’evento sopra riportato, con passaggi algebrici, si ricava:
Sn
Sn
Xn 
 t1α / 2  μ  X n 
 t1α / 2
n
n
Infe 01 - 69 / 71
Intervalli di confidenza: media
campionaria standardizzata con n finito
• La probabilità:
P
Sn
Sn


 t1α / 2  X n  μ 
 t1α / 2   1  α
μ 
n
n


• è uguale alla confidenza con cui possiamo affermare che:
μ  I1α
Sn
Sn


 X n 
 t1α / 2 ; X n 
 t1α / 2 
n
n


Infe 01 - 70 / 71
Intervalli di confidenza: media
campionaria standardizzata con n finito
possiamo quindi sostenere che:
estraendo a caso un campione con n finito da una popolazione
per cui è definita una variabile casuale X con distribuzione
normale c’è una probabilità pari a 1 - a che l’intervallo casuale
I1a
Sn


 Xn 
 t1a / 2 
n


in cui t1-a/2 è il valore del quantile (1 - a/2) di una variabile T
distribuita secondo la t di Student con n -1 g.d.l
contenga il valore della media m della popolazione.
Infe 01 - 71 / 71
Intervalli di confidenza: media
campionaria standardizzata con n finito
I1a
Sn


 Xn 
 t1a / 2 
n


è l’intervallo di confidenza allo 1 - a per la media m nel caso di
campioni di ridotta numerosità estratti da popolazioni con
distribuzione normale!
Infe 01 - 72 / 71
Distribuzione t di Student con n-1 g.d.l.
• La variabile casuale
• in cui:
–
–
–
T
Z
c2
n 1
Z è una variabile casuale normale standardizzata,
c2 è una variabile chi-quadro con n-1 gradi di libertà,
Z e c2 sono indipendenti l’una dall’altra,
• segue una distribuzione t di Student con n-1 gradi di libertà
Infe 01 - 73 / 71
La prossima puntata…
Stime
per punti e
per intervalli della varianza
Scarica