Slides 7 settimana

Facoltà di Sociologia
Statistica: 7° settimana
a.a. 20092009-2010
Docente: Elena Siletti - [email protected]
Esercitatore: Alessandro Barbiero
Intervalli di Confidenza
Si utilizzano i dati campionari per produrre un intero insieme
di valori che ragionevolmente contiene l’ignoto valore del
parametro che vogliamo stimare
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
1
Stima puntuale: caratteristiche
• È sempre applicabile
• È semplice
• È difficile “azzeccare”
• Affidabilità della stima-proprietà dello stimatore
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
Stima intervallare: affidabilità
alla stima intervallare è associabile un numero che misura la
probabilità con cui il corrispondente stimatore intervallare
contiene effettivamente l’ignoto parametro
Errore campionario: è il rischio di costruire un insieme di
valori che non contiene l’ignoto valore del parametro
oggetto di stima
• È quantificato in termine di probabilità
• È scelto piccolo quanto si desidera
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
2
Intervallo di Confidenza: IC
L’IC per un ignoto parametro è un intervallo di valori
calcolato sui dati campionari, per il quale si può confidare,
ad un prescelto livello probabilistico, che contenga l’ignoto
valore del parametro
• Sono meno rischiosi
• Sono più informativi
• L’affidabilità si misura con una probabilità scelta
• Procedura più complessa
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
IC per la Media – Popolazione Normale e Varianza nota
X ∼ N ( µ ; σ 2 nota )
•
Fissata la numerosità n si estrae un campione bernoulliano
Si calcola la stima puntuale per µ
•
x=
•
1 n
∑ xi
n i =1
Si sceglie la probabilità di sbagliare (α ), cioè di costruire un IC che non
contenga µ
•
Standardizzando sappiamo che
X −µ
σ2 n
= Z ∼ N ( 0;1)
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
3
IC per la Media – Popolazione Normale e Varianza nota
Fissata la possiamo fare considerazioni probabilistiche su intervalli di valori dello
stimatore Media Campionaria ed usare le tavole della Z
P (a ≤ X ≤ b) = 1− α
Livello di Confidenza
 a−µ
 a−µ
X −µ
b−µ 
b−µ 
 = P
 = 1− α
≤
≤
≤Z≤
P
2
2
2
 σ2 n

 σ2 n

n
n
n
σ
σ
σ




Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
IC per la Media – Popolazione Normale e Varianza nota
 a−µ


b−µ 
X −µ
 = P  − zα 2 ≤
≤Z≤
≤ zα 2  = 1 − α
P
 σ2 n


σ 2 n 
σ2 n



Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
4
IC per la Media – Popolazione Normale e Varianza nota
Si inverte la relazione probabilistica in modo da ottenere un intervallo centrato sul
parametro ignoto

σ2
σ2 
≤ µ ≤ X + zα 2
P  X − zα 2
 = 1−α

n
n 

Sostituendo con la stima puntuale si ottiene l’intervallo cercato

σ2
σ2 
; x + zα 2
 x − zα 2

n
n 

Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
Esempio
X : “tempo in minuti”
X ∼ N ( µ ; σ 2 = 1400 )
Considerati n = 92 studenti, per loro il tempo medio è stato di 85 minuti
Volendo costruire una stima intervallare a livello del 95 % per l’intera popolazione
proseguiamo come segue:
(1 − α ) = 0.95
α = 0.05
zα 2 = z0.025 = ?
P ( Z ≤ zα 2 ) = 1 − α 2 = 1 − 0.025 = 0.975
α
2
= 0.025
zα 2 = 1.96
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
5
Esempio
L’IC per la media a livello del 95% è allora:

σ2
σ2 
; x + zα 2
 x − zα 2

n
n 


1400
1400 
;85 + 1.96
85 − 1.96
 = [ 77.35;92.65]
92
92 

Possiamo confidare al 95% che l’intervallo individuato contenga il tempo medio per
tutti gli studenti della popolazione
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
IC per la Media – Popolazione Normale e Varianza ignota
X ∼ N ( µ ; σ 2 ignota )
Non conoscendo la varianza è necessario stimarla con la varianza campionaria
corretta
s2 =
1 n
2
∑ ( xi − x )
n − 1 i =1
Utilizzando questa stima non standardizziamo ma studentizziamo
X −µ
S2 n
= Tn −1
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
6
IC per la Media – Popolazione Normale e Varianza ignota
 a−µ


b−µ 
X −µ
 = P  −tα 2 ≤
≤T ≤
≤ tα 2  = 1 − α
P
 S2 n


S 2 n 
S2 n



Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
IC per la Media – Popolazione Normale e Varianza ignota
Si inverte la relazione probabilistica in modo da ottenere un intervallo centrato sul
parametro ignoto

S2
S2 
≤ µ ≤ X + tα 2
P  X − tα 2
 = 1− α

n
n 

Sostituendo con le stime puntuali si ottiene l’intervallo cercato

s2
s2 
; x + tα 2
 x − tα 2

n
n 

Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
7
Esempio
X : “peso del prodotto”
Considerato n = 6
X ∼ N ( µ ;σ 2 )
(1 − α ) = 0.90
e
E sapendo che il peso medio nel campione è risultato pari a 1002.5 gr. ed
una varianza campionaria corretta pari a 67.5
α
α = 0.10
P (T5 ≤ tα 2 ) = 1 − α 2 = 1 − 0.05 = 0.95
2
= 0.05
tα 2 = 2.015

s2
s2 
; x + tα 2
 x − tα 2
=
n
n 


67.5
67.5 
= 1002.5 − 2.015
;1002.5 + 2.015
 = [995.75;1009.25]
6
6 

Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
Grandi Campioni
Se non siamo nel caso di popolazione Normale, dobbiamo avere molti dati
Solo se il campione è sufficientemente grande possiamo appellarci a un teorema di
teoria delle probabilità fondamentale nell’inferenza statistica
Teorema Centrale del Limite
Qualunque sia la distribuzione del fenomeno X nella popolazione, se l’ampiezza
campionaria n tende all’infinito, allora gli stimatori Media Campionaria e
Frequenza Relativa Campionaria sono (asintoticamente) Normali
 σ2 
X ≈ N  µ; 
n 

 p (1 − p ) 
Pˆ ≈ N  p;

n


Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
8
Grandi Campioni
IC per la Media

s2
s2 
x
z
;
x
z
−
+


α 2
α 2
n
n 

IC per la Frequenza Relativa

 pˆ − zα 2

p (1 − p )
; pˆ + zα 2
n
p (1 − p ) 

n

Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
Grandi Campioni
Numerosità sufficiente per costruire un IC per la media
n ≥ 100
Numerosità sufficiente per costruire un IC per le frequenza relativa
n ≥ 30
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
9
Interpretazione del Livello di Confidenza
Interpretazione analitica: corrisponde alla probabilità con cui l’intervallo costruito
con lo stimatore contenga effettivamente l’ignoto parametro
È senz’altro una misura della fiducia che si può riporre nel fatto che l’IC contenga
davvero l’ignoto parametro
Interpretazione statistico - frequentista: su un gran numero di campioni
bernoulliani, ci si può attendere che l’ (1 –α) % contenga davvero l’ignoto
parametro e che il rimanente α % non lo contenga
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
Precisione degli IC
un intervallo è tanto più preciso quanto più è stretto
Ampiezza di un intervallo:
è la differenza fra l’estremo superiore e l’estremo inferiore
Il livello di confidenza e la precisione di un IC sono fra loro legati e, a loro volta,
sono legati all’ampiezza campionaria n
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
10
l.c. – n – precisione
La precisione di un IC è in relazione inversa con il livello di confidenza ed in
relazione diretta con la numerosità campionaria
•
A parità di ampiezza campionaria n , un aumento del livello di confidenza
(1 – α ) provoca una diminuzione della precisione (cioè un aumento
dell’ampiezza dell’IC)
•
A parità di livello di confidenza (1 – α ), un aumento della numerosità
campionaria n provoca un aumento della precisione (cioè una
diminuzione dell’ampiezza dell’IC)
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
Pianificazione della numerosità campionaria
La pianificazione di n è strategica per l’inferenza statistica
Errore Assoluto di Stima: Err = |stimatore – parametro|
È possibile scegliere a priori sia l’Errore Assoluto di Stima massimo che
siamo disposti a tollerare sia il livello di probabilità con cui vogliamo che
questo accada
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
11
Pianificazione di n per la stima della media
La probabilità di fare bene è
(
1 − α = P X − µ ≤ Err
)
1 − α = P ( µ − Err ≤ X ≤ µ + Err )
Standardizzando:
 µ − Err − µ X − µ µ + Err − µ 
 − Err
+ Err 
 = P

1−α = P 
≤
≤
≤Z≤

 σ2 n
σ2 n
σ2 n
σ 2 n 
σ 2 n 


Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
Pianificazione di n per la stima della media
 − Err
+ Err 

1−α = P 
≤Z≤
2
 σ2 n

σ
n


Err
σ2 n
Per cui vale l’uguaglianza:
= zα 2
Che risolvendo l’uguaglianza diventa:
n=
zα2 2 ⋅ σ 2
Err 2
È l’ampiezza campionaria che con probabilità ( 1 – α ) garantisce un errore
assoluto di stima non superiore all’Errore Assoluto di Stima massimo fissato
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
12
Pianificazione di n per la stima della percentuale
Errore Assoluto di Stima: Err = |stimatore – parametro|
Err = Pˆ − p
Se ci mettiamo nella situazione peggiore e dunque determinando
l’n che ci tutela al massimo, ovvero quella di massima
variabilità
σ 2 = p (1 − p ) = 0.5 ⋅ 0.5 = 0.25
 zα 2 
n=

 2 ⋅ Err 
2
È l’ampiezza campionaria che garantisce la massima tutela.
Se si dispone di informazioni a priori sulla varianza e è noto che è inferiore al
caso peggiore, naturalmente conviene usare tali informazioni e la formula
fornirà un valore di n più piccolo
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-2010 Elena Siletti
13