Intervalli di Confidenza - Dipartimento di Economia, Statistica e

Intervalli di Confidenza
Corso di Teoria dell’Inferenza Statistica 2
a.a. 2003/2004 Quarto Periodo
Prof. Filippo DOMMA
Corso di Laurea in Statistica – Facoltà di Economia - UniCal
I metodi di stima puntuali anche se corredati di tutte le proprietà
giudicate desiderabili e ottimali, difficilmente potranno fornire
delle stime che coincidono con il parametro incognito, poiché
ci si dovrà sempre attendere un certo errore di campionamento.
Nasce, quindi, l’esigenza di associare allo stimatore una misure
dell’errore di stima commesso, in modo tale da valutare quanto
la stima sia da considerarsi “vicina” al parametro incognito.
Tali valutazioni possono essere fatte facendo riferimento alla
dispersione della distribuzione campionaria dello stimatore T(X).
In relazione alla stima t(x), ottenuta tramite il campione osservato,
e alla precisione dello stimatore, ci saranno dei valori di q che
sulla base del campione debbono essere considerati più plausibili
di altri.
Definito, quindi, il grado di plausibilità si potrà dividere lo spazio
parametrico in due sottoinsiemi:
Intervalli di Confidenza
F. Domma
2
uno di valori probabili per q secondo il grado di plausibilità fissato
ed un altro di valori poco probabili per q. Così, invece di stimare
un unico valore per q, si stimerà un insieme di valori possibili a cui
verrà associato il grado di plausibilità scelto il quale deve essere
interpretato come livello di confidenza per l’insieme.
Intervalli di Confidenza
F. Domma
3
Sia X un c.c. estratto da f(x;q) appartenente alla famiglia di
distribuzioni P. Diamo la seguente
Definizione. La famiglia di intervalli S(X) di Q, funzione di X
ma non di q, è chiamato intervallo casuale.
S(X) è del tipo
__


(
X
),
q
(
X
)
q





__
dove q (X) e q ( X)
sono, rispettivamente, il limite inferiore e
superiore dell’intervallo casuale.
Intervalli di Confidenza
F. Domma
4
Definizione. Per un dato valore di a (usualmente piccolo), 0< a <1,
un intervallo di confidenza al 100(1-a)% per q
è la realizzazione di un intervallo casuale tale che


q  Q
Pr q (X)  q  q(X)  1  a



La quantità
inf Pr q (X)  q  q(X)
qQ

in genere è uguale ad 1-a, è chiamato
coefficiente fiduciario dell’intervallo casuale.
Intervalli di Confidenza
F. Domma
5
Un metodo generale per la costruzione di intervalli di confidenza
è costituito dalla ricerca di una funzione del campione e del
parametro incognito da stimare che abbia una distribuzione
indipendente da parametro stesso.
Intervalli di Confidenza
F. Domma
6
Metodo della Quantità Pivot
Definizione. Quantità Pivot.
Sia X1,…,Xn un c.c. estratto da una fd (o fp) f(x;q) appartenente a P.
Sia Q=q(X1,…,Xn;q) una funzione del c.c. e del parametro incognito
q. Se la v.c. Q ha distribuzione indipendente da q, allora Q è detta
quantità pivot.
Se Q=q(X;q) è una quantità pivot, allora per ogni a fissato, 0<a<1, esisteranno due
valori q1 e q2 dipendenti da a, tali che
Pr q1  Q  q 2   1  a
Per ogni c.o. x1,…,xn, si ha:
q1  q(x1 ,..., x n ; q)  q 2
Ora, se da questa doppia diseguaglianza, riusciamo a calcolare la seguente:
Intervalli di Confidenza
F. Domma
7
t1 (x1,..., x n )  q  t 2 (x1,..., x n )
Per funzioni t1 e t2 indipendenti da q, allora (t1,t2) è un intervallo fiduciario (di
confidenza) al 100(1-a)% per q.
In tal modo costruiamo un I.C. per q in due fasi:
1a - individuare la q.p.;
2a - invertire la doppia diseguaglianza in termini di q.
Intervalli di Confidenza
F. Domma
8
Campionamento da popolazioni Normali
Sia X un c.c. iid estratto da


P  N(.,.) : (,  )     \ 0
2

Costruire un I.C. per  con il metodo della quantità pivot.
Esistono due casi distinti:
a) varianza nota;
b) varianza sconosciuta.
Intervalli di Confidenza
F. Domma
9
A) Varianza nota


P  N(.,.) : (,  )     \ 0

2
0
1) Individuazione della Quantità Pivot.
Per individuare la q.p. dobbiamo costruire una funzione del c.c. X e del parametro
incognito () con fd (o fp) indipendente dal parametro incognito.
Sia X un c.c. iid estratto da N(.;.). Sappiamo che, in tale contesto, la media
campionaria ha la seguente distribuzione
 02 
1 n

X   Xi ~ N ,
n i 1
 n 
E’ evidente che la media campionaria non è una quantità pivot.
Intervalli di Confidenza
F. Domma
10
Consideriamo la standardizzazione della media campionaria, cioè:
X 
Z
~ N(0,1)
0 / n
Z è una quantità pivot per ; infatti, si ha:
1) è funzione del c.c. X e del parametro incognito , cioè
Z  q( X; )
2) Z ha distribuzione indipendente dal parametro incognito .
Fissato a, con 0< a <1, possiamo trovare due valori, q1 e q2, tali che
Pr q1  Z  q 2   1  a
Intervalli di Confidenza
F. Domma
11
2) Inversione della doppia diseguaglianza in termini di ;
1  a  Pr q1  Z  q 2   Pr q1  q(X; )  q2  


X 
 Pr q1 
 q2  
0 / n




 P  X  q  / n    X  q  / n 
 P X  q  / n    X  q  / n 
 P X  q  / n    X  q  / n 
 Pr q10 / n  X    q 20 / n 
r
1 0
2 0
r
1 0
2 0
r
2 0
1 0
Intervalli di Confidenza
F. Domma
12
La determinazione di q1 e q2 dipende da a e dalla fd (o fp) della q.p.
Generalmente, a viene fissato ad un valore molto basso 0.01, 0.05.
Ripartiamo in parti uguali, sulle code della normale standardizzata, a in
modo tale che
a
Pr q1  Z  

2
 q1  z a
2
a
Pr Z  q 2  

2
 q2  z a
2
Intervalli di Confidenza
F. Domma
13
Sostituendo si ha:
0
0 

Pr X  z a
   X  za
 1 a

2
2
n
n

Gli estremi dell’intervallo casuale (T1,T2), sono:
0
T1  X  z a
2
n
0
T2  X  z a
2
n
Osservato il c.c. x=(x1,…,xn), l’Intervallo di confidenza al 100(1-a)% per  è:
0
0 

, x  za
x  z a2

2
n
n

Intervalli di Confidenza
F. Domma
14
Il termine fiduciario nasce dalla seguente osservazione:
se estraessimo dalla popolazione ripetutamente campioni di
dimensione n e se calcolassimo per ognuno di questi l’intervallo
(t1,t2), la frequenza relativa di intervalli che contengono q tenderebbe
al 100(1-a)%. Abbiamo, quindi, una considerevole fiducia che
l’intervallo osservato contenga q. La misura della nostra fiducia
è 100(1-a)%.
Esempio.
Sia  X1 ,.... X 9  un c.c. estratto da una popolazione statistica che è ben
adattata da una v.c. Normale con media incognita e varianza pari a 25.
Utilizzando le realizzazioni finite delle variabili casuali componenti il
campione, abbiamo calcolato il valore della media campionaria, pari a 27.
Determinare l’intervallo di confidenza per la media della popolazione al
livello di confidenza pari al 97%.
Intervalli di Confidenza
F. Domma
15
B) Varianza sconosciuta


P  N(.,.) : (,  )     \ 0

2
1) Individuazione della Quantità Pivot.
Per individuare la q.p. dobbiamo costruire una funzione del c.c. X e del parametro
incognito () con fd (o fp) indipendente dal parametro incognito.
Dire perché la quantità
Z
X 
~ N (0,1)
/ n
non è utile per costruire un I.C. per , con  sconosciuta.
Intervalli di Confidenza
F. Domma
16
Osservazione:
X 
Z
~ N (0,1)
/ n
Si dimostra, inoltre, che:
Sappiamo che:
(n  1)S2
2
V
~

(n  1)
2

Z
T
~ t (n  1)
V
( n  1)
In definitiva, la v.c. T ha distribuzione indipendente da parametri incogniti
(dipende solo dai gradi di libertà n-1).
Intervalli di Confidenza
F. Domma
17
Si osservi, ora, che
T
Z
V
(n  1)
In definitiva, abbiamo
X 
X   X 

/
n


 
2
( n 1) S
S

/
n
S/ n
2

( n 1)
X 
T
~ t (n  1)
S/ n
Quest’ultima quantità è una q.p.; infatti, T è funzione di X e di , con f.d. indipendente da
parametri incogniti. Individuata la q.p., fissato a, possiamo trovare q1 e q2 tali che
Pr q1  T  q 2   1  a
Intervalli di Confidenza
F. Domma
18
2) Inversione della doppia diseguaglianza in termini di ;
1  a  Pr q1  T  q 2   Pr q1  q(X; )  q2  


X 
 Pr q1 
 q2  
S/ n




 P  X  q S / n     X  q S / n 
 P X  q S / n    X  q S / n 
 P X  q S / n    X  q S / n 
 Pr q1S / n  X    q 2S / n 
r
1
2
r
1
2
r
2
1
Intervalli di Confidenza
F. Domma
19
La determinazione di q1 e q2 dipende da a e dalla fd (o fp) della q.p.
Ripartiamo in parti uguali, sulle code della t di Student, a in modo tale che
a
Pr q1  T 

2
 q1  t a (n - 1)
2
a
Pr T  q 2  

2
 q 2  t a (n - 1)
2
Intervalli di Confidenza
F. Domma
20
Sostituendo si ha:
S
S


Pr X 
t a ( n  1)    X 
t a ( n  1)  1  a
2
2
n
n


Gli estremi dell’intervallo casuale (T1,T2), sono:
S
T1  X 
t a ( n  1)
n 2
S
T2  X 
t a ( n  1)
n 2
Osservato il c.c. x=(x1,…,xn), l’Intervallo di confidenza al 100(1-a)% per  è:
s
s


t a ( n  1) , x 
t a ( n  1) 
x 
n 2
n 2


Intervalli di Confidenza
F. Domma
21
Esempio.
In un grande comune rurale, da un’indagine campionaria su 900
famiglie, è risultato un reddito medio di 2.3 milioni ed una
deviazione standard di 0.8 milioni. Si determini l’intervallo di
confidenza per il reddito medio annuo di tutte le famiglie, sotto
l’ipotesi che lo stesso segua una v.c. Normale, al livello di
confidenza del 95%.
Intervalli di Confidenza
F. Domma
22
Osservazione - 1
Dato l’intervallo
0
0 

, x  za
x  z a2

2
n
n

La lunghezza ( L ) dell’intervallo di confidenza è definita come differenza tra gli
estremi dell’intervallo stesso, cioè
0
0
0
L  x  za
 x  za
 2z a
2
2
2
n
n
n
Si definisce errore la lunghezza dell’intervallo diviso 2, cioè
0
L
   za
2
2
n
Intervalli di Confidenza
F. Domma
23
- a parità di a:
- L diminuisce al diminuire di ;
- L diminuisce all’aumentare di n.
- a parità di n e :
- L diminuisce all’aumentare di a
[in tal caso diminuisce il grado di fiducia (1-a) ]
Situazione ottima: L piccolo - (1-a) elevato
Intervalli di Confidenza
F. Domma
24
Osservazione - 2
Fissato a, a parità di  e s e della dimensione campionaria n, gli intervalli di
confidenza per la media della popolazione costruiti con T sono più ampi.
Intervalli di Confidenza
F. Domma
25
Osservazione - 3
In alcuni casi, è necessario calcolare la dimensione campionaria minima affinché
l’I.C. abbia una lunghezza prefissata.
Così,ad esempio, nel caso di I.C. per  con  noto, si ha:
n: L
0
 2z a

2
n
0
 2z a
 n
2

0 

 n   2z a 
 2  
Intervalli di Confidenza
F. Domma
2
26
Esempio
Le uova prodotte in una azienda agricola hanno un peso che si
distribuisce secondo una normale con media  incognita e varianza paria
a 49. Determinare la dimensione del campione che consente di stimare ,
mediante la media campionaria, con un errore non superiore a 4 con una
probabilità di 0.95.
Intervalli di Confidenza
F. Domma
27
Campionamento da popolazioni Normali
Sia X un c.c. iid estratto da


P  N(.,.) : (,  )     \ 0
2

Costruire un I.C. per 2 con il metodo della quantità pivot.
Esistono due casi distinti:
a)  sconosciuta;
b)  nota.
Intervalli di Confidenza
F. Domma
28
A) Media sconosciuta
1) Individuazione della Quantità Pivot.
Per individuare la q.p. dobbiamo costruire una funzione del c.c. X e del parametro
incognito (2) con fd (o fp) indipendente dal parametro incognito.
Si è visto in precedenza che la quantità
 X
 X
n
(n  1)S
V

2

2
i 1
2
i

2
~  2 (n  1)
E’ evidente che V è una funzione del c.c. X e del parametro incognito 2 ; inoltre,
si distribuisce secondo una chi-quadrato con (n-1) gradi di libertà ovvero la
distribuzione non dipende da parametri incogniti. Da ciò si può concludere che V è
una quantità pivot per 2.
Intervalli di Confidenza
F. Domma
29
2) Inversione della doppia diseguaglianza in termini di 2;
Fissato a, possiamo determinare q1 e q2 tali che


1  a  Pr q1  V  q 2   Pr q1  q(X;  )  q 2 
2
2
2



(n  1)S
1

1
 Pr q1 
 q 2   Pr  
 
2
2

q2 


 q1 (n  1)S
2
 (n  1)S2

(
n

1
)
S
2
 Pr 
 

q2 
 q1
2
 (n  1)S2
(n  1)S 
2
 Pr 
 

q1 
 q2
Intervalli di Confidenza
F. Domma
30
La determinazione di q1 e q2 dipende da a e dalla fd (o fp) della q.p.
Ripartiamo in parti uguali, sulle code della Chi-quadrato, a in modo tale che
a
Pr q1  V 

2
 q1   2a (n - 1)
2
a
Pr q 2  V 

2
 q2  
2
(n - 1)
1 a2
Intervalli di Confidenza
F. Domma
31
2
 (n  1)S2
(
n

1
)
S

2
Pr  2
  2
  1 a
 a ( n  1) 
 1 a2 ( n  1)
2

Sostituendo si ha:
Gli estremi dell’intervallo casuale (T1,T2), sono:
(n  1)S
T1  2
1 a ( n  1)
2
(n  1)S
T2  2
 a ( n  1)
2
2
2
Osservato il c.c. x=(x1,…,xn), l’Intervallo di confidenza al 100(1-a)% per 2 è:
 (n  1)s 2 (n  1)s 2 
, 2
 2

 1 a2 ( n  1)  a2 ( n  1) 
Intervalli di Confidenza
F. Domma
32
B) Media nota
1) Individuazione della Quantità Pivot.
Per individuare la q.p. dobbiamo costruire una funzione del c.c. X e del parametro
incognito (2) con fd (o fp) indipendente dal parametro incognito.
n
ˆ
n
V 2 

2
 X
i 1
 
2
i

2
~  2 (n )
E’ evidente che V è una funzione del c.c. X e del parametro incognito 2 ; inoltre,
si distribuisce secondo una chi-quadrato con (n) gradi di libertà ovvero la
distribuzione non dipende da parametri incogniti. Da ciò si può concludere che V è
una quantità pivot per 2.
Intervalli di Confidenza
F. Domma
33
Utilizzando lo stesso procedimento del caso (A), si ottiene l’I.C. per 2, cioè
2 
 nˆ 2
ˆ
n 
2
Pr  2
   2   1 a
 a (n) 
 1 a2 ( n )
2

Gli estremi dell’intervallo casuale (T1,T2), sono:
nˆ
T1  2
1 a ( n )
2
2
2
ˆ
n
T2  2
 a (n )
2
Osservato il c.c. x=(x1,…,xn), l’Intervallo di confidenza al 100(1-a)% per 2 è:
2 
 nˆ 2
ˆ
n 
, 2 
 2
 1 a2 ( n )  a2 ( n ) 
Intervalli di Confidenza
F. Domma
34
Esempio.
Il diametro delle sfere di acciaio, prodotte da una determinata industria, è adattato
statisticamente da una v.c. X che si distribuisce come una Normale. Si effettua un
campionamento casuale di numerosità 9 e si misura il diametro delle sfere costituenti il
campione. I risultati, realizzazioni delle v.c. componenti il campione, sono i seguenti :
20.1 , 19.9 , 20 , 19.8 , 19.7 , 20.2 , 20.1 , 23.1 , 22.8
Determinare l’intervallo di confidenza al livello del 90% per il valor medio della
popolazione ed un altro intervallo allo stesso livello di confidenza per la varianza della
popolazione.
Intervalli di Confidenza
F. Domma
35
Intervallo di Confidenza per la differenza tra le medie
di due popolazioni Normali.
Siano X ed Y due v.c. indipendenti e normalmente distribuite, cioè

X ~ N  x , 2x




Y ~ N y , 



X ( m1)
2
y
Y( n1)



 
X ~ N  x , 
m

2
x
Intervalli di Confidenza
2

y 
Y ~ N  y , 


n



F. Domma
36
Vogliamo costruire un I.C. per la differenza tra le medie x e y.
Primo Caso:
 2x
e
 2y
Note
D XY
Stimatore naturale della differenza tra le medie
E’ semplice verificare che
ED   x   y


VD  

m
n
2
x
2
y
2
2




y
x
D ~ N  x   y ,
 


m
n


Intervalli di Confidenza
F. Domma
37
La v.c.
Z

D  x  y
 2x
m

 2y
 ~ N 0 , 1 
n
E’ una quantità pivot perché è funzione del c.c. (X,Y) e del parametro
incognito (x-y) ed ha distribuzione indipendente da parametri incogniti.
Fissato a, possiamo determinare q1 e q2 tali che
1  a  Pr q1  Z  q 2  
Intervalli di Confidenza
F. Domma
38




D  x  y


 Pr q1 
 q2  
2
2


x y



m
n




2
2 

2
2
x y
x y 

 Pr q1

 D  x  y  q2


m n
m n 




2
2 

2
2


x
x

y
y 
 Pr  D  q1
  ( x   y )   D  q 2
 
m n
m n


Intervalli di Confidenza
F. Domma
39
2
2 

2
2


x
x

y
y 
 Pr D  q1

 x  y  D  q2
 
m n
m n 




2
2 

2
2
x y
x y 

 Pr D  q 2

  x   y  D  q1
 
m n
m n 




Ricordando che
a
Pr Z  q1   Pr Z  q 2   q1  z a
2
2
Intervalli di Confidenza
F. Domma
q2  z a
2
40
Si ottiene:
2
2 
2
2

x y
x y 
Pr D  z a
   x   x   D  z a
   1 a
2
2
m
n
m n 


Gli estremi dell’intervallo casuale (T1,T2), per la differenza tra le medie nel
caso di varianze note, sono:
T1  D  z a
2
Intervalli di Confidenza
 

m n
2
x
2
y
T2  D  z a
2
F. Domma
 

m n
2
x
2
y
41
Osservati x=(x1,…,xm) e y=(y1,…,yn), l’I.C. per la differenza tra le medie (x-y),
nel caso di varianze note, al 100(1-a)% è:
2
2 
2
2

x y
x y 

, d  za
 
d  z a2
2
m
n
m n 


dove
con
dxy
1 m
x   xi
m i 1
Intervalli di Confidenza
e
F. Domma
1 n
y   yi
n i 1
42
Se le varianza sono sconosciute, Z non è una quantità pivot per (x-y).
Secondo Caso: varianze uguali ma sconosciute
Stimatore naturale della differenza tra le medie
  
2
x
2
y
2
D XY
Da quanto detto in precedenza, si evince che
Z

D  x  y
2
x
m
Intervalli di Confidenza

2
y
n
  D  
x
 y
1 1


m n
F. Domma
 ~ N 0 , 1 
43
Si osserva, inoltre, che
 X
m
(m  1)S
V1 

2

2
x
i 1
 X
2
i
2
 Y  Y 
n
V2 
(n  1)S

2
2
y

~  2 (m  1)
i 1
2
i

2
~  2 (n  1)
Poiché V1 e V2 sono indipendenti, dalla proprietà riproduttiva della v.c. chi-quadrato,
si ha:
n
1 m
2
2
2
V1  V1  2  X i  X    Yi  Y   ~  (n  m  2)
  i 1
i 1

Intervalli di Confidenza
F. Domma
44
Dato che le v.c. Z e V1+V2 sono indipendenti, possiamo costruire la v.c. t-student, cioè
T
Z
~ t ( n  m  2)
V1  V2 
(m  n  2)
Tale rapporto si può scrive nel seguente modo:

D  x  y
T

1 1


m n
(m  1)S
2
x
 (n  1)S2y
(m  n  2)
Intervalli di Confidenza
2
F. Domma



D  x  y

1 1
Sp 

m n
45
dove
S 
2
p
(m  1)S  (n  1)S
2
x
2
y
(m  n  2)
È lo stimatore non-distorto della varianza comune 2; infatti, si ha:
 
ES 
2
p
 
 
(m  1)E S  (n  1)E S
2
x
(m  n  2)
2
y
(m  1)  (n  1)
2


(m  n  2)
2
Intervalli di Confidenza
2
F. Domma
46
In definitiva, la v.c.
T

D  x  y
 ~ t(m  n  2)
1 1
Sp 

m n
È una quantità pivot perché funzione del c.c. (X,Y) e del parametro da stimare
(x-y) con distribuzione che non dipende da parametri incogniti.
Fissato a, possiamo determinare q1 e q2 tali che
1  a  Pr q1  T  q 2  
Intervalli di Confidenza
F. Domma
47




D






x
y
 Pr q1 
 q2  
1
1


Sp 



m n





1 1

 Pr q1S p 
  D   x   y  q 2S p 
m n



1 1
 Pr  D  q1Sp 
    x   y   D  q 2S p 
m n





1 1

 
m n

1 1 
 
m n 

1 1
1 1 
 Pr D  q1Sp 
   x   y  D  q 2S p 
 
m n
m n 


Intervalli di Confidenza
F. Domma

48

1 1
1 1 
 Pr D  q 2Sp 
   x   y  D  q1Sp 
 
m n
m n 



Ricordando che
a
Pr T  q1   Pr T  q 2 
2
Intervalli di Confidenza
q1  t a2 ( m  n  2)
 
q 2  t a2 ( m  n  2)
F. Domma
49
Sostituendo, si ottiene:

Pr D  t a (m  n  2)  Sp
2

1

m
1
n


  x   y  D  t a (m  n  2)  Sp
2
1

m
1
  1 a
n
Gli estremi dell’intervallo casuale (T1,T2), per la differenza tra le medie nel
caso di varianze incognite ma uguali, sono:
T1  D  t a ( m  n  2 )  Sp
2
Intervalli di Confidenza
1
m

1
n
T2  D  t a ( m  n  2 )  Sp
2
F. Domma
1
m

1
n
50
Osservati x=(x1,…,xm) e y=(y1,…,yn), l’I.C. per la differenza tra le medie (x-y),
nel caso di varianze incognite ma uguali, al 100(1-a)% è:

d  t a2 ( m  n  2 )  s p

dove
dxy
con
m
1

m
e
1
, d  t a ( m  n  2)  s p
2
n
s 
2
p
1
x   xi
m i 1
m
1
2
2
x i  x 
sx 

m  1 i 1
Intervalli di Confidenza
s 
2
( m  1) x
1

m
1

n
2
( n  1) y
s
( m  n  2)
n
1
y   yi
n i 1
n
1
2
2
y i  y 
sy 

n  1 i 1
F. Domma
51
Esempio
Per provare l’efficacia di due nuovi semi per la produzione di grani sotto
condizioni climatiche normali, un’industria di semi seleziona
casualmente otto aziende agricole in una regione italiana e prova
entrambi i semi su una determinata superficie coltivabile. Le produzioni
per le otto aziende, secondo il seme utilizzato, sono le seguenti:
A : 86, 87, 56, 93, 84, 93, 75, 79
B : 80, 79, 58, 91, 77, 82, 74, 66
Supponendo che le due produzione siano, in ogni azienda, distribuite
normalmente e che le varianze delle due popolazioni siano uguali,
determinare l’intervallo di confidenza per la differenza delle produzioni
medie, ad un livello di confidenza del 95%.
Intervalli di Confidenza
F. Domma
52
Intervallo di Confidenza sulla probabilità di successo
Sia X una v.c. di Bernoulli con probabilità di successo pari a q.
Si ricorda che E(X)=q e V(X)= q(1- q).
Dato un c.c. X1,…,Xn estratto da B(q,1), si vuole costruire un
intervallo di Confidenza per q al 100(1-a)%.
Consideriamo la proporzione di successi in n-prove indipendenti
1
X
n
n
X
i 1
i
Sappiamo che
EX   q
q(1  q)
VX  
n
Intervalli di Confidenza
F. Domma
53
Dal teorema di De Moivre-Laplace, sappiamo che
Z
X  EX 
VX 

X q
d


N(0,1)
q(1  q) n 
n
Si evidenzia che la v.c. Z pur essendo una q.p. (perché è funzione
del c.c. e del parametro incognito ed ha distribuzione indipendente
da parametri incogniti) NON può essere utilizzata per costruire un
intervallo di confidenza asintotico per la probabilità di successo.
Infatti, la varianza della popolazione è sconosciuta. E’ necessario
quindi stimare la varianza della popolazione.
Intervalli di Confidenza
F. Domma
54
Consideriamo lo stimatore naturale della varianza della popolazione
n
1 n
1
S   X i2  X 2   X i  X 2  X 1  X 
n i 1
n i 1
2'
n
Perché
n
X  X
i 1
2
i
i 1
i
essendo Xi=0 oppure Xi=1.
Consideriamo, ora, la varianza campionaria non-distorta
n
nX1  X 
2'
S 
S 
n 1
n 1
2
Intervalli di Confidenza
F. Domma
55
Sostituiamo a V(X) lo stimatore non-distorto S2
Z
X  EX 
VX 

X q
S2
n

Xq
nX 1  X 
n (n  1)

X q
X 1  X 
(n  1)
Si dimostra che
Z
Xq
X 1  X 
(n  1)
d


N(0,1)
n 
Quest’ultima è una quantità pivot per la probabilità di successo q.
Intervalli di Confidenza
F. Domma
56
Fissato a, possiamo determinare q1 e q2 tali che
1  a  Pr q1  Z  q 2  



 Pr q1 





X q

 q2  
X 1  X 


n 1


X 1  X 

 Pr q1
 X  q  q2
n

1


Intervalli di Confidenza
F. Domma
X 1  X  


n 1 

57

X 1  X 
X 1  X  
 Pr  X  q1
 q   X  q 2

n 1
n  1 


X 1  X 
X 1  X  
 Pr X  q 2
 q  X  q1

n 1
n  1 

Analogamente, a quanto visto in precedenza possiamo dire che
q1   z a
2
Intervalli di Confidenza
q2  z a
2
F. Domma
58
Sostituendo abbiamo

X 1  X 
X 1  X  
Pr X  z a
 q  X  za
 1 a

2
2
n 1
n  1 

Gli estremi dell’intervallo casuale (T1,T2), per la probabilità di successo, sono:
T1  X  z a
2
Intervalli di Confidenza
X 1  X 
n 1
T2  X  z a
2
F. Domma
X 1  X 
n 1
59
Osservato x=(x1,…,xm) , l’I.C. asintotico per la probabilità di successo q, al
100(1-a)% è:

x (1  x )
x (1  x ) 
, x  za
x  z a2

2
n 1
n 1 

dove
1 n
x   xi
n i 1
Intervalli di Confidenza
F. Domma
60
Esempio.
Dal deposito di una industria che produce lampade, si estrae un c.c.
di 350 unità e si osserva che il 25% sono difettose. Si determini un
intervallo di confidenza per la proporzione di lampade difettose
prodotte dall’industria in esame, al livello di confidenza del 95%.
Intervalli di Confidenza
F. Domma
61
Intervalli di Confidenza
F. Domma
62
Intervalli di Confidenza
F. Domma
63
Intervalli di Confidenza
F. Domma
64
Intervalli di Confidenza
F. Domma
65
Intervalli di Confidenza
F. Domma
66