8) GLI INTERVALLI
DI CONFIDENZA
8.1) Gli intervalli di
confidenza
Nelle precedenti pagine si è mostrato come
uno stimatore per la ignota media  di una
generica v.c. X sia la v.c. Media campionaria
1
X  X
n
n
n
i 1
i
per la quale risulta
E( X )  
n
e
Var ( X ) 
n

2
(1)
n
dove 2 è la varianza della suddetta v.c. X.
E il verificarsi delle (1) ha portato a dire che
Xn è stimatore corretto e consistente per ,
essendo chiaro che tali proprietà si riflettono
anche sulle singole determinazioni x di Xn .
In altri termini, ottenuta con
n prove
indipendenti in X la n-upla (x1 ,…,xn ), la
relativa media
1
x   x è stima corretta e consistente di 
n
n
i 1
i
A tali informazioni se ne può ora aggiungere
un’altra di notevole interesse ricorrendo alla
celebre
disuguaglianza
di
BiènayméChebychev secondo cui, se Y è una generica
v.c. con media Y e varianza 2Y, vale la
seguente disuguaglianza:
1
P[   k  Y    k ]  1 
k
Y
Y
Y
Y
(2)
2
dove k è una conveniente costante positiva
arbitraria
Sostanzialmente la disuguaglianza informa
che è non minore di 1-1/k2 la probabilità che
effettuando una prova in Y si ottenga una
determinazione y appartenente all’intervallo
(Y - k Y , Y + k Y).
Una semplice verifica della disuguaglianza in
questione è fornita dal seguente esempio.
Esempio
Sia Y la v.c. così articolata:
y
Y
1
5
7
9 13
(y) 1/5 1/5 1/5 1/5 1/5
per la quale risulta:
1
  E (Y )  (1  5  7  9  13)  7
5
  [(1  7)  (5  7)  (7  7)  (9  7) 
 (13  7)  16
Y
2
2
2
2
2
Y
2
Scelto k = 1.5, l’intervallo (Y - k Y , Y + k Y)
risulta
[7-(1.5)(4) , 7+(1.5)(4)] ovvero (1 , 13)
1
 0.555
e deve essere P(1  Y  13)  1 
(1,5)
2
E in effetti la probabilità che la v.c. Y assuma un
valore del suddetto intervallo è uguale alla
somma delle probabilità:
3
P(Y  5)  P(Y  7)  P(Y  9)   0.6
5
e risulta 0,6 > 0.555, in accordo con quanto
previsto dalla disuguaglianza più sopra
proposta.
Si supponga ora che X sia una v.c. con media
 ignota e in una prima fase con varianza 2
nota.
Effettuate n prove indipendenti in X ed
ottenuta la n-upla campionaria (x1 ,…,xn ), sia
x la stima corretta e consistente di .
Impiegando ora la disuguaglianza di
Biènaymé-Chebychev, avendo fissato un
conveniente k > 0, si può scrivere:


1
P[   k
 X k
] 1
n
n
k
n
2
relazione che avverte che è non minore di 1-1/k2
la probabilità che la v.c. X. Media campionaria
Xn assuma una determinazione appartenente
all’intervallo


(  k ,   k )
n
n
Effettuate n prove indipendenti nella v.c. X
con media  ignota, è non minore di 1-1/k2 la
probabilità di ottenere una n-upla (x1 ,…,xn ) la
cui media soddisfi alla doppia disuguaglianza:
 k

n
 xk

n
Sottraendo membro a membro ( x   ) si ottiene
xk

n
  xk

(4)
n
La (4) rappresenta l’intervallo di confidenza
La probabilità che la v.c. Xn relativa ad n prove
in X fornisca un intervallo di confidenza che
contiene  è non minore di 1-1/k2
Esempio
Sia X una v.c. con media  ignota e varianza 2
=16.
Si effettuano n=64 prove le cui determinazioni
xi portano alla media:
 1  8    1
1 64
x
xi  8

64 i 1
x  8 rappresenta una determinazione della
v.c. Media campionaria X per la quale si ha:
64
E( X )  

2
16
Var ( X ) 

 0.25
64 64
e
64
64
Fissato k=2, in base alla (3) si ottiene:


1
P   2 0.25  X    2 0.25  1     0.75
2
ossia:
64
2
P  1  X    1  0.75
64
Avendo ottenuto quale determinazione di
X
64
il valore 8 si può costruire l’intervallo di
confidenza, a livello non minore di 0.75,
attraverso i passaggi seguenti:
  1  8    1  8  1    8  1 
 9    7  7    9
Per semplicità, sino ad ora si è supposto di
conoscere la varianza 2 di X, ma con
opportuna procedura tale limitazione può farsi
cadere impiegando in luogo della ignota 2 la
sua stima corretta:
1
s 
 (x  x)
n 1
2
n
i 1
2
i
Che con la (4) assume l’aspetto:
s
s
x k
  xk
n
n
(5)
Se la costruzione di intervalli di confidenza per
la media e la varianza riguarda il caso in cui la
v.c. X è di tipo Normale, si ottengono intervalli
di confidenza migliori di quanto non consenta
l’impiego della disuguaglianza di BìenaymèChebychev.
Migliori nel senso che a parità di ampiezza
hanno associata una probabilità più alta.
8.2) Media campionaria
Se la v.c. X è Normale lo è anche la v.c.
Media campionaria X n
1 Nell’ipotesi che l’intervallo di confidenza
riguardi l’ignota media  di X - essendo
nota invece la sua varianza 2 - l’intervallo
medesimo a livello esattamente (1 - ) ha la
forma
x  z
2

n
   x  z
2

(6)
n
Si ha infatti:

 

(1   )  P   z
 X    z

n
n

dove z  è la soluzione dell’equazione:
n
2
2
2



P  Z  z  

 2
2
essendo Z la v.c. Normale standardizzata.
Nel caso precedente, fissato (1 - ) = 0.75, si
ottiene, dalla Tavola della v.c. Z, z0.125 = 1.15
e l’intervallo dato dalla (6) risulta:
7.425    8.575 (meno ampio del precedente)
2
Se anche la varianza 2 è ignota e viene
pertanto stimata con s 2 l’intervallo dato
dalla (6) assume la forma:
x  t
2
s
s
   x  t
n
n
2
dove t  è la soluzione dell’equazione:
2



P  T  t  

 2
2
Essendo T la v.c. di Student.
8.3) Teorema del limite
centrale e intervalli di
confidenza
Si è visto che la v.c. MEDIA CAMPIONARIA X n
 
ha E X n  
VAR X n   
2
n
ed è stimatore corretto e consistente di
generica v.c. X.
di una
 )
Ma se l’ampiezza campionaria diverge ( n 
lim
n
 
2
n
0
Perciò:
X n diventa degenere (varianza zero) con funzione
di ripartizione:
0

1
per X n  
per X n  
Comunque sia fatta la f.r. di X n per n punti
Xn  
n
Zn 
  N( 0,1)

n
Per il teorema del limite centrale, cioè si
approssima alla normale standardizzata, e:
2 


σ
Xn 
z   
 N μ ,

n


n
Perciò, con n elevato, qualunque sia la v.c. X di
partenza, la media campionaria
è:
e si può costruire l’intervallo di confidenza sulla
distribuzione della normale.
8.4) Intervallo di
confidenza asintotico
per una percentuale o
una frequenza relativa
o una proporzione
Sia X  Ber (p) sappiamo che E(X) = p V(X) = p(1-p)
Lo stimatore di p è
X
n
X

=.
i
i
n
Dalle proprietà degli operatori E e V, sappiamo che:
E=
X
X
   p, V 
n
n
p(1  p)
=
n
Xn 
p(1  p)
Per il terorema del limite centrale
N
(p,
)

n
n
X
 p n 
n
Oppure
N( 0, 1)
p(1  p) 
n
A questo punto è possibile costruire un Intervallo di
confidenza asintotico (n grande) per p
X
P   z
2
n
p(1  p)
X
 p   z
n
n
2
p(1  p) 
  1
n

Con - z  e z  tali che:
2
2
P(-
z
2
< Z<
z
2
) = 1-
Tuttavia in questo modo gli estremi dell’intervallo:
X
  z
2
n
p (1  p ) X
;
 z
n
n
2
p (1  p ) 

n

non sono calcolabili perché p è ignoto. Se lo
conoscessimo non saremmo più in ambito di inferenza
statistica: p è l’oggetto dell’inferenza da una variabile
Xi Bernoulliana.
Allora si sostituisce al posto di p la sua stima cioè X ,
n
restituendo l’intervallo:

X X
X X 
1  
1   

n
n X
n
n 
X z
;  z

n

n
n
n
2
2




a livello di confidenza 1-.
Esempio:
Su 200 ragazzi 48 di essi affermano di non leggere un
libro da più di un anno.
Si costruisca un Intervallo di confidenza per la
proporzione di ragazzi italiani che non legge un libro
da più di un anno.
Soluzione.
L’oggetto del problema è conoscere p cioè la
proporzione di italiani che non legge un libro da più
di un anno; a tal fine si estrae un campione di 150
ragazzi.
E’ ragionevole che la stima della proporzione di
ragazzi che non legge un libro da più di un anno (p)
nella popolazione (Italia) venga stimata con la
proporzione di ragazzi italiani che non legge un libro
X
da più di un anno nel campione .
48
n
La stima di p è allora 200  0,24.
Il campione è abbastanza grande (n=200) per costruire
l’I.C. asintotico:
L’unica incognita in

X X
1  

n
n X
X z
;  z

n
n
n
2
2


X X 
1   
n
n 

n


è z  che troviamo sulle tavole.
2
L’intervallo di confidenza a livello 0,95 è:
[0,24 – 1,96
0,24 * 0,76
;
200
0,24 + 1,96
0,24 * 0,76
]
200
=
[0,1808 ; 0,299].
Si noti che stimo una percentuale per cui anche gli
estremi lo sono, cioè sono numeri tra 0 e 1.
Interpretazione.
Il valore di p non lo conosco, non lo saprò mai,
tuttavia possiamo dire che ho una confidenza elevata
che p sia compreso nell’intervallo[0,1808 ; 0,299]
perché
X
P   z
2
n
p(1  p)
X
 p   z
n
n
2
p(1  p) 
  0,95
n

significa che su infiniti intervalli di confidenza,
immaginando di estrarre infiniti campioni, il 95% di
essi contiene p, ma non sappiamo con certezza se il
nostro intervallo contiene p, ne abbiamo solo una
confidenza elevata.