Università degli Studi di Padova
Corso di Laurea in Medicina e Chirurgia - A.A. 2015-16
Corso Integrato: Statistica e Metodologia Epidemiologica
Disciplina: Statistica e Metodologia Epidemiologica 2
Docenti: prof.ssa Anna Chiara FRIGO – prof.ssa Egle PERISSINOTTO
Modulo 2: Stima
• Stima puntuale e intervallare
• Stima della media di una popolazione mediante intervallo di
fiducia
• Stima della proporzione di una popolazione mediante intervallo di
fiducia
• Calcolo della dimensione del campione per la stima della media di
una popolazione
• Calcolo della dimensione del campione per la stima della
proporzione di una popolazione
PRODOTTI CONOSCITIVI DELL’INFERENZA
STIMA
Attribuire il valore “più appropriato” ad un parametro o a una
caratteristica di una popolazione:
 in base ai risultati campionari,
 che soddisfi a criteri di ottimalità,
 con prefissata probabilità di errore.
VERIFICA DI IPOTESI
Accettare o respingere un’ipotesi formulata su un parametro, una
caratteristica o sulla forma di una distribuzione di una variabile
relativa alla popolazione:
 in base ai risultati campionari,
 con pre-assegnate probabilità di errore.
CRITERI DI STIMA (1)
Stima puntuale:
si attribuisce al parametro o alla caratteristica
della popolazione un singolo valore (puntuale)
espresso dall’informatore campionario.
Stima intervallare: il parametro o la caratteristica della popolazione
è stimato da due numeri, che definiscono un
intervallo di numeri reali.
► Le stime intervallari indicano la precisione di una
stima e sono perciò da preferire alla stima puntuale.
Esempio: se si dice che una definita opinione è espressa dal 48% della
popolazione, si dà una stima puntuale. Se invece si dice che la vera
percentuale è compresa tra il 45% ed il 51%, si dà una stima
intervallare.
CRITERI DI STIMA (2)
•
Una regola con fondamento logico e intuitivo è quella di
considerare gli stimatori “naturali”, cioè che abbiano lo stesso
significato dei parametri incogniti della popolazione:
n
xi
M

i 1 n
n
s2  
i 1
p
xi  M2
n1
x

n
 2
PROPRIETÀ DELLO STIMATORE (1)
•
Correttezza: il valore medio della variabile
casuale
campionaria
(v.c.c.)
associata
all’informatore è uguale al parametro o alla
caratteristica da stimare.
– Esempio:
la media M di una distribuzione
campionaria di medie M è uguale a , la media
della popolazione. Perciò la media campionaria M è
una stima corretta (o non distorta) del parametro .
PROPRIETÀ DELLO STIMATORE (2)
•
Consistenza: al divergere di n (dimensione del
campione) il valore dell’informatore tende a quello del
parametro o della caratteristica da stimare.
– Esempio:
la v.c.c. descritta dalle medie
campionarie, di media M, ha varianza ²/n, che
tende a zero per n tendente all’infinito: così M
tende al vero parametro , ed è una stima
consistente.
PROPRIETÀ DELLO STIMATORE (3)
•
Efficienza: tra due stimatori, a parità di n,
conviene quello che presenta varianza minore.
– Esempio:
le v.c. descritte dalla media e dalla
mediana campionaria hanno la stessa media ,
cioè la media della popolazione. Tuttavia, mentre la
varianza delle medie campionarie è ²/n, quella
della mediana è (/2)(²/n) (= 1,57²/n), e quindi
maggiore: perciò la media aritmetica campionaria
rappresenta una stima di  più efficiente della
mediana campionaria.
STIMA INTERVALLARE
•
•
Siano  I e  I rispettivamente la media e la deviazione standard
della v.c.c. descritta dall’informatore I.
Se la distribuzione di tale v.c. è approssimativamente Normale
(ciò è vero per molti informatori quando n  30) allora ci si può
attendere che una sua determinazione cada, ad esempio,
nell’intervallo:
( I - 2I ,  I + 2I)
il 95,45% delle volte.
EQUIVALENTEMENTE, noi possiamo attenderci (o avere
fiducia) che lo stesso intervallo ( I - 2 I ,  I + 2 I) includa al
suo interno l’ignoto valore  I. Perciò esso è chiamato intervallo di
fiducia (o di confidenza), ed i suoi estremi limiti di fiducia.
La percentuale 95,45% che lo caratterizza è detta livello di
fiducia.
STIMA DELLA MEDIA DELLA POPOLAZIONE
/n

 - 2/n
M
P( - 4/n  M   + 4/n)  100%
P( - 2/n  M   + 2/n)  95%
M
 + 2/n
INTERVALLO DI FIDUCIA PER LA MEDIA
DELLA POPOLAZIONE
/n
/n

 - 2/n
M
M
 + 2/n
 - 2/n
M

M
 + 2/n
STIMA INTERVALLARE
•
•
•
L’intervallo di stima è costruito sulla base del valore
dell’informatore campionario e delle caratteristiche
della distribuzione da cui è espresso.
Si afferma che tale intervallo contiene il vero
parametro della popolazione, avendo prefissato per
tale affermazione un livello di fiducia pari a 1 - .
L’affermazione può essere corretta o errata: si sa,
tuttavia, che essa è estratta a caso da un insieme di
siffatte affermazioni costituito per il 100(1 - )% da
affermazioni corrette, e per il 100% da affermazioni
errate.
INTERVALLI DI FIDUCIA
(1 - )  0,95
/2
/2
2I
2I
I
I
I1
I2
I3
I4
I6
I5
STIMA INTERVALLARE DELLA MEDIA
•
Sulla base delle proprietà della v.c. descritta
dall’informatore media campionaria, si può scrivere:

 

P  Z 2 
 M    Z 2 
  1 
n
n

oppure, dopo
equivalente:
alcuni
passaggi,
l’espressione

 

PM  Z 2 
   M  Z 2 
  1 
n
n

•
Gli estremi dell’intervallo (limiti di fiducia) dipendono
dalla determinazione campionaria di M, e sono
perciò casuali.
ESEMPIO: intervallo di fiducia per la variazione
di glicemia
Si vuole trovare un intervallo di fiducia per la variazione media di
glicemia (pre-post prandiale) con un grado di fiducia pari a 1- = 0,95.
Supponiamo di sapere che la variazione della glicemia si distribuisce
secondo una Normale e che  = 20 mg/dl.
Da un campione casuale di 5 soggetti la variazione risulta:
Soggetto
Variazione glicemia
(mg/dl)
1
2
3
4
5
-70
-30
10
-40
-20
La media quindi è pari a M = -150/5 = -30 mg/dl e l’intervallo di
fiducia sarà:
(-30 - 1,9620/5 ; -30 + 1,9620/5) = (- 47,53 ; -12,47)
Distribuzione campionaria t di Student
Di solito la deviazione standard è ignota e si stima mediante la
seguente funzione dei dati campionari:
n
s
2


x

M
 i
i 1
n 1
dove: n-1 =  è detto numero di gradi di libertà (g.d.l.).
La funzione campionaria:
M 
t 
s n
• se X si distribuisce normalmente, si distribuisce come una t di
Student con  gradi di libertà;
• si modifica al variare di  e, per n  30, è pressoché uguale ad
una Normale standardizzata;
• può essere utilizzata per fare inferenza su  quando  è ignoto
(come accade quasi sempre).
Distribuzione t di Student per alcuni valori di 
=1
Probabilità
Probabilità
 = 10
 = 30
Probabilità
Probabilità
 = 20
INTERVALLO DI FIDUCIA PER 
QUANDO  È IGNOTO
•
È pari a 1- la probabilità di ottenere un valore
campionario della t compreso tra gli estremi:
 t  2; n1
•
M

 t  2; n1
s n
Da ciò si deducono i limiti di fiducia per  ad un
fissato livello di fiducia pari a 1 - :
s
s
M  t  2; n1 
   M  t  2; n1 
n
n
INTERVALLI DI FIDUCIA CON LA t DI STUDENT
•
•
Generalmente si ha:
t;   z
(l’uguaglianza vale solo per   )
Ripetuti intervalli si modificano anche in ampiezza:
s
s 

,M  t  2;  
 M  t  2;  

n
n


M
ESEMPIO: intervallo di fiducia con la t
Si vuole trovare un intervallo di fiducia per la variazione media di
glicemia (pre-post prandiale) con un grado di fiducia pari a 1- = 0,95.
Supponiamo di sapere che la variazione della glicemia si distribuisce
secondo una Normale. Da un campione casuale di 5 soggetti la
variazione risulta:
Soggetto
Variazione glicemia
(mg/dl)
1
2
3
4
5
TOTALE
-70
-30
10
-40
-20
-150
xi-M
-40
0
40
-10
10
0
(xi-M)2
1600
0
1600
100
100
3400
La deviazione standard campionaria risulta quindi:
s
3400
 29,15
5 1
e l’intervallo di fiducia sarà:
(- 30 - 2,7829,15/5 ; -30 + 2,7829,15/5) = (- 66,24 ; + 6,24)
DIMENSIONE DEL CAMPIONE
(stima di media con  noto)
•
Si noti che, con riferimento all’intervallo basato sulla
distribuzione Normale, la sua ampiezza è data dalla differenza
tra il limite di fiducia superiore e quello inferiore, ossia da:



  M  z 2 
 (M  z  2 
)  2  z 2 
n
n
n
•
•
Si desideri un intervallo con prefissati:
– ampiezza  (il semi-intervallo è detto precisione),
– limite di fiducia 1 - .
Si assuma noto il valore di  (sulla base di indagini pilota).
►Soluzione:
4  z 2 2  2

  2  z 2 
 n
2
n
ESEMPIO: dimensione del campione nel caso
di stima di una media con  noto
Si vuole stimare il peso medio alla nascita in un’area urbana
prefissando per l’intervallo di fiducia un’ampiezza  = 120g e un
livello di fiducia 1- = 99%. Da studi precedenti si è trovato che il
peso alla nascita ha una deviazione standard  = 600g.
Quanto deve essere grande il campione?
4  2,582  6002
n
 665,64  666 neonati
2
120
INTERVALLO DI FIDUCIA PER UNA
PROPORZIONE
•
•
•
Si voglia stimare l’ignota frequenza relativa  di unità che nella
popolazione sono portatrici di una determinata caratteristica
(es.: prevalenza del diabete = numero diabetici/totale
popolazione).
A tal fine, si estrae un campione di numerosità n. Si osservano x
(distribuzione Binomiale) soggetti con la caratteristica in esame
(es.: diabetici), ottenendo così p = x/n quale informatore (stima
puntuale di ).
Se n  30, la distribuzione Binomiale è bene approssimata dalla
Normale e i limiti di fiducia possono essere così espressi:
p  z 2 
p  (1  p)
p  (1  p)
   p  z 2 
n
n
ESEMPIO: intervallo di fiducia per una
proporzione
Si vuole stimare la percentuale di fumatori tra gli studenti delle
medie superiori, con un livello di fiducia pari a 1- = 0,95.
Si conduce quindi un’indagine su un campione di n = 1.737
studenti.
Si trova che i fumatori sono x = 308.
La proporzione (prevalenza) di fumatori risulta quindi:
x
308
p 
 0,177.
n 1.737
L’intervallo di fiducia sarà:


0,177

0,823
0,177

0,823
 0,177  1,96 

; 0,177  1,96 


1.737
1.737


0,159 ; 0,195  15,9% ; 19,5%
DIMENSIONE DEL CAMPIONE
(stima di una proporzione)
•
Per la stima della frazione , l’ampiezza dell’intervallo è data
da:
p  (1  p)
  2  z 2 
n
•
Il parametro  viene sostituito dalla stima p desunta da indagini
precedenti sullo stesso fenomeno, o dal valore 0,5 che riflette la
condizione più sfavorevole.
►Soluzione:
n
4  z 2 2  p  (1  p)
2
ESEMPIO: dimensione del campione nel caso
di stima di una proporzione
(percentuale)
Si vuole stimare la prevalenza dei diabetici ultra-65enni, che si
presume essere all’incirca del 30%, prefissando per l’intervallo di
fiducia un’ampiezza  = 0,04 ed un livello di fiducia 1- = 95%.
Qual è la dimensione campionaria necessaria?
4  1,962  0,30  0,70
n
 2016,84  2.017 ultra - 65enni
2
0,04
LIVELLI DI FIDUCIA E COEFFICIENTI
(1-)%
Z/2
99,73
3,0
99,00
2,58
95,45
2,0
95,00
1,96
90,00
1,645
80,00
1,28
68,27
1,0
50,00
0,6745
VARIABILITÀ, NUMEROSITÀ CAMPIONARIA
E AMPIEZZA DELL’INTERVALLO DI FIDUCIA
Per ridurre l’ampiezza dell’intervallo dovremmo:
1. ridurre 
2. aumentare n.
n
Intervallo di
fiducia al 95%
per 
10 M  0,620
100 M  0,196
1000 M  0,062
Ampiezza
dell’intervallo
1,240
0,392
0,124