Corso in “Statistica Medica”
Introduzione alle tecniche statistiche di
elaborazione dati
Intervalli di confidenza
Dott. Angelo Menna
Università degli Studi di Chieti “G. d’Annunzio”
Anno Accademico 2008-2009
STATISTICA INFERENZIALE
La statistica inferenziale è rivolta all’induzione probabilistica circa la
popolazione sulla base di osservazioni su un campione di unità estratte
con procedure casuali dalla popolazione. I termini generali la statistica
inferenziale è rivolta ad affrontare e risolvere il cosiddetto problema
inverso in cui la struttura della popolazione è incognita e induttivamente
si cerca di utilizzare un insieme limitato di informazioni fornite da un
campione casuale estratto dalla popolazione.
Popolazione
Campione
Stima
Stimadei
deiParametri
Parametri
Argomenti
Argomentifondamentali
fondamentali
di
dicui
cuisisioccupa
occupa
l’inferenza
l’inferenzastatistica:
statistica:
Intervalli
Intervallidi
diConfidenza
Confidenza
Verifica
Verificadelle
delleIpotesi
Ipotesi
Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009
INTERVALLI DI CONFIDENZA
Nella pratica si dispone di un solo campione, per cui la stima puntuale
difficilmente darà il valore esatto del parametro della popolazione. E’
preferibile allora stimare due estremi, entro i quali tutti i valori sono
possibili stime del parametro, secondo un certo grado di plausibilità.
L’intervallo di confidenza è un intervallo di valori determinato sulla base
di un campione che si ritiene contenere il vero parametro (incognito della
popolazione) con un prefissato grado di fiducia.
Se ad esempio si vuole costruire l’intervallo di confidenza per la media
della popolazione µ, si calcoleranno due valori (θ1 e θ2) simmetrici rispetto
alla media campionaria.
µ
θ1
X
θ2
X
Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009
INTERVALLI DI CONFIDENZA
Dire che il livello di confidenza è prefissato significa assegnare una
probabilità di questo tipo: P(θ1 < µ < θ2) = 1 - α
Poiché sono gli estremi dell’intervallo (θ1 e θ2) che variano al variare delle
realizzazioni campionarie, mentre il parametro incognito (es. µ) è fisso,
1 - α è la probabilità che l’intervallo contenga il parametro incognito.
Così, se 1-α=95%, immaginando di avere tutti i possibili campioni, ci
aspettiamo che il 95% di essi contenga il parametro incognito della
popolazione.
µ
θ1
X
θ2
X
Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009
INTERVALLI DI CONFIDENZA
Vediamo come si costruisce un intervallo di confidenza con un esempio.
Bisogna stimare la superficie media µ delle abitazioni di una città. Da uno
studio precedente sappiamo che lo scarto quadratico medio σ=8. In un
campione di 50 appartamenti si osserva una media campionaria X = 120.
Si vuole determinare l’intervallo di confidenza per µ al 95%, sotto
l’ipotesi di Normalità.
Ricordiamo che la media campionaria si distribuisce normalmente con i
seguenti parametri:
2

σ
X ≈ N µ ,

n





quindi possiamo scrivere…


x−µ
P − Zα 2 ≤
≤ Zα 2  = 1 − α
σ n


Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009
INTERVALLI DI CONFIDENZA
Dalla precedente ricaviamo
σ
σ 

P x − Zα 2
≤ µ ≤ x + Zα 2
 =1−α
n
n

A questo punto i nostri dati sono i seguenti:
X = 120; σ = 8; n = 50; 1 - α = 95%
Per cui manca solo il valore di Zα 2 che andiamo a cercare con l’ausilio
delle tavole della normale.
Dalle tavole ottengo il
valore Z α/2 = 1,96
Siccome α=0,05
allora α/2=0,025
α/2
α/2
-1,96 0
1,96
z
Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009
INTERVALLI DI CONFIDENZA
A questo punto basta sostituire i valori e otteniamo l’intervallo cercato:
8
8 

P120 − 1,96
≤ µ ≤ 120 + 1,96
 = 0 ,95
50
50 

P(117 ,78 ≤ µ ≤ 122,22) = 0 ,95
CONCLUSIONE:
si ha una FIDUCIA del 95% che l’intervallo [117,78 ; 122,22] contenga il
parametro incognito µ.
Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009
INTERVALLI DI CONFIDENZA
Un caso particolare è quello in cui si deve costruire un intervallo per la
media senza conoscere la varianza della popolazione. In tal caso si
possono avere 2 situazioni:
1.
1.La
Lanumerosità
numerositàdel
del
campione
campioneèègrande
grande
(diciamo
(diciamon>30)
n>30)
2.
2.Il
Ilcampione
campioneèè
piccolo
piccolo(diciamo
(diciamon<=30)
n<=30)
Si
Siprocede
procedecon
conlala
distribuzione
distribuzionenormale.
normale.
Si
Siutilizza
utilizzalaladistribuzione
distribuzione
ttcon
conn-1
n-1gradi
gradidi
dilibertà
libertà
(G.L.)
(G.L.)
In
Inquesto
questocaso
casolalaprocedura
procedurarimane
rimaneinvariata,
invariata,solo
soloche
chealalposto
posto
dello
dellos.q.m
s.q.m(incognito)
(incognito)sisiutilizzerà
utilizzeràililsuo
suostimatore
stimatorenaturale,
naturale,cioè
cioè
lo
loscarto
scartoquadratico
quadraticomedio
mediocampionario
campionariocorretto
corretto
Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009
INTERVALLI DI CONFIDENZA
Vediamo ora un esempio sulla stima della percentuale π.
Una ditta farmaceutica vuole stabilire l’efficacia di un nuovo farmaco. Ha
condotto un esperimento su 900 pazienti, affetti dalla malattia in
questione, e si è riscontrato che il farmaco è stato efficace in 740 casi.
Si vuole determinare l’intervallo di confidenza al 95% per la percentuale
dei casi (π) in cui il farmaco è efficace nell’intera popolazione dei malati.
Ricordiamo che per stimare π uso la statistica p =
∑x
i
n
che rappresenta la frequenza relativa dei successi nel campione; quindi
abbiamo:
p=
740
= 0 ,82
900
Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009
INTERVALLI DI CONFIDENZA
Dato che la seguente quantità ha distribuzione Normale Standardizzata
Z =


Possiamo scrivere: P  − Z α 2 ≤



p −π
π (1 − π )
n


p − π
≤ Zα 2  = 1− α

π (1 − π )

n

Dalla quale, sostituendo al parametro ignoto π sotto radice il suo
stimatore p, si ha:
(
)
P p − Zα 2 p(1− p ) n ≤ π ≤ p + Zα 2 p(1− p ) n =1−α
Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009
INTERVALLI DI CONFIDENZA
I dati che abbiamo sono: p = 0,82; (1-p) = 0,18; 1-α = 95%; Zα/2 = 1,96
Quest’ultimo valore si ricava dalle tavole con lo stesso procedimento
visto per la media.
Per cui facendo le sostituzioni otteniamo:
(
)
P 0 ,82 − 1,96 0 ,82 ⋅ 0 ,18 900 ≤ π ≤ 0 ,82 + 1,96 0 ,82 ⋅ 0 ,18 900 = 0 ,95
P (0 ,80 ≤ π ≤ 0 ,84 ) = 0 ,95
CONCLUSIONE:
si ha una FIDUCIA del 95% che questo intervallo contenga il valore
incognito della popolazione π
Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009