Università degli Studi di Padova
Facoltà di Medicina e Chirurgia
Corso di Statistica Medica per le Scuole di Specializzazione
A.A. 2008-9
Modulo 1
Inferenza statistica: intervalli di
fiducia (confidenza)
Anna Chiara Frigo
Aula A sede di Igiene
25 maggio 2010
dott. Frigo Anna Chiara
Dipartimento di Medicina Ambientale e Sanità Pubblica Sede di Igiene
Facoltà di Medicina e Chirurgia
via Loredan, 18
35131 Padova
tel. 049/8275412
e-mail: [email protected]
Testi consigliati:
M. Pagano, K. Gauvreau “Biostatistica II edizione”
II Edizione italiana a cura di I.F. Angelillo, M. Pavia,
P. Villari, G. Di Natale. Ed. Idelson-Gnocchi, 2003
Una particolare funzione della statistica è
questa: permettere al ricercatore di fare
una valutazione numerica dell’incertezza
della sua conclusione
Snedecor (1950)
Il fattore di rischio X è associato
alla patologia Y?
POPOLAZIONE
SELEZIONE DEI SOGGETTI
CAMPIONE
INFERENZA
„
Dal campione calcoliamo una stima dell’effetto di X su Y (es. RR
RR se studio longitudinale)
¾
¾
L’effetto è reale?
Il caso può aver giocato un ruolo?
Perché preoccuparsi del caso?
POPOLAZIONE
CAMPIONE 1
CAMPIONE 2
…
CAMPIONE K
„
Perché c’è la variabilità campionaria … e il campione
estratto è uno solo!
Interpretazione dei risultati
POPOLAZIONE
SELEZIONE DEI SOGGETTI
CAMPIONE
INFERENZA
„
Produrre inferenza dai dati raccolti utilizzando i
teoremi del calcolo delle probabilità e della statistica
¾
¾
Intervalli di fiducia
Verifica di ipotesi (valore di p)
Metodi di campionamento
„
Probabilistici
¾
Ciascuna unità della popolazione ha la stessa probabilità di
essere inclusa nel campione
Dalla popolazione di N (finito o infinito) unità si estrae un
insieme di n unità:
9
9
¾
„
con ripetizione (Bernoulliana)
senza ripetizione (in blocco)
Se N è infinito o la frazione sondata n / N è molto piccola, la
differenza è irrilevante
Non soggetti a distorsioni sistematiche
Non probabilistici
¾
¾
Non basati sulla randomizzazione, ma su altri criteri
(comodità, accessibilità, ecc.)
Soggetti a distorsione di selezione
La stima
„
Stima puntuale
¾
¾
¾
„
M o x (media aritmetica campionaria) stima di μ
s (deviazione standard campionaria corretta con
al denominatore n-1 e non n) stima di σ
p (proporzione campionaria) stima di π
Stima intervallare Î Intervallo di fiducia
¾
Intervallo di possibili valori entro il quale si ritiene
sia compreso il parametro che si vuole stimare
(μ, σ, π) con un certo grado di fiducia
Criteri di stima
Una regola con fondamento logico e intuitivo è quella di
considerare gli stimatori “naturali”, cioè che abbiano lo stesso
significato dei parametri incogniti della popolazione:
n
M=
∑x
i=1
n
i
stima di μ
n
s=
p =
2
(
)
x
−
M
∑ i
i =1
n -1
stima di σ
x
(x numero di eventi di interesse)
n
stima di π
Teorema centrale della Statistica
Il teorema centrale della Statistica, fornisce una base
teorica per il vasto impiego della distribuzione Normale.
Il teorema stabilisce che all’aumentare della numerosità
campionaria n, la distribuzione della media campionaria:
1. diventa approssimativamente Normale qualsiasi sia
la distribuzione della variabile originaria;
2. ha come media la media (μ) della variabile nella
popolazione e la deviazione standard della
distribuzione delle medie campionarie, tende a σ/√n
(errore standard della media campionaria).
Distribuzione delle Medie Campionarie (1)
Ref: Brown & Hollander. Statistics: A Biomedical Introduction. John Wiley & Sons, 1977.
Distribuzione delle Medie Campionarie (2)
Ref: Brown & Hollander. Statistics: A Biomedical Introduction. John Wiley & Sons, 1977.
Variabile casuale
campionaria
associata alla media
aritmetica
Variabile
Casuale
Universo
σ
σ
μ
X
μ
n
x
Errore
Standard
La distribuzione della media
aritmetica campionaria (1)
„
X ∼ N (μ, σ) Îx ∼ N (μ, σ/√n)
Errore standard
„
X ∼ ? (μ, σ) Î x ∼ N (μ, σ/√n) per n→∞
Teorema del Limite Centrale
Frequenza
Frequenza
Frequenza
Densità di probabilità
Distribuzione teorica normale (μ=35g/l; σ=6g/l) e distribuzione empirica di 100 campioni casuali di
dimensione 10, 25 e 100.
0,08
Distribuzione teorica
0,04
0,00
Albumina sierica (g/l)
Distribuzione empirica
della media campionaria per n=10
Distribuzione empirica
della media campionaria per n=25
Distribuzione empirica
della media campionaria per n=100
La distribuzione della media
aritmetica campionaria (2)
Ne consegue che se:
Errore standard
x = p = x/n ∼ N [π, √([π⋅(1- π)]/n)] per n→∞
(si ottiene una buona approssimazione quando n⋅p⋅(1- p)≥5)
Frequenza
Frequenza
Distribuzione osservata del numero di donne con asma in 100 campioni casuali
di numerosità 10, 25 e 100 (prevalenza dell’asma π=0,2)
π=0,2
Distribuzione empirica
della media campionaria per n=10
π=0,2
Frequenza
Distribuzione empirica
della media campionaria per n=25
π=0,2
Distribuzione empirica
della media campionaria per n=100
STIMA DELLA MEDIA DELLA POPOLAZIONE
CON σ NOTO
σ/√n
μ
μ - 2σ/√n
M
P(μ - 4σ/√n ≤ M ≤ μ + 4σ/√n) ≈ 100%
P(μ - 2σ/√n ≤ M ≤ μ + 2σ/√n) ≈ 95%
μ + 2σ/√n
M
Stima intervallare
¾L’intervallo di stima
è costruito sulla base del valore
della statistica campionaria e delle caratteristiche della
distribuzione da cui è espressa.
¾Si
afferma che tale intervallo contiene il vero
parametro della popolazione, avendo prefissato per
tale affermazione un livello di fiducia pari a 1 - α.
¾L’affermazione
può essere corretta o errata: si sa,
tuttavia, che essa è estratta a caso da un insieme di
siffatte affermazioni costituito per l’(1-α)% da
affermazioni corrette, e per l’α% da affermazioni
errate.
Intervallo di fiducia per μ quando
σ è noto
¾Sulla
base delle proprietà della v.c. descritta
dall’informatore media campionaria, si può scrivere:
σ
σ ⎫
⎧
P⎨μ − z α 2
≤ M ≤ μ + zα 2
⎬ = 1− α
n
n⎭
⎩
oppure, dopo alcuni passaggi, l’espressione
equivalente:
σ
σ ⎫
⎧
P⎨M − z α 2
≤ μ ≤ M + zα 2
⎬ = 1− α
n
n⎭
⎩
¾ Gli estremi dell’intervallo (limiti di fiducia) dipendono
dalla determinazione campionaria di M, e sono
perciò casuali.
Relazione tra n, 1-α e i limiti
dell’intervallo
90%
n
Limiti
intervallo
95%
Ampiezza
intervallo
Δ
Limiti
intervallo
99%
Ampiezza
intervallo
Δ
Limiti
intervallo
Ampiezza
intervallo
Δ
10
M±0,520×σ
1,040×σ
M±0,620×σ
1,240×σ
M±0,815×σ
1,629 σ
100
M±0,164×σ
0,329×σ
M±0,196×σ
0,392×σ
M±0,258×σ
0,515 σ
1000
M±0,052×σ
0,104×σ
M±0,062×σ
0,124×σ
M±0,081×σ
0,163 σ
Distribuzione campionaria t di Student
Di solito la deviazione standard è ignota e si stima mediante la
seguente funzione dei dati campionari:
n
s=
2
(
)
x
−
M
∑ i
i =1
n −1
dove: n - 1 = ν è detto numero di gradi di libertà.
La funzione campionaria:
tν =
M −μ
s n
• si distribuisce come una t di Student con ν gradi di libertà;
• si modifica al variare di ν e, per n ≥ 30, è pressoché uguale ad
una normale standardizzata;
• può essere utilizzata per fare inferenza su μ quando σ è ignoto
(come accade quasi sempre).
Intervallo di fiducia per μ quando
σ è ignoto
¾È
pari a 1 - α la probabilità di ottenere un valore
campionario della t compreso tra gli estremi:
− tα 2
M −μ
≤
≤ tα 2
s n
¾Da
ciò si deducono i limiti di fiducia per μ ad un
fissato livello di fiducia pari a 1 - α:
M − tα 2
s
s
≤ μ ≤ M + tα 2
n
n
INTERVALLI DI FIDUCIA BASATI SULLA
t DI STUDENT
¾Generalmente si ha:
tc ≥ zc
(l’uguaglianza vale solo per ν = ∞)
¾Ripetuti intervalli si modificano anche in ampiezza:
s
s ⎞
⎛
, M + tα 2
⎜ M − tα 2
⎟
n
n⎠
⎝
μ
M
Distribuzione t di Student per alcuni valori di ν
υ=1
Probabilità
Probabilità
υ = 10
υ = 30
Probabilità
Probabilità
υ = 20
Intervallo di fiducia per frequenze
¾ Si voglia stimare l’ignota frequenza relativa
π di unità che nella
popolazione sono portatrici di una determinata caratteristica (es.:
prevalenza del diabete = numero diabetici/totale popolazione).
¾ A tal fine, si estrae un campione di numerosità n. Si osservano x
soggetti con la caratteristica in esame (es.: diabetici), ottenendo
così p=x/n quale informatore (stima puntuale di π).
¾ Se n⋅p⋅(1- p)≥5, si può far ricorso al teorema del limite centrale
ed i limiti di fiducia possono essere così espressi:
p − zα 2
p(1 − p)
p(1 − p)
≤ Π ≤ p + zα 2
n
n
Calcolo dell’intervallo di fiducia
(IC)
statistica campionari a ± c livello di fiducia × misura della variabilit à campionari a
„
Statistica campionaria
¾
„
Clivello di fiducia
¾
„
Dimensione dell’effetto osservato o dell’associazione (es.
differenza tra medie, odds-ratio, rischio relativo,…)
Coefficiente corrispondente al livello di fiducia specificato (90%,
95%, 99%)
Variabilità campionaria
¾
Errore standard (ES) della statistica campionaria
Come determinare se una
associazione è significativa?
„
Significativa è nel contesto della
significatività “statistica”
¾
¾
Intervallo di fiducia (confidence interval)
Valori di p (p-value)
Intervallo di fiducia (confidenza)
“Il significato della Statistica è non
dover dire di essere sicuri!”
„
„
Basare l’informazione su un campione porta
sempre ad un certo livello di incertezza
Un intervallo di fiducia è un insieme di valori
che cerca di quantificare questa incertezza
¾
Per esempio, un intervallo di fiducia al 95% indica
che campionando ripetutamente, il 95% degli
intervalli che si ottengono conterranno il vero
parametro della popolazione
Intervallo di fiducia (confidenza)
„
La stima puntuale e l’intervallo di fiducia
rispondono alla domanda …
¾
“Qual è la dimensione della differenza tra i
trattamenti?” e “Qual è la precisione dello
studio nello stimare la differenza tra i
trattamenti?”
Interpretazione dell’intervallo di
fiducia
„
L’ampiezza dell’intervallo di fiducia (IC)
¾
¾
„
Un intervallo stretto implica una alta precisione
Un intervallo ampio implica scarsa precisione (di solito
dovuta ad una bassa numerosità campionaria)
L’intervallo contiene un valore che implica nessun
cambiamento o nessun effetto o nessuna
associazione?
¾
¾
Intervallo per la differenza di due medie: include lo zero?
Intervallo per un rapporto (es. OR, RR): include l’uno?
Differenza nulla
IC
Nessuna differenza statisticamente significativa
Aumento statisticamente significativo
Diminuzione statisticamente significativa
Risultati di sei studi controllati randomizzati sulla
somministrazionedi nitrato per via endovenosa nell’infarto acuto
Numero di morti/n.
randomizzati
RR
IC 95%
p
Studio
Nitrato
EV
Controllo
Chiche
3/50
8/45
0,33
(0,09;1,13)
0,08
Bussman
4/31
12/29
0,24
(0,08;0,74)
0,01
Flaherty
11/56
11/48
0,83
(0,33;2,12)
0,70
Jaffe
4/57
2/57
2,04
(0,39;10,71)
0,40
Lis
5/64
10/76
0,56
(0,19;1,65)
0,29
Jugdutt
24/154
44/156
0,48
(0,28;0,82)
0,007
Adattato da: Whitley and Ball. Critical Care; 6(3):222-225, 2002
Interpretazione del l’intervallo di
fiducia
Numero di morti/n.
randomizzati
Studio
Nitrato
EV
Controllo
Chiche
3/50
8/45
RR
IC 95%
p
0,33
(0,09;1,13)
0,08
Intervallo ampio: suggerisce tanto una riduzione della mortalità del 91% quanto un
aumento del 13%
Jugdutt
24/154
44/156
0,48
(0,28; 0,82)
0,007
La riduzione di mortalità può essere solo del 18%, ma non vi è evidenza che il nitrato sia nocivo
Adattato da: Whitley and Ball. Critical Care; 6(3):222-225, 2002
Cosa possiamo dire
dell’importanza clinica?
“A difference, to be a difference, must make a
difference.” Gertrude Stein
„
„
L’intervallo di fiducia giace in parte o del tutto entro
un intervallo di “indifferenza clinica”?
L’”indifferenza clinica” rappresenta valori di una
dimensione talmente piccola che non modificano la
pratica clinica corrente?
¾
Es. raccomandereste un farmaco per abbassare il
colesterolo che riduce i livelli di LDL di 2 unità in 1 anno?
Cosa possiamo dire
dell’importanza clinica? (continua)
„
„
„
L’importanza clinica è un giudizio medico non
statistico!
I clinici modificherebbero la loro pratica solo se lo
studio avesse dimostrato definitivamente una
differenza significativa tra i trattamenti e tale
differenza è abbastanza grande da essere
clinicamente rilevante
Dipende dalla conoscenza su
¾
¾
¾
Un insieme di possibili trattamenti
Il loro costo
I loro effetti collaterali
Interpretazione dell’intervallo di
fiducia
Differenza nulla
IC
Insieme dei valori dell’indifferenza clinica
Continua a fare le cose nello stesso modo!
La numerosità campionaria è troppo piccola?
Insieme dei valori dell’indifferenza clinica
Significatività statistica ma non pratica
Insieme dei valori dell’indifferenza clinica
Significatività statistica e pratica
Insieme dei valori dell’indifferenza clinica
Punti chiave
„
L’intervallo di fiducia
¾
¾
¾
„
Quantifica la fiducia che abbiamo circa il vero
valore del parametro nella popolazione
Indica una miglior precisione con ampie
numerosità campionarie
È molto più informativo del valore di p
Tenere presente l’importanza clinica
quando si interpreta la significatività
statistica