Il campione Il campionamento Il campionamento Il campionamento

Il campione
I metodi di campionamento ed accenno
alle dimensioni di uno studio
Raramente in uno studio epidemiologico è possibile
esaminare ogni singolo soggetto di una popolazione sia
per difficoltà oggettive di indagine ma soprattutto per le
limitate risorse disponibili.
La scelta quindi necessariamente è quella di individuare
un campione che rappresenta “una parte del tutto”.
Scegliere un campione
“campionamento”
significa
effettuare
un
a cura di Paolo Pandolfi
Il campionamento
Il principale obiettivo di un campionamento è quello di
raccogliere dati che consentiranno di generalizzare, con un
certo grado di certezza, all’intera popolazione le conclusioni
ottenute dal campione (INFERENZA)
Il campionamento
Per valutare la “bontà” di uno studio campionario è
necessario tenere conto di vari fattori e principalmente di:
1) I criteri di scelta della popolazione in studio
2) Il metodo con cui si è selezionato il campione
3) Il periodo di osservazione
4) I metodi adottati per identificare i casi di malattia
5) Le tecniche di analisi
6) La precisione delle misure effettuate
Il campionamento
In qualsiasi modo il campione
venga scelto i suoi caratteri non
saranno mai identici a quelli della
Il campionamento
A questo punto, analizzando i dati provenienti da un
campione, due sono le domande fondamentali da
porsi:
POPOLAZIONE DI ORIGINE
a) Le conclusioni sono corrette per i soggetti che
compongono il campione? (VALIDITA’ INTERNA)
La differenza fra il risultato
ottenuto dal campione e la vera
caratteristica della popolazione è
detta ERRORE CAMPIONARIO
(può essere stimato)
b) Se si, il campione rappresenta bene la popolazione
da cui è stato estratto? (VALIDITA’ ESTERNA)
Il campionamento
Il campionamento
VALIDITA’ INTERNA dipende da:
1) Corretta impostazione dello studio
2) Scelta di buone tecniche diagnostiche e loro
corretto utilizzo
3) Buona elaborazione dei dai
VALIDITA’ ESTERNA dipende da
Problemi di distorsione/bias
Il campionamento
Errori di campionamento possono essere ricondotti a:
A) Variazione casuale ovvero deriva da un fattore
ineliminabile (il caso); può essere stimata e quindi
corretta
B) Selezione viziata ovvero si è scelta una porzione non
rappresentativa della popolazione; avremo problemi
a correggere questa situazione perché non stimabile
Metodi di campionamento
randomizzazione semplice
Le unità campionarie sono scelte a caso tra i degenti di un reparto
ospedaliero con l’estrazione di numeri corrispondenti al numero di
ogni letto.
E’ di facile applicazione quando si dispone di una popolazione gi à
numerata e costituita da un numero di soggetti non elevato
Metodi di campionamento
Un buon campionamento offre a ciascun membro della
popolazione la stessa probabilità di essere scelto. In
questo senso un campionamento randomizzato o
casuale offre il vantaggio di fornire un campione privo
di errori sistematici.
Molti sono i metodi di campionamento. Di seguito ne
descriveremo alcuni.
Metodi di campionamento
randomizzazione sistematica
Le unità campionarie sono scelte ogni quattro letti di un reparto
ospedaliero
Questo metodo è più pratico rispetto alla randomizzazione semplice
ed assicura anche che le singole unità del campione siano distribuite
uniformemente all’interno della popolazione. Bisogna però essere
attenti che l’intervallo di campionamento prescelto non sia influenzato
da qualche variabile esterna che agisce con la stessa ciclicità del
campinamento
Metodi di campionamento
randomizzazione stratificata
Si applica nei casi in cui c’è il sospetto che un fattore presente
nella popolazione influenzi il carattere in studio. La popolazione
viene suddivisa in strati basati sul fattore ipotizzato. Quindi
all’interno di ciascuno strato si sceglie un campione con il
metodo della randomizzazione semplice o sistematica
Metodi di campionamento
a grappolo
La popolazione viene suddivisa in gruppi (famiglie, comunità,
ecc.) che diventano le unità su cui effettuare il
campionamento.
Rispetto alla randomizzazione semplice, sistematica o
stratificata offre il vantaggio di facilitare molto il reclutamento
dei soggetti (meno tempo e meno costi).
Tuttavia l’errore di campionamento può essere elevato rispetto
agli altri metodi
Lo svantaggio è che lo stato di tutte le unità di campionamento deve
essere noto prima di scegliere il campione
Dimensioni di un campione
La risposta più semplice al problema di quanti soggetti
selezionare è di scegliere il campione più grande possibile
(si potranno avere risultati più precisi). E’ evidente che
questa strada si scontra con un problema di risorse
disponibili.
D’altronde, se ciò che ci interessa è essere precisi,
sappiamo che la precisione di una stima si basa
sull’ERRORE STANDARD e sull’INTERVALLO DI
CONFIDENZA (ovvero capacità di cogliere il valore vero
con un certo livello di probabilità)
Dimensioni di un campione per
stima della media
Nel caso del parametro media la Deviazione Standard
(DS) di una distribuzione media campionaria è formulata
come
Errore standard
δ/
n
dove
Dimensioni di un campione
Per dimensionare un campione si deve innanzittutto
ipotizzare che i valori stimati campionari siano distribuiti in
modo normale; inoltre si deve definire a priori un massimo
errore di stima tollerabile.
La grandezza di un campione va calcolata in funzione del
parametro che si vuole stimare (una media, una
proporzione, un tasso, una differenza tra medie, ecc.) visto
che ogni tipologia di parametro prevede una modalità
relativamente diversa di calcolo delle due informazioni utili
per dimensionare correttamente il campione stesso (errore
massimo accettabile e Deviazione Standard).
Dimensioni di un campione per
stima della media
Se la distribuzione è normale il 95% delle medie
campionarie derivate da ripetuti campioni cadrà
nell’intervallo
μ±2δ/
n
δ è la deviazione standard delle osservazioni originali
n la numerosità del campione
Ovvero l’errore massimo probabile sarà due volte l’errore
standard (vi ricordate il valore di z = 1,96 ad indicare
probabilità al 95% di cogliere il valore vero all’interno di
un intervallo) ovvero:
Dimensioni di un campione per
stima della media
e= 2δ/
n
Dimensioni di un campione per
stima della media
Purtroppo la DS δ è sconosciuta; è per questo che va
sostituita con una stima fornita dalla conoscenza di
letteratura o dallo studio pilota.
ovvero
Esempio
2
2
e = 4δ /n
Si voglia stimare in una comunità il peso medio alla nascita dei
neonati; per calcolare la numerosità appropriata del campione è
necessario specificare due quantità
ovvero
e = errore massimo verosimile (tollerabile)
2
2
n=4 δ / e
δ = deviazione standard
Dimensioni di un campione per
stima della media
Da studi precedenti so che la DS è di 500 grammi e l’errore
massimo che posso tollerare lo stabilisco a 50 grammi (10%
valore arbritrario)
Dimensioni di un campione per
stima della media
In definitiva dato δ ed n posso calcolare e
viceversa
La dimensione del campione a questo punto sarà
2
2
n=4 δ / e
ovvero nel nostro caso
2
4 x 500 / 50
2
pari a 400 unità
Dimensioni di un campione per stima di una
proporzione
In questo caso la DS (deviazione standard) è data da
dato δ ed e posso calcolare n
Lo stesso procedimento utilizzando formule leggermente
diverse può essere adottato per dimensionare campioni
per una proporzione, differenza di medie, tassi, ecc.
Dimensioni di un campione per
stima di un tasso (in anni persona)
 (1- )
In questo caso si parlerà di tasso (m) e numero di eventi
osservati (d) piuttosto che di n.
dove  è la proporzione osservata
L’ES(m) sarà pari a
m
d
mentre l’E.S. (errore standard) è uguale a
 (1- )
n
e = 2 ES(m) ovvero e= 2m
ovvero d= 4 m
Visto che d= m*n
e=2
 (1- )
n = 4  (1- ) e
2
e
dove n= anni persona allora
n
2
n = 4m
d
2
e
2
Dimensioni di un campione per
stima della differenza tra due medie
Dimensioni di un campione per
stima della differenza tra due medie
Allora potrò calcolare il massimo errore verosimile detto e così:
Se la vera differenza tra le medie di due popolazioni è δ
ovvero δ = μ1 - μ2
la differenza tra due campioni è definibile come d
e = 2δ
L’errore standard di d sarà ES(d):
(2 n)
E quindi:
ES(d) = (δ12 n) + (δ22 n)
n = 8 δ2 e2
Se si può assumere che le varianze tra le due
popolazione sono uguali allora:
ES(d) = δ
(2 n)
Da qui si potrà calcolare il massimo errore verosimile e
Riassunto delle modalità
modalità di stima delle
dimensioni di un campione
Media:
2
n=4 δ / e
2
Proporzione/prevalenza: n = 4  (1- )
Tasso anni persona:
Differenza tra medie:
n = 4m
e
n = 8 δ2 e2
e2