Il campione I metodi di campionamento ed accenno alle dimensioni di uno studio Raramente in uno studio epidemiologico è possibile esaminare ogni singolo soggetto di una popolazione sia per difficoltà oggettive di indagine ma soprattutto per le limitate risorse disponibili. La scelta quindi necessariamente è quella di individuare un campione che rappresenta “una parte del tutto”. Scegliere un campione “campionamento” significa effettuare un a cura di Paolo Pandolfi Il campionamento Il principale obiettivo di un campionamento è quello di raccogliere dati che consentiranno di generalizzare, con un certo grado di certezza, all’intera popolazione le conclusioni ottenute dal campione (INFERENZA) Il campionamento Per valutare la “bontà” di uno studio campionario è necessario tenere conto di vari fattori e principalmente di: 1) I criteri di scelta della popolazione in studio 2) Il metodo con cui si è selezionato il campione 3) Il periodo di osservazione 4) I metodi adottati per identificare i casi di malattia 5) Le tecniche di analisi 6) La precisione delle misure effettuate Il campionamento In qualsiasi modo il campione venga scelto i suoi caratteri non saranno mai identici a quelli della Il campionamento A questo punto, analizzando i dati provenienti da un campione, due sono le domande fondamentali da porsi: POPOLAZIONE DI ORIGINE a) Le conclusioni sono corrette per i soggetti che compongono il campione? (VALIDITA’ INTERNA) La differenza fra il risultato ottenuto dal campione e la vera caratteristica della popolazione è detta ERRORE CAMPIONARIO (può essere stimato) b) Se si, il campione rappresenta bene la popolazione da cui è stato estratto? (VALIDITA’ ESTERNA) Il campionamento Il campionamento VALIDITA’ INTERNA dipende da: 1) Corretta impostazione dello studio 2) Scelta di buone tecniche diagnostiche e loro corretto utilizzo 3) Buona elaborazione dei dai VALIDITA’ ESTERNA dipende da Problemi di distorsione/bias Il campionamento Errori di campionamento possono essere ricondotti a: A) Variazione casuale ovvero deriva da un fattore ineliminabile (il caso); può essere stimata e quindi corretta B) Selezione viziata ovvero si è scelta una porzione non rappresentativa della popolazione; avremo problemi a correggere questa situazione perché non stimabile Metodi di campionamento randomizzazione semplice Le unità campionarie sono scelte a caso tra i degenti di un reparto ospedaliero con l’estrazione di numeri corrispondenti al numero di ogni letto. E’ di facile applicazione quando si dispone di una popolazione gi à numerata e costituita da un numero di soggetti non elevato Metodi di campionamento Un buon campionamento offre a ciascun membro della popolazione la stessa probabilità di essere scelto. In questo senso un campionamento randomizzato o casuale offre il vantaggio di fornire un campione privo di errori sistematici. Molti sono i metodi di campionamento. Di seguito ne descriveremo alcuni. Metodi di campionamento randomizzazione sistematica Le unità campionarie sono scelte ogni quattro letti di un reparto ospedaliero Questo metodo è più pratico rispetto alla randomizzazione semplice ed assicura anche che le singole unità del campione siano distribuite uniformemente all’interno della popolazione. Bisogna però essere attenti che l’intervallo di campionamento prescelto non sia influenzato da qualche variabile esterna che agisce con la stessa ciclicità del campinamento Metodi di campionamento randomizzazione stratificata Si applica nei casi in cui c’è il sospetto che un fattore presente nella popolazione influenzi il carattere in studio. La popolazione viene suddivisa in strati basati sul fattore ipotizzato. Quindi all’interno di ciascuno strato si sceglie un campione con il metodo della randomizzazione semplice o sistematica Metodi di campionamento a grappolo La popolazione viene suddivisa in gruppi (famiglie, comunità, ecc.) che diventano le unità su cui effettuare il campionamento. Rispetto alla randomizzazione semplice, sistematica o stratificata offre il vantaggio di facilitare molto il reclutamento dei soggetti (meno tempo e meno costi). Tuttavia l’errore di campionamento può essere elevato rispetto agli altri metodi Lo svantaggio è che lo stato di tutte le unità di campionamento deve essere noto prima di scegliere il campione Dimensioni di un campione La risposta più semplice al problema di quanti soggetti selezionare è di scegliere il campione più grande possibile (si potranno avere risultati più precisi). E’ evidente che questa strada si scontra con un problema di risorse disponibili. D’altronde, se ciò che ci interessa è essere precisi, sappiamo che la precisione di una stima si basa sull’ERRORE STANDARD e sull’INTERVALLO DI CONFIDENZA (ovvero capacità di cogliere il valore vero con un certo livello di probabilità) Dimensioni di un campione per stima della media Nel caso del parametro media la Deviazione Standard (DS) di una distribuzione media campionaria è formulata come Errore standard δ/ n dove Dimensioni di un campione Per dimensionare un campione si deve innanzittutto ipotizzare che i valori stimati campionari siano distribuiti in modo normale; inoltre si deve definire a priori un massimo errore di stima tollerabile. La grandezza di un campione va calcolata in funzione del parametro che si vuole stimare (una media, una proporzione, un tasso, una differenza tra medie, ecc.) visto che ogni tipologia di parametro prevede una modalità relativamente diversa di calcolo delle due informazioni utili per dimensionare correttamente il campione stesso (errore massimo accettabile e Deviazione Standard). Dimensioni di un campione per stima della media Se la distribuzione è normale il 95% delle medie campionarie derivate da ripetuti campioni cadrà nell’intervallo μ±2δ/ n δ è la deviazione standard delle osservazioni originali n la numerosità del campione Ovvero l’errore massimo probabile sarà due volte l’errore standard (vi ricordate il valore di z = 1,96 ad indicare probabilità al 95% di cogliere il valore vero all’interno di un intervallo) ovvero: Dimensioni di un campione per stima della media e= 2δ/ n Dimensioni di un campione per stima della media Purtroppo la DS δ è sconosciuta; è per questo che va sostituita con una stima fornita dalla conoscenza di letteratura o dallo studio pilota. ovvero Esempio 2 2 e = 4δ /n Si voglia stimare in una comunità il peso medio alla nascita dei neonati; per calcolare la numerosità appropriata del campione è necessario specificare due quantità ovvero e = errore massimo verosimile (tollerabile) 2 2 n=4 δ / e δ = deviazione standard Dimensioni di un campione per stima della media Da studi precedenti so che la DS è di 500 grammi e l’errore massimo che posso tollerare lo stabilisco a 50 grammi (10% valore arbritrario) Dimensioni di un campione per stima della media In definitiva dato δ ed n posso calcolare e viceversa La dimensione del campione a questo punto sarà 2 2 n=4 δ / e ovvero nel nostro caso 2 4 x 500 / 50 2 pari a 400 unità Dimensioni di un campione per stima di una proporzione In questo caso la DS (deviazione standard) è data da dato δ ed e posso calcolare n Lo stesso procedimento utilizzando formule leggermente diverse può essere adottato per dimensionare campioni per una proporzione, differenza di medie, tassi, ecc. Dimensioni di un campione per stima di un tasso (in anni persona) (1- ) In questo caso si parlerà di tasso (m) e numero di eventi osservati (d) piuttosto che di n. dove è la proporzione osservata L’ES(m) sarà pari a m d mentre l’E.S. (errore standard) è uguale a (1- ) n e = 2 ES(m) ovvero e= 2m ovvero d= 4 m Visto che d= m*n e=2 (1- ) n = 4 (1- ) e 2 e dove n= anni persona allora n 2 n = 4m d 2 e 2 Dimensioni di un campione per stima della differenza tra due medie Dimensioni di un campione per stima della differenza tra due medie Allora potrò calcolare il massimo errore verosimile detto e così: Se la vera differenza tra le medie di due popolazioni è δ ovvero δ = μ1 - μ2 la differenza tra due campioni è definibile come d e = 2δ L’errore standard di d sarà ES(d): (2 n) E quindi: ES(d) = (δ12 n) + (δ22 n) n = 8 δ2 e2 Se si può assumere che le varianze tra le due popolazione sono uguali allora: ES(d) = δ (2 n) Da qui si potrà calcolare il massimo errore verosimile e Riassunto delle modalità modalità di stima delle dimensioni di un campione Media: 2 n=4 δ / e 2 Proporzione/prevalenza: n = 4 (1- ) Tasso anni persona: Differenza tra medie: n = 4m e n = 8 δ2 e2 e2