Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera TRACCIA DI STUDIO Popolazione e campione Tecniche di campionamento Dopo aver individuato e definito la popolazione da esaminare, che può essere finita o infinita, sarebbe ideale condurre l’indagine su tutti gli elementi della popolazione; poiché ciò è praticamente impossibile, se ne esamina un sottoinsieme (campione), scelto opportunamente, per generalizzare poi alla popolazione i risultati ottenuti. Le principali tecniche di campionamento sono: • campionamento casuale (randomizzazione). La scelta viene effettuata in modo completamente casuale tramite sorteggi o metodi corrispondenti quale l’uso dei numeri casuali; ogni unità della popolazione ha una probabilità di essere selezionata (generalmente uguale per tutte, ma talvolta diversificata) una o più volte (campionamento senza o con ripetizione); Rappresentatività del campione ed errore di campionamento Assume fondamentale importanza la rappresentatività del campione, ovvero la sua capacità di assomigliare alla popolazione da cui è stato estratto. Tra caratteristiche delle unità campionarie e caratteristiche della popolazione esisterà comunque sempre una differenza, ignota, detta errore di campionamento. Questo errore può derivare: • dalla casualità della scelta, valutabile e quindi controllabile facendo riferimento alle distribuzioni di probabilità; • da una selezione non corretta (vizio di campionamento), alla cui riduzione provvedono le tecniche di campionamento. Conviene quindi privilegiare tecniche casuali tenendo presente che gravi vizi di campionamento portano a invalidare tutta la ricerca. • campionamento stratificato. La popolazione viene suddivisa in tanti sottoinsiemi (strati) in base a specifici criteri (sesso, età ecc.) e il campione deve riprodurne la struttura in modo proporzionale; per ogni strato si effettua una scelta casuale; ciò comporta un miglioramento della rappresentatività del campione; • campionamento sistematico. Indicato soprattutto per popolazioni infinite o particolarmente numerose; si seleziona una unità ogni tanto, a cadenza prefissata in modo casuale; • campionamento a presentazione. Impiegato quando le unità della popolazione sono sconosciute a priori e vengono identificate solo in particolari situazioni (per esempio, in studi clinici); un campionamento dei tipi precedenti risulta impossibile o richiederebbe tempi troppo lunghi. Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Tabelle dei numeri casuali Esistono tabelle predisposte di numeri casuali che permettono di effettuare “a tavolino” una selezione campionaria rigorosamente casuale. Quando il campione deve essere ripartito in più gruppi sperimentali, bisogna ancora ricorrere alla casualità per l’assegnazione ai gruppi e, anche per questa operazione, sono indicate le tabelle di numeri casuali. Inferenza statistica La statistica inferenziale si propone, nelle ricerche osservazionali, di utilizzare i valori del campione (stime campionarie) per definire tendenza centrale e variabilità di una popolazione (parametri) e, nelle ricerche sperimentali, di valutare probabilisticamente se variazioni e differenze osservate siano giustificate dal caso oppure avallino le ipotesi iniziali della ricerca. • Stima intervallare di una media Se un campionamento casuale viene ripetuto infinite volte, si ottengono altrettante stime della media. Dallo studio della loro distribuzione teorica deriva il teorema centrale del limite: le medie campionarie si distribuiscono come una gaussiana, con media coincidente con la media della popolazione e deviazione standard rappresentata dall’errore standard. Per questa distribuzione, si possono considerare intervalli di valori intorno alla media campionaria (intervalli di confidenza) tali da includere, con la probabilità desiderata, la media vera della popolazione. Nel caso di piccoli campioni, il calcolo degli intervalli di confidenza deve essere riferito a una famiglia di distribuzioni definita distribuzione del t di Student. • Stima intervallare di una frequenza percentuale Anche la stima campionaria di una frequenza relativa (o percentuale) viene utilizzata a scopo inferenziale per calcolare gli intervalli di confidenza della frequenza del fenomeno nella popolazione. ESERCIZI 1. Quale significato dobbiamo attribuire al concetto di popolazione statistica? 2. Una popolazione statistica deve essere numericamente quantificabile. Vero o falso? 3. Si definisce “campione” un sottoinsieme della popolazione, purché selezionato dallo statistico del gruppo di ricerca. È corretto? 4. Un docente di fisiologia in un corso con 26 alunni decide di effettuare una verifica a campione interrogando cinque studenti, uno ogni tre, secondo l’ordine alfabetico a partire dal secondo iscritto nel registro (secondo, quinto, ottavo, undicesimo, quattordicesimo). Si tratta di un campionamento casuale? 5. In statistica si incontrano i simboli s, x , σ, µ. Quale significato hanno? 6. Come può essere scelto un campione del 10% da una popolazione composta da 230 individui mediante un campionamento casuale semplice? 7. In base ai dati relativi alla popolazione di un piccolo centro, indicare come può essere estratto un campione rappresentativo del 15%, sapendo che la popolazione è così distribuita: Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Età Femmine Maschi Totale 0-14 15-24 25-34 35-44 > 44 32 40 28 50 80 40 55 40 55 60 72 95 68 105 140 Totale 230 250 480 8. Utilizzando i numeri casuali della Tabella 9.2, selezionare un campione di 10 individui da una popolazione di 626 individui, senza ripetizione. 9. Assegnare un campione di 16 soggetti a 4 trattamenti diversi A, B, C, D, utilizzando la seguente tabella di numeri casuali. 19281 50041 92277 34038 37110 57516 98819 93729 71710 05172 62038 92632 35279 91825 78120 30970 89415 89163 65995 99784 90147 96155 56168 88760 56383 09230 45519 46904 00841 43637 95663 90109 13430 09726 16912 13241 60226 67217 31853 36907 10. La glicemia determinata su un campione di 41 individui ha portato alla seguenti stime: x 87 mg/dl e s 11 mg/dl. Qual è l’intervallo di confidenza al 95% della media della popolazione bersaglio (popolazione che il campione rappresenta)? 11. In un campione di 14 misure a carattere quantitativo si ottiene x 41 e s 7. Qual è la media della popolazione al livello di confidenza del 99%? 12. Nella revisione di una rivista a carattere biomedico si riscontra che, in un campione di 147 articoli, 64 presentano conclusioni statistiche non compatibili con i dati presentati. Quale percentuale di articoli pubblicati si presume abbia, al 95% di probabilità, una statistica corretta? 13. Calcolare l’intervallo di confidenza al 95% dei dati dell’esercizio 9 del Capitolo 5 (concentrazioni anticorpali): 50 2 50 10 10 2. RISPOSTE 1. Una popolazione statistica è un insieme di oggetti, di individui o comunque di elementi aventi in comune la o le caratteristiche da studiare. È fondamentale definire i criteri in base ai quali un elemento appartenga o meno a una popolazione statistica, ma questa appartenenza non è univoca, in quanto un elemento può appartenere contemporaneamente a più popolazioni. Una paziente ipertesa, sposata con figli, ricoverata in ortopedia può far parte di molteplici popolazioni: sesso femminile, coniugati, ipertesi ecc. Inoltre, una popolazione statistica solo in casi particolari coincide con una popolazione geografica o residenziale. Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera 2. Falso. Una popolazione statistica può essere quantificata se è “finita”, cioè se tutti gli elementi sono identificati. Ma esistono popolazioni “infinite”, non quantificabili in quanto gli elementi non sono tutti noti o comunque raggiungibili (per esempio, i portatori di una patologia non ancora diagnosticata). 3. Si può definire correttamente “campione” un sottoinsieme della popolazione, se organizzato in modo da rappresentare la popolazione. Nelle situazioni più semplici, la selezione non richiede necessariamente uno statistico, purché siano seguite le tecniche di campionamento casuale. Nei casi più complessi, occorre l’intervento di uno specialista. 4. Siamo di fronte a un campionamento sistematico con passo tre, ma la casualità non è stata rispettata. La scelta del primo non è stata decisa dalla sorte e il passo deciso dal docente esclude aprioristicamente dalla possibilità di essere interrogati gli studenti dal quindicesimo iscritto in poi. In questo frangente, per un campionamento casuale sarebbe stato preferibile effettuare un sorteggio, oppure, fermo restando un campionamento sistematico, avrebbe dovuto essere casualizzata la scelta del primo, dal momento che il campione previsto è circa il 20% della popolazione bersaglio (la classe). Per esempio, se il primo sorteggiato è il 14 i successivi saranno nell’ordine: 19, 24, 3 (superato il 26, si riprende dal primo) e 8. 5. x e s indicano, rispettivamente, la media e la deviazione standard di un campione e rappresentano le migliori stime dei valori veri della media e della deviazione standard (o parametri) della popolazione. I parametri, per distinguerli dalle stime campionarie, vengono espressi con le corrispondenti lettere greche µ e σ. 6. Il 10% di una popolazione di 230 persone è pari a 23 unità; queste possono essere scelte, per esempio, per sorteggio dopo aver assegnato un numero da 1 a 260 a ciascun individuo. Un metodo alternativo al sorteggio è l’uso di una tabella dei numeri casuali: si scelgono numeri con tre cifre, dal momento che il numero più alto assegnato alla popolazione è di tre. Per sveltire l’operazione, riducendo la quantità di numeri superiori a 260, inutili e da scartare, si può adottare il criterio di sottrarre da essi un valore prestabilito (per esempio, se in questo campionamento ai numeri superiori a 500 si sottrae 500, si recuperano altre possibilità, sempre casuali, di scelta: il 702 permette la selezione del numero 202 e così via). 7. La selezione casuale del 15% di soggetti sul totale della popolazione garantisce la casualità, ma potrebbe risultare poco rappresentativa se il carattere esaminato dipende dal sesso e dall’età. Avendo a disposizione i dati suddivisi per sesso e per classi di età, conviene effettuare un campionamento stratificato. Si stabilisce, arrotondando all’unità, quanti individui debbano entrare in ciascuno strato per mantenere nel campione le proporzioni della popolazione. Per un campione complessivo di 480 · 0.15 72 soggetti, il primo strato, femmine 0-14 anni, deve essere rappresentato da 0.15 · 32 4.8 → 5 unità. La struttura del campione risulta la seguente: Età Femmine Maschi Totale 0-14 15-24 25-34 35-44 > 44 5 6 4 8 12 6 8 6 8 9 11 14 10 16 21 Totale 35 37 72 Per ciascuno strato della popolazione viene effettuato un campionamento casuale. Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera 8. Essendo la popolazione costituita da 625 individui, si devono prendere dalla tabella numeri a tre cifre, non considerando quelli superiori a 625; vengono eliminati anche eventuali numeri già estratti in quanto il campionamento non prevede la ripetizione. Il punto da cui partire e la direzione da seguire sono scelti dallo sperimentatore e le cifre vanno lette consecutivamente e senza interruzioni (salvo altri criteri da seguire in tutta l’operazione). Si può, per esempio, partire dalla seconda riga, 12a colonna, e andare dall’alto verso il basso; completata la colonna si continua nella successiva verso destra. Decisi questi criteri, gli individui selezionati risultano quelli contrassegnati dai numeri: 420 306 626 168 119 298 595 529 253 476 9. Si associa a ogni individuo un numero casuale di 2 cifre partendo, per esempio, dalla 6a cifra della 1a riga. Si suddividono i soggetti in 4 gruppi di 4 unità utilizzando il metodo dei resti con divisore 4. Soggetto 1 2 5 6 7 8 9 10 11 12 Numero 50 04 19 22 77 34 03 83 71 10 57 Gruppo 2 2 3 3 3 2 1 0 3 3 4 2 1 14 15 (51) 69 88 (19) 93 72 (3) 0 1 13 (3) 1 16 →0 →0 Col 9o individuo viene completato il gruppo a resto 3 (eventuali numeri successivi a resto 3 si scartano), col 10o si completa il gruppo a resto 2 (eventuali numeri successivi a resto 2 si scartano) e col 14o il gruppo a resto 1. Gli ultimi due individui vengono assegnati direttamente al gruppo incompleto a resto 0. Successivamente, i trattamenti A, B, C, D verranno attribuiti per sorteggio ai 4 gruppi. 10. Dalla distribuzione gaussiana delle medie campionarie deriva che il 95% di esse è compreso nell’intervallo tra x 1.96 · sm e x 1.96 · sm. Per il calcolo dell’intervallo di confidenza di una media, occorre determinare la deviazione standard della media o errore standard s 11 sm ES 1.72 mg/dl . N 41 Per cui s IC95% x z0.95 · 87 1.96 · 1.72 87 3.4 mg/dl . N Si può quindi ipotizzare che, al 95% di probabilità, la media “vera” della popolazione sia compresa tra 83.6 e 90.4 mg/dl (arrotondando all’unità, tra 84 e 90). In effetti, teoricamente avremmo dovuto usare la deviazione standard σ, ignota, della popolazione, mentre nel calcolo se ne utilizza una stima campionaria s, soggetta come la media a errore di campionamento. Per ovviare alla conseguente maggior dispersione si fa riferimento alla distribuzione del t di Student, il cui valore critico, per 41 1 40 gradi di libertà e al livello di significatività α = 0.05, è t 2.021. L’intervallo di confidenza della media della popolazione diventa allora: s IC95% x t0.95 · 87 2.021 · 1.72 87 3.48 mg/dl . N Con questo criterio di calcolo, la media della popolazione risulta compresa tra 83.52 e 90.48 mg/dl (arrotondando all’unità, tra 84 e 90). Dal confronto dei risultati ottenuti, si può dire che in questo caso utilizzare la distribuzione z o la distribuzione t porta praticamente allo stesso risultato. Ciò si verifica perché la numerosità campionaria è maggiore di 30. In caso contrario, avremmo dovuto usare obbligatoriamente la distribuzione t. Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera 11. Si tratta di calcolare un intervallo di confidenza per dati quantitativi riferiti a un campione di numerosità inferiore a 30 casi. Occorre fare riferimento a una distribuzione del t di Student per 13 g.l., per cui la media vera della popolazione al 99% di probabilità è localizzata nell’intervallo 7 s µ x t0.99 · 41 3.012 · 41 5.6, N 1 4 cioè compresa tra 35.4 e 46.6 (tra 35 e 47, volendo esprimere il risultato arrotondato all’unità come i dati di partenza). 12. La frequenza percentuale di articoli contenenti elaborazioni statistiche corrette risulta 147 64 0.565 → 56.5% 147 Tale stima campionaria si utilizza a scopo inferenziale per calcolare l’intervallo di confidenza della percentuale di articoli corretti: IC95% P z0.95 · P · (100 P) 56.5 1.96 · N 56.5 · (100 56.5) 56.5 4.1. 147 Possiamo ipotizzare, con un margine di confidenza (fiducia) del 95%, che la percentuale vera complessiva di articoli con elaborazioni statistiche corrette sia compresa tra il 52.4% e il 60.6%. 13. Precedentemente si è stabilito che la tendenza centrale migliore per questi dati è la media geometrica calcolata tramite la trasformazione logaritmica (MG 10.0). Anche il calcolo della deviazione standard della media, necessaria per il calcolo dell’intervallo di confidenza, deve passare attraverso i logaritmi. Per fare ciò, è opportuno costruire la seguente tabella: x ln x (ln x)2 50 2 50 10 10 2 3.9120 0.6931 3.9120 2.3026 2.3026 0.6931 13.8154 15.3039 0.4804 15.3039 5.3019 5.3019 0.4804 42.1724 da cui: (ln x) (ln x)2 s 2 N N N1 13.81542 42.1724 6 5 190.8653 42.1724 6 5 42.1724 31.8109 5 Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera 10.3615 2.0 7 2 3 1.4395. 5 L’intervallo di confidenza per 5 g.l. risulta: s 1.4395 x t0.95 · 2.3026 2.571 · 2.3026 2.571 · 0.6438 2.3026 1.6552 IC95% N 5 I limiti dell’intervallo calcolato sui logaritmi sono pertanto 0.6474 e 3.9578. Operando la trasformazione inversa, si ottengono i limiti riferibili ai valori originali: e 0.6474 1.9106 e e 3.9578 52.3107. Se le concentrazioni rilevate sono rappresentative di una popolazione di concentrazioni, possiamo considerare che la media della popolazione bersaglio con una probabilità del 95% sia compresa tra 1.9 e 52.3. Possiamo fare due importanti considerazioni: la prima è che non deve meravigliare l’ampiezza dell’intervallo, dovuta soprattutto alla bassa numerosità campionaria; la seconda è che i limiti dell’intervallo sono simmetrici intorno alla media quando i valori sono espressi in logaritmi e diventano asimmetrici quando viene ripristinato l’ordine di grandezza originale, e ciò nel rispetto della non linearità dei dati. Copyright © 2007 - The McGraw-Hill Companies s.r.l.