Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
TRACCIA DI STUDIO
Popolazione e campione
Tecniche di campionamento
Dopo aver individuato e definito la popolazione da
esaminare, che può essere finita o infinita, sarebbe
ideale condurre l’indagine su tutti gli elementi della
popolazione; poiché ciò è praticamente impossibile,
se ne esamina un sottoinsieme (campione), scelto
opportunamente, per generalizzare poi alla popolazione i risultati ottenuti.
Le principali tecniche di campionamento sono:
• campionamento casuale (randomizzazione).
La scelta viene effettuata in modo completamente casuale tramite sorteggi o metodi corrispondenti quale l’uso dei numeri casuali; ogni
unità della popolazione ha una probabilità di essere selezionata (generalmente uguale per tutte,
ma talvolta diversificata) una o più volte (campionamento senza o con ripetizione);
Rappresentatività del campione ed errore di campionamento
Assume fondamentale importanza la rappresentatività del campione, ovvero la sua capacità di assomigliare alla popolazione da cui è stato estratto. Tra
caratteristiche delle unità campionarie e caratteristiche della popolazione esisterà comunque sempre
una differenza, ignota, detta errore di campionamento. Questo errore può derivare:
• dalla casualità della scelta, valutabile e quindi
controllabile facendo riferimento alle distribuzioni
di probabilità;
• da una selezione non corretta (vizio di campionamento), alla cui riduzione provvedono le tecniche di campionamento.
Conviene quindi privilegiare tecniche casuali tenendo presente che gravi vizi di campionamento
portano a invalidare tutta la ricerca.
• campionamento stratificato. La popolazione
viene suddivisa in tanti sottoinsiemi (strati) in base a specifici criteri (sesso, età ecc.) e il campione deve riprodurne la struttura in modo proporzionale; per ogni strato si effettua una scelta casuale; ciò comporta un miglioramento della rappresentatività del campione;
• campionamento sistematico. Indicato soprattutto per popolazioni infinite o particolarmente
numerose; si seleziona una unità ogni tanto, a cadenza prefissata in modo casuale;
• campionamento a presentazione. Impiegato
quando le unità della popolazione sono sconosciute a priori e vengono identificate solo in
particolari situazioni (per esempio, in studi clinici); un campionamento dei tipi precedenti risulta impossibile o richiederebbe tempi troppo
lunghi.
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
Tabelle dei numeri casuali
Esistono tabelle predisposte di numeri casuali che
permettono di effettuare “a tavolino” una selezione
campionaria rigorosamente casuale. Quando il campione deve essere ripartito in più gruppi sperimentali, bisogna ancora ricorrere alla casualità per l’assegnazione ai gruppi e, anche per questa operazione, sono indicate le tabelle di numeri casuali.
Inferenza statistica
La statistica inferenziale si propone, nelle ricerche osservazionali, di utilizzare i valori del campione (stime
campionarie) per definire tendenza centrale e variabilità di una popolazione (parametri) e, nelle ricerche
sperimentali, di valutare probabilisticamente se variazioni e differenze osservate siano giustificate dal caso oppure avallino le ipotesi iniziali della ricerca.
• Stima intervallare di una media
Se un campionamento casuale viene ripetuto infinite volte, si ottengono altrettante stime della
media. Dallo studio della loro distribuzione teorica deriva il teorema centrale del limite: le medie campionarie si distribuiscono come una
gaussiana, con media coincidente con la media
della popolazione e deviazione standard rappresentata dall’errore standard. Per questa distribuzione, si possono considerare intervalli di
valori intorno alla media campionaria (intervalli di confidenza) tali da includere, con la probabilità desiderata, la media vera della popolazione. Nel caso di piccoli campioni, il calcolo
degli intervalli di confidenza deve essere riferito a una famiglia di distribuzioni definita distribuzione del t di Student.
• Stima intervallare di una frequenza percentuale
Anche la stima campionaria di una frequenza relativa (o percentuale) viene utilizzata a scopo inferenziale per calcolare gli intervalli di confidenza della frequenza del fenomeno nella popolazione.
ESERCIZI
1. Quale significato dobbiamo attribuire al concetto di popolazione statistica?
2. Una popolazione statistica deve essere numericamente quantificabile. Vero o falso?
3. Si definisce “campione” un sottoinsieme della popolazione, purché selezionato dallo statistico del gruppo di ricerca. È corretto?
4. Un docente di fisiologia in un corso con 26 alunni decide di effettuare una verifica a campione interrogando cinque studenti, uno ogni tre, secondo l’ordine alfabetico a partire dal secondo iscritto nel registro (secondo, quinto, ottavo, undicesimo, quattordicesimo). Si tratta di un campionamento casuale?
5. In statistica si incontrano i simboli s, x
, σ, µ. Quale significato hanno?
6. Come può essere scelto un campione del 10% da una popolazione composta da 230 individui mediante
un campionamento casuale semplice?
7. In base ai dati relativi alla popolazione di un piccolo centro, indicare come può essere estratto un campione rappresentativo del 15%, sapendo che la popolazione è così distribuita:
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
Età
Femmine
Maschi
Totale
0-14
15-24
25-34
35-44
> 44
32
40
28
50
80
40
55
40
55
60
72
95
68
105
140
Totale
230
250
480
8. Utilizzando i numeri casuali della Tabella 9.2, selezionare un campione di 10 individui da una popolazione di 626 individui, senza ripetizione.
9. Assegnare un campione di 16 soggetti a 4 trattamenti diversi A, B, C, D, utilizzando la seguente tabella di numeri casuali.
19281
50041
92277
34038
37110
57516
98819
93729
71710
05172
62038
92632
35279
91825
78120
30970
89415
89163
65995
99784
90147
96155
56168
88760
56383
09230
45519
46904
00841
43637
95663
90109
13430
09726
16912
13241
60226
67217
31853
36907
10. La glicemia determinata su un campione di 41 individui ha portato alla seguenti stime: x 87 mg/dl e
s 11 mg/dl. Qual è l’intervallo di confidenza al 95% della media della popolazione bersaglio (popolazione che il campione rappresenta)?
11. In un campione di 14 misure a carattere quantitativo si ottiene x 41 e s 7. Qual è la media della popolazione al livello di confidenza del 99%?
12. Nella revisione di una rivista a carattere biomedico si riscontra che, in un campione di 147 articoli, 64
presentano conclusioni statistiche non compatibili con i dati presentati. Quale percentuale di articoli pubblicati si presume abbia, al 95% di probabilità, una statistica corretta?
13. Calcolare l’intervallo di confidenza al 95% dei dati dell’esercizio 9 del Capitolo 5 (concentrazioni anticorpali):
50
2
50
10
10
2.
RISPOSTE
1. Una popolazione statistica è un insieme di oggetti, di individui o comunque di elementi aventi in comune
la o le caratteristiche da studiare. È fondamentale definire i criteri in base ai quali un elemento appartenga o meno a una popolazione statistica, ma questa appartenenza non è univoca, in quanto un elemento può appartenere contemporaneamente a più popolazioni. Una paziente ipertesa, sposata con figli, ricoverata in ortopedia può far parte di molteplici popolazioni: sesso femminile, coniugati, ipertesi
ecc. Inoltre, una popolazione statistica solo in casi particolari coincide con una popolazione geografica o residenziale.
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
2. Falso. Una popolazione statistica può essere quantificata se è “finita”, cioè se tutti gli elementi sono identificati. Ma esistono popolazioni “infinite”, non quantificabili in quanto gli elementi non sono tutti noti o comunque raggiungibili (per esempio, i portatori di una patologia non ancora diagnosticata).
3. Si può definire correttamente “campione” un sottoinsieme della popolazione, se organizzato in modo
da rappresentare la popolazione. Nelle situazioni più semplici, la selezione non richiede necessariamente
uno statistico, purché siano seguite le tecniche di campionamento casuale. Nei casi più complessi, occorre l’intervento di uno specialista.
4. Siamo di fronte a un campionamento sistematico con passo tre, ma la casualità non è stata rispettata. La
scelta del primo non è stata decisa dalla sorte e il passo deciso dal docente esclude aprioristicamente
dalla possibilità di essere interrogati gli studenti dal quindicesimo iscritto in poi. In questo frangente, per
un campionamento casuale sarebbe stato preferibile effettuare un sorteggio, oppure, fermo restando un
campionamento sistematico, avrebbe dovuto essere casualizzata la scelta del primo, dal momento che
il campione previsto è circa il 20% della popolazione bersaglio (la classe). Per esempio, se il primo sorteggiato è il 14 i successivi saranno nell’ordine: 19, 24, 3 (superato il 26, si riprende dal primo) e 8.
5. x e s indicano, rispettivamente, la media e la deviazione standard di un campione e rappresentano le
migliori stime dei valori veri della media e della deviazione standard (o parametri) della popolazione.
I parametri, per distinguerli dalle stime campionarie, vengono espressi con le corrispondenti lettere greche µ e σ.
6. Il 10% di una popolazione di 230 persone è pari a 23 unità; queste possono essere scelte, per esempio,
per sorteggio dopo aver assegnato un numero da 1 a 260 a ciascun individuo. Un metodo alternativo
al sorteggio è l’uso di una tabella dei numeri casuali: si scelgono numeri con tre cifre, dal momento che
il numero più alto assegnato alla popolazione è di tre. Per sveltire l’operazione, riducendo la quantità
di numeri superiori a 260, inutili e da scartare, si può adottare il criterio di sottrarre da essi un valore prestabilito (per esempio, se in questo campionamento ai numeri superiori a 500 si sottrae 500, si recuperano
altre possibilità, sempre casuali, di scelta: il 702 permette la selezione del numero 202 e così via).
7. La selezione casuale del 15% di soggetti sul totale della popolazione garantisce la casualità, ma potrebbe risultare poco rappresentativa se il carattere esaminato dipende dal sesso e dall’età. Avendo a disposizione i dati suddivisi per sesso e per classi di età, conviene effettuare un campionamento stratificato.
Si stabilisce, arrotondando all’unità, quanti individui debbano entrare in ciascuno strato per mantenere
nel campione le proporzioni della popolazione. Per un campione complessivo di 480 · 0.15 72 soggetti,
il primo strato, femmine 0-14 anni, deve essere rappresentato da 0.15 · 32 4.8 → 5 unità. La struttura del campione risulta la seguente:
Età
Femmine
Maschi
Totale
0-14
15-24
25-34
35-44
> 44
5
6
4
8
12
6
8
6
8
9
11
14
10
16
21
Totale
35
37
72
Per ciascuno strato della popolazione viene effettuato un campionamento casuale.
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
8. Essendo la popolazione costituita da 625 individui, si devono prendere dalla tabella numeri a tre cifre,
non considerando quelli superiori a 625; vengono eliminati anche eventuali numeri già estratti in quanto il campionamento non prevede la ripetizione. Il punto da cui partire e la direzione da seguire sono
scelti dallo sperimentatore e le cifre vanno lette consecutivamente e senza interruzioni (salvo altri criteri da seguire in tutta l’operazione). Si può, per esempio, partire dalla seconda riga, 12a colonna, e andare dall’alto verso il basso; completata la colonna si continua nella successiva verso destra. Decisi questi criteri, gli individui selezionati risultano quelli contrassegnati dai numeri:
420
306
626
168
119
298
595
529
253
476
9. Si associa a ogni individuo un numero casuale di 2 cifre partendo, per esempio, dalla 6a cifra della 1a
riga. Si suddividono i soggetti in 4 gruppi di 4 unità utilizzando il metodo dei resti con divisore 4.
Soggetto
1
2
5
6
7
8
9
10
11
12
Numero
50 04 19 22 77
34
03
83
71
10
57
Gruppo
2
2
3
3
3
2
1
0
3
3
4
2
1
14
15
(51) 69
88 (19) 93
72
(3)
0
1
13
(3)
1
16
→0 →0
Col 9o individuo viene completato il gruppo a resto 3 (eventuali numeri successivi a resto 3 si scartano), col 10o si completa il gruppo a resto 2 (eventuali numeri successivi a resto 2 si scartano) e col 14o
il gruppo a resto 1. Gli ultimi due individui vengono assegnati direttamente al gruppo incompleto a resto 0.
Successivamente, i trattamenti A, B, C, D verranno attribuiti per sorteggio ai 4 gruppi.
10. Dalla distribuzione gaussiana delle medie campionarie deriva che il 95% di esse è compreso nell’intervallo tra x 1.96 · sm e x 1.96 · sm.
Per il calcolo dell’intervallo di confidenza di una media, occorre determinare la deviazione standard della media o errore standard
s
11
sm ES 1.72 mg/dl .
N
41
Per cui
s
IC95% x z0.95 · 87 1.96 · 1.72 87 3.4 mg/dl .
N
Si può quindi ipotizzare che, al 95% di probabilità, la media “vera” della popolazione sia compresa tra
83.6 e 90.4 mg/dl (arrotondando all’unità, tra 84 e 90).
In effetti, teoricamente avremmo dovuto usare la deviazione standard σ, ignota, della popolazione, mentre nel calcolo se ne utilizza una stima campionaria s, soggetta come la media a errore di campionamento.
Per ovviare alla conseguente maggior dispersione si fa riferimento alla distribuzione del t di Student, il
cui valore critico, per 41 1 40 gradi di libertà e al livello di significatività α = 0.05, è t 2.021. L’intervallo di confidenza della media della popolazione diventa allora:
s
IC95% x t0.95 · 87 2.021 · 1.72 87 3.48 mg/dl .
N
Con questo criterio di calcolo, la media della popolazione risulta compresa tra 83.52 e 90.48 mg/dl (arrotondando all’unità, tra 84 e 90).
Dal confronto dei risultati ottenuti, si può dire che in questo caso utilizzare la distribuzione z o la distribuzione t porta praticamente allo stesso risultato. Ciò si verifica perché la numerosità campionaria è
maggiore di 30. In caso contrario, avremmo dovuto usare obbligatoriamente la distribuzione t.
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
11. Si tratta di calcolare un intervallo di confidenza per dati quantitativi riferiti a un campione di numerosità inferiore a 30 casi. Occorre fare riferimento a una distribuzione del t di Student per 13 g.l., per cui
la media vera della popolazione al 99% di probabilità è localizzata nell’intervallo
7
s
µ
x t0.99 · 41 3.012 · 41 5.6,
N
1
4
cioè compresa tra 35.4 e 46.6 (tra 35 e 47, volendo esprimere il risultato arrotondato all’unità come i dati di partenza).
12. La frequenza percentuale di articoli contenenti elaborazioni statistiche corrette risulta
147 64
0.565 → 56.5%
147
Tale stima campionaria si utilizza a scopo inferenziale per calcolare l’intervallo di confidenza della percentuale di articoli corretti:
IC95% P z0.95 ·
P · (100 P)
56.5 1.96 ·
N
56.5 · (100 56.5)
56.5 4.1.
147
Possiamo ipotizzare, con un margine di confidenza (fiducia) del 95%, che la percentuale vera complessiva
di articoli con elaborazioni statistiche corrette sia compresa tra il 52.4% e il 60.6%.
13. Precedentemente si è stabilito che la tendenza centrale migliore per questi dati è la media geometrica
calcolata tramite la trasformazione logaritmica (MG 10.0). Anche il calcolo della deviazione standard
della media, necessaria per il calcolo dell’intervallo di confidenza, deve passare attraverso i logaritmi. Per
fare ciò, è opportuno costruire la seguente tabella:
x
ln x
(ln x)2
50
2
50
10
10
2
3.9120
0.6931
3.9120
2.3026
2.3026
0.6931
13.8154
15.3039
0.4804
15.3039
5.3019
5.3019
0.4804
42.1724
da cui:
(ln x)
(ln x)2 s
2
N
N
N1
13.81542
42.1724 6
5
190.8653
42.1724 6
5
42.1724 31.8109
5
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
10.3615
2.0
7
2
3
1.4395.
5
L’intervallo di confidenza per 5 g.l. risulta:
s
1.4395
x t0.95 · 2.3026 2.571 · 2.3026 2.571 · 0.6438 2.3026 1.6552
IC95% N
5
I limiti dell’intervallo calcolato sui logaritmi sono pertanto 0.6474 e 3.9578.
Operando la trasformazione inversa, si ottengono i limiti riferibili ai valori originali:
e 0.6474 1.9106
e
e 3.9578 52.3107.
Se le concentrazioni rilevate sono rappresentative di una popolazione di concentrazioni, possiamo considerare che la media della popolazione bersaglio con una probabilità del 95% sia compresa tra 1.9 e 52.3.
Possiamo fare due importanti considerazioni: la prima è che non deve meravigliare l’ampiezza dell’intervallo, dovuta soprattutto alla bassa numerosità campionaria; la seconda è che i limiti dell’intervallo sono simmetrici intorno alla media quando i valori sono espressi in logaritmi e diventano asimmetrici quando viene ripristinato l’ordine di grandezza originale, e ciò nel rispetto della non linearità dei dati.
Copyright © 2007 - The McGraw-Hill Companies s.r.l.