Università del Piemonte Orientale
Corso di Laurea in Igiene Dentale
Corso di Statistica per la ricerca
sperimentale e tecnologica
Campionamento e distribuzione campionaria
della media
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
1
Argomenti della lezione
- Perché estrarre un campione.
- Definizione di popolazione e campione.
- Relazione tra popolazione e campione
- Proprietà delle statistiche campionarie.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
2
Perché estrarre un campione
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
3
Le statistiche campionarie fanno parte della vita di tutti i
giorni
- Il docente interroga un campione di allievi per
verificare la comprensione della classe.
- Il cuoco assaggia un campione di pasta per
valutarne la cottura.
- Il farmacologo valuta la risposta ad un farmaco su
un campione di pazienti.
- La ditta di sondaggi prevede l’esito delle elezioni
interrogando un campione della popolazione.
- ecc. ecc.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
4
I risultati campionari non interessano di per sé
ma consentono di trarre conclusioni generali valide
per tutta la popolazione da cui il campione è stato
estratto.
Questo processo si chiama inferenza statistica.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
5
Campionamento ed inferenza sono due processi simmetrici.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
6
Percorso dell’inferenza statistica:
1. estrazione di un campione della popolazione
,
2. calcolo delle statistiche campionarie, cioè dei valori
corrispondenti ai dati contenuti nel campione
3. stima dei parametri nella popolazione in base ai risultati
forniti dal campione.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
7
Definizione di popolazione
e campione.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
8
Popolazione:
• ‘insieme di tutti i valori realizzati o possibili di una data
variabile’
• insieme che raccoglie tutte le osservazioni possibili,
relativamente ad una data variabile o ad un dato fenomeno.
• può essere finita (comunque molto grande) o infinita
trattiamo come popolazioni anche insiemi che non sono
enumerabili e che si realizzeranno nel futuro:
es. quando ci riferiamo ai malati di una certa malattia vogliamo
formulare una previsione valida anche per i casi che non sono
ancora stati diagnosticati.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
9
Campione:
• raccolta finita di elementi estratti da una popolazione
• scopo dell’estrazione è quello di ottenere informazioni sulla
popolazione
• pertanto il campione deve essere rappresentativo della
popolazione da cui viene estratto (‘non viziato’)
• per corrispondere a queste esigenze il campione viene
individuato con un campionamento casuale.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
10
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
11
I principali metodi di campionamento:
• Campionamento casuale semplice
• Campionamento sistematico
• Campionamento stratificato
• Campionamento a grappoli
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
12
Campionamento Casuale Semplice
Tutti gli individui nella popolazione hanno uguale probabilità di
essere inclusi nel campione.
- individui nella popolazione = "unità di campionamento"
- popolazione oggetto dello studio = "popolazione bersaglio"
- popolazione effettivamente campionabile (al netto dell'effetto
di fattori di selezione) = "popolazione studio " o base di
campionamento
- distorsioni di selezione = errori che rendono non uniforme la
probabilità di essere inclusi nel campione. (es un
campionamento condotto tramite l'uso dell'elenco telefonico
esclude le famiglie senza telefono, pertanto la popolazione
bersaglio e la base di campionamento potrebbero non
corrispondere,
causando
così
una
distorsione
di selezione)13
Corso di laurea triennale
di Igiene Dentale
- Corso
di Statistica
Medica - Campionamento
Nella pratica del campionamento debbo disporre di una
‘base di campionamento’ che corrisponde all’elenco dei
soggetti da cui materialmente estraggo il campione.
Per effettuare un vero campionamento ho bisogno che la
base di campionamento corrisponda ad un elenco (lista) di
individui identificabili.
Se la base di campionamento e la popolazione bersaglio
discordano, si verifica una distorsione di selezione.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
14
Assunzioni per la validità del campionamento
I metodi della statistica campionaria assumono che:
- non vi siano errori sistematici (bias) di selezione
- la base di campionamento corrisponda alla popolazione
‘bersaglio’.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
15
Il campionamento viene di solito condotto
predefinendo la dimensione del campione. Si
calcola quindi la frazione di campionamento, cioè la
probabilità che un dato individuo sia estratto ed entri
a far parte del campione.
Data una popolazione con N individui ed un
campione di C individui (dove N è molto grande
rispetto a C) la probabilità per l’i-esimo individuo è
C/N.
dimensione del campione
Frazione di campionamento ψ =
dimensione della popolazione
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
16
Nel campionamento casuale semplice la stessa frazione
di campionamento viene applicata a tutta la
popolazione.
Se la frazione di campionamento è piccola (C << N), Ψ
si mantiene praticamente costante anche se i soggetti
campionati escono dalla popolazione.
Altrimenti Ψ varia nel corso del campionamento ed
occorre tenerne conto applicando una correzione
(correzione per la popolazione finita)
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
17
Campionamento Stratificato
N. nella
N. nel
Frazione di
popolazione campione campionamento
N1
C1
ψ1
Strato 2 Femmine N2
C2
ψ2
Strato 1 Maschi
Obiettivi :
- tutti gli strati siano rappresentati nel campione con
numerosità sufficiente
- controllo della proporzione dei soggetti nei diversi strati,
non lasciandola esposta alla variabilità casuale
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
18
Esempio: in uno studio epidemiologico sul tumore
polmonare voglio che maschi e femmine siano
rappresentati con la stessa numerosità.
La frequenza relativa nella popolazione dei casi di tumore
polmonare è di 10 uomini : 1 donna.
Con un campione casuale semplice mi aspetto di trovare
solo il 10% di donne.
Procedo quindi ad un campionamento stratificato
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
19
Base di campionamento: casi di tumore polmonare
incidenti (cioè di nuova diagnosi) nella popolazione di
Torino negli anni 1993-98.
Debbo includere nel campione 100 uomini e 100
donne.
N. nella
N.
Frazione di
popolazione campione campionamento
Strato
Maschi
3355
100
1
0,0298
Strato
2
100 / 3355 =
Femmine 847
100
100 / 847 =
0,1181
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
20
Il campionamento ‘a grappolo’ (anche detto a cluster).
Esempio:
voglio verificare l’efficacia di due diversi trattamenti per la
disassuefazione dal fumo. Entrambi i trattamenti devono
essere proposti dal medico di base.
Procedo in due fasi:
1. campione dei medici (10 medici tra tutti i medici di base di
Novara)
2. campione degli assistiti dei medici campionati nella fase 1
(20 assistiti per ciascun medico)
Totale del campione : 10 medici x 20 assistiti = 200 assistiti.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
21
Altri schemi di campionamento (sconsigliati):
• Campionamento sistematico ("a passo fisso", es. una
osservazione ogni 10) potrebbe nascondere distorsioni di
selezione.
• Campionamento non probabilistico o selezione per
quote non è un campionamento
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
22
Statistica Campionaria
Statistica calcolata per le osservazioni che compongono il
campione.
Le statistiche campionarie sono definite in modo tale da
essere degli stimatori non distorti della statistica per la
popolazione.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
23
Relazione tra popolazione e campione e
proprietà delle statistiche campionarie.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
24
Il campione casuale corrisponde alla popolazione?
Esaminiamo il caso della media campionaria (la media
calcolata per le osservazioni che compongono il campione).
Un campione casuale ha le seguenti proprietà:
- Il valore atteso della media calcolata sul campione (media
campionaria) è la media della popolazione, in altre parole la
media campionaria è una stima non distorta della media della
popolazione.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
25
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
26
E per quanto riguarda la varianza campionaria?
Il valore atteso della varianza campionaria (calcolata
con n-1) è la varianza della popolazione, in altre
parole la varianza campionaria è una stima non
distorta della varianza della popolazione.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
27
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
28
La stima fornita dal singolo campione è affetta da
incertezza, a causa dell'errore casuale del campionamento.
La precisione della stima fornita da un campione (stima
campionaria) sarà maggiore con:
- inferiore variabilità nella popolazione
- maggiore dimensione del campione
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
29
La distribuzione di probabilità dei valori delle medie
campionarie
Immaginiamo di ripetere un campionamento per molte volte.
Per ciascuno dei campioni calcoliamo la media (la ‘media
campionaria’).
Calcoliamo media e deviazione standard delle medie
campionarie.
Esaminiamo alcuni esempi di risultati con strumenti grafici:
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
30
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
31
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
32
Osserviamo che:
• La media delle medie campionarie (µX)corrisponde alla
media della popolazione (µ)
• La variabilità della distribuzione delle medie campionarie è
inferiore alla variabilità nella popolazione. Campioni più
grandi daranno una distribuzione con variabilità inferiore.
• La forma della distribuzione di frequenza delle medie
campionarie è gaussiana
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
33
Variabilità della distribuzione delle medie campionarie
• La deviazione standard della distribuzione delle medie
campionarie viene indicata anche come ‘Errore Standard della
Media’ (abbreviato in Errore Standard o ES).
σ = dev. standard della popolazione
ES
=
σ
n
ES dipende dalla variabilità nella popolazione e dalla
dimensione campionaria
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
34
variabilità nella
popolazione
E .S . =
σ
n
dimensione del campione
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
35
Conclusione / riepilogo
• Il valore atteso della media campionaria è la media della
popolazione.
• Il valore atteso della varianza campionaria calcolata con il
denominatore (n-1) è la varianza della popolazione.
• La variabilità della distribuzione delle medie campionarie è
inferiore alla variabilità nella popolazione. Campioni più
grandi avranno distribuzione con variabilità inferiore. La
deviazione standard delle medie campionarie viene indicata
anche come Errore Standard
• La forma della distribuzione di frequenza delle medie
campionarie è normale. Questo accade anche se la
distribuzione nella popolazione non è normale, purchè il
campione sia abbastanza numeroso.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
36
Vediamo alcuni esempi relativi alle proprietà dei campioni
n=9
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
37
Con campioni più grandi la distribuzione delle medie campionarie ha variabilità inferiore.
n = 40
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
38
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
39
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
40
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
41
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
42
Applicazione:
Estrazione di piccoli campioni: tavola dei numeri casuali
Procedura per il campionamento con tavola dei numeri casuali:
1. Le osservazioni che compongono la ‘popolazione’ (base di
campionamento) vengono numerate in ordine progressivo da 1
a N;
2. Viene scelto un punto di partenza sulla tavola dei numeri
casuali (es. a occhi chiusi si segna un punto);
3. Viene letto (‘estratto’), a partire dal punto così individuato, un
numero di M cifre, dove M è pari al numero di cifre del numero
totale di osservazioni nella ‘popolazione’ (es. se la popolazione
è di 300 persone useremo numeri di 3 cifre, se di 4500 persone
useremo numeri di 4 cifre);
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
43
4. Viene inclusa nel campione l’osservazione con numero
progressivo pari al numero estratto; se il numero estratto è
superiore a N si estrae un altro numero.
5. Si ripete la procedura leggendo i numeri successivi dalla
tavola, fino a che non è stato estratto il numero richiesto di
osservazioni.
Le tavole dei numeri casuali possono essere prodotte con
appositi programmi di calcolo.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
44
Tavola dei numeri
33369 22784 33875
27255 03112 68048
06338 95707 49455
78309 42155 90346
99759 97934 03254
67176 10433 87681
65248 76928 89837
49006 76166 02500
68103 85644 25796
63802 53305 04059
79742 99960 26124
57720 54907 74245
79237 41051 12398
24228 57850 98341
55660 49424 43933
19861 22439 01143
94669 32527 87760
89985 34649 53377
48789 72702 67008
49480 02888 22917
24743 85641 42291
64847 23589 33594
03430 36514 70661
casuali (esemplificativa)
41853 96864 47971 95778 08005
77412 56742 76219 31224 14474
85540 13965 75668 33709 06295
49145 20503 00241 29991 19345
41554 21590 57210 07123 68756
87210 64933 68347 92077 88792
08846 56629 32437 67688 17835
63782 59322 00390 98163 63614
91448 30805 42664 51326 74436
59764 90724 76359 55535 86055
46870 20689 25098 06410 27973
84488 04270 73048 99066 06519
66696 85112 14981 17287 21146
16681 37812 47509 18925 86597
05963 20149 05200 50960 08358
94432 63532 56945 58842 40528
94104 25509 76415 05216 24500
31730 94086 31638 35588 17093
21668 82146 01413 79372 14942
63258 11111 33411 13775 85533
36778 10893 05437 19824 08378
89748 10957 32718 51763 68813
31756 05050 40475 71065 74305
13691
75336
33055
61564
63083
91810
91940
78605
62322
29585
46998
48641
62211
18675
67511
92572
17838
36147
68705
80985
42976
10425
77737
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
63400
86303
62019
99081
96235
58573
90593
49403
12241
46302
77311
55943
05821
49091
01933
20741
70817
91279
38683
00143
86795
77035
29833
45
Esempio: estrazione di un campione di 10 soggetti da una base
di 150. La base è elencata nella tabella allegata
Dovrò scegliere numeri di 3 cifre.
Decido che procederò progressivamente per colonna, dall’alto in
basso.
In modo casuale individuo il punto sottolineato come punto di
partenza.
I successivi valori inferiori a 150 sono annotati in grassetto. I
valori 040, 011, 026, 045, 088 corrispondono ai soggetti da
campionare.
Tali soggetti sono evidenziati nella tabella successiva con
indicati i valori di emoglobina.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
46
Tavola dei numeri casuali
33369
27255
06338
78309
99759
67176
65248
49006
68103
63802
79742
57720
79237
24228
55660
19861
94669
89985
48789
49480
24743
64847
03430
75385
64545
98208
32054
17344
50394
78953
00944
09145
95169
70508
22784
03112
95707
42155
97934
10433
76928
76166
85644
53305
99960
54907
41051
57850
49424
22439
32527
34649
72702
02888
85641
23589
36514
23135
63962
33362
07203
15148
05450
17763
74988
60399
67557
54005
33875
68048
49455
90346
03254
87681
89837
12500
25796
04059
26124
74245
12398
98341
43933
01143
87760
53377
67008
22917
42291
33594
70661
69283
51199
69117
26193
48565
64035
97731
12680
34502
02640
04520
41853
77412
85540
49145
41554
87210
08846
63782
91448
59764
46870
84488
66696
16681
05963
94432
94104
31730
21668
63258
36778
89748
31756
16727
01283
21161
21394
37822
43057
42023
67331
96525
34346
68481
96864
56742
13965
20503
21590
64933
56629
59322
30805
90724
20689
04270
85112
37812
20149
63532
25509
94086
82146
11111
10893
10957
05050
65703
97825
23944
84195
58481
40668
83425
38098
01889
11248
49490
47971
76219
75668
00241
57210
68347
32437
00390
42664
76359
25098
73048
14981
47509
05200
56945
76415
31638
01413
33411
05437
32718
40475
02780
28393
64238
24214
89051
41553
21144
07617
26599
38069
54518
95778
31224
33709
29991
07123
92077
67688
98163
51326
55535
06410
99066
17287
18925
50960
58842
05216
35588
79372
13775
19824
51763
71065
23804
66071
94059
84411
82970
60431
61224
07062
00459
92350
61250
08005
14474
06295
19345
68756
88792
17835
63614
74436
86055
27973
06519
21146
86597
08358
40528
24500
17093
14942
85533
08378
68813
74305
68981
82123
14970
40803
42120
18390
08446
68488
84522
56729
57413
13691
75336
33055
61564
63083
91810
91940
78605
62322
29585
46998
48641
62211
18675
67511
92572
17838
36147
68705
80985
42976
10425
77737
11584
57660
05617
98537
31433
64851
59292
10741
16394
39454
21963
63400
86303
62019
99081
96235
58573
90593
49403
12241
46302
77311
55943
05821
49091
01933
20741
70817
91279
38683
00143
86795
77035
29833
49648
19916
12805
38507
22193
68625
20144
47585
04293
29692
58693
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
47
Numero
progressivo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Hb
Numero progressivo
Hb
129
133
133
134
136
136
136
136
137
137
137
137
138
138
138
138
139
139
139
139
139
140
140
141
141
141
141
141
141
141
141
141
141
142
142
142
142
142
142
142
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
142
142
142
142
142
142
143
143
143
143
143
143
143
143
143
143
144
144
144
144
144
144
144
144
145
145
145
145
145
145
145
145
146
146
146
146
147
147
147
147
Numero
progressivo
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
Hb
Numero progressivo
Hb
147
147
147
148
148
148
148
148
149
149
149
149
149
149
149
149
149
149
149
150
150
150
150
150
150
150
150
150
151
151
151
151
151
151
151
151
151
151
151
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
152
152
152
152
152
153
153
153
153
153
153
153
153
153
153
153
153
153
154
154
154
154
154
154
154
154
154
154
155
155
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
48
Esercizi consigliati
da: Fowler et al, ed Edises.
• Cap 2 (p 209) es 5
• Cap 2 (p 209) es 6
• Cap 2 (p 209) es 8
Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento
49