Università del Piemonte Orientale Corsi di Laurea Triennale di area

Università del Piemonte Orientale
Corsi di Laurea Triennale di area tecnica
Corso di Statistica Medica
Campionamento e distribuzione campionaria della media
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
1
Argomenti della lezione
- Perché estrarre un campione.
- Definizione di popolazione e campione.
- Relazione tra popolazione e campione
- Proprietà delle statistiche campionarie.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
2
Le statistiche campionarie fanno parte della vita di tutti i
giorni
- Il docente interroga un campione di allievi per
verificare la comprensione della classe.
- Il cuoco assaggia un campione di pasta per
valutarne la cottura.
- Il farmacologo valuta la risposta ad un farmaco su
un campione di pazienti.
- La ditta di sondaggi prevede l’esito delle elezioni
interrogando un campione della popolazione.
- ecc. ecc.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
3
I risultati campionari non interessano di per sé ma
solo perché consentono di trarre conclusioni
generali valide per tutta la popolazione da cui il
campione è stato estratto.
Questo processo si chiama inferenza statistica.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
4
Campionamento ed inferenza sono due processi simmetrici.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
5
Il percorso dell’inferenza statistica si svolge secondo le
seguenti fasi:
1. estrazione di un campione della popolazione
,
2. calcolo delle statistiche campionarie, cioè dei valori
corrispondenti ai dati contenuti nel campione
3. stima dei parametri nella popolazione in base ai risultati
forniti dal campione.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
6
Argomenti della lezione
- Perché estrarre un campione.
- Definizione di popolazione e campione.
- Relazione tra popolazione e campione e
proprietà delle statistiche campionarie.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
7
Popolazione:
• ‘insieme di tutti i valori realizzati o possibili di una data
variabile’
• insieme che raccoglie tutte le osservazioni possibili,
relativamente ad una data variabile o ad un dato fenomeno.
• può essere finita (comunque molto grande) o infinita
trattiamo come popolazioni anche insiemi che non sono
enumerabili e che si realizzeranno nel futuro:
es. quando ci riferiamo ai malati di una certa malattia vogliamo
formulare una previsione valida anche per i casi che non sono
ancora stati diagnosticati.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
8
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
9
Campione:
• raccolta finita di elementi estratti da una popolazione
• scopo dell’estrazione è quello di ottenere informazioni sulla
popolazione
• pertanto il campione deve essere rappresentativo della
popolazione da cui viene estratto (‘non viziato’)
• per corrispondere a queste esigenze il campione viene
individuato con un campionamento casuale.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
10
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
11
Secondo quali modalità possiamo estrarre un campione?
I principali metodi di campionamento:
• Campionamento casuale semplice
• Campionamento sistematico
• Campionamento stratificato
• Campionamento a grappoli
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
12
In un campionamento casuale semplice tutti gli individui nella
popolazione hanno uguale probabilità di essere inclusi nel
campione.
- individui nella popolazione = "unità di campionamento"
- popolazione oggetto dello studio = "popolazione bersaglio"
- popolazione effettivamente campionabile (al netto dell'effetto
di fattori di selezione) = "popolazione studio " o base di
campionamento
- distorsioni di selezione = errori che rendono non uniforme la
probabilità di essere inclusi nel campione. (es un
campionamento condotto tramite l'uso dell'elenco telefonico
esclude le famiglie senza telefono, pertanto la popolazione
bersaglio e la base di campionamento potrebbero non
corrispondere, causando così una distorsione di selezione)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
13
Nella pratica del campionamento debbo disporre di una ‘base
di campionamento’.
La base di campionamento corrisponde all’elenco dei soggetti
da cui materialmente estraggo il campione.
Per effettuare un vero campionamento ho bisogno che la base
di campionamento corrisponda ad un elenco (lista) di individui
identificabili.
Se la base di campionamento e la popolazione bersaglio
discordano, si verifica una distorsione di selezione.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
14
Assunzioni per la validità del campionamento
I metodi della statistica campionaria assumono che:
- non vi siano errori sistematici (bias) di selezione
- la base di campionamento corrisponda alla popolazione
‘bersaglio’.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
15
Il campionamento viene di solito condotto
predefinendo la dimensione del campione. Si
calcola quindi la frazione di campionamento, cioè la
probabilità che un dato individuo sia estratto ed entri
a far parte del campione.
Data una popolazione con N individui ed un
campione di C individui (dove N è molto grande
rispetto a C) la probabilità per l’i-esimo individuo è
C/N.
dimensione del campione
Frazione di campionamento ψ =
dimensione della popolazione
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
16
Nel campionamento casuale semplice la stessa frazione
di campionamento viene applicata a tutta la
popolazione.
Se la frazione di campionamento è piccola (C << N), Ψ
si mantiene praticamente costante anche se i soggetti
campionati escono dalla popolazione.
Altrimenti Ψ varia nel corso del campionamento ed
occorre tenerne conto applicando una correzione
(correzione per la popolazione finita)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
17
Campionamento stratificato
N. nella
N. nel
Frazione di
popolazione campione campionamento
N1
C1
ψ
1
Strato 2 Femmine N2
C2
ψ
2
Strato 1 Maschi
Obiettivi :
1.tutti gli strati siano rappresentati nel campione con numerosità sufficiente
2. controllo della proporzione dei soggetti nei diversi strati, non lasciandola
esposta alla variabilità casuale
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
18
Esempio: in uno studio epidemiologico sul tumore
polmonare voglio che maschi e femmine siano
rappresentati con la stessa numerosità.
La frequenza relativa nella popolazione dei casi di tumore
polmonare è di 10 uomini : 1 donna.
Con un campione casuale semplice mi aspetto di trovare
solo il 10% di donne.
Procedo quindi ad un campionamento stratificato
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
19
Base di campionamento: i casi di tumore polmonare
incidenti (cioè di nuova diagnosi) nella popolazione
di Torino negli anni 1993-98
Debbo includere nel campione 100 uomini e 100
donne.
N. nella
N.
Frazione di
popolazione campione campionamento
Strato
Maschi
3355
100
1
0,0298
Strato
2
100 / 3355 =
Femmine 847
100
100 / 847 =
0,1181
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
20
Il campionamento ‘a grappolo’ (anche detto a cluster).
Esempio:
voglio verificare l’efficacia di due diversi trattamenti per la
disassuefazione dal fumo. Entrambi i trattamenti devono
essere proposti dal medico di base.
Procedo in due fasi:
1. campione dei medici (10 medici tra tutti i medici di base di
Novara)
2. campione degli assistiti dei medici campionati nella fase 1
(20 assistiti per ciascun medico)
Totale del campione : 10 medici x 20 assistiti = 200 assistiti.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
21
Schema di campionamento a grappolo
campione
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
22
Altri schemi di campionamento:
• Campionamento sistematico;
• Campionamento non probabilistico (selezione per quote).
Metodi sconsigliati
• Campionamento sistematico ("a passo fisso", es. una
osservazione ogni 10) Æ potrebbe nascondere distorsioni di
selezione.
• Campionamento non probabilistico o selezione per quote
Æ non è un campionamento
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
23
Un campione casuale corrisponde alla popolazione?
Definiamo statistica campionaria la statistica calcolata per
le osservazioni che compongono il campione.
In generale, le statistiche campionarie sono definite in
modo tale da essere degli stimatori non distorti della
statistica calcolata per la popolazione.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
24
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
25
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
26
Argomenti della lezione
- Perché estrarre un campione.
- Definizione di popolazione e campione.
- Relazione tra popolazione e campione e
proprietà delle statistiche campionarie.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
27
Il campione casuale corrisponde alla popolazione?
Esaminiamo il caso della media campionaria (la media
calcolata per le osservazioni che compongono il campione).
Un campione casuale ha le seguenti proprietà:
- Il valore atteso della media calcolata sul campione (media
campionaria) è la media della popolazione, in altre parole la
media campionaria è una stima non distorta della media della
popolazione.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
28
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
29
E per quanto riguarda la varianza campionaria?
Il valore atteso della varianza campionaria (calcolata
con n-1) è la varianza della popolazione, in altre
parole la varianza campionaria (calcolata con n-1) è
una stima non distorta della varianza della
popolazione.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
30
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
31
La stima fornita dal singolo campione è comunque affetta
da incertezza, a causa dell'errore casuale del
campionamento.
In generale quindi possiamo dire che la precisione della
stima fornita da un campione (stima campionaria) sarà
maggiore con:
-
inferiore variabilità nella popolazione
-
maggiore dimensione del campione
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
32
La distribuzione di probabilità dei valori delle medie
campionarie
Immaginiamo di ripetere un campionamento per molte volte.
Per ciascuno dei campioni calcoliamo la media (la ‘media
campionaria’).
Calcoliamo media e deviazione standard delle medie
campionarie.
Esaminiamo alcuni esempi di risultati con strumenti grafici:
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
33
Vediamo alcuni esempi relativi alle proprietà dei campioni
n=9
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
34
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
35
Osserviamo che:
• La media delle medie campionarie corrisponde alla media
della popolazione (µ)
• La variabilità della distribuzione delle medie campionarie è
inferiore alla variabilità nella popolazione. Campioni più
grandi daranno una distribuzione con variabilità inferiore.
• La forma della distribuzione di frequenza delle medie
campionarie è gaussiana, anche se la popolazione di
partenza non lo è.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
36
Variabilità della distribuzione delle medie campionarie
• La deviazione standard della distribuzione delle medie
campionarie viene indicata anche come ‘Errore Standard della
Media’ (abbreviato in Errore Standard o ES).
σ = dev. standard della popolazione
ES
=
σ
n
ES dipende dalla variabilità nella popolazione e dalla
dimensione campionaria
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
37
variabilità nella
popolazione
E .S . =
σ
n
dimensione del campione
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
38
Conclusione / riepilogo
• Il valore atteso della media campionaria è la media della
popolazione.
• Il valore atteso della varianza campionaria calcolata con il
denominatore (n-1)è la varianza della popolazione.
• La variabilità della distribuzione delle medie campionarie è
inferiore alla variabilità nella popolazione. Campioni più
grandi avranno distribuzione con variabilità inferiore. La
deviazione standard delle medie campionarie viene indicata
anche come Errore Standard
• La forma della distribuzione di frequenza delle medie
campionarie è normale. Questo accade anche se la
distribuzione nella popolazione non è normale, purchè il
campione sia abbastanza numeroso.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
39
Vediamo alcuni esempi relativi alle proprietà dei campioni
n=9
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
40
Con campioni più grandi la distribuzione delle medie campionarie ha variabilità inferiore.
n = 40
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
41
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
42
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
43
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
44
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
45
Applicazione: Estrazione di piccoli campioni: tavola dei numeri
casuali
Procedura per il campionamento con tavola dei numeri casuali:
1. Le osservazioni che compongono la ‘popolazione’ (base di
campionamento) vengono numerate in ordine progressivo da 1
a N;
2. Viene scelto un punto di partenza sulla tavola dei numeri
casuali (es. a occhi chiusi si segna un punto);
3. Viene letto (‘estratto’), a partire dal punto così individuato,
un numero di M cifre, dove M è pari al numero di cifre del
numero totale di osservazioni nella ‘popolazione’ (es. se la
popolazione è di 300 persone useremo numeri di 3 cifre, se di
4500 persone useremo numeri di 4 cifre);
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
46
4. Viene inclusa nel campione l’osservazione con numero
progressivo pari al numero estratto; se il numero estratto è
superiore a N si estrae un altro numero.
5. Si ripete la procedura leggendo i numeri successivi dalla
tavola, fino a che non è stato estratto il numero richiesto di
osservazioni.
Le tavole dei numeri casuali possono essere prodotte con
appositi programmi di calcolo.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
47
Tavola dei numeri
33369 22784 33875
27255 03112 68048
06338 95707 49455
78309 42155 90346
99759 97934 03254
67176 10433 87681
65248 76928 89837
49006 76166 02500
68103 85644 25796
63802 53305 04059
79742 99960 26124
57720 54907 74245
79237 41051 12398
24228 57850 98341
55660 49424 43933
19861 22439 01143
94669 32527 87760
89985 34649 53377
48789 72702 67008
49480 02888 22917
24743 85641 42291
64847 23589 33594
03430 36514 70661
casuali (esemplificativa)
41853 96864 47971 95778 08005
77412 56742 76219 31224 14474
85540 13965 75668 33709 06295
49145 20503 00241 29991 19345
41554 21590 57210 07123 68756
87210 64933 68347 92077 88792
08846 56629 32437 67688 17835
63782 59322 00390 98163 63614
91448 30805 42664 51326 74436
59764 90724 76359 55535 86055
46870 20689 25098 06410 27973
84488 04270 73048 99066 06519
66696 85112 14981 17287 21146
16681 37812 47509 18925 86597
05963 20149 05200 50960 08358
94432 63532 56945 58842 40528
94104 25509 76415 05216 24500
31730 94086 31638 35588 17093
21668 82146 01413 79372 14942
63258 11111 33411 13775 85533
36778 10893 05437 19824 08378
89748 10957 32718 51763 68813
31756 05050 40475 71065 74305
13691
75336
33055
61564
63083
91810
91940
78605
62322
29585
46998
48641
62211
18675
67511
92572
17838
36147
68705
80985
42976
10425
77737
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
63400
86303
62019
99081
96235
58573
90593
49403
12241
46302
77311
55943
05821
49091
01933
20741
70817
91279
38683
00143
86795
77035
29833
48
Esempio: estrazione di un campione di 10 soggetti da una base
di 120. La base è elencata nella tabella allegata
Dovrò scegliere numeri di 3 cifre.
Decido che procederò progressivamente per colonna, dall’alto in
basso.
In modo casuale individuo il punto sottolineato come punto di
partenza.
I successivi valori inferiori a 120 sono annotati in grassetto. I
valori 040, 011, 026, 045, 088 corrispondono ai soggetti da
campionare.
Tali soggetti sono evidenziati nella tabella successiva con
indicati i valori di emoglobina.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
49
Tavola dei numeri casuali
33369 22784 33875 41853 96864 47971 95778 08005 13691 63400
27255 03112 68048 77412 56742 76219 31224 14474 75336 86303
06338 95707 49455 85540 13965 75668 33709 06295 33055 62019
78309 42155 90346 49145 20503 00241 29991 19345 61564 99081
99759 97934 03254 41554 21590 57210 07123 68756 63083 96235
67176 10433 87681 87210 64933 68347 92077 88792 91810 58573
65248 76928 89837 08846 56629 32437 67688 17835 91940 90593
49006 76166 12500 63782 59322 00390 98163 63614 78605 49403
68103 85644 25796 91448 30805 42664 51326 74436 62322 12241
63802 53305 04059 59764 90724 76359 55535 86055 29585 46302
79742 99960 26124 46870 20689 25098 06410 27973 46998 77311
57720 54907 74245 84488 04270 73048 99066 06519 48641 55943
79237 41051 12398 66696 85112 14981 17287 21146 62211 05821
24228 57850 98341 16681 37812 47509 18925 86597 18675 49091
55660 49424 43933 05963 20149 05200 50960 08358 67511 01933
19861 22439 01143 94432 63532 56945 58842 40528 92572 20741
94669 32527 87760 94104 25509 76415 05216 24500 17838 70817
89985 34649 53377 31730 94086 31638 35588 17093 36147 91279
48789 72702 67008 21668 82146 01413 79372 14942 68705 38683
49480 02888 22917 63258 11111 33411 13775 85533 80985 00143
24743 85641 42291 36778 10893 05437 19824 08378 42976 86795
64847 23589 33594 89748 10957 32718 51763 68813 10425 77035
03430 36514 70661 31756 05050 40475 71065 74305 77737 29833
75385 23135 69283 16727 65703 02780 23804 68981 11584 49648
64545 63962 51199 01283 97825 28393 66071 82123 57660 19916
98208 33362 69117 21161 23944 64238 94059 14970 05617 12805
32054 07203 26193 21394 84195 24214 84411 40803 98537 38507
17344 15148 48565 37822 58481 89051 82970 42120 31433 22193
50394 05450 64035 43057 40668 41553 60431 18390 64851 68625
78953 17763 97731 42023 83425 21144 61224 08446 59292 20144
00944 74988 12680 67331 38098 07617 07062 68488 10741 47585
09145 60399 34502 96525 01889 26599 00459 84522 16394 04293
95169 67557 02640 34346 11248 38069 92350 56729 39454 29692
70508Corsi
54005
04520
68481di area
49490
54518
61250
57413 21963
di laurea
triennale
tecnica
- Corso
di Statistica
Medica58693
- Campionamento
50
Numero
Hb
progressivo
1
129
2
133
3
133
4
134
5
136
6
136
7
136
8
136
9
137
10
137
11
137
12
137
13
138
14
138
15
138
16
138
17
139
18
139
19
139
20
139
21
139
22
140
23
140
24
141
25
141
26
141
27
141
28
141
29
141
30
141
31
141
32
141
33
141
34
142
35
142
36
142
37
142
38
142
39
142
40
142triennale
Corsi
di laurea
di area
Numero
Hb
progressivo
41
142
42
142
43
142
44
142
45
142
46
142
47
143
48
143
49
143
50
143
51
143
52
143
53
143
54
143
55
143
56
143
57
144
58
144
59
144
60
144
61
144
62
144
63
144
64
144
65
145
66
145
67
145
68
145
69
145
70
145
71
145
72
145
73
146
74
146
75
146
76
146
77
147
78
147
79
147
80
tecnica
- Corso 147
di Statistica
Numero
progressivo
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
Hb
147
147
147
148
148
148
148
148
149
149
149
149
149
149
149
149
149
149
149
150
150
150
150
150
150
150
150
150
151
151
151
151
151
151
151
151
151
151
151
Medica - Campionamento
51
• I valori di emoglobina dei soggetti inseriti
nel campione sono:
• 137, 141, 142, 142, 148
• La media campionaria è: 142,0
• La deviazione standard campionaria è: 3,9
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
52
Esercizi consigliati
da: Fowler et al, ed Edises.
• Cap 2 (p 209) es 5
• Cap 2 (p 209) es 6
• Cap 2 (p 209) es 8
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento
53