Università del Piemonte Orientale Corso di Laurea in Igiene Dentale Corso di Statistica per la ricerca sperimentale e tecnologica Campionamento e distribuzione campionaria della media Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 1 Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione - Proprietà delle statistiche campionarie. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 2 Perché estrarre un campione Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 3 Le statistiche campionarie fanno parte della vita di tutti i giorni - Il docente interroga un campione di allievi per verificare la comprensione della classe. - Il cuoco assaggia un campione di pasta per valutarne la cottura. - Il farmacologo valuta la risposta ad un farmaco su un campione di pazienti. - La ditta di sondaggi prevede l’esito delle elezioni interrogando un campione della popolazione. - ecc. ecc. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 4 I risultati campionari non interessano di per sé ma consentono di trarre conclusioni generali valide per tutta la popolazione da cui il campione è stato estratto. Questo processo si chiama inferenza statistica. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 5 Campionamento ed inferenza sono due processi simmetrici. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 6 Percorso dell’inferenza statistica: 1. estrazione di un campione della popolazione , 2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione 3. stima dei parametri nella popolazione in base ai risultati forniti dal campione. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 7 Definizione di popolazione e campione. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 8 Popolazione: • ‘insieme di tutti i valori realizzati o possibili di una data variabile’ • insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno. • può essere finita (comunque molto grande) o infinita trattiamo come popolazioni anche insiemi che non sono enumerabili e che si realizzeranno nel futuro: es. quando ci riferiamo ai malati di una certa malattia vogliamo formulare una previsione valida anche per i casi che non sono ancora stati diagnosticati. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 9 Campione: • raccolta finita di elementi estratti da una popolazione • scopo dell’estrazione è quello di ottenere informazioni sulla popolazione • pertanto il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’) • per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 10 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 11 I principali metodi di campionamento: • Campionamento casuale semplice • Campionamento sistematico • Campionamento stratificato • Campionamento a grappoli Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 12 Campionamento Casuale Semplice Tutti gli individui nella popolazione hanno uguale probabilità di essere inclusi nel campione. - individui nella popolazione = "unità di campionamento" - popolazione oggetto dello studio = "popolazione bersaglio" - popolazione effettivamente campionabile (al netto dell'effetto di fattori di selezione) = "popolazione studio " o base di campionamento - distorsioni di selezione = errori che rendono non uniforme la probabilità di essere inclusi nel campione. (es un campionamento condotto tramite l'uso dell'elenco telefonico esclude le famiglie senza telefono, pertanto la popolazione bersaglio e la base di campionamento potrebbero non corrispondere, causando così una distorsione di selezione)13 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento Nella pratica del campionamento debbo disporre di una ‘base di campionamento’ che corrisponde all’elenco dei soggetti da cui materialmente estraggo il campione. Per effettuare un vero campionamento ho bisogno che la base di campionamento corrisponda ad un elenco (lista) di individui identificabili. Se la base di campionamento e la popolazione bersaglio discordano, si verifica una distorsione di selezione. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 14 Assunzioni per la validità del campionamento I metodi della statistica campionaria assumono che: - non vi siano errori sistematici (bias) di selezione - la base di campionamento corrisponda alla popolazione ‘bersaglio’. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 15 Il campionamento viene di solito condotto predefinendo la dimensione del campione. Si calcola quindi la frazione di campionamento, cioè la probabilità che un dato individuo sia estratto ed entri a far parte del campione. Data una popolazione con N individui ed un campione di C individui (dove N è molto grande rispetto a C) la probabilità per l’i-esimo individuo è C/N. dimensione del campione Frazione di campionamento ψ = dimensione della popolazione Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 16 Nel campionamento casuale semplice la stessa frazione di campionamento viene applicata a tutta la popolazione. Se la frazione di campionamento è piccola (C << N), Ψ si mantiene praticamente costante anche se i soggetti campionati escono dalla popolazione. Altrimenti Ψ varia nel corso del campionamento ed occorre tenerne conto applicando una correzione (correzione per la popolazione finita) Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 17 Campionamento Stratificato N. nella N. nel Frazione di popolazione campione campionamento N1 C1 ψ1 Strato 2 Femmine N2 C2 ψ2 Strato 1 Maschi Obiettivi : - tutti gli strati siano rappresentati nel campione con numerosità sufficiente - controllo della proporzione dei soggetti nei diversi strati, non lasciandola esposta alla variabilità casuale Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 18 Esempio: in uno studio epidemiologico sul tumore polmonare voglio che maschi e femmine siano rappresentati con la stessa numerosità. La frequenza relativa nella popolazione dei casi di tumore polmonare è di 10 uomini : 1 donna. Con un campione casuale semplice mi aspetto di trovare solo il 10% di donne. Procedo quindi ad un campionamento stratificato Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 19 Base di campionamento: casi di tumore polmonare incidenti (cioè di nuova diagnosi) nella popolazione di Torino negli anni 1993-98. Debbo includere nel campione 100 uomini e 100 donne. N. nella N. Frazione di popolazione campione campionamento Strato Maschi 3355 100 1 0,0298 Strato 2 100 / 3355 = Femmine 847 100 100 / 847 = 0,1181 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 20 Il campionamento ‘a grappolo’ (anche detto a cluster). Esempio: voglio verificare l’efficacia di due diversi trattamenti per la disassuefazione dal fumo. Entrambi i trattamenti devono essere proposti dal medico di base. Procedo in due fasi: 1. campione dei medici (10 medici tra tutti i medici di base di Novara) 2. campione degli assistiti dei medici campionati nella fase 1 (20 assistiti per ciascun medico) Totale del campione : 10 medici x 20 assistiti = 200 assistiti. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 21 Altri schemi di campionamento (sconsigliati): • Campionamento sistematico ("a passo fisso", es. una osservazione ogni 10) potrebbe nascondere distorsioni di selezione. • Campionamento non probabilistico o selezione per quote non è un campionamento Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 22 Statistica Campionaria Statistica calcolata per le osservazioni che compongono il campione. Le statistiche campionarie sono definite in modo tale da essere degli stimatori non distorti della statistica per la popolazione. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 23 Relazione tra popolazione e campione e proprietà delle statistiche campionarie. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 24 Il campione casuale corrisponde alla popolazione? Esaminiamo il caso della media campionaria (la media calcolata per le osservazioni che compongono il campione). Un campione casuale ha le seguenti proprietà: - Il valore atteso della media calcolata sul campione (media campionaria) è la media della popolazione, in altre parole la media campionaria è una stima non distorta della media della popolazione. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 25 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 26 E per quanto riguarda la varianza campionaria? Il valore atteso della varianza campionaria (calcolata con n-1) è la varianza della popolazione, in altre parole la varianza campionaria è una stima non distorta della varianza della popolazione. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 27 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 28 La stima fornita dal singolo campione è affetta da incertezza, a causa dell'errore casuale del campionamento. La precisione della stima fornita da un campione (stima campionaria) sarà maggiore con: - inferiore variabilità nella popolazione - maggiore dimensione del campione Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 29 La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo di ripetere un campionamento per molte volte. Per ciascuno dei campioni calcoliamo la media (la ‘media campionaria’). Calcoliamo media e deviazione standard delle medie campionarie. Esaminiamo alcuni esempi di risultati con strumenti grafici: Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 30 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 31 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 32 Osserviamo che: • La media delle medie campionarie (µX)corrisponde alla media della popolazione (µ) • La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione. Campioni più grandi daranno una distribuzione con variabilità inferiore. • La forma della distribuzione di frequenza delle medie campionarie è gaussiana Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 33 Variabilità della distribuzione delle medie campionarie • La deviazione standard della distribuzione delle medie campionarie viene indicata anche come ‘Errore Standard della Media’ (abbreviato in Errore Standard o ES). σ = dev. standard della popolazione ES = σ n ES dipende dalla variabilità nella popolazione e dalla dimensione campionaria Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 34 variabilità nella popolazione E .S . = σ n dimensione del campione Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 35 Conclusione / riepilogo • Il valore atteso della media campionaria è la media della popolazione. • Il valore atteso della varianza campionaria calcolata con il denominatore (n-1) è la varianza della popolazione. • La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione. Campioni più grandi avranno distribuzione con variabilità inferiore. La deviazione standard delle medie campionarie viene indicata anche come Errore Standard • La forma della distribuzione di frequenza delle medie campionarie è normale. Questo accade anche se la distribuzione nella popolazione non è normale, purchè il campione sia abbastanza numeroso. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 36 Vediamo alcuni esempi relativi alle proprietà dei campioni n=9 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 37 Con campioni più grandi la distribuzione delle medie campionarie ha variabilità inferiore. n = 40 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 38 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 39 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 40 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 41 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 42 Applicazione: Estrazione di piccoli campioni: tavola dei numeri casuali Procedura per il campionamento con tavola dei numeri casuali: 1. Le osservazioni che compongono la ‘popolazione’ (base di campionamento) vengono numerate in ordine progressivo da 1 a N; 2. Viene scelto un punto di partenza sulla tavola dei numeri casuali (es. a occhi chiusi si segna un punto); 3. Viene letto (‘estratto’), a partire dal punto così individuato, un numero di M cifre, dove M è pari al numero di cifre del numero totale di osservazioni nella ‘popolazione’ (es. se la popolazione è di 300 persone useremo numeri di 3 cifre, se di 4500 persone useremo numeri di 4 cifre); Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 43 4. Viene inclusa nel campione l’osservazione con numero progressivo pari al numero estratto; se il numero estratto è superiore a N si estrae un altro numero. 5. Si ripete la procedura leggendo i numeri successivi dalla tavola, fino a che non è stato estratto il numero richiesto di osservazioni. Le tavole dei numeri casuali possono essere prodotte con appositi programmi di calcolo. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 44 Tavola dei numeri 33369 22784 33875 27255 03112 68048 06338 95707 49455 78309 42155 90346 99759 97934 03254 67176 10433 87681 65248 76928 89837 49006 76166 02500 68103 85644 25796 63802 53305 04059 79742 99960 26124 57720 54907 74245 79237 41051 12398 24228 57850 98341 55660 49424 43933 19861 22439 01143 94669 32527 87760 89985 34649 53377 48789 72702 67008 49480 02888 22917 24743 85641 42291 64847 23589 33594 03430 36514 70661 casuali (esemplificativa) 41853 96864 47971 95778 08005 77412 56742 76219 31224 14474 85540 13965 75668 33709 06295 49145 20503 00241 29991 19345 41554 21590 57210 07123 68756 87210 64933 68347 92077 88792 08846 56629 32437 67688 17835 63782 59322 00390 98163 63614 91448 30805 42664 51326 74436 59764 90724 76359 55535 86055 46870 20689 25098 06410 27973 84488 04270 73048 99066 06519 66696 85112 14981 17287 21146 16681 37812 47509 18925 86597 05963 20149 05200 50960 08358 94432 63532 56945 58842 40528 94104 25509 76415 05216 24500 31730 94086 31638 35588 17093 21668 82146 01413 79372 14942 63258 11111 33411 13775 85533 36778 10893 05437 19824 08378 89748 10957 32718 51763 68813 31756 05050 40475 71065 74305 13691 75336 33055 61564 63083 91810 91940 78605 62322 29585 46998 48641 62211 18675 67511 92572 17838 36147 68705 80985 42976 10425 77737 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 63400 86303 62019 99081 96235 58573 90593 49403 12241 46302 77311 55943 05821 49091 01933 20741 70817 91279 38683 00143 86795 77035 29833 45 Esempio: estrazione di un campione di 10 soggetti da una base di 150. La base è elencata nella tabella allegata Dovrò scegliere numeri di 3 cifre. Decido che procederò progressivamente per colonna, dall’alto in basso. In modo casuale individuo il punto sottolineato come punto di partenza. I successivi valori inferiori a 150 sono annotati in grassetto. I valori 040, 011, 026, 045, 088 corrispondono ai soggetti da campionare. Tali soggetti sono evidenziati nella tabella successiva con indicati i valori di emoglobina. Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 46 Tavola dei numeri casuali 33369 27255 06338 78309 99759 67176 65248 49006 68103 63802 79742 57720 79237 24228 55660 19861 94669 89985 48789 49480 24743 64847 03430 75385 64545 98208 32054 17344 50394 78953 00944 09145 95169 70508 22784 03112 95707 42155 97934 10433 76928 76166 85644 53305 99960 54907 41051 57850 49424 22439 32527 34649 72702 02888 85641 23589 36514 23135 63962 33362 07203 15148 05450 17763 74988 60399 67557 54005 33875 68048 49455 90346 03254 87681 89837 12500 25796 04059 26124 74245 12398 98341 43933 01143 87760 53377 67008 22917 42291 33594 70661 69283 51199 69117 26193 48565 64035 97731 12680 34502 02640 04520 41853 77412 85540 49145 41554 87210 08846 63782 91448 59764 46870 84488 66696 16681 05963 94432 94104 31730 21668 63258 36778 89748 31756 16727 01283 21161 21394 37822 43057 42023 67331 96525 34346 68481 96864 56742 13965 20503 21590 64933 56629 59322 30805 90724 20689 04270 85112 37812 20149 63532 25509 94086 82146 11111 10893 10957 05050 65703 97825 23944 84195 58481 40668 83425 38098 01889 11248 49490 47971 76219 75668 00241 57210 68347 32437 00390 42664 76359 25098 73048 14981 47509 05200 56945 76415 31638 01413 33411 05437 32718 40475 02780 28393 64238 24214 89051 41553 21144 07617 26599 38069 54518 95778 31224 33709 29991 07123 92077 67688 98163 51326 55535 06410 99066 17287 18925 50960 58842 05216 35588 79372 13775 19824 51763 71065 23804 66071 94059 84411 82970 60431 61224 07062 00459 92350 61250 08005 14474 06295 19345 68756 88792 17835 63614 74436 86055 27973 06519 21146 86597 08358 40528 24500 17093 14942 85533 08378 68813 74305 68981 82123 14970 40803 42120 18390 08446 68488 84522 56729 57413 13691 75336 33055 61564 63083 91810 91940 78605 62322 29585 46998 48641 62211 18675 67511 92572 17838 36147 68705 80985 42976 10425 77737 11584 57660 05617 98537 31433 64851 59292 10741 16394 39454 21963 63400 86303 62019 99081 96235 58573 90593 49403 12241 46302 77311 55943 05821 49091 01933 20741 70817 91279 38683 00143 86795 77035 29833 49648 19916 12805 38507 22193 68625 20144 47585 04293 29692 58693 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 47 Numero progressivo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Hb Numero progressivo Hb 129 133 133 134 136 136 136 136 137 137 137 137 138 138 138 138 139 139 139 139 139 140 140 141 141 141 141 141 141 141 141 141 141 142 142 142 142 142 142 142 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 142 142 142 142 142 142 143 143 143 143 143 143 143 143 143 143 144 144 144 144 144 144 144 144 145 145 145 145 145 145 145 145 146 146 146 146 147 147 147 147 Numero progressivo 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 Hb Numero progressivo Hb 147 147 147 148 148 148 148 148 149 149 149 149 149 149 149 149 149 149 149 150 150 150 150 150 150 150 150 150 151 151 151 151 151 151 151 151 151 151 151 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 152 152 152 152 152 153 153 153 153 153 153 153 153 153 153 153 153 153 154 154 154 154 154 154 154 154 154 154 155 155 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 48 Esercizi consigliati da: Fowler et al, ed Edises. • Cap 2 (p 209) es 5 • Cap 2 (p 209) es 6 • Cap 2 (p 209) es 8 Corso di laurea triennale di Igiene Dentale - Corso di Statistica Medica - Campionamento 49