Università del Piemonte Orientale Corsi di Laurea Triennale di area tecnica Corso di Statistica Medica Campionamento e distribuzione campionaria della media Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 1 Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione - Proprietà delle statistiche campionarie. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 2 Le statistiche campionarie fanno parte della vita di tutti i giorni - Il docente interroga un campione di allievi per verificare la comprensione della classe. - Il cuoco assaggia un campione di pasta per valutarne la cottura. - Il farmacologo valuta la risposta ad un farmaco su un campione di pazienti. - La ditta di sondaggi prevede l’esito delle elezioni interrogando un campione della popolazione. - ecc. ecc. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 3 I risultati campionari non interessano di per sé ma solo perché consentono di trarre conclusioni generali valide per tutta la popolazione da cui il campione è stato estratto. Questo processo si chiama inferenza statistica. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 4 Campionamento ed inferenza sono due processi simmetrici. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 5 Il percorso dell’inferenza statistica si svolge secondo le seguenti fasi: 1. estrazione di un campione della popolazione , 2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione 3. stima dei parametri nella popolazione in base ai risultati forniti dal campione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 6 Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione e proprietà delle statistiche campionarie. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 7 Popolazione: • ‘insieme di tutti i valori realizzati o possibili di una data variabile’ • insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno. • può essere finita (comunque molto grande) o infinita trattiamo come popolazioni anche insiemi che non sono enumerabili e che si realizzeranno nel futuro: es. quando ci riferiamo ai malati di una certa malattia vogliamo formulare una previsione valida anche per i casi che non sono ancora stati diagnosticati. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 8 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 9 Campione: • raccolta finita di elementi estratti da una popolazione • scopo dell’estrazione è quello di ottenere informazioni sulla popolazione • pertanto il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’) • per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 10 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 11 Secondo quali modalità possiamo estrarre un campione? I principali metodi di campionamento: • Campionamento casuale semplice • Campionamento sistematico • Campionamento stratificato • Campionamento a grappoli Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 12 In un campionamento casuale semplice tutti gli individui nella popolazione hanno uguale probabilità di essere inclusi nel campione. - individui nella popolazione = "unità di campionamento" - popolazione oggetto dello studio = "popolazione bersaglio" - popolazione effettivamente campionabile (al netto dell'effetto di fattori di selezione) = "popolazione studio " o base di campionamento - distorsioni di selezione = errori che rendono non uniforme la probabilità di essere inclusi nel campione. (es un campionamento condotto tramite l'uso dell'elenco telefonico esclude le famiglie senza telefono, pertanto la popolazione bersaglio e la base di campionamento potrebbero non corrispondere, causando così una distorsione di selezione) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 13 Nella pratica del campionamento debbo disporre di una ‘base di campionamento’. La base di campionamento corrisponde all’elenco dei soggetti da cui materialmente estraggo il campione. Per effettuare un vero campionamento ho bisogno che la base di campionamento corrisponda ad un elenco (lista) di individui identificabili. Se la base di campionamento e la popolazione bersaglio discordano, si verifica una distorsione di selezione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 14 Assunzioni per la validità del campionamento I metodi della statistica campionaria assumono che: - non vi siano errori sistematici (bias) di selezione - la base di campionamento corrisponda alla popolazione ‘bersaglio’. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 15 Il campionamento viene di solito condotto predefinendo la dimensione del campione. Si calcola quindi la frazione di campionamento, cioè la probabilità che un dato individuo sia estratto ed entri a far parte del campione. Data una popolazione con N individui ed un campione di C individui (dove N è molto grande rispetto a C) la probabilità per l’i-esimo individuo è C/N. dimensione del campione Frazione di campionamento ψ = dimensione della popolazione Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 16 Nel campionamento casuale semplice la stessa frazione di campionamento viene applicata a tutta la popolazione. Se la frazione di campionamento è piccola (C << N), Ψ si mantiene praticamente costante anche se i soggetti campionati escono dalla popolazione. Altrimenti Ψ varia nel corso del campionamento ed occorre tenerne conto applicando una correzione (correzione per la popolazione finita) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 17 Campionamento stratificato N. nella N. nel Frazione di popolazione campione campionamento N1 C1 ψ 1 Strato 2 Femmine N2 C2 ψ 2 Strato 1 Maschi Obiettivi : 1.tutti gli strati siano rappresentati nel campione con numerosità sufficiente 2. controllo della proporzione dei soggetti nei diversi strati, non lasciandola esposta alla variabilità casuale Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 18 Esempio: in uno studio epidemiologico sul tumore polmonare voglio che maschi e femmine siano rappresentati con la stessa numerosità. La frequenza relativa nella popolazione dei casi di tumore polmonare è di 10 uomini : 1 donna. Con un campione casuale semplice mi aspetto di trovare solo il 10% di donne. Procedo quindi ad un campionamento stratificato Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 19 Base di campionamento: i casi di tumore polmonare incidenti (cioè di nuova diagnosi) nella popolazione di Torino negli anni 1993-98 Debbo includere nel campione 100 uomini e 100 donne. N. nella N. Frazione di popolazione campione campionamento Strato Maschi 3355 100 1 0,0298 Strato 2 100 / 3355 = Femmine 847 100 100 / 847 = 0,1181 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 20 Il campionamento ‘a grappolo’ (anche detto a cluster). Esempio: voglio verificare l’efficacia di due diversi trattamenti per la disassuefazione dal fumo. Entrambi i trattamenti devono essere proposti dal medico di base. Procedo in due fasi: 1. campione dei medici (10 medici tra tutti i medici di base di Novara) 2. campione degli assistiti dei medici campionati nella fase 1 (20 assistiti per ciascun medico) Totale del campione : 10 medici x 20 assistiti = 200 assistiti. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 21 Schema di campionamento a grappolo campione Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 22 Altri schemi di campionamento: • Campionamento sistematico; • Campionamento non probabilistico (selezione per quote). Metodi sconsigliati • Campionamento sistematico ("a passo fisso", es. una osservazione ogni 10) Æ potrebbe nascondere distorsioni di selezione. • Campionamento non probabilistico o selezione per quote Æ non è un campionamento Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 23 Un campione casuale corrisponde alla popolazione? Definiamo statistica campionaria la statistica calcolata per le osservazioni che compongono il campione. In generale, le statistiche campionarie sono definite in modo tale da essere degli stimatori non distorti della statistica calcolata per la popolazione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 24 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 25 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 26 Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione e proprietà delle statistiche campionarie. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 27 Il campione casuale corrisponde alla popolazione? Esaminiamo il caso della media campionaria (la media calcolata per le osservazioni che compongono il campione). Un campione casuale ha le seguenti proprietà: - Il valore atteso della media calcolata sul campione (media campionaria) è la media della popolazione, in altre parole la media campionaria è una stima non distorta della media della popolazione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 28 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 29 E per quanto riguarda la varianza campionaria? Il valore atteso della varianza campionaria (calcolata con n-1) è la varianza della popolazione, in altre parole la varianza campionaria (calcolata con n-1) è una stima non distorta della varianza della popolazione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 30 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 31 La stima fornita dal singolo campione è comunque affetta da incertezza, a causa dell'errore casuale del campionamento. In generale quindi possiamo dire che la precisione della stima fornita da un campione (stima campionaria) sarà maggiore con: - inferiore variabilità nella popolazione - maggiore dimensione del campione Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 32 La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo di ripetere un campionamento per molte volte. Per ciascuno dei campioni calcoliamo la media (la ‘media campionaria’). Calcoliamo media e deviazione standard delle medie campionarie. Esaminiamo alcuni esempi di risultati con strumenti grafici: Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 33 Vediamo alcuni esempi relativi alle proprietà dei campioni n=9 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 34 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 35 Osserviamo che: • La media delle medie campionarie corrisponde alla media della popolazione (µ) • La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione. Campioni più grandi daranno una distribuzione con variabilità inferiore. • La forma della distribuzione di frequenza delle medie campionarie è gaussiana, anche se la popolazione di partenza non lo è. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 36 Variabilità della distribuzione delle medie campionarie • La deviazione standard della distribuzione delle medie campionarie viene indicata anche come ‘Errore Standard della Media’ (abbreviato in Errore Standard o ES). σ = dev. standard della popolazione ES = σ n ES dipende dalla variabilità nella popolazione e dalla dimensione campionaria Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 37 variabilità nella popolazione E .S . = σ n dimensione del campione Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 38 Conclusione / riepilogo • Il valore atteso della media campionaria è la media della popolazione. • Il valore atteso della varianza campionaria calcolata con il denominatore (n-1)è la varianza della popolazione. • La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione. Campioni più grandi avranno distribuzione con variabilità inferiore. La deviazione standard delle medie campionarie viene indicata anche come Errore Standard • La forma della distribuzione di frequenza delle medie campionarie è normale. Questo accade anche se la distribuzione nella popolazione non è normale, purchè il campione sia abbastanza numeroso. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 39 Vediamo alcuni esempi relativi alle proprietà dei campioni n=9 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 40 Con campioni più grandi la distribuzione delle medie campionarie ha variabilità inferiore. n = 40 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 41 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 42 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 43 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 44 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 45 Applicazione: Estrazione di piccoli campioni: tavola dei numeri casuali Procedura per il campionamento con tavola dei numeri casuali: 1. Le osservazioni che compongono la ‘popolazione’ (base di campionamento) vengono numerate in ordine progressivo da 1 a N; 2. Viene scelto un punto di partenza sulla tavola dei numeri casuali (es. a occhi chiusi si segna un punto); 3. Viene letto (‘estratto’), a partire dal punto così individuato, un numero di M cifre, dove M è pari al numero di cifre del numero totale di osservazioni nella ‘popolazione’ (es. se la popolazione è di 300 persone useremo numeri di 3 cifre, se di 4500 persone useremo numeri di 4 cifre); Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 46 4. Viene inclusa nel campione l’osservazione con numero progressivo pari al numero estratto; se il numero estratto è superiore a N si estrae un altro numero. 5. Si ripete la procedura leggendo i numeri successivi dalla tavola, fino a che non è stato estratto il numero richiesto di osservazioni. Le tavole dei numeri casuali possono essere prodotte con appositi programmi di calcolo. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 47 Tavola dei numeri 33369 22784 33875 27255 03112 68048 06338 95707 49455 78309 42155 90346 99759 97934 03254 67176 10433 87681 65248 76928 89837 49006 76166 02500 68103 85644 25796 63802 53305 04059 79742 99960 26124 57720 54907 74245 79237 41051 12398 24228 57850 98341 55660 49424 43933 19861 22439 01143 94669 32527 87760 89985 34649 53377 48789 72702 67008 49480 02888 22917 24743 85641 42291 64847 23589 33594 03430 36514 70661 casuali (esemplificativa) 41853 96864 47971 95778 08005 77412 56742 76219 31224 14474 85540 13965 75668 33709 06295 49145 20503 00241 29991 19345 41554 21590 57210 07123 68756 87210 64933 68347 92077 88792 08846 56629 32437 67688 17835 63782 59322 00390 98163 63614 91448 30805 42664 51326 74436 59764 90724 76359 55535 86055 46870 20689 25098 06410 27973 84488 04270 73048 99066 06519 66696 85112 14981 17287 21146 16681 37812 47509 18925 86597 05963 20149 05200 50960 08358 94432 63532 56945 58842 40528 94104 25509 76415 05216 24500 31730 94086 31638 35588 17093 21668 82146 01413 79372 14942 63258 11111 33411 13775 85533 36778 10893 05437 19824 08378 89748 10957 32718 51763 68813 31756 05050 40475 71065 74305 13691 75336 33055 61564 63083 91810 91940 78605 62322 29585 46998 48641 62211 18675 67511 92572 17838 36147 68705 80985 42976 10425 77737 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 63400 86303 62019 99081 96235 58573 90593 49403 12241 46302 77311 55943 05821 49091 01933 20741 70817 91279 38683 00143 86795 77035 29833 48 Esempio: estrazione di un campione di 10 soggetti da una base di 120. La base è elencata nella tabella allegata Dovrò scegliere numeri di 3 cifre. Decido che procederò progressivamente per colonna, dall’alto in basso. In modo casuale individuo il punto sottolineato come punto di partenza. I successivi valori inferiori a 120 sono annotati in grassetto. I valori 040, 011, 026, 045, 088 corrispondono ai soggetti da campionare. Tali soggetti sono evidenziati nella tabella successiva con indicati i valori di emoglobina. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 49 Tavola dei numeri casuali 33369 22784 33875 41853 96864 47971 95778 08005 13691 63400 27255 03112 68048 77412 56742 76219 31224 14474 75336 86303 06338 95707 49455 85540 13965 75668 33709 06295 33055 62019 78309 42155 90346 49145 20503 00241 29991 19345 61564 99081 99759 97934 03254 41554 21590 57210 07123 68756 63083 96235 67176 10433 87681 87210 64933 68347 92077 88792 91810 58573 65248 76928 89837 08846 56629 32437 67688 17835 91940 90593 49006 76166 12500 63782 59322 00390 98163 63614 78605 49403 68103 85644 25796 91448 30805 42664 51326 74436 62322 12241 63802 53305 04059 59764 90724 76359 55535 86055 29585 46302 79742 99960 26124 46870 20689 25098 06410 27973 46998 77311 57720 54907 74245 84488 04270 73048 99066 06519 48641 55943 79237 41051 12398 66696 85112 14981 17287 21146 62211 05821 24228 57850 98341 16681 37812 47509 18925 86597 18675 49091 55660 49424 43933 05963 20149 05200 50960 08358 67511 01933 19861 22439 01143 94432 63532 56945 58842 40528 92572 20741 94669 32527 87760 94104 25509 76415 05216 24500 17838 70817 89985 34649 53377 31730 94086 31638 35588 17093 36147 91279 48789 72702 67008 21668 82146 01413 79372 14942 68705 38683 49480 02888 22917 63258 11111 33411 13775 85533 80985 00143 24743 85641 42291 36778 10893 05437 19824 08378 42976 86795 64847 23589 33594 89748 10957 32718 51763 68813 10425 77035 03430 36514 70661 31756 05050 40475 71065 74305 77737 29833 75385 23135 69283 16727 65703 02780 23804 68981 11584 49648 64545 63962 51199 01283 97825 28393 66071 82123 57660 19916 98208 33362 69117 21161 23944 64238 94059 14970 05617 12805 32054 07203 26193 21394 84195 24214 84411 40803 98537 38507 17344 15148 48565 37822 58481 89051 82970 42120 31433 22193 50394 05450 64035 43057 40668 41553 60431 18390 64851 68625 78953 17763 97731 42023 83425 21144 61224 08446 59292 20144 00944 74988 12680 67331 38098 07617 07062 68488 10741 47585 09145 60399 34502 96525 01889 26599 00459 84522 16394 04293 95169 67557 02640 34346 11248 38069 92350 56729 39454 29692 70508Corsi 54005 04520 68481di area 49490 54518 61250 57413 21963 di laurea triennale tecnica - Corso di Statistica Medica58693 - Campionamento 50 Numero Hb progressivo 1 129 2 133 3 133 4 134 5 136 6 136 7 136 8 136 9 137 10 137 11 137 12 137 13 138 14 138 15 138 16 138 17 139 18 139 19 139 20 139 21 139 22 140 23 140 24 141 25 141 26 141 27 141 28 141 29 141 30 141 31 141 32 141 33 141 34 142 35 142 36 142 37 142 38 142 39 142 40 142triennale Corsi di laurea di area Numero Hb progressivo 41 142 42 142 43 142 44 142 45 142 46 142 47 143 48 143 49 143 50 143 51 143 52 143 53 143 54 143 55 143 56 143 57 144 58 144 59 144 60 144 61 144 62 144 63 144 64 144 65 145 66 145 67 145 68 145 69 145 70 145 71 145 72 145 73 146 74 146 75 146 76 146 77 147 78 147 79 147 80 tecnica - Corso 147 di Statistica Numero progressivo 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 Hb 147 147 147 148 148 148 148 148 149 149 149 149 149 149 149 149 149 149 149 150 150 150 150 150 150 150 150 150 151 151 151 151 151 151 151 151 151 151 151 Medica - Campionamento 51 • I valori di emoglobina dei soggetti inseriti nel campione sono: • 137, 141, 142, 142, 148 • La media campionaria è: 142,0 • La deviazione standard campionaria è: 3,9 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 52 Esercizi consigliati da: Fowler et al, ed Edises. • Cap 2 (p 209) es 5 • Cap 2 (p 209) es 6 • Cap 2 (p 209) es 8 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 53