Università del Piemonte Orientale Corso di Laurea in Biotecnologia Corso di Statistica Medica Campionamento e distribuzione campionaria della media Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 1 Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione e proprietà delle statistiche campionarie. - Teorema del limite centrale. - Applicazioni del teorema del limite centrale. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 2 Le statistiche campionarie fanno parte della vita di tutti i giorni: - Il docente interroga un campione di allievi per verificare la comprensione della classe. - Il cuoco assaggia un campione di pasta per valutare la cottura. - Il farmacologo valuta la risposta ad un farmaco su un campione di pazienti. - La ditta di sondaggi prevede l’esito delle elezioni interrogando un campione della popolazione. - ecc. ecc. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 3 I risultati campionari non interessano di per se ma solo perchè consentono di trarre conclusioni generali valide per tutta la popolazione da cui il campione è stato estratto. Questo processo si chiama inferenza statistica. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 4 Campionamento ed inferenza sono due processi simmetrici. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 5 Il percorso dell’inferenza statistica si svolge secondo le seguenti fasi: 1. estrazione di un campione della popolazione, 2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione, 3. stima dei parametri nella popolazione in base ai risultati forniti dal campione. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 6 Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione e proprietà delle statistiche campionarie. - Teorema del limite centrale. - Applicazioni del teorema del limite centrale. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 7 Popolazione: • ‘insieme di tutti i valori realizzati o possibili di una data variabile’ • insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno. • può essere finita (comunque molto grande) o infinita trattiamo come popolazioni anche insiemi che non sono enumerabili e che si realizzeranno anche nel futuro: es. quando ci riferiamo ai malati di una certa malattia vogliamo formulare una previsione valida anche per i casi che non sono ancora stati diagnosticati. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 8 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 9 Campione: • raccolta finita di elementi estratti da una popolazione • scopo dell’estrazione è quello di ottenere informazioni sulla popolazione • pertanto il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’) • per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 10 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 11 Secondo quali modalità possiamo estrarre un campione? (rif. capitolo 22) - Campionamento casuale semplice - Campionamento stratificato - Campionamento a grappolo (a cluster) Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 12 In un campionamento casuale semplice tutti gli individui nella popolazione hanno uguale probabilità di essere inclusi nel campione. - individui nella popolazione = "unità di campionamento" - popolazione oggetto dello studio = "popolazione bersaglio" - popolazione effettivamente campionabile (al netto dell'effetto di fattori di selezione) = base di campionamento - distorsioni di selezione= errori che rendono non uniforme la probabilità di essere inclusi nel campione. (es un campionamento condotto con l'uso dell'elenco telefonico esclude le famiglie senza telefono, pertanto la popolazione bersaglio e la base di campionamento potrebbero non corrispondere, causando una distorsione di selezione) Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 13 Nella pratica del campionamento debbo disporre di una ‘base di campionamento’. La base di campionamento corrisponde all’elenco dei soggetti da cui materialmente estraggo il campione. La base di campionamento deve corrispondere ad un elenco (lista) di individui identificabili. Se la base di campionamento e la popolazione bersaglio discordano, si verifica una distorsione di selezione. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 14 Assunzioni per la validità del campionamento I metodi della statistica campionaria assumono che: - non vi siano errori sistematici (bias) di selezione - la base di campionamento corrisponda alla popolazione ‘bersaglio’. (approfondimento individuale, pp 380-382 del testo) Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 15 Il campionamento viene di solito condotto predefinendo la dimensione del campione. Si calcola quindi la frazione di campionamento, cioè la probabilità che un dato individuo sia estratto ed inserito nel campione. Data una popolazione con N individui ed un campione di c individui (dove N è molto grande rispetto a c) la probabilità per l’i-esimo individuo è c/N. Frazione di campionamento ψ = dimensione del campione dimensione della popolazione Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 16 Nel campionamento casuale semplice la stessa frazione di campionamento viene applicata a tutta la popolazione. Se la frazione di campionamento è piccola (c << N), Ψ si mantiene praticamente costante anche se i soggetti campionati escono dalla popolazione. Altrimenti Ψ varia nel corso del campionamento ed occorre tenerne conto applicando una correzione (Correzione per la popolazione finita) Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 17 Se Ψ > 0.05 ES (della media campionaria) = ES = σ c * N −c N −1 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 18 Altri schemi di campionamento. (studio individuale, pp 380-382 del testo) - Campionamento sistematico; - Campionamento stratificato; - Campionamento a cluster ( grappolo); - Campionamento non probabilistico. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 19 Metodi sconsigliati - Il campionamento sistematico ("a passo fisso", es. una osservazione ogni 10) -> potrebbe nascondere distorsioni di selezione. - Campionamento non probabilistico (Metodi non formalizzati, a casaccio, es. alcuni dei pazienti in ambulatorio, senza criterio preciso) -> non è un campionamento Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 20 Campionamento stratificato N. nella N. nel Frazione di popolazione campione campionamento N1 C1 ψ 1 Strato 2 Femmine N2 C2 ψ 2 Strato 1 Maschi • Obiettivi : 1.voglio che tutti gli strati siano rappresentati nel campione con numerosità sufficiente 2. voglio controllare la proporzione dei soggetti nei diversi strati, non lasciandola esposta alla variabilità casuale Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 21 Esempio: in uno studio epidemiologico su tumore polmonare voglio maschi e femmine siano rappresentati con la stessa numerosità. La frequenza relativa nella popolazione dei casi di tumore polmonare è di 10 uomini : 1 donna. Con un campione casuale semplice mi aspetto di trovare solo il 10% di donne. Procedo quindi ad un campionamento stratificato Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 22 Base di campionamento: i casi di tumore polmonare incidenti (cioè di nuova diagnosi) nella popolazione di Torino negli anni 1993-98 Debbo includere nel campione 100 uomini e 100 donne. N. nella N. Frazione di campionamento popolazione campione Strato 1 Maschi 3355 100 100 / 3355 = 0,0298 Strato 2 Femmine 847 100 100 / 847 = 0,1181 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 23 Il campionamento ‘a grappolo’ (anche detto a cluster). Esempio: voglio verificare l’efficacia di due diversi trattamenti per la disassuefazione dal fumo. Entrambi i trattamenti devono essere proposto dal medico di base. Procedo in due fasi: 1. campione dei medici (10 medici tra tutti i medici di base di Novara) 2. campione degli assistiti dei medici campionati nella fase 1 (20 assistiti per ciascun medico) Totale del campione : 10 medici x 20 assistiti = 200 assistiti. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 24 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 25 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 26 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 27 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 28 Schema di campionamento a grappolo campione Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 29 Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione e proprietà delle statistiche campionarie. - Teorema del limite centrale. - Applicazioni del teorema del limite centrale. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 30 Un campione casuale corrisponde alla popolazione? Definiamo statistica campionaria la statistica calcolata per le osservazioni che compongono il campione. In generale, le statistiche campionarie sono definite in modo tale da essere degli stimatori non distorti della statistica calcolata per la popolazione. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 31 Il campione casuale corrisponde alla popolazione? Esaminiamo il caso della media campionaria (la media calcolata per le osservazioni che compongono il campione). Un campione casuale ha le seguenti proprietà: - Il valore atteso della media calcolata sul campione (media campionaria) è la media della popolazione, in altre parole la media campionaria è una stima non distorta della media della popolazione. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 32 n=9 200 campioni da Norm (0;1) Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 33 E per quanto riguarda la varianza campionaria? Il valore atteso della varianza campionaria (calcolata con n-1) è la varianza della popolazione, in altre parole la varianza campionaria (calcolata con n-1) è una stima non distorta della varianza della popolazione. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 34 La stima fornita dal singolo campione è comunque affetta da incertezza, a causa dell'errore casuale del campionamento. In generale quindi possiamo dire che la precisione della stima fornita da un campione (stima campionaria) sarà maggiore con: - inferiore variabilità nella popolazione; - maggiore dimensione del campione Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 35 Vediamo alcuni esempi relativi alle proprietà dei campioni n=9 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 36 Con campioni più grandi la distribuzione delle medie campionarie ha variabilità inferiore. n = 40 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 37 Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione e proprietà delle statistiche campionarie. - Teorema del limite centrale. - Applicazioni del teorema del limite centrale. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 38 La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo di ripetere un campionamento per molte volte. Per ciascuno dei campioni calcoliamo la media (la ‘media campionaria’). Calcoliamo media e deviazione standard delle medie campionarie. Esaminiamo alcuni esempi di risultati con strumenti grafici: Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 39 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 40 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 41 La forma della distribuzione di frequenza delle medie campionarie è gaussiana. - Questo vale anche quando la popolazione da cui è stato estratto il campione ha una distribuzione non gaussiana. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 42 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 43 Variabilità della distribuzione delle medie campionarie - La deviazione standard della distribuzione delle medie campionarie è indicata come ‘Errore Standard della Media’ (abbreviato in Errore Standard o ES). Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 44 ES dipende dalla variabilità nella popolazione e dalla dimensione campionaria E .S . = σ n Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 45 variabilità nella popolazione E .S . = σ n dimensione del campione Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 46 La distribuzione delle medie campionarie è una distribuzione Gaussiana con media µ e deviazione standard σ /√n Applicando le proprietà della distribuzione Gaussiana posso calcolare la probabilità di estrarre un campione di dimensione n con media campionaria >= X dati media µ e deviazione standard σ della popolazione. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 47 La formula è analoga a quella studiata nella precedente lezione sulla distribuzione gaussiana. Z= x−µ σ n dove: x: media campionaria µ: media nella popolazione σ /√n: errore standard Z: deviata normale standardizzata. Il valore di probabilità corrispondente al valore Z si legge dalla tabella della distribuzione normale standard. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 48 Esempio: Studio della pressione sistolica in un gruppo di 15 pazienti. I pazienti appartengono ad una popolazione con media della pressione sistolica 145 mmHg La deviazione standard della misura della pressione della popolazione è pari a 5,92 mmHg; n = 15 Media campionaria 148 mmHg Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 49 Il calcolo del test Z = ( X - µ)/ (σ/√n). Z = (148 - 145) / (5,92/√15) = = 1,96 Conclusione = ? Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 50 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 51 Distribuzione normale standardizzata Area sottesa alla curva tra Z e ∞ Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,50000 0,49601 0,49202 0,48803 0,48405 0,48006 0,47608 0,47210 0,46812 0,46414 0,1 0,46017 0,45620 0,45224 0,44828 0,44433 0,44038 0,43644 0,43251 0,42858 0,42465 0,2 0,42074 0,41683 0,41294 0,40905 0,40517 0,40129 0,39743 0,39358 0,38974 0,38591 0,3 0,38209 0,37828 0,37448 0,37070 0,36693 0,36317 0,35942 0,35569 0,35197 0,34827 0,4 0,34458 0,34090 0,33724 0,33360 0,32997 0,32636 0,32276 0,31918 0,31561 0,31207 0,5 0,30854 0,30503 0,30153 0,29806 0,29460 0,29116 0,28774 0,28434 0,28096 0,27760 0,6 0,27425 0,27093 0,26763 0,26435 0,26109 0,25785 0,25463 0,25143 0,24825 0,24510 0,7 0,24196 0,23885 0,23576 0,23270 0,22965 0,22663 0,22363 0,22065 0,21770 0,21476 0,8 0,21186 0,20897 0,20611 0,20327 0,20045 0,19766 0,19489 0,19215 0,18943 0,18673 0,9 0,18406 0,18141 0,17879 0,17619 0,17361 0,17106 0,16853 0,16602 0,16354 0,16109 1,0 0,15866 0,15625 0,15386 0,15151 0,14917 0,14686 0,14457 0,14231 0,14007 0,13786 1,1 0,13567 0,13350 0,13136 0,12924 0,12714 0,12507 0,12302 0,12100 0,11900 0,11702 1,2 0,11507 0,11314 0,11123 0,10935 0,10749 0,10565 0,10383 0,10204 0,10027 0,09853 1,3 0,09680 0,09510 0,09342 0,09176 0,09012 0,08851 0,08692 0,08534 0,08379 0,08226 1,4 0,08076 0,07927 0,07780 0,07636 0,07493 0,07353 0,07215 0,07078 0,06944 0,06811 1,5 0,06681 0,06552 0,06426 0,06301 0,06178 0,06057 0,05938 0,05821 0,05705 0,05592 1,6 0,05480 0,05370 0,05262 0,05155 0,05050 0,04947 0,04846 0,04746 0,04648 0,04551 1,7 0,04457 0,04363 0,04272 0,04182 0,04093 0,04006 0,03920 0,03836 0,03754 0,03673 1,8 0,03593 0,03515 0,03438 0,03362 0,03288 0,03216 0,03144 0,03074 0,03005 0,02938 1,9 0,02872 0,02807 0,02743 0,02680 0,02619 0,02559 0,02500 0,02442 0,02385 0,02330 2,0 0,02275 0,02222 0,02169 0,02118 0,02068 0,02018 0,01970 0,01923 0,01876 0,01831 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 52 2,1 0,01786 0,01743 0,01700 0,01659 0,01618 0,01578 0,01539 0,01500 0,01463 0,01426 2,2 0,01390 0,01355 0,01321 0,01287 0,01255 0,01222 0,01191 0,01160 0,01130 0,01101 2,3 0,01072 0,01044 0,01017 0,00990 0,00964 0,00939 0,00914 0,00889 0,00866 0,00842 2,4 0,00820 0,00798 0,00776 0,00755 0,00734 0,00714 0,00695 0,00676 0,00657 0,00639 2,5 0,00621 0,00604 0,00587 0,00570 0,00554 0,00539 0,00523 0,00508 0,00494 0,00480 2,6 0,00466 0,00453 0,00440 0,00427 0,00415 0,00402 0,00391 0,00379 0,00368 0,00357 2,7 0,00347 0,00336 0,00326 0,00317 0,00307 0,00298 0,00289 0,00280 0,00272 0,00264 2,8 0,00256 0,00248 0,00240 0,00233 0,00226 0,00219 0,00212 0,00205 0,00199 0,00193 2,9 0,00187 0,00181 0,00175 0,00169 0,00164 0,00159 0,00154 0,00149 0,00144 0,00139 3,0 0,00135 0,00131 0,00126 0,00122 0,00118 0,00114 0,00111 0,00107 0,00104 0,00100 3,1 0,00097 0,00094 0,00090 0,00087 0,00084 0,00082 0,00079 0,00076 0,00074 0,00071 3,2 0,00069 0,00066 0,00064 0,00062 0,00060 0,00058 0,00056 0,00054 0,00052 0,00050 3,3 0,00048 0,00047 0,00045 0,00043 0,00042 0,00040 0,00039 0,00038 0,00036 0,00035 3,4 0,00034 0,00032 0,00031 0,00030 0,00029 0,00028 0,00027 0,00026 0,00025 0,00024 3,5 0,00023 0,00022 0,00022 0,00021 0,00020 0,00019 0,00019 0,00018 0,00017 0,00017 3,6 0,00016 0,00015 0,00015 0,00014 0,00014 0,00013 0,00013 0,00012 0,00012 0,00011 3,7 0,00011 0,00010 0,00010 0,00010 0,00009 0,00009 0,00008 0,00008 0,00008 0,00008 3,8 0,00007 0,00007 0,00007 0,00006 0,00006 0,00006 0,00006 0,00005 0,00005 0,00005 3,9 0,00005 0,00005 0,00004 0,00004 0,00004 0,00004 0,00004 0,00004 0,00003 0,00003 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 53 Conclusione / riepilogo • Il valore atteso della media campionaria è la media della popolazione. • Il valore atteso della varianza campionaria calcolata con il denominatore (n-1) è la varianza della popolazione. • La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione. Campioni più grandi avranno distribuzione con variabilità inferiore. La deviazione standard delle medie campionarie viene indicata anche come Errore Standard • La forma della distribuzione di frequenza delle medie campionarie è normale. Questo accade anche se la distribuzione nella popolazione non è normale, purchè il campione sia abbastanza numeroso. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 54 La dimostrazione di questi teoremi va oltre i limiti del corso. In appendice trovate un esempio ed alcuni grafici corrispondenti ai risultati di campionamenti ripetuti a partire da una distribuzione uniforme, per confermare come anche in questo caso la distribuzione delle medie campionarie segue le regole precedenti. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 55 Possiamo applicare queste regole per risolvere due problemi importanti e ricorrenti - Qual'è il valore della media campionaria che delimita una certa proporzione (α) della distribuzione di probabilità della media campionaria? - Calcolo dell'intervallo di confidenza - Calcolo della dimensione minima di un campione Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 56 Qual'è il valore della media campionaria che delimita una certa proporzione (α) della distribuzione campionaria della media? Zα = x−µ ES Risolvo per x l'equazione x = µ + ES ∗ Z α Zα è il valore della distribuzione normale standard corrispondente al valore di probabilità α e viene letto dalle tavole della distribuzione normale standard partendo da -∞. Ad esempio, il valore Z 0,10 (corrispondente alla probabilità 0,10 con riferimento alla sola coda inferiore) è - 1,28 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 57 Esempio: Qual'è il valore medio di altezza che delimita il 95% della distribuzione di probabilità delle medie campionarie (in una sola coda della distribuzione) di campioni di 25 soggetti estratti da una popolazione con µ=170 cm e σ=15,0 cm? ES=15,0 / 5 = 3,0 Z 0 , 95 = 1,64 x = 170 + 3,0 ∗1,64 = 170 + 4,92 = 174,92 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 58 Pertanto, un campione di 25 soggetti con media campionaria > 174,92 cm potrà essere estratto dalla popolazione data solo con probabilità inferiore a 5% Distribuzione di probabilità delle medie campionarie. n=25 popolazione Norm( 170; 15,0) Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 59 Esempio: Quali sono i valori delle medie campionarie di altezza che, in modo simmetrico rispetto alla media della popolazione, delimitano il 95% della distribuzione campionaria delle medie, data una popolazione con µ=170 cm e σ=15,0 cm e campioni di 25 soggetti? Corrisponde a chiedere quali sono i valori di altezza che delimitano il 2,5% ed il 97,5% della distribuzione campionaria delle medie. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 60 Individuiamo sulle tavole i valori Z di interesse: p(inf) = 0,50 - 0,95/2 = 0,025 Z 0 , 025 = -1,96 p(sup)= 0,50 + 0,95/2 = 0,975 Z 0 , 975 = +1,96 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 61 ES=15,0 / 5 = 3,0 Z 0 , 025 = -1,96 Z 0 , 975 = +1,96 limite inferiore x = µ + Z 0.025 * ES = 170 − 1,96 * 3.0 = 170 − 5,88 = 164,12 limite superiore x = µ + Z 0.975 * ES = 170 + 1,96 * 3.0 = 170 + 5,88 = 175,88 - Pertanto avremo il 95% di probabilità che un campione casuale di 25 soggetti, estratto da una popolazione con µ=170 cm e σ=15,0 cm abbia media campionaria compresa tra 164,12 e 175,88. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 62 Distribuzione di probabilità delle medie campionarie. n=25 popolazione Norm( 170; 15,0) Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 63 Quale deve essere la dimensione minima di un campione? Prima di estrarre un campione voglio sapere quale deve essere la sua numerosità. Voglio cioè sapere quanto deve essere grande un campione per estrarre con probabilità nota campioni compresi entro un dato intervallo intorno alla media della popolazione. Fissiamo ad esempio la probabilità al 90%. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 64 La soluzione del problema corrisponde a trovare i valori di n che soddisfano la seguente equazione p[(µ-∆)<= x <=(µ+∆)] = 0,90 Attraverso alcuni passaggi algebrici l'equazione diventa: − ∆ n ∆ n p <= Z <= = 0,90 σ σ Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 65 I passaggi algebrici (per chi fosse interessato) p[(-∆)<= x -µ<=(+∆)] = 0,90 p[(-∆)<= x -µ<=(+∆)] = 0,90 ( ) (− ∆ ) x−µ ∆ p <= <= = 0,90 ES ES ES ( ) ( − ∆) x−µ ∆ <= <= p = 0,90 σ σ σ n n n n (− ∆ ) n∆ p <= Z <= = 0,90 σ σ Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 66 La soluzione dell'equazione corrisponde alla soluzione delle due equazioni: Z α 2 = n (− ∆ ) σ n∆ = Z α 2 σ e Se l'intervallo intorno alla media è simmetrico basta risolverne una. α ∗σ Z n= 2 ∆ Z α 2 ∗σ n= ∆ 2 Attenzione: per risolvere l'equazione debbo conoscere σ ma non µ. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 67 I valori noti nell'equazione: Zα 2 è il valore Z corrispondente all'errore di primo tipo che siamo disposti ad accettare, distribuito in modo simmetrico nelle due code della distribuzione gaussiana. (In questa lezione non abbiamo ancora parlato degli errori statistici di primo e di secondo tipo) . σ = deviazione standard, deve essere nota o ipotizzata ∆ = corrisponde alla precisione desiderata della stima campionaria Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 68 Ad esempio, intendo condurre uno studio campionario per stimare l'altezza di una popolazione. Quanto deve essere grande il mio campione perchè con probabilità del 95% il suo valore sia compreso intorno alla media della popolazione +- 5 cm? La deviazione standard è 25 cm. Z α 2 ∗σ n= ∆ 2 I valori noti nell'equazione: Zα 2 = Z 0 , 05 2 = 1,96 ; σ = 25 ; ∆=5 2 1,96∗25 n= =96,04 5 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 69 Applicazione: Metodo consigliato per l’estrazione di piccoli campioni da gruppi non troppo numerosi: tavola dei numeri casuali Procedura per il campionamento con tavola dei numeri casuali: 1. Le osservazioni che compongono la ‘popolazione’ (anche detta base di campionamento) vengono numerate in ordine progressivo da 1 a N; 2. Viene scelto un punto di partenza sulla tavola dei numeri casuali (es. a occhi chiusi si segna un punto); 3. Viene letto (‘estratto’), a partire dal punto così individuato, un numero di M cifre, dove M è pari al numero di cifre del numero totale di osservazioni nella ‘popolazione’ (es. se la popolazione è di 300 persone useremo numeri di 3 cifre, se di 4500 persone useremo numeri di 4 cifre); Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 70 4. Viene inclusa nel campione l’osservazione con numero progressivo pari al numero estratto; se il numero estratto è superiore a N si estrae un altro numero. 5. Si ripete la procedura leggendo i numeri successivi dalla tavola, fino a che non è stato estratto il numero richiesto di osservazioni. Le tavole dei numeri casuali possono essere prodotte con appositi programmi di calcolo. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 71 Tavola dei numeri casuali (esemplificativa) 33369 22784 33875 41853 96864 47971 95778 08005 13691 63400 27255 03112 68048 77412 56742 76219 31224 14474 75336 86303 06338 95707 49455 85540 13965 75668 33709 06295 33055 62019 78309 42155 90346 49145 20503 00241 29991 19345 61564 99081 99759 97934 03254 41554 21590 57210 07123 68756 63083 96235 67176 10433 87681 87210 64933 68347 92077 88792 91810 58573 65248 76928 89837 08846 56629 32437 67688 17835 91940 90593 49006 76166 02500 63782 59322 00390 98163 63614 78605 49403 68103 85644 25796 91448 30805 42664 51326 74436 62322 12241 63802 53305 04059 59764 90724 76359 55535 86055 29585 46302 79742 99960 26124 46870 20689 25098 06410 27973 46998 77311 57720 54907 74245 84488 04270 73048 99066 06519 48641 55943 79237 41051 12398 66696 85112 14981 17287 21146 62211 05821 24228 57850 98341 16681 37812 47509 18925 86597 18675 49091 55660 49424 43933 05963 20149 05200 50960 08358 67511 01933 19861 22439 01143 94432 63532 56945 58842 40528 92572 20741 94669 32527 87760 94104 25509 76415 05216 24500 17838 70817 89985 34649 53377 31730 94086 31638 35588 17093 36147 91279 48789 72702 67008 21668 82146 01413 79372 14942 68705 38683 49480 02888 22917 63258 11111 33411 13775 85533 80985 00143 24743 85641 42291 36778 10893 05437 19824 08378 42976 86795 64847 23589 33594 89748 10957 32718 51763 68813 10425 77035 03430 36514 70661 31756 05050 40475 71065 74305 77737 29833 75385 23135 69283 16727 65703 02780 23804 68981 11584 49648 64545 63962 51199 01283 97825 28393 66071 82123 57660 19916 98208 33362 69117 21161 23944 64238 94059 14970 05617 12805 32054 07203 26193 21394 84195 24214 84411 40803 98537 38507 17344 15148 48565 37822 58481 89051 82970 42120 31433 22193 50394 05450 64035 43057 40668 41553 60431 18390 64851 68625 78953 17763 97731 42023 83425 21144 61224 08446 59292 20144 00944 74988 12680 67331 38098 07617 07062 68488 10741 47585 09145 60399 34502 96525 01889 26599 00459 84522 16394 04293 95169 67557 02640 34346 11248 38069 92350 56729 39454 29692 70508 54005 04520 68481 49490 54518 61250 57413 21963 58693 72 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media Esempio: estrazione di un campione di 10 soggetti da una base di 150. La base è elencata nella tabella allegata Dovrò scegliere numeri di 3 cifre. Decido che procederò progressivamente per colonna, dall’alto in basso. In modo casuale individuo il punto sottolineato come punto di partenza. I successivi valori inferiori a 150 sono annotati in grassetto. I valori 040, 011, 026, 045, 088 corrispondono ai soggetti da campionare. Tali soggetti sono evidenziati nella tabella successiva con indicati i valori di emoglobina. 73 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media Tavola dei numeri casuali 33369 22784 33875 41853 96864 47971 95778 08005 13691 63400 27255 03112 68048 77412 56742 76219 31224 14474 75336 86303 06338 95707 49455 85540 13965 75668 33709 06295 33055 62019 78309 42155 90346 49145 20503 00241 29991 19345 61564 99081 99759 97934 03254 41554 21590 57210 07123 68756 63083 96235 65248 76928 89837 08846 56629 32437 67688 17835 91940 90593 67176 10433 87681 87210 64933 68347 92077 88792 91810 58573 49006 76166 12500 63782 59322 00390 98163 63614 78605 49403 68103 85644 25796 91448 30805 42664 51326 74436 62322 12241 63802 53305 04059 59764 90724 76359 55535 86055 29585 46302 79742 99960 26124 46870 20689 25098 06410 27973 46998 77311 57720 54907 74245 84488 04270 73048 99066 06519 48641 55943 79237 41051 12398 66696 85112 14981 17287 21146 62211 05821 24228 57850 98341 16681 37812 47509 18925 86597 18675 49091 55660 49424 43933 05963 20149 05200 50960 08358 67511 01933 19861 22439 01143 94432 63532 56945 58842 40528 92572 20741 94669 32527 87760 94104 25509 76415 05216 24500 17838 70817 89985 34649 53377 31730 94086 31638 35588 17093 36147 91279 48789 72702 67008 21668 82146 01413 79372 14942 68705 38683 49480 02888 22917 63258 11111 33411 13775 85533 80985 00143 24743 85641 42291 36778 10893 05437 19824 08378 42976 86795 64847 23589 33594 89748 10957 32718 51763 68813 10425 77035 03430 36514 70661 31756 05050 40475 71065 74305 77737 29833 75385 23135 69283 16727 65703 02780 23804 68981 11584 49648 64545 63962 51199 01283 97825 28393 66071 82123 57660 19916 98208 33362 69117 21161 23944 64238 94059 14970 05617 12805 32054 07203 26193 21394 84195 24214 84411 40803 98537 38507 17344 15148 48565 37822 58481 89051 82970 42120 31433 22193 50394 05450 64035 43057 40668 41553 60431 18390 64851 68625 78953 17763 97731 42023 83425 21144 61224 08446 59292 20144 00944 74988 12680 67331 38098 07617 07062 68488 10741 47585 09145 60399 34502 96525 01889 26599 00459 84522 16394 04293 95169 67557 02640 34346 11248 38069 92350 56729 39454 29692 70508 54005 04520 68481 49490 54518 61250 57413 21963 58693 74 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media Numero progressivo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Hb 129 133 133 134 136 136 136 136 137 137 137 137 138 138 138 138 139 139 139 139 139 140 140 141 141 141 141 141 141 141 141 141 141 142 142 142 142 142 142 142 142 142 142 142 142 142 143 143 143 143 143 143 143 143 143 143 144 144 144 144 75 Numero progressivo 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 Hb 144 144 144 144 145 145 145 145 145 145 145 145 146 146 146 146 147 147 147 147 147 147 147 148 148 148 148 148 149 149 149 149 149 149 149 149 149 149 149 150 150 150 150 150 150 150 150 150 151 151 151 151 151 151 151 151 151 151 151 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media pag 161 n. 3 pag 161 n. 2 pag 161 n. 1 Esercizi dal testo crescente. La tabella allegata include i valori di 1000 misure di emoglobina espresse in decigrammi/100 ml, ordinati in modo ESERCIZIO 1 Altri esercizi 126 132 134 136 136 137 137 138 139 139 140 141 141 141 142 142 142 143 143 143 144 144 144 144 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 153 154 155 156 159 128 132 134 136 136 137 137 138 139 139 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 154 154 156 157 159 128 132 134 136 136 137 137 138 139 139 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 151 151 151 152 152 153 154 154 156 157 159 128 132 134 136 136 137 138 138 139 139 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 151 151 151 152 152 153 154 154 156 157 159 128 133 134 136 136 137 138 138 139 139 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 145 146 146 146 146 147 147 147 148 148 149 149 150 150 151 151 151 152 152 153 154 154 156 157 159 129 133 135 136 136 137 138 138 139 139 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 145 146 146 146 146 147 147 147 148 148 149 149 150 150 151 151 151 152 152 153 154 155 156 157 159 129 133 135 136 136 137 138 138 139 139 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 145 146 146 146 146 147 147 147 148 148 149 149 150 150 151 151 151 152 152 153 154 155 156 157 159 129 133 135 136 136 137 138 138 139 139 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 145 146 146 146 147 147 147 147 148 148 149 149 150 150 151 151 151 152 152 153 154 155 156 157 159 129 133 135 136 137 137 138 138 139 140 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 145 146 146 146 147 147 147 147 148 148 149 149 150 150 151 151 151 152 152 153 154 155 156 157 160 130 133 135 136 137 137 138 138 139 140 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 145 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 151 152 152 153 154 155 156 157 160 131 133 135 136 137 137 138 138 139 140 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 145 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 153 154 155 156 157 161 131 133 135 136 137 137 138 138 139 140 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 153 154 155 156 157 161 131 134 135 136 137 137 138 138 139 140 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 153 154 155 156 158 161 131 134 135 136 137 137 138 139 139 140 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 153 154 155 156 158 161 131 134 135 136 137 137 138 139 139 140 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 153 154 155 156 158 162 131 134 135 136 137 137 138 139 139 140 140 141 141 141 142 142 142 143 143 144 144 144 144 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 153 154 155 156 158 165 132 134 135 136 137 137 138 139 139 140 141 141 141 141 142 142 142 143 143 144 144 144 144 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 153 154 155 156 158 166 Estrarre un campione casuale di 10 osservazioni utilizzando la tavola dei numeri casuali. Calcolare Media e deviazione pag 162 n. 4 125 132 134 135 136 137 137 138 139 139 140 141 141 141 142 142 142 142 143 143 144 144 144 144 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 153 154 155 156 159 standard. 124 132 134 135 136 137 137 138 139 139 140 141 141 141 142 142 142 142 143 143 144 144 144 144 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 153 154 155 156 159 pag 162 n. 5 124 132 134 135 136 137 137 138 139 139 140 141 141 141 142 142 142 142 143 143 144 144 144 144 145 145 146 146 146 146 147 147 147 148 148 149 149 149 150 150 151 151 152 152 153 153 154 155 156 159 78 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 420 440 460 480 500 520 540 560 580 600 620 640 660 680 700 720 740 760 780 800 820 840 860 880 900 920 940 960 980 pag 162 n. 6 pag 162 n. 8 pag 162 n. 13 77 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 22784 03112 95707 42155 97934 10433 76928 76166 85644 53305 99960 54907 41051 57850 49424 22439 32527 34649 72702 02888 85641 23589 36514 23135 63962 33362 07203 15148 05450 17763 74988 60399 67557 54005 33875 68048 49455 90346 03254 87681 89837 02500 25796 04059 26124 74245 12398 98341 43933 01143 87760 53377 67008 22917 42291 33594 70661 69283 51199 69117 26193 48565 64035 97731 12680 34502 02640 04520 Tavola dei numeri casuali 33369 27255 06338 78309 99759 67176 65248 49006 68103 63802 79742 57720 79237 24228 55660 19861 94669 89985 48789 49480 24743 64847 03430 75385 64545 98208 32054 17344 50394 78953 00944 09145 95169 70508 41853 77412 85540 49145 41554 87210 08846 63782 91448 59764 46870 84488 66696 16681 05963 94432 94104 31730 21668 63258 36778 89748 31756 16727 01283 21161 21394 37822 43057 42023 67331 96525 34346 68481 96864 56742 13965 20503 21590 64933 56629 59322 30805 90724 20689 04270 85112 37812 20149 63532 25509 94086 82146 11111 10893 10957 05050 65703 97825 23944 84195 58481 40668 83425 38098 01889 11248 49490 47971 76219 75668 00241 57210 68347 32437 00390 42664 76359 25098 73048 14981 47509 05200 56945 76415 31638 01413 33411 05437 32718 40475 02780 28393 64238 24214 89051 41553 21144 07617 26599 38069 54518 79 95778 31224 33709 29991 07123 92077 67688 98163 51326 55535 06410 99066 17287 18925 50960 58842 05216 35588 79372 13775 19824 51763 71065 23804 66071 94059 84411 82970 60431 61224 07062 00459 92350 61250 08005 14474 06295 19345 68756 88792 17835 63614 74436 86055 27973 06519 21146 86597 08358 40528 24500 17093 14942 85533 08378 68813 74305 68981 82123 14970 40803 42120 18390 08446 68488 84522 56729 57413 13691 75336 33055 61564 63083 91810 91940 78605 62322 29585 46998 48641 62211 18675 67511 92572 17838 36147 68705 80985 42976 10425 77737 11584 57660 05617 98537 31433 64851 59292 10741 16394 39454 21963 63400 86303 62019 99081 96235 58573 90593 49403 12241 46302 77311 55943 05821 49091 01933 20741 70817 91279 38683 00143 86795 77035 29833 49648 19916 12805 38507 22193 68625 20144 47585 04293 29692 58693 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media Esercizio 2 Immaginiamo di voler estrarre un campione casuale stratificato per sesso dalla popolazione in tabella, includendo 200 uomini e 100 donne. Completare la tabella ed indicare la frazione di campionamento complessiva per gli uomini e per le donne. Indicate la probabilità di essere inclusi nel campione, N. Frazione di N. nella campione campionamento 3355 popolazione separatamente per uomini e donne. Strato Maschi Femmine 847 80 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media Appendice L’istogramma presenta la distribuzione di frequenza di 100000 osservazioni distribuite in modo uniforme. La variabile considerata assume i soli valori interi tra 0 e 9. L’esempio è analogo a quello presentato nel testo di P.Armitage e G.Berry Statistical Methods in Medical Researchs (ed.Italiana McGraw-Hill). Alcune statistiche descrittive della Variabile I N 100000 Mean Std Deviation 4.5 2.87229568 Variance 8.2500825 0 Kurtosis -1.2242436 Skewness Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 81 FREQ UENCY 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 0 0 0 00 1 1 1 1 1 2 2 22 2 3 3 3 3 3 4 44 4 4 5 5 5 5 5 66 6 6 6 7 7 7 7 7 88 8 8 8 9 9 9 9 91 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 0 2 4 68 0 2 4 6 8 0 2 46 8 0 2 4 6 8 0 24 6 8 0 2 4 6 8 02 4 6 8 0 2 4 6 8 02 4 6 8 0 2 4 6 8. 0 popol azi one Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 82 Sono stati estratti 20000 campioni, tutti di numerosità 5 osservazioni da tale popolazione. Le statistiche e gli istogrammi si riferiscono alla distribuzione di questi 20000 campioni. La variabile considerata è la media campionaria della variabile I, indicata per convenienza come ‘md’. Variable: N md. Osserviamo che: 20000 -> numero di campioni (ciascuno costituisce un’osservazione) Mean 4.5 Errore standard -> media campionaria 1.28632606 Skewness 0.0133416 Kurtosis -0.2412179 -> il valore si questi indici (non presentati a lezione) corrisponde a quanto atteso per una distribuzione normale. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 83 Mean 4.500000 La coincidenza di queste statistiche indica che la distribuzione è simmetrica Median 4.400000 Mode 4.200000 Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 84 PERCENT 7 6 5 4 3 2 1 0 0 0 0 0 0 1 1 1 1 1 2 2 2 2 2 33 3 3 3 4 4 4 4 4 5 5 5 5 5 6 6 6 66 7 7 7 7 7 8 8 8 8 8 9 9 9 9 9 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 02 4 6 8 0 2 4 6 8 0 2 4 6 8 0 2 4 68 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 . 0 m edi a cam pi onar i a Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 85 CUM ULATI VE PERCENT 100 90 80 70 60 50 40 30 20 10 0 0 0000 11111 22222 3333 34444 4555 55666 6677 77788 8889 99991 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 0 2468 02468 02468 0246 80246 8024 68024 6802 46802 4680 2468. 0 m edi a cam pi onar i a Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 86 Ripeto il campionamento con n=9. Mean 4.500005 Errore standard 0.96123584 Variance Skewness I risultati principali sono: 0.92397434 -0.0211222 Kurtosis -0.1835888 Si noti che l’errore standard è inferiore rispetto al precedente esempio. Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 87