LEZIONI DI STATISTICA MEDICA A.A. 2010/2011 - Distribuzione binomiale - Distribuzione Normale Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona DISTRIBUZIONI TEORICHE DI PROBABILITA’ DISTRIBUZIONE DI PROBABILITA’: insieme delle probabilità associate a tutti i possibili eventi casuali di uno spazio campionario La somma delle singole probabilità deve dare 1. Esempio • Il lancio di 3 monete può casualmente portare a ottenere da 0 a 3 teste. S = {CCC , CCT , CTC , TCC , CTT , TCT , TTC , TTT } La probabilità associata all’evento testa per una moneta è 0.5. L’evento composto dei 3 lanci porta ad una probabilità specifica per ogni possibile esito. Regola probabilità indipendenti: P(0_T)=P(1°lancio sia C)*P(2°lancio sia C)*P(3°lancio sia C)= =(1-0.5)*(1-0.5)*(1-0.5)=0.125 P(1_T)=P(1°lancio sia T)*P(2°lancio sia C)*P(3°lancio sia C) + + P(1°lancio sia C)*P(2°lancio sia T)*P(3°lancio sia C) + + P(1°lancio sia C)*P(2°lancio sia C)*P(3°lancio sia T) = =(0.5)*(1-0.5)*(1-0.5)+ +(1-0.5)*(0.5)*(1-0.5)+ +(1-0.5)*(1-0.5)*(0.5) =0.375 P(2_T)=…………………=0.375 P(3_T)=…………………=0.125 OTTENIAMO: N. TESTA EVENTI FAVOREVOLI PROBABILITA’ 0 1 0.125 1 3 0.375 2 3 0.375 3 1 0.125 • Esempi: • Numero di figli maschi in una famiglia di 3 figli • Numero di aborti su 4 gravidanze • Numero di interventi di bypass coronarico riusciti su 10 interventi effettuati • Numero di soggetti con ictus in un reparto di cardiologia con 23 soggetti VARIABILI CASUALI DISCRETE La distribuzione di probabilità di una variabile casuale discreta prevede che ad ogni possibile determinazione della variabile casuale sia associata la probabilità del verificarsi di tale determinazione. Se le possibile determinazioni della variabile casuale sono k e se la probabilità della determinazione i-esima (i=1,…,k) è indicata con pi , allora: 1) pi ≥0 2) Σi pi =1 ESPERIMENTO BERNOULLIANO Solo 2 possibili esiti in ogni prova: Successo Insuccesso (S) (I) Pr(S)=π Esempi: Pr(I)=1-Pr(S)=1-π 1. Stato di vita 2. Lancio di una moneta Prove indipendenti VARIABILE CASUALE BERNOULLIANA Variabile che assume solo due valori con definite probabilità X f(X) 0 1-π 1 π Esempio: Consideriamo la variabile casuale bernoulliana X= “Avere gruppo sanguigno B”; sappiamo che la probabilità di appartenere a tale gruppo sanguigno vale 0.08. La sua distribuzione di probabilità sarà: X= 1 avere gruppo sanguigno B Pr(X=1)=0.08= π X= 0 non avere gruppo sanguigno B Distribuzione di probabilità di X: Pr(X=0)=1-0.08=0.92=1- X 1 0 f(X) 0.08 0.92 π Esempio (N=2): Calcoliamo la distribuzione di probabilità della variabile casuale X= avere il gruppo B, su 2 soggetti presi a caso dalla popolazione (prove indipendenti9. no B, no B B, not B not B, B B, B X 0 1 1 2 f(X) 0.85 0.07 0.07 0.01 Pr(X=0)=(1- π)(1- π)=0.92*0.92=0.8464 Pr(X=1)=2*π(1- π)=2*0.08*0.92=0.1472 Pr(X=2)=π* π=0.08*0.08=0.0064 1.0 Esperimento bernoulliano ripetuto 0.5 0.0 0 1 2 DISTRIBUZIONE BINOMIALE La distribuzione binomiale ‘modellizza’ la probabilità di n successi su N esperimenti ESEMPIO: Numero di maschi in una famiglia di 3 figli ( la probabilità che un neonato sia maschio è 0.52): N u m e ro d i m a sc h i P ro b a b ilità 0 1 2 3 0 .1 1 0 .3 6 0 .3 9 0 .1 4 DISTRIBUZIONE BINOMIALE { n! x (n− x) P( X = x) = p (1 − p ) x!(n − x)! } dove: n!= n*(n-1)+(n-2)*…*2*1 Esempi: •Numero di aborti su 4 gravidanze •Numero di interventi di bypass coronarico riusciti su 10 interventi Esempio: La probabilità per un bambino tra 0 e 3 anni di subire una lussazione della spalla è 0.3. In una famiglia con 3 gemellini di 3 anni, qual è la probabilità che 0, 1 , 2 o tutti e 3 abbiano subito una lussazione della spalla? 1° 2° 3° NO NO NO NO NO SI NO SI NO SI NO NO NO SI SI SI NO SI SI SI NO SI SI SI 0 1 2 3 DISTRIBUZIONE BINOMIALE {p n! x ! ( n − x )! P (X = x) = { (1 − p ) ( n − x ) x } { } } P ( X = 0) = 3! 0.30 (1 − 0.3) (3−0 ) = 1 * 1 * (0.7) 3 = 0.343 0!(3 − 0)! P ( X = 1) = 3! 0.31 (1 − 0.3) ( 3−1) = 3 * 0.3 * (0.7) 2 = 0.441 1!(3 − 1)! P ( X = 2) = 3! 0.3 2 (1 − 0.3) (3− 2 ) = 3 * 0.3 2 * (0.7)1 = 0.189 2!(3 − 2)! P ( X = 3) = 3 { } { } { } { } { } { } 3! 0.33 (1 − 0.3) ( 3−3) = 1* 0.33 *1 = 0.027 3!(3 − 3)! ∑ P( X = i) = 0.343 + 0.441 + 0.189 + 0.027 = 1 i =0 Visualizzazione grafica della distribuzione binomiale di probabilità 0,5 P(X=i) 0,4 0,3 0,2 0,1 0 0 1 2 3 Se in una scuola ci sono 16 famiglie con 3 gemellini ciascuna, quante famiglie mi aspetto aver avuto 0, 1, 2, 3 lussazioni? E = P(A) • N E(0) = 0.343*16 = 5.49 E(1) = 0.441*16 = 7.06 E(2) = 0.189*16 = 3.02 E(3) = 0.027*16 = 0.43 N 8 7 6 5 4 3 2 1 0 0 1 2 3 ESERCIZIO In un ambulatorio di analisi arrivano successivamente due provette dal reparto di endocrinologia. Se la probabilità, per un paziente ricoverato, di avere diabete è di 0.2, qual è la probabilità che i risultati delle analisi di glicemia risultino alterati? P ( X = 0) = P ( X = 1) = P ( X = 2) = { } { } { } 2! 0.20 * 0.8( 2−0) = 0.64 0!(2 − 0)! 2! 0.21 * 0.8( 2−1) = 0.32 1!(2 − 1)! 2! 0.2 0 (0.8) ( 2− 2) = 0.04 2!(2 − 2)! Se arrivano allo stesso laboratorio 20 coppie di provette da reparti di endocrinologia differenti, in quanti reparti mio aspetto avere risultati della glicemia alterati per un solo valore? E(1) = 0.32*20= 6.4 VARIABILI CASUALI CONTINUE DISTRIBUZIONE NORMALE (o di Gauss) La distribuzione normale è particolarmente adatta a ‘modellizzare’ e descrivere molte variabili sia fisiche che biologiche Si può immaginare come una distribuzione binomiale che, per un numero infinito di prove diventa continua ESEMPI •Altezza di un campione di 10000 soggetti •Livello di emoglobina nel sangue in 1000 soggetti ESEMPI 30 Pressione arteriosa diastolica (mmHg) di 121 scolari 25 20 15 10 5 0 25-30 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 ESEMPI 14000 Distribuzione della frequenza assoluta dell'Altezza (cm) in un campione di 71800 maschi adulti 12000 10000 8000 6000 4000 2000 15 015 2 15 215 4 15 415 6 15 615 8 15 816 0 16 016 2 16 216 4 16 416 6 16 616 8 16 817 0 17 017 2 17 217 4 17 417 6 17 617 8 17 818 0 18 018 2 18 218 4 0 CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’ NORMALE CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’ NORMALE • e’ univocamente determinata dai due parametri µ e σ, rispettivamente media e deviazione standard; •e’ unimodale, simmetrica attorno alla media; •media, moda, mediana coincidono; CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’ NORMALE (continua) •sono rappresentati tutti i valori compresi tra -∞ e +∞, al tendere di x a -∞ e +∞ la curva tende asintoticamente a 0; •l’area sottesa dalla curva, come tutte le distribuzioni di probabilita’ continue e’ 1; •la distanza dei punti di flesso dalla media e’ pari alla deviazione standard σ; CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’ NORMALE (continua) • La frazione di area compresa tra due valori della variabile e’ assimilabile alla probabilità di riscontrare casualmente una misura entro tale intervallo; • La probabilità di un singolo punto e’ praticamente nulla. ( x − µ )2 1 f (X ) = exp− 2 2σ σ 2π MA COME CALCOLARE L’AREA? DEVIATA NORMALE STANDARDIZZATA •La forma specifica di ogni distribuzione normale dipende dai parametri µ e σ •E’ possibile ricondurre qualsiasi distribuzione normale a un’unica distribuzione che prende il nome di DEVIATA NORMALE STANDARDIZZATA DEVIATA NORMALE STANDARDIZZATA TEOREMA Sia X una variabile aleatoria continua distribuita normalmente: N (µ, σ), allora la nuova variabile Z avrà una distribuzione normale con µ = 0 e σ = 1: N(0, 1) Z = x − µ σ ESEMPIO Tra i non diabetici il livello ematico di glucosio a digiuno è distribuito normalmente con media 105 mg/100 ml e deviazione standard 9 mg/100 ml. a) Calcolare la probabilità che un soggetto non diabetico abbia un livello di glicemia compreso tra 90 e 125 mg/100 ml. z2 -1.67 2.22 x1 − µ 90 − 105 = − 1 . 67 σ 9 x − µ 125 − 105 = 2 = = 2 . 22 σ 9 z1 = = Dalle tabelle della curva Gussiana: -1.67 2.22 P(-1.67<X<=0)=0.4525 P(0<=X<2.22)=0.4868 P(-1.67<X<2.22)= =0.4525+0.4868=0.9393 b) Qual è il livello di glicemia al di sotto del quale cade il 10% della popolazione dei non diabetici. x−µ x − 105 , σ 9 x = − 1 .28 ∗ 9 + 105 = 93 .5 mg / 100 ml − 1 .28 = = c) Determinare i livelli di glicemia entro i quali cadono il 95% dei non diabetici x−µ x − 105 , σ 9 x = − 1 . 96 ∗ 9 + 105 = 87 . 36 mg / 100 ml − 1 . 96 = = x−µ x − 105 , σ 9 x = 1 . 96 ∗ 9 + 105 = 122 . 64 mg / 100 ml 1 . 96 = = Livelli al 95% : (87.36, 122.64) NB: 95% p=0.95 0.475 a sx e 0.475 a dx di µ. ESERCIZIO Il livello di colesterolo totale di una determinata popolazione sono approssimativamente distribuiti in modo normale con media 200 mg/100ml e d.s. 20 mg/100ml. 1) Qual è la probabilità che una persona presa a caso da tale popolazione abbia un valore di colesterolo compreso tra 160 e 175 mg/100ml cc ESERCIZIO La durata della gestazione per donne sane e’ mediamente pari a 280 gg, con una deviazione standard di 10 gg. Supponendo che la durata della gestazione sia distribuita normalmente, determinate la proporzione di donne sane con durata superiore a 1 settimana e la proporzione con durata superiore a 2 settimane. ESERCIZIO La durata della gestazione per donne sane e’ mediamente pari a 280 gg, con una deviazione standard di 10 gg. Supponendo che la durata della gestazione sia distribuita normalmente, determinate la proporzione di donne sane con durata superiore a 1 settimana e la proporzione con durata superiore a 2 settimane. P(x>287)=P(Z>(287-280)/10)=P(Z>0.7)=0.242 P(x>294)=P(Z>(294-280)/10)=P(Z>0.1.4)=0.0.81 Densità di probabilità µ = 55 K g σ = 4 Kg 50 60 70 80 90 100 P e s o (K g ) densità di probabilità 40 µ = 85 K g σ = 10 K g -3 -2 -1 0 +1 +2 deviata normale standardizzata (z) +3 110 Esistono delle tavole (tavole della z) che danno la probabilità che Z sia maggiore di un valore qualsiasi. P(Z≥z) z 0,0 0,1 0,2 0,3 0,4 0,00 0,5000 0,4602 0,4207 0,3821 0,3446 0,01 0,4960 0,4562 0,4168 0,3783 0,3409 0,02 0,4920 0,4522 0,4129 0,3745 0,3372 0,03 0,4880 0,4483 0,4090 0,3707 0,3336 0,04 0,4840 0,4443 0,4052 0,3669 0,3300 0,05 0,4801 0,4404 0,4013 0,3632 0,3264 0,06 0,4761 0,4364 0,3974 0,3594 0,3228 0,07 0,4721 0,4325 0,3936 0,3557 0,3192 0,08 0,4681 0,4286 0,3897 0,3520 0,3156 0,09 0,4641 0,4247 0,3859 0,3483 0,3121 0,5 0,6 0,7 0,8 0,9 0,3085 0,2743 0,2420 0,2119 0,1841 0,3050 0,2709 0,2389 0,2090 0,1814 0,3015 0,2676 0,2358 0,2061 0,1788 0,2981 0,2643 0,2327 0,2033 0,1762 0,2946 0,2611 0,2296 0,2005 0,1736 0,2912 0,2578 0,2266 0,1977 0,1711 0,2877 0,2546 0,2236 0,1949 0,1685 0,2843 0,2514 0,2206 0,1922 0,1660 0,2810 0,2483 0,2177 0,1894 0,1635 0,2776 0,2451 0,2148 0,1867 0,1611 1,0 1,1 1,2 1,3 1,4 0,1587 0,1357 0,1151 0,0968 0,0808 0,1562 0,1335 0,1131 0,0951 0,0793 0,1539 0,1314 0,1112 0,0934 0,0778 0,1515 0,1292 0,1093 0,0918 0,0764 0,1492 0,1271 0,1075 0,0901 0,0749 0,1469 0,1251 0,1056 0,0885 0,0735 0,1446 0,1230 0,1038 0,0869 0,0721 0,1423 0,1210 0,1020 0,0853 0,0708 0,1401 0,1190 0,1003 0,0838 0,0694 0,1379 0,1170 0,0985 0,0823 0,0681 1,5 1,6 1,7 1,8 1,9 0,0668 0,0548 0,0446 0,0359 0,0287 0,0655 0,0537 0,0436 0,0351 0,0281 0,06430 0,0526 0,0427 0,0344 0,0274 0,0630 0,0516 0,0418 0,0336 0,0268 0,0618 0,0505 0,0409 0,0329 0,0262 0,0606 0,0495 0,0401 0,0322 0,0256 0,0594 0,0485 0,0392 0,0314 0,0250 0,0582 0,0475 0,0384 0,0307 0,0244 0,0571 0,0465 0,0375 0,0301 0,0239 0,0559 0,0455 0,0367 0,0294 0,0233 Qual è la probabilità che Z sia maggiore o uguale a 1,87? P(Z≥z) 0,0307 = 3,07% z 0,0 0,1 0,2 0,3 0,4 0,00 0,5000 0,4602 0,4207 0,3821 0,3446 0,01 0,4960 0,4562 0,4168 0,3783 0,3409 0,02 0,4920 0,4522 0,4129 0,3745 0,3372 0,03 0,4880 0,4483 0,4090 0,3707 0,3336 0,04 0,4840 0,4443 0,4052 0,3669 0,3300 0,05 0,4801 0,4404 0,4013 0,3632 0,3264 0,06 0,4761 0,4364 0,3974 0,3594 0,3228 0,07 0,4721 0,4325 0,3936 0,3557 0,3192 0,08 0,4681 0,4286 0,3897 0,3520 0,3156 0,09 0,4641 0,4247 0,3859 0,3483 0,3121 0,5 0,6 0,7 0,8 0,9 0,3085 0,2743 0,2420 0,2119 0,1841 0,3050 0,2709 0,2389 0,2090 0,1814 0,3015 0,2676 0,2358 0,2061 0,1788 0,2981 0,2643 0,2327 0,2033 0,1762 0,2946 0,2611 0,2296 0,2005 0,1736 0,2912 0,2578 0,2266 0,1977 0,1711 0,2877 0,2546 0,2236 0,1949 0,1685 0,2843 0,2514 0,2206 0,1922 0,1660 0,2810 0,2483 0,2177 0,1894 0,1635 0,2776 0,2451 0,2148 0,1867 0,1611 1,0 1,1 1,2 1,3 1,4 0,1587 0,1357 0,1151 0,0968 0,0808 0,1562 0,1335 0,1131 0,0951 0,0793 0,1539 0,1314 0,1112 0,0934 0,0778 0,1515 0,1292 0,1093 0,0918 0,0764 0,1492 0,1271 0,1075 0,0901 0,0749 0,1469 0,1251 0,1056 0,0885 0,0735 0,1446 0,1230 0,1038 0,0869 0,0721 0,1423 0,1210 0,1020 0,0853 0,0708 0,1401 0,1190 0,1003 0,0838 0,0694 0,1379 0,1170 0,0985 0,0823 0,0681 1,5 1,6 1,7 1,8 1,9 0,0668 0,0548 0,0446 0,0359 0,0287 0,0655 0,0537 0,0436 0,0351 0,0281 0,06430 0,0526 0,0427 0,0344 0,0274 0,0630 0,0516 0,0418 0,0336 0,0268 0,0618 0,0505 0,0409 0,0329 0,0262 0,0606 0,0495 0,0401 0,0322 0,0256 0,0594 0,0485 0,0392 0,0314 0,0250 0,0582 0,0475 0,0384 0,0307 0,0244 0,0571 0,0465 0,0375 0,0301 0,0239 0,0559 0,0455 0,0367 0,0294 0,0233 Qual è la probabilità che Z sia maggiore o uguale a 0,75? P(Z≥z) 0,2266 = 22,66% z 0,0 0,1 0,2 0,3 0,4 0,00 0,5000 0,4602 0,4207 0,3821 0,3446 0,01 0,4960 0,4562 0,4168 0,3783 0,3409 0,02 0,4920 0,4522 0,4129 0,3745 0,3372 0,03 0,4880 0,4483 0,4090 0,3707 0,3336 0,04 0,4840 0,4443 0,4052 0,3669 0,3300 0,05 0,4801 0,4404 0,4013 0,3632 0,3264 0,06 0,4761 0,4364 0,3974 0,3594 0,3228 0,07 0,4721 0,4325 0,3936 0,3557 0,3192 0,08 0,4681 0,4286 0,3897 0,3520 0,3156 0,09 0,4641 0,4247 0,3859 0,3483 0,3121 0,5 0,6 0,7 0,8 0,9 0,3085 0,2743 0,2420 0,2119 0,1841 0,3050 0,2709 0,2389 0,2090 0,1814 0,3015 0,2676 0,2358 0,2061 0,1788 0,2981 0,2643 0,2327 0,2033 0,1762 0,2946 0,2611 0,2296 0,2005 0,1736 0,2912 0,2578 0,2266 0,1977 0,1711 0,2877 0,2546 0,2236 0,1949 0,1685 0,2843 0,2514 0,2206 0,1922 0,1660 0,2810 0,2483 0,2177 0,1894 0,1635 0,2776 0,2451 0,2148 0,1867 0,1611 1,0 1,1 1,2 1,3 1,4 0,1587 0,1357 0,1151 0,0968 0,0808 0,1562 0,1335 0,1131 0,0951 0,0793 0,1539 0,1314 0,1112 0,0934 0,0778 0,1515 0,1292 0,1093 0,0918 0,0764 0,1492 0,1271 0,1075 0,0901 0,0749 0,1469 0,1251 0,1056 0,0885 0,0735 0,1446 0,1230 0,1038 0,0869 0,0721 0,1423 0,1210 0,1020 0,0853 0,0708 0,1401 0,1190 0,1003 0,0838 0,0694 0,1379 0,1170 0,0985 0,0823 0,0681 1,5 1,6 1,7 1,8 1,9 0,0668 0,0548 0,0446 0,0359 0,0287 0,0655 0,0537 0,0436 0,0351 0,0281 0,06430 0,0526 0,0427 0,0344 0,0274 0,0630 0,0516 0,0418 0,0336 0,0268 0,0618 0,0505 0,0409 0,0329 0,0262 0,0606 0,0495 0,0401 0,0322 0,0256 0,0594 0,0485 0,0392 0,0314 0,0250 0,0582 0,0475 0,0384 0,0307 0,0244 0,0571 0,0465 0,0375 0,0301 0,0239 0,0559 0,0455 0,0367 0,0294 0,0233 Esercizio 1: A. Utilizzando le tavole di Z, calcolare la probabilità che: 1. Z>1.30 2. Z<-0.85 3. 0.50<Z<1.05 B. Utlizzando le tavole di Z, calcolare quel valore che ha una probabilità del 35% di essere superato. Esercizio 2: Si supponga che nella popolazione maschile adulta italiana la variabile “peso in kg” sia: X~N(75, 8): A. Utilizzando le tavole di Z, calcolare la probabilità che: 1. Un soggetto preso a caso abbia un peso ≤63 kg 2. Un soggetto abbia un peso compreso tra 69 e 92 B. Qual è il valore del peso tale per cui l’80% ha valori inferiori? Soluzione: Esercizio 1: Si assuma che tra i non diabetici, il livello ematico di glucosio a digiuno sia distribuito in maniera approssimativamente normale con media=105 mg/ml ed una deviazione standard= 9 mg/ml. Calcolare: 1. Quale % di non diabetici ha livelli compresi tra 90 e 125 mg/ml 2. Qual è il valore di glicemia tale per cui il 90% dei soggetti ha valori superiori 3. Quali livelli di glicemia comprendono il 95% dei non diabetici Soluzione: X= livello ematico di glucosio 1. Calcoliamo il valore di Z relativo 90: z = (90-105)/9 =-1.67 e quello relativo a 125: z = (125-105)/9 =2.22 P(-1.67≤Z≤2.22)=1-[P(Z≤-1.67)+P(Z>2.22)]=1-[P(Z>1.67)+P(Z>2.22)]= =1-(0.049+0.013)=0.938=93.8% 2. Cerco il valore di Z tale per cui: P(Z≤c)=0.1 C=-1.28 -1.28=(x-105)/9 3. Livelli di glicemia che comprendono il 95% dei non diabetici Pr(µ µ -1.96 σ ≤x ≤ µ -1.96 σ)=0.95 Quindi l’intervallo ricercato sarà: µ ∓1.96 σ= 105 ∓1.96 9 87.4-122.6 X=93.5