Università del Piemonte Orientale Corso di laurea in biotecnologie Corso di Statistica Medica Elementi di calcolo delle probabilità. Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 1 In questa lezione parleremo di: Probabilità: definizione e stima Dominio della variabile e spazio campionario Eventi e probabilità di un evento Probabilità del verificarsi di due eventi Probabilità condizionata Applicazione: valutazione delle caratteristiche di un test diagnostico (sensibilità, specificità, valori predittivi) Probabilità e Odd Curva ROC Applicazione : valutazione del numero atteso ipotizzando eventi indipendenti. Applicazione: valutazione della probabilità di un risultato positivo in una sequenza di test. Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 2 Probabilità: valutazione della possibilità che accada (o sia accaduto) un evento. Esempi: 1. La probabilità di incontrare una persona conosciuta ieri 2. La probabilità che domani piova 3. La probabilità che la Juventus batta il Perugia alla prima partita di campionato 4. La probabilità di lanciare una moneta ed ottenere testa 5. La probabilità che un bambino nato oggi viva almeno 80 anni 6. La probabilità che un campione di sangue presenti una concentrazione di emoglobina di 14,456 g/100ml Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 3 Evento, che può verificarsi o non verificarsi Corso di laurea in biotecnologie–- Statistica Medica – Probabilità Probabilità che l’evento si verifichi 4 Evento Probabilità Incontro di ... La probabilità di incontrare una persona conosciuta ieri Pioggia La probabilità che domani piova Vittoria della J sulla P La probabilità che la Juventus batta il Perugia alla prima partita di alla prima partita campionato Testa La probabilità di lanciare una moneta ed ottenere testa 80° compleanno La probabilità che un bambino nato oggi viva almeno 80 anni Campione ematico con La probabilità che un campione di sangue presenti una Hb= 14,456 g/100ml concentrazione di emoglobina di 14,456 g/100ml Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 5 Queste affermazioni appartengono a due categorie diverse: Le affermazioni 1-3 indicano la propensione soggettiva a valutare la possibilità che l’evento accada. (giudizio di un esperto) Le affermazioni 4-6 consentono la risposta in base alla definizione di uno spazio campionario ed alla misura della probabilità associata all’evento. Noi parleremo di probabilità limitatamente a questa seconda accezione. Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 6 La stima della probabilità: A priori: • Simmetria (geometria): lancio di moneta o di dado, estrazione del lotto • Logica1 ‘se x è vero allora consegue che y deve essere pari a….’ A posteriori • Frequenza di un evento osservata in un numero molto alto di prove • Limite della frequenza di un evento osservata per un numero di prove tendente all’infinito 1 Corrisponde alla stima della probabilità conseguente alla formulazione di un’ipotesi. L’argomento sarà ripreso nelle prossime lezioni Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 7 probabilità di ottenere croce 0.70 0.60 prob. 0.50 prob. 0.40 0.30 0.20 0.10 0.00 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 n. lanci Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 8 Inoltre si osservi che: - la variabile considerata negli esempi 4-5 può assumere solo alcuni valori in un intervallo, nel caso i valori 1,2,3,4,5,6 (variabile discreta); - la variabile considerata nell’esempio 5 può assumere due soli valori (vivo, morto) (variabile binaria); - la variabile considerata nell’esempio 6 può assumere tutti i valori in un intervallo (variabile continua), pertanto l’evento è definito come un risultato corrispondente ad un definito intervallo di valori. L’intervallo in cui sono compresi i valori che possono essere assunti da una variabile è detto ‘dominio della variabile’ o ‘spazio campionario’. Approfondiremo dapprima il caso delle variabili categoriche e delle variabili binarie. Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 9 Probabilità di un evento P = r/N Dove r = frequenza dell’evento N = Numero di possibili eventi Evento = estrazione di un asso di cuori r = 1 (c’è un asso di cuori nel mazzo) N = 40 (il mazzo è di 40 carte) P=1/40=0,025 Evento = estrazione di un topo maschio dalla gabbia r = 10 (numero di topi di sesso maschile) N = 20 (numero totale di topi) P=10/20=0,5 Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 10 Alcune ulteriori definizioni e regole: Spazio Campionario (S): l’insieme di tutte le possibili evenienze. P(S) = 1 La probabilità di un evento è compresa nell’intervallo 0 (evento impossibile) - 1 (evento certo) 0 <= P(A) <= 1 Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 11 Eventi e probabilità complementari Dato un evento, le due condizioni "evento che si verifica" ed "evento che non si verifica" esauriscono tutte le possibilità. Pertanto P(evento che si verifica) + P(evento che non si verifica) =1 e P(evento che si verifica) = 1 - P(evento che non si verifica) Parliamo in questo caso di probabilità complementari. NON A A Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 12 Cosa possiamo dire relativamente alla probabilità di due eventi? Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 13 Dati due eventi possiamo essere interessati al verificarsi di uno qualsiasi dei due. oppure al verificarsi di entrambi. oppure al verificarsi di uno solo se un'altro si è già verificato. Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 14 Il verificarsi di entrambi gli eventi è indicato come ‘intersezione’ e la probabilità è la probabilità dell’intersezione Corso di laurea in biotecnologie–- Statistica Medica – Probabilità (A ∩ B) P( A ∩ B ) 15 Il verificarsi di uno qualsiasi dei due è indicato come ‘unione’ e la probabilità è la probabilità dell’unione Corso di laurea in biotecnologie–- Statistica Medica – Probabilità (A ∪ B) P( A ∪ B ) 16 La probabilità del verificarsi di un evento solo se un'altro si è già verificato è definita Probabilità Condizionata. Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 17 Quando due eventi non possono mai verificarsi contemporaneamente parliamo di ‘eventi mutuamente esclusivi’ o disgiunti. Pertanto: P( A ∩ B ) = 0 Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 18 Nel caso di eventi mutuamente esclusivi la probabilità del verificarsi di uno o l'altro dei due (probabilità dell'unione) è data da: P ( A ∪ B ) = P ( A ) + P (B ) La probabilità di uno o l'altro tra due eventi mutuamente esclusivi è data dalla somma delle probabilità di ciascuno dei due eventi Es. la probabilità di avere testa o croce ad un lancio di moneta è: P (testa o croce) = P (testa) + P (croce) = 0,5 + 0,5 La stessa regola si può estendere alla probabilità di uno (o più) tra n eventi mutuamente esclusivi. P(A o B o C) = P(A∪B∪C) = P(A) + P(B) + P(C) Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 19 La probabilità del realizzarsi di uno o l’altro tra due eventi non mutuamente esclusivi è la somma delle probabilità di ciascuno dei due eventi sottratta della probabilità di entrambi (che altrimenti sarebbe conteggiata doppia) P(A o B) = P(A) + P(B) – P(A e B) P ( A ∪ B ) = P ( A) + P (B ) − P ( A ∩ B ) Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 20 Es. la probabilità di estrarre una carta di segno (Cuori) o (figura) da un mazzo di 40 carte: P (Cuori o figura) = P(cuori) + P(figura) – P(Cuori e figura) = 10/40 + 12/40 - 3/40 = 19/40 = 0,475 Es. la probabilità di avere un numero <=3 o un pari ad un lancio di dado è: P (<=3 o pari) = P (<=3) + P (pari) –P(<=3 e pari)=3/6 + 3/6 – 1/6*=5/6 *Perchè 1/6? Quanto vale la probabilità di un numero pari tra i numeri<=3? E tra i numeri > 3? Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 21 La regola precedente del calcolo della probabilità di due eventi esclusivi si ricava da questa regola generale considerando che, se gli eventi sono esclusivi, la probabilità che si verifichino entrambi è 0 Es. la probabilità di avere un numero che sia <=3 o >=5 ad un lancio di dado: P (<=3 o >=5) = P (<=3) + P (>=5) –P(<=3 e >=5) = 3/6 + 2/6 – 0/6 = 5/6 Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 22 Verifichiamo queste regole nel caso di uno spazio campionario di dimensioni limitate e composto da elementi discreti, ad es. dato dal lancio di una moneta e dal lancio di un dado. Lo spazio campionario è definito come l’insieme di tutti i possibili risultati. Nel caso dato N = 12. DADO Moneta 1 2 3 4 5 6 T X X X X X X C X X X X X X Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 23 Iniziamo considerando la probabilità di uno dei due eventi. Ev. 1. Estrazione di un 3 al lancio del dado DADO Moneta 1 2 T X C X 3 4 5 6 X X X X X X X X r=2; N=12 P(dado=3) = 2/12 = 1/6 Si noti che in questo caso la probabilità non tiene conto del lancio della moneta (viene definita ‘probabilità marginale’). Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 24 Ev. 2. Testa al lancio della moneta DADO Moneta 1 2 3 4 5 6 X X X X X X T C r=6; N=12 P(testa) = 6/12 = 1/2 Si noti che in questo caso la probabilità non tiene conto del lancio del dado (probabilità marginale). Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 25 Passiamo quindi a valutare l'estensione dello spazio campionario corrispondente al verificarsi dei due eventi (uno o l'altro). Estrazione di 3 al lancio del dado o testa al lancio della moneta. DADO 1 Moneta 2 T C 3 4 5 6 X X X X X X • dado=3 -> r=2 ; N=12; P(dado=3) = 2/12 • moneta=testa -> r=6 ; N=12; P(testa) = 6/12 • sia 3 sia testa = 1/12 p(dado=3 o moneta= testa) = p(dado=3) +p(testa) - p(dado=3 e moneta= testa) = =1/6 + 1/2 – 1/12 = 2/12 + 6/12 -1/12 = 7/12 Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 26 La probabilità del realizzarsi congiunto di due eventi è data dal prodotto della probabilità del primo evento per la probabilità del secondo essendosi verificato il primo: P(A e B) = P(A) P(B|A) P(A ∩ B) = P(A) P(B|A) P(B|A) è la probabilità condizionata del verificarsi di B quando A si è verificato Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 27 Es. la probabilità di avere un numero <=3 o un pari ad un lancio di dado è: P (<=3 o pari) = P (<=3) + P (pari) –P(<=3 e pari)=3/6 + 3/6 – 1/6*=5/6 *Perchè 1/6? Quanto vale la probabilità di un numero pari tra i numeri<=3? E tra i numeri > 3? Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 28 Se due eventi sono indipendenti P(B|A) = P(B) e quindi la probabilità che si verifichino entrambi è data dal prodotto delle probabilità di ciascuno dei due eventi. P(A ∩ B) = P(A) P(B) se P(B|A) = P(B) Due eventi sono indipendenti quando la probabilità che accada il primo non cambia la probabilità che accada il secondo. P(A|B) = P(A|nonB) = P(A) Esempio: La probabilità che sia estratto un numero del lotto non è influenzata dal fatto che sia stato estratto la settimana precedente (salvo interventi umani!). Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 29 La probabilità del realizzarsi congiunto di due eventi secondo lo spazio campionario Es. Estrazione di 3 al lancio del dado e croce al lancio della moneta I due eventi sono indipendenti: i due lanci non si influenzano reciprocamente. DADO Moneta 1 2 3 4 5 6 T X X X X X X C X X X X X X Possiamo verificare che la probabilità congiunta dei due eventi occupa 1 / 12 dello spazio campionario. Cosa accade dall'applicazione delle regole del calcolo della probabilità? Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 30 Dado =3 -> r=2 ; N=12; P(dado=3) = 2/12 = 1/6 moneta=testa -> r=6 ; N=12; P(testa) = 6/12 = 1/2 p(dado=3 ∩ testa) = p(dado=3) * p(testa|dado=3) = = p(dado=3) * p(testa) = 1/6 * 1/2 = 1/12 Si verifica che nel caso di eventi indipendenti la probabilità dei due eventi è il prodotto delle probabilità marginali. Un metodo per valutare empiricamente se due variabili sono associate è quello di confrontare la distribuzione di probabilità osservata con quella che ci si attenderebbe se le due variabili fossero indipendenti. L’argomento sarà ripreso nelle lezioni sull’inferenza statistica. Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 31 Probabilità condizionata (più semplice): Probabilità del verificarsi di un evento quando un'altro si è già verificato (più difficile): E’ la probabilità calcolata per un sottoinsieme dello spazio campionario, definito in base al valore di una variabile condizionante. Tale sottoinsieme è definito in modo da contenere tutti e soltanto i punti che rappresentano il realizzarsi dell’evento condizionante (valore di una variabile condizionante). Ad es. l’insieme dei valori scritti sulle 6 facce di un dado (1,2,3,4,5,6) può essere suddiviso in due sottoinsiemi: pari (2,4,6) dispari (1,3,5) Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 32 Osserviamo che: p(1) = 1/6 P(1|dispari)=1/3 P(1|pari)=0 Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 33 Applicazione del calcolo delle probabilità condizionate: La valutazione dei tests diagnostici In ambito sanitario vengono comunemente utilizzati esami diagnostici (tests di laboratorio, radiografie, esame obiettivo, altri). Questi esami hanno l’obbiettivo di riconoscere i soggetti malati e quelli sani, relativamente alla condizione esaminata. Esempi: programmi di screening (proposti a tutta la popolazione) che sono in atto o in corso di sperimentazione in Piemonte per: - neoplasie della mammella; - neoplasie della cervice uterina; - neoplasie del grosso intestino; - fenilchetonuria (neonati); - insufficienza tiroidea (neonati). Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 34 Nella situazione più semplice un esame diagnostico fornisce un risultato che può essere espresso come ‘esame positivo’ oppure ‘esame negativo’. Spesso anche esami il cui risultato è espresso su una scala continua sono interpretati come Positivi / Negativi in quanto indicano oppure negano l’esistenza di una patologia. (Questo aspetto sarà sviluppato durante il corso di EBM del 5° anno.) I soggetti sottoposti all’esame sono sottoposti ad ulteriori esami oppure a sorveglianza clinica e quindi possono essere definiti come sani o malati. (Questo accade per tutti i soggetti nelle fasi sperimentali del programma, in fase di implementazione di regola vengono sottoposti ad esami ulteriori i casi positivi ed a sola sorveglianza clinica o epidemiologica i casi negativi). Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 35 I risultati di un esame possono quindi essere riassunti in una tabella di contingenza con due righe (per il risultato dell’esame) e due colonne (per indicare se il soggetto era malato o no). Malattia Malato Test Sano Totale Positivo Negativo Totale Il totale delle righe indicherà quanti soggetti hanno esame positivo e quanti negativo. Il totale delle colonne indicherà quanti soggetti sono risultati malati e quanti sani al termine dei controlli e della sorveglianza clinica. I totali di riga e di colonna sono indicati anche come totali marginali Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 36 E’ esperienza comune che gli esami non sono perfetti e che alcuni soggetti malati avranno un esame negativo mentre alcuni soggetti sani avranno un esame positivo. Le 4 celle della tabella consentono di scrivere il numero dei soggetti separatamente in base alle seguenti condizioni: Esame Malattia Indicati come: Positivo Malati Veri Positivi (VP) a Positivo Sani Falsi Positivi (FP) b Negativo Malati Falsi Negativi (FN) c Negativo Sani Veri negativi (VN) d Corso di laurea in biotecnologie–- Statistica Medica – Probabilità Lettera 37 Malattia Test Positivo Negativo Totale Malato a c a+c Sano b d b+d Totale a+b c+d N Sano FP VN Totale Oppure: Malattia Test Positivo Negativo Totale Corso di laurea in biotecnologie–- Statistica Medica – Probabilità Malato VP FN 38 Esempio (costruito con dati ipotetici) Malattia Malato Test Sano Totale Positivo 160 Negativo 240 Totale Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 150 250 400 39 Da questa tabella possiamo calcolare i due indicatori fondamentali per la valutazione delle capacità di un test: Sensibilità probabilità che il test sia positivo se il sogg. è malato = P(+|malato) è stimata dalla proporzione di malati con test positivo. = a / (a+c) = VP / Totale malati Specificità probabilità che il test sia negativo se il sogg. non è malato = P(-| non_malato) è stimata dalla proporzione di non_malati con test negativo. = d / (b+d) = VN / Totale sani Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 40 Da questa tabella possiamo calcolare i due indicatori fondamentali per valutare la probabilità di malattia (o di assenza di malattia) sulla base dei risultati del test: Valore predittivo del risultato positivo probabilità che il sogg. sia malato se il test è positivo = P(malato|+) è stimata dalla proporzione di test positivo con sogg malato = a / (a+b) = VP / Totale positivi al test Valore predittivo del risultato negativo probabilità che il sogg. sia non_malato se il test è negativo = P(non_malato|-) è stimata dalla proporzione di test negativo con sogg non_malato = d / (c+d) = VN / Totale negativi al test Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 41 Esempio (costruito con dati ipotetici) Malattia Test Malato Sano Totale Positivo 120 40 160 Negativo 30 210 240 150 250 400 Totale Sensibilità = a / (a+c) = 120 / 150 = 80,0% Specificità = d / (b+d) = 210 / 250 = 84,0% Valore predittivo del risultato positivo = a / (a+b) = 120 / 160 = 75,0% Valore predittivo del risultato negativo = d / (c+d) = 210 /240 = 87.5% Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 42 Si noti che il valore predittivo del risultato di un esame dipende dalla frequenza della malattia (prevalenza) nella popolazione sottoposta ad esame. Sensibilità = 95% e Specificità = 95% Preval. VP+ % % % % % % % % % % % % 99 95 90 80 60 40 20 10 5 1 0,5 0,1 99 97 93 83 68 50 16 9 2 99,9 99,7 99,4 VP- 16 50 68 83 93 97 99 99,4 99,7 99,9 99,9 99,9 1-(VP-) 84 50 32 17 7 3 1 0,6 Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 0,3 0,1 0,03 0,01 43 Un modo alternativo di esprimere la Probabilità: Probabilità e Odd Odd = Probabilita / (1- Probabilità) Odd (T+ tra i malati) = Sensibilità / (1- sensibilità) Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 44 Applicazione: il calcolo della probabilità condizionale: la curva ROC Distribuzione di frequenza dell'enzima CK in persone con sintomi compatibili con infarto miocardico 480+ non infarto infarto 440-479 400-439 360-399 320-359 280-319 C K 240-279 200-239 160-199 120-159 80-129 40-79 0-39 Corso di laurea in biotecnologie–- Statistica Medica – Probabilità -100 -80 -60 -40 45 -20 numero osservazioni 0 20 40 60 infarto 2 13 30 30 21 19 18 13 19 15 7 8 35 CK 1-39 40-79 80-129 120-159 160-199 200-239 240-279 280-319 320-359 360-399 400-439 440-479 480+ Corso di laurea in biotecnologie–- Statistica Medica – Probabilità non infarto 88 26 8 5 0 1 1 1 0 0 0 0 0 46 Nel caso di un test che fornisce risultati secondo una scala numerica, occorre definire il valore corrispondente alla separazione tra risultato positivo e risultato negativo (cutoff point). Corso di laurea in biotecnologie–- Statistica Medica – Probabilità 47 Come variano sensibilità, specificità e valore predittivo? n.> cutoff Cutoff 1 40 80 120 160 200 240 280 320 360 400 440 480 Infarto 230 228 215 185 155 134 115 97 84 65 50 43 35 Non infarto 130 42 16 8 3 3 2 1 0 0 0 0 0 Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità Sens Spec VP+ VP- 1,00 0,00 0,64 0,98 0,99 0,68 0,84 0,88 0,93 0,88 0,93 0,73 0,80 0,94 0,96 0,63 0,67 0,98 0,98 0,57 0,58 0,98 0,98 0,53 0,50 0,98 0,98 0,49 0,42 0,99 0,99 0,47 0,37 1,00 1,00 0,44 0,28 1,00 1,00 0,42 0,22 1,00 1,00 0,41 0,19 1,00 1,00 0,40 0,15 1,00 1,00 0,36 48 Curva ROC (receiver operating characteristic) 0,0 1,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 >=40 0,9 0,8 >=120 0,7 sensibilità 0,6 >= 160 0,5 >=200 0,4 0,3 >= 220 0,2 0,1 0,0 1-specificità La curva ROC presenta graficamente la variazione della sensibilità e della specificità con il variare del cutoff. Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 49 Esempi di valori di sensibilità e specificità Ref. Sackett r.21 Malattia Ulcera, ernia iatale o altra patologia gastrica Tipo di pazienti Pazienti con sintomi inviati a controllo specialistico Gold standard Esame radiologico Sackett r.28 Stenosi coronarica > 50% Coronarografia Sackett r.28 Stenosi coronarica > 70% Pazienti con angina instabile inviati a controllo specialistico Pazienti con angina instabile inviati a controllo specialistico Coma non traumatico Pazienti e volontari Puntura lombare o immagine radiologica Biopsia transrettale Sackett r.20 Recupero senza invalidità Sackett r.19 Aumento della pressione endocranica Sackett r.14 Tumore della prostata Sackett r.17 Trombosi venosa profonda Sackett r16 Carcinoma pancreatico Coronarografia Follow-up Test Anamnesi mirata (storia clinica, relazione tra dolore ed assunzione di cibi) Anamnesi mirata (aumento dei sintomi) Sensibilità 95% Specificità 30% 83% 39% ECG sforzo (positivo se ST sottoslivellato >1mm) Riflesso corneale 60% 91% 92% 35% 100% 88% 56% 29% 94% 98% 55% 69% 91% 89% 92% 92% 65% 90% 82% 82% Assenza di pulsazione della vena retinica Uomini con sintomi di Fosfatasi acida ostruzione delle vie Citologia secrezione urinarie prostatica Citologia di agobiopsia Palpazione per la ricerca di noduli Pazienti con sintomi Angiografia venosa Pletismografia e inviati a controllo con mezzo di diffusione fibrinogeno specialistico contrasto marcato con 125I Pazienti con sintomi di Intervento chirurgico o Ecografia carcinoma del autopsia TAC pancreas in centro specialistico Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 50 Applicazione del calcolo della probabilità congiunta di eventi indipendenti: calcolo del numero di soggetti attesi per la combinazione di due variabili. P(A ∩ B) = P(A) P(B) Dobbiamo valutare se il colore della buccia rende le mele diversamente resistenti alle infestazioni per decidere se possiamo concentrare i trattamenti antiparassitari. Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 51 Immaginiamo un esperimento su 300 mele prese a caso in un frutteto, di cui 150 bianche e 150 rosse. 72 mele hanno un baco e 228 no. colore Bianche Rosse Con baco R1 Senza baco R2 C1 C2 T Se il colore delle mele e la probabilità di trovare un baco fossero indipendenti, quale probabilità avremmo di avere una mela rossa con un baco? Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 52 Bianche Rosse Con baco P=(C1/T*R1/T) P=(C2/T*R1/T) R1 Senza baco P=(C1/T*R2/T) P=(C2/T*R2/T) R2 C1 C2 T P (mela rossa) = C2 / T = 150 / 300 = 0,5 P(baco) = R1 / T = 72 / 300 = 0,24 P(mela rossa | baco) = 0,5 x 0,24 = 0,12 Numero di eventi attesi = probabilità * Totale Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 53 Probabilità colore Bianche Con baco Rosse 0,24 x 0,5 = 0,12 0,24 Senza baco 0,76 0,5 0,5 1 Numero (Quante mele mi aspetto rosse e con baco?) colore Bianche Con baco Rosse 0,12 x 300 = 36 72 Senza baco 228 150 Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 150 300 54 Esercizio: completare la tabella colore Bianche Con baco Rosse 0,12 x 300 = 36 72 Senza baco 228 150 Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 150 300 55 Applicazione del calcolo delle probabilità: il calcolo della probabilità di due eventi complementari p e q rappresentano le probabilità di due eventi complementari tali cioè che p + q =1 allora p = 1-q Questa considerazione è utile per risolvere numerosi problemi. Es. La probabilità (p) di sopravvivere 5 anni ad un tumore polmonare è 0.10 Quindi:La probabilità di morire entro 5 anni dalla diagnosi di un tumore polmonare è 1 - 0,10 = 0,90 Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 56 Applicazione : probabilità di evento favorevole in una serie di prove indipendenti Caso 1: La probabilità è costante per le diverse prove Un problema che si pone spesso riguarda il calcolo della probabilità che accada ‘almeno 1 evento’ in una serie di prove. (ad esempio: almeno 1 esame positivo in una sequenza di 3 ripetizioni dello stesso esame, come nel caso del test Haemoccult per la ricerca del sangue occulto nelle feci) Il problema prevede una soluzione complessa perchè ‘almeno 1’ vuol dire: 1 successo oppure 2 successi oppure 3 successi Inoltre i successi possono verificarsi in diversa sequenza: aax axa xaa axx xax xxa xxx Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 57 Nel caso di eventi indipendenti una soluzione abbreviata2 si ottiene considerando che: p (almeno 1 positivo) = 1 – p(nessuno positivo) = 1 – p(esame negativo in tutte le prove) p(esame negativo in tutte le prove) = p(1° es. neg.) x p(2° neg) x ….. x p(n°neg.) se la probabilità è costante = p(esame neg)n dati n = numero ripetizioni per ciascun esame, p(esame positivo) è indipendente dai risultati degli altri esami quindi: p (almeno 1 positivo) = 1 – p(no pos) 2 Una soluzione più complessa consiste nell’applicazione del test binomiale. Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 58 Applicazione : probabilità di evento favorevole in una serie di prove indipendenti Caso 2: La probabilità varia per le diverse prove Considerate tre tecniche radiografiche (es. Rx addome, ecografia addominale, TAC addome) ad ognuna delle quali è associata la probabilità di diagnosticare una determinata malattia (es. tumore del pancreas). Tali probabilità sono: Per l’Rx addome=0.05 Per l’ecografia=0.65 Per la TAC addome=0.90 Se si effettuassero queste 3 tecniche successivamente su un paziente affetto da tumore al pancreas quale sarebbe la probabilità di diagnosticare la malattia? Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 59 (attenzione! Equivale a chiedere quale sia la probabilità che si ottenga almeno un esame positivo. Per un malato corrisponde alla probabilità che venga effettuata almeno una diagnosi corretta). P (rx_neg)= 0.95 P (eco_neg)= 0.35 P(TAC_neg)=0.10 P(tutte_neg)= 0.95 * 0.35 * 0.10 = 0,03325 P(almeno1 positivo)= 0,96675 Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 60 Esercizi p. 121 es.2, 3, 7, 8 p. 122 es 10 p 123 es 19. Calcolare la tabella dei valori attesi. Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 61 Esercizio (costruito con dati ipotetici) Malattia Test Malato Sano Totale Positivo 120 4000 4120 Negativo 30 21000 21030 150 25000 25150 Totale Si calcolino i seguenti indici: Sensibilità = Specificità = Valore predittivo del risultato positivo = Valore predittivo del risultato negativo = Corso di laurea in medicina e chirurgia - Corso di Statistica Medica Elementi di calcolo delle probabilità 62