Unità 12 Probabilità condizionata Teorema di Bayes Classificazione bayesiana 1 PROBABILITÀ E PROCESSI DECISIONALI SEMPLICE DEFINIZIONE DI DIAGNOSI CLINICA PRESUPPOSTI: Studio del quadro nosografico del paziente Conoscenza della descrizione nosologica delle varie malattie Soddisfatti i due presupposti sarà possibile prendere decisioni circa il tipo di malattia che meglio si adatta ai dati conosciuti dal medico che dovrà effettuare la diagnosi (informazioni e conoscenze possedute). In realtà il processo diagnostico è un processo decisionale complesso ed esistono differenti tipi di approccio alla diagnosi. Di seguito sono definiti tre possibili diversi approcci alla diagnosi. 2 A. APPROCCIO CAUSALE Esempio. Dati in possesso del medico: tetania, calcio basso e recente tiroidectomia parziale. Diagnosi: ipoparatiroidismo. Infatti: tetania ipocalcemia asportazione accidentale paratiroidi. B. APPROCCIO DEL TIPO RICONOSCIMENTO DEL MODELLO Esempio. Dati in possesso del medico: febbre, un ginocchio tumefatto e dolente, sfregamento pericardico, alto tasso di antistrepotisine. Diagnosi: febbre reumatica. Il quadro corrisponde infatti alla descrizione presente nei manuali. C. APPROCCIO PROBABILISTICO O BAYESIANO Esempio. Dati in possesso del medico: paziente con dolori colici e clisma opaco che ha evidenziato un restringimento del colon. Diagnosi: cancro del colon. In realtà, in presenza di questo quadro, c’è un’alta probabilità (non una certezza assoluta) di cancro al colon. 3 INSIEMI Un insieme è una collezione di oggetti, detti membri o elementi. Simbolismo Gli insiemi saranno normalmente indicati con lettere maiuscole (A, B, C, ecc.), mentre i loro elementi saranno indicati con lettere minuscole (a, b, c, ecc.). Il simbolo indica appartenenza (es.: aB), mentre indica non appartenenza (es.: aC). 4 Metodi di definizione di un insieme Un insieme può essere definito: elencando i suoi elementi (metodo della tabella); descrivendo le proprietà dei suoi elementi (metodo della proprietà). SOTTOINSIEMI Se ogni elemento di A appartiene a B allora A è un sottoinsieme di B (si utilizza il simbolismo AB [si legge A è contenuto in B] oppure BA [B contiene A]). Se AB e BA allora A e B sono uguali (A = B). N.B. A è un sottoinsieme proprio di B quando AB e AB. 5 INSIEME TOTALE E INSIEME VUOTO Verranno considerati sottoinsiemi di un particolare insieme che verrà detto universo. Riferendoci a questo insieme lo chiameremo anche l’insieme totale o lo spazio e lo indicheremo con U. Gli elementi dello spazio saranno detti anche punti dello spazio. Un insieme privo di elementi è detto insieme vuoto (o insieme nullo) ed è indicato con il simbolo . I DIAGRAMMI DI VENN Un universo U può essere geometricamente rappresentato mediante l’insieme dei punti interni ad un rettangolo, mentre un sottoinsieme di U è rappresentato dall’insieme dei punti interni ad una circonferenza. I diagrammi così ottenuti (detti diagrammi di Venn) sono spesso utili per indicare intuitivamente le relazioni fra insiemi. 6 OPERAZIONI INSIEMISTICHE 1. Unione. L’insieme di tutti gli elementi (o punti) che appartengono ad A oppure a B oppure ad entrambi è detto l’unione di A e B ed è indicato come AB (ombreggiato in figura sotto). 2. Intersezione. L’insieme di tutti gli elementi che appartengono sia ad A sia a B è detto l’intersezione di A e B ed è indicato con AB (ombreggiato in figura sotto). Se AB=, allora A e B sono detti insiemi disgiunti. 7 3. Differenza. L’insieme di tutti gli elementi di A che non appartengono a B è detta la differenza fra A e B ed è indicata con A – B (ombreggiato in figura sotto). 4. Complemento. Il complemento dell’insieme A è l’insieme dei punti di U che non appartengono ad A e verrà indicato con A’ (ombreggiato in figura sotto). Si noti che A’ = U – A. 8 ESPERIMENTI CASUALI Pensando ai classici esperimenti che lo studente ha fatto nei laboratori di chimica e/o di fisica, non è immediato rendersi conto della variabilità dei dati di tipo biomedico. Infatti, ad esempio, se si immerge ripetutamente una cartina blu di tornasole in una soluzione acida, essa si colora di rosso il 100% delle volte, non nella maggior parte (diciamo il 95%) dei casi. In questo caso è valido il principio fondamentale secondo cui, se si esegue ripetutamente l’esperimento nelle medesime condizioni, si arriva a risultati che sono essenzialmente uguali. Ci sono tuttavia esperimenti che, nonostante siano condotti nelle medesime condizioni, portano a risultati diversi. Esperimenti di questo tipo sono detti casuali. Ad esempio, se si somministra aspirina ad un gruppo di persone affette da cefalea, non tutti ne trarranno un beneficio sintomatico. Allo stesso modo il risultato ottenuto lanciando un dado o una moneta non è sempre lo stesso. 9 SPAZIO DEI CAMPIONI Un insieme S contenente tutti i possibili risultati di un esperimento casuale è detto lo spazio dei campioni e ciascun risultato è detto un punto campione. In pratica, con riferimento ad un esperimento casuale, S corrisponde all’insieme totale dei risultati dell’esperimento. Lo spazio dei campioni è detto finito se contiene un numero finito di punti. Lo spazio dei campioni è detto numerabile se i suoi punti possono essere numerati (messi in relazione con i numeri naturali). Lo spazio dei campioni è più che numerabile se i punti sono quelli contenuti in un determinato intervallo (ad esempio l’intervallo [0,1]). Uno spazio dei campioni finito o numerabile è detto discreto. Uno spazio dei campioni più che numerabile è detto continuo. 10 EVENTI Un evento è un sottoinsieme A dello spazio dei campioni S, cioè dei risultati possibili. Se il risultato di un esperimento è un elemento di A, si dirà che l’evento A si è verificato. Un evento può consistere di uno o più punti; se consiste di un solo punto è detto semplice o elementare. S è l’evento sicuro o certo, mentre è l’evento impossibile. Dal momento che gli eventi sono insiemi, ogni affermazione concernente gli eventi può essere traslata nel linguaggio della teoria degli insiemi e viceversa. 11 Usando le operazioni insiemistiche sugli eventi di S, si possono definire nuovi eventi di S. Così, dati gli eventi A e B, possiamo definire: AB come l’evento “A oppure B o entrambi”; AB come l’evento “sia A sia B”; A’ come l’evento “non A”; A – B come l’evento “A ma non B”. Se gli insiemi corrispondenti agli eventi A e B sono disgiunti, cioè se AB=, si dirà che gli eventi A e B sono mutuamente esclusivi. In altre parole, due eventi sono mutuamente esclusivi quando non possono verificarsi contemporaneamente. 12 ESEMPIO Si consideri l’esperimento consistente nel doppio lancio di una moneta. Indichiamo con A l’evento “si presenta almeno una testa” e con B l’evento “il risultato del secondo lancio è croce”. Allora: A = {TC,CT,TT} B = {TC,CC} ed anche: AB = {TC,CT,TT,CC} = S AB = {TC} A’ = {CC} A-B = {CT,TT} 13 IL CONCETTO DI PROBABILITÀ In ogni esperimento casuale non si sa mai se un determinato evento si presenterà oppure no. Per misurare questa chance o probabilità è conveniente allora assegnargli un numero compreso fra 0 e 1 (o, in modo equivalente, fra 0 e 100%). Se siamo sicuri che l’evento si presenterà, diremo che la sua probabilità è pari a 1 (o al 100%), mentre se siamo sicuri che l’evento non si verificherà, diremo che la sua probabilità è 0. Se poi, ad esempio, la probabilità di un evento è 0,3, diremo che c’è una probabilità del 30% che l’evento si verifichi e del 70% che non si verifichi. Esistono diversi approcci per definire la probabilità di un evento. 14 1. APPROCCIO CLASSICO O A PRIORI Se un evento si può verificare in h modi diversi su n possibili, essendo questi tutti ugualmente possibili, allora la probabilità di tale evento è h/n. 2. APPROCCIO FREQUENTISTICO O A POSTERIORI Se, dopo avere ripetuto n volte un esperimento (n deve essere molto grande) un evento si è verificato h volte, allora la probabilità di questo evento è h/n. Questa probabilità è anche detta probabilità empirica di un evento. 3. APPROCCIO ASSIOMATICO Sia l’approccio classico sia quello frequentistico vanno incontro a serie difficoltà: il primo a causa dell’espressione “ugualmente possibile” e il secondo per avere supposto “n molto grande”. Per queste difficoltà i matematici preferiscono un approccio assiomatico alla probabilità, che si basa su un modello che parte dalla definizione di tre assiomi ed impiega la teoria degli insiemi. 15 GLI ASSIOMI DELLA PROBABILITÀ Si supponga di avere uno spazio dei campioni S. A ciascun evento A si associa un numero reale P(A), detto probabilità dell’evento A. P sarà chiamata funzione di probabilità e dovranno essere soddisfatti i seguenti assiomi. ASSIOMA 1. Per ogni evento A si ha P(A)0. ASSIOMA 2. Per l’evento certo S si ha P(S)=1. ASSIOMA 3. Per ogni numero di eventi mutuamente esclusivi A1, A2, A3,.... si ha: P(A1A2A3...) = P(A1) + P(A2) + P(A3) +.... In particolare per due eventi A1 e A2 mutuamente esclusivi si ha: P(A1A2) = P(A1) + P(A2) 16 ALCUNI IMPORTANTI TEOREMI SULLA PROBABILITÀ TEOREMA 1. Per ogni evento A si ha 0P(A)1. TEOREMA 2. P()=0. TEOREMA 3. Se A=A1A2....AN ed A1, A2, ...., AN sono mutuamente esclusivi allora P(A)=P(A1)+P(A2)+ ....+P(AN). In particolare, se A = S allora P(A1)+P(A2)+ ....+P(AN) = 1. TEOREMA 4. Se A e B sono due eventi qualunque, allora P(AB) = P(A)+P(B)–P(AB). TEOREMA 5. P(A’)=1–P(A). TEOREMA 6. Se A1A2 allora P(A1)P(A2) e P(A2–A1)=P(A2)–P(A1). TEOREMA 7. Se un evento A segue da uno degli eventi mutuamente esclusivi A1, A2, ...., AN allora P(A)=P(AA1)+P(AA2)+ ....+P(AAN). 17 ASSEGNAZIONE DI PROBABILITÀ Se uno spazio dei campioni S contiene solo n eventi elementari A1, A2, ...., An, allora per il teorema 3 vale la relazione P(A1) + P(A2) + .... + P(An) = 1 Ne consegue che è possibile scegliere arbitrariamente qualunque numero non negativo come probabilità di questi eventi elementari, purché sia soddisfatta la relazione riportata sopra. Una particolare scelta è quella di supporre gli n eventi elementari equiprobabili, ovvero P(Ai) = 1/n per i=1, 2, ..., n. In questo caso, se A è un qualunque evento formato a partire da h di tali eventi semplici, si ha: P(A) = h/n N.B. Una tale procedura equivale ad utilizzare l’approccio classico o a priori. 18 Naturalmente è possibile usare procedure diverse da quella sopra descritta per assegnare le probabilità. Ad esempio si potrebbe scegliere di assegnare le probabilità ai singoli eventi elementari: ☐ utilizzando l’approccio frequentistico o a posteriori, ☐ utilizzando conoscenze che si hanno sul problema in esame, ☐ facendo ipotesi ragionevoli sulla probabilità che si intende assegnare ai vari eventi elementari. Un’assegnazione di probabilità costituisce un modello matematico la cui validità deve essere verificata sperimentalmente. 19 ESEMPIO In un problema di genetica si suppone che ci siano solo due alleli diversi A e a in una certa posizione. Si accoppia il genotipo Aa e Aa secondo la seguente regola: 20 Una regola della genetica afferma che le quattro combinazioni AA, Aa, aA, aa sono ugualmente probabili. Questa conoscenza che si ha sul problema ci permette di assegnare ad ognuna delle precedenti combinazioni una probabilità pari a ¼. Va però tenuto conto anche del fatto che i due accoppiamenti Aa e aA non possono essere distinti biologicamente, per cui queste combinazioni costituiranno un unico evento che verrà semplicemente indicato con Aa e che corrisponde ad una combinazione Aa o aA. Dato che le due combinazioni Aa e aA sono mutuamente esclusive, la probabilità dell’evento unione delle due sarà P(Aa) = ¼ + ¼ = ½ Il risultato dell’incrocio Aa x Aa è quindi caratterizzato dalle probabilità: P(AA) = ¼ = 0,25 P(Aa) = ½ =0,50 P(aa) = ¼ = 0,25 21 PROBABILITÀ CONDIZIONATA Siano A e B due eventi (figura sotto) tali che P(A)>0. Si denoti con P(BA) la probabilità dell’evento B quando si suppone che A si sia verificato. Dal momento che A si è verificato, A diviene il nuovo spazio dei campioni in sostituzione di S. Da questa considerazione siamo condotti alla seguente definizione P(BA) = P(AB)/P(A) P(AB) = P(A)·P(BA) P(BA) è detta probabilità di B condizionata ad A 22 ESEMPIO 1 Dato un mazzo di carte (52 carte), eliminiamo dal mazzo le sei carte di quadri più basse. Rimarranno 46 carte di cui 7 carte sono quadri (insieme A) e 12 sono figure (insieme B). Lo spazio dei campioni S è l’insieme di tutte le 46 carte, mentre il sottoinsieme AB è formato da 3 elementi (le 3 figure di quadri). 23 Da quanto detto è possibile trarre le seguenti conclusioni: ☐ probabilità di estrarre una carta di quadri P(A) = 7/46; ☐ probabilità di estrarre una figura P(B) = 12/46; ☐ probabilità condizionata di una figura data una carta di quadri P(BA) = P(BA)/P(A) = (3/46)/(7/46)=3/7 ☐ probabilità condizionata di una carta di quadri data una figura P(AB) = P(AB)/P(B) = (3/46)/(12/46)=1/4 OSSERVAZIONE IMPORTANTE. È immediato notare che: P(AB) P(BA) e inoltre: P(AB) = P(A) P(BA) = P(B) P(AB) 24 ESEMPIO 2 Si consideri la probabilità di morte nella nostra società. La tabella sotto ci fornisce qualche informazione. In base a questi dati quale è la probabilità che una persona di 20 anni muoia prima di raggiungere i 30 anni? 25 È chiaro che non possiamo prendere semplicemente il quoziente di mortalità del terzo decennio riportato in tabella. Dobbiamo infatti trovare una probabilità condizionata P(BA), tenendo conto che la persona in esame è già sopravvissuta per 20 anni. Quindi lo spazio dei campioni A a cui si deve fare riferimento consiste nell’evento morti dopo il secondo decennio. Dalla tabella precedente ricaviamo dunque: P(A) = 1,21 + 1,84 + 4,31 + 9,69 + 18,21 + 27,28 + 33,58 = 96,12 B indicherà l’evento morto prima del quarto decennio. AB è l’evento intersezione che ci interessa nel calcolo della probabilità condizionata che si vuole valutare. La probabilità di questo evento è quella riportata in tabella nella classe di età 20-30 anni, cioè 1,21%. 26 In conclusione si ha: P(BA) = P(AB)/P(A) = 1,21/96,12 = 0,0126 = 1,26% 27 TEOREMI SULLA PROBABILITÀ CONDIZIONATA TEOREMA 1. Per 3 eventi qualunque A, B, C vale la relazione P(ABC) = P(A) P(BA) P(CAB) Il teorema si generalizza facilmente a n eventi. TEOREMA 2. Se un evento A segue da uno degli eventi A1, A2,...., An, tra loro mutuamente esclusivi, allora P(A) = P(A1) P(AA1) + P(A2) P(AA2) + .... + P(An) P(AAn) 28 EVENTI INDIPENDENTI Se, dati due eventi A e B, P(BA) = P(B) allora diremo che A e B sono eventi indipendenti. In questo caso si ha: P(AB) = P(A) P(B) Inversamente se vale la precedente relazione, allora A e B sono eventi indipendenti. Più in generale, presi tre eventi A1, A2, A3, essi sono indipendenti se: • sono indipendenti a due a due, ovvero P(AiAj) = P(Ai) P(Aj) • con ij e i, j=1,2,3 e, inoltre, P(A1A2A3) = P(A1) P(A2) P(A3) Le due precedenti condizioni devono valere contemporaneamente perché i tre eventi siano indipendenti. Anche in questo caso è facile generalizzare a più di tre eventi. 29 REGOLA O TEOREMA DI BAYES Si supponga che A1, A2, ...., An siano eventi mutuamente esclusivi, la cui unione è lo spazio dei campioni S (uno di questi eventi si deve perciò necessariamente verificare). Se allora A è un generico evento, vale il seguente teorema P ( Ak | A) P ( Ak ) P ( A | Ak ) n P ( Ai ) P ( A | Ai ) i 1 Questo teorema (regola di Bayes) ci permette di calcolare le probabilità degli eventi A1, A2, ...., An che possono essere la causa del verificarsi dell’evento A. 30 Per questa ragione il teorema di Bayes è anche conosciuto come un teorema che tratta delle probabilità delle cause. N.B. Già nell’esempio delle carte si era trovato il teorema di Bayes nella sua formulazione più semplice; avevamo infatti osservato che P (B | A ) P (B ) P ( A | B ) P ( A) 31 TEOREMA DI BAYES ED ESPERIENZA CLINICA L’esempio delle carte da gioco interessa da vicino il processo diagnostico che si basa sull’approccio probabilistico o bayesiano. Infatti nei testi di medicina interna si può trovare l’informazione che una certa percentuale di pazienti sofferenti di una malattia presentano particolari caratteri nosografici. Tale informazione rappresenta, da un punto di vista formale, una probabilità condizionata del tipo P(A|B) dove A è un certo tipo di carattere nosografico e B una determinata malattia. 32 ESEMPIO L’emottisi è il sintomo iniziale del 10% dei casi di cancro del polmone, per cui si ha: P(emottisi|cancro del polmone) = 0,10 Questa probabilità condizionata rappresenta una probabilità nosologica ed ha uno scarso valore diretto. Infatti il medico si trova di fronte ad un problema differente: Un paziente ha avuto emottisi. Quale è la probabilità che esso abbia un cancro del polmone? 33 Questa seconda probabilità condizionata rappresenta una probabilità diagnostica, che può essere calcolata usando il teorema di Bayes. Infatti, indicato con A l’evento emottisi e con B l’evento cancro del polmone, la probabilità diagnostica che il medico vuole valutare può essere ricavata come: P (B ) P ( A | B ) P (B | A ) P ( A) Il calcolo della probabilità diagnostica P(cancro del polmone|emottisi) richiede quindi di conoscere, oltre alla probabilità nosologica P(emottisi|cancro del polmone), anche le due probabilità assolute P(cancro del polmone) e P(emottisi). Se le conoscenze del medico sulle P(cancro del polmone) e P(emottisi) sono imprecise anche la stima della probabilità diagnostica P(cancro del polmone|emottisi) sarà scarsamente precisa e quindi inutile dal punto di vista clinico. 34 Teorema di Bayes e test diagnostici È noto che la valutazione della validità di un test diagnostico viene effettuata sottoponendo al test stesso un gruppo di soggetti sicuramente affetti dalla malattia (M+) ed un gruppo di soggetti sicuramente non affetti da tale patologia (M–). I risultati ottenuti possono essere schematizzati nella seguente tabella 2x2, dove con TD+ e TD– si intende rispettivamente la positività o negatività al test diagnostico. 35 a b c d è il numero di pazienti è il numero di pazienti è il numero di pazienti è il numero di pazienti veri positivi (VP); falsi positivi (FP); falsi negativi (FN); veri negativi (VN). La sensibilità del test (SE) è stimata come SE VP 100 VP FN mentre la specificità (SP) è SP VN 100 VN FP 36 SE rappresenta dunque la probabilità di risultare positivi al test sotto la condizione di essere malati, mentre SP è la probabilità di risultare negativi al test sotto la condizione di non essere malati. Esse sono cioè probabilità condizionate ed esattamente SE P (TD | M ) SP P (TD | M ) Analogamente a quanto visto per la specificità e sensibilità possiamo concludere che anche il valore predittivo positivo (VPP) e il valore predittivo negativo (VPN) del test diagnostico sono probabilità condizionate. In particolare VPP VP 100 P (M | TD ) VP FP VN VPN 100 P (M | TD ) VN FN 37 VPP è pertanto la probabilità di essere malato, sotto la condizione di risultare positivo al test diagnostico, mentre VPN è la probabilità di non essere affetto dalla patologia in studio, sotto la condizione di risultare negativo al test diagnostico. Applicando il teorema di Bayes si ha P (M | TD ) P (M | TD ) P (M ) P (TD | M ) P (M ) P (TD | M ) P (TD ) P (M ) P (TD | M ) P (M ) P (TD | M ) P (M ) P (TD | M ) P (M ) P (TD | M ) P (TD ) P (M ) P (TD | M ) P (M ) P (TD | M ) Si può inoltre notare che P(M+) è la prevalenza vera della malattia (PV) e che P(M –) sarà uguale a 1 – P(M+). 38 Infine è immeditato vedere che: P (TD | M ) 1 P (TD | M ) P (TD | M ) 1 P (TD | M ) Tutto ciò ci porta a trovare le seguenti relazioni che legano sensibilità, specificità, valore predittivo positivo, valore predittivo negativo e prevalenza in un test diagnostico. VPP PV SE PV SE (1 PV ) (1 SP ) VPN (1 PV ) SP (1 PV ) SP PV (1 SE ) Emerge quindi che VPP e VPN dipendono non solo da SE e da SP, ma anche dalla prevalenza della malattia in studio. 39 CLASSIFICATORI BAYESIANI L’applicazione del teorema di Bayes per calcolare il VPP ed il VPN di test diagnostici è un semplice esempio di classificatore bayesiano. Più in generale, un classificatore bayesiano è un modello che, utilizzando il teorema di Bayes, classifica un paziente in una determinata classe. Il classificatore bayesiano ha prestazioni minimizza il rischio di errata classificazione. ottimali, cioè OSSERVAZIONE La regola di Bayes implica la conoscenza delle probabilità assolute (a priori) e condizionate relative al problema. Queste non sono però note nella pratica clinica. 40 Nella pratica, non conoscendo le probabilità relative al problema, si cerca di stimarle utilizzando i dati a disposizione. Facendo riferimento all’esempio precedente, i valori di PV, SE e SP sono stimati basandosi sui dati misurati nel campione impiegato. Quando è possibile ottenere stime affidabili delle probabilità coinvolte nel teorema, il classificatore bayesiano è un buon modello da utilizzare in ambito clinico. Nel linguaggio comune, con il termine classificatore bayesiano ci si riferisce spesso al classificatore bayesiano naif (Naive Bayes Classifier), ossia ad un classificatore bayesiano semplificato con un modello di probabilità sottostante che fa l'ipotesi di indipendenza delle feature (variabili misurate sul paziente). In queste ipotesi semplificate (dette appunto naif o anche idiot), il modello è di solito facilmente realizzabile. 41