+P(A A N )

Unità 12
Probabilità condizionata
Teorema di Bayes
Classificazione bayesiana
1
PROBABILITÀ E PROCESSI DECISIONALI
SEMPLICE DEFINIZIONE DI DIAGNOSI CLINICA
PRESUPPOSTI:
 Studio del quadro nosografico del paziente
 Conoscenza della descrizione nosologica delle varie malattie
Soddisfatti i due presupposti sarà possibile prendere decisioni circa il
tipo di malattia che meglio si adatta ai dati conosciuti dal medico che
dovrà effettuare la diagnosi (informazioni e conoscenze possedute).
In realtà il processo diagnostico è un processo decisionale
complesso ed esistono differenti tipi di approccio alla diagnosi.
Di seguito sono definiti tre possibili diversi approcci alla diagnosi.
2
A. APPROCCIO CAUSALE
Esempio.
Dati in possesso del medico: tetania, calcio basso e recente tiroidectomia
parziale.
Diagnosi: ipoparatiroidismo.
Infatti: tetania  ipocalcemia  asportazione accidentale paratiroidi.
B. APPROCCIO DEL TIPO RICONOSCIMENTO DEL MODELLO
Esempio.
Dati in possesso del medico: febbre, un ginocchio tumefatto e dolente,
sfregamento pericardico, alto tasso di antistrepotisine.
Diagnosi: febbre reumatica.
Il quadro corrisponde infatti alla descrizione presente nei manuali.
C. APPROCCIO PROBABILISTICO O BAYESIANO
Esempio.
Dati in possesso del medico: paziente con dolori colici e clisma opaco che
ha evidenziato un restringimento del colon.
Diagnosi: cancro del colon.
In realtà, in presenza di questo quadro, c’è un’alta probabilità (non una
certezza assoluta) di cancro al colon.
3
INSIEMI
Un insieme è una collezione di oggetti, detti membri o
elementi.
Simbolismo
Gli insiemi saranno normalmente indicati con lettere
maiuscole (A, B, C, ecc.), mentre i loro elementi saranno
indicati con lettere minuscole (a, b, c, ecc.).
Il simbolo  indica appartenenza (es.: aB), mentre  indica
non appartenenza (es.: aC).
4
Metodi di definizione di un insieme
Un insieme può essere definito:
 elencando i suoi elementi (metodo della tabella);
 descrivendo le proprietà dei suoi elementi (metodo della
proprietà).
SOTTOINSIEMI
Se ogni elemento di A appartiene a B allora A è un
sottoinsieme di B (si utilizza il simbolismo AB [si legge A è
contenuto in B] oppure BA [B contiene A]).
Se AB e BA allora A e B sono uguali (A = B).
N.B. A è un sottoinsieme proprio di B quando AB e AB.
5
INSIEME TOTALE E INSIEME VUOTO
Verranno considerati sottoinsiemi di un particolare insieme che verrà
detto universo. Riferendoci a questo insieme lo chiameremo anche
l’insieme totale o lo spazio e lo indicheremo con U. Gli elementi
dello spazio saranno detti anche punti dello spazio.
Un insieme privo di elementi è detto insieme vuoto (o insieme
nullo) ed è indicato con il simbolo .
I DIAGRAMMI DI VENN
Un universo U può essere geometricamente rappresentato mediante
l’insieme dei punti interni ad un rettangolo, mentre un sottoinsieme di
U è rappresentato dall’insieme dei punti interni ad una circonferenza.
I diagrammi così ottenuti (detti diagrammi di Venn) sono spesso utili
per indicare intuitivamente le relazioni fra insiemi.
6
OPERAZIONI INSIEMISTICHE
1. Unione. L’insieme di tutti gli elementi (o punti) che appartengono
ad A oppure a B oppure ad entrambi è detto l’unione di A e B ed è
indicato come AB (ombreggiato in figura sotto).
2. Intersezione. L’insieme di tutti gli elementi che appartengono sia
ad A sia a B è detto l’intersezione di A e B ed è indicato con AB
(ombreggiato in figura sotto).
Se AB=, allora A e B sono detti insiemi disgiunti.
7
3. Differenza. L’insieme di tutti gli elementi di A che non
appartengono a B è detta la differenza fra A e B ed è indicata con
A – B (ombreggiato in figura sotto).
4.
Complemento. Il complemento dell’insieme A è l’insieme dei
punti di U che non appartengono ad A e verrà indicato con A’
(ombreggiato in figura sotto). Si noti che A’ = U – A.
8
ESPERIMENTI CASUALI
Pensando ai classici esperimenti che lo studente ha fatto nei
laboratori di chimica e/o di fisica, non è immediato rendersi conto
della variabilità dei dati di tipo biomedico. Infatti, ad esempio, se si
immerge ripetutamente una cartina blu di tornasole in una soluzione
acida, essa si colora di rosso il 100% delle volte, non nella maggior
parte (diciamo il 95%) dei casi. In questo caso è valido il principio
fondamentale secondo cui, se si esegue ripetutamente
l’esperimento nelle medesime condizioni, si arriva a risultati che
sono essenzialmente uguali.
Ci sono tuttavia esperimenti che, nonostante siano condotti nelle
medesime condizioni, portano a risultati diversi. Esperimenti di questo
tipo sono detti casuali. Ad esempio, se si somministra aspirina ad un
gruppo di persone affette da cefalea, non tutti ne trarranno un
beneficio sintomatico. Allo stesso modo il risultato ottenuto lanciando
un dado o una moneta non è sempre lo stesso.
9
SPAZIO DEI CAMPIONI
Un insieme S contenente tutti i possibili risultati di un esperimento
casuale è detto lo spazio dei campioni e ciascun risultato è detto un
punto campione. In pratica, con riferimento ad un esperimento
casuale, S corrisponde all’insieme totale dei risultati dell’esperimento.
Lo spazio dei campioni è detto finito se contiene un numero finito di
punti.
Lo spazio dei campioni è detto numerabile se i suoi punti possono
essere numerati (messi in relazione con i numeri naturali).
Lo spazio dei campioni è più che numerabile se i punti sono quelli
contenuti in un determinato intervallo (ad esempio l’intervallo [0,1]).
 Uno spazio dei campioni finito o numerabile è detto discreto.
 Uno spazio dei campioni più che numerabile è detto continuo.
10
EVENTI
Un evento è un sottoinsieme A dello spazio dei campioni S,
cioè dei risultati possibili.
Se il risultato di un esperimento è un elemento di A, si dirà che
l’evento A si è verificato.
Un evento può consistere di uno o più punti; se consiste di un
solo punto è detto semplice o elementare.
S è l’evento sicuro o certo, mentre  è l’evento impossibile.
Dal momento che gli eventi sono insiemi, ogni affermazione
concernente gli eventi può essere traslata nel linguaggio della
teoria degli insiemi e viceversa.
11
Usando le operazioni insiemistiche sugli eventi di S, si possono
definire nuovi eventi di S. Così, dati gli eventi A e B, possiamo
definire:
AB come l’evento “A oppure B o entrambi”;
AB come l’evento “sia A sia B”;
A’ come l’evento “non A”;
A – B come l’evento “A ma non B”.
Se gli insiemi corrispondenti agli eventi A e B sono disgiunti, cioè
se AB=, si dirà che gli eventi A e B sono mutuamente
esclusivi. In altre parole, due eventi sono mutuamente
esclusivi
quando
non
possono
verificarsi
contemporaneamente.
12
ESEMPIO
Si consideri l’esperimento consistente nel doppio lancio di una
moneta. Indichiamo con A l’evento “si presenta almeno una testa” e
con B l’evento “il risultato del secondo lancio è croce”. Allora:
A = {TC,CT,TT}
B = {TC,CC}
ed anche:
AB = {TC,CT,TT,CC} = S
AB = {TC}
A’ = {CC}
A-B = {CT,TT}
13
IL CONCETTO DI PROBABILITÀ
In ogni esperimento casuale non si sa mai se un determinato
evento si presenterà oppure no. Per misurare questa chance o
probabilità è conveniente allora assegnargli un numero
compreso fra 0 e 1 (o, in modo equivalente, fra 0 e 100%).
Se siamo sicuri che l’evento si presenterà, diremo che la sua
probabilità è pari a 1 (o al 100%), mentre se siamo sicuri che
l’evento non si verificherà, diremo che la sua probabilità è 0.
Se poi, ad esempio, la probabilità di un evento è 0,3, diremo che c’è
una probabilità del 30% che l’evento si verifichi e del 70% che non
si verifichi.
Esistono diversi approcci per definire la probabilità di un
evento.
14
1. APPROCCIO CLASSICO O A PRIORI
Se un evento si può verificare in h modi diversi su n possibili,
essendo questi tutti ugualmente possibili, allora la probabilità di
tale evento è h/n.
2. APPROCCIO FREQUENTISTICO O A POSTERIORI
Se, dopo avere ripetuto n volte un esperimento (n deve essere
molto grande) un evento si è verificato h volte, allora la probabilità
di questo evento è h/n. Questa probabilità è anche detta
probabilità empirica di un evento.
3. APPROCCIO ASSIOMATICO
Sia l’approccio classico sia quello frequentistico vanno incontro a
serie difficoltà: il primo a causa dell’espressione “ugualmente
possibile” e il secondo per avere supposto “n molto grande”. Per
queste difficoltà i matematici preferiscono un approccio assiomatico
alla probabilità, che si basa su un modello che parte dalla
definizione di tre assiomi ed impiega la teoria degli insiemi.
15
GLI ASSIOMI DELLA PROBABILITÀ
Si supponga di avere uno spazio dei campioni S. A ciascun evento A
si associa un numero reale P(A), detto probabilità dell’evento A.
P sarà chiamata funzione di probabilità e dovranno essere
soddisfatti i seguenti assiomi.
ASSIOMA 1.
Per ogni evento A si ha P(A)0.
ASSIOMA 2.
Per l’evento certo S si ha P(S)=1.
ASSIOMA 3. Per ogni numero di eventi mutuamente esclusivi A1,
A2, A3,.... si ha:
P(A1A2A3...) = P(A1) + P(A2) + P(A3) +....
In particolare per due eventi A1 e A2 mutuamente esclusivi si ha:
P(A1A2) = P(A1) + P(A2)
16
ALCUNI IMPORTANTI TEOREMI SULLA PROBABILITÀ
TEOREMA 1. Per ogni evento A si ha 0P(A)1.
TEOREMA 2. P()=0.
TEOREMA 3. Se A=A1A2....AN ed A1, A2, ...., AN sono mutuamente
esclusivi allora P(A)=P(A1)+P(A2)+ ....+P(AN).
In particolare, se A = S allora P(A1)+P(A2)+ ....+P(AN) = 1.
TEOREMA 4. Se A e B sono due eventi qualunque, allora
P(AB) = P(A)+P(B)–P(AB).
TEOREMA 5.
P(A’)=1–P(A).
TEOREMA 6. Se A1A2 allora P(A1)P(A2) e P(A2–A1)=P(A2)–P(A1).
TEOREMA 7. Se un evento A segue da uno degli eventi mutuamente
esclusivi A1, A2, ...., AN allora
P(A)=P(AA1)+P(AA2)+ ....+P(AAN).
17
ASSEGNAZIONE DI PROBABILITÀ
Se uno spazio dei campioni S contiene solo n eventi elementari
A1, A2, ...., An, allora per il teorema 3 vale la relazione
P(A1) + P(A2) + .... + P(An) = 1
Ne consegue che è possibile scegliere arbitrariamente qualunque
numero non negativo come probabilità di questi eventi
elementari, purché sia soddisfatta la relazione riportata sopra.
Una particolare scelta è quella di supporre gli n eventi elementari
equiprobabili, ovvero P(Ai) = 1/n per i=1, 2, ..., n. In questo
caso, se A è un qualunque evento formato a partire da h di tali
eventi semplici, si ha:
P(A) = h/n
N.B. Una tale procedura equivale ad utilizzare l’approccio
classico o a priori.
18
Naturalmente è possibile usare procedure diverse da quella sopra
descritta per assegnare le probabilità. Ad esempio si potrebbe
scegliere di assegnare le probabilità ai singoli eventi elementari:
☐ utilizzando l’approccio frequentistico o a posteriori,
☐ utilizzando conoscenze che si hanno sul problema in esame,
☐ facendo ipotesi ragionevoli sulla probabilità che si intende
assegnare ai vari eventi elementari.
Un’assegnazione di probabilità costituisce
un modello matematico la cui validità deve
essere verificata sperimentalmente.
19
ESEMPIO
In un problema di genetica si suppone che ci siano solo due alleli
diversi A e a in una certa posizione. Si accoppia il genotipo Aa e
Aa secondo la seguente regola:
20
Una regola della genetica afferma che le quattro combinazioni AA,
Aa, aA, aa sono ugualmente probabili. Questa conoscenza che si
ha sul problema ci permette di assegnare ad ognuna delle
precedenti combinazioni una probabilità pari a ¼.
Va però tenuto conto anche del fatto che i due accoppiamenti Aa e
aA non possono essere distinti biologicamente, per cui queste
combinazioni costituiranno un unico evento che verrà
semplicemente indicato con Aa e che corrisponde ad una
combinazione Aa o aA.
Dato che le due combinazioni Aa e aA sono mutuamente
esclusive, la probabilità dell’evento unione delle due sarà
P(Aa) = ¼ + ¼ = ½
Il risultato dell’incrocio Aa x Aa è quindi caratterizzato dalle
probabilità:
P(AA) = ¼ = 0,25
P(Aa) = ½ =0,50
P(aa) = ¼ = 0,25
21
PROBABILITÀ CONDIZIONATA
Siano A e B due eventi (figura sotto) tali che P(A)>0.
Si denoti con P(BA) la probabilità dell’evento B quando si
suppone che A si sia verificato.
Dal momento che A si è verificato, A diviene il nuovo spazio dei
campioni in sostituzione di S. Da questa considerazione siamo
condotti alla seguente definizione
P(BA) = P(AB)/P(A)

P(AB) = P(A)·P(BA)
P(BA) è detta probabilità di B condizionata ad A
22
ESEMPIO 1
Dato un mazzo di carte (52 carte), eliminiamo dal mazzo le sei
carte di quadri più basse. Rimarranno 46 carte di cui 7 carte sono
quadri (insieme A) e 12 sono figure (insieme B).
Lo spazio dei campioni S è l’insieme di tutte le 46 carte, mentre il
sottoinsieme AB è formato da 3 elementi (le 3 figure di quadri).
23
Da quanto detto è possibile trarre le seguenti conclusioni:
☐ probabilità di estrarre una carta di quadri P(A) = 7/46;
☐ probabilità di estrarre una figura P(B) = 12/46;
☐ probabilità condizionata di una figura data una carta di quadri
P(BA) = P(BA)/P(A) = (3/46)/(7/46)=3/7
☐ probabilità condizionata di una carta di quadri data una figura
P(AB) = P(AB)/P(B) = (3/46)/(12/46)=1/4

OSSERVAZIONE IMPORTANTE. È immediato notare che:
P(AB)  P(BA)
e inoltre:
P(AB) = P(A) P(BA) = P(B) P(AB)
24
ESEMPIO 2
Si consideri la probabilità di morte nella nostra società. La tabella
sotto ci fornisce qualche informazione.
In base a questi dati quale è la probabilità che una persona di 20
anni muoia prima di raggiungere i 30 anni?
25
È chiaro che non possiamo prendere semplicemente il quoziente di
mortalità del terzo decennio riportato in tabella. Dobbiamo infatti
trovare una probabilità condizionata P(BA), tenendo conto che
la persona in esame è già sopravvissuta per 20 anni.
Quindi lo spazio dei campioni A a cui si deve fare riferimento
consiste nell’evento morti dopo il secondo decennio. Dalla
tabella precedente ricaviamo dunque:
P(A) = 1,21 + 1,84 + 4,31 + 9,69 + 18,21 + 27,28 + 33,58 = 96,12
B indicherà l’evento morto prima del quarto decennio.
AB è l’evento intersezione che ci interessa nel calcolo della
probabilità condizionata che si vuole valutare. La probabilità di
questo evento è quella riportata in tabella nella classe di età
20-30 anni, cioè 1,21%.
26
In conclusione si ha:
P(BA) = P(AB)/P(A) = 1,21/96,12 = 0,0126 = 1,26%
27
TEOREMI SULLA PROBABILITÀ CONDIZIONATA
TEOREMA 1. Per 3 eventi qualunque A, B, C vale la relazione
P(ABC) = P(A) P(BA) P(CAB)
Il teorema si generalizza facilmente a n eventi.
TEOREMA 2.
Se un evento A segue da uno degli eventi
A1, A2,...., An, tra loro mutuamente esclusivi, allora
P(A) = P(A1) P(AA1) + P(A2) P(AA2) + .... + P(An) P(AAn)
28
EVENTI INDIPENDENTI
Se, dati due eventi A e B, P(BA) = P(B) allora diremo che A e B
sono eventi indipendenti. In questo caso si ha:
P(AB) = P(A) P(B)
Inversamente se vale la precedente relazione, allora A e B sono
eventi indipendenti.
Più in generale, presi tre eventi A1, A2, A3, essi sono indipendenti se:
•
sono indipendenti a due a due, ovvero
P(AiAj) = P(Ai) P(Aj)
•
con ij
e
i, j=1,2,3
e, inoltre,
P(A1A2A3) = P(A1) P(A2) P(A3)
Le due precedenti condizioni devono valere contemporaneamente
perché i tre eventi siano indipendenti.
Anche in questo caso è facile generalizzare a più di tre eventi.
29
REGOLA O TEOREMA DI BAYES
Si supponga che A1, A2, ...., An siano eventi mutuamente
esclusivi, la cui unione è lo spazio dei campioni S (uno di questi
eventi si deve perciò necessariamente verificare).
Se allora A è un generico evento, vale il seguente teorema
P ( Ak | A) 
P ( Ak ) P ( A | Ak )
n
 P ( Ai ) P ( A | Ai )
i 1
Questo teorema (regola di Bayes) ci permette di calcolare le
probabilità degli eventi A1, A2, ...., An che possono essere la
causa del verificarsi dell’evento A.
30
Per questa ragione il teorema di Bayes è anche
conosciuto come un teorema che tratta delle probabilità
delle cause.
N.B. Già nell’esempio delle carte si era trovato il teorema di
Bayes nella sua formulazione più semplice; avevamo infatti
osservato che
P (B | A ) 
P (B ) P ( A | B )
P ( A)
31
TEOREMA DI BAYES ED ESPERIENZA CLINICA
L’esempio delle carte da gioco interessa da vicino il processo
diagnostico che si basa sull’approccio probabilistico o
bayesiano.
Infatti nei testi di medicina interna si può trovare
l’informazione che una certa percentuale di pazienti sofferenti
di una malattia presentano particolari caratteri nosografici.
Tale informazione rappresenta, da un punto di vista formale,
una probabilità condizionata del tipo P(A|B) dove A è un
certo tipo di carattere nosografico e B una determinata
malattia.
32
ESEMPIO
L’emottisi è il sintomo iniziale del 10% dei casi di
cancro del polmone, per cui si ha:
P(emottisi|cancro del polmone) = 0,10
Questa probabilità condizionata rappresenta una
probabilità nosologica ed ha uno scarso valore
diretto.
Infatti il medico si trova di fronte ad un problema
differente:
Un paziente ha avuto emottisi. Quale è la
probabilità che esso abbia un cancro del polmone?
33
Questa seconda probabilità condizionata rappresenta una
probabilità diagnostica, che può essere calcolata usando il
teorema di Bayes.
Infatti, indicato con A l’evento emottisi e con B l’evento cancro del
polmone, la probabilità diagnostica che il medico vuole valutare può
essere ricavata come:
P (B ) P ( A | B )
P (B | A ) 
P ( A)
Il calcolo della probabilità diagnostica P(cancro del polmone|emottisi)
richiede quindi di conoscere, oltre alla probabilità nosologica
P(emottisi|cancro del polmone), anche le due probabilità assolute
P(cancro del polmone) e P(emottisi).
Se le conoscenze del medico sulle P(cancro del polmone) e P(emottisi)
sono imprecise anche la stima della probabilità diagnostica P(cancro
del polmone|emottisi) sarà scarsamente precisa e quindi inutile dal
punto di vista clinico.
34
Teorema di Bayes e test diagnostici
È noto che la valutazione della validità di un test diagnostico viene
effettuata sottoponendo al test stesso un gruppo di soggetti
sicuramente affetti dalla malattia (M+) ed un gruppo di soggetti
sicuramente non affetti da tale patologia (M–).
I risultati ottenuti possono essere schematizzati nella seguente tabella
2x2, dove con TD+ e TD– si intende rispettivamente la positività o
negatività al test diagnostico.
35
a
b
c
d
è il numero di pazienti
è il numero di pazienti
è il numero di pazienti
è il numero di pazienti
veri positivi (VP);
falsi positivi (FP);
falsi negativi (FN);
veri negativi (VN).
La sensibilità del test (SE) è stimata come
SE 
VP
 100
VP  FN
mentre la specificità (SP) è
SP 
VN
 100
VN  FP
36
SE rappresenta dunque la probabilità di risultare positivi al test sotto la
condizione di essere malati, mentre SP è la probabilità di risultare
negativi al test sotto la condizione di non essere malati.
Esse sono cioè probabilità condizionate ed esattamente
SE  P (TD | M  )
SP  P (TD | M  )
Analogamente a quanto visto per la specificità e sensibilità possiamo
concludere che anche il valore predittivo positivo (VPP) e il valore
predittivo negativo (VPN) del test diagnostico sono probabilità
condizionate. In particolare
VPP 
VP
 100  P (M  | TD  )
VP  FP
VN
VPN 
 100  P (M  | TD  )
VN  FN
37
VPP è pertanto la probabilità di essere malato, sotto la condizione di
risultare positivo al test diagnostico, mentre VPN è la probabilità di non
essere affetto dalla patologia in studio, sotto la condizione di risultare
negativo al test diagnostico.
Applicando il teorema di Bayes si ha


P (M | TD ) 


P (M | TD ) 
P (M  )  P (TD  | M  )


P (M  )  P (TD  | M  )
P (TD )
P (M  )  P (TD  | M  )  P (M  )  P (TD  | M  )
P (M  )  P (TD  | M  )
P (M  )  P (TD  | M  )

P (TD )

P (M  )  P (TD  | M  )  P (M  )  P (TD  | M  )
Si può inoltre notare che P(M+) è la prevalenza vera della malattia (PV)
e che P(M –) sarà uguale a 1 – P(M+).
38
Infine è immeditato vedere che:
P (TD | M  )  1  P (TD | M  )
P (TD | M  )  1  P (TD | M  )
Tutto ciò ci porta a trovare le seguenti relazioni che legano
sensibilità, specificità, valore predittivo positivo, valore predittivo
negativo e prevalenza in un test diagnostico.
VPP 
PV  SE
PV  SE  (1  PV )  (1  SP )
VPN 
(1  PV )  SP
(1  PV )  SP  PV  (1  SE )
Emerge quindi che VPP e VPN dipendono non solo da SE e da SP,
ma anche dalla prevalenza della malattia in studio.
39
CLASSIFICATORI BAYESIANI
L’applicazione del teorema di Bayes per calcolare il VPP ed il
VPN di test diagnostici è un semplice esempio di
classificatore bayesiano.
Più in generale, un classificatore bayesiano è un modello che,
utilizzando il teorema di Bayes, classifica un paziente in una
determinata classe.
Il classificatore bayesiano ha prestazioni
minimizza il rischio di errata classificazione.
ottimali,
cioè
OSSERVAZIONE La regola di Bayes implica la conoscenza
delle probabilità assolute (a priori) e condizionate relative al
problema. Queste non sono però note nella pratica clinica.
40
Nella pratica, non conoscendo le probabilità relative al problema, si
cerca di stimarle utilizzando i dati a disposizione.
Facendo riferimento all’esempio precedente, i valori di PV, SE e SP
sono stimati basandosi sui dati misurati nel campione impiegato.
Quando è possibile ottenere stime affidabili delle probabilità
coinvolte nel teorema, il classificatore bayesiano è un buon modello
da utilizzare in ambito clinico.
Nel linguaggio comune, con il termine classificatore bayesiano ci si
riferisce spesso al classificatore bayesiano naif (Naive Bayes
Classifier), ossia ad un classificatore bayesiano semplificato con un
modello di probabilità sottostante che fa l'ipotesi di indipendenza
delle feature (variabili misurate sul paziente).
In queste ipotesi semplificate (dette appunto naif o anche idiot), il
modello è di solito facilmente realizzabile.
41