Il teorema di Bayes
Per arrivare a comprendere il teorema di Bayes è utile partire
da questa osservazione relativa al solito lancio di un normale
dado:
La probabilità che esca un numero pari, dato che esce 2 è 1.
Ma la probabilità che esca 2 dato che esce un numero pari
non è 1, ma 1/3. Questo significa che il valore di Pr (Pari/2)
non è uguale al valore di Pr (2/Pari). Questo significa anche
che il valore della probabilità condizionale non è determinato
solamente dal valore della sua conversa.
Tuttavia il valore della probabilità condizionata può essere
calcolato a partire dal valore della sua conversa, e ciò è
molto utile nei casi nei quali non è noto il valore della
probabilità condizionale ma lo è quello della sua conversa. Il
calcolo da fare è quello indicato dal teorema di Bayes.
Una versione semplice del teorema di Bayes
Pr (P & Q)
Pr (Q/P) = --------------- (per definizione di probabilità condizionata)
Pr (P)
Pr (P& Q)
Pr (Q/P) = ----------------------------Pr ((P&Q)  (P&Q))
Pr (P&Q)
Pr (Q/P) = ---------------------------Pr(P&Q) + Pr(P&Q)
(per l’equivalenza logica di
P con (P&Q)  (P&Q) )
(per la mutua esclusività di
(P&Q) e (P&Q) )
da cui, applicando il teorema generale della congiunzione:
Pr (Q)  Pr (P/Q)
Pr (Q/P) = -----------------------------------------------------[Pr (Q)  Pr (P/Q)] + [Pr (Q)  Pr (P/Q)]
Pr (Q) e Pr (Q) sono dette probabilità a priori e, come si
vede dall’ultima formulazione del teorema, anch’esse devono
essere conosciute per poter calcolare
la probabilità
condizionale
probabilità
posteriori.
Pr(Q/P),
spesso
chiamata
a
Esempio di applicazione del teorema di Bayes
Abbiamo le seguenti due urne:
Urna 1: 8 palle rosse e 2 palle nere
Urna 2: 2 palle rosse ed 8 palle nere
Supponiamo di scegliere un’urna lanciando una moneta e poi,
senza sapere quale sia l’urna scelta, immaginiamo di estrarre
un palla.
Problema: qual è la probabilità che sia stata selezionata l’urna
1 dato che abbiamo estratto una palla rossa?
Soluzione
Pr (u1)  Pr (rossa/u1)
Pr(u1/rossa) = --------------------------------------------------------------[Pr(u1)  Pr(rossa/u1)] + [Pr (u1)  Pr(rossa/u1)]
Pr (u1) = ½
Pr (u1) = ½
Pr (rossa/u1) = 8/10
Pr (rossa/u1) = 2/10
Quindi:
½  8/10
Pr(u1/rossa) = --------------------------------- = 4/5
(1/2  8/10) + (1/2  2/10)
Un modo per comprendere il teorema di Bayes:
pensare in termini di frequenze relative!
Oltre
all’interpretazione
logico-matematica,
alla
quale
abbiamo fatto riferimento fino ad ora, ci sono altre due
interpretazioni della probabilità, basate, rispettivamente,
sull’idea della probabilità con frequenza e sull’idea della
probabilità come grado di fiducia.
La concezione frequentista
Per un frequentista la probabilità di un evento deve basarsi su
di un numero elevato di osservazioni effettuate, in condizioni
ben specificate, su un determinata popolazione, detta classe di
riferimento. In particolare, la probabilità condizionale si
identifica con la frequenza relativa; ad esempio, la probabilità
di contrarre un cancro polmonare data la condizione di
maschio bianco e fumatore per almeno vent’anni si identifica
con la frequenza relativa del cancro polmonare fra i maschi
bianchi che hanno fumato sigarette per almeno venti anni
entro una data popolazione, che costituisce la classe di
riferimento.
Esempi di cosa vuol dire
pensare in termini di frequenze
Screening del cancro al seno.
Per facilitare la diagnosi precoce del cancro al seno le donne a
partire da una certa età vengono incoraggiate a sottoporsi ad
intervalli regolari a controlli sistematici, anche se non hanno
alcun sintomo conclamato. Immaginate di essere dei medici
che conducono – in una certa regione – uno screening
mammografico del cancro al seno, e supponete che riguardo
alle donne fra i 40 ed i 50 anni di questa regione
asintomatiche si siano statisticamente stabilite le seguenti
probabilità:
La probabilità che una di loro abbia un cancro al seno è dell’
0,8 %.
Se una donna ha il cancro al seno la probabilità che il suo
mammogramma sia positivo è del 90%.
Se non ha il cancro al seno c’è comunque una probabilità del
7% che il suo mammogramma sia positivo.
Problema:
Supponiamo che una donna abbia un mammogramma
positivo: quanto è probabile che abbia effettivamente il
cancro?
Ciò significa chiedersi:
Pr(cancro/mammografia positiva)?
Soluzione mediante l’applicazione del teorema di Bayes
Pr (Q)  Pr (P/Q)
Pr (Q/P) = -------------------------------------------------------[Pr (Q)  Pr (P/Q)] + [Pr (Q)  Pr (P/Q)]
Pr(malattia)  Pr(positivo/malattia)
Pr(malattia/positivo)= ---------------------------------------------------------------------------------------------------Pr(malattia)Pr(positivo/malattia) + Pr(non-malattia)Pr(positivo/non-malattia)
Pr (malattia) = 0.008
Pr (positivo/malattia) = 0.9
Pr (positivo/non-malattia) = 0.07
Pr (non malattia) = 0.992
0.008  0.9
Pr(malattia/positivo) = -----------------------------------(0.008  0.9) + (0.992  0.07)
Soluzione mediante la rappresentazione delle frequenze
In termini di frequenze naturali la formula di Bayes risulta
essere particolarmente semplice.
Siano:
a = il numero dei soggetti positivi aventi la malattia
b = il numero dei soggetti positivi senza la malattia
Il teorema di Bayes chiede semplicemente di calcolare
a
------a+b
Il calcolo può essere rappresentato graficamente:
1000 donne
8 malate
7 positive
1 negativa
992 sane
70 positive
922 negative
Dal grafo si vede subito che ci sono 7 malate tra le 77
positive, un po’ meno del 10%, e dunque la probabilità di
essere malata dato il mammogramma positivo è di circa 0,09.
[N.B.: Applicando direttamente il teorema di Bayes come si è
fatto sopra, il valore risultante è 0,1. La differenza dipende da
una approssimazione fatta nella rappresentazione grafica]
Maschi a rischio di Hiv
Circa lo 0,01% dei maschi senza comportamenti a rischio ha
l’infezione di Hiv.
Se uno di questi uomini ha il virus c’è una probabilità del
99,9 % che il risultato dell’esame sia positivo.
Se invece non è infetto c’è una probabilità del 99,99% che il
risultato sia negativo.
Quanto è probabile che un uomo con test positivo abbia
realmente il virus?
Soluzione mediante l’applicazione del teorema di Bayes
Pr (Q)  Pr (P/Q)
Pr (Q/P) = -------------------------------------------------------[Pr (Q)  Pr (P/Q)] + [Pr (Q)  Pr (P/Q)]
Pr(malattia)  Pr(positivo/malattia)
Pr(malattia/positivo)= ---------------------------------------------------------------------------------------------------Pr(malattia)Pr(positivo/malattia) + Pr(non-malattia)Pr(positivo/non-malattia)
Pr (malattia) = 0.0001
Pr (positivo/malattia) = 0.999
Pr (positivo/non-malattia) = 0.0001
Pr (non malattia) = 0.9999
(1 – 0,9999)
0.0001  0.999
0.0000999
Pr(malattia/positivo) = --------------------------------------------- = ----------------- = 0.4997…
(0.0001  0.999) + (0.9999  0.0001)
0.00019989
Soluzione mediante la rappresentazione delle frequenze
10000
maschi
1
con HIV
1
positivo
0
negativi
9.999
senza HIV
1
positivo
9.998
negativi
Si vede chiaramente che 1 su 2 positivi ha l’HIV e dunque
Pr(HIV/positivo) = 0,5 (circa)
Un rompicapo
Uno psicologo ha proposto il seguente test a delle casalinghe
(ma anche se fosse stato proposto a una qualunque altra
categoria sociale i risultati non sarebbero stati migliori):
È stato inventato uno screening di massa per una malattia il
cui nome è la psilicrapite. Il sistema è eccellente ma non
perfetto. Se una persona è affetta da psilicrapite c’è una
probabilità del 90% che risulti positiva. Se non ne è affetta
c’è comunque una probabilità dell’1% che risulti positiva.
Circa l’1% della popolazione ha questa malattia.
Pino è stato controllato ed è risultato positivo. Qual è la
probabilità che sia veramente malato?
Le casalinghe non andarono molto bene. In media hanno
sostenuto che Pino avesse l’85% di probabilità di soffrire di
questa malattia immaginaria.
Qual è la probabilità corretta che abbia questa malattia?
Di nuovo, mettiamo la faccenda in termini di frequenza al
fine di poterla esaminare chiaramente:
Pensiamo a 100 persone. Una ha la psilicrapite, ed è probabile
che risulti positiva all’esame. Anche fra le 99 che non ce
l’hanno una risulterà positiva.
Quante di quelle che risultano positive hanno veramente la
malattia?
Costruiamo il nostro albero delle frequenze.
100 persone
1 malata
1 positiva
0 negative
99 sane
1 positiva
98 negative
Esausitività ed esclusività
Una serie di eventi A1, A2, …, An è esaustiva se Pr(A1 
A2 … An) = 1
Esempi:
la serie degli esiti del lancio di un dado
A & B, A & B, A & B, A & B.
Una serie di eventi A1, A2, …, An, è mutuamente esclusiva se
per ogni coppia Ai, Aj della serie Pr(Ai & Aj) = 0
Esempi:
Le serie esaustive sopra riportate sono anche mutuamente
esclusive, ma lo è anche la serie A & B, A & B, A & B,
che non è – in generale – esaustiva.
Teorema
Se A1, A2, …, An è una serie esaustiva e mutuamente
esclusiva, Pr(B) = Pr(A1 & B) + Pr(A2 & B) + …+ Pr(An & B).
Versione generalizzata del teorema di Bayes
Se A1, A2, …, An è una serie esaustiva e mutuamente
esclusiva e Ai è un membro qualsiasi di questa serie, allora:
Pr(Ai)  Pr(B/Ai)
Pr(Ai/B) = --------------------------------------------------------------------Pr(A1)Pr(B/A1) + Pr(A2)Pr(B/A2) + …+ Pr(An)Pr(B/An)
Nell’interpretazione cosiddetta soggettiva della probabilità,
secondo la quale la probabilità misura il grado di fiducia in
una proposizione, il teorema di Bayes può essere applicato
per calcolare
la probabilità che una certa ipotesi
esplicativa sia vera dato un determinato fenomeno
osservato. La versione generale del teorema permette di
calcolare e confrontare le probabilità di ipotesi alternative
distinte sulla base dell’osservazione di un dato fenomeno,
purché – come chiede la versione generale del teorema - le
ipotesi costituiscano una serie esaustiva e mutuamente
esclusiva.
Probabilità condizionale e probabilità del condizionale
Pr (A  B) = Pr (A) + Pr (A)  Pr (B/A)
Dimostrazione.
A  B è vero-funzionalmente equivalente a  (A & B) e
quindi per il teorema 4
Pr(A  B) = Pr((A & B))
Per il teorema 1
Pr((A & B)) = 1 - Pr(A & B)
Per il teorema generale della congiunzione
Pr(A & B) = Pr (A)  Pr (B/A)
Dunque
Pr(A  B) = 1- (Pr(A)  Pr(B/A))
È un teorema (es.10.27):
Pr(B/A) = 1 - Pr(B/A)
E quindi
Pr(A  B) = 1- (Pr(A)  (1 - Pr(B/A)))
da cui
Pr(A  B) = 1- (Pr(A) - Pr(A)Pr(B/A))
e poi
Pr(A  B) = 1- Pr(A) + Pr(A)Pr(B/A)
Per il teorema 1
1- Pr(A) = Pr(A)
e quindi
Pr(A  B) = Pr(A) + Pr(A)Pr(B/A)
Il teorema mostra che Pr(A  B) = Pr(B/A) se
Pr(A) = 1 e quindi Pr(A) = 0. Negli altri casi,
in generale, Pr(A  B)  Pr(B/A).