Approfondimento 4.1 Il teorema di Bayes

Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 4.1
1
Approfondimento 4.1
Il teorema di Bayes
Supponiamo che nella popolazione generale la prevalenza1 dei disturbi della personalità sia del 15%
(,15) e di aver sviluppato un test di screening in base al quale l’individuo viene dichiarato a rischio
disturbo di personalità se il suo punteggio è superiore a 75. Questo vuol dire che consideriamo
positivi al test gli individui che hanno un punteggio uguale o superiore a 75, e negativi quelli che
hanno un punteggi inferiore. Ora, se il test funzionasse perfettamente tutti i soggetti con disturbo
della personalità dovrebbero ottenere un punteggio uguale a superiore a 75, mentre tutti i soggetti
che non hanno un disturbo di personalità dovrebbero ottenere un punteggio inferiore a 75. In realtà
questa situazione ideale non avviene mai, perché a volte può capitare che il test risulti positivo per
individui che non hanno un disturbo di personalità (falsi positivi) e che risulti negativo per individui
che invece hanno un disturbo di personalità (falsi negativi) (Tabella 1).
Tabella 1 Possibili esiti della prestazione diagnostica di un test di screening
Diagnosi effettiva
Test
SI
NO
Positivo e malato
Positivo e non malato
Vero positivo
Falso positivo
Totale dei positivi al test
Positivo
Decisione corretta
Decisione sbagliata
a+b
a
b
Negativo e malato
Negativo e non malato
Totale dei negativi al
Falso negativo
Vero negativo
Negativo
test
Decisione sbagliata
Decisione corretta
c+d
c
d
Totale dei malati
Totale dei non malati
a+c
b+d
In base ai possibili esiti nel campione è possibile definire quattro indici:
•
Sensibilità (Sensitivity) = proporzione di Positivi rispetto al Totale dei malati
a
a+c
d
b+d
• Potere predittivo positivo (Positive Predictive Power) = proporzione di Malati sul totale dei
a
Positivi = proporzioni di diagnosi corrette =
a+b
• Potere predittivo negativo (Negative Predictive Power) = proporzione di Non Malati sul
c
totale dei Negativi = proporzioni di “non diagnosi” corrette =
c+d
c
In base alla Tabella 1 andiamo quindi a definire la proporzione di falsi negativi
, e come falsi
a+c
b
positivi
.
b+d
•
Specificità (Specificity) = proporzione di Negativi rispetto al totale dei non malati
1
Per prevalenza si intende il numero di casi di un disturbo o di una malattia nella popolazione diviso l’ampiezza della
popolazione in una dato momento.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 4.1
2
Poniamo che nello studio di validazione del test siano stati osservati i seguenti dati (Tabella 2):
Tabella 2 Dati simulati della prestazione diagnostica di un test di screening
Diagnosi effettiva
Test
SI
NO
Positivo e malato
Positivo e non malato
Vero positivo
Falso positivo
Totale dei positivi al test
Positivo
Decisione corretta
Decisione sbagliata
a + b = 100
a = 80
b = 20
Negativo e malato
Negativo e non malato
Totale dei negativi al
Falso negativo
Vero negativo
Negativo
test
Decisione sbagliata
Decisione corretta
c + d = 100
c = 30
d = 70
Totale dei malati
Totale dei non malati
200
a + c = 110
b + d = 90
Avremo che:
• Sensibilità (Sensitivity) = proporzione di Positivi rispetto al Totale dei malati
a
80
=
=,73
a + c 110
• Specificità (Specificity) = proporzione di Negativi rispetto al totale dei non malati
d
70
=
=,78
b + d 90
• Potere predittivo positivo (Positive Predictive Power) = proporzione di Malati sul totale dei
a
80
Positivi = proporzioni di diagnosi corrette =
=
=,80
a + b 100
• Potere predittivo negativo (Negative Predictive Power) = proporzione di Non Malati sul
c
70
totale dei Negativi = proporzioni di non diagnosi corrette =
=
=,70
c + d 100
ma soprattutto avremmo una proporzione di falsi positivi (Positivo|NO) di:
b
20
=
=,22 = (1 − Specificità)
b + d 90
e una proporzione di falsi negativi (Negativo|SI) di:
c
30
=
=,27 = (1 − Sensibilità).
a + c 110
La domanda fondamentale a cui deve rispondere il nostro test di screening è “qual è la probabilità
che un individuo abbia una disturbo di personalità dato che è risultato positivo al test”
(p(SI|Positivo)? La risposta sembrerebbe facilissima in base a quello che abbiamo detto prima,
perché se è positivo al test questo ha ridefinito lo spazio campionario al solo insieme dei positivi,
per cui basta calcolare quanti positivi sono malati, ossia il Potere Predittivo Positivo. Questo
ragionamento però vale solo se la percentuale di malati nel campione è uguale a quella della
popolazione, e nel nostro caso non è così, perché sappiamo che la prevalenza è ,15, mentre nel
campione osservato è 110/200 = ,55. Per cui si definisce la seguente situazione:
• p(SI) = Probabilità che un individuo della popolazione abbia un disturbo di personalità = ,15
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 4.1
•
•
•
3
p(NO) = Probabilità che un individuo della popolazione abbia un disturbo di personalità =
,85
p(Positivo|NO) = Probabilità che il test dia un falso positivo = (1 − Specificità) = ,22
p(Negativo|SI) = Probabilità che il test dia un falso negativo = (1 − Sensibilità) = ,27
Per calcolare la probabilità che un individuo della popolazione positivo al test abbia effettivamente
un disturbo di personalità dobbiamo calcolare p(SI|Positivo), che è ricavabile mediante il teorema di
Bayes, che prende il nome da Thomas Bayes, un ministro presbiteriano e matematico inglese del
Settecento, che definì la probabilità come:
The probability of any event is the ratio between the value at which an expectation
depending on the happening of the event ought to be computed, and the chance of the
thing expected upon its happening (Bayes, 1763, p. 370)2.
La definizione non è che sia proprio chiarissima, ma il concetto di base è che si considerano le
probabilità delle cause. Il teorema di Bayes prende infatti in considerazione le probabilità a priori
degli eventi (nel nostro caso, la probabilità che un individuo della popolazione abbia un disturbo di
personalità: p(SI)), le probabilità condizionate o verosimiglianze (nel nostro caso, la probabilità che
un individuo risulti positivo al test dato che ha un disturbo di personalità: p(Positivo|SI)), e le
probabilità a posteriori (nel nostro caso, la probabilità che un individuo abbia un disturbo di
personalità dato che è risultato positivo al test: p(SI|Positivo)). In sostanza, il teorema di Bayes si
applica quando gli eventi Ai (SI = A1; NO = A2) possono essere considerati come le possibili cause
degli eventi successivi B (Positivo = B1; Negativo = B2). Le probabilità a posteriori indicano quindi
la probabilità delle diverse cause data l’osservazione dell’evento B. La formula generale è:
p ( A1 | B1 ) =
p ( SI | Positivo) =
p ( A1 ) × p ( B1 | A1 )
p ( A1 ) × p ( B1 | A1 ) + p ( A2 ) × p ( B1 | A2 )
p ( SI ) × p ( Positivo | SI )
p( SI ) × p ( Positivo | SI ) + p ( NO) × p ( Positivo | NO)
La p(Positivo|SI) nient’altro è che la sensibilità, che abbiamo visto essere uguale a ,73, per cui:
p ( SI | Positivo) =
,15×,73
=,37
,15×,73+,85×,22
La probabilità che un individuo della popolazione risulti positivo al test è dunque del 37%.
Attenzione ai termini, però, perché il teorema di Bayes è basato innanzitutto sulla probabilità a
priori, che in questo caso corrisponde alla prevalenza del disturbo di personalità nella popolazione.
Se il test però lo fate a chi si rivolge ad un servizio di psicoterapia, la probabilità che l’individuo che
vi si presenta davanti abbia un disturbo di personalità è più alta, per cui non è più un individuo tratto
a caso dalla popolazione, ma un individuo che appartiene alla sottopopolazione di coloro che si
rivolgono ad un servizio di psicoterapia. Potreste aver osservato, da una prospettiva frequentista,
che la prevalenza del disturbo nella popolazione degli individui che si rivolgono al servizio è del
2
“La probabilità di un qualunque evento è il rapporto fra il valore che è possibile calcolare mediante una predizione
basata sul verificarsi dell’evento, e la probabilità dell’evento attesa in base al suo verificarsi” (Traduzione mia). Il
saggio fu pubblicato postumo da una amico di Bayes, tale Richard Price, due anni dopo la morte del matematico,
avvenuta nel 1761.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Chiorri, C. (2014). Fondamenti di psicometria - Approfondimento 4.1
4
45% (,45), per cui la probabilità che un individuo che si è rivolto al servizio e positivo al test abbia
effettivamente un disturbo della personalità diventa:
p ( SI | Positivo) =
,45×,73
=,73
,45×,73+,55×,22
Riferimenti bibliografici
Bayes, T. (1763). An essay toward solving a problem in the doctrine of chance. Philosophical
Transactions of the Royal Society, 53, 370-418.
Copyright ©2014 The McGraw-Hill Companies S.r.l., Publishing Group Italia