Validazione di un test clinico

Definire un cut-off
Strumenti di indagine
per la valutazione psicologica
2.3 – Validazione di un test clinico
●
●
Davide Massidda
[email protected]
●
Per ogni scala del questionario, sommando o mediando i
punteggi ottenuti ai vari item, per ogni persona possiamo
calcolare un punteggio totale per una scala.
I test che trovano applicazione nell'ambito clinico spesso
richiedono, per ogni scala, la definizione di un cut-off in
grado di stabilire una linea di demarcazione tra salute e
patologia.
Come definire questo cut-off?
Università di Cagliari, a.a. 2013/2014
Distribuzione normale e percentili
●
●
●
Distribuzione normale e percentili
Lo studio di validazione prevede di somministrare il test a
un campione molto ampio della popolazione (in generale,
siamo sopra i 1000 intervistati).
Questo campione può essere trattato come se fosse
tutta la popolazione: si possono usare le proprietà della
distribuzione normale oppure i percentili per
individuare il cut-off.
La domanda è: «Quali sono i punteggi a partire dai quali ci
si trova nelle code della distribuzione?»
x−μ
z= σ
95%
2.5%
2.5%
Nello stabilire la dimensione dell'area che identifica la
patologia, dovremmo tenere in considerazione la prevalenza
della condizione clinica nella popolazione.
Trasformazione dei punteggi
●
Nota bene: i punti z, talvolta, vengono trasformati in
punti T o in punti stanine (standard nine).
●
●
●
T =50+ 10z
●
Falsi positivi e falsi negativi
Se z ha media 0 e deviazione standard 1, T ha media 50 e
deviazione standard 10.
Criteri troppo restrittivi tendono a generare falsi
negativi, mentre criteri troppo larghi tendono a generare
falsi positivi.
Classificazione
Solo se z è inferiore a -5 (cosa decisamente improbabile)
allora T assume valori inferiori a 0.
Sano
Situazione
reale
stanine =5+ 2z
●
Per individuare il cut-off, possiamo anche prendere
spunto dall'epidemiologia.
Sano
Malato
Falso positivo
Falso negativo
Gli stanine sono di solito compresi tra 1 e 9 (i punteggi
possono quindi essere classificati in nove categorie).
Caratteristiche operative
Caratteristiche operative
Classificazione
Situazione
reale
●
Malato
Classificazione
Sano
Malato
Sano
a
b
Malato
c
d
Accuratezza: capacità del test
correttamente positivi e negativi.
di
Ac=
Situazione
reale
classificare
a +d
a+ b+c + d
●
Sano
Malato
Sano
a
b
Malato
c
d
Sensibilità: capacità di individuare correttamente i
malati: quanti dei malati risultano positivi al test?
Se =
●
d
c+ d
Specificità: capacità di individuare correttamente i sani:
quanti dei sani risultano negativi al test?
Sp=
a
a +b
Due facce della stessa medaglia
●
Un buon test individua sì i malati (sensibilità) ma senza
prendere per malati anche quelli che malati non sono
(specificità).
Serve un compromesso
●
●
●
●
●
Variando il criterio di cut-off, possiamo avere degli esiti di
classificazione diversi.
Criteri a maglie larghe favoriranno la sensibilità a scapito
della specificità.
●
Criteri a maglie strette favoriranno la specificità a scapito
della sensibilità.
Il cut-off migliore sarà quello che permette di ottenere il
miglior compromesso tra sensibilità e specificità.
Dato un certo cut-off, per calcolare sensibilità e
specificità, devo sapere se il test sta classificando bene
oppure male.
Sorge un problema: come faccio a sapere se le persone
classificate dal test come “sane” e “malate” sono davvero
sane e malate?
Il gold standard
●
●
●
●
C'è di bisogno di un criterio esterno, un parere
autorevole con cui confrontare la classificazione del test.
Questo parere autorevole (che in verità non sempre è
possibile reperire) è il gold standard, rappresentato dal
miglior strumento di valutazione attualmente in
circolazione.
In ambito clinico, spesso il gold standard è rappresentato
dalla diagnosi effettuata da professionisti sulla base di
manuali diagnostici come il DSM.
L'esempio dell'MDQ
●
●
Mood Disorders Questionnaire (MDQ): questionario di 13
item con risposta verso/falso che indaga la presenza di
maniacalità e ipomaniacalità.
Lo scoring avviene per somma delle risposte agli item:
Falso → 0
●
Vero → 1
I punteggi possono variare tra 0 (nessun
selezionato) e 13 (tutti gli item selezionati).
●
I cut-off candidati variano tra 1 e 13.
●
(Versione italiana validata da Hardoy et al., 2005).
Come si procede?
item
La curva ROC (esempio: MDQ)
La curva ROC (esempio: MDQ)
Probabilità di individuare
un vero positivo
Probabilità di individuare
un falso positivo
La curva ROC (esempio: MDQ)
Probabilità di individuare
un vero positivo
La curva ROC (esempio: MDQ)
1
Possibili cut-off
(da 13 a 1)
Probabilità di individuare
un falso positivo
13
Cut-off 6: Oltre il 70% di positivi
individuati correttamente con
meno del 20% di falsi positivi.
Quindi...
●
●
●
La curva ROC (esempio: MDQ)
Per ogni possibile cut-off, si calcola la probabilità di
commettere un falso positivo e la si confronta con la
probabilità di individuare un vero positivo.
Il cut-off migliore è quello che individua il maggior
numero di veri positivi facendo il minor numero possibile
di falsi positivi.
Nello scegliere il cut-off, considerare se è opportuno dare
maggior peso alla sensibilità oppure alla specificità.
Altro metodo: scegliere il
cut-off che sottende l'area
maggiore.
La curva ROC (esempio: MDQ)
La curva ROC (esempio: MDQ)
Punteggi normativi diversificati
●
Ci sono dimensioni psicologiche che variano in funzione
di caratteristiche fisiche e socio-economiche come età,
sesso, scolarizzazione, status sociale, ecc.
Punteggi normativi diversificati
●
●
●
●
Per questo motivo, una buona validazione dovrebbe
raggiungere tutti gli strati della popolazione.
(In ogni caso, la scelta del campione deve essere legata a
quella che è la popolazione target dello strumento).
●
La generica “popolazione” può quindi racchiudere in sé
diverse sotto-popolazioni.
In questi casi, ogni sotto-popolazione avrà la sua
distribuzione con la sua media e la sua deviazione
standard.
Anche i cut-off dovrebbero essere calcolati in maniera
diversificata per ogni sotto-popolazione (es. QI).