Definire un cut-off Strumenti di indagine per la valutazione psicologica 2.3 – Validazione di un test clinico ● ● Davide Massidda [email protected] ● Per ogni scala del questionario, sommando o mediando i punteggi ottenuti ai vari item, per ogni persona possiamo calcolare un punteggio totale per una scala. I test che trovano applicazione nell'ambito clinico spesso richiedono, per ogni scala, la definizione di un cut-off in grado di stabilire una linea di demarcazione tra salute e patologia. Come definire questo cut-off? Università di Cagliari, a.a. 2013/2014 Distribuzione normale e percentili ● ● ● Distribuzione normale e percentili Lo studio di validazione prevede di somministrare il test a un campione molto ampio della popolazione (in generale, siamo sopra i 1000 intervistati). Questo campione può essere trattato come se fosse tutta la popolazione: si possono usare le proprietà della distribuzione normale oppure i percentili per individuare il cut-off. La domanda è: «Quali sono i punteggi a partire dai quali ci si trova nelle code della distribuzione?» x−μ z= σ 95% 2.5% 2.5% Nello stabilire la dimensione dell'area che identifica la patologia, dovremmo tenere in considerazione la prevalenza della condizione clinica nella popolazione. Trasformazione dei punteggi ● Nota bene: i punti z, talvolta, vengono trasformati in punti T o in punti stanine (standard nine). ● ● ● T =50+ 10z ● Falsi positivi e falsi negativi Se z ha media 0 e deviazione standard 1, T ha media 50 e deviazione standard 10. Criteri troppo restrittivi tendono a generare falsi negativi, mentre criteri troppo larghi tendono a generare falsi positivi. Classificazione Solo se z è inferiore a -5 (cosa decisamente improbabile) allora T assume valori inferiori a 0. Sano Situazione reale stanine =5+ 2z ● Per individuare il cut-off, possiamo anche prendere spunto dall'epidemiologia. Sano Malato Falso positivo Falso negativo Gli stanine sono di solito compresi tra 1 e 9 (i punteggi possono quindi essere classificati in nove categorie). Caratteristiche operative Caratteristiche operative Classificazione Situazione reale ● Malato Classificazione Sano Malato Sano a b Malato c d Accuratezza: capacità del test correttamente positivi e negativi. di Ac= Situazione reale classificare a +d a+ b+c + d ● Sano Malato Sano a b Malato c d Sensibilità: capacità di individuare correttamente i malati: quanti dei malati risultano positivi al test? Se = ● d c+ d Specificità: capacità di individuare correttamente i sani: quanti dei sani risultano negativi al test? Sp= a a +b Due facce della stessa medaglia ● Un buon test individua sì i malati (sensibilità) ma senza prendere per malati anche quelli che malati non sono (specificità). Serve un compromesso ● ● ● ● ● Variando il criterio di cut-off, possiamo avere degli esiti di classificazione diversi. Criteri a maglie larghe favoriranno la sensibilità a scapito della specificità. ● Criteri a maglie strette favoriranno la specificità a scapito della sensibilità. Il cut-off migliore sarà quello che permette di ottenere il miglior compromesso tra sensibilità e specificità. Dato un certo cut-off, per calcolare sensibilità e specificità, devo sapere se il test sta classificando bene oppure male. Sorge un problema: come faccio a sapere se le persone classificate dal test come “sane” e “malate” sono davvero sane e malate? Il gold standard ● ● ● ● C'è di bisogno di un criterio esterno, un parere autorevole con cui confrontare la classificazione del test. Questo parere autorevole (che in verità non sempre è possibile reperire) è il gold standard, rappresentato dal miglior strumento di valutazione attualmente in circolazione. In ambito clinico, spesso il gold standard è rappresentato dalla diagnosi effettuata da professionisti sulla base di manuali diagnostici come il DSM. L'esempio dell'MDQ ● ● Mood Disorders Questionnaire (MDQ): questionario di 13 item con risposta verso/falso che indaga la presenza di maniacalità e ipomaniacalità. Lo scoring avviene per somma delle risposte agli item: Falso → 0 ● Vero → 1 I punteggi possono variare tra 0 (nessun selezionato) e 13 (tutti gli item selezionati). ● I cut-off candidati variano tra 1 e 13. ● (Versione italiana validata da Hardoy et al., 2005). Come si procede? item La curva ROC (esempio: MDQ) La curva ROC (esempio: MDQ) Probabilità di individuare un vero positivo Probabilità di individuare un falso positivo La curva ROC (esempio: MDQ) Probabilità di individuare un vero positivo La curva ROC (esempio: MDQ) 1 Possibili cut-off (da 13 a 1) Probabilità di individuare un falso positivo 13 Cut-off 6: Oltre il 70% di positivi individuati correttamente con meno del 20% di falsi positivi. Quindi... ● ● ● La curva ROC (esempio: MDQ) Per ogni possibile cut-off, si calcola la probabilità di commettere un falso positivo e la si confronta con la probabilità di individuare un vero positivo. Il cut-off migliore è quello che individua il maggior numero di veri positivi facendo il minor numero possibile di falsi positivi. Nello scegliere il cut-off, considerare se è opportuno dare maggior peso alla sensibilità oppure alla specificità. Altro metodo: scegliere il cut-off che sottende l'area maggiore. La curva ROC (esempio: MDQ) La curva ROC (esempio: MDQ) Punteggi normativi diversificati ● Ci sono dimensioni psicologiche che variano in funzione di caratteristiche fisiche e socio-economiche come età, sesso, scolarizzazione, status sociale, ecc. Punteggi normativi diversificati ● ● ● ● Per questo motivo, una buona validazione dovrebbe raggiungere tutti gli strati della popolazione. (In ogni caso, la scelta del campione deve essere legata a quella che è la popolazione target dello strumento). ● La generica “popolazione” può quindi racchiudere in sé diverse sotto-popolazioni. In questi casi, ogni sotto-popolazione avrà la sua distribuzione con la sua media e la sua deviazione standard. Anche i cut-off dovrebbero essere calcolati in maniera diversificata per ogni sotto-popolazione (es. QI).