Approfondimento 6.1 Determinare punteggi di cut-off 1. Cos’è e a cosa serve un punteggio di cut-off Nel caso particolare in cui il test sia stato progettato con lo scopo di fornire una misura di screening, sarà fondamentale sapere quale punteggio possiamo considerare come soglia in modo da orientare la decisione sul soggetto. Tale punteggio prende il nome di punteggio di cut-off. Perché il calcolo di un punteggio di cut-off score abbia senso occorre che la procedura di sviluppo e validazione del test sia stata progettata in modo da consentire l’individuazione di questo valore in modo valido e attendibile. Questo significa che, come abbiamo accennato già in precedenza, i gruppi da discriminare devono essere stati identificati in anticipo, i criteri di inclusione ed esclusione nei gruppi devono essere stati definiti accuratamente e, soprattutto, rispettati, e la stessa procedura di selezione degli item nelle fasi di raffinazione del test deve aver privilegiato la capacità degli item di discriminare fra i gruppi in esame, al di là delle altre caratteristiche psicometriche. Aver seguito queste indicazioni dovrebbe portare ad ottenere un test il cui punteggio possieda un’adeguata capacità di discriminazione. Ad ogni modo, la determinazione di un punteggio di cut-off è possibile per qualunque tipo di test: basta avere a disposizione i dati su almeno due gruppi di soggetti. Il punto, però, è che perché il test abbia una buona capacità di discriminazione, occorre che la differenza fra i punteggi ai test dei due gruppi sia la più ampia possibile. La prima cosa da fare, quindi, è eseguire un test t per campioni indipendenti che consenta di verificare se le medie dei due gruppi sono non solo statisticamente diverse fra loro, ma lo siano in modo rilevante, ossia si abbia un’adeguata dimensione dell’effetto. Quando si esegue la standardizzazione dei punteggi di un test, infatti, di solito si hanno a disposizione molti soggetti, il che determina un’enorme potenza del test statistico, ossia la sua capacità di rifiutare l’ipotesi nulla di uguaglianza delle medie delle popolazioni in esame anche preCarlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 2 senza di una dimensione dell’effetto piccola. Se vogliamo confrontare, come è spesso il caso, una popolazione generale con una popolazione clinica, la capacità di discriminazione di un punteggio al test, però, non può essere valutata solo in base alla significatività del test sulle differenze, dato che dipende in massima parte dalla dimensione dell’effetto d, ossia, da quanto effettivamente sono separate le distribuzioni dei punteggi dei due gruppi sull’asse orizzontale, come mostrato in Figura 6.1.1. Figura 6.1.1 Dimensioni dell’effetto della differenza fra medie In pratica, quanto maggiore è la sovrapposizione fra le due distribuzioni dei punteggi, tanto meno attendibile sarà la determinazione di un punteggio di cut-off. A onor del vero, questa interpretazione della capacità di discriminazione di un test basata sui punteggi medi è fin troppo semplicistica, dato che assume che la distribuzione dei punteggi nei due gruppi sia normale e sostanzialmente la stessa in entrambi i gruppi, e che il test misuri lo stesso costrutto, nello stesso modo, in entrambi i gruppi. Si noti che il test non necessariamente misura la stessa cosa in due gruppi diversi solo perché gli item sono gli stessi. Dovrebbe quindi essere verificata in precedenza l’invarianza di misurazione dello strumento in esame (si veda il Capitolo 5), in modo da appurare che l’unica differenza fra i gruppi sia il loro livello nel costrutto in esame, e non in altre caratteristiche del test, come ad esempio le Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 3 saturazioni fattoriali degli item. Inoltre, in alcuni casi come quelli in cui vengono impiegati i tempi di reazione, la ricerca è da qualche anno orientata a valutare non tanto le differenze fra le medie, quanto quelle relative alle code della distribuzione (ad esempio, Palmer et al., 2011). In particolare, questo approccio si sta rivelando utile per lo screening precoce della demenza senile (ad esempio, Spieler et al., 1996; Balota et al., 2008). Per tornare alla situazione di cui ci stiamo occupando, comunque, il problema fondamentale riguarda il determinare il punteggio di cut-off. Supponendo che i punteggi al test della popolazione clinica siano maggiori di quella della popolazione generale, è stato suggerito da Jacobson e collaboratori (1984) di considerare tre possibili criteri per il cut-off: (1) il punteggio che si trova due deviazioni standard sotto alla media della popolazione clinica (a); (2) il punteggio che si trova due deviazioni standard sopra alla media della popolazione generale (b); (3) il punteggio in cui la probabilità che un soggetto appartenga all’una o all’altra delle due distribuzioni è la stessa (c). Questi punteggi sono mostrati in Figura 6.1.2. Figura 6.1.2 Possibili punti di cut-off proposti da Jacobson e collaboratori (1984) e loro conseguenze. NB: ±2DSg = ±2 deviazioni standard popolazione generale, ±2DSc = ±2 deviazioni standard popolazione clinica Scegliere un punteggio di cut-off, però, significa stabilire un certo punteggio per cui i soggetti che ottengono un punteggio uguale o superiore (o inferiore) sono considerati a rischio, e i soggetti che Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 4 ottengono un punteggio inferiore (o uguale e superiore) sono considerati non a rischio. Questo procedimento non ci assicura però di aver preso la decisione giusta, dato che può capitare che un soggetto della popolazione clinica non ottenga un punteggio superiore al cut-off (falso negativo) o soggetto della popolazione generale ottenga un punteggio superiore al cut-off (falso positivo). La parte inferiore della Figura 6.1.2 mostra come le probabilità di ottenere un falso negativo o un falso positivo vari in base al tipo di cut-off scelto. In più, le probabilità corrispondenti variano in funzione del livello di sovrapposizione delle due distribuzioni: quando le distribuzioni sono molto sovrapposte (dimensione dell’effetto piccola), infatti, il criterio c continuerà ad assicurare la stessa probabilità di falsi positivi e falsi negativi, ma queste probabilità saranno in assoluto più alte del caso in cui la sovrapposizione delle distribuzioni è minima (dimensione dell’effetto grande). Ad ogni modo, il calcolo dei tre indici è molto semplice. Supponiamo di aver somministrato un test di screening per i disturbi alimentari ad un campione di pazienti e ad un campione di donne della popolazione generale omogeneo rispetto alle caratteristiche socio-demografiche rilevanti (ad esempio, età, livello di istruzione, livello socio-economico, etc.), e di aver ottenuto che nella popolazione generale il punteggio medio è 44±11, mentre nella popolazione clinica è 66±12. Se vogliamo calcolare il punteggio che si trova due deviazioni standard sotto alla media della popolazione clinica (a), il valore che stiamo cercando è 66 − 2 × 12 = 42; se vogliamo calcolare il punteggio che si trova due deviazioni standard sopra alla media della popolazione generale (b), il valore che stiamo cercando è 44 + 2 × 11 = 66, mentre se vogliamo calcolare il punteggio in cui la probabilità che un soggetto appartenga all’una o all’altra delle due distribuzioni è la stessa (c) dobbiamo utilizzare la seguente formula: c= sc M g + s g M c sc + s g dove sc e Mc sono la deviazioni standard e la media della popolazione clinica e della sg e Mg sono la deviazioni standard e la media della popolazione generale. Nel caso che stiamo considerando avremmo: Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off c= 5 12 × 44 + 11 × 66 = 54,52 12 + 11 Un punteggio di cut-off di 54,52, quindi, dovrebbe consentirci di ottenere un ugual proporzione di falsi negativi e falsi positivi. Questo approccio, però, è stato oggetto di varie critiche. Innanzitutto, il punteggio è attendibile solo se sono soddisfatte le assunzioni sulle caratteristiche delle distribuzioni enunciate in precedenza. Inoltre, come suggerito da Tingey e collaboratori (1996), dovrebbe essere calcolato un intervallo di fiducia attorno al punteggio di cut-off individuato, con i metodi descritti nella sezione 6.2 del manuale. I punteggi che ricadono in tale intervallo, ad ogni modo, si troverebbero in una condizione di ambigua, per cui si proporrebbe il problema di stabilire come effettivo cut-off i limite inferiore o quello superiore dell’intervallo di fiducia, che riprodurrebbe la situazione appena descritta. 2. Indici della capacità di discriminazione di un test con un certo cut-off Prima di esaminare un metodo statistico che ci consenta di esplorare meglio le caratteristiche operative di un test utilizzato come supporto alla diagnosi o di screening, è opportuno osservare come nella determinazione del punteggio ottimale di cut-off la statistica giochi un ruolo spesso marginale, dato che, al di là degli aspetti meramente numerici, quello che determina la scelta di un valore o di un altro sono anche considerazioni pratiche legate al costo economico, per l’istituzione o per struttura sanitaria, dei falsi negativi e dei falsi positivi, e i benefici delle decisioni corrette (veri positivi e veri negativi). Il problema, quindi, è valutare se, per un certo tipo di disturbo, sia preferibile avere parecchi falsi positivi, che quindi verranno sottoposti ad ulteriori accertamenti inutilmente, perché in ogni caso un falso negativo costa molto di più di diversi falsi positivi, o viceversa, ossia se sia economicamente sia più vantaggioso limitare il numero di falsi positivi, anche a costo di correre il rischio di ottenere molti falsi negativi, e quindi non sottoporre ad ulteriori accertamenti individui che, con buona probabilità, potrebbero presentare il disturbo − naturalmente non è questa la strategia che vorremmo che il nostro sistema sanitario applicasse. In questi casi la statistica viene utiliz- Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 6 zata più che altro a scopo descrittivo, calcolando, per ogni punteggio di cut-off possibile, la probabilità di ottenere falsi negativi e falsi positivi. Vediamo allora come procedere. Nel momento in cui stabiliamo un punteggio di cut-off, i punteggi superiori (o, a seconda dei casi, inferiori) al cut-off vengono chiamati positivi, mentre quelli inferiori (o, a seconda dei casi, superiori) al cut-off, vengono chiamati negativi. Questa classificazione dei soggetti basata sul punteggio al test, però, deve essere incrociata con l’effettiva presenza o assenza del disturbo nei soggetti esaminati, per cui potremo costruire una tavola di contingenza come quella di Tabella 6.1.1. Tabella 6.1.1 Tavola di contingenza derivante dalla classificazione incrociata della condizione di soggetti di con/senza disturbo e positivi/negativi al test Disturbo Test Positivo Negativo Presenza Positivo e malato Vero positivo Decisione corretta a Negativo e malato Falso negativo Decisione sbagliata c Assenza Positivo e non malato Falso positivo Decisione sbagliata b Negativo e malato Vero negativo Decisione corretta d Totale dei malati a+c Totale dei non malati b+d Totale dei positivi al test a+b Totale dei negativi al test c+d Nel momento in cui il test risulta superiore (inferiore) al cut-off, e quindi classifichiamo il soggetto come positivo, se il soggetto presenta effettivamente il disturbo si parla di vero positivo e dunque la decisione presa in base al test è corretta, mentre se il soggetto non presenza il disturbo si parla di falso positivo e la decisione al test è sbagliata. Quando invece il soggetto ha ottenuto un punteggio inferiore (superiore) al cut-off, viene classificato come negativo: se presenta il disturbo, si parla di falso negativo e la decisione presa in base al test è sbagliata, se invece non presenta il disturbo si parla di vero negativo e la decisione presa in base al test è corretta. I dati contenuti in una tavola di contingenza come quella di Tabella 6.1.1 possono essere sottoposti a tutta una serie di diverse analisi statistiche. A livello descrittivo, il primo indice da calcolare è l’accuratezza (A) o efficienza, ossia la percentuale di casi che il test ha correttamente classifi- Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 7 cato. Per calcolarla, basta sommare le frequenze di veri positivi e di veri negativi e dividere per il totale dei soggetti: A= a+d a+b+c+d Supponiamo di aver determinato un certo punteggio di cut-off per il test di screening per i disturbi alimentari di cui stiamo parlando e di aver ottenuto i risultati la tavola di contingenza di Tabella 6.1.2. Tabella 6.1.2 Prestazione operativa di un test di screening per i disturbi alimentari Disturbo Test Positivo Negativo Presenza Positivo e malato Vero positivo Decisione corretta a = 82 Negativo e malato Falso negativo Decisione sbagliata c = 26 Assenza Positivo e non malato Falso positivo Decisione sbagliata b = 94 Negativo e malato Vero negativo Decisione corretta d = 704 Totale dei malati a +c = 108 Totale dei non malati b +d = 798 Totale dei positivi al test a + b = 176 Totale dei negativi al test c + d = 730 906 Nel caso della Tabella 6.1.2, l’accuratezza sarà: A= 82 + 704 =,87 82 + 94 + 26 + 704 Questo risultato, significa che il test è in grado di classificare correttamente nell’87% dei casi, indipendentemente dal fatto che si tratti veri negativi o veri positivi. Il punteggio migliore possibile è naturalmente 1,00, mentre quello peggiore corrisponde al caso in cui il test classifichi i soggetti a caso, per cui sia per i soggetti con effettiva presenza del disturbo, sia per quelli privi di disturbo la probabilità di essere classificati come positivi è del 50%. In questo caso osserveremmo una tavola di contingenza come quella di Tabella 6.1.3, in cui ,l’accuratezza è uguale a ,50: Tabella 6.1.3 Tavola di contingenza nel caso in cui il test classifichi i soggetti casualmente Disturbo Test Presenza Assenza Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off Positivo Negativo 8 Positivo e malato Vero positivo Decisione corretta a = 54 Negativo e malato Falso negativo Decisione sbagliata c = 54 Positivo e non malato Falso positivo Decisione sbagliata b = 399 Negativo e malato Vero negativo Decisione corretta d= 399 Totale dei malati a + c = 108 Totale dei non malati b + d = 798 Totale dei positivi al test a + b =453 Totale dei negativi al test c + d = 453 906 54 + 399 =,50 54 + +399 + 54 + 399 A= Il 50% rappresenta quindi la peggiore prestazione possibile del test. Paradossalmente, quando più l’accuratezza sotto il 50% − il che significa che i sani vengono classificati come malati e viceversa con probabilità sempre maggiore − il test diventa progressivamente sempre più informativo, anche se per trarne vantaggio occorre sapere che il test classifica i soggetti al contrario! In pratica, quindi, un test con un’accuratezza del 13% avrebbe la stessa informatività del test che stiamo considerando, dato che, considerando il 50% come asse di simmetria, possiede un’accuratezza specularmente identica. Sulla tavola di contingenza che abbiamo realizzato è possibile però calcolare altri quattro indici: • Sensibilità (Se, Sensitivity): probabilità che ha un soggetto di risultare positivo al test dato che presenta il disturbo: Se = p ( P SI ) = • a . Nel caso dei dati in Tabella 6.1.2 questo valore è ,76. a+c Specificità (Sp, Specificity): probabilità che ha un soggetto di risultare negativo al test dato che non presenta il disturbo: Sp = p ( N NO) = d . Nel caso dei dati in Tabella 6.1.2 questo valob+d re è ,88. • Potere predittivo positivo (PPP, Positive Predictive Power): probabilità che ha un soggetto di presentare il disturbo dato che è risultato positivo al test, ossia, proporzioni di diagnosi corrette: PPP = p ( SI P) = a . Nel caso dei dati in Tabella 6.1.2 questo valore è ,47; a+b Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off • 9 Potere predittivo negativo (PPN, Negative Predictive Power): probabilità che ha un soggetto di non presentare il disturbo dato che è risultato negativo al test, ossia, proporzioni di non diagnosi corrette: NNP = p ( NO N ) = c . Nel caso dei dati in Tabella 6.1.2 questo valore è ,96. c+d Per ottenere gli intervalli di fiducia dell’accuratezza e di questi valori occorre utilizzare la formula sviluppata da Wilson (1927), che Newcombe (1998) ha dimostrato essere quella che, fra i vari metodi di stima dell'intervallo di fiducia di una proporzione, rappresenta il miglior compromesso tra la correttezza della stima e la facilità di calcolo manuale: 2nx + z 2 ± z z 2 + 4nx(1 − x) 2(n + z 2 ) dove n è il numero di soggetti, x è il valore dell’indice di cui si vuole calcolare l’intervallo di fiducia e z è lo z critico per un valore di probabilità uguale a (1 − livello di fiducia)/2. Nel caso dell’accuratezza, l’intervallo di fiducia al 95% (da cui z critico = 1,96) sarà determinato dalla formula: 2 × 906×,87 + 1,96 2 ± 1,96 × 1,96 2 + 4 × 906×,87 × (1−,87) 2 × (906 + 1,96 2 ) Svolgendo i calcoli si ottiene che l’intervallo di fiducia al 95% per l’accuratezza è ,85 ≤ A ≤ ,89. Con lo stesso procedimento otteniamo che: ,85 ≤ Se ≤ ,89, ,86 ≤ Sp ≤ ,90, ,44 ≤ PPP ≤ ,50, ,95 ≤ NPP ≤ ,97. La determinazione dei limiti superiori e inferiori dell’intervallo di fiducia permette anche, indirettamente, di verificare l’ipotesi che nella popolazione il valore sia uguale a ,50: se infatti tale valore è compreso nell’intervallo, l’indice ottenuto non ne è statisticamente diverso, mentre se non lo contiene, allora significa che possiamo rifiutare l’ipotesi nulla. In base ai dati della Tabella 6.1.2 è possibile calcolare anche altri tre indici: il rapporto di verosimiglianza, il rischio relativo e l’odds ratio (Agresti, 2002; Lauriola, 2007) Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 10 Il rapporto di verosimiglianza (RV, in inglese likelihood ratio) consente di combinare specificità e sensibilità in un unico indice, dato che è definito come sensibilità diviso uno meno la specificità: RV = Se (1 − Sp ) Tale indice rappresenta quanto è più probabile un test positivo fra chi presenta il disturbo rispetto a chi non lo presenta. Nel caso del test di screening per i disturbi di personalità questo valore è ,76 / (1 − ,88) = 6,33. Questo risultato significa indica che un risultato positivo al test è 6,33 volte più probabile fra le pazienti rispetto alla popolazione generale. L’intervallo di fiducia di questo valore è: e Se Sp 1− Se − z ln + n pres Se nass (1− Sp ) 1− Sp ≤ RV ≤ e Se 1− Se Sp − z ln + n pres Se nass (1− Sp ) 1− Sp dove npres e nass sono rispettivamente il totale dei casi in cui il disturbo è presente e in cui il disturbo è assente. Nel caso che stiamo considerando l’intervallo di fiducia al 95% per il RV è: e 1− , 76 ,88 , 76 ln −1, 96× 108×, 76 + 798×(1− ,88) 1− ,88 ≤ RV ≤ e 1− , 76 ,88 , 76 ln +1, 96× 108×, 76 + 798×(1− ,88) 1− ,88 → 5,19 ≤ RV ≤ 8,01 Se l’intervallo di fiducia non contiene il valore 1, significa che un test positivo è statisticamente più probabile fra chi presenta il disturbo rispetto a chi non lo presenta. Il rischio relativo (RR) è invece un modo per combinare le informazioni relative al PPP e al PPN. Tale indice esprime il rapporto fra la probabilità di avere il disturbo dato che si è risultati positivi al test rispetto alla probabilità di manifestare il disturbo dato che si è ottenuto un risultato negativo al test. In pratica, è il rapporto fra il PPP e (1 − NPP): RR = p ( SI | P) PPP = p ( SI | N ) 1 − NPP Nel caso dei dati in Tabella 6.1.2 il rischio relativo è uguale a ,47 / (1 − ,96) = 11,75, che indica che chi risulta positivo al test ha una probabilità di avere un disturbo alimentare circa 12 volte maggiore Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 11 rispetto a chi risulta negativo. Per calcolare un intervallo di fiducia per questo valore si utilizza la formula: RR × e− z υ ≤ RR ≤ RR × e z 1− dove υ = l’intervallo 1− υ= υ a c 1− a+b + c + d , e è la base dei logaritmi neperiani (2,718) e z è lo z critico per a c di fiducia scelto. Nel caso che stiamo considerando, 82 26 1− 82 + 94 + 26 + 704 =,04 , da cui un intervallo di fiducia al 95% per il RR di: 82 26 RR × e−1,96 , 04 ≤ RR ≤ RR × e1,96 , 04 → 7,94 ≤ RR ≤ 17,40 Poiché l’intervallo di fiducia di RR non contiene 1, è statisticamente diverso da questo, per cui la probabilità di presentare il disturbo dato che si è risultati positivi al test è statisticamente superiore alla probabilità di manifestare il disturbo dato che si è ottenuto un risultato negativo al test. L’odds ratio (OR), infine, permette di ottenere invece un altro tipo di informazione. Con questo termine intendiamo quello che italiano è indicato da alcuni autori (ad esempio, Corbetta, 1992) come “rapporto di associazione”. L’odds ratio è un rapporto di odds (in italiano, rapporto di probabilità), che è la modalità anglosassone di esprimere le probabilità. Se infatti in Italia siamo abituati a rappresentarci le probabilità come numero di eventi favorevoli su numero di eventi possibili, nel mondo anglosassone vengono espresse come rapporto fra la probabilità che un evento si verifichi e probabilità che l’evento non si verifichi [p/(1−p)]. Ad esempio, se supponete che la vostra probabilità di superare l’esame di psicometria sia del 70%, il vostro odds è ,70 / ,30 = 2,33, che significa che ritenere di avere una probabilità di superare l’esame 2,33 volte maggiore della probabilità di non superarlo. Nel caso di una tavola di contingenza 2 × 2, l’odds indica, per ogni categoria della variabile dicotomica A, il rapporto tra la frequenza di trovarsi in una categoria della variabile dicotomica B e la frequenza di non trovarvisi. In altri termini, gli odds possono essere facilmente calcolati come Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 12 rapporto fra le frequenze di una stessa riga o di una stessa colonna. Ad esempio, nel campione delle pazienti in Tabella 6.1.2, l’odds di risultare positivo al test piuttosto che negativo è 82/26 = 3,15 mentre nel campione della popolazione generale è 94/704 = 0,13. Viceversa, fra i positivi al test l’odds di manifestare il disturbo rispetto al non manifestarlo è 82/94 = 0,87, mentre fra i negativi al test è 26/704 = ,04. Se eseguiamo il rapporto fra gli odds otteniamo l’OR, che, non considerando gli errori di arrotondamento, è uguale in entrambi i casi, ed è 23,62. L’intervallo di fiducia per l’odds ratio è: −z OR × e 1 1 1 1 + + + a b c d z ≤ OR ≤ OR × e 1 1 1 1 + + + a b c d dove a, b, c, e d sono le quattro frequenza di cella della tavola di contingenza. Nel caso che stiamo considerando, l’intervallo di fiducia al 95% dell’OR è: −1,96 23,62 × e 1 1 1 1 + + + 82 94 26 704 −1,96 ≤ OR ≤ 23,62 × e 1 1 1 1 + + + 82 94 26 704 → 14,46 ≤ OR ≤ 38,59 Poiché l’intervallo di fiducia non contiene il valore 1 possiamo concludere che nel momento in cui un soggetto è positivo al test, l’odds di manifestare il disturbo è statisticamente superiore all’odds di non manifestarlo. Il calcolo di questi indici può essere eseguito in SPSS, come illustrato negli Strumenti Informatici 6.1. 3. La decisione in contesti applicativi I risultati ottenuti nella sezione 6.3.1 possono essere ritenuti validi solo nel contesto di ricerca nel quale sono stati calcolati. Nei contesti applicativi, come può essere clinico, quando ci si trova di fronte un soggetto non è sufficiente conoscere la probabilità per cui un punteggio positivo è effettivamente indicatore della presenza del disturbo, ossia, il PPP, perché questa probabilità è vera nel campione di standardizzazione del test, ma non per la specifica persona che abbiamo davanti. Quando si effettua una valutazione psicologica, innanzitutto occorre formulare ipotesi sulle diagnosi possibili in base alle informazioni (segni, sintomi, etc.) note. Nel caso più semplice, poCarlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 13 tremmo formulare l’ipotesi che il soggetto abbia (p) o non abbia (1 − p) il disturbo. Prima di somministrare il test dobbiamo però stabilire quali sono le probabilità a priori che il soggetto manifesti effettivamente il disturbo. Questa informazione deriva da dati epidemiologici pubblicati nella letteratura scientifica (in tal caso si parla di probabilità a priori oggettiva o prevalenza, che il rapporto fra numero di individui che presentano il disturbo e ampiezza della popolazione) o da dati specifici per una situazione particolare (ad esempio, la proporzione di persone che si rivolgono ad un certo terapeuta o ad un certo centro diagnostico e che manifestano effettivamente il disturbo) o da una stima soggettiva fatta dal terapeuta in base alle informazioni anamnestiche e semeiotiche (probabilità a priori soggettiva). Naturalmente è possibile anche una combinazione di queste informazioni (Lauriola, 2007). In base alle probabilità a priori si decide quali esami o test effettuare, in modo da verificare le ipotesi di diagnosi e da “aggiornare” di volta in volta la probabilità a priori coerentemente con i risultati ottenuti (Figura 6.4). Relativamente al caso che stiamo considerando, la somministrazione del test psicologico di screening permette di aggiornare la probabilità a priori in base al fatto che il soggetto abbia o meno superato il punteggio cut-off ad una nuova probabilità, detta probabilità a posteriori (Figura 6.1.3). Figura 6.1.3 Schema del ragionamento clinico (adattato da Lauriola, 2007, p., 104, con modifiche) La probabilità a posteriori diventerà a questo punto la probabilità a priori di un nuovo loop di ragionamento che condurrà alla formulazione di nuove ipotesi di diagnosi da verificare con la somminiCarlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 14 strazione di un nuovo test, i cui risultati produrranno una nuova probabilità a posteriori. Quando tale probabilità a posteriori risulterà prossima a 1, potrà essere presa una decisione. Per fare un esempio molto semplice, supponiamo di recarci in una scuola superiore e di somministrare un test di screening per i disturbi alimentari a tutte le ragazze. Potremmo sapere che nelle ragazze fra i 14 e i 19 anni, come quelle a cui stiamo per somministrare il test, la prevalenza dei disturbi alimentari è dell’1%, ossia l’1% della popolazione in esame presenta un disturbo alimentare. In base alle caratteristiche operative del test sappiamo che la probabilità che una ragazza risulti positiva al test dato che ha disturbo alimentare (Se) è ,76, mentre la probabilità di un falso positivo, ossia che una ragazza che non presenta il disturbo risulti positiva (1 − Sp), è 1 − ,88 = ,12. Sarà in base a queste informazioni che saremo in grado di stabilire qual è l’effettiva probabilità che una specifica ragazza che ha ottenuto un punteggio superiore al cut-off presenti effettivamente un disturbo alimentare. Il ragionamento corretto, in questi casi, è di tipo bayesiano, nel senso che chiama in causa un particolare teorema della probabilità noto mediante teorema di Bayes, che prende il nome da Thomas Bayes, un ministro presbiteriano e matematico inglese del Settecento, che definì la probabilità come: The probability of any event is the ratio between the value at which an expectation depending on the happening of the event ought to be computed, and the chance of the thing expected upon its happening (Bayes, 1763, p. 370)1. Il teorema di Bayes prende infatti in considerazione le probabilità a priori degli eventi [nel nostro caso, la probabilità che una ragazzina della popolazione abbia un disturbo alimentare, o prevalenza: p(SI)], le probabilità condizionate o verosimiglianze [nel nostro caso, la probabilità che una ragazzina risulti positiva al test dato che ha un disturbo alimentare: p(P|SI)], e le probabilità a posteriori [nel nostro caso, la probabilità che una ragazzina abbia un disturbo di personalità dato che è risultata positiva al test: p(SI|P)]. Messo in questi termini il concetto risulta abbastanza oscuro, e sventura1 “La probabilità di un qualunque evento è il rapporto fra il valore che è possibile calcolare mediante una predizione basata sul verificarsi dell’evento e la probabilità dell’evento attesa in base al suo verificarsi”. Il saggio fu pubblicato postumo da Richard Price, un amico di Bayes, due anni dopo la morte del matematico, avvenuta nel 1761. Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 15 tamente lo è anche per la maggior parte dei clinici, come riferito da Gigerenzer e Hoffrage, (1995). Cerchiamo di arrivarci per gradi, perché in realtà la cosa è più semplice di quanto non sembri. Una prevalenza dell’1% indica che su 10000 ragazzine della scuola, 100 presentano un disturbo alimentare. La sensibilità del test ci dice che 76 ragazzine con il disturbo su 100 ottengono un punteggio superiore al cut-off. In teoria, delle 9900 ragazzine senza il disturbo ve ne sono 9900 × ,12 = 1188 che ottengono un punteggio positivo al test (falsi positivi). In teoria, quindi, su 10000 ragazzine della scuola, dovremmo osservarne 76 + 1188 = 1264 positive al test. La probabilità che una presenti effettivamente il disturbo dato che è positiva al test è dunque di 76 / 1264 = ,06, ossia del 6%. Si noti che la probabilità di presentare effettivamente il disturbo in quanto positivo al test nel campione in Tabella 6.1.2, ossia il PPP, era del 47%. Espressa nei termini del teorema di Bayes, tale probabilità può essere calcolata con un’unica formula: p ( SI | Positivo) = p ( SI ) × p ( P | SI ) , che diventa p ( SI ) × p ( P | SI ) + p ( NO ) × p ( P | NO) p ( SI | Positivo) = prevalenza × Se ,01×,76 → =,06 prevalenza × Se + (1 − prevalenza) × (1 − Sp ) ,01×,76 + (1−,01) × (1−,88) 4. Le curve operative Per decidere quale sia il punteggio di cut-off ottimale, è necessario, come accennato in precedenza, tenere in considerazione le ripercussioni e i costi degli errori del test, ossia dei falsi positivi e dei falsi negativi. Può essere quindi utile avere a disposizione una tabella con i dati e un grafico che ci permettano di visualizzare, per ogni possibile punteggio al test, quale sarebbe la sensibilità e la specificità del test se lo specifico punteggio venisse scelto come cut-off. La teoria statistica alla base di questo procedimento prende origine da esperimenti sulla percezione visiva (Swets, 1961; Swets et al., 1961). Tali ricerche hanno poi portato alla formulazione di quella che è nota come teoria della detezione del segnale (TDS, Green & Swets, 1966). L’idea di base è che quando dobbiamo prendere una decisione in un contesto di incertezza, ci basiamo sulle informazioni che provengono dall’esterno: nel caso del test, per decidere se la persona presenta il Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 16 disturbo ci possiamo basare sull’informazione derivante dal test. Il problema, però, è che questa informazione è “rumorosa”, un po’ come quando vi trovate nel mezzo di una folla rumorosa e avete l’impressione che qualcuno vi abbia chiamato: il problema è che il rumore c’è comunque, solo che in quel momento avrebbe potuto aggiungersi la voce di qualcuno che chiamava il vostro nome. Il problema, nel caso dei test utilizzati a scopo diagnostico è lo stesso: c’è un rumore di fondo nel punteggio al test che, a volte, potrebbe contenere anche il fatto che la persona ha effettivamente un disturbo. Nei termini della TDS, la Tabella 6.1.1 può essere riscritta come la Tabella 6.1.4. Tabella 6.1.4 Termini della teoria della detezione del segnale Disturbo Test Positivo Negativo Presenza Assenza Positivo e malato Vero positivo Decisione corretta a HIT Negativo e malato Falso negativo Decisione sbagliata c OMISSIONE Positivo e non malato Falso positivo Decisione sbagliata b FALSO ALLARME Negativo e malato Vero negativo Decisione corretta d RIFIUTO CORRETTO Totale dei malati a+c Totale dei non malati b+d Totale dei positivi al test a+b Totale dei negativi al test c+d In questa teoria l’indice che viene utilizzato per valutare la capacità di discriminazione del test è il d’ (“d primo”, Tanner & Swets, 1954), che, assumendo che il “rumore” e il “rumore+segnale” seguano la stessa distribuzione di probabilità normale, a parte il valore della media, si calcola come d’ = z(Hit) − z(Falso Allarme) = z(Se) − z(1 − Sp) In pratica, dato che Se e (1−Sp) sono probabilità, vengono calcolati i punti z corrispondenti a queste probabilità nella distribuzione normale standardizzata e sottratti. Nel caso dei valori in Tabella 6.1.2, in cui Se = ,76 e 1−Sp = ,12, basterà inserire queste probabilità nella formula di Excel =INV.NORM.ST(probabilità) per ottenere i due valori corrispondenti: 0,706 e −1,175. La sottrazione di questi valori restituisce il d’, che è uguale a 1,88. Se il test funzionasse in modo casuale, per cui la sua accuratezza fosse ,50, il valore di d’ sarebbe uguale a zero, come può essere facilmente Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 17 verificato calcolandolo per i dati in Tabella 6.1.3. Per calcolare l’intervallo di fiducia di d’, è possibile utilizzare il metodo di Gourevich e Galanter (1967)2. In questo metodo l’errore standard di d’ corrisponde a: SE d ' = Se(1 − Se) Sp (1 − Sp ) + 2 n P [ord ( z Se )] n A [(ord ( z1− Sp )]2 In questa formula nP corrisponde al numero di casi in cui il disturbo è effettivamente presente, nA corrisponde al numero di casi in cui il disturbo è effettivamente assente, e ord(zSe) e ord(z1-Sp) corrispondono alle ordinate della distribuzione normale standardizzata per i punteggi z di Se e 1−Sp. In pratica, questi valori possono essere derivati dalla funzione della distribuzione normale standardizzata: ord ( z ) = 1 2π e − 0, 5 z 2 Nel caso che stiamo considerando i due z sono 0,706 e −1,175, per cui le ordinate corrispondenti sono 0,311 e 0,200. L’errore standard di d’ è quindi: SE d ' = ,76(1−,76) ,88(1−,88) = 0,144 + 2 108 × 0,311 798 × 0,200 2 A questo punto l’intervallo di fiducia di d’ può essere calcolato come: d '− zα / 2 SEd ' ≤ d ' ≤ d '+ zα / 2 SE d ' dove zα/2 è il valore di z critico è lo z critico per un valore di probabilità uguale a (1 − livello di fiducia)/2. Nel caso di un livello di fiducia del 95% lo z critico è 1,96, per cui avremo: 1,88 − 1,96 × 0,144 ≤ d ' ≤ 1,88 + 1,96 × 0,144 → 1,61 ≤ d ' ≤ 2,17 Insieme a d’ viene riportato anche un valore noto come area sotto alla curva (ASC). Tale curva prende il nome di curva ROC (Receiver Operating Characteristics), che viene tracciata in un diagramma di riferimento di assi coordinati in cui l’ascissa (asse orizzontale) è rappresentata dai valori di [1 − Specificità] e l’ordinata (asse verticale) è rappresentata dai valori della Sensibilità (Figura 2 Gourevich, V., & Galanter, E. (1967). A significance test for one parameter isosensitivity functions. Psychometrika, 32(1), 25–33. Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 18 6.1.4a). In Figura 6.1.4a si nota come entrambi gli assi, in quanto rappresentanti probabilità, abbiamo come valore minimo 0 e valore massimo 1. L’origine degli assi corrisponde al caso del test con perfetta specificità (1,00, da cui 1 − Specificità = 0) ma sensibilità nulla. In pratica, è il test che considera tutti i casi come negativi. Al vertice opposto del quadrato troviamo invece il punto che corrisponde al test con perfetta sensibilità ma specificità nulla, ossia il test che considera tutti i casi come positivi. La diagonale che unisce questi due punti è detta linea del caso, che corrisponde alla retta sulla quale si trovano i punti di quei test che discriminano in modo causale. Trattandosi di un riferimento di assi coordinati, diventa facile individuare il punto corrispondente al caso in esame. Nel test per lo screening dei disturbi alimentari avevamo ottenuto una sensibilità di ,76 e una specificità di ,88, da cui 1 − Specificità = ,12. All’incrocio fra ,12 sull’asse orizzontale e ,76 sull’asse verticale troviamo quindi il punto che ci interessa (Figura 6.1.4b). Figura 6.1.4 Riferimento degli assi coordinati per la curva ROC (a), tracciatura della curva nel caso di dati dicotomici (b e c), area sotto alla curva (d) e suo calcolo (e) Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 19 Unendo questo punto con l’origine degli assi e il vertice opposto a questo, otteniamo la curva ROC (Figura 6.1.4c). L’area che si trova al di sotto di questa curva (Figura 6.1.4d) rappresenta un indice di accuratezza del test. Per calcolare quest’area, basta utilizzare un po’ di geometria. Tracciando un retta orizzontale e una verticale che passino dal punto individuato nel grafico, nel momento in cui vengono intercettati gli assi vengono al contempo definiti un rettangolo che ha base uguale alla specificità e altezza uguale alla sensibilità, due triangoli: uno che ha come base la Specificità e come altezza (1 − Sensibilità) e uno che ha come base (1 − Specificità) e altezza la Sensibilità (Figura 6.1.4e). Per calcolare l’area totale sotto alla curva dunque basta calcolare le aree di questi poligoni: Sp × (1 − Se) Se × (1 − Sp ) ASC = ( Sp × Se) + + 2 2 Con un po’ di passaggi algebrici si dimostra che nel caso dicotomico l’area sotto alla curva può essere stimata come la semisomma di sensibilità e specificità, per cui: ASC = Sp + Se 2 Nel nostro caso abbiamo: ASC = ,76+,88 =,82 2 Se il test ha una buona capacità di discriminazione, quest’area dovrebbe essere staticamente maggiore di ,50, ossia l’area che sta sotto alla linea del caso (l’area è facilmente calcolabile come [1 ×1 ] / 2= ,50). Per calcolare un intervallo di fiducia dell’area sotto alla curva, e quindi verificare l’ipotesi nulla che è statisticamente diversa da ,50, occorre calcolare l’errore standard dell’area sotto alla curva con la formula (Hanley & McNeil, 1982): ES ASC = ASC (1 − ASC ) + (n pres − 1)(Q1 − ASC 2 ) + (nass − 1)(Q 2 − ASC 2 ) n pres nass Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 20 dove ASC è l’area sotto alla curva, npres e nass sono rispettivamente il numero di soggetti in cui il disturbo è presente e in cui è assente , Q1 = ASC / (2 − ASC) e Q2 = 2ASC2 / (1 + ASC). Nel caso che stiamo considerando, Q1 = ,82 / (2 − ,82) = ,69, Q2 = 2 ×,822 / (1 + ,82) = ,74, da cui: ES ASC ,82(1−,82) + (108 − 1)(,69−,82 2 ) + (798 − 1)(,74−,82 2 ) = =,03 108 × 798 A questo punto, per realizzare un intervallo di fiducia basta applicare la formula: ASC − z × ES ASC ≤ ASC ≤ ASC + z × ES ASC dove z è lo z critico corrispondente a (1 − livello di fiducia)/2. Per un intervallo di fiducia al 95% avremo quindi: ,82 − 1,96×,03 ≤ ASC ≤,82 + 1,96×,03 →,76 ≤ ASC ≤,88 che ci permette di concludere che l’area sotto alla curva per il test di screening dei disturbi alimentari è statisticamente diversa da ,50. Nel caso in cui non ci si basi sulla decisione presa in base al test, e quindi l’esito del test non sia semplicemente positivo o negativo, ma sia un punteggio discreto e ordinabile, tracciare la curva ROC diventa leggermente più complicato, in quanto occorre individuare sul grafico un numero di punti uguale al numero di punteggi meno uno. Per calcolare le coordinate di questi punti, dobbiamo realizzare una tavola di contingenza che abbia k righe, dove k è il numero di punteggi possibili, e 2 colonne, che sono lo stato del disturbo (presente/assente). In Tabella 6.1.5 sono riportati i dati di un ideale test di screening che fornisce 4 punteggi (0, 1, 2 e 3) e per il quale a punteggio maggiore corrisponde un maggior grado di sintomatologia. Tabella 6.1.5 Tavola di contingenza punteggio al test × status clinico Disturbo Punteggio al test Presente Assente 3 377 43 420 2 234 197 431 1 117 299 416 0 56 389 445 784 928 1712 Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 21 Per calcolare le coordinate dei due punti della curva ROC, occorre “collassare” alcune categorie di punteggio alla volta, a partire dalla più alta, in modo da ottenere delle tavole di contingenza 2 × 2 in cui calcolare Sensibilità e Specificità. In pratica, prima si confronta la categoria di punteggio più alta contro tutte le più basse, poi le due più alte contro tutte le altre, poi le tre più alte contro tutte le altre, e così via. La Tabella 6.1.6 mostra il procedimento. Tabella 6.1.6 Determinazione dei punti per la costruzione della curva ROC nel caso di un punteggio ordinale (a) Disturbo Punteggio Presenza Assenza 885 al test 1 − Sp = 1 − =,05 3 377 43 420 2+1+0 234 + 117 + 56 = 407 197 + 299 + 389 = 885 1292 784 928 1712 928 377 Se = =,48 784 (b) Disturbo Punteggio al test Presenza Assenza 3+2 377 + 234 = 611 43 + 197 = 240 1+0 1 − Sp = 1 − 851 117 + 56 = 173 299 + 389 = 688 861 784 928 1712 Se = 688 =,26 928 611 =,78 784 (c) Disturbo Punteggio al test Presenza Assenza 3+2+1 377 + 234 + 117 = 728 43 + 197 + 299 = 539 56 389 445 784 928 1712 0 1 − Sp = 1 − 1267 Se = 389 =,58 928 728 =,93 784 Le tre coordinate dei punti per tracciate la curva ROC saranno quindi [,05; ,48]. [,26; ,78], [,58; ,93] (Figura 6.1.5). Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 22 Figura 6.1.5 Curva ROC nel caso di un punteggio ordinale Con un procedimento simile a quello illustrato nel caso dicotomico è possibile calcolare l’area sotto alla curva. Ad ogni modo, se si hanno punteggi al test che possono assumere molti valori per questo tipo di analisi occorre utilizzare un software, come ad esempio SPSS. In Strumenti Informatici 6.1 è riportato il procedimento per la realizzazione dell’analisi delle curve ROC con SPSS. Il fatto di aver ottenuto un valore di sensibilità e specificità per ogni accorpamento di categorie, di fatto, ci mette nella condizione di valutare quali sarebbero questi valori per un certo valore di cut-off corrispondente al punto medio della distanza fra il valore minore del raggruppamento maggiore e la categoria maggiore del raggruppamento inferiore. Nel caso della Tabella 6.1.6a, il cut-off è 2,5, nel caso della Tabella 6.1.6b è 1,5, nel caso della Tabella 6.1.6c è 0,5. La curva ROC, la sua area sotto alla curva con relativo errore standard e intervallo di fiducia, e i valori di sensibilità e (1 − specificità) per ogni possibile punteggio di cut-off costituiscono l’output tipico di SPSS (Figura 6.1.6). Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 23 Area sotto alla curva = ,890 Errore standard = ,019 Significatività: p < ,001 Intervallo di fiducia al 95%: ,853 − ,926 Cut-off 22,0 23,5 24,5 25,5 26,5 27,5 28,5 29,5 30,5 31,5 32,5 33,5 34,5 35,5 36,5 37,5 38,5 39,5 40,5 41,5 42,5 43,5 Se 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 ,99 ,96 ,96 ,96 ,96 ,96 ,96 ,96 ,96 ,96 ,96 ,96 ,96 ,95 1 − Sp 1,00 1,00 ,99 ,99 ,98 ,96 ,94 ,93 ,91 ,89 ,86 ,83 ,80 ,74 ,71 ,66 ,61 ,58 ,54 ,51 ,47 ,43 Sp ,00 ,00 ,01 ,01 ,02 ,04 ,06 ,07 ,09 ,11 ,14 ,17 ,20 ,26 ,29 ,34 ,39 ,42 ,46 ,49 ,53 ,57 Cut-off 44,5 45,5 46,5 47,5 48,5 49,5 50,5 51,5 52,5 53,5 54,5 55,5 56,5 57,5 58,5 59,5 60,5 61,5 62,5 63,5 64,5 65,5 Se ,93 ,93 ,93 ,93 ,93 ,90 ,88 ,88 ,86 ,83 ,83 ,82 ,79 ,77 ,73 ,68 ,66 ,63 ,62 ,61 ,61 ,60 1 − Sp ,39 ,35 ,32 ,28 ,26 ,24 ,23 ,21 ,19 ,18 ,17 ,16 ,14 ,12 ,11 ,10 ,09 ,09 ,08 ,07 ,06 ,06 Sp ,61 ,65 ,68 ,72 ,74 ,76 ,77 ,79 ,81 ,82 ,83 ,84 ,86 ,88 ,89 ,90 ,91 ,91 ,92 ,93 ,94 ,94 Cut-off 66,5 67,5 68,5 69,5 70,5 71,5 72,5 73,5 74,5 75,5 76,5 77,5 78,5 79,5 80,5 81,5 82,5 83,5 85,5 88,0 90,0 Se ,56 ,54 ,49 ,45 ,41 ,37 ,35 ,33 ,31 ,28 ,22 ,20 ,20 ,17 ,15 ,10 ,07 ,04 ,02 ,01 ,00 1 − Sp ,05 ,05 ,04 ,04 ,04 ,04 ,03 ,03 ,02 ,02 ,02 ,02 ,01 ,01 ,00 ,00 ,00 ,00 ,00 ,00 ,00 Sp ,95 ,95 ,96 ,96 ,96 ,96 ,97 ,97 ,98 ,98 ,98 ,98 ,99 ,99 1,00 1,00 1,00 1,00 1,00 1,00 1,00 Figura 6.1.6 Output di SPSS per un’analisi di curve ROC. Si noti che nella tabella la colonna Sp non è fornita nell’output di SPSS, ma è stata aggiunta come riferimento per le Figura 6.8. Ricavando la specificità dalla tabella riportata in Figura 6.1.6 (basta sottrarre il valore di [1 − Sp] a 1), possiamo realizzare un grafico in cui poniamo sull’asse orizzontale tutti i possibili punteggi di cut-off e sull’asse verticale i valori di specificità e specificità, in modo da tracciare l’andamento dei due indici (Figura 6.1.7). Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.1 – Determinare punteggi di cut-off 24 Figura 6.1.7 Determinazione grafica del punteggio di cut-off ottimale In base al grafico in Figura 6.1.7 e ai dati nella tabella di Figura 6.1.6 è possibile individuare al punteggio di cut-off 54,5 la specificità e la sensibilità sono entrambe uguali a ,83. In qualche modo, quindi, questo punteggio di cut-off sembra rappresentare il miglior compromesso fra la capacità del test di individuare i veri positivi e i veri negativi −, o per dirla nei termini della TDS, ha un’uguale probabilità di ottenere un hit o un rifiuto corretto. A volte non c’è un punteggio di cut-off a cui corrisponde lo stesso valore di sensibilità e specificità, ma è sempre possibile individuare una coppia di punteggi di cut-off in cui si assiste all’”inversione” dei valori di sensibilità e specificità, ossia, per un punteggio si ha sensibilità più alta e specificità più bassa dell’altro e viceversa (ad esempio, Se1 = ,78 e Sp1 = ,79 vs Se2 = ,79 e Sp2 = ,78). In quel caso il punteggio di cut-off può essere determinato come semisomma dei due punteggi in questione. Il metodo appena descritto viene talvolta indicato come quello per ottenere un “cut-off ottimale”. In realtà, come fa notare Lauriola (2007) questo metodo permette di individuare il cut-off ottimale quando non siano noti costi degli errori (falsi positivi e falsi negativi) e i benefici delle decisioni corrette (veri positivi e veri negativi). Se invece queste informazioni sono note, la determinazione della soglia ottimale è un po’ più complessa. Il lettore interessato troverà un’ottima (e non troppo statistica …) trattazione del problema in Swets e collaboratori (2000). Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia