6.1 Determinare il punteggio di cut-off

Approfondimento 6.1
Determinare punteggi di cut-off
1. Cos’è e a cosa serve un punteggio di cut-off
Nel caso particolare in cui il test sia stato progettato con lo scopo di fornire una misura di screening,
sarà fondamentale sapere quale punteggio possiamo considerare come soglia in modo da orientare
la decisione sul soggetto. Tale punteggio prende il nome di punteggio di cut-off.
Perché il calcolo di un punteggio di cut-off score abbia senso occorre che la procedura di
sviluppo e validazione del test sia stata progettata in modo da consentire l’individuazione di questo
valore in modo valido e attendibile. Questo significa che, come abbiamo accennato già in precedenza, i gruppi da discriminare devono essere stati identificati in anticipo, i criteri di inclusione ed esclusione nei gruppi devono essere stati definiti accuratamente e, soprattutto, rispettati, e la stessa
procedura di selezione degli item nelle fasi di raffinazione del test deve aver privilegiato la capacità
degli item di discriminare fra i gruppi in esame, al di là delle altre caratteristiche psicometriche. Aver seguito queste indicazioni dovrebbe portare ad ottenere un test il cui punteggio possieda
un’adeguata capacità di discriminazione.
Ad ogni modo, la determinazione di un punteggio di cut-off è possibile per qualunque tipo
di test: basta avere a disposizione i dati su almeno due gruppi di soggetti. Il punto, però, è che perché il test abbia una buona capacità di discriminazione, occorre che la differenza fra i punteggi ai
test dei due gruppi sia la più ampia possibile. La prima cosa da fare, quindi, è eseguire un test t per
campioni indipendenti che consenta di verificare se le medie dei due gruppi sono non solo statisticamente diverse fra loro, ma lo siano in modo rilevante, ossia si abbia un’adeguata dimensione
dell’effetto. Quando si esegue la standardizzazione dei punteggi di un test, infatti, di solito si hanno
a disposizione molti soggetti, il che determina un’enorme potenza del test statistico, ossia la sua capacità di rifiutare l’ipotesi nulla di uguaglianza delle medie delle popolazioni in esame anche preCarlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
2
senza di una dimensione dell’effetto piccola. Se vogliamo confrontare, come è spesso il caso, una
popolazione generale con una popolazione clinica, la capacità di discriminazione di un punteggio al
test, però, non può essere valutata solo in base alla significatività del test sulle differenze, dato che
dipende in massima parte dalla dimensione dell’effetto d, ossia, da quanto effettivamente sono separate le distribuzioni dei punteggi dei due gruppi sull’asse orizzontale, come mostrato in Figura
6.1.1.
Figura 6.1.1 Dimensioni dell’effetto della differenza fra medie
In pratica, quanto maggiore è la sovrapposizione fra le due distribuzioni dei punteggi, tanto meno
attendibile sarà la determinazione di un punteggio di cut-off. A onor del vero, questa interpretazione
della capacità di discriminazione di un test basata sui punteggi medi è fin troppo semplicistica, dato
che assume che la distribuzione dei punteggi nei due gruppi sia normale e sostanzialmente la stessa
in entrambi i gruppi, e che il test misuri lo stesso costrutto, nello stesso modo, in entrambi i gruppi.
Si noti che il test non necessariamente misura la stessa cosa in due gruppi diversi solo perché gli item sono gli stessi. Dovrebbe quindi essere verificata in precedenza l’invarianza di misurazione dello strumento in esame (si veda il Capitolo 5), in modo da appurare che l’unica differenza fra i gruppi sia il loro livello nel costrutto in esame, e non in altre caratteristiche del test, come ad esempio le
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
3
saturazioni fattoriali degli item. Inoltre, in alcuni casi come quelli in cui vengono impiegati i tempi
di reazione, la ricerca è da qualche anno orientata a valutare non tanto le differenze fra le medie,
quanto quelle relative alle code della distribuzione (ad esempio, Palmer et al., 2011). In particolare,
questo approccio si sta rivelando utile per lo screening precoce della demenza senile (ad esempio,
Spieler et al., 1996; Balota et al., 2008).
Per tornare alla situazione di cui ci stiamo occupando, comunque, il problema fondamentale
riguarda il determinare il punteggio di cut-off. Supponendo che i punteggi al test della popolazione
clinica siano maggiori di quella della popolazione generale, è stato suggerito da Jacobson e collaboratori (1984) di considerare tre possibili criteri per il cut-off: (1) il punteggio che si trova due deviazioni standard sotto alla media della popolazione clinica (a); (2) il punteggio che si trova due deviazioni standard sopra alla media della popolazione generale (b); (3) il punteggio in cui la probabilità
che un soggetto appartenga all’una o all’altra delle due distribuzioni è la stessa (c). Questi punteggi
sono mostrati in Figura 6.1.2.
Figura 6.1.2 Possibili punti di cut-off proposti da Jacobson e collaboratori (1984) e loro conseguenze.
NB: ±2DSg = ±2 deviazioni standard popolazione generale, ±2DSc = ±2 deviazioni standard popolazione clinica
Scegliere un punteggio di cut-off, però, significa stabilire un certo punteggio per cui i soggetti che
ottengono un punteggio uguale o superiore (o inferiore) sono considerati a rischio, e i soggetti che
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
4
ottengono un punteggio inferiore (o uguale e superiore) sono considerati non a rischio. Questo procedimento non ci assicura però di aver preso la decisione giusta, dato che può capitare che un soggetto della popolazione clinica non ottenga un punteggio superiore al cut-off (falso negativo) o soggetto della popolazione generale ottenga un punteggio superiore al cut-off (falso positivo). La parte
inferiore della Figura 6.1.2 mostra come le probabilità di ottenere un falso negativo o un falso positivo vari in base al tipo di cut-off scelto. In più, le probabilità corrispondenti variano in funzione del
livello di sovrapposizione delle due distribuzioni: quando le distribuzioni sono molto sovrapposte
(dimensione dell’effetto piccola), infatti, il criterio c continuerà ad assicurare la stessa probabilità di
falsi positivi e falsi negativi, ma queste probabilità saranno in assoluto più alte del caso in cui la sovrapposizione delle distribuzioni è minima (dimensione dell’effetto grande).
Ad ogni modo, il calcolo dei tre indici è molto semplice. Supponiamo di aver somministrato
un test di screening per i disturbi alimentari ad un campione di pazienti e ad un campione di donne
della popolazione generale omogeneo rispetto alle caratteristiche socio-demografiche rilevanti (ad
esempio, età, livello di istruzione, livello socio-economico, etc.), e di aver ottenuto che nella popolazione generale il punteggio medio è 44±11, mentre nella popolazione clinica è 66±12. Se vogliamo calcolare il punteggio che si trova due deviazioni standard sotto alla media della popolazione
clinica (a), il valore che stiamo cercando è 66 − 2 × 12 = 42; se vogliamo calcolare il punteggio che
si trova due deviazioni standard sopra alla media della popolazione generale (b), il valore che stiamo cercando è 44 + 2 × 11 = 66, mentre se vogliamo calcolare il punteggio in cui la probabilità che
un soggetto appartenga all’una o all’altra delle due distribuzioni è la stessa (c) dobbiamo utilizzare
la seguente formula:
c=
sc M g + s g M c
sc + s g
dove sc e Mc sono la deviazioni standard e la media della popolazione clinica e della sg e Mg sono la
deviazioni standard e la media della popolazione generale. Nel caso che stiamo considerando avremmo:
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
c=
5
12 × 44 + 11 × 66
= 54,52
12 + 11
Un punteggio di cut-off di 54,52, quindi, dovrebbe consentirci di ottenere un ugual proporzione di
falsi negativi e falsi positivi.
Questo approccio, però, è stato oggetto di varie critiche. Innanzitutto, il punteggio è attendibile solo se sono soddisfatte le assunzioni sulle caratteristiche delle distribuzioni enunciate in precedenza. Inoltre, come suggerito da Tingey e collaboratori (1996), dovrebbe essere calcolato un intervallo di fiducia attorno al punteggio di cut-off individuato, con i metodi descritti nella sezione 6.2
del manuale. I punteggi che ricadono in tale intervallo, ad ogni modo, si troverebbero in una condizione di ambigua, per cui si proporrebbe il problema di stabilire come effettivo cut-off i limite inferiore o quello superiore dell’intervallo di fiducia, che riprodurrebbe la situazione appena descritta.
2. Indici della capacità di discriminazione di un test con un certo cut-off
Prima di esaminare un metodo statistico che ci consenta di esplorare meglio le caratteristiche operative di un test utilizzato come supporto alla diagnosi o di screening, è opportuno osservare come
nella determinazione del punteggio ottimale di cut-off la statistica giochi un ruolo spesso marginale,
dato che, al di là degli aspetti meramente numerici, quello che determina la scelta di un valore o di
un altro sono anche considerazioni pratiche legate al costo economico, per l’istituzione o per struttura sanitaria, dei falsi negativi e dei falsi positivi, e i benefici delle decisioni corrette (veri positivi e
veri negativi). Il problema, quindi, è valutare se, per un certo tipo di disturbo, sia preferibile avere
parecchi falsi positivi, che quindi verranno sottoposti ad ulteriori accertamenti inutilmente, perché
in ogni caso un falso negativo costa molto di più di diversi falsi positivi, o viceversa, ossia se sia
economicamente sia più vantaggioso limitare il numero di falsi positivi, anche a costo di correre il
rischio di ottenere molti falsi negativi, e quindi non sottoporre ad ulteriori accertamenti individui
che, con buona probabilità, potrebbero presentare il disturbo − naturalmente non è questa la strategia che vorremmo che il nostro sistema sanitario applicasse. In questi casi la statistica viene utiliz-
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
6
zata più che altro a scopo descrittivo, calcolando, per ogni punteggio di cut-off possibile, la probabilità di ottenere falsi negativi e falsi positivi. Vediamo allora come procedere.
Nel momento in cui stabiliamo un punteggio di cut-off, i punteggi superiori (o, a seconda dei
casi, inferiori) al cut-off vengono chiamati positivi, mentre quelli inferiori (o, a seconda dei casi,
superiori) al cut-off, vengono chiamati negativi. Questa classificazione dei soggetti basata sul punteggio al test, però, deve essere incrociata con l’effettiva presenza o assenza del disturbo nei soggetti esaminati, per cui potremo costruire una tavola di contingenza come quella di Tabella 6.1.1.
Tabella 6.1.1 Tavola di contingenza derivante dalla classificazione incrociata della condizione di soggetti di con/senza disturbo e positivi/negativi al test
Disturbo
Test
Positivo
Negativo
Presenza
Positivo e malato
Vero positivo
Decisione corretta
a
Negativo e malato
Falso negativo
Decisione sbagliata
c
Assenza
Positivo e non malato
Falso positivo
Decisione sbagliata
b
Negativo e malato
Vero negativo
Decisione corretta
d
Totale dei malati
a+c
Totale dei non malati
b+d
Totale dei positivi al test
a+b
Totale dei negativi al test
c+d
Nel momento in cui il test risulta superiore (inferiore) al cut-off, e quindi classifichiamo il soggetto
come positivo, se il soggetto presenta effettivamente il disturbo si parla di vero positivo e dunque
la decisione presa in base al test è corretta, mentre se il soggetto non presenza il disturbo si parla di
falso positivo e la decisione al test è sbagliata. Quando invece il soggetto ha ottenuto un punteggio
inferiore (superiore) al cut-off, viene classificato come negativo: se presenta il disturbo, si parla di
falso negativo e la decisione presa in base al test è sbagliata, se invece non presenta il disturbo si
parla di vero negativo e la decisione presa in base al test è corretta.
I dati contenuti in una tavola di contingenza come quella di Tabella 6.1.1 possono essere sottoposti a tutta una serie di diverse analisi statistiche. A livello descrittivo, il primo indice da calcolare è l’accuratezza (A) o efficienza, ossia la percentuale di casi che il test ha correttamente classifi-
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
7
cato. Per calcolarla, basta sommare le frequenze di veri positivi e di veri negativi e dividere per il
totale dei soggetti:
A=
a+d
a+b+c+d
Supponiamo di aver determinato un certo punteggio di cut-off per il test di screening per i disturbi
alimentari di cui stiamo parlando e di aver ottenuto i risultati la tavola di contingenza di Tabella
6.1.2.
Tabella 6.1.2 Prestazione operativa di un test di screening per i disturbi alimentari
Disturbo
Test
Positivo
Negativo
Presenza
Positivo e malato
Vero positivo
Decisione corretta
a = 82
Negativo e malato
Falso negativo
Decisione sbagliata
c = 26
Assenza
Positivo e non malato
Falso positivo
Decisione sbagliata
b = 94
Negativo e malato
Vero negativo
Decisione corretta
d = 704
Totale dei malati
a +c = 108
Totale dei non malati
b +d = 798
Totale dei positivi al test
a + b = 176
Totale dei negativi al test
c + d = 730
906
Nel caso della Tabella 6.1.2, l’accuratezza sarà:
A=
82 + 704
=,87
82 + 94 + 26 + 704
Questo risultato, significa che il test è in grado di classificare correttamente nell’87% dei casi, indipendentemente dal fatto che si tratti veri negativi o veri positivi. Il punteggio migliore possibile è
naturalmente 1,00, mentre quello peggiore corrisponde al caso in cui il test classifichi i soggetti a
caso, per cui sia per i soggetti con effettiva presenza del disturbo, sia per quelli privi di disturbo la
probabilità di essere classificati come positivi è del 50%. In questo caso osserveremmo una tavola
di contingenza come quella di Tabella 6.1.3, in cui ,l’accuratezza è uguale a ,50:
Tabella 6.1.3 Tavola di contingenza nel caso in cui il test classifichi i soggetti casualmente
Disturbo
Test
Presenza
Assenza
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
Positivo
Negativo
8
Positivo e malato
Vero positivo
Decisione corretta
a = 54
Negativo e malato
Falso negativo
Decisione sbagliata
c = 54
Positivo e non malato
Falso positivo
Decisione sbagliata
b = 399
Negativo e malato
Vero negativo
Decisione corretta
d= 399
Totale dei malati
a + c = 108
Totale dei non malati
b + d = 798
Totale dei positivi al test
a + b =453
Totale dei negativi al test
c + d = 453
906
54 + 399
=,50
54 + +399 + 54 + 399
A=
Il 50% rappresenta quindi la peggiore prestazione possibile del test. Paradossalmente, quando più
l’accuratezza sotto il 50% − il che significa che i sani vengono classificati come malati e viceversa
con probabilità sempre maggiore − il test diventa progressivamente sempre più informativo, anche
se per trarne vantaggio occorre sapere che il test classifica i soggetti al contrario! In pratica, quindi,
un test con un’accuratezza del 13% avrebbe la stessa informatività del test che stiamo considerando,
dato che, considerando il 50% come asse di simmetria, possiede un’accuratezza specularmente identica.
Sulla tavola di contingenza che abbiamo realizzato è possibile però calcolare altri quattro indici:
•
Sensibilità (Se, Sensitivity): probabilità che ha un soggetto di risultare positivo al test dato che
presenta il disturbo: Se = p ( P SI ) =
•
a
. Nel caso dei dati in Tabella 6.1.2 questo valore è ,76.
a+c
Specificità (Sp, Specificity): probabilità che ha un soggetto di risultare negativo al test dato che
non presenta il disturbo: Sp = p ( N NO) =
d
. Nel caso dei dati in Tabella 6.1.2 questo valob+d
re è ,88.
•
Potere predittivo positivo (PPP, Positive Predictive Power): probabilità che ha un soggetto di
presentare il disturbo dato che è risultato positivo al test, ossia, proporzioni di diagnosi corrette:
PPP = p ( SI P) =
a
. Nel caso dei dati in Tabella 6.1.2 questo valore è ,47;
a+b
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
•
9
Potere predittivo negativo (PPN, Negative Predictive Power): probabilità che ha un soggetto
di non presentare il disturbo dato che è risultato negativo al test, ossia, proporzioni di non diagnosi corrette: NNP = p ( NO N ) =
c
. Nel caso dei dati in Tabella 6.1.2 questo valore è ,96.
c+d
Per ottenere gli intervalli di fiducia dell’accuratezza e di questi valori occorre utilizzare la formula
sviluppata da Wilson (1927), che Newcombe (1998) ha dimostrato essere quella che, fra i vari metodi di stima dell'intervallo di fiducia di una proporzione, rappresenta il miglior compromesso tra la
correttezza della stima e la facilità di calcolo manuale:
2nx + z 2 ± z z 2 + 4nx(1 − x)
2(n + z 2 )
dove n è il numero di soggetti, x è il valore dell’indice di cui si vuole calcolare l’intervallo di fiducia
e z è lo z critico per un valore di probabilità uguale a (1 − livello di fiducia)/2.
Nel caso dell’accuratezza, l’intervallo di fiducia al 95% (da cui z critico = 1,96) sarà determinato dalla formula:
2 × 906×,87 + 1,96 2 ± 1,96 × 1,96 2 + 4 × 906×,87 × (1−,87)
2 × (906 + 1,96 2 )
Svolgendo i calcoli si ottiene che l’intervallo di fiducia al 95% per l’accuratezza è ,85 ≤ A ≤ ,89.
Con lo stesso procedimento otteniamo che: ,85 ≤ Se ≤ ,89, ,86 ≤ Sp ≤ ,90, ,44 ≤ PPP ≤ ,50, ,95 ≤
NPP ≤ ,97.
La determinazione dei limiti superiori e inferiori dell’intervallo di fiducia permette anche,
indirettamente, di verificare l’ipotesi che nella popolazione il valore sia uguale a ,50: se infatti tale
valore è compreso nell’intervallo, l’indice ottenuto non ne è statisticamente diverso, mentre se non
lo contiene, allora significa che possiamo rifiutare l’ipotesi nulla.
In base ai dati della Tabella 6.1.2 è possibile calcolare anche altri tre indici: il rapporto di
verosimiglianza, il rischio relativo e l’odds ratio (Agresti, 2002; Lauriola, 2007)
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
10
Il rapporto di verosimiglianza (RV, in inglese likelihood ratio) consente di combinare specificità e sensibilità in un unico indice, dato che è definito come sensibilità diviso uno meno la specificità:
RV =
Se
(1 − Sp )
Tale indice rappresenta quanto è più probabile un test positivo fra chi presenta il disturbo rispetto a
chi non lo presenta. Nel caso del test di screening per i disturbi di personalità questo valore è ,76 /
(1 − ,88) = 6,33. Questo risultato significa indica che un risultato positivo al test è 6,33 volte più
probabile fra le pazienti rispetto alla popolazione generale. L’intervallo di fiducia di questo valore
è:
e
 Se 
Sp
1− Se
 − z
ln 
+
n pres Se nass (1− Sp )
 1− Sp 
≤ RV ≤ e
 Se 
1− Se
Sp
 − z
ln 
+
n pres Se nass (1− Sp )
 1− Sp 
dove npres e nass sono rispettivamente il totale dei casi in cui il disturbo è presente e in cui il disturbo
è assente. Nel caso che stiamo considerando l’intervallo di fiducia al 95% per il RV è:
e
1− , 76
,88
 , 76 
ln 
 −1, 96× 108×, 76 + 798×(1− ,88)
 1− ,88 
≤ RV ≤ e
1− , 76
,88
 , 76 
ln 
 +1, 96× 108×, 76 + 798×(1− ,88)
 1− ,88 
→ 5,19 ≤ RV ≤ 8,01
Se l’intervallo di fiducia non contiene il valore 1, significa che un test positivo è statisticamente più
probabile fra chi presenta il disturbo rispetto a chi non lo presenta.
Il rischio relativo (RR) è invece un modo per combinare le informazioni relative al PPP e al
PPN. Tale indice esprime il rapporto fra la probabilità di avere il disturbo dato che si è risultati positivi al test rispetto alla probabilità di manifestare il disturbo dato che si è ottenuto un risultato negativo al test. In pratica, è il rapporto fra il PPP e (1 − NPP):
RR =
p ( SI | P)
PPP
=
p ( SI | N ) 1 − NPP
Nel caso dei dati in Tabella 6.1.2 il rischio relativo è uguale a ,47 / (1 − ,96) = 11,75, che indica che
chi risulta positivo al test ha una probabilità di avere un disturbo alimentare circa 12 volte maggiore
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
11
rispetto a chi risulta negativo. Per calcolare un intervallo di fiducia per questo valore si utilizza la
formula:
RR × e− z
υ
≤ RR ≤ RR × e z
1−
dove υ =
l’intervallo
1−
υ=
υ
a
c
1−
a+b +
c + d , e è la base dei logaritmi neperiani (2,718) e z è lo z critico per
a
c
di
fiducia
scelto.
Nel
caso
che
stiamo
considerando,
82
26
1−
82 + 94 +
26 + 704 =,04 , da cui un intervallo di fiducia al 95% per il RR di:
82
26
RR × e−1,96
, 04
≤ RR ≤ RR × e1,96
, 04
→ 7,94 ≤ RR ≤ 17,40
Poiché l’intervallo di fiducia di RR non contiene 1, è statisticamente diverso da questo, per cui la
probabilità di presentare il disturbo dato che si è risultati positivi al test è statisticamente superiore
alla probabilità di manifestare il disturbo dato che si è ottenuto un risultato negativo al test.
L’odds ratio (OR), infine, permette di ottenere invece un altro tipo di informazione. Con
questo termine intendiamo quello che italiano è indicato da alcuni autori (ad esempio, Corbetta,
1992) come “rapporto di associazione”. L’odds ratio è un rapporto di odds (in italiano, rapporto di
probabilità), che è la modalità anglosassone di esprimere le probabilità. Se infatti in Italia siamo abituati a rappresentarci le probabilità come numero di eventi favorevoli su numero di eventi possibili, nel mondo anglosassone vengono espresse come rapporto fra la probabilità che un evento si verifichi e probabilità che l’evento non si verifichi [p/(1−p)]. Ad esempio, se supponete che la vostra
probabilità di superare l’esame di psicometria sia del 70%, il vostro odds è ,70 / ,30 = 2,33, che significa che ritenere di avere una probabilità di superare l’esame 2,33 volte maggiore della probabilità di non superarlo.
Nel caso di una tavola di contingenza 2 × 2, l’odds indica, per ogni categoria della variabile
dicotomica A, il rapporto tra la frequenza di trovarsi in una categoria della variabile dicotomica B e
la frequenza di non trovarvisi. In altri termini, gli odds possono essere facilmente calcolati come
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
12
rapporto fra le frequenze di una stessa riga o di una stessa colonna. Ad esempio, nel campione delle
pazienti in Tabella 6.1.2, l’odds di risultare positivo al test piuttosto che negativo è 82/26 = 3,15
mentre nel campione della popolazione generale è 94/704 = 0,13. Viceversa, fra i positivi al test
l’odds di manifestare il disturbo rispetto al non manifestarlo è 82/94 = 0,87, mentre fra i negativi al
test è 26/704 = ,04. Se eseguiamo il rapporto fra gli odds otteniamo l’OR, che, non considerando gli
errori di arrotondamento, è uguale in entrambi i casi, ed è 23,62.
L’intervallo di fiducia per l’odds ratio è:
−z
OR × e
1 1 1 1
+ + +
a b c d
z
≤ OR ≤ OR × e
1 1 1 1
+ + +
a b c d
dove a, b, c, e d sono le quattro frequenza di cella della tavola di contingenza. Nel caso che stiamo
considerando, l’intervallo di fiducia al 95% dell’OR è:
−1,96
23,62 × e
1 1 1
1
+ + +
82 94 26 704
−1,96
≤ OR ≤ 23,62 × e
1 1 1
1
+ + +
82 94 26 704
→ 14,46 ≤ OR ≤ 38,59
Poiché l’intervallo di fiducia non contiene il valore 1 possiamo concludere che nel momento in cui
un soggetto è positivo al test, l’odds di manifestare il disturbo è statisticamente superiore all’odds di
non manifestarlo.
Il calcolo di questi indici può essere eseguito in SPSS, come illustrato negli Strumenti Informatici 6.1.
3. La decisione in contesti applicativi
I risultati ottenuti nella sezione 6.3.1 possono essere ritenuti validi solo nel contesto di ricerca nel
quale sono stati calcolati. Nei contesti applicativi, come può essere clinico, quando ci si trova di
fronte un soggetto non è sufficiente conoscere la probabilità per cui un punteggio positivo è effettivamente indicatore della presenza del disturbo, ossia, il PPP, perché questa probabilità è vera nel
campione di standardizzazione del test, ma non per la specifica persona che abbiamo davanti.
Quando si effettua una valutazione psicologica, innanzitutto occorre formulare ipotesi sulle
diagnosi possibili in base alle informazioni (segni, sintomi, etc.) note. Nel caso più semplice, poCarlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
13
tremmo formulare l’ipotesi che il soggetto abbia (p) o non abbia (1 − p) il disturbo. Prima di somministrare il test dobbiamo però stabilire quali sono le probabilità a priori che il soggetto manifesti
effettivamente il disturbo. Questa informazione deriva da dati epidemiologici pubblicati nella letteratura scientifica (in tal caso si parla di probabilità a priori oggettiva o prevalenza, che il rapporto fra numero di individui che presentano il disturbo e ampiezza della popolazione) o da dati specifici per una situazione particolare (ad esempio, la proporzione di persone che si rivolgono ad un certo terapeuta o ad un certo centro diagnostico e che manifestano effettivamente il disturbo) o da una
stima soggettiva fatta dal terapeuta in base alle informazioni anamnestiche e semeiotiche (probabilità a priori soggettiva). Naturalmente è possibile anche una combinazione di queste informazioni
(Lauriola, 2007).
In base alle probabilità a priori si decide quali esami o test effettuare, in modo da verificare
le ipotesi di diagnosi e da “aggiornare” di volta in volta la probabilità a priori coerentemente con i
risultati ottenuti (Figura 6.4). Relativamente al caso che stiamo considerando, la somministrazione
del test psicologico di screening permette di aggiornare la probabilità a priori in base al fatto che il
soggetto abbia o meno superato il punteggio cut-off ad una nuova probabilità, detta probabilità a
posteriori (Figura 6.1.3).
Figura 6.1.3 Schema del ragionamento clinico (adattato da Lauriola, 2007, p., 104, con modifiche)
La probabilità a posteriori diventerà a questo punto la probabilità a priori di un nuovo loop di ragionamento che condurrà alla formulazione di nuove ipotesi di diagnosi da verificare con la somminiCarlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
14
strazione di un nuovo test, i cui risultati produrranno una nuova probabilità a posteriori. Quando tale
probabilità a posteriori risulterà prossima a 1, potrà essere presa una decisione.
Per fare un esempio molto semplice, supponiamo di recarci in una scuola superiore e di
somministrare un test di screening per i disturbi alimentari a tutte le ragazze. Potremmo sapere che
nelle ragazze fra i 14 e i 19 anni, come quelle a cui stiamo per somministrare il test, la prevalenza
dei disturbi alimentari è dell’1%, ossia l’1% della popolazione in esame presenta un disturbo alimentare. In base alle caratteristiche operative del test sappiamo che la probabilità che una ragazza
risulti positiva al test dato che ha disturbo alimentare (Se) è ,76, mentre la probabilità di un falso positivo, ossia che una ragazza che non presenta il disturbo risulti positiva (1 − Sp), è 1 − ,88 = ,12.
Sarà in base a queste informazioni che saremo in grado di stabilire qual è l’effettiva probabilità che
una specifica ragazza che ha ottenuto un punteggio superiore al cut-off presenti effettivamente un
disturbo alimentare.
Il ragionamento corretto, in questi casi, è di tipo bayesiano, nel senso che chiama in causa un
particolare teorema della probabilità noto mediante teorema di Bayes, che prende il nome da Thomas Bayes, un ministro presbiteriano e matematico inglese del Settecento, che definì la probabilità
come:
The probability of any event is the ratio between the value at which an expectation depending on the happening of the event ought to be computed, and the
chance of the thing expected upon its happening (Bayes, 1763, p. 370)1.
Il teorema di Bayes prende infatti in considerazione le probabilità a priori degli eventi [nel nostro
caso, la probabilità che una ragazzina della popolazione abbia un disturbo alimentare, o prevalenza:
p(SI)], le probabilità condizionate o verosimiglianze [nel nostro caso, la probabilità che una ragazzina risulti positiva al test dato che ha un disturbo alimentare: p(P|SI)], e le probabilità a posteriori
[nel nostro caso, la probabilità che una ragazzina abbia un disturbo di personalità dato che è risultata positiva al test: p(SI|P)]. Messo in questi termini il concetto risulta abbastanza oscuro, e sventura1
“La probabilità di un qualunque evento è il rapporto fra il valore che è possibile calcolare mediante una predizione basata sul verificarsi dell’evento e la probabilità dell’evento attesa in base al suo verificarsi”. Il saggio fu pubblicato postumo da Richard Price, un amico di Bayes, due anni dopo la morte del matematico, avvenuta nel 1761.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
15
tamente lo è anche per la maggior parte dei clinici, come riferito da Gigerenzer e Hoffrage, (1995).
Cerchiamo di arrivarci per gradi, perché in realtà la cosa è più semplice di quanto non sembri. Una
prevalenza dell’1% indica che su 10000 ragazzine della scuola, 100 presentano un disturbo alimentare. La sensibilità del test ci dice che 76 ragazzine con il disturbo su 100 ottengono un punteggio
superiore al cut-off. In teoria, delle 9900 ragazzine senza il disturbo ve ne sono 9900 × ,12 = 1188
che ottengono un punteggio positivo al test (falsi positivi). In teoria, quindi, su 10000 ragazzine della scuola, dovremmo osservarne 76 + 1188 = 1264 positive al test. La probabilità che una presenti
effettivamente il disturbo dato che è positiva al test è dunque di 76 / 1264 = ,06, ossia del 6%. Si
noti che la probabilità di presentare effettivamente il disturbo in quanto positivo al test nel campione in Tabella 6.1.2, ossia il PPP, era del 47%. Espressa nei termini del teorema di Bayes, tale probabilità può essere calcolata con un’unica formula:
p ( SI | Positivo) =
p ( SI ) × p ( P | SI )
, che diventa
p ( SI ) × p ( P | SI ) + p ( NO ) × p ( P | NO)
p ( SI | Positivo) =
prevalenza × Se
,01×,76
→
=,06
prevalenza × Se + (1 − prevalenza) × (1 − Sp )
,01×,76 + (1−,01) × (1−,88)
4. Le curve operative
Per decidere quale sia il punteggio di cut-off ottimale, è necessario, come accennato in precedenza,
tenere in considerazione le ripercussioni e i costi degli errori del test, ossia dei falsi positivi e dei
falsi negativi. Può essere quindi utile avere a disposizione una tabella con i dati e un grafico che ci
permettano di visualizzare, per ogni possibile punteggio al test, quale sarebbe la sensibilità e la specificità del test se lo specifico punteggio venisse scelto come cut-off.
La teoria statistica alla base di questo procedimento prende origine da esperimenti sulla percezione visiva (Swets, 1961; Swets et al., 1961). Tali ricerche hanno poi portato alla formulazione
di quella che è nota come teoria della detezione del segnale (TDS, Green & Swets, 1966). L’idea
di base è che quando dobbiamo prendere una decisione in un contesto di incertezza, ci basiamo sulle informazioni che provengono dall’esterno: nel caso del test, per decidere se la persona presenta il
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
16
disturbo ci possiamo basare sull’informazione derivante dal test. Il problema, però, è che questa informazione è “rumorosa”, un po’ come quando vi trovate nel mezzo di una folla rumorosa e avete
l’impressione che qualcuno vi abbia chiamato: il problema è che il rumore c’è comunque, solo che
in quel momento avrebbe potuto aggiungersi la voce di qualcuno che chiamava il vostro nome. Il
problema, nel caso dei test utilizzati a scopo diagnostico è lo stesso: c’è un rumore di fondo nel
punteggio al test che, a volte, potrebbe contenere anche il fatto che la persona ha effettivamente un
disturbo. Nei termini della TDS, la Tabella 6.1.1 può essere riscritta come la Tabella 6.1.4.
Tabella 6.1.4 Termini della teoria della detezione del segnale
Disturbo
Test
Positivo
Negativo
Presenza
Assenza
Positivo e malato
Vero positivo
Decisione corretta
a
HIT
Negativo e malato
Falso negativo
Decisione sbagliata
c
OMISSIONE
Positivo e non malato
Falso positivo
Decisione sbagliata
b
FALSO ALLARME
Negativo e malato
Vero negativo
Decisione corretta
d
RIFIUTO CORRETTO
Totale dei malati
a+c
Totale dei non malati
b+d
Totale dei positivi al test
a+b
Totale dei negativi al test
c+d
In questa teoria l’indice che viene utilizzato per valutare la capacità di discriminazione del test è il
d’ (“d primo”, Tanner & Swets, 1954), che, assumendo che il “rumore” e il “rumore+segnale” seguano la stessa distribuzione di probabilità normale, a parte il valore della media, si calcola come
d’ = z(Hit) − z(Falso Allarme) = z(Se) − z(1 − Sp)
In pratica, dato che Se e (1−Sp) sono probabilità, vengono calcolati i punti z corrispondenti a queste
probabilità nella distribuzione normale standardizzata e sottratti. Nel caso dei valori in Tabella
6.1.2, in cui Se = ,76 e 1−Sp = ,12, basterà inserire queste probabilità nella formula di Excel
=INV.NORM.ST(probabilità) per ottenere i due valori corrispondenti: 0,706 e −1,175. La sottrazione di questi valori restituisce il d’, che è uguale a 1,88. Se il test funzionasse in modo casuale, per
cui la sua accuratezza fosse ,50, il valore di d’ sarebbe uguale a zero, come può essere facilmente
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
17
verificato calcolandolo per i dati in Tabella 6.1.3. Per calcolare l’intervallo di fiducia di d’, è possibile utilizzare il metodo di Gourevich e Galanter (1967)2. In questo metodo l’errore standard di d’
corrisponde a:
SE d ' =
Se(1 − Se)
Sp (1 − Sp )
+
2
n P [ord ( z Se )]
n A [(ord ( z1− Sp )]2
In questa formula nP corrisponde al numero di casi in cui il disturbo è effettivamente presente, nA
corrisponde al numero di casi in cui il disturbo è effettivamente assente, e ord(zSe) e ord(z1-Sp) corrispondono alle ordinate della distribuzione normale standardizzata per i punteggi z di Se e 1−Sp. In
pratica, questi valori possono essere derivati dalla funzione della distribuzione normale standardizzata:
ord ( z ) =
1
2π
e − 0, 5 z
2
Nel caso che stiamo considerando i due z sono 0,706 e −1,175, per cui le ordinate corrispondenti
sono 0,311 e 0,200. L’errore standard di d’ è quindi:
SE d ' =
,76(1−,76)
,88(1−,88)
= 0,144
+
2
108 × 0,311
798 × 0,200 2
A questo punto l’intervallo di fiducia di d’ può essere calcolato come:
d '− zα / 2 SEd ' ≤ d ' ≤ d '+ zα / 2 SE d '
dove zα/2 è il valore di z critico è lo z critico per un valore di probabilità uguale a (1 − livello di fiducia)/2. Nel caso di un livello di fiducia del 95% lo z critico è 1,96, per cui avremo:
1,88 − 1,96 × 0,144 ≤ d ' ≤ 1,88 + 1,96 × 0,144
→
1,61 ≤ d ' ≤ 2,17
Insieme a d’ viene riportato anche un valore noto come area sotto alla curva (ASC). Tale curva
prende il nome di curva ROC (Receiver Operating Characteristics), che viene tracciata in un diagramma di riferimento di assi coordinati in cui l’ascissa (asse orizzontale) è rappresentata dai valori
di [1 − Specificità] e l’ordinata (asse verticale) è rappresentata dai valori della Sensibilità (Figura
2
Gourevich, V., & Galanter, E. (1967). A significance test for one parameter isosensitivity functions. Psychometrika,
32(1), 25–33.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
18
6.1.4a). In Figura 6.1.4a si nota come entrambi gli assi, in quanto rappresentanti probabilità, abbiamo come valore minimo 0 e valore massimo 1. L’origine degli assi corrisponde al caso del test con
perfetta specificità (1,00, da cui 1 − Specificità = 0) ma sensibilità nulla. In pratica, è il test che considera tutti i casi come negativi. Al vertice opposto del quadrato troviamo invece il punto che corrisponde al test con perfetta sensibilità ma specificità nulla, ossia il test che considera tutti i casi come
positivi. La diagonale che unisce questi due punti è detta linea del caso, che corrisponde alla retta
sulla quale si trovano i punti di quei test che discriminano in modo causale. Trattandosi di un riferimento di assi coordinati, diventa facile individuare il punto corrispondente al caso in esame. Nel
test per lo screening dei disturbi alimentari avevamo ottenuto una sensibilità di ,76 e una specificità
di ,88, da cui 1 − Specificità = ,12. All’incrocio fra ,12 sull’asse orizzontale e ,76 sull’asse verticale
troviamo quindi il punto che ci interessa (Figura 6.1.4b).
Figura 6.1.4 Riferimento degli assi coordinati per la curva ROC (a), tracciatura della curva nel caso di
dati dicotomici (b e c), area sotto alla curva (d) e suo calcolo (e)
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
19
Unendo questo punto con l’origine degli assi e il vertice opposto a questo, otteniamo la curva ROC
(Figura 6.1.4c). L’area che si trova al di sotto di questa curva (Figura 6.1.4d) rappresenta un indice
di accuratezza del test. Per calcolare quest’area, basta utilizzare un po’ di geometria. Tracciando un
retta orizzontale e una verticale che passino dal punto individuato nel grafico, nel momento in cui
vengono intercettati gli assi vengono al contempo definiti un rettangolo che ha base uguale alla specificità e altezza uguale alla sensibilità, due triangoli: uno che ha come base la Specificità e come
altezza (1 − Sensibilità) e uno che ha come base (1 − Specificità) e altezza la Sensibilità (Figura
6.1.4e).
Per calcolare l’area totale sotto alla curva dunque basta calcolare le aree di questi poligoni:
 Sp × (1 − Se)   Se × (1 − Sp ) 
ASC = ( Sp × Se) + 

+
2
2

 

Con un po’ di passaggi algebrici si dimostra che nel caso dicotomico l’area sotto alla curva può essere stimata come la semisomma di sensibilità e specificità, per cui:
ASC =
Sp + Se
2
Nel nostro caso abbiamo:
ASC =
,76+,88
=,82
2
Se il test ha una buona capacità di discriminazione, quest’area dovrebbe essere staticamente maggiore di ,50, ossia l’area che sta sotto alla linea del caso (l’area è facilmente calcolabile come [1 ×1
] / 2= ,50).
Per calcolare un intervallo di fiducia dell’area sotto alla curva, e quindi verificare l’ipotesi
nulla che è statisticamente diversa da ,50, occorre calcolare l’errore standard dell’area sotto alla
curva con la formula (Hanley & McNeil, 1982):
ES ASC =
ASC (1 − ASC ) + (n pres − 1)(Q1 − ASC 2 ) + (nass − 1)(Q 2 − ASC 2 )
n pres nass
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
20
dove ASC è l’area sotto alla curva, npres e nass sono rispettivamente il numero di soggetti in cui il disturbo è presente e in cui è assente , Q1 = ASC / (2 − ASC) e Q2 = 2ASC2 / (1 + ASC). Nel caso che
stiamo considerando, Q1 = ,82 / (2 − ,82) = ,69, Q2 = 2 ×,822 / (1 + ,82) = ,74, da cui:
ES ASC
,82(1−,82) + (108 − 1)(,69−,82 2 ) + (798 − 1)(,74−,82 2 )
=
=,03
108 × 798
A questo punto, per realizzare un intervallo di fiducia basta applicare la formula:
ASC − z × ES ASC ≤ ASC ≤ ASC + z × ES ASC
dove z è lo z critico corrispondente a (1 − livello di fiducia)/2. Per un intervallo di fiducia al 95%
avremo quindi:
,82 − 1,96×,03 ≤ ASC ≤,82 + 1,96×,03 →,76 ≤ ASC ≤,88
che ci permette di concludere che l’area sotto alla curva per il test di screening dei disturbi alimentari è statisticamente diversa da ,50.
Nel caso in cui non ci si basi sulla decisione presa in base al test, e quindi l’esito del test non
sia semplicemente positivo o negativo, ma sia un punteggio discreto e ordinabile, tracciare la curva
ROC diventa leggermente più complicato, in quanto occorre individuare sul grafico un numero di
punti uguale al numero di punteggi meno uno. Per calcolare le coordinate di questi punti, dobbiamo
realizzare una tavola di contingenza che abbia k righe, dove k è il numero di punteggi possibili, e 2
colonne, che sono lo stato del disturbo (presente/assente). In Tabella 6.1.5 sono riportati i dati di un
ideale test di screening che fornisce 4 punteggi (0, 1, 2 e 3) e per il quale a punteggio maggiore corrisponde un maggior grado di sintomatologia.
Tabella 6.1.5 Tavola di contingenza punteggio al test × status clinico
Disturbo
Punteggio al test
Presente
Assente
3
377
43
420
2
234
197
431
1
117
299
416
0
56
389
445
784
928
1712
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
21
Per calcolare le coordinate dei due punti della curva ROC, occorre “collassare” alcune categorie di
punteggio alla volta, a partire dalla più alta, in modo da ottenere delle tavole di contingenza 2 × 2 in
cui calcolare Sensibilità e Specificità. In pratica, prima si confronta la categoria di punteggio più alta contro tutte le più basse, poi le due più alte contro tutte le altre, poi le tre più alte contro tutte le
altre, e così via. La Tabella 6.1.6 mostra il procedimento.
Tabella 6.1.6 Determinazione dei punti per la costruzione della curva ROC nel caso di un punteggio
ordinale
(a)
Disturbo
Punteggio
Presenza
Assenza
885
al test
1 − Sp = 1 −
=,05
3
377
43
420
2+1+0
234 + 117 + 56 = 407
197 + 299 + 389 = 885
1292
784
928
1712
928
377
Se =
=,48
784
(b)
Disturbo
Punteggio
al test
Presenza
Assenza
3+2
377 + 234 = 611
43 + 197 = 240
1+0
1 − Sp = 1 −
851
117 + 56 = 173
299 + 389 = 688
861
784
928
1712
Se =
688
=,26
928
611
=,78
784
(c)
Disturbo
Punteggio
al test
Presenza
Assenza
3+2+1
377 + 234 + 117 =
728
43 + 197 + 299 = 539
56
389
445
784
928
1712
0
1 − Sp = 1 −
1267
Se =
389
=,58
928
728
=,93
784
Le tre coordinate dei punti per tracciate la curva ROC saranno quindi [,05; ,48]. [,26; ,78], [,58; ,93]
(Figura 6.1.5).
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
22
Figura 6.1.5 Curva ROC nel caso di un punteggio ordinale
Con un procedimento simile a quello illustrato nel caso dicotomico è possibile calcolare l’area sotto
alla curva. Ad ogni modo, se si hanno punteggi al test che possono assumere molti valori per questo
tipo di analisi occorre utilizzare un software, come ad esempio SPSS. In Strumenti Informatici 6.1 è
riportato il procedimento per la realizzazione dell’analisi delle curve ROC con SPSS.
Il fatto di aver ottenuto un valore di sensibilità e specificità per ogni accorpamento di categorie, di fatto, ci mette nella condizione di valutare quali sarebbero questi valori per un certo valore
di cut-off corrispondente al punto medio della distanza fra il valore minore del raggruppamento
maggiore e la categoria maggiore del raggruppamento inferiore. Nel caso della Tabella 6.1.6a, il
cut-off è 2,5, nel caso della Tabella 6.1.6b è 1,5, nel caso della Tabella 6.1.6c è 0,5. La curva ROC,
la sua area sotto alla curva con relativo errore standard e intervallo di fiducia, e i valori di sensibilità
e (1 − specificità) per ogni possibile punteggio di cut-off costituiscono l’output tipico di SPSS
(Figura 6.1.6).
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
23
Area sotto alla curva = ,890
Errore standard = ,019
Significatività: p < ,001
Intervallo di fiducia al 95%: ,853 − ,926
Cut-off
22,0
23,5
24,5
25,5
26,5
27,5
28,5
29,5
30,5
31,5
32,5
33,5
34,5
35,5
36,5
37,5
38,5
39,5
40,5
41,5
42,5
43,5
Se
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
,99
,96
,96
,96
,96
,96
,96
,96
,96
,96
,96
,96
,96
,95
1 − Sp
1,00
1,00
,99
,99
,98
,96
,94
,93
,91
,89
,86
,83
,80
,74
,71
,66
,61
,58
,54
,51
,47
,43
Sp
,00
,00
,01
,01
,02
,04
,06
,07
,09
,11
,14
,17
,20
,26
,29
,34
,39
,42
,46
,49
,53
,57
Cut-off
44,5
45,5
46,5
47,5
48,5
49,5
50,5
51,5
52,5
53,5
54,5
55,5
56,5
57,5
58,5
59,5
60,5
61,5
62,5
63,5
64,5
65,5
Se
,93
,93
,93
,93
,93
,90
,88
,88
,86
,83
,83
,82
,79
,77
,73
,68
,66
,63
,62
,61
,61
,60
1 − Sp
,39
,35
,32
,28
,26
,24
,23
,21
,19
,18
,17
,16
,14
,12
,11
,10
,09
,09
,08
,07
,06
,06
Sp
,61
,65
,68
,72
,74
,76
,77
,79
,81
,82
,83
,84
,86
,88
,89
,90
,91
,91
,92
,93
,94
,94
Cut-off
66,5
67,5
68,5
69,5
70,5
71,5
72,5
73,5
74,5
75,5
76,5
77,5
78,5
79,5
80,5
81,5
82,5
83,5
85,5
88,0
90,0
Se
,56
,54
,49
,45
,41
,37
,35
,33
,31
,28
,22
,20
,20
,17
,15
,10
,07
,04
,02
,01
,00
1 − Sp
,05
,05
,04
,04
,04
,04
,03
,03
,02
,02
,02
,02
,01
,01
,00
,00
,00
,00
,00
,00
,00
Sp
,95
,95
,96
,96
,96
,96
,97
,97
,98
,98
,98
,98
,99
,99
1,00
1,00
1,00
1,00
1,00
1,00
1,00
Figura 6.1.6 Output di SPSS per un’analisi di curve ROC. Si noti che nella tabella la colonna Sp non è
fornita nell’output di SPSS, ma è stata aggiunta come riferimento per le Figura 6.8.
Ricavando la specificità dalla tabella riportata in Figura 6.1.6 (basta sottrarre il valore di [1 − Sp] a
1), possiamo realizzare un grafico in cui poniamo sull’asse orizzontale tutti i possibili punteggi di
cut-off e sull’asse verticale i valori di specificità e specificità, in modo da tracciare l’andamento dei
due indici (Figura 6.1.7).
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.1 – Determinare punteggi di cut-off
24
Figura 6.1.7 Determinazione grafica del punteggio di cut-off ottimale
In base al grafico in Figura 6.1.7 e ai dati nella tabella di Figura 6.1.6 è possibile individuare al punteggio di cut-off 54,5 la specificità e la sensibilità sono entrambe uguali a ,83. In qualche modo,
quindi, questo punteggio di cut-off sembra rappresentare il miglior compromesso fra la capacità del
test di individuare i veri positivi e i veri negativi −, o per dirla nei termini della TDS, ha un’uguale
probabilità di ottenere un hit o un rifiuto corretto. A volte non c’è un punteggio di cut-off a cui corrisponde lo stesso valore di sensibilità e specificità, ma è sempre possibile individuare una coppia di
punteggi di cut-off in cui si assiste all’”inversione” dei valori di sensibilità e specificità, ossia, per
un punteggio si ha sensibilità più alta e specificità più bassa dell’altro e viceversa (ad esempio, Se1
= ,78 e Sp1 = ,79 vs Se2 = ,79 e Sp2 = ,78). In quel caso il punteggio di cut-off può essere determinato come semisomma dei due punteggi in questione.
Il metodo appena descritto viene talvolta indicato come quello per ottenere un “cut-off ottimale”. In realtà, come fa notare Lauriola (2007) questo metodo permette di individuare il cut-off ottimale quando non siano noti costi degli errori (falsi positivi e falsi negativi) e i benefici delle decisioni corrette (veri positivi e veri negativi). Se invece queste informazioni sono note, la determinazione della soglia ottimale è un po’ più complessa. Il lettore interessato troverà un’ottima (e non
troppo statistica …) trattazione del problema in Swets e collaboratori (2000).
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia