Master
Prof. Paolo Chiari
AA 2013/2014
Diagnosi
Il termine diagnosi deriva dal Latino diagnōsis, attraverso il greco
antico διάγνωσις, formato da διά (diá, attraverso) + γιγνώσκειν
(ghignóskein, conoscere), ossia conoscere attarverso.
E' cioè un'attività conoscitiva, condotta a partite da teorie
scientifiche che giustificano una particolare interpretazione
deduttiva dei fenomeni.
L'insieme dei metodi di diagnosi si chiama diagnostica ed è detta
"strumentale" quando si avvale di apparecchiature o strumenti
particolari ( ecografia, radiologia ecc) o "clinica" (dal greco klìne,
letto) quando si basa sull'esame diretto del paziente da parte del
medico.
Lo screening è invece, un intervento sanitario che mira a mettere in
evidenza la presenza di una eventuale malattia nelle sue fasi iniziali
Diagnostici
A. I risultati dello studio sono validi?
• Il test diagnostico era valutato in un
appropriato gruppo di pazienti?
0%
Probabilità
inferiore alla
soglia
diagnostica
nessuna
indagine è
giustificata.
Soglia
dell’esame
Probabilità tra
la soglia
diagnostica e
quella di
trattamento;
sono
necessari
ulteriori test.
Soglia del
trattamento
La popolazione di interesse comprende
le persone comprese tra la soglia
diagnostica e quella terapeutica.
100%
Probabilità oltre
alla soglia di
trattamento; i
test sono stati
completati ed
inizia il
trattamento
Strumenti diagnostici
L'uso di strumenti di misura di fenomeni biomedici è basato sul
presupposto che si possa dare sufficiente affidabilità ai dati che questi
forniscono o in altre parole, che si possa dare fiducia al risul tato a cui
la misurazione perviene.
Lo strumento, sia che venga utilizzato per verificare la presenz a di
una patologia o di una condizione di rischio, sia che venga impi egato
per indagare la popolazione in una campagna di screening, deve
essere accurato nella misurazione con i dati che siano riproducibili,
sensibili, specifici e predittivi.
(Chiari P, Mosci D, Naldi E, Evidence Based Clinical Practice, 2011, McGraw-Hill)
Quali sono gli studi che esaminano gli
strumenti diagnostici
Greenhalgh, T. BM J 1997;315:540-543
Copyright ©1997 BM J Publishing G roup Ltd.
Per ogni domanda un disegno
Quali caratteristiche deve possedere uno
strumento diagnostico?
Studio Cross-sectional
• È uno studio osservazionale.
• I pazienti arruolati vengono sottoposti al test
sotto indagine e quindi al migliore test
riconosciuto in quel momento (gold standard), in
grado di rivelare la presenza o meno della
patologia.
• Si verifica quindi la coerenza dei risultati ottenuti
con i due strumenti e si verifica la opportunità di
utilizzare il nuovo strumento.
Test ideale
•
Affidabilità: È la capacità di un test di offrire sempre lo
stesso risultato, nel corso di misurazioni ripetute.È una
caratteristica intrinseca dello strumento e dipende dalla bontà
dello strumento e/o dell’operatore.
•
Validità : È la capacità di un test di distinguere in una
popolazione i soggetti sani da quelli malati.
•
Accuratezza: è la capacità di un test di individuare in
percentuale, correttamente lo stato di malattia o di non
malattia (VP+VN)/Tot Pz ( è però un indicatore grossolano)
Test ideale
Malati
Sani
Negativi al test
Positivi al test
Da Lopalco P L, Tozzi AE. Epidemiologia facile. Roma: Pensiero
Scientifico Editore, 2003
Test reale
Test reale
Malati
Sani
Negativi al test
Positivi al test
Da Lopalco P L, Tozzi AE. Epidemiologia facile. Roma: Pensiero
Scientifico Editore, 2003
Distribuzione della popolazione in
relazione al test
Definizione della validità dello strumento:
SENSIBILITA’
• Per sensibilità si intende la capacità di un test di
individuare in una popolazione i soggetti malati.
• Essa è data dalla proporzione dei soggetti
realmente malati e positivi al test (veri positivi)
rispetto all’intera popolazione dei malati.
Sensibilità
Definizione della validità dello strumento:
SPECIFICITA’
• Per specificità si intende la capacità di un test di
identificare come negativi i soggetti sani.
• Essa è data dalla proporzione dei soggetti
realmente sani e negativi al test (veri negativi)
rispetto all’intera popolazione dei malati.
Sensibilità
Specificità
Specificità
Diagnosi
• Sensibilità = a/(a+c) = 23/25 = 92%
• Specificità = d/(b+d) = 75/75 = 100%
• Sensibilità e specificità dovrebbero essere
entrambi maggiori del 80% per essere
clinicamente utili in ambito diagnostico, nello
screening devono tendere al 100%.
Scale di valutazione:
accertamento standardizzato
Conley Scale -
C onley D, Shultz AA, Selvin R.The challenge of predicting
patients at risk of falling; developm ent of the C onley Scale. M EDSUR G Nurs 1999; 8: 348-54.
Strumento per la valutazione all’ingresso del rischio di
caduta del paziente ricoverato in reparti per acuti (medicochirurgici).
Variabili considerate:
• Precedenti cadute
• Presenza di vertigine o capogiri
• Incontinenza
• Deterioramento cognitivo
• Compromissione della marcia
• Agitazione
Punteggio 0 (nessun rischio) – 8 (massimo rischio)
Punteggio di cut off : 2
STRUMENTI PER LA
VALUTAZIONE DEL RISCHIO
DI CADUTA
• Conley scale
• STRATIFY
• MORSE fall scale
Scala di Conley
Istruzioni: le prime tre domande devono essere rivolte solo al paziente: possono essere rivolte ad
un familiare od al caregiver o all'infermiere, solo se il paziente ha severi deficit cognitivi o fisici che gli
impediscono di rispondere. Barrare il valore corrispondente alla risposta fornita. Sommare i valori
positivi.
La risposta "Non so" è da considerare come risposta negativa.
Sì
No
Precedenti cadute (domande al paziente/caregiver/infermiere)
C1 - E’ caduto nel corso degli ultimi tre mesi?
2
0
C2 - Ha mai avuto vertigini o capogiri? (negli ultimi 3 mesi)
1
0
C3 - Le è mai capitato di perdere urine o feci mentre si recava in
bagno? (negli ultimi 3 mesi)
1
0
Deterioramento cognitivo (osservazione infermieristica)
C4 - Compromissione della marcia, passo strisciante, ampia base
d’appoggio, marcia instabile.
1
0
C5 - Agitato (Definizione: eccessiva attività motoria,
solitamente non finalizzata ed associato ad agitazione interiore .
Es: incapacità a stare seduto fermo, si muove con irrequietezza,
si tira i vestiti, ecc.).
1
0
C6 - Deterioramento della capacità di giudizio / mancanza del
senso del pericolo.
TOTALE
2
0
Che risultati ha dato questo strumento?
Dati studio sulle cadute – scala di Conley
Caduto
Conley scale
• Conley D, Shultz AA, Selvin R.The
challenge of predicting patients at risk of
falling; development of the Conley Scale.
MEDSURG Nurs 1999; 8: 348-54.
• SENSIBILITA’: 71%
• SPECIFICITA’: 59%
Non caduto
Test +
47
911
958
Test -
21
641
662
68
Sensibilità = a/a+c
1552
Totale 1620
Specificità = d/b+d
STRATIFY-
Oliver D, Britton M, Seed P, M artin FC , H opper AH. D evelopm ent and
eveluation of evidence based risk assessm ent tool (STR AT IFY) to predict which elderly impatients will fall: casecontrol and cohort studies. BMJ 1997; 315: 1049-53.
Strumento per la valutazione del rischio di cadute
negli anziani ricoverati.
Variabili considerate:
• Precedenti cadute
• Punteggio di mobilità e trasferimento
• Necessità di andare frequentemente in bagno
• Agitazione
• Riduzione della vista.
Punteggio 0 (nessun rischio) – 5 (massimo rischio)
Punteggio di cut off >2
Che risultati hanno dato questi strumenti?
STRATIFY strumento di valutazione del rischio di caduta del paziente
Istruzioni: tutte le domande, ad eccezione della prima, devono e ssere rivolte all'infermiere
responsabile.
Barrare il valore corrispondente alla risposta fornita. Sommare i valori positivi.
S1 - Il paziente è stato ricoverato in seguito ad una caduta, oppure è caduto durante la
degenza? (esame della documentazione)
1
0
Ritieni che il paziente:
S2 – Sia agitato? (Definizione: eccessiva attività motoria, solitamente non finalizzata ed
associato ad agitazione interiore. Es: incapacità a stare seduto fermo, si muove con
irrequietezza, si tira i vestiti, ecc.).
1
0
S3- Abbia un calo della vista tale da compromettere tutte le altre funzioni quotidiane?
1
0
S4 - Necessiti di andare in bagno con particolare frequenza? (< 3 ore)
1
S5 – Il paziente ha un punteggio di mobilità corrispondente a 3 o a 4 ?
(vedi schema di calcolo sottostante)
Schema per il calcolo del punteggio di mobilità
Il paziente è in grado di:
1) Spostarsi dalla sedia al letto e ritornare (include il
sedersi sul letto)
2) Camminare sul piano (spingere la sedia a rotelle se
non deambula)
TOTALE
0
_____
Indip. _ Punteggio
No
Con aiuto
maggiore
Con
aiuto
minore
0
1
2
3
0
1
2
3
________
Dati studio sulle cadute – scala di Stratify
Stratify:
Oliver D, Britton M, Seed P, Martin FC, Hopper AH.
Development and eveluation of evidence based risk
assessment tool (STRATIFY) to predict which elderly
impatients will fall: case-control and cohort studies. BMJ
1997; 315: 1049-53.
SENSIBILITA’: 93%
SPECIFICITA’: 87%
Coker E, Oliver D. Evaluation of the STRATIFY Falls
Predictor Tool on a Geriatric Unit. Outcome
management 2003. Vol 7(1): 8-14.
SENSIBILITA’:73%
SPECIFICITA’: 45%
1
TOTALE
Caduto
Non caduto
153
Test +
10
143
Test -
41
987
51
1130
1028
Sensibilità = a/a+c
Specificità = d/b+d
Totale 1181
Come possono essere modificate la
sensibilità e la specificità?
Modificare la sensibilità
Modificare la specificità
Se volessimo aumentare la
sensibilità, cogliendo tutti i soggetti
malati ed aumentando così i veri
positivi, dovremmo abbassare la
quota del valore di cut-off.
Ad esempio potremmo abbassare il
valore soglia della glicemia da 110
mg/ml a 90 mg/ml (o il valore di
cut-off della scala di valutazione).
Se volessimo aumentare la
specificità, escludendo dalla diagnosi
tutti i soggetti sani ed aumentando
così i veri negativi, dovremmo alzare
la quota del valore di cut-off.
Ad esempio potremmo aumentare il
valore soglia della glicemia da 110
mg/ml a 120 mg/ml.
Modificare la specificità
Modificare la sensibilità
ROC curve
• Al fine di valutare come un test si comporta in una
popolazione (in termini di sensibilità e specificità)
in funzione di determinati valori di cut-off, sono
state realizzate le cosiddette curve ROC.
• Esse sono la rappresentazione su di un grafico, che
riporta in ascisse la percentuale di errore falso
positivo (ovvero 1 meno la specificità) e in
ordinate la sensibilità, dei diversi valori misurati in
una popolazione a differenti livelli di cut-off.
Curve ROC
(receiver operating characteristics)
Curve ROC
(receiver operating characteristics)
100
sensibilità
80
60
ES: PAS
40 mm/Hg
nessun beneficio
curva accettabile
curva buona
40
curva ottima
20
0
0
20
40
60
80
100
ES: PAS 400
tasso d’errore falso positivo (1-specificità)
mm/Hg
Un test povero ha linee
accostate alla diagonale
mediana, mentre le
linee per un test perfetto
devono salire
rapidamente e
oltrepassare
avvicinandosi
all’angolo in alto a
sinistra dove sia la
sensibilità che la
specificità sono pari a 1.
Predittività
Valore predittivo positivo
• La sensibilità e la specificità sono parametri intrinseci
al test, che non si modificano con il modificarsi della
frequenza con cui si presenta la patologia.
• Essi ci dicono quindi qual è la probabilità, data una
popolazione di sani e di malati, di individuarli come
tali.
• Niente ci dicono, invece, di quale sia la probabilità di
un soggetto trovato positivo, di esserlo veramente.
Valore predittivo positivo
Valore predittivo negativo
Valore predittivo negativo
Dati studio sulle cadute – scala di Conley
Non caduto
Caduto
958
Test +
Test -
47
911
a
b
c
d
662
21
641
68
1552
Valore predittivo positivo = a/a+b
Valore predittivo negativo = d/c+d
Totale 1620
Dati studio sulle cadute – scala di Stratify
Non caduto
Caduto
Test +
Test -
La predittività di un test, al contrario di specificità e sensibilità, non è una
caratteristica intrinseca del test, ma può dipendere dalla frequenza della
malattia nella popolazione.
143
153
41
987
1028
51
1130
10
a
b
c
d
Predittività del test e prevalenza
Prevalenza = 20/400 = 5%
Totale 1181
Valore predittivo positivo = a/a+b
Valore predittivo negativo = d/c+d
Prevalenza e valore predittivo
Prevalenza e valore predittivo
Prevalenza = 80/400 = 20%
Prevalenza e valore predittivo
Prevalenza e valore predittivo
• A parità di sensibilità, la probabilità che a un allarme corrisponda
effettivamente un tentativo di furto (e che non si tratti di un falso
allarme!) dipende dal contesto; se ci troviamo in una città dove i furti
sono rari, è più probabile che si tratti di un falso allarme, se ci troviamo
in una città ad alto tasso di furti, allora è il caso di preoccuparsi...
• La predittività del test è proporzionale alla prevalenza della malattia in
quella popolazione.
• Tanto più è bassa, tanto maggiore è il rischio di falsi positivi
(prevalenza 5% T+ 56, di cui FP 38; Prevalenza 20% T+ 104, di cui
solo 32 FP).
• Per aumentarla, pertanto, sarà bene scegliere accuratamente la
popolazione su cui avviare lo screening, per evitare di dover fare i conti
con una quota troppo elevata di falsi positivi.
Likelihood ratio
Rapporto di verosimiglianza di
un test positivo (Likelihood ratio)
(rapporto di verosimiglianza)
M-
M+
T+
VP
T-
FN
a
b
c
d
LR+ proporzione di veri positivi
rispetto alla proporzione di falsi
positivi
TM+
%VP
%FP
LR- proporzione di falsi negativi
rispetto alla proporzione di veri
negativi
%VN
%FN
FP
TP
VN
TN
TM=
=
N
a/(a+c)
b/(b+d)
c/(a+c)
d/(b+d)
sensibilità
1-specificità
=
1-sensibilità
= specificità
Esempio: l’efficacia dello stick sulle urine per
la diagnosi di diabete
Se ho ottenuto un risultato dello
stik positivo, qual è la probabilità
che il soggetto abbia il diabete?
Malati Sani
Positivi 6
Sensibilità = 6/27 = 22,2%
Specificità = 966/973 = 99,3%
Percentuale di errore falso positivo
= 1- specificità = 1 – 99,3% = 0,7%
Negativ
21
i
LR+ = sensibilità /(1- specificità) =
22,2%/ 0,7% = 32
In presenza di un test positivo la
probabilità che la persona abbia realmente
il diabete è di 32 volte superiore rispetto
ad una persona sana.
27
7
13
• L’LR+ esprime quante probabilità in più ha un
risultato del test positivo di essere riscontrato in un
soggetto con malattia, piuttosto che in un soggetto
che non ha la patologia target, ma che presenta un
valore rientrante nel range patologico per altri
motivi.
• L’LR- esprime quante probabilità ha un soggetto il
cui risultato del test è negativo, di essere in realtà
malato (misura quindi con quale probabilità il test
può indurre un errore diagnostico).
Esempio: l’efficacia dello stick sulle urine per
la diagnosi di diabete
Se ho ottenuto un risultato dello
stik negativo, qual è la probabilità
che il soggetto non abbia il
diabete?
Sensibilità = 6/27 = 22,2%
966
973
987
100
0
Andersson DKG, Lundblad E, Svardssudd K.
Amodel for ealry diagnosis of type 2 diabetes
mellitus in primary health care. Diabet Med 1993;
10:167-73.
Il rapporto di verosimiglianza
• Un test di verosimiglianza di 1 significa che la probabilità
posttest è esattamente la stessa della probabilità
pretest.
• Rapporti di verosimiglianza superiori a 1.0 aumentano la
probabilità che la patologia oggetto di indagine sia
presente, e maggiore è il rapporto di verosimiglianza,
maggiore è questo incremento.
• Al contrario, rapporti di verosimiglianza inferiori di 1
riducono la probabilità di patologia target, e più piccolo è
il rapporto di verosimiglianza, maggiore è la riduzione
della probabilità e più piccolo è il suo valore finale.
Specificità = 966/973 = 99,3%
Percentuale di errore falso negativo
= 1- sensibilità = 1 – 22,2% = 77,8%
LR- = (1 - sensibilità) / specificità =
77,8%/ 99,3% = 0,78
In presenza di un test negativo la
probabilità che la persona sia malata
è solo di 0,78 volte rispetto ad una
persona sana.
Malati Sani
Positivi 6
7
13
Negativ
21
i
966
987
27
973
100
0
Andersson DKG, Lundblad E, Svardssudd K.
Amodel for ealry diagnosis of type 2 diabetes
mellitus in primary health care. Diabet Med 1993;
10:167-73.
Utilità del rapporto di
verosimiglianza
• E’ molto utile tutte le volte in cui l’esito del
test non è solo POSITIVO/NEGATIVO, ma
quando è rappresentato da una gradualità
di valori (test di laboratorio).
Proprietà del test della ferritina sierica nella diagnosi dell’anemia sideropenica
Presente
Numero
Proporzione
Numero
Proporzione
Rapporto di
verosimiglianz
a
<= 18
47
47/85=0.553
2
2/150 = 0.013
42.5
>18 < 45
23
23/85 = 0.271
13
13/150 = 0.087
3.11
> 45 < 100
7
7/85 = 0.082
27
27/150 = 0.18
0.46
> 100
8
8/82 = 0.094
108
108/150 = 0.72
0.13
Totale
85
150
Rapporto di verosimiglianza: è la probabilità che un livello specifico di ferritina sierica sia
individuato in un paziente con anemia sideropenica (rispetto ad un paziente senza). Per
esempio per livelli di ferritina <=18 il rapporto di verosimiglianza sarà:
n = (47/85)/(2/150) = 0.553/0.013 = 42.5
più probabile di 42.d volte che un livello sierico di ferro inferiore o uguale a 18 mcg/L si verifichi
in un paziente con anemia sideropenica (rispetto ad uno senza).
Cos’è la probabilità pretest?
• E’ la prevalenza della patologia.
• Può variare secondo la prevalenza nella
popolazione generale, gruppo di età, sesso,
presenza di sintomi clinici, scenario nel quale il
paziente viene osservato.
• Le fonti da cui trarre la prevalenza sono:
–
–
–
–
Utilità del rapporto di
verosimiglianza
Assente
Ferritina
sierica
(mcg/L)
• Il rapporto di verosimiglianza, mediante
alcuni calcoli o consultando il normogramma di
Fargan, consente di calcolare come si
modifica la probabilità pre-test, data dalla
prevalenza della patologia nella popolazione con
caratteristiche simili al soggetto in esame , in
probabilità post-test, ossia di definire la
proporzione dei soggetti malati della patologia target
che presentano quel valore del test .
Cos’è la probabilità posttest?
• È la proporzione di persone con un
particolare risultato del test che hanno la
patologia in esame.
l’esperienza clinica (fallibile),
statistiche di prevalenza regionali o nazionali,
banche dati e studi,
la probabilità osservata nello studio, ricavandola in
questo modo:
(a+c)/(a+b+c+d)
Alla luce di ciò, come si interpreta LR?
Fig 1 Use of likelihood ratios to calculate post-test probability of someone being a smoker6
Indipendentemente
dalla
probabilità pretest.
Può essere valido
con
una probabilità
pretest alta (33%).
Greenhalgh, T. BM J 1997;315:540-543
Copyright ©1997 BM J Publishing G roup Ltd.
Esempio
Probabilità pretest, rapporti di verosimiglianza dei risultati della ferritina sierica e probabilità
post-test in due pazienti con sospetta anemia sideropenica.
Probabilità pretest % (range)* Ferritina (rapporto di
verosimiglianza)
Probabilità posttest % (range)
Uomo di 73 anni che assume FANS
• Se due soggetti vengono sottoposti allo
stesso esame diagnostico, la probabilità
che il test riveli la presenza della patologia
dipende dalle loro caratteristiche.
70 (60-80)**
<=18 (42.5)
99 (98-99)
70 (60-80)
18-45 (3.11)
88 (82-93)
70 (60-80)
45-100 (0.46)
52 (41-65)
70 (60-80)
>100(0.13)
23 (16-34)
Uomo di 73 anni con artrite reumatoide attiva
20 (10-30)
<=18 (42.5)
91 (82-95)
20 (10-30)
18-45 (3.11)
44 (25-57)
20 (10-30)
45-100 (0.46)
10 (5-17)
20 (10-30)
>100(0.13)
3 (1-5)
** Esempio di calcolo
Probabilità pretest 70%
Odds = 70%/100-70% = 0.70/0.30 = 2.33
LR+ 42.5
Probabilità post test = Odds x LR+ / 1 + ( OddsX LR+) = 2.33 x 42.5 / 1 + (2.33 x 42.5) = 99%
Riproducibilità del test diagnostico
Può essere dovuta:
• alle caratteristiche dei test (ad esempio, variazioni nei
reagenti nei kit per radioimmunoanalisi per determinare
i livelli degli ormoni);
• all’interpretazione data da clinici diversi o dallo stesso
in momenti diversi (ad esempio, l’entità dell’elevazione
del segmento ST in un elettrocardiogramma).
Riproducibilità dei test: Kappa di
Cohen
L’accordo casuale
• Se due persone tirassero ad indovinare il
risultato di un test diagnostico, senza avere
alcuna conoscenza in merito, una parte delle
loro risposte coinciderebbe, solo per opera del
caso.
• Le risposte uguali date dai ricercatori, quindi,
contengono sempre una parte di risposte che
coincidono solo per caso.
• Per questo per conoscere la reale concordanza
tra i ricercatori occorre ricorrere ad un indice
che elimini la concordanza casuale.
Kappa di Cohen
•Per calcolarlo occorre compiere tre
passaggi:
1. Calcolare l’accordo osservato
2. Calcolare l’accordo casuale
3. Calcolare l’accordo non dovuto al caso.
Esempio
Ipotizziamo che due osservatori stiano valutando la presenza di sibilo
respiratorio in 100 pazienti. Essi non hanno abilità nell ’ascoltare il
torace e le loro valutazioni non sono migliori del tirare ad indovinare a
caso. Ipotizziamo che abbiano risposto così:
Kappa di Cohen
o1
+
-
12
A B
10
32
C D
44 H
56 G
•
•
•
•
•
•
•
•
•
Kappa di Cohen
o2
+
46
58 E
42 F
100
Interpretazione della Kappa di
Cohen
•
•
•
•
K < 40 scarsa riproducibilità
40 < K < 60 moderata riproducibilità
60 < K < 80 notevole riproducibilità
K > 80 riproducibilità quasi perfetta
•
NB: Se la riproducibilità di un test nel contesto dello studio è mediocre
e il disaccordo tra gli osservatori è frequente, ed ancora il test
discrimina bene tra coloro che hanno e che non hanno la patologia in
oggetto, esso è molto utile. In queste circostanze, la probabilità che il
test possa essere prontamente applicato nel vostro setting clinico è
buona.
Se la riproducibilità di un test diagnostico è molto alta e la variazione
tra osservatori è bassa, significa che il test è semplice e non ambiguo o
facile da interpretare od anche che coloro che lo interpretano sono ben
addestrati. Se è quest’ultimo lo scenario descritto, interpreti meno abili
nel vostro contesto potrebbero non avere le stesse performance.
•
T
A: pazienti in cui entrambi hanno visto sibilo respiratorio.
B: pazienti in cui o1 ha visto sibilo respiratorio, mentre 02 no.
C: pazienti in cui o2 ha visto sibilo respiratorio, mentre 01no.
D: pazienti in cui entrambi non hanno visto sibilo respiratorio.
E: pazienti in cui o1 ha osservato il sibilo.
F: pazienti in cui o1 non ha osservato il sibilo.
G: pazienti in cui o2 ha osservato il sibilo.
H: pazienti in cui o2 non ha osservato il sibilo.
T: totale dei pazienti osservati.
Calcoliamo l’accordo osservato:
(A+D)/T = 78/100 = 78%
Calcoliamo l’accordo casuale relativo alla cella A
(ExG)/T 2= 3.248/10.000 = 32,5%
Calcoliamo l’accordo casuale relativo alla cella D
(FxH)/T 2= 1.848/10.000 = 18,5%
Totale accordo casuale = 18,5% + 32,5% = 51%
Calcoliamo Kappa
Accordo osservato – Accordo casuale
78% - 51%
Valore di Kappa = ---------------------------------------------------------- = ----------------- = 55%
Accordo potenziale – Accordo casuale
100% - 51%
Applicabilità alla popolazione: mix di severità
e distribuzione delle comorbilità
• Presenza di stadi avanzati: aumento della
sensibilità e spostamento di LR+ lontano da 1.
• Presenza di stadi lievi ed iniziali: riduzione della
sensibilità e spostamento di LR+ verso 1.
• Presenza di patologie concomitanti confondenti:
riduzione della specificità e spostamento di LR+
verso 1.
• Ridotta presenza di patologie concomitanti
confondenti: aumento della specificità e
spostamento di LR+ lontano da 1.
C. I risultati dello studio, validi e importanti,
sono applicabili ai nostri pazienti?
Soglie di esame e di trattamento
– Possiamo prevedere una stima della
probabilità pre test dei nostri pazienti
(dalla pratica, dall’esperienza personale,
dalle ricerche)?
• Una volta che abbiamo deciso la soglia
diagnostica e quella terapeutica, le probabilità
post-test hanno implicazioni dirette sul
trattamento.
• Le soglie di esame e di trattamento sono
variabili per le differenti patologie, in relazione a:
– Il rischio di trattamento (se è rischioso, occorre
essere più certi della diagnosi)
– Al pericolo di lasciare la patologia non trattata (se il
pericolo di mancare una diagnosi è alto, come
l’embolia polmonare, occorre che la vostra probabilità
post-test sia molto bassa prima di abbandonare la
ricerca diagnostica).
C. I risultati dello studio, validi e importanti,
sono applicabili ai nostri pazienti?
• Le conseguenze del test aiuterebbero il nostro paziente?
• L’ultimo criterio per l’utilità di un test diagnostico è verificare
se i benefici per i paziente sono superiori dei rischi associati.
• Il valore di un test accurato sarà indiscusso quando la
patologia in oggetto è pericolosa se non diagnosticata, il test
ha un rischio accettabile ed esistono trattamenti efficaci.
• Nel caso in cui ciò non sia vero, occorre ricercare in
letteratura un RCT in cui vi sia la randomizzazione dei
pazienti verso una strategia diagnostica che include o che
non include il test sotto indagine ed follow up dei pazienti di
entrambe i gruppi nel tempo per determinare la frequenza
degli outcome importanti per i pazienti.
Limiti degli strumenti diagnostici
Tutti gli strumenti diagnostici presentano
margini di fallibilità, quindi cosa fare?
Le scelte a disposizione sono due:
• disporre di altri strumenti diagnostici
• richiedere consigli e consulenze
• considerare il proprio giudizio clinico
Esercitazione
Mandato
Limiti degli strumenti diagnostici
Un test dunque non è infallibile, al contrario vi sarà sempre una percentuale
più o meno ampia di individui misclassificati: soggetti sani testati come
positivi (i falsi positivi) e soggetti malati testati come negativi (i falsi negativi).
Questo determinerà ripercussioni per l’utente e per il Sistema Sanitario:
Per i falsi positivi (sani ma
riconosciuti come malati dal
test):
•Cure inutili
•Rischi correlati alle cure
•Aumento della spesa sanitaria
•Sottrazione di risorse ai
soggetti davvero ammalati
Per i falsi negativi ( malati ma
riconosciuti come sani dal test):
•Aggravarsi patologia non
trattata
•Successivo aumento costi
assistenza (probabilmente
serviranno più risorse di quante
ne sarebbero servite per trattare
la patologia allo stato iniziale).
Giudizio clinico
• Il giudizio clinico è pertanto l'elemento cardine
dell’indagine diagnostica ed è imprescindibile nell’utilizzo
di strumenti diagnostici.
• L’anamnesi, l’accertamento, la relazione col paziente e
l’esperienza clinica del professionista, restano il fulcro
dell’indagine diagnostica.
• NB: il giudizio clinico da solo non è sufficiente per la
diagnosi e va quindi sempre integrato con l’utilizzo di
strumenti diagnostici o scale di valutazione standardizzate,
ma è vero pure l’opposto.
Esercitazione
SHORT PORTABLE MENTAL STATUS QUESTIONNAIRE (SPMSQ)
Range
0 – 2 errori: assenza di deterioramento
-------------------------------------- cut-off
3 – 4 errori: deterioramento lieve
5 –7 errori: deterioramento moderato
8 – 10: deterioramento grave
[Spanish language adaptation and validation of the Pfeiffer's
questionnaire (SPMSQ) to detect cognitive deterioration in people over
65 years of age]. Martínez de la Iglesia J, Dueñas Herrero R, Onís
Vilches MC, Aguado Taberné C, Albert Colomer C, Luque Luque R.
Med Clin (Barc). 2001 Jun 30;117(4):129-34. Spanish.
RESULTS:
L’area sotto la curva ROC è 0.89. Sensibilità e specificità è
rispettivamente 85.7 e 79.3 (cut-off di 3 o più).
Esercitazione
BASIC ACTIVITIES OF DAILY LIVING – INDICE DI BARTHEL
Interpretazione dei risultati: pp. 100-91 = quasi autosufficienza; 90-75
= dipendenza lieve; 74-50 = dipendenza moderata; 49-25 =
dipendenza grave; < 25 = dipendenza completa.
A predictive risk model for outcomes of ischemic stroke. Johnston
KC, Connors AF Jr, Wagner DP, Knaus WA, Wang X, Haley EC Jr.
Stroke. 2000 Feb;31(2):448-55.
For very poor outcome, the model using BI as a measure of very
poor outcome had the best discrimination, with an ROC area of
0.88.
The Barthel Index: comparing inter-rater reliability between nurses
and doctors in an older adult rehabilitation unit. Hartigan I,
O'Mahony D. Appl Nurs Res. 2011 Feb;24(1):e1-7. doi:
10.1016/j.apnr.2009.11.002. Epub 2010 Jan 15.
Esercitazione
VALUTAZIONE NUTRIZIONALE (Mini Nutritional Assessment MNA)
Totale max pp. 11
9 punti o più: nessuna necessità di continuare la valutazione
8 punti o meno: necessità di continuare la valutazione
Use of the Mini Nutritional Assessment to detect frailty in
hospitalised older people. Dent E, Visvanathan R, Piantadosi C,
Chapman I. J Nutr Health Aging. 2012;16(9):764-7.
The MNA-SF predicted frailty with specificity and sensitivity values
of 0.79 and 0.64 respectively, using the standard cut-off of < 8.
The optimal MNA-SF cut-off score for frailty was < 9, with
specificity and sensitivity values of 0.77 and 0.80 respectively and
was better than the optimum MNA cut-off in predicting frailty.
Paolo Chiari
Corso di Laurea Magistrale in Scienze Infermieristiche e Osteriche
[email protected]
www .unibo.it
Esercitazione
“GET-UP AND GO” TEST
(Mathias S., Nayak U.S., Isaacs B., Arch Phys Med Rehabil, 1986)
Prognostic validity of the Timed Up-and-Go test, a modified Get-Upand-Go test, staff's global judgement and fall history in evaluating
fall risk in residential care facilities. Nordin E, Lindelöf N,
Rosendahl E, Jensen J, Lundin-Olsson L. Age Ageing. 2008
Jul;37(4):442-8. doi: 10.1093/ageing/afn101. Epub 2008 May 30.
GUG-m Sensitivity, % (95% CIa) Specificity, % (95% CIa)ROC area
0.62 (0.54–0.70)
GUG-m cut-off 1, ‘No Risk’ 94 (87–97) 16 (10–26)
GUG-m cut-off 2, ‘Low Risk’ 62 (52–71) 60 (50–70)
GUG-m cut-off 3, ‘Some Risk’ 28 (19–37) 83 (75–91)
GUG-m cut-off 4, ‘High Risk’ 7 (2–12) 92 (86–98 )
Get up and go test in patients with knee osteoarthritis. Piva SR,
Fitzgerald GK, Irrgang JJ, Bouzubar F, Starz TW. Arch Phys Med
Rehabil. 2004 Feb;85(2):284-9
Intratester and intertester reliability was 0.95 (95% confidence
interval [CI],.72-.98) and 0.98 (95% CI,.94-.99), respectively.
Esercitazione
SCALA CONLEY di valutazione del rischio di caduta del paziente
sensibilità[a/a+c]0.69
specificità[d/b+d]0.41
valore predittivo positivo[a/a+b]0.05
valore predittivo negativo[d/c+d]0.97