Come costruire modelli predittivi

Come modellare il rischio
Luigi Santoro
Hyperphar Group S.p.A., MIlano
Gli argomenti discussi
• Le definizioni del termine “rischio”
• L’utilità di un modello predittivo di
rischio
• Come costruire modelli predittivi
• Come confrontare modelli predittivi: le
curve ROC
• La validazione di modelli predittivi
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Le definizioni del termine “rischio”
• Rischio di popolazione: probabilità di un evento
sanitario sfavorevole in una data popolazione.
• Rischio individuale: probabilità che un individuo
appartenente ad una data popolazione sviluppi un
evento sanitario sfavorevole .
• Rischio relativo (RR): probabilità di un evento
sanitario sfavorevole per un individuo esposto ad un
dato fattore rispetto alla probabilità di evento in un
individuo non esposto al fattore.
• Odds ratio (OR): approssimazione del RR. Molto
usato nel confronti tra classi di rischio prodotti da
modelli predittivi.
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Le definizioni del termine “rischio”
• Semplici notazioni matematiche:
• Rischio di popolazione: p=nevento/N
• Rischio individuale: pe (funzione delle
caratteristiche individuali e del modello statistico
usato per stimare il rischio)
• Rischio relativo (RR): pe/pne
• Odds ratio (OR): pe/(1-pe) / pne/(1-pne)
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
L’utilità di un modello predittivo di
rischio
• Il modello predittivo è un algoritmo statisticomatematico che permette di valutare:
• in una data popolazione;
• prima di un dato intervento;
• in termini probabilistici,
quali soggetto siano a maggior rischio
(individuale) di evento.
• La stratificazione dei pazienti in classi di rischio
diverse può essere un supporto per decisioni di
tipo clinico, chirurgico, terapeutico…
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Come costruire modelli predittivi
• Necessità di garantirsi una sufficiente
generalizzabilità del campione (Training Set) su cui
costruire il modello predittivo;
• le variabili predittive devono essere facili da
raccogliere (al fine di minimizzare i dati mancanti),
clinicamente rilevanti e immediatamente
disponibili;
• calibrare il numero di variabili predittive sulla base
del numero totale di eventi osservati;
• rapporto ≥10 tra eventi e numero di predittori
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Come costruire modelli predittivi
In mancanza di questi
pre-requisiti il modello perde in
accuratezza e validità.
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Come costruire modelli predittivi
• Quali modelli statistici per la stima del
rischio?
• Il modello di analisi discriminante
• Il modello di regressione logistica
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Come costruire modelli predittivi
• Il modello di analisi discriminante
Scopo: definire modalità di assegnazione di nuovi casi a differenti
gruppi di rischio in funzione di una serie di variabili predittive;
I passi:
1)
2)
3)
4)
Scelta di un Training Set, in cui gli esiti sui pazienti (casi e
non casi) e le variabili predittive (x1, x2 ,… ,xn) sono noti;
Definizione di uno score individuale di discriminazione per
ciascun paziente:
D= b0 + b1x1+ b2x2 + …. + bnxn;
Stima dei coefficienti (b1,b2…bn) della funzione
discriminante: metodo dei minimi quadrati;
Stima dello score medio di discriminazione D e della relativa
SEM per casi e non casi;
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Come costruire modelli predittivi
• Il modello di analisi discriminante
Scopo: definire modalità di assegnazione di nuovi casi a differenti
gruppi di rischio in funzione di una serie di variabili predittive;
I passi:
5)
Stima della soglia discriminante (cut-off):
•
•
•
6)
media pesata delle due medie di gruppo con pesi pari alla SEM
dell’altro gruppo (tanto minore è la SEM di un gruppo tanto più
la soglia sarà vicina alla media corrispondente);
valore che “ottimizza” sensibilità e specificità;
altri metodi;
Identificazione delle classi di rischio:
•
•
BASSO RISCHIO: scores individuali inferiori al cut-off
ALTO RISCHIO: scores individuali superiori al cut-off.
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Come costruire modelli predittivi
I passi successivi:
•
Valutazione della capacità predittiva del modello e della sua
“utilità”:
•
•
Analisi della proporzione di assegnazione corretta del
campione secondo il modello predittivo:
• Quanti “non-casi” classificati a “basso rischio” ?
• Quanti “casi” classificati ad “alto rischio” ?
Validazione del modello.
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Come costruire modelli predittivi
• Il modello di regressione logistica
Scopo: definire modalità di assegnazione di nuovi casi a differenti
gruppi di rischio in funzione di una serie di variabili predittive;
I passi:
1)
2)
3)
Scelta di un Training Set, in cui gli esiti sui pazienti (casi e
non casi) e le variabili predittive (x1, x2 ,… ,xn) sono note;
Definizione di una funzione logistica:
logit(p)=log(p/(1-p))= b0 + b1x1+ b2x2 + …. + bnxn;
Definizione della probabilità individuale di evento:
p=
4)
1
1 + exp−logit ( p)
Stima dei coefficienti della funzione logistica (b1,b2…bn);
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Come costruire modelli predittivi
• Il modello di regressione logistica
Scopo: definire modalità di assegnazione di nuovi casi a differenti
gruppi di rischio in funzione di una serie di variabili predittive;
I passi:
5)
6)
Calcolo, per ciascun soggetto, della
probabilità individuale di evento;
Stima della soglia discriminante (cut-off):
•
•
•
6)
valore che ottimizza sensibilità e specificità;
valore mediano della probabilità di evento;
altri metodi.
Identificazione delle classi di rischio:
•
•
BASSO RISCHIO: probabilità individuale di evento < cut-off
ALTO RISCHIO: probabilità individuale di evento > cut-off.
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Come costruire modelli predittivi
I passi successivi:
•
Valutazione della capacità predittiva del modello e della sua
utilità:
•
•
Analisi della proporzione di assegnazione corretta del
campione secondo il modello predittivo:
• Quanti “non-casi” classificati a “basso rischio” ?
• Quanti “casi” classificati ad “alto rischio” ?
Validazione del modello.
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Il confronto tra modelli predittivi: le curve
ROC (receiving(receiving-operator characteristics)
• Ogni modello predittivo genera per ogni paziente uno score
individuale;
• Per ogni modello si ordinano in senso decrescente gli
scores calcolati sul campione di pazienti;
• Si individua un certo numeri di scores “tipici” (es: i 9 decili
della distribuzione) come cut-off di rischio.
• In corrispondenza di ogni cut-off:
• Ogni paziente è classificato a “basso rischio” se lo score
individuale è inferiore al cut-off;
• ad “alto rischio” altrimenti
• si valuta l’assegnazione corretta (veri positivi) o scorretta (falsi
positivi) dei soggetti classificati ad “alto rischio”:
• Veri Positivi: i “casi” classificati (correttamente) ad “alto rischio”
• Falsi Positivi: i “non-casi” classificati (erroneamente) ad “alto
rischio”;
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Il confronto tra modelli predittivi: le curve
ROC (receiving(receiving-operator characteristics)
• Al descrescere del valore
soglia considerato,
Basso
rischio
Alto
rischio
tra i pazienti classificati ad
“alto rischio”,
Non
eventi
VN
84
FP
6
90
il tasso di incremento dei
“veri positivi”
rallenta
rispetto a quello dei “falsi
positivi”.
Eventi
FN
6
VP
4
10
90
10
100
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Il confronto tra modelli predittivi: le curve
ROC (receiving(receiving-operator characteristics)
• In un sistema di assi
cartesiani (ascisse: veri
positivi; ordinate: falsi
positivi) è possibile
individuare 10 punti;
• uniti tra loro i punti
generano una curva ROC
e delimitano un’area
sottesa alla curva (AUC,
area under curve).
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Il confronto tra modelli predittivi: le curve
ROC (receiving(receiving-operator characteristics)
• La statistica di sintesi per valutare
l’accuratezza di un modello predittivo è
l’area sottesa alla curva (AUC).
• E’ possibile confrontare statisticamente due
modelli predittivi attraverso il confronto
delle AUC.
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
La validazione di modelli predittivi
• Validazione “interna”
• Confronto tra modelli predittivi costruiti sullo stesso
Training Set
• Validazione “esterna”
• Il modello predittivo costruito sul Training Set, deve
essere validato su (almeno) un altro campione (Test
set), indipendente dal primo.
•
•
•
•
Selezione stesso set di variabili predittive (x1, x2 ,… ,xn) ;
Applicazione dei coefficienti (b1,b2…bn) individuati nel training set;
Applicazione dello stesso cut-off individuato nel training set;
Valutazione capacità predittiva.
• In alternativa:
• Metodi di ricampionamento dallo stesso training set.
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
Come modellare il rischio
Grazie per l’attenzione
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005
XIV Congresso Nazionale SINV
Bassano del Grappa, 28 Ottobre 2005