Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano Gli argomenti discussi • Le definizioni del termine “rischio” • L’utilità di un modello predittivo di rischio • Come costruire modelli predittivi • Come confrontare modelli predittivi: le curve ROC • La validazione di modelli predittivi XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Le definizioni del termine “rischio” • Rischio di popolazione: probabilità di un evento sanitario sfavorevole in una data popolazione. • Rischio individuale: probabilità che un individuo appartenente ad una data popolazione sviluppi un evento sanitario sfavorevole . • Rischio relativo (RR): probabilità di un evento sanitario sfavorevole per un individuo esposto ad un dato fattore rispetto alla probabilità di evento in un individuo non esposto al fattore. • Odds ratio (OR): approssimazione del RR. Molto usato nel confronti tra classi di rischio prodotti da modelli predittivi. XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Le definizioni del termine “rischio” • Semplici notazioni matematiche: • Rischio di popolazione: p=nevento/N • Rischio individuale: pe (funzione delle caratteristiche individuali e del modello statistico usato per stimare il rischio) • Rischio relativo (RR): pe/pne • Odds ratio (OR): pe/(1-pe) / pne/(1-pne) XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 L’utilità di un modello predittivo di rischio • Il modello predittivo è un algoritmo statisticomatematico che permette di valutare: • in una data popolazione; • prima di un dato intervento; • in termini probabilistici, quali soggetto siano a maggior rischio (individuale) di evento. • La stratificazione dei pazienti in classi di rischio diverse può essere un supporto per decisioni di tipo clinico, chirurgico, terapeutico… XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Come costruire modelli predittivi • Necessità di garantirsi una sufficiente generalizzabilità del campione (Training Set) su cui costruire il modello predittivo; • le variabili predittive devono essere facili da raccogliere (al fine di minimizzare i dati mancanti), clinicamente rilevanti e immediatamente disponibili; • calibrare il numero di variabili predittive sulla base del numero totale di eventi osservati; • rapporto ≥10 tra eventi e numero di predittori XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Come costruire modelli predittivi In mancanza di questi pre-requisiti il modello perde in accuratezza e validità. XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Come costruire modelli predittivi • Quali modelli statistici per la stima del rischio? • Il modello di analisi discriminante • Il modello di regressione logistica XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Come costruire modelli predittivi • Il modello di analisi discriminante Scopo: definire modalità di assegnazione di nuovi casi a differenti gruppi di rischio in funzione di una serie di variabili predittive; I passi: 1) 2) 3) 4) Scelta di un Training Set, in cui gli esiti sui pazienti (casi e non casi) e le variabili predittive (x1, x2 ,… ,xn) sono noti; Definizione di uno score individuale di discriminazione per ciascun paziente: D= b0 + b1x1+ b2x2 + …. + bnxn; Stima dei coefficienti (b1,b2…bn) della funzione discriminante: metodo dei minimi quadrati; Stima dello score medio di discriminazione D e della relativa SEM per casi e non casi; XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Come costruire modelli predittivi • Il modello di analisi discriminante Scopo: definire modalità di assegnazione di nuovi casi a differenti gruppi di rischio in funzione di una serie di variabili predittive; I passi: 5) Stima della soglia discriminante (cut-off): • • • 6) media pesata delle due medie di gruppo con pesi pari alla SEM dell’altro gruppo (tanto minore è la SEM di un gruppo tanto più la soglia sarà vicina alla media corrispondente); valore che “ottimizza” sensibilità e specificità; altri metodi; Identificazione delle classi di rischio: • • BASSO RISCHIO: scores individuali inferiori al cut-off ALTO RISCHIO: scores individuali superiori al cut-off. XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Come costruire modelli predittivi I passi successivi: • Valutazione della capacità predittiva del modello e della sua “utilità”: • • Analisi della proporzione di assegnazione corretta del campione secondo il modello predittivo: • Quanti “non-casi” classificati a “basso rischio” ? • Quanti “casi” classificati ad “alto rischio” ? Validazione del modello. XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Come costruire modelli predittivi • Il modello di regressione logistica Scopo: definire modalità di assegnazione di nuovi casi a differenti gruppi di rischio in funzione di una serie di variabili predittive; I passi: 1) 2) 3) Scelta di un Training Set, in cui gli esiti sui pazienti (casi e non casi) e le variabili predittive (x1, x2 ,… ,xn) sono note; Definizione di una funzione logistica: logit(p)=log(p/(1-p))= b0 + b1x1+ b2x2 + …. + bnxn; Definizione della probabilità individuale di evento: p= 4) 1 1 + exp−logit ( p) Stima dei coefficienti della funzione logistica (b1,b2…bn); XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Come costruire modelli predittivi • Il modello di regressione logistica Scopo: definire modalità di assegnazione di nuovi casi a differenti gruppi di rischio in funzione di una serie di variabili predittive; I passi: 5) 6) Calcolo, per ciascun soggetto, della probabilità individuale di evento; Stima della soglia discriminante (cut-off): • • • 6) valore che ottimizza sensibilità e specificità; valore mediano della probabilità di evento; altri metodi. Identificazione delle classi di rischio: • • BASSO RISCHIO: probabilità individuale di evento < cut-off ALTO RISCHIO: probabilità individuale di evento > cut-off. XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Come costruire modelli predittivi I passi successivi: • Valutazione della capacità predittiva del modello e della sua utilità: • • Analisi della proporzione di assegnazione corretta del campione secondo il modello predittivo: • Quanti “non-casi” classificati a “basso rischio” ? • Quanti “casi” classificati ad “alto rischio” ? Validazione del modello. XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Il confronto tra modelli predittivi: le curve ROC (receiving(receiving-operator characteristics) • Ogni modello predittivo genera per ogni paziente uno score individuale; • Per ogni modello si ordinano in senso decrescente gli scores calcolati sul campione di pazienti; • Si individua un certo numeri di scores “tipici” (es: i 9 decili della distribuzione) come cut-off di rischio. • In corrispondenza di ogni cut-off: • Ogni paziente è classificato a “basso rischio” se lo score individuale è inferiore al cut-off; • ad “alto rischio” altrimenti • si valuta l’assegnazione corretta (veri positivi) o scorretta (falsi positivi) dei soggetti classificati ad “alto rischio”: • Veri Positivi: i “casi” classificati (correttamente) ad “alto rischio” • Falsi Positivi: i “non-casi” classificati (erroneamente) ad “alto rischio”; XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Il confronto tra modelli predittivi: le curve ROC (receiving(receiving-operator characteristics) • Al descrescere del valore soglia considerato, Basso rischio Alto rischio tra i pazienti classificati ad “alto rischio”, Non eventi VN 84 FP 6 90 il tasso di incremento dei “veri positivi” rallenta rispetto a quello dei “falsi positivi”. Eventi FN 6 VP 4 10 90 10 100 XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Il confronto tra modelli predittivi: le curve ROC (receiving(receiving-operator characteristics) • In un sistema di assi cartesiani (ascisse: veri positivi; ordinate: falsi positivi) è possibile individuare 10 punti; • uniti tra loro i punti generano una curva ROC e delimitano un’area sottesa alla curva (AUC, area under curve). XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Il confronto tra modelli predittivi: le curve ROC (receiving(receiving-operator characteristics) • La statistica di sintesi per valutare l’accuratezza di un modello predittivo è l’area sottesa alla curva (AUC). • E’ possibile confrontare statisticamente due modelli predittivi attraverso il confronto delle AUC. XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 La validazione di modelli predittivi • Validazione “interna” • Confronto tra modelli predittivi costruiti sullo stesso Training Set • Validazione “esterna” • Il modello predittivo costruito sul Training Set, deve essere validato su (almeno) un altro campione (Test set), indipendente dal primo. • • • • Selezione stesso set di variabili predittive (x1, x2 ,… ,xn) ; Applicazione dei coefficienti (b1,b2…bn) individuati nel training set; Applicazione dello stesso cut-off individuato nel training set; Valutazione capacità predittiva. • In alternativa: • Metodi di ricampionamento dallo stesso training set. XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 Come modellare il rischio Grazie per l’attenzione XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005 XIV Congresso Nazionale SINV Bassano del Grappa, 28 Ottobre 2005