POLITECNICO DI MILANO SCUOLA DI INGEGNERIA INDUSTRIALE E DELL’INFORMAZIONE TESI DI LAUREA MAGISTRALE IN INGEGNERIA MATEMATICA Un modello bayesiano non parametrico per tempi di attesa di eventi ricorrenti Relatore: Prof.ssa Guglielmi Alessandra Correlatore: Prof.ssa De Iorio Maria Anno Accademico 2014/2015 Candidato: Marta Tallarita Matricola 818291 2 Indice Introduzione 11 1 Alcuni richiami di teoria sugli eventi ricorrenti 17 1.1 Notazione per i Recurrent Events . . . . . . . . . . . . . . . . 17 1.2 Metodi statistici basati sul conteggio di eventi . . . . . . . . . 19 1.3 Metodi statistici basati sui tempi di attesa . . . . . . . . . . . 21 1.3.1 Processi di rinnovo e modelli statistici per i tempi di attesa . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.3.2 Metodi statistici di analisi dei processi di rinnovo . . . 24 1.3.3 Generalizzazione dei modelli di rinnovo . . . . . . . . . 26 1.4 L’approccio bayesiano . . . . . . . . . . . . . . . . . . . . . . 28 1.5 L’approccio bayesiano non parametrico: Processo di Dirichlet . 30 1.5.1 1.6 Dirichelet Process Mixture . . . . . . . . . . . . . . . . 32 Metodi computazionali per il calcolo dell’inferenza bayesiana . 34 2 Modello 37 2.1 Notazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2 Inferenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3 Simulazioni 3.1 43 Dataset simulato 1 . . . . . . . . . . . . . . . . . . . . . . . . 45 3.1.1 Inferenza su m0 . . . . . . . . . . . . . . . . . . . . . . 48 3.1.2 Inferenza su m1 . . . . . . . . . . . . . . . . . . . . . . 49 3.1.3 Inferenza sul numero di cluster Kn . . . . . . . . . . . 50 3.1.4 Diagnostica di convergenza . . . . . . . . . . . . . . . . 50 3 4 INDICE 3.2 3.3 3.4 Dataset simulato 2 . . . . . . . . . . . . . . . . . . . . . . . . 52 3.2.1 Inferenza su m0 . . . . . . . . . . . . . . . . . . . . . . 55 3.2.2 Inferenza su m1 . . . . . . . . . . . . . . . . . . . . . . 56 3.2.3 Inferenza sul numero di cluster Kn . . . . . . . . . . . 56 3.2.4 Diagnostica di convergenza . . . . . . . . . . . . . . . . 57 Dataset simulato 3 . . . . . . . . . . . . . . . . . . . . . . . . 58 3.3.1 Inferenza su m0 . . . . . . . . . . . . . . . . . . . . . . 61 3.3.2 Inferenza su m1 . . . . . . . . . . . . . . . . . . . . . . 62 3.3.3 Inferenza sul numero di cluster Kn . . . . . . . . . . . 63 3.3.4 Diagnostica di convergenza . . . . . . . . . . . . . . . . 63 Confronto dei risultati . . . . . . . . . . . . . . . . . . . . . . 64 4 Analisi su dataset dei packages di R 65 4.1 Il modello bayesiano . . . . . . . . . . . . . . . . . . . . . . . 67 4.2 Analisi dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.3 Inferenza su mnew 0 , 4.4 mnew 1 , Kn . . . . . . . . . . . . . . . . 70 4.3.1 Inferenza su m0 . . . . . . . . . . . . . . . . . . . . . . 71 4.3.2 Inferenza su m1 . . . . . . . . . . . . . . . . . . . . . . 72 4.3.3 Inferenza su K . . . . . . . . . . . . . . . . . . . . . . . 73 Inferenza sui parametri di regressione . . . . . . . . . . . . . . 74 4.4.1 Diagnostica di convergenza . . . . . . . . . . . . . . . . 74 4.4.2 Intervalli di credibilità a posteriori . . . . . . . . . . . 76 4.4.3 Confronto dei risultati . . . . . . . . . . . . . . . . . . 77 5 Analisi sui dati reali 81 5.1 Costruzione del Dataset . . . . . . . . . . . . . . . . . . . . . 81 5.2 Il modello bayesiano . . . . . . . . . . . . . . . . . . . . . . . 84 5.3 Analisi dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.4 Inferenza su mnew 0 , 5.5 mnew 1 , Kn . . . . . . . . . . . . . . . . 90 5.4.1 Inferenza su m0 . . . . . . . . . . . . . . . . . . . . . . 90 5.4.2 Inferenza su m1 . . . . . . . . . . . . . . . . . . . . . . 91 5.4.3 Inferenza su K . . . . . . . . . . . . . . . . . . . . . . . 92 Inferenza su τ 2 e su σ . . . . . . . . . . . . . . . . . . . . . . . 93 INDICE 5.6 5.7 5 Inferenza sui parametri di regressione . . . 5.6.1 Diagnostica di convergenza . . . . . 5.6.2 Intervalli di credibilità a posteriori Stochastic search variable selection per mi1 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 95 97 106 108 6 INDICE Elenco delle figure 1.1 Rappresentazione del processo di conteggio per dati basati su eventi ricorrenti. . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.1 Istogramma degli intertempi simulati secondo le specifiche di Simulazione 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2 Tempi in cui si manifestano i primi 5 eventi in 9 pazienti scelti in modo casuale . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.3 Densità a posteriori di m0 . . . . . . . . . . . . . . . . . . . . 48 3.4 Densità a posteriori di m1 . . . . . . . . . . . . . . . . . . . . 49 3.5 Densità a posteriori di Kn . . . . . . . . . . . . . . . . . . . . 50 3.6 Traceplot di σ . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.7 ACF plot di σ . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.8 Distribuzione degli αij : a sinistra scegliendo m0 = 1 e m1 = 0.3, a destra scegliendo m0 = −1 e m1 = −0.2 . . . . . . . . . 53 3.9 Istogramma degli intertempi simulati secondo le specifiche di Simulazione 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.10 Densità a posteriori di m0 . . . . . . . . . . . . . . . . . . . . 55 3.11 Densità a posteriori di m1 . . . . . . . . . . . . . . . . . . . . 56 3.12 Densità a posteriori di Kn . . . . . . . . . . . . . . . . . . . . 57 3.13 Istogramma degli intertempi simulati secondo le specifiche di Simulazione 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.14 Distribuzione degli αij : a sinistra scegliendo m0 = 1 e m1 = 0.3, a destra scegliendo m0 = −1 e m1 = −0.2 . . . . . . . . . 60 3.15 Densità a posteriori di m0 . . . . . . . . . . . . . . . . . . . . 61 3.16 Densità a posteriori di m1 . . . . . . . . . . . . . . . . . . . . 62 7 8 ELENCO DELLE FIGURE 3.17 Densità a posteriori di Kn . . . . . . . . . . . . . . . . . . . . 63 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Estratto dal dataset "readmission" . . . . . . . . . . . . . Istogramma degli intertempi in scala logaritmica . . . . . . Densità a posteriori di m0 ,con f (Wi1 , Wi2 , .., Wik ) = Wik . Densità a posteriori di m1 ,con f (Wi1 , Wi2 , .., Wik ) = Wik . Densità a posteriori di Kn ,con f (Wi1 , Wi2 , .., Wik ) = Wik . ACF plot di β1 = chemo, β2 = sex, β3 = dukes . . . . . . Trace plot di β1 = chemo, β2 = sex, β3 = dukes . . . . . . Geweke plot di β1 = chemo, β2 = sex, β3 = dukes . . . . Densità a posteriori di β1 = chemo, β2 = sex, β3 = dukes . . . . . . . . . . . . . . . . . . 66 69 71 72 73 74 75 75 76 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 5.16 5.17 5.18 Rappresentazione degli eventi per un generico paziente i . . . 82 Rappresentazione degli eventi per un generico paziente i . . . 83 Istogramma degli intertempi in scala logaritmica . . . . . . . . 88 Densità a posteriori di m0 ,con f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2k+..+Wik 90 Densità a posteriori di m1 ,con f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2k+..+Wik 91 Densità a posteriori di Kn ,con f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2k+..+Wik 92 Densità a posteriori di σ . . . . . . . . . . . . . . . . . . . . . 93 Densità a posteriori di τ 2 . . . . . . . . . . . . . . . . . . . . . 94 ACF plot di β2 . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Trace plot di β1 . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Geweke plot di β4 . . . . . . . . . . . . . . . . . . . . . . . . . 97 Intervalli di credibilità marginali a posteriori per β1 . . . . . . 98 Densità a posteriori di β1 . . . . . . . . . . . . . . . . . . . . 99 Intervalli di credibilità marginali a posteriori per β2 . . . . . . 101 Intervalli di credibilità marginali a posteriori per β3 . . . . . . 103 Intervalli di credibilità marginali a posteriori per β4 . . . . . . 105 Densità a priori di m1 . . . . . . . . . . . . . . . . . . . . . . 107 Probabilità a posteriori di inclusione di m1 . . . . . . . . . . . 108 Elenco delle tabelle 4.1 4.2 Numero di pazienti con j intertempi, con j = 2,..,8 . . . . . . 67 Intervalli di credibilità marginali a posteriori per β1 , β2 , β3 . . 77 5.1 5.2 Numero di pazienti con j intertempi, con j = 2,..,9 . . . . . P-value ottenuti dai test χ2 di indipendenza a coppie fra le varie covariate . . . . . . . . . . . . . . . . . . . . . . . . . . Intervalli di credibilità marginali a posteriori per β1 . . . . . Intervalli di credibilità marginali a posteriori per β2 . . . . . Intervalli di credibilità marginali a posteriori per β3 . . . . . Intervalli di credibilità marginali a posteriori per β4 . . . . . 5.3 5.4 5.5 5.6 9 . 83 . . . . . 86 97 100 102 104 10 ELENCO DELLE TABELLE Abstract In questa tesi viene proposto un nuovo modello bayesiano non parametrico per i tempi di attesa per eventi ricorrenti. La letteratura al riguardo è inesistente, quindi il modello proposto nell’elaborato sembra essere originale. Componenti fondamentali per l’elaborazione di tale modello sono quindi da una parte la teoria relativa agli eventi ricorrenti, dall’altra gli strumenti forniti dalla statistica bayesiana non parametrica. Gli eventi ricorrenti sono dei processi nei quali gli eventi si ripetono più volte nel corso del tempo; per descrivere questi eventi possono essere utilizzati metodi statistici basati sul conteggio di eventi oppure metodi statistici basati sui tempi di attesa. In questo lavoro ci si è basati su questi ultimi metodi ed in particolare sono stati molto utili i processi di rinnovo. In questo elaborato è stato utilizzato l’approccio bayesiano non parametrico, in particolare è stato utilizzato il processo di Dirichlet come prior non parametrica. Dopo aver descritto il modello che è stato utilizzato in tutta la tesi, questo è stato in primo luogo testato su 3 differenti dataset simulati per verificarne l’applicabilità, cioè per vedere se le stime bayesiane trovate dal modello e dai codici fossero simili ai valori veri dei parametri fissati per generare i dati simultati. Successivamente sono state svolte le analisi sul dataset "readmission" presente in un package di R(fraitypack) ed infine il modello è stato applicato a dati reali, che sono intertempi di pazienti affetti da infezione ricorrente. Per ognuno dei dataset a cui tale modello è stato applicato sono state riportate diverse inferenze: la distribuzione predittiva per le variabili latenti del processo di Dirichlet e la distribuzione a posteriori del numero di cluster, ossia del numero di gruppi che creano le variabili latenti. 11 12 Abstract Le inferenze numeriche sono state calcolate utilizzando il linguaggio di programmazione JAGS che è in grado di costruire un algoritmo MCMC la cui distribuzione invariante è la posterior dei parametri, date le osservazioni. Introduzione In questa tesi viene proposto un nuovo modello bayesiano non parametrico per i tempi di attesa di eventi ricorrenti. La letteratura al riguardo è inesistente, quindi il modello proposto nell’elaborato sembra essere originale. Il progetto è stato realizzato anche grazie alla collaborazione con l’University College London, dove ho frequentato per un mese il Department of Statistics che mi ha permesso di raccogliere i dati necessari per implementare il modello. Il lavoro di tesi è stato svolto sotto la supervisione della professoressa Maria De Iorio di tale dipartimento, oltre alla prof.ssa Alessandra Guglielmi. Componenti fondamentali per la costruzione di tale modello sono quindi da una parte la teoria relativa agli eventi ricorrenti, dall’altra gli strumenti forniti dalla statistica bayesiana non parametrica, in particolare il processo di Dirichlet (Ferguson, 1973). Gli eventi ricorrenti sono dei processi nei quali gli eventi si ripetono più volte nel corso del tempo. Se gli eventi di interesse si ripetono frequentemente e sono incidentali, cioè la loro presenza non altera il processo stesso, allora per descrivere questi eventi vengono utilizzati metodi statistici basati sul conteggio di eventi. Esempi di eventi incidentali sono le convulsioni epilettiche lievi o attacchi asmatici negli esseri umani. Eventi che possono ripetersi frequentemente ma che non sono incidentali sono l’infarto miocardico e l’ictus. In questi ultimi esempi gli eventi possono alterare sostanzialmente la condizione dell’individuo, influenzando così gli eventi futuri. Se, invece, gli eventi sono relativamente rari, se si verifica un rinnovamento dell’individuo dopo un evento, oppure se è di interesse la previsione del tempo per l’evento successivo, si utilizzano metodi statistici basati sui tempi di attesa. Tali analisi sono utilizzate negli studi di fenomeni ricorrenti come infezioni, in cui 13 14 Introduzione un individuo torna allo stato di buona salute una volta che l’infezione è stata curata. In questo lavoro l’approccio statistico seguito è stato quello di modellizzare i tempi di attesa tra un evento e l’altro, ed in particolare sono stati molto utili i processi di rinnovo. Per una trattazione completa sull’analisi degli eventi ricorrenti, si veda Cook e Lawless, 2007. Approcci NON bayesiani per modellizzare intertempi di eventi ricorrenti sono trattati in Wang et al., 2001 e Prentice et al., 1981. Mentre per un esempio di modello bayesiano nonparametrico, ma per dati NON ricorrenti, seppur in contesto di analisi di sopravvivenza, si può consultare De Iorio et al., 2009. In questo elaborato è stato utilizzato l’approccio bayesiano non parametrico. I modelli statistici parametrici sono modelli in cui il dato è rappresentato da una variabile aleatoria con distribuzione di probabilità appartenente a una data famiglia in corrispondenza biunivoca con un parametro vettoriale, quindi di dimensione finita. I modelli non parametrici invece rilassano le assunzioni fatte sulle distribuzioni di probabilità delle osservazioni ma, anche per modelli relativamente semplici, prevedono l’utilizzo di strumenti matematici più avanzati e complessi. Per i dettagli si veda Müller e Mitra, 2013. In particolare, in questa tesi è stato utilizzato il processo di Dirichlet come prior non parametrica. Nel primo capitolo, quindi, dopo aver descritto gli eventi ricorrenti e i metodi statistici con cui questi eventi possono essere descritti, mi sono concentrata sulla statistica bayesiana e nello specifico sulla statistica bayesiana nonparametrica introducendo il processo di Dirichlet e le sue caratteristiche principali. Dopo aver introdotto le fondamentali nozioni teoriche, nel Capitolo 2, è stato descritto il modello che è poi stato utilizzato in tutta la tesi. Per ognuno dei dataset a cui tale modello è stato applicato sono state riportate diverse inferenze: la distribuzione predittiva per le variabili latenti del processo di Dirichlet e la distribuzione a posteriori del numero di cluster, ossia del numero di gruppi che creano le variabili latenti. Infatti, assumere che θi , i = 1, . . . , n sia un campione da un processo di Dirichlet induce delle ties, quindi il numero di valori distinti θi , detto K, è una variabile aleatoria con una prior Introduzione 15 distribution e una posterior distribution. Le inferenze numeriche sono state calcolate utilizzando il linguaggio di programmazione JAGS che è in grado di costruire un algoritmo MCMC che simula una catena markoviana la cui distribuzione invariante è la posterior dei parametri, date le osservazioni. In primo luogo, Capitolo3, tale modello è stato testato su 3 differenti dataset simulati per verificarne l’applicabilità, cioè per vedere se le stime trovate per le diverse simulazioni confermano le nostre aspettative. Ogni dataset è costituito da n=200 soggetti, e per ognuno sono stati considerati J=5 intertempi. Il modello e il relativo codice sono stati in grado di riprodurre stime i cui valori sono simili ai valori veri dei parametri fissati per generare i dati simultati: in tutti e tre i casi sia le distribuzioni marginali di G0 per un nuovo paziente sia il numero di cluster sono come ci aspettavamo. Nel capitolo successivo, invece, il nostro modello è stato testato sul dataset "readmission" presente in un package di R (fraitypack). Tale dataset contiene i tempi di riospedalizzazione dei pazienti a cui è stato diagnosticato un cancro al colon. I dati descrivono il tempo (in giorni) dei successivi ricoveri dopo la data di intervento chirurgico; un totale di 861 eventi sono stati registrati per i 403 pazienti inclusi nell’analisi. Per ogni paziente è disponibile un vettore di covariate x := (x1 , x2 , x3 , x4 ) con: x1 che indica se il paziente ha ricevuto o meno la chemioterapia, x2 che indica il sesso, x3 che indica lo stadio del tumore e x4 che è pari all’indice di comorbidità di Charlson. Anche in questo caso sono state calcolate la distribuzione a posteriori per le variabili latenti del processo di Dirichlet e la distribuzione predittiva del numero di cluster, ossia del numero di gruppi che creano le variabili latenti. Inoltre sono stati calcolati gli intervalli di credibilità a posteriori dei coefficienti di regressione in modo da comprendere in che modo le covariate influenzano la variabile risposta. Questi risultati sono stati confrontati con le stime ottenute attraverso lo "Shared frailty model", contenuto nello stesso pacchetto da cui sono stati presi i dati. Infine, nell’ultimo capitolo, il modello è stato applicato al dataset fornito da UCL, costituito da diversi pazienti a rischio di infezione urinarie. Ogni soggetto effettua diversi controlli ospedalieri, ognuno dei quali è caratteriz- 16 Introduzione zato da una variabile W BC che indica se il paziente è infetto (W BC > 0) o meno (W BC = 0). Come prima cosa il dataset è stato manipolato in modo tale che potesse essere applicato al nostro modello: sono stati identificati gli eventi ricorrenti ed è stata introdotta la censura dove necessario. Le covariate considerate per l’analisi sono inizialmente 5 e variano nel tempo: l’età del paziente e 4 covariate binarie che indicano la presenza o assenza di certi sintomi ("urgenza", "dolore", "incontinenza da stress", "svuotamento"). Nel modello è cruciale come rappresentare la legge condizionale del j-esimo intertempo (in scala logaritmica) in funzione dei precedenti intertempi. Lo facciamo attraverso un’intercetta al tempo j la cui distribuzione è un Dirichlet process mixture model (Müller et al., 2015); la media di questo parametro al tempo j dipende dai tempi precedenti linearmente attraverso un funzione f (Wi1 , Wi2 , .., Wij−1 ). Due sono state le scelte considerate in questa tesi: • f (Wi1 , Wi2 , .., Wij−1 ) = Wij−1 , si genera quindi un processo markoviano in cui l’intertempo Wij dipende esclusivamente dall’intertempo precedente Wij−1 ; • f (Wi1 , Wi2 , .., Wij−1 ) = Wi1 +Wi2k+..+Wik , cioè l’intertempo Wij dipende dalla media degli intertempi precedenti. In particolare, ho monitorato la distribuzione predittiva di m0 new , dove m0 new rappresenta la distribuzione della prima componente di G0 per un nuovo paziente, la distribuzione predittiva di m1 new , dove, in modo analogo al caso precedente, m1 new rappresenta la distribuzione della seconda componente di G0 per un nuovo paziente, e la distribuzione a posteriori di Kn , cioè il numero di valori distinti di (mi0 , mi1 ) del campione dal processo di Dirichlet G. Tale valore indica il numero di cluster in cui è possibile raggruppare i valori distinti (mi0 , mi1 ). Successivamente ci si è concentrati sulle covariate: mostrando gli intervalli di credibilità a posteriori per β1 , β2 , β3 , β4 e controllando la convergenza. Infine è stata analizzata la significatività di mi1 utilizzando il metodo Stochastic search variable selection prior (SSVS ). Tutti i codici JAGS che producono le inferenze a posteriori, cioè la MCMC Introduzione 17 la cui distribuzione limite è la posterior dei parametri, e tutti i file R per la manipolazione dei dati e degli output di JAGS per costruire le inferenze a posteriori e le predittive, sono stati scritti da me. 18 Introduzione Capitolo 1 Alcuni richiami di teoria sugli eventi ricorrenti In questo capitolo introduciamo il concetto di eventi ricorrenti e i modi in cui questi eventi possono essere descritti (metodi statistici basati sul conteggio di eventi e metodi statistici basati sui tempi di attesa). Inoltre, descriveremo le caratteristiche principali della statistica bayesiana e quindi i metodi computazionali per il calcolo delle inferenze bayesiane. La notazione e i risultati principali qui riportati sono quelli di Cook e Lawless, 2007. 1.1 Notazione per i Recurrent Events Il mio lavoro si basa sull’analisi di eventi ricorrenti, ossia processi nei quali gli eventi si ripetono più volte nel corso del tempo. La modellazione di eventi ricorrenti può essere affrontata in vari modi. Ai fini sia del modello che delle analisi statistiche, sono particolarmente utili i concetti di funzione di intensità (intensity function) e di processo di conteggio (counting process). Partiamo per semplicità dal tempo t = 0 e poniamo 0 ≤ T1 < T2 < ...i tempi in cui si verificano i diversi eventi, dove Tk è il tempo dell’evento k-esimo. Il processo di conteggio associato {N (t), 0 ≤ t} registra il numero di eventi che 19 20CAPITOLO 1. ALCUNI RICHIAMI DI TEORIA SUGLI EVENTI RICORRENTI P si verificano durante l’intervallo di tempo [0, t], cioè N (t) = k=1 I(Tk ≤ t). Più in generale, N (s, t) = N (t) − N (s) rappresenta il numero di eventi che si verificano nell’intervallo (s, t]. In questo contesto, si noti che usiamo le parentesi quadre e tonde per indicare, rispettivamente, se il punto finale di un intervallo appartiene o meno all’intervallo stesso. Inoltre, utilizziamo t− e t+ per denotare tempi che sono infinitesimamente più piccoli o più grandi di t, rispettivamente. Per come sono stati qui definiti, i processi di conteggio sono continui a destra; cioè, N (t) = N (t+ ). La Figura 1.1 raffigura una realizzazione di un processo di conteggio per dati basati su eventi ricorrenti. Figura 1.1: Rappresentazione del processo di conteggio per dati basati su eventi ricorrenti. I modelli per eventi ricorrenti possono essere descritti in modo molto generale, considerando la distribuzione di probabilità per il numero di eventi che si verificano in brevi intervalli [t, t + 4t), data la storia dell’evento ricorrente prima del tempo t. Per impostare qualche notazione essenziale, definiamo 4N (t) = N (t + 4t− ) − N (t− ) che indica il numero di eventi nell’intervallo [t, t + 4t) , e indichiamo con H(t) = {N (s) : 0 ≤ s < t} la storia del processo fino al tempo t. Per gli eventi che si verificano nel tempo continuo facciamo l’ipotesi, matematicamente conveniente, che due eventi non possano verificarsi contemporaneamente. Quindi, la funzione di intensità fornisce la probabilità istantanea, condizionata alla storia del processo, che un even- 1.2. METODI STATISTICI BASATI SUL CONTEGGIO DI EVENTI 21 to si verifichi in t e permette di definire il processo in termini matematici. L’intensità è definita formalmente come P (4N (t) = 1 | H(t)) 4t→0 4t λ(t | H(t)) = lim (1.1) La definizione (1.1) è molto generale e si può adattare ad ogni possibile dipendenza dell’intensità della storia del processo H(t). Definiti i tempi degli eventi, si possono introdurre Wj := Tj − Tj−1 , j = 1, 2, 3, ...(T0 = 0), gli intertempi tra gli eventi (gap times). Tipicamente, per descrivere e modellare il verificarsi degli eventi ricorrenti possiamo utilizzare due vie: attraverso il conteggio degli eventi oppure attraverso l’analisi dei gap times tra gli eventi successivi. Questi metodi sono discussi nei seguenti paragrafi. Talvolta è chiaro il metodo più appropriato per un determinato problema, e in generale la scelta può essere guidata dalle caratteristiche del processo sottostante, dagli obiettivi dell’analisi, o dai risultati del model checking. In molti contesti possono essere rilevanti le analisi basate sia sul conteggio che sui tempi di attesa. Due caratteristiche spesso interessanti del processo sono i trend temporali e il clustering degli eventi. In linea di massima, un trend temporale in un processo indica la tendenza del tasso di incidenza dell’evento, a cambiare nel tempo in modo sistematico. Sono frequenti tendenze monotone, ma possono verificarsi anche tendenze non monotone. Il clustering, invece, si riferisce alla tendenza degli eventi a raggrupparsi. 1.2 Metodi statistici basati sul conteggio di eventi Descriviamo ora brevemente metodi basati sul conteggio di eventi, per poi concentrarci sui metodi basati sui gap times. Modelli e metodi basati sul conteggio sono spesso utili quando gli eventi di interesse si ripetono frequentemente, e gli eventi sono "incidentali", nel senso che la loro presenza non altera il processo stesso. Esempi di eventi 22CAPITOLO 1. ALCUNI RICHIAMI DI TEORIA SUGLI EVENTI RICORRENTI incidentali sono le convulsioni epilettiche lievi o attacchi asmatici negli esseri umani. Eventi che possono ripetersi frequentemente ma che non sono incidentali sono l’infarto miocardico e l’ictus. In questi ultimi esempi gli eventi possono alterare sostanzialmente la condizione dell’individuo, influenzando così gli eventi futuri. ll quadro canonico per l’analisi del conteggio degli eventi è il processo di Poisson. I modelli di Poisson in genere utilizzano l’età del processo come scala temporale. La proprietà degli incrementi indipendenti stabilisce che N (s1 , s2 ) è indipendente da N (s3 , s4 ) purché s2 < s3 . Questo implica che per i processi di Poisson la storia fino al tempo t non influenza la probabilità istantanea di eventi al tempo t, e in assenza di covariate l’unico fattore che determina l’intensità è t. Processi di Poisson sono quindi processi di Markov, con funzione intensità della forma P (4N (t) = 1|H(t)) = ρ(t) 4t→0 4t λ(t|H(t)) = lim (1.2) Oltre ad essere la funzione di intensità, ρ(t) è la rate function che dà la probabilità marginale (cioè non condizionata) istantanea di un evento al tempo t. Cioè, ρ(t)4(t) = E[4N (t)], e se µ(t) indica il numero totale atteso di eventi in [0, t], allora Z t ρ(s) ds µ(t) = E[N (t)] = (1.3) 0 e ρ(t) = µ0 (t) = dµ(t)/dt. Tale modello ( Equazione 1.2) può essere facilmente esteso per processi in cui vi è variabilità del tasso di eventi tra i soggetti. 1.3. METODI STATISTICI BASATI SUI TEMPI DI ATTESA 1.3 23 Metodi statistici basati sui tempi di attesa In questa sezione analizziamo i metodi basati sui tempi di attesa tra un evento e il successivo (gap times) ed in particolare ci concentriamo sulla descrizione dei processi di rinnovo. Le analisi basate sui tempi di attesa sono spesso utili quando gli eventi sono relativamente rari, quando si verifica un rinnovamento dell’individuo dopo un evento, o quando è di interesse la previsione del tempo per l’evento successivo. Tali analisi sono utilizzate negli studi di fenomeni ricorrenti come infezioni, in cui un individuo torna allo stato di buona salute una volta che l’infezione è stata curata. I processi di rinnovo sono modelli standard per i tempi di attesa e sono definiti come processi per i quali λ(t|H(t)) = h(t − TN (t− ) ) (1.4) Cioè, h(·) è la funzione di rischio per i tempi tra gli eventi, che sono indipendenti e identicamente distribuiti. Sono spesso utili generalizzazioni di processi di rinnovo che comprendono associazioni o tendenze tra i soggetti nei gap times. I processi di rinnovo e le loro estensioni sono descritti nella sezione 1.3.1 e nella sezione 1.3.2. 1.3.1 Processi di rinnovo e modelli statistici per i tempi di attesa I processi di rinnovo sono quelli in cui gli intertempi Wj = Tj − Tj−1 , (j = 1, 2, ...) tra eventi successivi sono indipendenti e identicamente distribuiti. Quando parliamo di indipendenza, si intende indipendenza condizionatamente ai "parametri", qualsiasi essi siano. Questo è equivalente a richiedere che l’intensità sia della forma (1.4): λ(t|H(t)) = h(B(t)) t > 0, (1.5) 24CAPITOLO 1. ALCUNI RICHIAMI DI TEORIA SUGLI EVENTI RICORRENTI dove B(t) = t − TN (t− ) è il tempo tra l’evento più recente prima di t e t stesso , e h(w) è la funzione di rischio per le variabili Wj , cioè, se le Wj hanno funzione di densità f (w) e funzione di sopravvivenza S(w) = P (W ≥ w), allora h(w) = P (W < w + 4w|W ≥ w) f (w) = lim . S(w) 4w→0 4w (1.6) Si assume che l’origine del tempo t = 0 corrisponda al tempo del primo evento. A volte questa ipotesi è rilassata e ad W1 è permesso di avere una distribuzione diversa da W2 , W3 , ... , con i gap times ancora congiuntamente indipendenti. In un processo di rinnovo puro si può dire che non esista nessun trend, in quanto i gap times sono i.i.d.. La distribuzione per i conteggi N (s, t) in processi di rinnovo è, in generale, intrattabile dal punto di vista matematico. Un’eccezione è rappresentata per il processo di rinnovo in cui le Wj sono variabili aleatorie esponenziali; il processo è quindi un processo omogeneo di Poisson. Invece la distribuzione di N (t), può essere ottenuta dalla relazione P (N (t) ≥ n) = P (Tn ≤ t), (1.7) osservando che Tn = W1 +...+Wn è una somma di variabili casuali iid. Segue anche dalla (1.7) che P (N (t) = n) = P (Tn ≤ t) − P (Tn+1 ≤ t), e µ(t) = E[N (t)] = ∞ X Fn (t) (1.8) n=1 dove Fn (t) è la funzione di ripartizione per Tn . Le covariate possono essere incorporate nei processi di rinnovo in modi semplici. Se a processi di rinnovo indipendenti sono associate delle covariate fisse z allora imponiamo che la distribuzione comune dei gap times Wj di- 1.3. METODI STATISTICI BASATI SUI TEMPI DI ATTESA 25 penda da z. In tal caso, possono essere utilizzati modelli di regressione: le due più importanti famiglie di tali modelli sono il proportional hazards model in cui la funzione di rischio di Wj dato z è della forma h(w|z) = h0 (w)exp(z 0 β) (1.9) e l’ accelerated failure time (AFT) model, in cui la funzione di rischio è del tipo 0 h(w|z) = h0 (wez β )exp(z 0 β) (1.10) Sia nella (1.9) che nella (1.10), h0 (w) è una funzione a valori positivi denominata funzione di rischio "base". Se ci sono covariate esterne z(t) variabili nel tempo, allora si possono considerare modelli di rinnovo in cui l’intensità è della forma λ(t|H(t)) = h(B(t)|z(t)) t > 0, (1.11) Ciò equivale a incorporare le covariate dipendenti dal tempo z(t) nella funzione di rischio per la Wj . Il modello moltiplicativo con h(w|z(t)) = h0 (w)exp(z 0 (t)β) (1.12) dove t = w+tN (t− ) , è molto utile. In un modello come (1.12) gli Wj sono indipendenti (data la storia delle covariate completa) ma non sono identicamente distribuiti. Si noti, però, che in molte applicazioni l’assunzione di gap times indipendenti non è sostenibile, anche dopo il condizionamento sulle covariate. 26CAPITOLO 1. ALCUNI RICHIAMI DI TEORIA SUGLI EVENTI RICORRENTI 1.3.2 Metodi statistici di analisi dei processi di rinnovo Iniziamo con la descrizione dei metodi basati sui processi di rinnovo, per poi quindi estendere tale metodo nelle sezioni successive. Consideriamo ora n pazienti. Assumiamo per il momento che l’individuo i sia osservato durante l’intervallo di tempo [0, τi ], che t = 0 corrisponda all’inizio del processo e poniamo 0 ≤ Ti1 < Ti2 < ... < Tini ≤ τi i tempi in cui si verificano i diversi eventi, dove Tik è il tempo dell’evento k-esimo per il paziente i-esimo e ni corrisponde al numero degli eventi osservati per il paziente i-esimo. Definiti i tempi degli eventi, si possono introdurre Wij := Tij − Tij−1 , j = 1, 2, 3, ..ni , (Ti0 = 0) e Wini +1 = τi − Tini , gli intertempi tra gli eventi per il paziente i, con i = 1, ...n. Si noti che l’ultimo tempo può essere censurato. La funzione di intensità dell’evento è della forma (1.5); se consideriamo le covariate fisse xi allora i gap times Wij tra gli eventi hanno funzione di rischio h(w | xi ). La funzione di verosimiglianza per m individui indipendenti è della forma L= "n n i Y Y i=1 # h(wij |xi ) exp(−H(wij |xi )) exp(−H(wi,ni +1 |xi )) (1.13) j=1 Rw con H(w|x) = 0 h(u|x) du che è la funzione di rischio cumulativo per Wij , dato xi . Se τi è un follow-up prespecificato o un tempo che è determinato indipendentemente dal processo dell’evento, allora la (1.13) è stato ottenuta calcolando P (Wi1 = wi1 , ..., Wini = wini , Wini +1 > wini +1 ), dove per comodità usiamo P (·) per indicare sia una probabilità che una densità di probabilità. Siano f (w|x) = h(w|x)exp(−H(w|x)) e S(w|x) = exp(−H(w|x)) la densità e la funzione di sopravvivenza per Wij dato xi . Possiamo quindi riscrivere la verosimiglianza come L= "n n i Y Y i=1 j=1 # f (wij |xi ) S(wini +1 |xi ) (1.14) 1.3. METODI STATISTICI BASATI SUI TEMPI DI ATTESA 27 che è la funzione di verosimiglianza per un campione casuale che coinvolge tempi di attesa wij (j = 1, ..., ni ) e tempi censurati a destra wini +1 per i = 1, ..., n. Se wini +1 = 0, cioè, se l’osservazione termina dopo l’evento ni − esimo, il termine S(wini +1 |xi ) nella (1.14) scompare. Metodi di analisi di sopravvivenza standard e relativo software possono quindi essere utilizzati per l’inferenza. Vediamo alcuni modelli di analisi di sopravvivenza qui adottati al caso di eventi ricorrenti: • Possono essere utilizzate le distribuzioni parametriche quali Weibull, log-normale, e la distribuzioni logistica. Quando sono presenti covariate fisse, possono essere usati corrispondenti accelerated failure time models (AFT) . Un modello AFT per un tempo di risposta W è quello per cui Y = log W ha una distribuzione della forma Y = β0 + x0 β + σε (1.15) dove x = (x1 , ...., xk )0 è il vettore delle covariate, β = (β1 , ..., βk )0 è il vettore dei coefficienti di regressione, σ > 0 è un parametro di scala e ε è una variabile casuale la cui distribuzione è indipendente da x. Questo modello gestisce facilmente i casi in cui i valori delle covariate sono fissate all’ interno degli intertempi ma variano tra gli intertempi. In questo caso il modello AFT assume per Yij = log Wij che la distribuzione di Yij dato xij può essere rappresentata come Yij = β0 + x0ij β + σεij (1.16) dove i termini εij sono variabili aleatorie i.i.d.. Covariate che variano all’interno dei gap sono più difficili da gestire con i modelli AFT, ma sono facilmente trattati dal modello di Cox. 28CAPITOLO 1. ALCUNI RICHIAMI DI TEORIA SUGLI EVENTI RICORRENTI • Il modello moltiplicativo di Cox per gli hazard è quello per cui la funzione di rischio per Wij dato xij è della forma h(w|xij ) = h0 (w)exp(x0ij β) (1.17) Nel caso frequentista, le stime dei parametri vengono calcolate con il metodo di verosimiglianza parziale. Questo modello si adatta anche a covariate variabili nel tempo: in questo caso xij è sostituito dal xij (t) nella (1.17). Come sottolineato, l’ipotesi che i gap times Wij siano indipendenti e identicamente distribuiti quando non sono presenti covariate è molto forte, ed è importante fare dei controlli diagnostici in ogni situazione. Lo stesso vale per i modelli di regressione come (1.16) e (1.17), dove sono presenti le covariate xij . 1.3.3 Generalizzazione dei modelli di rinnovo L’assunzione di indipendenza tra gli intertempi è irragionevole in molte situazioni: si possono considerare modelli più generali specificando la successione di distribuzioni condizionali, cioè L(Wi1 , ...., Wini ) = L(Wi1 ) × L(Wi2 |Wi1 ) × · · · · ×L(Wini |Wi1 , ...Wini −1 ), dove Fj (w|xij , wij−i ) = P (Wij ≤ w|xij , wij−1 ) j = 1, 2, .. (1.18) Qui wij−1 = (wi1 , ...., wij−1 )0 e xij è il vettore di covariate per l’individuo i associato al gap time j − esimo. Questo modello consente vari tipi di dipendenza dell’evento j-esimo dalla storia precedente. I modelli possono anche essere formulati con covariate che variano all’interno dei gap times tra gli eventi. Possono essere presi in considerazione diversi modelli di questa forma, che comprendono naturalmente i modelli di rinnovo della sezione precedente, come casi particolari. In questo paragrafo ci concentreremo sull’analisi condizionata dei successivi gap times. 1.3. METODI STATISTICI BASATI SUI TEMPI DI ATTESA 29 Per modelli dominati la funzione di verosimiglianza per un insieme di n processi indipendenti è un’estensione della (1.14): L= "n n i Y Y i=1 # f (wij |zij ) Sni +1 (wi,ni +1 |zini +1 ) (1.19) j=1 dove zij è il vettore che modella la dipendenza di Wij rispetto a xij e a wij−1 , e fj (w|zij ) e Sj (w|zij ) sono, rispettivamente, la densità e la funzione di so(j−1) pravvivenza di Wij dato zij . Se zij non dipende da wi allora il modello si riduce ad un processo di rinnovo con gap times indipendenti ma non identicamente distribuiti. L’analisi statistica si basa su modelli di regressione per tempi di sopravvivenza. Le due famiglie dominanti di tali modelli sono il proportional hazards models e il modello AFT. Nel primo caso assumiamo una hazard function (j−1) della forma per Wij dati xij e wi (j−1) hj (w|xij , wi (j−1) ) = hj (w|x0j , w0 )exp(zij0 βj ) j = 1, 2, ... (1.20) Nel caso frequentista, la forma più comune di analisi basato sulla (1.20) è l’analisi semiparametrica della sezione 1.3.2 (ii), in cui le funzioni di rischio base h0j (w) sono trattate in modo non parametrico. I modelli AFT analogamente alla (1.20) definiscono Yij = logWij e sono della forma (1.16) con Y = β0j + z0ij βj + σj εij j = 1, 2, ... (1.21) dove εij sono variabili casuali i.i.d. con una distribuzione nota Gj (ε), per ogni i. 30CAPITOLO 1. ALCUNI RICHIAMI DI TEORIA SUGLI EVENTI RICORRENTI 1.4 L’approccio bayesiano In questa tesi seguiremo l’approccio bayesiano. Questo metodo è basato su una filosofia di analisi dei dati alternativa a quella propria dell’approccio classico. La differenza sostanziale sta nel fatto che per l’approccio classico i parametri θ sono delle costanti incognite mentre per il metodo bayesiano i parametri sono aleatori e dunque è necessario assegnare una distribuzione per il vettore dei parametri. Questa distribuzione è denominata legge a priori o prior (π(θ)) ed esprime ciò che è noto relativamente ai parametri prima che l’esperimento venga condotto. La scelta della prior è il punto più difficile e critico dell’approccio bayesiano poiché è una scelta di tipo soggettivista, infatti, in generale, le informazioni a priori non sono mai così precise da generare un’unica legge a priori per θ. E’ necessario quindi scegliere tra le distribuzioni plausibili o approssimare la vera prior. Esistono due soluzioni ragionevoli: • mistura (combinazione lineare convessa) di distribuzioni coniugate. Definizione 1.4.1. Una famiglia F di distribuzioni sullo spazio parametrico Θ si dice coniugata al modello se, per ogni prior π ∈ F la corrispondente distribuzione finale π(·|x) ∈ F . Le prior coniugate sono molto utili se la famiglia F è parametrica, perché in questo caso si aggiornano solo i parametri della distribuzione a posteriori. Il vantaggio di questo metodo è il fatto che una mistura di coniugate potrebbe rappresentare una combinazione delle opinioni di diversi esperti. • prior non informative. In genere viene effettuata questa scelta quando a priori ho informazioni deboli o vaghe perché le prior non informative danno luogo a distribuzioni a posteriori che dipendono prevalentemente dai dati. 1.4. L’APPROCCIO BAYESIANO 31 Il fondamento della statistica bayesiana è dato dal teorema di Bayes la cui applicazione permette di tenere conto delle opinioni e conoscenze esistenti a priori sul fenomeno che è oggetto di studio. Esso connette distribuzione a priori, verosimiglianza e distribuzione a posteriori in un unica formula e fornisce un metodo per modificare il livello di fiducia in una data ipotesi alla luce di una nuova informazione. Teorema 1.4.2 (di Bayes). Siano: • X|θ ∼ p(x|θ), dove p(x|θ) è la verosimiglianza del campione X (nel caso parametrico), • θ ∼ π(θ), dove π(θ) è la distribuzione a priori , Allora la legge a posteriori π(θ|x) è data da : π(θ|x) = p(x|θ)π(θ) . p(x) (1.22) La distribuzione p(x) indica la legge marginale del campione X Z p(x) = p(x|θ)π(θ) dθ (1.23) Tutte le inferenze bayesiane si basano sulla distribuzione a posteriori. Ad esempio, la stima dei parametri verrà fatta calcolando statistiche riassuntive di π(θ|x) (media o mediana a posteriori), mentre stime intervallari saranno costruite a partire dai quantili di π(θ|x). 32CAPITOLO 1. ALCUNI RICHIAMI DI TEORIA SUGLI EVENTI RICORRENTI 1.5 L’approccio bayesiano non parametrico: Processo di Dirichlet I modelli statistici parametrici sono modelli utilizzati per fare inferenza su osservazioni che si assume essere realizzazioni di una variabile aleatoria con distribuzione di probabilità appartenente a una data famiglia in corrispondenza biunivoca con un numero finito di parametri. I modelli non parametrici invece rilassano le assunzioni fatte sulle distribuzioni di probabilità delle osservazioni. In questo paragrafo si sviluppa uno dei più importanti modelli bayesiani non parametrici, ossia il processo di Dirichlet (DP). La notazione e i risultati qui riportati sono quelli di Müller et al., 2015. Esistono diversi modi per definire tale processo; la definizione originale è stata data da Ferguson, 1973, il quale ha introdotto il modello DP come una prior sullo spazio della misura di probabilità. Esso può essere visto come una generalizzazione infinito dimensionale della distribuzione di Dirichlet finito dimensionale. Definizione 1.5.1. Sia α = (α1 , α2 , . . . , αk ) con αi > 0 per i = 1, 2, . . . , k. Pk Il vettore aleatorio G = (G1 , G2 , . . . , Gk ), i=1 Gi = 1 ha distribuzione di Dirichelet di parametro α, se G = (G1 , G2 , . . . , Gk−1 ) è assolutamente continuo rispetto la misura di Lebesgue su Rk−1 con densità P Γ( ki=1 αi ) αk−1 −1 g α1 −1 g2α2 −1 · · · gk−1 f (g1 , g2 , . . . , gk−1 ) = Γ(α1 )Γ(α2 ) . . . Γ(αk ) 1 1− k−1 X !αk −1 gi i=1 con 0 ≤ gi ≤ 1 ∀i, 0 ≤ g1 + g2 + · · · + gk−1 ≤ 1, 0 altrimenti. Scriveremo P ∼ D(α). Ora possiamo definire il processo di Dirichlet. Definizione 1.5.2. Sia α una misura finita su (X, B (X)), M := α(X); sia G0 (·) = α(·)/M. Un DP con parametri α è una misura di probabilità aleatoria G definita su X che assegna probabilità G(B) ad ogni insieme misurabile B in modo tale che per ogni partizione finita e misurabile {B1 , . . . , Bk } di X la 1.5. L’APPROCCIO BAYESIANO NON PARAMETRICO: PROCESSO DI DIRICHLET33 distribuzione congiunta del vettore (G(B1 ), . . . , G(Bk )) sia una distribuzione di Dirichelet con parametri (α(B1 ), . . . , α(Bk )). Usando le condizioni di consistenza di Kolmogorov(1933), Ferguson(1973) ha mostrato che tale processo esiste. Tale processo in genere è indicato con DP (α) oppure con DP (M, G0 ), dove il parametro M è chiamato parametro di precisione o di massa totale e il prodotto α := M G0 indica la misura base del DP. Una caratteristica importante del DP è la natura discreta di G, per questo motivo G può essere riscritta come somma pesata di masse puntiformi: G(·) = ∞ X wk δmh (·) h=1 dove w1 , w2 , . . . sono i pesi di probabilità e δx (·) indica la misura di Dirac in x. Il processo di Dirichlet ha tre importanti proprietà: ind 1. il DP è coniugato alla prior su X. Siano y1 , . . . , yn |G ∼ G e G ∼ DP (α). Allora, G|y1 , . . . , yn ∼ DP (α + n X δyi ). i=1 2. la distribuzione di un campione (y1 , y2 , ..., yn+1 ) da un processo di Dirichlet può essere descritta come segue: y1 ∼ G0 n M G0 + yn+1 |y1 , . . . , yn ∼ M +n M +n Pn i=1 δyi n , n = 1, 2, . . . , N. Questa osservazione permette di campionare marginalmente (y1 , y2 , ..., yn+1 ) senza simulare traiettorie del processo di Dirichlet. 34CAPITOLO 1. ALCUNI RICHIAMI DI TEORIA SUGLI EVENTI RICORRENTI 3. Il processo di Dirichlet ha traiettorie discrete. Ciò risulta evidente dalla costruzione di Sethuraman. Sethuraman (1994) ha fornito una definizione costruttiva del processo di Dirichlet. Questa costruzione, detta stick-breaking, dà una idea della struttura del processo e fornisce un modo semplice per simulare le sue traiettorie. Si considerino due famiglie di variabili aleatorie indipendenti (vh )h≥1 e (mh )h≥1 . Siano ind mh ∼ G0 , ind vh ∼ Be(1, M ) e si definiscano w1 = v1 .. . Y wh = vh (1 − vl ). l<h Allora G(·) = ∞ X wk δmh (·) h=1 definisce un processo di Dirichlet con parametri M, G0 . 1.5.1 Dirichelet Process Mixture I processi di Dirichelet generano distribuzioni discrete, che sono poco utili per la stima di densità continue. Questo limite può essere superato usando misture di processi di Dirchelet ( modelli DPM). Sia Θ lo spazio dei parametri. Per ogni θ ∈ Θ, sia fθ densità di probabilità continua. Data una distribuzione di probabilità G definita su Θ , una mistura di fθ su G ha la seguente densità: Z fG (y) = fθ (y)dG(θ) (1.24) 1.5. L’APPROCCIO BAYESIANO NON PARAMETRICO: PROCESSO DI DIRICHLET35 ind Se consideriamo questo modello mistura(2.6) e assumiamo che yi |G ∼ FG , con G ∼ DP (M, G0 ) allora possiamo riscriverlo in modo equivalente attraverso un modello gerarchico che introduce le variabili latenti θi : ind yi |θi ∼ fθi ind θi |G ∼ G (1.25) G ∼ DP (M, G0 ) Utilizzando questa formulazione (2.4), si nota che assumere che θi , i = 1, . . . , n sia un campione da un processo di Dirichlet induce delle ties, quindi il numero di valori distinti θi , detto K, è una variabile aleatoria con una prior distribution e una posterior distribution. Questo numero indica il numero di cluster, ossia in numero di gruppi che creano le variabili latenti θi . 36CAPITOLO 1. ALCUNI RICHIAMI DI TEORIA SUGLI EVENTI RICORRENTI 1.6 Metodi computazionali per il calcolo dell’inferenza bayesiana Nella maggior parte dei casi è molto complicato o addirittura impossibile ricavare analiticamente la distribuzione a posteriori, e quindi si può ricorrere a simulazioni numeriche. Nella mia tesi ho usato metodi Markov Chain Monte Carlo (MCMC); queste tecniche permettono di valutare numericamente la densità a posteriori, anche in casi molto complicati in cui, per esempio, la likelihood è ottenuta attraverso simulazioni numeriche, la dimensione dello spazio dei parametri è grande e la posterior ha una struttura complessa. Tipicamente si è interessati a trovare il valore atteso, di una certa funzione reale del parametro θ, cioè h(θ) : Z Eπ [h(θ)|x] = h(θ)π(θ|x) dθ. (1.26) Θ Spesso quindi ci si ritrova a dover fare i conti con gli integrali e calcolarli analiticamente non è sempre agevole o addirittura possibile. E’ chiara l’esigenza di trovare soluzioni alternative: un generico integrale può essere adeguatamente stimato tramite simulazione. Simulo una catena di Markov {θm , m ≥ 0} (con Θ spazio degli stati) che sia Harris-ergodica ed abbia misura limite pari a π, cioè simulo una catena di Markov che sia: • Irriducibile: Definizione 1.6.1 (Catena di Markov irriducibile, spazio degli stati continuo). Sia Φ una misura di probabilità sullo spazio degli stati Θ. Una catena di Markov con nucleo di transizione K(θ, A) è detta Φ-irriducibile, se ∀A ∈ B (Θ) tale che Φ(A) > 0 esiste n tale che K n (θ, A) > 0, ∀θ ∈ Θ • Harris-Ricorrente: 1.6. METODI COMPUTAZIONALI PER IL CALCOLO DELL’INFERENZA BAYESIANA37 Definizione 1.6.2 (Catena di Markov Harris-Ricorrente). Consideriamo una catena di Markov (θm , m ≥ 0) con distribuzione di irriducibilità nominale Φ. Allora (θm , m ≥ 0) è Harris-ricorrente, se ∀A ∈ Θ tale che Φ(A) > 0: P (θm ∈ A i.o.) = 1, ∀θ ∈ A • Aperiodica, ossia che il periodo della catena sia pari a 1. Allora uno stimatore non distorto di h(θ) sarà m Eπ [h(θ)|x] = h̄m = 1 X h(θi ) m + 1 i=0 (1.27) e π(θ|x) è la distribuzione invariante della catena di markov. La consistenza di tale risultato è garantita dal teorema ergodico, noto anche come legge dei grandi numeri per le catene di Markov: Teorema 1.6.3 (teorema ergodico / legge dei grandi numeri per le catene di Markov). Sia (θm , m ≥ 0) una catena di Markov irriducibile e Harrisricorrente su Θ con distribuzione invariante π. Si consideri una funzione h R π-misurabile tale che Θ |h(θ)|dπ(θ) < ∞. Allora m 1 X h(θi ) = lim m→∞ m + 1 i=0 Z h(θ)dπ(θ) ≡ Eπ h(θ) Θ Teorema 1.6.4. Una catena di Markov (θm , m ≥ 0) definita su Θ con distribuzione invariante π e matrice di transizione K è Harris-ergodica ⇔ n→∞ ||K n (θ, ·) − π(·)|| −→ 0 ∀θ ∈ Θ Per maggiori dettagli si veda Jackman, 2009 38CAPITOLO 1. ALCUNI RICHIAMI DI TEORIA SUGLI EVENTI RICORRENTI Capitolo 2 Modello Riprendendo la notazione introdotta nel capitolo precedente, denotiamo con Wij , j = 1, 2, 3, . . . i gap times tra i vari eventi per il paziente i, i = 1, 2, 3, . . . n. Assumiamo che ogni individuo i sia osservato nell’intervallo [0,τi ] e che t = 0 corrisponda al primo evento. Con xij definiamo il vettore di covariate al tempo j. Se ni eventi sono osservati ai tempi 0 < Ti1 < · · · < Tini ≤ τi , poniamo wij = Tij − Tij−1 per j = 1, . . . , ni e wini +1 = τi − Tini , dove Ti0 = 0. Questi sono i gap times osservati per il paziente i, con l’ultimo tempo che può essere censurato. Indichiamo con J il numero massimo, fra i vari individui, di eventi ripetuti, cioè J = maxi=1,...,n (ni ). 39 40 CAPITOLO 2. MODELLO Il modello che utilizzeremo in tutta la tesi è il seguente: ∀i = 1, · · · n Yi1 =: logWi1 = xi β1 + σεij Yij =: logWij = xi βj + αij + σεij ∀j = 2, · · · ni (2.1) (2.2) ind εij ∼ N (0, 1). dove Condizionatamente ai parametri, i vari Yi =: (Yi1 , ..., Yini ) sono indipendenti; il vettore dei parametri è θ = (β, σ, (α1 , ..., αn )), con αi = (αi1 , .., αini ). Quindi stiamo assumendo che gli intertempi abbiano distribuzione gaussiana: Yi1 |β1 , σ ∼ N (xi β1 , σ 2 ) Yij |Yi1 , .., Yij−1 , βj , σ, αij ∼ N (xi βj + αij , σ 2 ) Per quanto riguarda la prior assumiamo che i blocchi (in θ) β, σ, (α1 , ..., αm ) siano indipendenti e che abbiano le seguenti distribuzioni: σ ∼ U (0, σ0 ), σ0 > 0, 0 . 2 . β ∼N . , (β0 ) I , 0 ind αij | mi0 , mi1 , τ ∼ N (mi0 + mi1 logf (...), τ 2 ) iid mi0 , mi1 | G ∼ G G ∼ DP (M, G0 ) 41 τ 2 ∼ inv-gamma(5, 1) M ∼ U (0, 10) G0 = N (0, 10) × L(Z) dove Z = 2X − 1, con X ∼ Beta(3, 3) Si noti che ora lo spazio parametrico è stato "aumentato", e quindi il parametro è θ = (β, σ, (α1 , ..., αn ), (m1 , ..., mn ), τ02 , M ), con mi = (mi0 , mi1 ). Inoltre osserviamo che: • la seconda componente di G0 è limitata all’intervallo (-1,1) perchè altrimenti il processo diventerebbe non stazionario con varianza che tende ad infinito; • il vettore delle covariate xi nelle Equazione (2.1) e (2.2) può diventare un vettore di covariate che varia nel tempo xij (t). In questa tesi confronteremo tre possibili scelte per f : • f (Wi1 , Wi2 , .., Wik ) = Wik • f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2 +..+Wik k • f (Wi1 , Wi2 , .., Wik ) = Wi1 ·Wi2 ·..·Wik k In base alla scelta di f si genera un diverso comportamento nel tempo; scegliendo f (Wi1 , Wi2 , .., Wik ) = Wik si genera un processo markoviano in cui l’intertempo Wij dipende esclusivamente dall’intertempo precedente Wij−1 , ∀j = 2, .., ni . Se, invece, f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2k+..+Wik allora l’intertempo Wij dipende dalla media degli intertempi precedenti. Infine, se f (Wi1 , Wi2 , .., Wik ) = Wi1 ·Wi2k ·..·Wik allora l’intertempo Wij dipende dal prodotto degli intertempi precedenti. Si noti che è necessario dividere per k altrimenti il processo potrebbe esplodere. E’ importante sottolineare il fatto che stiamo utilizzando una prior non parametrica, cioè G che è un processo di Dirichlet. 42 2.1 CAPITOLO 2. MODELLO Notazione Uniformiamo la notazione utilizzata in questo paragrafo con quella utilizzata nella Sezione 1.5. Abbiamo quindi che le variabili yi presenti nel Capitolo 1 corrispondono al vettore αi presente nel modello, mentre le le variabili θi corrispondono al vettore mi . 2.2. INFERENZA 2.2 43 Inferenza Le inferenze che riportiamo per ognuno dei dataset sono: • la distribuzione a posteriori di m0 new , dove m0 new rappresenta la distribuzione della prima componente di G0 per un nuovo paziente: π(m0 new | dati) = R = L(m0 new , m10 , ...mn0 ) = L(m10 , ...mn0 ) L(m0 new , m10 , ...mn0 | G) · π(dG) = L(m10 , ...mn0 ) Z G0 · π(dG | m10 , ...mn0 ), (2.3) con G0 = P∞ l=1 wl δτ0l , ind τ0l ∼ G00 • la distribuzione a posteriori di m1 new , dove, in modo analogo al caso precedente, m1 new rappresenta la distribuzione della seconda componente di G0 per un nuovo paziente: π(m1 new | dati) = R = L(m1 new , m11 , ...mn1 ) = L(m11 , ...mn1 ) L(m1 new , m11 , ...mn1 | G) · π(dG) = L(m11 , ...mn1 ) Z G · π(dG | m11 , ...mn1 ) (2.4) con G1 = P∞ l=1 wl δτ1l , ind τ1l ∼ G01 • la distribuzione a posteriori di Kn , cioè il numero di valori distinti di (mi0 , mi1 ) del campione dal processo di Dirichlet G. Tale valore indica il numero di cluster in cui è possibile raggruppare i valori distinti (mi0 , mi1 ). Le inferenze numeriche sono state calcolate utilizzando il linguaggio di programmazione JAGS (Plummer et al., 2003), in modo da richiamarlo tramite un interfaccia di R. Il programma è in grado di costruire un algoritmo MCMC la cui distribuzione invariante è la posterior di θ, date le osservazioni. Due 44 CAPITOLO 2. MODELLO aspetti da tenere in considerazione sono il periodo di burn-in e la correlazione tra punti. Infatti all’inizio del campionamento la distribuzione generata dall’algoritmo MCMC potrebbe essere significativamente lontana dalla distribuzione target ( cioè la distribuzione a posteriori dei parametri del modello), quindi l’output MCMC è in genere suddiviso in due parti: un periodo iniziale di burn-in, che viene scartato e la restante parte della catena che, invece, rappresenta accuratamente la distribuzione desiderata. Inoltre, un algoritmo MCMC genera catene di Markov di campioni ognuno dei quali è correlato a quello generato precedentemente e successivamente a lui. Pertanto se si è interessati a campioni indipendenti vanno considerati soltanto i campioni generati ogni n (thinning= n). Capitolo 3 Simulazioni Per verificare l’applicabilità del modello proposto nella sezione precedente, si è condotta un’analisi su dati simulati. Considerando il modello introdotto nel Capitolo 2, nel primo dataset poniamo αij = 0 ∀i = 1, ..., n, ∀j = 1, ..., J , nel secondo imponiamo pari a 0 i coefficienti βj , ∀j = 1, ..., J ed infine, per la terza simulazione, consideriamo sia i coefficienti αij ∀i = 1, ..., n, ∀j = 1, ..., J che i coefficienti βj , ∀j = 1, ..., J diversi da 0. I parametri utilizzati in tutto il capitolo sono: • σ0 = 10 • β02 = 1000 Per tutte le simulazioni di questo capitolo, tramite JAGS, sono state eseguite 10.000 iterazioni di burn-inn, con thinning pari a 50, per un final sample size di 5.000 iterazioni. Come descritto nel capitolo precedente, varie sono le possibili scelte per f (Wi1 , Wi2 , .., Wik ): • f (Wi1 , Wi2 , .., Wik ) = Wik • f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2 +..+Wik k 45 46 CAPITOLO 3. SIMULAZIONI • f (Wi1 , Wi2 , .., Wik ) = Wi1 ·Wi2 ·..·Wik k Per ognuna di queste riportiamo diverse inferenze: • la distribuzione a posteriori di m0 new (Equazione 2.3) • la distribuzione a posteriori di m1 new (Equazione 2.4) • la distribuzione a posteriori di Kn , cioè il numero di valori distinti di (mi0 , mi1 ) del campione dal processo di Dirichlet G 3.1. DATASET SIMULATO 1 3.1 47 Dataset simulato 1 I dati sono simulati dal modello precedente, in modo indipendente, scegliendo: βj = 1 ∀j σ=1 αij = 0 ∀ i, j J =5 n = 200 iid xi ∼ N (0, 1) Quindi le variabili Yij sono state simulate da una gaussiana di media xi e varianza pari a 1, ∀ i, j = 1, ..., J. 48 CAPITOLO 3. SIMULAZIONI La Figura 2.1 riporta gli intertempi simulati in scala logaritmica per i diversi pazienti. Figura 3.1: Istogramma degli intertempi simulati secondo le specifiche di Simulazione 1 3.1. DATASET SIMULATO 1 49 Il grafico in figura 2.2 mostra J=5 eventi per 9 soggetti scelti in modo arbitrario. Figura 3.2: Tempi in cui si manifestano i primi 5 eventi in 9 pazienti scelti in modo casuale Dal grafico si nota che, per i diversi pazienti, gli eventi si verificano in modo arbitrario. 50 3.1.1 CAPITOLO 3. SIMULAZIONI Inferenza su m0 I risultati ottenuti, al variare della funzione f ( f (Wi1 , Wi2 , .., Wik ) = Wik , f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2k+..+Wik oppure f (Wi1 , Wi2 , .., Wik ) = Wi1 ·Wi2k ·..·Wik ), sono sovrapponibili, quindi per semplicità riportiamo le inferenze solo per il caso f (Wi1 , Wi2 , .., Wik ) = Wik . Figura 3.3: Densità a posteriori di m0 Dalla Figura 3.3 si nota che, come ci aspettavamo, la distribuzione del parametro m0 per un nuovo paziente è concentrata sullo 0, questo poichè nel modello simulato αij = 0 ∀i, j. 3.1. DATASET SIMULATO 1 3.1.2 51 Inferenza su m1 Anche in questo caso i risultati ottenuti, per le varie scelte della funzione f , sono identici. Figura 3.4: Densità a posteriori di m1 Come per la distribuzione del parametro m0 , anche la distribuzione del parametro m1 per un nuovo paziente è concentrata sullo 0, perchè nel modello simulato αij = 0 ∀i, j. 52 3.1.3 CAPITOLO 3. SIMULAZIONI Inferenza sul numero di cluster Kn La scelta di f non risulta significativa neppure per l’inferenza sul numero dei cluster. Come si evince dalla Figura 3.5 i pazienti appartengono ad un unico gruppo con probabilità maggiore di 0.8. Quindi, come per le distribuzioni marginali di G0 , questo risultato conferma le nostre aspettative, infatti i dati sono stati simulati da un unico gruppo. Figura 3.5: Densità a posteriori di Kn 3.1.4 Diagnostica di convergenza Osservando i traceplot (Figura 3.6) e l’ autocorrelation plot (Figura 3.7) per la variabile σ notiamo che la catena è giunta a convergenza; infatti i traceplot sono molto fitti e l’ autocorrelazione è bassa. 3.1. DATASET SIMULATO 1 Figura 3.6: Traceplot di σ Figura 3.7: ACF plot di σ 53 54 3.2 CAPITOLO 3. SIMULAZIONI Dataset simulato 2 I dati sono simulati dal modello introdotto nel Capitolo 2, in modo indipendente, scegliendo: βj = 0 ∀j σ=1 αij ∼ N (m0i + m1i ∗ Yij−1 , 0.5) ∀i, j Per 100 pazienti m0i = 1 e m1i = 0.3 per gli altri 100 pazienti m0i = −1 e m1i = −0.2 J =5 n = 200 iid xi ∼ N (0, 1) 3.2. DATASET SIMULATO 2 55 Quindi le variabili Yij sono state simulate da una gaussiana di media αij e varianza pari a 1, ∀ i, j = 1, ..., J mentre le variabili αij hanno distribuzione gaussiana con media = m0i + m1i ∗ Yij−1 e varianza = 0.5, ∀i, j . In questo caso, come si nota dalla Figura 3.8, ho simulato gli αij da due gruppi differenti, quindi ci si aspetta che la distribuzione a posteriori di Kn sia concentrata sul valore 2. Figura 3.8: Distribuzione degli αij : a sinistra scegliendo m0 = 1 e m1 = 0.3, a destra scegliendo m0 = −1 e m1 = −0.2 56 CAPITOLO 3. SIMULAZIONI La Figura 3.9 riporta gli intertempi simulati in scala logaritmica per i diversi pazienti. Figura 3.9: Istogramma degli intertempi simulati secondo le specifiche di Simulazione 2 Come per la prima simulazione, i risultati che otteniamo, variando la funzione f , sono molto simili tra loro. Per semplicità riportiamo quindi i grafici relativi ad un’unica scelta di f , in particolare qui scegliamo f (Wi1 , Wi2 , .., Wik ) = Wi1 ·Wi2k ·..·Wik . 3.2. DATASET SIMULATO 2 3.2.1 57 Inferenza su m0 Figura 3.10: Densità a posteriori di m0 Dalla Figura 3.11 si nota che, la distribuzione del parametro m0 per un nuovo paziente è concentrata sui valori -1 ed 1.Tale risultato conferma le nostre aspettative questo poichè 100 pazienti sono stati simulati scegliendo m0 = 1 e gli altri 100 pazienti scegliendo m0 = −1. 58 3.2.2 CAPITOLO 3. SIMULAZIONI Inferenza su m1 Figura 3.11: Densità a posteriori di m1 Si osserva che la densità a posteriori di m1 è concentrata sui valori 0.3 e -0.2, questo perchè 100 pazienti sono stati simulati scegliendo m1 = 0.3 e gli altri 100 pazienti scegliendo m1 = −0.2. 3.2.3 Inferenza sul numero di cluster Kn Anche l’inferenza sul numero dei cluster conferme le nostre aspettative, infatti la densità a posteriori di Kn è concentrata sul 2. 3.2. DATASET SIMULATO 2 59 Figura 3.12: Densità a posteriori di Kn 3.2.4 Diagnostica di convergenza I traceplot e le autocorrelazioni sono simili al dataset 1 e per tal motivo non li riportiamo. Dunque non si può escludere che la catena sia giunta a convergenza. 60 3.3 CAPITOLO 3. SIMULAZIONI Dataset simulato 3 I dati sono simulati dal modello introdotto nel Capitolo 2, in modo indipendente, scegliendo: βj = 1 ∀j σ=1 αij ∼ N (m0i + m1i ∗ Yij−1 , 0.5) ∀i, j Per 100 pazienti m0i = 1 e m1i = 0.3 per gli altri 100 pazienti m0i = −1 e m1i = −0.2 J =5 n = 200 iid xi ∼ N (0, 1) 3.3. DATASET SIMULATO 3 61 Quindi le variabili Yij sono state simulate da una gaussiana di media xi + αij e varianza pari a 1, ∀ i, j = 1, ..., J mentre le variabili αij hanno distribuzione gaussiana con media = m0i + m1i ∗ Yij−1 e varianza = 0.5, ∀i, j. In quest’ ultima simulazione i dati sono stati generati da due gruppi differenti, inoltre sono state introdotte anche le covariate xi . La Figura 3.16 riporta gli intertempi simulati in scala logaritmica per i diversi pazienti. Figura 3.13: Istogramma degli intertempi simulati secondo le specifiche di Simulazione 3 62 CAPITOLO 3. SIMULAZIONI Scegliendo per il primo gruppo di pazienti m0 = 1 e m1 = 0.3 e per il secondo gruppo m0 = −1 e m1 = −0.2 si ottengono i seguenti risultati per la distribuzione di alpha: Figura 3.14: Distribuzione degli αij : a sinistra scegliendo m0 = 1 e m1 = 0.3, a destra scegliendo m0 = −1 e m1 = −0.2 Valgono le stesse considerazioni fatte per le due simulazioni precedenti per quanto riguarda la scelta di f . In quest’ultimo caso riportiamo le analisi ottenute con f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2k+..+Wik . 3.3. DATASET SIMULATO 3 3.3.1 63 Inferenza su m0 Figura 3.15: Densità a posteriori di m0 In quest’ ultima analisi il dataset da cui sono state fatte le simulazione è più complesso, le stime quindi risultano più difficili. Nonostante ciò, osserviamo che la distribuzione del parametro m0 per un nuovo paziente è costituita da due gobbe concentrate sui valori -1 ed 0.8(∼ 1), questo poichè 100 pazienti sono stati simulati scegliendo m0 = 1 e gli altri 100 pazienti scegliendo m0 = −1. 64 3.3.2 CAPITOLO 3. SIMULAZIONI Inferenza su m1 Figura 3.16: Densità a posteriori di m1 La densità a posteriori di m1 è concentrata sui valori 0.2 (∼ 0.3) e -0.2, questo perchè 100 pazienti sono stati simulati scegliendo m1 = 0.3 e gli altri 100 pazienti scegliendo m1 = −0.2. 3.3. DATASET SIMULATO 3 3.3.3 65 Inferenza sul numero di cluster Kn Figura 3.17: Densità a posteriori di Kn Dall’ inferenza sul numero dei cluster si deduce che i pazienti possono appartenere a due gruppi (con una probabilità ∈ (0.2,0.3)), a tre gruppi (con una probabilità ∈ (0.4,0.5)) oppure a 4 gruppi (con una probabilità pari a 0.2). In quest’ultimo caso JAGS tende a sovrastimare il numero dei cluster. 3.3.4 Diagnostica di convergenza Valgono le stesse considerazioni fatte per le simulazioni precedenti per quanto riguarda la convergenza della catena: la catena è giunta a convergenza infatti i traceplot sono molto fitti e l’ autocorrelazione è bassa. 66 3.4 CAPITOLO 3. SIMULAZIONI Confronto dei risultati Quindi osserviamo che i risultati ottenuti per i vari dataset simulati non sono influenzati dalla funzione f che viene scelta nel modello. Inoltre notiamo che le stime trovate per le diverse simulazioni confermano le nostre aspettative: in tutti e tre i casi sia le distribuzioni marginali di G0 per un nuovo paziente sia il numero di cluster sono come ci aspettavamo. Capitolo 4 Analisi su dataset dei packages di R Vediamo ora come il modello descritto nel Capitolo2 possa essere impiegato per analizzare un dataset ben noto in letteratura, presente in un package di R (frailtypack). Tale dataset contiene i tempi di riospedalizzazione dei pazienti a cui è stato diagnosticato un cancro al colon. I dati, presi dal dataset readmmision, descrivono il tempo (in giorni) dei successivi ricoveri dopo la data di intervento chirurgico; un totale di 861 eventi sono stati registrati per i 403 pazienti inclusi nell’analisi. I dati che abbiamo a disposizione sono (vedi Figura 4.1): • id: identificatore dei pazienti • time start: tempo in cui il soggetto è entrato nell’analisi o momento in cui si è verificato l’evento precedente • time stop: momento in cui si verifica l’evento di ospedalizzazione • time: tempo tra due eventi, misurato in giorni • chemo: variabile binaria che indica se il paziente ha ricevuto o meno la chemioterapia • sex: variabile binaria che indica il sesso del paziente (sex=1 se il paziente è uomo, sex=2 se il soggetto è donna); 67 68 CAPITOLO 4. ANALISI SU DATASET DEI PACKAGES DI R • dukes: variabile categoriale che indica lo stadio del tumore (1= stage A-B o 2=stage C o 3= stage D); al crescere del valore della variabile dukes cresca la gravità del tumore; • death: variabile binaria che indica la sopravvivenza del paziente (death=1 se il paziente è morto, death = 0 altrimenti) • event: variabile binaria che indica la censura del dato (event = 0 se il dato è censurato, event = 1 altrimenti) • charlson: variabile categoriale che corrisponde all’indice della comorbidità di Charlson, può assumere i valori 0, 1-2, 3. Figura 4.1: Estratto dal dataset "readmission" 4.1. IL MODELLO BAYESIANO 4.1 69 Il modello bayesiano Seguendo la notazione del Capitolo 2, Wij rappresenta l’intertempo del jesimo evento per il paziente i. Consideriamo il seguente vettore di covariate x := (x1 i, x2 i, x3 i, x4i (j)) con: • x1i = chemo • x2i = sex • x3i = dukes • x4i (j) = charlson Quindi il modello diventa: Yi1 =: logWi1 = x1i β1 + x2i β2 + x3i β3 + x4i (1)β41 + σεi1 Yij =: logWij = x1i β1 + x2i β2 + x3i β3 + x4i (j)β4j + αij + σεij j = 1, · · · n j = 2, · · · Ji iid con εij ∼ N (0, 1) e con Ji che indica il numero di eventi osservati per ogni paziente, in questo caso J non è costante ma varia fra i vari individui. Qui n = 403. Si assume che, condizionatamente ai parametri, i vettori Yi = (Yi1 , Yi2 , . . . , YiJi ) sono indipendenti. La tabella seguente contiene il numero di pazienti con j intertempi, con j = 2,..,23. Osserviamo che nell’ analisi non verranno considerati i pazienti con j = 1, cioè i pazienti per i quali osservo un solo evento. j n.paz. 2 3 4 5 6 7 8 9 10 11 12,..,15 150 21 15 8 4 0 1 1 1 1 0 16 17,...,22 23 1 0 1 Tabella 4.1: Numero di pazienti con j intertempi, con j = 2,..,8 70 CAPITOLO 4. ANALISI SU DATASET DEI PACKAGES DI R Per quanto riguarda la prior assumiamo che i blocchi (in θ) β, σ, (α1 , ..., αn ) siano indipendenti e che abbiano le seguenti distribuzioni: σ ∼ U (0, 10) 0 0 β ∼ N , 1000I , 0 0 dove β = (β1 , β2 , β3 , β4 ) e β4 = (β41 , β42 , . . . , β423 ) ind αij | mi0 , mi1 , τ ∼ N (mi0 + mi1 logf (...), τ 2 ) iid mi0 , mi1 | G ∼ G G ∼ DP (M, G0 ) τ 2 ∼ inv-gamma(5, 1) M =1 G0 = N (0, 10) × L(Z) dove Z = 2X − 1, con X ∼ Beta(3, 3) In questo capitolo confronteremo due possibili scelte per f : • f (Wi1 , Wi2 , .., Wik ) = Wik • f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2 +..+Wik k 4.2. ANALISI DEI DATI 4.2 71 Analisi dei dati Nella Figura 3.2 è rappresentato l’istogramma degli intertempi tra cui si verificano due eventi per i diversi pazienti nel dataset considerato. Figura 4.2: Istogramma degli intertempi in scala logaritmica 72 CAPITOLO 4. ANALISI SU DATASET DEI PACKAGES DI R Analizzeremo le inferenze a posteriori per ogni possibile scelta di f (Wi1 , Wi2 , .., Wik ): • f (Wi1 , Wi2 , .., Wik ) = Wik • f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2 +..+Wik k monitorando la distribuzione a posteriori di m0 new , la distribuzione a posteriori di m1 new e la distribuzione a posteriori di Kn , cioè il numero di valori distinti di (mi0 , mi1 ) del campione dal processo di Dirichlet G. Successivamente ci concentreremo sulle covariate: mostreremo gli intervalli di credibilità a posteriori per β1 , β2 , β3 , β4 e controlleremo la convergenza. 4.3 Inferenza su mnew 0 , mnew 1 , Kn Come per il capitolo 3, la scelta della funzione f non influenza i risultati che si ottengono per le stime a posteriori di m0 , m1 , Kn . Riportiamo quindi per semplicità i grafici relativi ad un’unica scelta di f . 4.3. INFERENZA SU M0N EW , 4.3.1 M1N EW , KN 73 Inferenza su m0 Figura 4.3: Densità a posteriori di m0 ,con f (Wi1 , Wi2 , .., Wik ) = Wik La distribuzione del parametro m0 per un nuovo paziente è concentrata sul valore 5. 74 CAPITOLO 4. ANALISI SU DATASET DEI PACKAGES DI R 4.3.2 Inferenza su m1 Figura 4.4: Densità a posteriori di m1 ,con f (Wi1 , Wi2 , .., Wik ) = Wik La distribuzione del parametro m1 è costituita da due gobbe concentrate attorno allo 0. 4.3. INFERENZA SU M0N EW , 4.3.3 M1N EW , KN 75 Inferenza su K Figura 4.5: Densità a posteriori di Kn ,con f (Wi1 , Wi2 , .., Wik ) = Wik Dall’inferenza sul numero dei cluster si deduce che i pazienti possono appartenere a 3 , a 4 oppure (anche se con bassa probabilità) a 5 gruppi. 76 CAPITOLO 4. ANALISI SU DATASET DEI PACKAGES DI R 4.4 Inferenza sui parametri di regressione Analizzeremo le inferenze per i parametri di regressione corrispondenti a covariate che non variano fra gli intertempi, cioè: • x1 = chemo • x2 = sex • x3 = dukes 4.4.1 Diagnostica di convergenza Per prima cosa effettuiamo un’analisi di convergenza studiando l’ autocorrelazione, i trace plot e i valori della statistica di Geweke. Esaminando tali output per (β1 , β2 , β3 ), sembra che la catena sia giunta a convergenza. Infatti l’autocorrelazione (Figura 4.6) è sotto una soglia accettabile, i trace plot (Figura 4.7) sono molto fitti e gli z-scores (Figura 4.8) si collocano nell’ intervallo [-2,2]. Figura 4.6: ACF plot di β1 = chemo, β2 = sex, β3 = dukes 4.4. INFERENZA SUI PARAMETRI DI REGRESSIONE Figura 4.7: Trace plot di β1 = chemo, β2 = sex, β3 = dukes Figura 4.8: Geweke plot di β1 = chemo, β2 = sex, β3 = dukes 77 78 CAPITOLO 4. ANALISI SU DATASET DEI PACKAGES DI R 4.4.2 Intervalli di credibilità a posteriori Analizziamo ora gli intervalli di credibilità marginali a posteriori per β1 β2 β3 , in modo da comprendere in che modo le covariate influenzano la variabile riposta. Dagli intervalli di credibilità (Tabella4.1) e dalla densità a posteriori delle covariate (Figura 4.10) emerge che: • β1 , cioè la variabile binaria che indica se il paziente ha ricevuto o meno la chemioterapia, non è significativa, perchè il valore 0 è un valore centrale della marginale a posteriori di β1 , • gli individui di sesso maschile sono più soggetti a riospedalizzazioni, • con l’aggravarsi dello stato del tumore si riducono gli intervalli temporali tra due ospedalizzazioni. Figura 4.9: Densità a posteriori di β1 = chemo, β2 = sex, β3 = dukes 4.4. INFERENZA SUI PARAMETRI DI REGRESSIONE beta1 beta2 beta3 79 Media Varianza 2,5 % 50 % 97,5 % -0.06468058 0.03944328 -0.4431969 -0.07158258 0.33840297 0.78545876 0.03564588 0.4202558 0.78314897 1.15384879 -0.34811612 0.01764422 -0.6078303 -0.34770471 -0.08244171 Tabella 4.2: Intervalli di credibilità marginali a posteriori per β1 , β2 , β3 4.4.3 Confronto dei risultati Tali risultati possono essere confrontati con le stime ottenute attraverso lo "Shared frailty model", contenuto nel pacchetto frailtypack di R da cui sono stati presi i dati. Questo modello è molto utile quando le osservazioni sono clusterizzate in gruppi o quando le osservazioni sono degli eventi ricorrenti. Nel seguito, useremo la terminologia per gli eventi ricorrenti introdotta nel primo capitolo. Per il j − esimo (j = 1, ..., ni ) individuo del gruppo i − esimo (i = 1, ..., N ), siano Wij gli eventi ricorrenti in fase di studio, Cij i tempi censurati a destra e Lij i tempi di troncamento a sinistra. Definiamo le osservazioni Yij pari a min(Wij , Cij ) e gli indicatori di censura δij = I{Yij =Wij } . La funzione di rischio per il shared frailty model è hij (w|vi ) = vi h0 (w)exp(βXij ) (4.1) dove h0 (t) è la funzione di rischio base, Xij è il vettore delle covariate associato al vettore dei parametri di regressione β, e vi è l’ effetto casuale associato al gruppo i-esimo. Assumiamo che vi siano i.i.d. da una gamma: vi ∼ Γ( 1θ , 1θ ). 80 CAPITOLO 4. ANALISI SU DATASET DEI PACKAGES DI R La log-verosimiglianza ha la seguente formulazione analitica: l(h0 , β, θ) = ni N n h X X i=1 + δij ln hij (Yij ) i j=1 1 h ln 1 + θ θ ni X j=1 Hij (Lij ) i − 1 θ + mi + I{ mi 6= 0} ni h i X ln 1 + θ Hij (Yij ) j=1 mi X o ln 1 + θ(mi − k) j=1 (4.2) dove H0 (t) è la funzione di rischio cumulata base e mi è il numero degli eventi ricorrenti. Stima dei parametri attraverso lo Shared frailty model Notiamo che per alcuni soggetti si verificano diverse ricadute. Logicamente, possiamo immaginare che una correlazione all’interno dei tempi di ricaduta potrebbe esistere. Le righe seguenti corrispondono al codice R: 4.4. INFERENZA SUI PARAMETRI DI REGRESSIONE 81 Con la funzione print possono essere rappresentate le stime dei parametri dei modelli. In questo output possiamo leggere: • coef: coefficienti di regressione • exp(coef): Hazard ratios. • SE coef (H): Errore standard stimato invertendo la matrice Hessiana. • SE coef (HIH): Errore standard stimato utilizzando il prodotto tra matrici H −1 IH −1 dove H −1 è l’inverso della matrice Hessiana e I è la matrice dell?informazione di Fisher. • z: Statistica di Wald • p: p value, che è la probabilità P (| z |> 1.96). Se p <0.05, la covariata è significativamente diversa da 0. 82 CAPITOLO 4. ANALISI SU DATASET DEI PACKAGES DI R La varianza del termine fragilità θ è significativamente diversa da 0, il che significa che vi è eterogeneità tra i soggetti. Possiamo dedurre questo utilizzando un test di Wald modificato. Inoltre abbiamo un valore di p < 0,05 per le covariate dukes = 3, Charlson = 3 e per il sesso. Questo suggerisce l’esistenza di un rischio più elevato di essere riospedalizzati per gli uomini con lo stato di Dukes pari a 3 e un indice di Charlson a 3. Il p-value corrispondente a chemo è > 10 %, cioè la covariate chemo non è significativa. Osserviamo quindi che tali risultati coincicono con le stime che erano state trovate attraverso il nostro modello. Capitolo 5 Analisi sui dati reali 5.1 Costruzione del Dataset Il dataset è costituito da 1391 pazienti a rischio di infezione urinarie. Ogni soggetto effettua diversi controlli ospedalieri, ognuno dei quali è caratterizzato da una variabile W BC che indica se il paziente è infetto (W BC > 0) o meno (W BC = 0). Riprendendo quindi la notazione del Capitolo 2, definiamo, ∀i, con Ti0 il tempo della prima visita per cui la variabile W BC è maggiore di zero. Stabilire i tempi degli eventi successivi è più complesso. Vediamo innanzitutto come stabilire il tempo Ti1 . Consideriamo i controlli ospedalieri successivi al tempo Ti0 e ci fermiamo quando troviamo una visita in cui W BC = 0. Consideriamo ora i controlli ospedalieri successivi a tale visita e ci fermiamo quando troviamo una visita in cui W BC > 0. Possiamo quindi definire Ti1 come il tempo di questo controllo. Definiamo Ti2 in modo analogo: consideriamo i controlli ospedalieri successivi al tempo Ti1 e ci fermiamo quando troviamo una visita in cui W BC = 0. Consideriamo ora i controlli ospedalieri successivi a tale visita e ci fermiamo quando troviamo una visita in cui W BC > 0. Possiamo quindi definire Ti2 come il tempo di questo controllo. Iteriamo tale ragionamento per tutti i tempi successivi. 83 84 CAPITOLO 5. ANALISI SUI DATI REALI Questo procedimento è chiaro se consideriamo la Figura 5.1 e la Figura 5.2 in cui sono rappresentati i tempi delle visite ospedaliere per due pazienti scelti in modo arbitrario. In rosso sono rappresentati i controlli ospedalieri in cui i soggetti sono sani (W BC = 0), mentre in verde sono evidenziate le visite mediche in cui il soggetto presenta un’infezione, al contrario della visita medica precedente in cui risultava sano, ossia le visite mediche che indicano una nuova infezione. Figura 5.1: Rappresentazione degli eventi per un generico paziente i 5.1. COSTRUZIONE DEL DATASET 85 Figura 5.2: Rappresentazione degli eventi per un generico paziente i Ora possiamo quindi definire gli intertempi Wij = Tij − Tij−1 . Durante tutte le analisi abbiamo considerato soltanto i pazienti con almeno due intertempi, il dataset si è quindi ridotto e risulta costituito da n= 305 pazienti. La tabella 5.1 contiene il numero di pazienti con j intertempi, con j = 2,..,9. j 2 3 4 5 6 7 8 9 numero pazienti 121 89 54 21 10 6 2 3 Tabella 5.1: Numero di pazienti con j intertempi, con j = 2,..,9 86 CAPITOLO 5. ANALISI SUI DATI REALI Osserviamo inoltre che tra la Figura 5.1 e la Figura 5.2 si nota una differenza: il paziente rappresentato nel primo grafico risulta infetto nell’ultimo controllo mentre il paziente rappresentato nel secondo grafico è sano. Abbiamo quindi introdotto i dati censurati per tutti quei paziente che nell’ultimo controllo non avevano un’infezione, infatti sappiamo solo che il nuovo intertempo è maggiore del tempo che intercorre tra l’ultima visita e l’ultima infezione. Il numero di pazienti il cui ultimo dato è censurato sono 85, invece per i rimanenti 220 soggetti l’ultimo dato non risulta censurato. 5.2 Il modello bayesiano Basandoci sul modello introdotto nel Capitolo 2, definiamo: ∀i = 1, · · · , n Yi1 =: logWi1 = x1i (1)β11 + x2i (1)β21 + x3i (1)β31 + x4i (1)β41 + x5i (1)β51 + σεi1 Yij =: logWij = x1i (j)β1j +x2i (j)β2j +x3i (j)β3j +x4i (j)β4j +x5i (j)β5j +αij +σεij , j = 2, · · · Ji con ind εij ∼ N (0, 1) Si assume che, condizionatamente ai parametri, i vettori Yi = (Yi1 , Yi2 , . . . , YiJi ) sono indipendenti. Considerando le varie covariate xki (j), k = 1, · · · , 5, i = 1, · · · , n, j = 1, · · · , 9, osserviamo che l’indice k indica le diverse covariate, l’indice i si riferisce ai vari pazienti ed infine l’indice j è necessario per individuare l’intertempo in cui ci troviamo. Le covariate x1i (j), x2i (j), x3i (j), x4i (j), x5i (j), come già evidenziato prima, variano fra i vari intertempi. x1i (j) indica l’età standardizzata del paziente i-esimo, nell’intertempo jesimo; mentre le altre covariate x2i (j), x3i (j), x4i (j), x5i (j), che assumo valori 5.2. IL MODELLO BAYESIANO 87 0 − 1, si riferiscono ai diversi sintomi che il paziente può o meno presentare. Ossia: • x2i (j) = urgency, indica se il paziente i-esimo, nell’intertempo j-esimo ha attivi sintomi del tipo "urgenza", • x3i (j) = pain, indica se il paziente i-esimo, nell’intertempo j-esimo ha attivi sintomi del tipo "dolore", • x4i (j) = stress incontinence, indica se il paziente i-esimo, nell’intertempo j-esimo ha attivi sintomi del tipo "incontinenza da stress", • x5i (j) = voiding, indica se il paziente i-esimo, nell’intertempo j-esimo ha attivi sintomi del tipo "svuotamento". E’ necessario studiare la dipendenza fra le varie covariate, in modo tale da vedere se è possibile escluderne qualcuna. Dovremmo fare una scelta delle covariate mettendo una prior di tipo spike and slab per le varie covariate, ma non lo facciamo, da un lato, per motivi di tempo; dall’altro perchè la catena markoviana prodotta da JAGS sarebbe poco efficiente. Dunque per tutte le covariate sono stati effettuati dei test χ2 di indipendenza a coppie. In questo test l’ipotesi nulla indica che le covariate sono indipendenti, quindi se si ottiene un p-value minore del livello di significatività 0.05 vuol dire che le covariate sono tra loro dipendenti. Dalla Tabella 5.2 ,in cui sono indicati i p-value che si ottengono facendo dei test a coppie fra le varie covariate (x2i (j), x3i (j), x4i (j), x5i (j)) , emerge che: • x2i (j) e x3i (j) sono indipendenti, • x3i (j) e x4i (j) sono indipendenti, • x5i (j) dipende da tutte le altre covariate (x2i (j), x3i (j), x4i (j)). 88 CAPITOLO 5. ANALISI SUI DATI REALI x2 = urgency x3 = pain x4 = stress x5 = voiding x2 = urgency 0.0846 1.264·10−5 0.01388 x3 = pain 0.0846 0.7725 3.291·10−5 x4 = stress 1.264·10−5 0.7725 2.731·10−5 x5 = voiding 0.01388 3.291·10−5 2.731·10−5 - Tabella 5.2: P-value ottenuti dai test χ2 di indipendenza a coppie fra le varie covariate Quindi x5 può essere eliminata e il vettore di covariate si riduce: • x1i (j) = age • x2i (j) = urgency • x3i (j) = pain • x4i (j) = stress Per quanto riguarda la prior assumiamo che i blocchi (in θ) β, σ, (α1 , ..., αn ) siano indipendenti e che abbiano le seguenti distribuzioni: σ ∼ U (0, 10) 0 0 , 1000I , β ∼N 0 0 dove β = (β1 , β2 , β3 , β4 ) e βk = (βk1 , βk2 , . . . , βk9 ), k = 1, . . . , 4 5.2. IL MODELLO BAYESIANO 89 ind αij | mi0 , mi1 , τ ∼ N (mi0 + mi1 logf (...), τ 2 ) iid mi0 , mi1 | G ∼ G G ∼ DP (M, G0 ) τ 2 ∼ inv-gamma(5, 1) M =1 G0 = N (0, 10) × L(Z) dove Z = 2X − 1, con X ∼ Beta(3, 3) Anche in questo capitolo confronteremo due possibili scelte per f : • f (Wi1 , Wi2 , .., Wik ) = Wik • f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2 +..+Wik k 90 5.3 CAPITOLO 5. ANALISI SUI DATI REALI Analisi dei dati Nella Figura 5.3 è rappresentato l’istogramma degli intertempi tra cui si verificano due eventi per i diversi pazienti nel dataset considerato. Figura 5.3: Istogramma degli intertempi in scala logaritmica 5.3. ANALISI DEI DATI 91 Analizzeremo le inferenze a posteriori per ogni possibile scelta di f (Wi1 , Wi2 , .., Wik ): • f (Wi1 , Wi2 , .., Wik ) = Wik • f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2 +..+Wik k monitorando la distribuzione a posteriori di m0 new , la distribuzione a posteriori di m1 new e la distribuzione a posteriori di Kn , cioè il numero di valori distinti di (mi0 , mi1 ) del campione dal processo di Dirichlet G. Successivamente ci concentreremo sulle covariate: mostreremo gli intervalli di credibilità a posteriori per β1 , β2 , β3 , β4 e controlleremo la convergenza. Passeremo poi ad analizzare la significatività di mi1 utilizzando il metodo Stochastic search variable selection prior (SSVS ). Per tutte le simulazioni di questo capitolo, tramite JAGS, sono state eseguite 10.000 iterazioni di burn-inn, con thinning pari a 50, per un final sample size di 5.000 iterazioni. 92 5.4 CAPITOLO 5. ANALISI SUI DATI REALI Inferenza su mnew 0 , mnew 1 , Kn Come per i capitoli precedenti, la scelta della funzione f non influenza i risultati che si ottengono per le stime a posteriori di m0 , m1 , Kn . Riportiamo quindi per semplicità i grafici relativi ad un’unica scelta di f , per questo capitolo è stata scelta f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2k+..+Wik . 5.4.1 Inferenza su m0 Figura 5.4: Densità a posteriori di m0 ,con f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2 +..+Wik k La distribuzione del parametro m0 , cioè la distribuzione della prima componente di G0 , per un nuovo paziente è concentrata sul valore 5.5 . 5.4. INFERENZA SU M0N EW , 5.4.2 M1N EW , KN 93 Inferenza su m1 Figura 5.5: Densità a posteriori di m1 ,con f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2 +..+Wik k La distribuzione del parametro m1 , cioè la distribuzione della seconda componente di G0 , è concentrata sul valore 0.1. Questi risultati indicano che, sia il parametro m0 , che il parametro m1 influenzano la variabile risposta, poichè la densità a posteriori non include lo 0. 94 5.4.3 CAPITOLO 5. ANALISI SUI DATI REALI Inferenza su K Figura 5.6: Densità a posteriori di Kn ,con f (Wi1 , Wi2 , .., Wik ) = Wi1 +Wi2 +..+Wik k Dall’inferenza sul numero dei cluster si deduce che i pazienti possono appartenere a 2 gruppi oppure, con minore probabilità, ad un unico gruppo. 5.5. INFERENZA SU τ 2 E SU σ 5.5 95 Inferenza su τ 2 e su σ In questa sezione analizziamo innanzitutto la posterior di σ, ossia la deviazione standard della variabile risposta. Ricordiamo infatti che: Yi1 |β1 , σ ∼ N (xi β1 , σ 2 ) Yij |Yi1 , .., Yij−1 , βj , σ, αij ∼ N (xi βj + αij , σ 2 ) Figura 5.7: Densità a posteriori di σ Dalla Figura 5.7 si nota che il supporto della posterior di σ è [0, 0.8] e tale densità è concentrata prevalentemente nell’intervallo [0.5, 0.8]. 96 CAPITOLO 5. ANALISI SUI DATI REALI Vediamo ora la posterior di τ 2 , ossia la varianza dei parametri αij , infatti: ind αij | mi0 , mi1 , τ ∼ N (mi0 + mi1 logf (...), τ 2 ) con τ 2 ∼ inv-gamma(5, 1) Figura 5.8: Densità a posteriori di τ 2 Dal grafico precedente, in cui sono riportate la prior (in blu) e la posterior (in rosso) di τ 2 , si nota che il supporto delle due densità è equivalente e i due grafici sono pressochè sovrapponibili. 5.6. INFERENZA SUI PARAMETRI DI REGRESSIONE 5.6 97 Inferenza sui parametri di regressione Analizziamo ora le inferenze per i parametri di regressione corrispondenti alle varie covariate: • x1i (j) = age • x2i (j) = urgency • x3i (j) = pain • x4i (j) = stress 5.6.1 Diagnostica di convergenza In modo analogo al capitolo precedente, come prima cosa effettuiamo un’analisi di convergenza studiando l’autocorrelazione, i trace plot e i valori della statistica di Geweke. Esaminando i vari output per β1 , β2 , β3 , β4 non si può escludere che la catena sia giunta a convergenza. Infatti l’autocorrelazione è bassa, i trace plot sono molto fitti e gli z-scores si collocano nell’ intervallo [-2,2]. Vi sono dei grafici anomali per quanti riguarda l’ottavo e il nono intertempo poichè i dati a disposizione per questi due intertempi sono pochi (infatti abbiamo 2 pazienti con j = 8 e 3 soggetti con j = 9). Per semplicità riportiamo i grafici relativi soltanto ad un parametro di regressione: per l’autocorrelazione consideriamo β2 , utilizziamo i trace plot relativi a β1 ed infine usiamo i Geweke plot del parametro β4 . 98 CAPITOLO 5. ANALISI SUI DATI REALI Figura 5.9: ACF plot di β2 Figura 5.10: Trace plot di β1 5.6. INFERENZA SUI PARAMETRI DI REGRESSIONE 99 Figura 5.11: Geweke plot di β4 5.6.2 Intervalli di credibilità a posteriori In questa sezione studiamo gli intervalli di credibilità marginali a posteriori per β1 , β2 , β3 , β4 , per comprendere in che modo le covariate influenzano la variabile riposta. Riportiamo gli intervalli ottenuti relativi alle varie β: • β1 , ossia il coefficiente che si riferisce all’età standardizzata dei pazienti. beta11 beta12 beta13 beta14 beta15 beta16 beta17 beta18 beta19 Media Varianza 0.067 0.002 -0.077 0.002 0.052 0.004 0.052 0.010 0.278 0.024 -0.179 0.066 0.350 0.235 13.086 121.944 -22.476 923.972 2,5 % 50 % 97,5 % -0.028 0.067 0.161 -0.173 -0.077 0.015 -0.075 0.052 0.181 -0.066 0.123 0.320 -0.021 0.277 0.582 -0.699 -0.181 0.313 -0.617 0.355 1.295 -1.586 10.642 38.079 -88.649 -19.102 28.652 Tabella 5.3: Intervalli di credibilità marginali a posteriori per β1 100 CAPITOLO 5. ANALISI SUI DATI REALI Rappresentando graficamente gli intervalli di credibilità marginali a posteriori per β1 si può vedere come varia l’influenza dell’età fra i vari intertempi. Non consideriamo per questa analisi j = 8 e j = 9 perchè, avendo a disposizione pochi pazienti per questi intertempi, la varianza degli intervalli di credibilità è elevata. Figura 5.12: Intervalli di credibilità marginali a posteriori per β1 Innanzitutto si nota che al crescere del numero dell’intertempo aumenta l’ampiezza dell’intervallo di credibilità, questo poichè il numero dei pazienti diminuisce e quindi c’è maggiore variabilità. Inoltre si osserva che in tutti gli intervalli è contenuto lo zero, però esiste una differenza fra i vari intertempi: alcuni intervalli contengono maggiormente valori 5.6. INFERENZA SUI PARAMETRI DI REGRESSIONE 101 positivi, mentre altri sopratutto valori negativi. Quindi se consideriamo l’intertempo j = 2 e l’intertempo j = 6, i cui intervalli di credibilità contengono soprattutto valori negativi, avremo che, considerando un generico soggetto i, al crescere dell’età del paziente si riduce il tempo di attesa tra un’infezione e la successiva. Al contrario, se consideriamo l’intertempo j = 1, l’intertempo j = 3, l’intertempo j = 4, l’intertempo j = 5 e l’intertempo j = 7, al crescere dell’età del paziente aumenta il tempo di attesa tra un’infezione e la successiva. Riportiamo anche la densità a posteriori per β1 , che conferma le analisi precedenti: Figura 5.13: Densità a posteriori di β1 102 CAPITOLO 5. ANALISI SUI DATI REALI • β2 , ossia il coefficiente che si riferisce alla covariata che indica se il sintomo urgenza è attivo nei diversi pazienti. beta11 beta12 beta13 beta14 beta15 beta16 beta17 beta18 beta19 Media Varianza 0.245 0.011 0.077 0.008 -0.006 0.013 -0.006 0.027 0.437 0.134 0.559 0.286 -0.093 0.873 -9.508 58.097 -0.521 1006.553 2,5 % 0.037 -0.096 -0.227 -0.169 -0.305 -0.461 -1.912 -26.744 -62.835 50 % 97,5 % 0.245 0.449 0.076 0.254 -0.008 0.220 0.164 0.484 0.441 1.136 0.553 1.629 -0.105 1.730 -7.906 0.859 -0.392 61.631 Tabella 5.4: Intervalli di credibilità marginali a posteriori per β2 Rappresentando graficamente gli intervalli di credibilità marginali a posteriori per β2 si può vedere come la seconda covariata influenza la variabile risposta nei vari intertempi. Anche in questo caso non consideriamo l’intertempo j = 8 e j = 9 perchè, avendo a disposizione pochi pazienti per questi intertempi, la varianza degli intervalli di credibilità è elevata. 5.6. INFERENZA SUI PARAMETRI DI REGRESSIONE 103 Figura 5.14: Intervalli di credibilità marginali a posteriori per β2 Come per gli intervalli di credibilità marginali a posteriori per β1 si nota che al crescere del numero dell’intertempo aumenta l’ampiezza dell’intervallo di credibilità, questo poichè il numero dei pazienti diminuisce e quindi c’è maggiore variabilità. Inoltre si osserva che in tutti gli intervalli è contenuto lo zero, eccetto per l’intertempo j = 1. In questo caso gli intervalli contengono maggiormente valori positivi, questo vuol dire che per i pazienti che hanno attivo il sintomo del tipo urgenza aumenta il tempo che intercorre fra le varie infezioni. 104 CAPITOLO 5. ANALISI SUI DATI REALI • β3 , ossia il coefficiente che si riferisce alla covariata che indica se il sintomo dolore è attivo nei diversi pazienti. beta11 beta12 beta13 beta14 beta15 beta16 beta17 beta18 beta19 Media Varianza 0.021 0.009 -0.258 0.008 -0.195 0.014 -0.195 0.023 -0.581 0.102 0.398 0.099 0.916 0.344 10.436 79.376 8.588 868.091 2,5 % -0.164 -0.441 -0.424 -0.509 -1.201 -1.013 -0.170 -1.586 -44.789 50 % 97,5 % 0.019 0.208 -0.260 -0.077 -0.196 0.042 -0.205 0.084 -0.582 0.053 -0.398 0.200 0.888 2.140 8.489 30.495 6.830 74.579 Tabella 5.5: Intervalli di credibilità marginali a posteriori per β3 Rappresentando graficamente gli intervalli di credibilità marginali a posteriori per β3 si può vedere come la terza covariata influenza la variabile risposta nei vari intertempi. Per le stesse motivazione relative ai coefficienti precedenti non consideriamo l’intertempo j = 8 e j = 9. 5.6. INFERENZA SUI PARAMETRI DI REGRESSIONE 105 Figura 5.15: Intervalli di credibilità marginali a posteriori per β3 Come per gli intervalli di credibilità marginali a posteriori per β1 e per β3 , si nota che al crescere del numero dell’intertempo aumenta l’ampiezza dell’intervallo di credibilità, questo poichè il numero dei pazienti diminuisce e quindi c’è maggiore variabilità. Inoltre si osserva che in tutti gli intervalli è contenuto lo zero, eccetto per l’intertempo j = 2. Al contrario del caso precedente, qui gli intervalli contengono maggiormente valori negativi (escluso l’intertempo j = 7) questo vuol dire che i pazienti che hanno attivo il sintomo del tipo dolore hanno infezioni più frequenti. 106 CAPITOLO 5. ANALISI SUI DATI REALI • β4 , ossia il coefficiente che si riferisce alla covariata che indica se il sintomo incontinenza da stress è attivo nei diversi pazienti. beta11 beta12 beta13 beta14 beta15 beta16 beta17 beta18 beta19 Media Varianza -0.095 0.015 -0.159 0.013 0.120 0.027 0.120 0.052 -0.162 0.234 -0.786 0.331 -0.812 0.457 15.675 153.607 10.282 732.527 2,5 % 50 % 97,5 % -0.331 -0.094 0.143 -0.386 -0.158 0.061 -0.202 0.121 0.438 -0.465 -0.015 0.440 -1.140 -0.162 0.770 -1.894 -0.787 0.342 -2.141 -0.813 0.536 -0.554 12.864 43.859 -44.551 10.494 63.298 Tabella 5.6: Intervalli di credibilità marginali a posteriori per β4 Rappresentando graficamente gli intervalli di credibilità marginali a posteriori per β4 si può vedere come l’ultima covariata influenza la variabile risposta nei vari intertempi. Anche in quest’ultimo caso non consideriamo l’intertempo j = 8 e j = 9 per analoghe motivazioni relative ai casi precedenti. 5.6. INFERENZA SUI PARAMETRI DI REGRESSIONE 107 Figura 5.16: Intervalli di credibilità marginali a posteriori per β4 Come per tutti i grafici precedenti , si nota che al crescere del numero dell’intertempo aumenta l’ampiezza dell’intervallo di credibilità, questo poichè il numero dei pazienti diminuisce e quindi c’è maggiore variabilità. Inoltre si osserva che in tutti gli intervalli è contenuto lo zero; per l’intertempo j = 1, l’intertempo j = 2, l’intertempo j = 6 e l’intertempo j = 7 gli intervalli di credibilità sono concentrati su valori negativi, mentre per l’intertempo j = 3, l’intertempo j = 4 e l’intertempo j = 5 gli intervalli di credibilità sono piuttosto simmetrici rispetto lo zero. Quindi per pazienti che hanno attivo il sintomo del tipo incontinenza da stress l’intertempo tra un’infezione e la seguente si riduce se j = 1, j = 2, j = 6 oppure j = 7. 108 5.7 CAPITOLO 5. ANALISI SUI DATI REALI Stochastic search variable selection per mi1 Dopo aver analizzato l’influenza che le covariate hanno sulla variabile risposta, in questo paragrafo ci concentriamo sull’importanza della seconda componente di G0 . Per svolgere tale analisi è stato utilizzato il metodo Stochastic search variable selection (SSVS). In tale modello la prior delle covariate è una mistura di densità "spike" e "slab". La componente spike si concentra attorno allo zero e riflette l’assenza delle variabili nel modello, mentre la componente slab ha varianza sufficientemente grande per permettere ai coefficienti diversi da zero di assumere valori maggiori. Come componente spike è stata utilizzata una delta di Dirac concentrata sullo 0, mentre come componente "slab" è stata utilizzata una Beta traslata con supporto sull’intervallo [−1, 1]. La formulazione matematica è la seguente: G0 = N (0, 10) × L(Z) Z|γ ∼ (1 − γ)δ(0) + γS S = 2X − 1, con X ∼ Beta(3, 3) γ|w ∼ Bernulli(w) w ∼ U nif orme[0, 1] (5.1) 5.7. STOCHASTIC SEARCH VARIABLE SELECTION PER MI1 109 Con le scelte fatte precedentemente si ottiene la seguente densità a priori: Figura 5.17: Densità a priori di m1 Per selezionare le variabili è stata utilizzata la tecnica Median probability model (MPM). Tramite questa tecnica si selezionano le variabili per cui la probabilità a posteriori di inclusione nel modello è maggiore di 0.5. Poichè il livello di troncamento della rappresentazione di Sethuraman nell’analisi è pari a 50, avremo 50 valori per la probabilità a posteriori di inclusione di m1 nel modello. Osservando il grafico seguente si nota che, in generale, la probabilità a posteriori di inclusione è circa 0.5, quindi mi1 è significativa per prevedere la variabile risposta. 110 CAPITOLO 5. ANALISI SUI DATI REALI Figura 5.18: Probabilità a posteriori di inclusione di m1 Bibliografia Cook, R. J. e Lawless, J. F. (2007). The statistical analysis of recurrent events. Springer, New York. De Iorio, M., Johnson, W. O., Müller, P. e Rosner, G. L. (2009). Bayesian nonparametric nonproportional hazards survival modeling. In: Biometrics, 65, 762–771. Ferguson, T. S. (1973). A Bayesian analysis of some nonparametric problems. In: The Annals of Statistics, 1, 209–230. Jackman, S. (2009). Bayesian analysis for the social sciences. John Wiley & Sons. Müller, P. e Mitra, R. (2013). Bayesian nonparametric inference. In: Bayesian analysis, 8, Müller, P., Quintana, F. A., Jara, A. e Hanson, T. (2015). Bayesian Nonparametric Data Analysis. Springer, New York. Plummer, M. et al. (2003). JAGS: A program for analysis of Bayesian graphical models using Gibbs sampling. Proceedings of the 3rd international workshop on distributed statistical computing. Vol. 124. Technische Universit at Wien. Prentice, R. L., Williams, B. J. e Peterson, A. V. (1981). On the regression analysis of multivariate failure time data. In: Biometrika, 68, 373–379. Wang, M.-C., Qin, J. e Chiang, C.-T. (2001). Analyzing recurrent event data with informative censoring. In: Journal of the American Statistical Association, 96, 1057–1065. 111 112 Bibliografia Ringraziamenti Desidero ricordare tutti coloro che mi hanno aiutata nella stesura della tesi con suggerimenti, critiche ed osservazioni: a loro va la mia gratitudine. Ringrazio anzitutto la Professoressa Guglielmi, Relatore di questo lavoro, sempre disponibile a dirimere i miei dubbi durante la stesura. La sua guida e i suoi consigli mi hanno permesso di completare al meglio questo elaborato. Un ringraziamento particolare va alla Professoressa Maria De Iorio dell’University College London per i preziosi suggerimenti e le comunicazioni personali a cui non era obbligata. Infine ringrazio tutte le persone a me care: la mia famiglia e i miei amici. Un pensiero speciale va ai miei nonni e allo zio, che con il suo sorriso buono e rassicurante mi faceva intuire la sua gioia e il suo orgoglio per il percorso che avevo intrapreso e che stavo per concludere. Marta 113