Diss. ETH No. 21445 Causal Inference in High-Dimensional Systems A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented by DIEGO COLOMBO MSc ETH Mathematics born March 20, 1984 citizen of Bellinzona TI accepted on the recommendation of Prof. Dr. Marloes Maathuis, examiner Prof. Dr. Peter Bühlmann, co-examiner Prof. Dr. Thomas Richardson, co-examiner 2013 Abstract Causal inference is the understanding of cause-effect relationships between variables from observational data. However, from observational data alone we can determine associational quantities, such as correlations, but we cannot say anything about causality. Therefore, in order to estimate causal effects from observational data, we need to make assumptions on the data that we have observed. A commonly used assumption is to require that the data are faithful to an unknown directed acyclic graph (DAG), where the nodes represent the variables and the edges represent direct causal relationships. Under this assumption and requiring that there are no latent and selection variables, there is a method, called IDA, that estimates bounds on causal effects. This method is based on a two step approach. The first step consists of causal structure learning. Since in general it is not possible to identify the true underlying DAG uniquely from the data, it estimates the Markov equivalence class of the unknown DAG from the observational data using a constraint-based algorithm called PC. In the second step, it estimate (bounds on the) causal effects for the given Markov equivalence class using Pearl’s backdoor criterion. In Chapter 2, we study the IDA method and we present a validation on real data about a compendium of gene expression profiles of Saccharomyces cerevisiae. The assumption of no latent variables is often violated in practice. The aim of this thesis is therefore to generalize the IDA method to more general systems that allow the presence of latent and selection variables. The presence of such variables causes several problems on both steps of the xii Abstract method. Chapter 3 investigates the causal structure learning in the presence of latent and selection variables, focusing on the FCI algorithm. We found that FCI is computationally infeasible for large graphs. We therefore propose modifications of this algorithm to speed it up while remaining correct and we also introduce a new algorithm, called RFCI, which is much faster than FCI. Although RFCI can be slightly less informative than the other algorithms in some situations, we prove that any causal information in its output is correct in the asymptotic limit. Constraint-based causal structure learning algorithms are order-dependent when applied to data, in the sense that their outputs depend on the order in which the variables are given. In Chapter 4, we show that this orderdependence can lead to highly variable results in high-dimensional settings. We therefore propose simple modifications that remove part or all of this order-dependence. Finally, concerning the estimation of causal effects, we generalize in Chapter 5 Pearl’s backdoor criterion for directed acyclic graphs to more general types of graphs that describe Markov equivalence classes of DAGs with or without arbitrarily many latent variables (but no selection variables). We also give simple necessary and sufficient graphical criteria for the existence of a set of variables that satisfy our generalized backdoor criterion. Sommario L’ inferenza causale, basandosi su dati osservativi, mira alla scoperta di relazioni di causa-effetto tra variabili. Basandosi solamente su dati osservativi possono però essere calcolate unicamente grandezze di tipo associativo (come ad esempio le correlazioni), non invece di tipo causale. Ne consegue che, per essere in grado di stimare effetti causali partendo da dati osservativi risulta necessario proporre assunzioni sui dati che sono stati osservati. Un’assunzione ampiamente usata presuppone che i dati siano stati generati da un grafo diretto aciclico (DAG) sconosciuto, dove i nodi rappresentano le variabili e gli archi orientati rappresentano relazioni causali dirette. Tenendo in considerazione questa assunzione ed ipotizzando che il sistema sotto considerazione soddisfi l’ ipotesi di sufficienza causale, intesa come l’ assenza di variabili latenti e l’assenza di variabili che determinano se una data misurazione sia inclusa nei dati osservativi oppure no, esiste un metodo statistico chiamato IDA per stimare limiti su effetti causali. Questo metodo si struttura in due parti. La prima parte del metodo consiste nella ricostruzione della struttura causale. Data l’ impossibilità, in genere, di identificare univocamente il vero DAG che sta alla base dei dati, il metodo si occupa d’apprima di ricostruire, sulla base dei dati osservativi, la classe di equivalenza di Markov del DAG sconosciuto servendosi di un algoritmo che usa test di indipendenza condizionata chiamato PC. In un secondo momento, il metodo stima (limiti sugli) effetti causali per la classe di equivalenza di Markov in questione, usando il criterio di Pearl soprannominato “backdoor”. Al Capitolo 2 presentiamo dapprima il metodo IDA ed in seguito una conferma della sua efficacia su dati reali relativi ad una raccolta di analisi di espressione genica di Saccharomyces cerevisiae. xiv Sommario L’ ipotesi di sufficienza causale viene spesso violata specialmente in caso di utilizzo di dati reali. L’obiettivo principale di questa tesi risulta quindi essere la generalizzazione del metodo IDA a sistemi più generali che contemplino sia la presenza di variabili latenti, che di variabili che determinano se una data misurazione sia inclusa nei dati osservativi oppure no. La presenza di questi due tipi di variabili causa diversi problemi ad entrambe le parti del metodo IDA. Al Capitolo 3 indaghiamo il problema relativo alla ricostruzione della struttura causale quando questi due tipi di variabili sono presenti, soffermandoci in particolar modo sull’algoritmo chiamato FCI. Abbiamo scoperto che l’ algoritmo FCI necessita di un’ elaborazione computazionale eccessiva specialmente per grafi con molti nodi. Per questo motivo proponiamo anzitutto delle variazioni di questo algoritmo allo scopo di renderlo più veloce seppur mantenendolo corretto. Successivamente proponiamo un nuovo algoritmo, chiamato RFCI, notevolmente più veloce rispetto all’ algortimo FCI. Sebbene l’ algoritmo RFCI, in rapporto ad alcuni scenari, possa risultare meno informativo di altri, dimostriamo che ogni informazione causale contenuta nel grafo prodotto risulta corretta al limite asintotico. Tuttavia, questi algoritmi basati su test di indipendenza condizionata per la ricostruzione della classe di equivalenza di Markov dipendono dall’ ordine in cui le variabili sono immesse, specialmente quando si prendono in considerazione dati reali. Questo significa che il grafo stimato dipende dall’ordine in cui le variabili sono immesse negli algoritmi. Al Capitolo 4 dimostriamo che questa dipendenza dall’ordine delle variabili può generare risultati altamente variabili in sistemi dove il numero di variabili risulta di molto superiore al numero di osservazioni. Di conseguenza, proponiamo semplici ma efficaci variazioni in grado di eliminare, in parte o addirittura completamente, i problemi di dipendenza dall’ordine delle variabili. Al Capitolo 5 infine, per quanto riguarda la stima di effetti causali, il criterio “backdoor” di Pearl, inizialmente studiato per grafi diretti aciclici, viene generalizzato a tipi di grafi più generali che rappresentano comunque classi di equivalenza di Markov di DAGs con o senza variabili latenti (ma senza variabili che determinano se una data misurazione sia inclusa nei dati osservativi oppure no). Infine proponiamo anche necessari e sufficienti criteri grafici per stabilire l’esistenza di un insieme di variabili che soddisfi il nostro metodo “backdoor” generalizzato.