Causal Inference in High-Dimensional Systems - ETH E

Diss. ETH No. 21445
Causal Inference
in High-Dimensional Systems
A dissertation submitted to
ETH ZURICH
for the degree of
Doctor of Sciences
presented by
DIEGO COLOMBO
MSc ETH Mathematics
born March 20, 1984
citizen of Bellinzona TI
accepted on the recommendation of
Prof. Dr. Marloes Maathuis, examiner
Prof. Dr. Peter Bühlmann, co-examiner
Prof. Dr. Thomas Richardson, co-examiner
2013
Abstract
Causal inference is the understanding of cause-effect relationships between
variables from observational data. However, from observational data alone
we can determine associational quantities, such as correlations, but we cannot say anything about causality. Therefore, in order to estimate causal
effects from observational data, we need to make assumptions on the data
that we have observed.
A commonly used assumption is to require that the data are faithful to
an unknown directed acyclic graph (DAG), where the nodes represent the
variables and the edges represent direct causal relationships. Under this
assumption and requiring that there are no latent and selection variables,
there is a method, called IDA, that estimates bounds on causal effects.
This method is based on a two step approach. The first step consists of
causal structure learning. Since in general it is not possible to identify
the true underlying DAG uniquely from the data, it estimates the Markov
equivalence class of the unknown DAG from the observational data using
a constraint-based algorithm called PC. In the second step, it estimate
(bounds on the) causal effects for the given Markov equivalence class using
Pearl’s backdoor criterion.
In Chapter 2, we study the IDA method and we present a validation on
real data about a compendium of gene expression profiles of Saccharomyces
cerevisiae.
The assumption of no latent variables is often violated in practice. The aim
of this thesis is therefore to generalize the IDA method to more general
systems that allow the presence of latent and selection variables. The
presence of such variables causes several problems on both steps of the
xii
Abstract
method.
Chapter 3 investigates the causal structure learning in the presence of latent and selection variables, focusing on the FCI algorithm. We found
that FCI is computationally infeasible for large graphs. We therefore propose modifications of this algorithm to speed it up while remaining correct
and we also introduce a new algorithm, called RFCI, which is much faster
than FCI. Although RFCI can be slightly less informative than the other
algorithms in some situations, we prove that any causal information in its
output is correct in the asymptotic limit.
Constraint-based causal structure learning algorithms are order-dependent
when applied to data, in the sense that their outputs depend on the order
in which the variables are given. In Chapter 4, we show that this orderdependence can lead to highly variable results in high-dimensional settings.
We therefore propose simple modifications that remove part or all of this
order-dependence.
Finally, concerning the estimation of causal effects, we generalize in Chapter 5 Pearl’s backdoor criterion for directed acyclic graphs to more general
types of graphs that describe Markov equivalence classes of DAGs with or
without arbitrarily many latent variables (but no selection variables). We
also give simple necessary and sufficient graphical criteria for the existence
of a set of variables that satisfy our generalized backdoor criterion.
Sommario
L’ inferenza causale, basandosi su dati osservativi, mira alla scoperta di
relazioni di causa-effetto tra variabili. Basandosi solamente su dati osservativi possono però essere calcolate unicamente grandezze di tipo associativo
(come ad esempio le correlazioni), non invece di tipo causale. Ne consegue
che, per essere in grado di stimare effetti causali partendo da dati osservativi risulta necessario proporre assunzioni sui dati che sono stati osservati.
Un’assunzione ampiamente usata presuppone che i dati siano stati generati
da un grafo diretto aciclico (DAG) sconosciuto, dove i nodi rappresentano le variabili e gli archi orientati rappresentano relazioni causali dirette.
Tenendo in considerazione questa assunzione ed ipotizzando che il sistema
sotto considerazione soddisfi l’ ipotesi di sufficienza causale, intesa come l’
assenza di variabili latenti e l’assenza di variabili che determinano se una
data misurazione sia inclusa nei dati osservativi oppure no, esiste un metodo statistico chiamato IDA per stimare limiti su effetti causali. Questo
metodo si struttura in due parti. La prima parte del metodo consiste nella
ricostruzione della struttura causale. Data l’ impossibilità, in genere, di
identificare univocamente il vero DAG che sta alla base dei dati, il metodo
si occupa d’apprima di ricostruire, sulla base dei dati osservativi, la classe
di equivalenza di Markov del DAG sconosciuto servendosi di un algoritmo
che usa test di indipendenza condizionata chiamato PC. In un secondo
momento, il metodo stima (limiti sugli) effetti causali per la classe di equivalenza di Markov in questione, usando il criterio di Pearl soprannominato
“backdoor”.
Al Capitolo 2 presentiamo dapprima il metodo IDA ed in seguito una conferma della sua efficacia su dati reali relativi ad una raccolta di analisi di
espressione genica di Saccharomyces cerevisiae.
xiv
Sommario
L’ ipotesi di sufficienza causale viene spesso violata specialmente in caso
di utilizzo di dati reali. L’obiettivo principale di questa tesi risulta quindi essere la generalizzazione del metodo IDA a sistemi più generali che
contemplino sia la presenza di variabili latenti, che di variabili che determinano se una data misurazione sia inclusa nei dati osservativi oppure
no. La presenza di questi due tipi di variabili causa diversi problemi ad
entrambe le parti del metodo IDA.
Al Capitolo 3 indaghiamo il problema relativo alla ricostruzione della struttura causale quando questi due tipi di variabili sono presenti, soffermandoci in particolar modo sull’algoritmo chiamato FCI. Abbiamo scoperto che
l’ algoritmo FCI necessita di un’ elaborazione computazionale eccessiva
specialmente per grafi con molti nodi. Per questo motivo proponiamo anzitutto delle variazioni di questo algoritmo allo scopo di renderlo più veloce
seppur mantenendolo corretto. Successivamente proponiamo un nuovo algoritmo, chiamato RFCI, notevolmente più veloce rispetto all’ algortimo
FCI. Sebbene l’ algoritmo RFCI, in rapporto ad alcuni scenari, possa risultare meno informativo di altri, dimostriamo che ogni informazione causale
contenuta nel grafo prodotto risulta corretta al limite asintotico.
Tuttavia, questi algoritmi basati su test di indipendenza condizionata per
la ricostruzione della classe di equivalenza di Markov dipendono dall’ ordine in cui le variabili sono immesse, specialmente quando si prendono
in considerazione dati reali. Questo significa che il grafo stimato dipende
dall’ordine in cui le variabili sono immesse negli algoritmi. Al Capitolo 4
dimostriamo che questa dipendenza dall’ordine delle variabili può generare
risultati altamente variabili in sistemi dove il numero di variabili risulta di
molto superiore al numero di osservazioni. Di conseguenza, proponiamo
semplici ma efficaci variazioni in grado di eliminare, in parte o addirittura
completamente, i problemi di dipendenza dall’ordine delle variabili.
Al Capitolo 5 infine, per quanto riguarda la stima di effetti causali, il
criterio “backdoor” di Pearl, inizialmente studiato per grafi diretti aciclici,
viene generalizzato a tipi di grafi più generali che rappresentano comunque
classi di equivalenza di Markov di DAGs con o senza variabili latenti (ma
senza variabili che determinano se una data misurazione sia inclusa nei
dati osservativi oppure no). Infine proponiamo anche necessari e sufficienti
criteri grafici per stabilire l’esistenza di un insieme di variabili che soddisfi
il nostro metodo “backdoor” generalizzato.