Dott. PALLA LUIGI
TITOLO TESI: “Bayesian Models to Test Microarray Data for Differential Expression”
TUTOR: Prof.ssa Angela Montanari.
Gli esperimenti con Microarray di DNA consentono di misurare simultaneamente l’espressione genica di un insieme di
geni assai numeroso. Il lavoro di tesi illustra le tematiche statistiche inerenti l’individuazione dei geni che manifestano
un’espressione differenziale in caso di misurazione dell’espressione genica sotto due differenti condizioni. La cornice
del problema è dunque quella della teoria dei test di ipotesi nel caso in cui un’ampia batteria di test, generalmente
dell’ordine di migliaia, siano svolti simultaneamente (Multiple Hypothesis Testing). L’estensione al caso multiplo
amplia la gamma dei tassi d’errore che si possono controllare a un determinato livello α. Tra questi quello più
comunemente utilizzato nella pratica statistica, ad esempio per i confronti multipli, e più discusso nella letteratura è
FWER (Family-Wise Error Rate) pari alla probabilità che ci siano una o più ipotesi nulle erroneamente rifiutate.
Tuttavia si può mostrare che all’aumentare del numero m di ipotesi, la potenza delle procedure volte a controllare
FWER diminuisce (si pensi alla correzione di Bonferroni) cosicché il test assume carattere sempre più conservativo,
cioè tende a privilegiare l’ipotesi nulla nella valutazione dell’evidenza empirica sintetizzata dal test. Per il trattamento di
insiemi numerosi di test simultanei, si profila l’alternativa di FDR (False Discovery Rate) che è pari al valore atteso del
rapporto tra il numero di ipotesi nulle erroneamente rifiutate e il totale di quelle rifiutate. Inizialmente proposto da
Benjamini e Hochberg (1995), è stato ripreso successivamente come interessante tasso d’errore da applicare ai test
sull’espressione genica nei microarray, sulla base del fatto che, data la vasta messe di geni considerati, i ricercatori sono
disposti a tollerare che alcuni di essi siano erroneamente dichiarati attivi dalla procedura associata al test purchè la loro
percentuale attesa sia relativamente bassa. Inoltre si è mostrato che FDR è una quantità collegata alla probabilità a
posteriori che un gene sia inattivo. Questa infatti regola una procedura di controllo di FDR a livello α , così che se detta
probabilità è nota o stimata si può ottenere una procedura meno conservativa di quella proposta da Beniamini e
Hochberg. La loro procedura implica infatti la stima della generica probabilità che un gene sia attivo (ovvero della
frequenza dei geni attivi, pari a p0). Questa è una quantità generalmente ignota ed è stimata pari a 1 nel loro algoritmo.
La probabilità a posteriori che un gene j sia inattivo P(vj=0|zj>z) d’altra parte può essere riespressa attraverso il teorema
di Bayes in funzione di 3 fattori :
1)la funzione di distribuzione F0 sotto l’ipotesi di espressione differenziale, valutata in z.
2)la funzione di distribuzione F nella popolazione (nel microarray) valutata in z.
3)la probabilità a priori che il gene sia differenzialmente espresso, p0.
Il primo fattore è di norma noto mentre il secondo e il terzo sono ignoti.
Poiché la 2) può essere espressa come mistura delle distribuzioni dell’espressione genica nei due casi di inattività e di
attività del gene pesati rispettivamente con p0 e (1- p0) si è proceduto a una modellazione bayesiana gerarchica per
ottenere una stima di F e p0 da sostituire nel computo di P(vj=0|zj>z) così da rendere la procedura meno conservativa di
quella classica che ipotizza p0=1. Si nota che di per sé l’approccio basato sul modello bayesiano gerarchico consente
solo di ottenere delle stime puntuali a posteriori di P(vj=0|zj=z) . Nel nostro contesto, per quanto interessante tale
informazione non è legata a una procedura che classifichi il gene come attivo o inattivo controllando un tasso di errore
in maniera ottimale.
L’approssimazione sotto certe condizioni del test t alla distribuzione normale ha suggerito di ipotizzare F0 distribuita
come N(0,1) e F1 come una N(0,σ) visto che l’espressione differenziale può essere sia negativa che positiva. Un
modello alternativo può altresì tentare di considerare a sua volta la F come mistura di due componenti , N(μ-1,σ-1)
avente espressione differenziale media negativa, N(μ1,σ1) avente espressione differenziale media positiva.
La probabilità a posteriori dei parametri per entrambi i modelli è stata simulata attraverso l’algoritmo di Gibbs
sampling, implementato con il software statistico R. Nel modello sono state infatti utilizzate distribuzioni a priori
coniugate su parametri e iperparametri e ciò ha consentito il computo delle full conditional distributions da cui
l’algoritmo iterativamente campiona fino a raggiungere la convergenza alla distribuzione a posteriori dei parametri. Nel
caso del modello a due sole componenti, il periodo di burn-in evidenziato da un metodo grafico di monitoraggio della
convergenza è nell’ordine di poche decine di iterazioni, anche se la convergenza al valore vero avviene solo per dati di
sufficiente dimensione e comunque nelle singole catene permane una certa fluttuazione dovuta principalmente al
numero di parametri (> m, il numero di geni).
Nella simulazione del modello a tre componenti descritto sopra l’algoritmo sembra invece avere maggior difficoltà a
stimare correttamente i parametri se i dati non manifestano chiaramente una distribuzione trimodale. Nel caso di
applicazione a dati reali si renderebbe pertanto opportuno un controllo grafico della distribuzione dei dati per valutare
quale modello applicare.
Una volta che i valori dei parametri sono stato simulati, si procede alla sostituzione delle stime ottenute per F e p0 per
ottenere la stima di P(vj=0|zj>z) necessaria per il controllo a livello α di FDR. La visualizzazione grafica
dell’andamento di P(vj=0|zj>z) al variare di z riassume la relazione tra il livello α del test e il valore soglia z* del test
necessario per controllarlo . Poichè una volta raggiunta la convergenza del Gibbs sampler si dispone di un ampio
campione di stime della probabilità a posteriori dei parametri, si può anche ottenere una banda di confidenza al 95%
intorno al valore medio delle stime di P(vj=0|zj>z), così che ad ogni valore fisso α* di α, oltre a una stima puntuale di
z* si associa anche un intervallo di valori associati ad α* con 95% di fiducia. Lo stesso vale per una particolare scelta
del valore soglia z* del test. Ad esso si può associare un livello α* puntuale e intorno ad esso un intervallo di valori
associati a z* con livello di fiducia del 95%, all’interno del quale si può scegliere il valore più elevato se si vuole
impiegare un approccio conservativo per α*.