Strumenti statistici per l`analisi di dati genetici

Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Strumenti statistici per l’analisi di dati genetici
Luca Tardella + Maria Brigida Ferraro
1
email: [email protected]
Lezione #4 – Analisi di dati microarray e selezione di geni differenzialmente espressi
16 maggio 2014
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
1
Qualità dell’informazione numerica e pre-processing
2
Test multipli e controllo dell’errore
3
Selezione di geni differenzialmente espressi
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Microarray
L’idea di fondo è usare le informazioni nel cosiddetto transcriptoma per
capire i meccanismi di funzionamento dell’informazione genetica.
DNA → mRNA → Proteine
Nell’ultimo passaggio aumenta il grado di complessità strutturale
(2D → 3D) e di trattamento sperimentale (purificazione) [esperienza
valentina]
Un gene alla vota?
Descrizione sommaria e semplificata dei microarray
Qualità dell’informazione numerica e pre-processing
Alcune immagini
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Tipici obiettivi sperimentali
... di esperimenti condotti su microarray
Quali geni sono espressi nei differenti tessuti di un organismo
Espressione differenziale in differenti condizioni biologiche,
trattamenti, fasi di sviluppo cellulare
Esplorazione, tipizzazione, classificazione
Quali gruppi di geni sono collegati nel caratterizzare una condizione
sperimentale (e.g. malattia)
Malattie multifattoriali (genetici, ambientali, stile di vita, alimentare
...)
Pattern temporali
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Fasi dell’esperimento microarray
Preparazione del supoporto (chip)
Preparazione del campione biologico (colorazione con cianine)
Fissaggio (hybridization) e lavaggio
Scansione dell’immagine (laser, fuorescenza/e, lunghezze d’onda)
saturazione vs dynamic range
allineamento
foreground/background
Traduzione immagine in misurazioni numeriche (dettagli sui manuali
software)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Technology differences
♦pin spotting
or
photolithography or …
♦multi-channel
or
single-channel
♦almost-complete or
sequences (cDNA)
cDNA array
subsequences
(oligonucleotides)
Affymetrix chip
10
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Esempi di supporti solidi per la rilevazione di espressione
1
1 Affymetrix
GeneChip probe array. Image courtesy of Affymetrix
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Dall’immagine alla misurazione numerica
filtering
gridding
segmenting
quantifying
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Dall’immagine alla misurazione numerica (2)
Diversi software proprietari espletano queste fasi, talvolta in modo
semi-automatico. Ciascuno prevede metodi ed opzioni differenti.
ScanArray
Spot
Affymetrix MAS
GenePix
ScanAlyze
Quantarray
E’ fondamentale riferirsi ai manuali per capire le scelte e le eventuali
implicazioni sulla qualità dell’output numerico.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
ArrayVision Reference Manual 2-39
individual
spot beforeGrowing
sampling. As a result,
all sampling areas coincide exactly with the
Seeded
Region
Algorithm
spot boundaries on the image (Figure 2-52).
Figure 2-52: Segmentation of an array that varies in spot size and shape. At left, the
template elements (red circles) are all of the predefined size. Some spots are much smaller
than this. At right, the template elements adjust themselves to find the spot boundaries.
To apply the segmentation process to your images, check the Enable Segmentation
Fissare un punto iniziale (seed) per il segnale all’interno dello
checkbox.
spot e
un punto iniziale per il background
Please note, although the segmentation process determines individual spot boundaries
Layout parameters,
including aconto
automatically,
your protocol
mustdei
stillpunti
includeper
all Array
Accrescere
l’insieme
entrambi
i gruppi tenendo
spot size. The template should also be aligned with the array before sampling.
della distanza fisica e di livello di intensità di segnale
Figure 2-53: Segmentation page of the protocol editor.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Quantificazione
Spot intensity (sintesi: media, mediana, trimmed, biweight ...)
Spot background
Altre misure (sd / cv)
Morfologia (circularity)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Pre-processing e normalizzazione
SEGNALE
+
RUMORE/ERRORE ALEATORIO
+
RUMORE/ERRORE SISTEMATICO
Conoscenza approfondita del contenuto dei dati di scansione
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Pre-processing e normalizzazione
SEGNALE
+
RUMORE/ERRORE ALEATORIO
+
RUMORE/ERRORE SISTEMATICO
Conoscenza approfondita del contenuto dei dati di scansione
Qualità delle misurazioni rilevate
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Pre-processing e normalizzazione
SEGNALE
+
RUMORE/ERRORE ALEATORIO
+
RUMORE/ERRORE SISTEMATICO
Conoscenza approfondita del contenuto dei dati di scansione
Qualità delle misurazioni rilevate
Scala di misrazione e trasformazioni
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Pre-processing e normalizzazione
SEGNALE
+
RUMORE/ERRORE ALEATORIO
+
RUMORE/ERRORE SISTEMATICO
Conoscenza approfondita del contenuto dei dati di scansione
Qualità delle misurazioni rilevate
Scala di misrazione e trasformazioni
Rimozione/riduzione di effetti di distorsione sistematica globale e
locale (rumore di fondo/background, colorazioni, print-tips, ...)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Pre-processing e normalizzazione
SEGNALE
+
RUMORE/ERRORE ALEATORIO
+
RUMORE/ERRORE SISTEMATICO
Conoscenza approfondita del contenuto dei dati di scansione
Qualità delle misurazioni rilevate
Scala di misrazione e trasformazioni
Rimozione/riduzione di effetti di distorsione sistematica globale e
locale (rumore di fondo/background, colorazioni, print-tips, ...)
Rimodulazione delle misure replicate
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Pre-processing e normalizzazione
SEGNALE
+
RUMORE/ERRORE ALEATORIO
+
RUMORE/ERRORE SISTEMATICO
Conoscenza approfondita del contenuto dei dati di scansione
Qualità delle misurazioni rilevate
Scala di misrazione e trasformazioni
Rimozione/riduzione di effetti di distorsione sistematica globale e
locale (rumore di fondo/background, colorazioni, print-tips, ...)
Rimodulazione delle misure replicate
Aggiustamenti manuali ad hoc
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Fasi sequenziali per l’analisi o modello integrato?
Pro e contro dell’approccio sequenziale che distingue la fase di
pre-processing da quella di analisi
una parte della variabilità è lasciata fuori
non si possono distinguere nei risultati i contributi/le implicazioni
delle varie fasi
ad-hoc
complessità computazionale
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Qualità dei dati
50
100
Column
150
200
250
campione3.txt
Visualizzazione immagine
50
100
150
200
250
300
Row
50
anomalie, graffi ...
100
Column
150
200
250
sampleCtxt
50
100
150
200
250
300
Row
Accorpamento di spot adiacenti (bleeding)
Pattern orizzontali/verticali/diagonali/...
Metodi formali, automatici (prevedibilità spaziale e aleatorietà
spaziale)
pattern nei segnali di array consecutivi (MTB)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Quante fasi di pre-processing?
Distorsione spaziale
Presenza di background osservato
Distorsione imputabile alla diversa colorazione (dye effect) (MA plot
→ smooth → sconto differenza → inditero)
Distorsione imputabile al set di ’testine’ usate per spottare le probes
sul supporto fisico (print-tip effect)
Effetto array nelle replicazioni della stessa condizione sperimentale
(quantità di materiale, angolo di scansione, tempi di coibridazione
...)
In questo ordine?
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Aleatorietà spaziale
Indice di Clark ed Evans (1954)
d̄ −
TCSR = q
1
√
2 ρ
4−π
4G πρ
richiede la selezione di un certo numero r di outlier identificati secondo
un criterio ed è basato sul confronto osservato/atteso tra la distanza
(media) tra i punti risptto ai propri vicini. La distribuzione di riferimento
è un processo di poisson spaziale omogeneo. La statistica test (normale
sotto l’ipotesi di aleatorietà o assenza di clustering/ordinamento)
di
=
r
G
ρ
distanza dell’i − esimo outlier dal suo vicino più prossimo
#outlier
=
#spots
r
G
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Background adjustment
Presenza di un segnale di fondo (rumore) che non è dovuto all’effettiva
espressione genica
Può variare da array ad array e dipenderà anche dalla calibrazione dello
scanner
Può variare sistematicamente all’interno dello stesso array (effetto riga
e/o colonna)
Come comportarsi?
local/global - linear/non-linear
correlazione local background - signal
perequazione locale del background → globale (lineare)
sottrazione o rapporto
utilizzare spot di controllo
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Within-array Background Adjustment and Normalization
(1)
Problema evidenziato dai confronti tra le espressioni di due array della
stessa condizione sperimentale (replicazioni) e.g. grafici “MA” (log-ratio
vs log-average)
Si pone il problema della stabilizzazione della varianza che ha comunque
riflessi sulla distribuzione globale delle espressioni
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Within-array Background Adjustment and Normalization
(2)
Il problema della scala di misurazione: misura originaria, trasformata o
ordinamento?
scala originaria → scala di misurazione trasformata
trasformazione logaritmica
variante traslata
X → log(X + c)
(Sapir & Churchill, unpublished 2000; Gottardo & ... 2006)
trasformazione alernativa (concava) X p (p = 1/2, 1/3) (Box-Cox) (X p − 1)/p
arcsinh & glog transformation (generalized log)
p
X → log X + X 2 + 1
e sue varianti parametrizzate (1-2-4 parametri)
q
X → log (X − α) + (X − α)2 + β
β > 0 (Durbin & ..., 2002; Huber & ..., 2002)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Within-array Background Adjustment and Normalization
(3)
0
glog(x)
1
2
3
Confronto tra log(x) e glog(x,a)
-2
-1
log(x)
glog(x,0.1)
glog(x,1)
glog(x,2)
glog(x,10)
-2
0
2
4
x
6
8
10
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Within-array Background Adjustment and Normalization
(4)
Veri e propri modelli statistici da stimare. Utili anche per fare inferenza
sul segnale non osservabile depurato dal rumore.
modellizzazione di rumore/errore additivo e moltiplicativo
sovrapposto ad un segnale o espressione media µ
X = α + µe η + ε
(Rocke & Durbin, 2001)
glog transformation (generalized log)
s
X → log (X − α) +
2
(X − α) +
σε2
Sη2
!
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Alcuni dei metodi principali di background correction
basati su local background
Ammettiamo che il software restituisca per ciascun gene g = 1, ..., G due
misure, di cui una di foreground XF ,g e l’altra di background XB,g .
Dobbiamo rimuovere ’rumore’ introdotto da legame spurio (non specific
binding) come pure possibili pattern spaziali.
Correzione intuitiva: Foreground-Background oppure
Foreground/Background. Può dipendere anche dal software impiegato.
Possiamo ragionevolmente assumere che il background locale sia una
misura non distorta del rumore ... ma ... può dar luogo ad effetti
indesiderati.
Potrebbe essere a sua volta misurato con errore.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Alcuni dei metodi principali di background (2)
Prolemi:
talvolta sorgono problemi come correzione che supera il valore
misurato (XB,g > XF ,g =⇒ espressione negativa!!) [filtraggio]
nel confronto di espressioni differenziali ’ventaglio’ aperto in
corrispondenza dei valori bassi
effetti di confondimento sulla rilevazione di espressione differenziale
(sottostima)
Soluzioni alternative
Usare come base per l’aggiustamento il background locale ... ma
non solo: metodi basati su modelli di convoluzione o di doppia
locazione-scala
Normexp
Glog
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Domanda fondamentale
Qual è la scala di misurazione ’corretta’ ?
verifica linearità dell’espressione originaria e numero di molecole che
trascrivono
interpretabilità (logaritmi e fold change)
compatibilità con le ipotesi adottate nell’analisi
rinuncia alla scala → metodi non parametrici (pro e contro)
Le nuove tecniche NGS nascono idealmente per risolvere questo tipo di
inconveniente (ma la misurazione sebbene più diretta non sarà mai
esatta)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Alcuni dettagli su NormExp
Ipotesi:
XF = XB + S + N
X
S
B
B
=
∼
∼
S +B
exp (α)
N(µ, σ 2 )
⊥
⊥ S
(B, S) → (X , S)
=⇒ (S|X ) =⇒ E (S|X )
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Alcuni dettagli su NormExp
La formula finale di trasformazione parametrica per la rimozione del
background sarà
E [S|X = x] = µX ·S +
σ 2 fN(µX ·S ,σ2 ) (0)
1 − FN(µX ·S ,σ2 ) (0)
e dipenderà dai 3 parametri della normexp stimati sui dati.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Alcuni dettagli su Glog
Altrimenti un modello simile derivato dalla stabilizzazione della varianza
...
Ygc ; g = 1, ..., G c = 1, ..., C
Yg : E [Yg ] = mg V [Yg ] = vg = v (mg )
Ipotesi:
v (mg ) = (a1 mg + a2 )2 + a3 (a3 > 0)
Tibshirani, JASA 1998 =⇒ individua la trasformazione che stabilizza (approx) la
varianza nel senso che h(Yg ) : V [Yg ] ≈ const
Z y
1
p
dm
h(y ) =
v (m)
h(m) = γarcsinh(b0 + b1 m)
ygc → h(ygc ) : Ygc = αc + gc
gc ∼ N(0, τ 2 )
Alla fine se devo confrontare due condizioni sperimentali userò
ĥ(Yg 1 ) − ĥ(Yg 2 )
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Alcuni dettagli su Glog (2)
significato delle differenze
modulazione di scala nella transizione da valori bassi a valori alti
distorsione e riduzione d’impatto (shrinkage) (differenze glog sempre
≤ rispetto alle deifferenze log ovevro al cosiddetto log-fold change)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Validazione e confronto tra metodi alternativi
void or
ground
(2001a)
ffect of
spike-in
did not
rom the
hen no
with a
ground
Ryde,
n et al.
variable
und the
of biasonstant
extreme
es.
stimate
Ritchie et al. (Bioinformatics, 2007)
Comparison of background correction methods
Table 1. Summary of the background correction methods considered
Method
Data extraction software Bg estimate
Adjustment
Standard
Kooperberg
Edwards
Normexp
Normexpþoffset
Vsn
Morph
No background
GenePix
GenePix
GenePix
GenePix
GenePix
GenePix
Spot 2.0
GenePix
Subtraction
Model
Model
Model
Model
Model
Subtraction
None
Pro
Pro
Pro
Pro
Pro
Pro
3.0/4.0
3.0/4.0
3.0/4.0
3.0/4.0
3.0/4.0
3.0/4.0
Pro 3.0/4.0
Local median
Local mean
Local median
Local median
Local median
Local median
Morph
None
We compare eight background correction methods (Table 1) which
use different estimates for Rb and Gb and different processing methods
(variants on subtraction) for removing background signal. The methods
are outlined below with details in Supplementary Material. All are
implemented in the backgroundCorrect function of the limma software
package. The standard method can produce negative corrected
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Between-array Normalization
Aspetto delicato che ha rilevanti implicazioni nelle fasi d’analisi successive
Normalizzazione indipendente oppure dipendente dalle intensità
(linear, smooth curve,...)
A quale valore di intensità fare riferimento (mediana)
Quali sono i geni (invariant set) con i quali calibrare la funzione
[controllo, housekeeping, tutti, vuoti...]
Quale classe di funzioni
Quantile Normalization: normalizzazione basata sui quantili e sul q-q
plot (a coppie)
Diversi livelli di replicazione (tecniche e biologiche) e di
normalizzazione
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Between-array Normalization - Pomo
0.8
0.6
0.4
0.2
0.0
Density
1.0
1.2
1.4
Raw log(Foreground/Background) Signal
0
1
2
3
N = 94928 Bandwidth = 0.02701
4
5
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Quantile Normalization
Dati R array, ciascuno contnente G geni, si consideri la
corrispondente matrice X di espressioni (parzialmente già
pre-processate) G × R
Si ordina ciascuna colonna di X per ottenere Xsort
Si calcolano le medie (o le mediane) per ciascuna riga2 di Xsort e la si
0
sostituisce ad ogni elemento della riga corrispondente per avere Xsort
0
Riordinando Xsort
applicando permutazioni inverse a quelle utilizzate
per passare da X a Xsort , si ottiene Xnormalized .
2 N.B.#1 - nelle colonne ordinate la riga non corrisponde più ad un particolare spot,
si è perso il riferimento all’unità statistica
N.B.#2 - per non perdere il riferimento di ciascun valore della colonna riordinata dovrò
registrare quale permutazione (order(...) in R ) ha prodotto il vettore ordinato
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Normalizzazione mediante quantili: estensioni
E’ anche possibile usare un sottoinsieme di geni invarianti GI
NORMALIZATION
89
of spot values across the array. In particular, this would be the case when the array
contains only a few genes that have been selected on the basis of this expected
response to the conditions.
Qualità dell’informazione numerica e pre-processing
(a)
Test multipli e controllo dell’errore
(b)
Selezione di geni differenzialmente espressi
Figure 4.9 Raw log-transformed data from two different cDNA slides from the
same skin cancer experiment. The x -axes and y-axes contain the Cy3 and Cy5
values respectively. The lines in both plots correspond with the line of equality
and a loess smoother through the points. Plot (a) of array 2 shows a remarkably
linear dye effect, whereas plot (b) of array 1 is clearly indicative of a more complex,
non-linear relationship between the dyes.
Normalizzazione con curve interpolanti
Two methods have been suggested to deal with intensity-dependent dye effects.
The first method consists of estimating the relative dye efficiency at each intensity
and subtracting it from the data. A variation of this method is discussed in the
following section. The other method is sometimes called dye-swap normalization
(Yang and Speed 2002).
Dye-swap experiments consist in repeating a hybridization twice with the dyes
swapped and averaging the expression values for each spot over the Cy3 and Cy5
channel. There are two main problems with this method. First, the dye effect tends
to differ from array to array, and there is no guarantee that the method effectively
removes the dye effect. Secondly, a dye-swap experiment is not the most efficient
way of measuring differential expression in large designs, as was explained in
Section 3.3.2. Nevertheless, if a dye-swap experiment has been performed, then
averaging out expressions in the Cy3 and Cy5 channels gives some protection
against under- or over-smoothing.
Two words of caution are appropriate here. Whereas this intensity-dependent
dye bias is well known, it might be that there are still some other effects that
influence the incorporation of dye molecules onto the array. It would be essential
to normalize also for these effects in order to avoid bias. At the same time, the
dye bias can be confounded by other nuisance effects. In Section 6.2.3, we saw a
case in which the dye effect was confounded with a spatial effect on the array. In
such instances, direct application of dye normalization methods can be disastrous
and, in fact, introduce bias.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Normalizzazione dell’effetto di colorazione (dye)
originariamente si effettuavano correzioni globali del tipo
moltiplicativo o additivo
i dati spesso non supportano l’ipotesi di globalità
se i canali misurano espressione di condizioni sperimentali diverse è
difficile separare il segnale dal rumore
e’ possibile utilizzare (se presenti) gli spot per i quali è noto (o si
ritiene) che non vi sia espressione differenziale definendo dunque un
insieme invariante
interpolazione sulle scale naturali? (scala m-a)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Normalizzazione con curve interpolanti
loess
9
6
0
7
8
log(cy3)
30000
10000
cy3
10
spline
0
10000
20000
30000
7.0 7.5 8.0 8.5 9.0 9.5
1.5
1.0
m
-0.5 0.0
0.5
1.0
0.5
-0.5 0.0
m
10.5
log(cy5)
1.5
cy5
7
8
9
a
10
7
8
9
a
10
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Normalizzazione con curve interpolanti
Nel caso di normalizzazione per i due canali di coibridazione (cy3, verde;
cy5; rosso) si preferisce lavorare sulla scala M-A.
10
9
6
7
8
log(cy3)
1.0
0.5
-0.5 0.0
cy3=a-m/2
1.5
Raw Data
7
8
9
10
7.0 7.5 8.0 8.5 9.0 9.5
log(cy5)=a+m/2
10.5
log(cy5)
9
7
8
a - res.m/2
0.5
-0.5 0.0
m
1.0
10
1.5
Loess-Normalized Data
7
8
9
a
10
7
8
9
a + res.m/2
10
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Dipendenza tra variabili
Metodi e modelli per la dipendenza tra due (insiemi di) variabili Y e X
In un approccio probabilistico l’idea fondamentale è quello di
comprendere la funzione di regressione
f (x) = E [Y |X = x]
In effetti tale funzione è la soluzione dei minimi quadrati del problema
min E [(Y − f (X ))2 ]
f ∈F
Alternativamente
Y = f (X ) + ERRORE
(segnale+rumore; componente sistematica + componente accidentale)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Approcci per la regressione
Vari approcci al problema di individuare una opportuna funzione f ∈ F
Approccio completemente probabilistico e parametrico →
Versimiglianza
Approcci più ’robusti’ rispetto al modello parametrico → opportune
funzioni di perdita [*] (rischio di previsione)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Interpolazione e Regressione Locale
Supponiamo di avere osservato in n unità le variabili (xi , yi ) i = 1, 2, ..., n
e di voler usare un criterio di ottimalità da far valere localmente,
dipendente da un particolare punto x0
n
X
i=1
w
xi − x0
h
ρ (yi − f (xi , θ(x0 )))
pesi
forma della funzione w (·)
banda h
famiglia parametrica di funzioni f (x; θ) ∈ F ←→ Θ con parametri
θ = θ(x0 ) variabili, dipendenti ’localmente’ dal punto x0
funzione di perdita ρ (criterio di fit)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Regressione Locale (3)
Quando la funzione di perdita ρ(e) = e 2 =⇒ criterio di fit = minimi
quadrati .... ponderati per effetto di w
Soluzione esplicita
I valori predetti sono funzione lineare di quelli osserati
Soluzione conincide con approccio probabilistico basato sulle
consuete ipotesi di normalità, omoschedasticità e incorrelazione del
termine di errore (rumore additivo)
e sono quindi agevolati i conti espliciti per intervalli di previsione,
test di ipotesi ...
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Regressione Locale Polinomiale
Quando la famiglia di funzioni parametriche è del tipo polinomiale si può
tentare di approssimare localmente una generica funzione f smooth con il
corrispondente polinomio di Taylor del grado desiderato intorno al punto
x0
pp (x; θ(x0 )) = a0 + a1 (x − x0 ) +
ap
a2
(x − x0 )2 + ... + (x − x0 )p
2
p!
Quando la funzione di perdita ρ(e) = e 2 =⇒ criterio di fit = minimi
quadrati .... ponderati per effetto di w
Soluzione esplicita
I valori predetti sono funzione lineare di quelli osserati
Soluzione conincide con approccio probabilistico basat sulle consuete
ipotesi di normalità, omoschedasticità e incorrelazione del termine di
errore (rumore additivo)
e sono quindi agevolati i conti espliciti per intervalli di previsione,
test di ipotesi ...
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Regressione Locale Polinomiale
Il fatto che la funzione viene adattata localmente f (x) ≈ p(x, θ(x0 )) di
volta in volta a secondo del punto x0 giustifica la terminologia di
regressione nonparametrica in quanto il numero di parametri coinvolti
nella soluzione non è in realtà fissato a priori (in realtà non è neanche
definita una soluzione globale)
n
X
i=1
w
xi − x0
h
2
(yi − p(xi , θ(x0 )))
In forma matriciale
θ̂(x0 ) t.c. min(Y − Xx0 θ)T Wx0 (Y − Xx0 θ)
θ
da cui la soluzione esplicita
θ̂(x0 ) = XxT0 Wx0 Xx0
−1
XxT0 Y
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Interpolazione e Regressione Locale
Se guardiamo all’espressione della funzione parametrica locale stimata
attraverso la precedente stima dei minimi quadrati ponderati in
corrispondenza dello stesso punto x = x0 otteniamo la seguente
semplificazione
p(x0 ; θ̂(x0 ))
= â0 + â1 (x0 − x0 ) +
... +
â2
(x0 − x0 )2 +
2
âp
(x0 − x0 )p = â0 = â0 (x0 )
p!
Questo semplificherà l’espressione della ricostruzione del valore predetto
ŷ0 = p(x0 ; θ̂(x0 )) = â0 (x0 )
che corrsiponde dunque alla prima componente del vettore delle stime dei
minimi quadrati ponderati ottenuta in precedenza in corrsipondenza del
sistema di pesi e del polinomio dipendenti da x0 . e precisamente ...
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
(b)
0.6
0.0
20
0.2
0.4
Tricube Weight
60
40
Prestige
0.8
80
1.0
(a)
Selezione di geni differenzialmente espressi
10000 15000 20000 25000
0
10000 15000 20000 25000
Average Income
(c)
(d)
60
Prestige
20
40
60
40
20
Prestige
5000
Average Income
80
5000
80
0
0
5000
10000 15000 20000 25000
Average Income
0
5000
10000 15000 20000 25000
Average Income
Figure 1: Local linear regression of prestige on income for the Canadian occupational-prestige data: (a)
The broken lines delimit the 50 nearest neighbors of x(80) (at the solid vertical line). (b) Tricube weights
for observations in the neighborhood of x(80) . (c) Locally weighted linear regression in the neighborhood of
x(80) ; the solid dot is the fitted value above x(80) . (d) The completed locally linear regression, connecting
fitted values across the range of x.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Interpolazione e Regressione Locale - Immagini e
animazione
5
Regresione polinomiale locale - loess - Ethanol Data
0
1
2
NOx
3
4
osservato
predetto
w peso
ww
w
w
w
ww w ww ww w ww
www w ww w ww
w
0.6
0.7
w
www
www
0.8
w
w ww
ww
w
w
w
0.9
wwww wwww
1.0
w
w
ww
www
w ww
ww wwwww
w www
w
w
1.1
1.2
E
3
3 link
al grafico animato: http://151.100.3.150/∼luca/RtmpMZDO44/
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Interpolazione e Regressione Locale
fˆ(x0 ) = â0 (x0 ) = (1, 0, ..., 0) XxT0 Wx0 Xx0
−1
XxT0 Y = `(x0 )T Y =
n
X
j=1
dove

1

 1
Xx0 = 

1
(x1 − x0 )
(x2 − x0 )
...
...
(xn − x0 ) ...
(x2 −x0 )p
p
(x3 −x0 )p
p
(xn −x0 )p
p





`j (x0 )yj =
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Interpolazione e Regressione Locale
Se al posto di x0 consideriamo i punti xi effettivamente osservati per
ongni i = 1, 2, ..., n
n
X
`j (xi )yj
ŷi = â0 (xi ) =
j=1
possiamo riassumere i coefficienti dei vettori
`(xi ) = (`1 (xi ), ..., `j (xi ), ..., `n (xi )) in una matrice L con generica
colonna `(xi )
Ŷ = L̂Y
la matrice L̂ è detta matrice hat. Ciascun punto yi viene
ricostruito/predetto con un valore ŷi che dipende da un’approssimazione
locale della funzione di regressione con un polinomio a coefficienti
stimato intorno a (dipendenti da) xi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Stima della varianza di per uno stimatore lineare
Stimatore lineare (linear smoother) in corrispondenza della matrice L
Pn
(yi − ŷi )2
σˆ2 = i=1
n − 2ν1 − ν2
dove
ν1 = tr (L)
;
ν2 = tr (LT L) =
n
X
i=1
`i (xi )2
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Stima della varianza di per uno stimatore lineare
Si può verificare che sotto opportune condizioni che controllano
l’andamento di ν1 e ν2 al crescere di n lo stimatore
Pn
(yi − ŷi )2
σˆ2 = i=1
n − 2ν1 − ν2
è asintoticamente corretto e consistente. Le condizioni sono le seguenti:
f (x) sufficientemente liscia
ν1 = o(n)
ν2 = o(n)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Numero di parametri equivalenti
ENP =
n
X
`i (xi )2 = ν2
i=1
Per avere una giustificazione intuitiva si pensi alla matrice L
corrispondente ad un regressogramma oppure al fatto che
1
≤ ||`(xi )||2 ≤ `i (xi )2 ≤ 1
n
Ricostruiamo perfettamente il valore ŷi = yi quando `i (xi )2 = 1 (e gli
altri ’pesi’ `j (xi ) uguali a 0) e staremmo usando dunque una ’funzione’
molto locale altamente parametrizzata, senza alcuna riduzione della
varianza della predizione; invece ŷi = ȳ quando `j (xi )2 = 1/n i = 1, ..., n
e quindi il punto viene ricostruito con una ’funzione’ molto poco locale e
con una parametrizzazione molto essenziale (costante) basata su un solo
peso/parametro (la media).
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Numero di parametri equivalenti
Per verificare l’analogia in modo più formale si consideri la matrice di
proiezione (hat) L = X (X T X )−1 X T per la quale
tr (L)
T
tr (L L)
= q
= q
Infatti la matrice L è idempotente e il suo rango equivale alla dimensione
q dello spazio generato dalle colonne della matrice X
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Inferenza sotto ipotesi di normalità e non ...
Per un generico valore x ottenere un intervallo di confidenza intorno al
valore f (x) presenta alcune difficoltà dovuta all’eventuale presenza del
fattore di distorsione
Infatti il generico punto ricostruito dalla funzione di regressione stimata
ŷ (x) = fˆ(x)
viene ottenuto attraverso un vettore di coefficienti `i (x) che dipendono
da x che non necessariamente producono uno stimatore corretto
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Inferenza sotto ipotesi di normalità e non ... (2)
Se indichiamo con
f¯(x) = E [fˆ(x)] = E [
n
X
i=1
`i (x)Yi ] =
n
X
`i (x)f (Xi )
i=1
allora possiamo riscrivere
fˆ(x) − f (x)
sn (x)
=
=
fˆ(x) − f¯(x) f¯(x) − f (x)
+
sn (x)
sn (x)
bias()
Zn (x) + q
Var [fˆ(x)]
Se effettuiamo un bilanciamento ottimo tra bias e varianza per la scelta
del parametro di smoothing il termine aggiuntivo può non svanire
asintoticamnte producendo un intervallo distorto e quindi senza copertura
effettiva.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Inferenza sotto ipotesi di normalità
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Inferenza senza ipotesi di normalità
Per un singolo intervallo intorno a f¯(x)
I (x) = fˆ(x) − z1−α/2 sn (x), fˆ(x) + z1−α/2 sn (x)
Per n intervalli intorno ai punti Xi osservati ... si moltiplica sn (x) per una
costante c (ad esempio c = z1−α/(2n) ) che tenga conto della molteplicità
dei test.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Regressione Locale local regression - loess
loess (inizialmente4 lo-we-s-s) [etimologia]
Teoria:
pesi
forma della funzione w (·)
(
(1 − |u|3 )3
w (u) =
0
|u| ≤ 1
|u| > 1
tricube=function(x){
(abs(x)<=1)*(1-abs(x)^3)^3
}
banda h → generalizzata h(x) secondo l’idea del k-esimo vicino più
prossimo h(x) = d(x, x(k),x ) ... (sparsità vs kernel; eventuale
standardizzazione con predittori p-dim)
famiglia parametrica di funzioni p(x; θ(x0 )) ∈ F ←→ Θ → polinomi
di grado 1 o 2
funzione di perdita ρ (criterio di fit) → funzione quadratica
4 locally
weighted scatterplot smoothing
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
In pratica: loess(...)
?loess
Un aspetto da chiarire è come viene implementata la definizione della
banda generalizzata h(x) = hα (x). In effetti tale funzione dipende da un
parametro che nella sintassi di R viene indicato come span. la definizione
di hα (x) dipende da α nel seguente modo:
(
d(x, x(k),x )
se α < 1
hα (x) =
1
p
α d(x, x(n),x ) se α ≥ 1
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Scelta del parametro di smoothing con criterio di
cross-validation
Leave-one-out cross validation
n
1X
(yi − fˆ(−i) (xi ))2
n
i=1
Generalized cross validation
n
1X
n
i=1
dove ν1 = tr (L)
ˆ i)
yi − f(x
1 − νn1
!2
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Regressione polinomiale locale - vantaggi/svantaggi
Locale: nell’uso della fuznione di peso e nella scelta di funzioni
approssimanti
Generalizza la regressione basata su nucleo → che diventa un caso
particolare usando polinomio di grado 0
Meno distorsione ai confini della regione osservata della variabile
dipendente (in generale minore per polinomi di grado dispari)
Adattività rispetto alla sparsità dei dati osservati
Stimatore lineare
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Regressione penalizzata - Spline
Minimizziamo rispetto ad un’ampia classe di funzioni f
n
X
i=1
2
(yi − f (xi )) + λJ(f )
con
Z
J(f ) =
2
f 00 (x) dx
λ coefficiente di regolarizzazione [penalizzazione di roughness] o
parametro di complessità (inversa) visto che determina implicitamente
quanto poco ampia/complessa è la classe di funzioni che si candidano a
raggiungere il minimo come si può notare dai casi estremi λ = 0 e
λ = ∞. [fedeltà/regolarità]
Nei casi non estremi la soluzione è individuata in corrispondenza di
funzioni polinomiali a tratti dette natural cubic splines.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Spline
Dato un intervallo reale (a,b) e un insieme di punti distinti ordinati in
ordine crescente interni all’intervallo ξ1 , ..., ξj , ..., ξk (nodi)


a1 (x − xi1 )3 + b1 (x − xi1 )2 + c1 (x − xi1 ) + d1





...
f (x) = aj (x − xij )3 + bj (x − xij )2 + cj (x − xij ) + dj



...



a (x − xi )3 + b (x − xi )2 + c (x − xi ) + d
k
k
k
k
k
k
k
con derivate prime e seconde continue (in corrsipondenza dei nodi) viene
chiamata spline cubica (cubic spline). Se inoltre f (x) è lineare al di fuori
dei nodi esterni allora si dice spline cubica naturale (natural cubic spline)
La soluzione del precedente problema di minimi quadrati penalizzati è
data da una particolare spline cubica naturale con opportuni nodi in
corrsipondenza dei punti xi osservati. Viene anche detta smoothing
spline.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Smoothing Splines
Attraverso l’utilizzo di un’opportuna base di funzioni (famiglia delle
B-splines) che riesce a decomporre una qualsiasi spline cubica naturale
con k nodi nella opportuna combinazione lineare di elementi della base si
può riscrivere il problema di ottimizzazione originario come problema di
forme quadratiche funzioni dei coefficienti
(Y − XB β)T (Y − XB β) + λβ T Ωβ
con soluzione finale scritta come forma lineare delle osservazioni yi .
T
−1
Ŷ = LT
B Y = XB (XB XB + λΩ) XB Y
{z
}
|
β̂
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Uso della regressione locale per la normalizzazione interna
ad un array
Un esempio tipico è quella dei grafici MA relativi ai due canali cy3 e cy5.
APO-A1 Data
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Uso della regressione locale per la rimozione/riduzione
dell’effetto di distorsione spaziale
Procedura suggerita in Wit & McClure (2004)
usare uno smoother (e.g. loess) per adattare una curve (superficie)
sulle misure di espressione affette da significativi effetti spaziali (B,
F, F/B etc.)
yi ∼ S(ri , ci ) =⇒ ŷi = Ŝ(ri , ci )
usando (r , c) come variabili indipendenti/regressori
nei residui la componente sistematica (spaziale) è rimossa
ei = yi − ŷi
Per riportarla sulla scala di origine
ŷSC ,i = ei + Median(y )
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Uso della regressione locale per la rimozione/riduzione
dell’effetto di distorsione spaziale (2)
Se vogliamo tener conto anche di eventuali effetti spaziali sulla scala si
può procedere analogamente ad una misura di effetto spaziale di scala
partendo da |ei |
|ei | ∼ Ssc (ri , ci ) =⇒ ŝci = Ŝsc (ri , ci )
e quindi
ẑi =
yi − ŷi
ŝci
Opportune trasformazioni per riportare su scala originaria basate su
Median(y ) e Median(|e|) più precisamente
ŷSC ,i = ẑi · Median(|e|) + Median(y )
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Background e spot di controllo
Alcuni spot (da poche unità, a centinaia o addirittura migliaia) vengono
stampati con delle sequenze il cui comportamento è controllato (nullo,
non-nullo) ed indipendente dalla condizione sperimentale
landing lights
cross-species hybridization
controlli sintetici (ScoreCard by Amersham: “The Lucidea Universal
ScoreCard reagents display no crosshybridization over a wide range
of biological species”)
spiking control kits
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Array di oligonucleotidi
La tecnologia degli array di oligonucleotidi ad alta densità è stata
introdotta nel lavoro di Lochart et al (1996).5 e sono prodotti con una
sintesi chimica a luce diretta.
Ogni gene è rappresentato da un insieme di sonde (probe set),
tipicamente da 11 a 20
Ogni probe contiene 2 sequenze di 25 oligonucleotidi, dette probe
pairs (PM,MM);
PM perfect match si appaiano perfettamente con il segmento di
gene considerato;
MM mismatch sono identiche a PM fatta eccezione per un singolo
mismatch.
In condizioni ideali, se un gene è espresso in un campione di cellule, i
relativi PM dovrebbero presentare un’elevata intensità mentre i MM
corrispondenti più bassa intensità.
5 Lockhart
D.J., et al. Expression monitoring by hybridization to high-density
oligonucleotide arrays. Nat Biotechnol. 1996, 14(13):1675-80.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Implementation of mas 5.0 algorithms
Simpleaffy provides a fast, C implementation of the mas 5.0 expression algorithm. As with any re-implementation of an algorithm, variat
amount of testing (testing.html) to see how close simpleaffy gets to the values generated by Affymetrix's implementations. You should
doubt, use MAS5.0 or GCOS to generate your expression calls.
Definitive descriptions of the algorithm can be found in:
1. Hubbell E, et al. (2002) Robust estimators for expression analysis Bioinformatics. 18(12):1585-92.
2. Affymetrix (http://www.affymetrix.com) ' whitepaper, Statistical algorithms description document
and we've also written a more informal description based on these, which can be found below...
The Affymetrix mas 5.0 expression summary algorithm
Before considering the algorithm, you should b
works. The job of the expression summary alg
and Mis-Match (MM) probes, and use these
estimated amount of transcript in solution, as m
To do this, .DAT files containing array images
which contains measured intensities for each p
analysed by the expression calling algorithm.
Not only do arrays contain PM and MM spots designed to measure transcript levels, they also contain a series of control spots that, for
help the image analysis software align the array properly. These spots are not considered by the analysis algorithm and are simply ignore
Background correction
The first step is to correct the array for background signal, by calculating the background
level for each spot and subtracting it. The array is divided into a set of regions (by default,
4x4) and the average background calculated for each zone. This is the mean intensity of the
lowest 2% of the spots in each region.
Although dividing the array into different regions allows different parts of the chip to have
different backgrounds, simply using these would result in discontinuities between each grid
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
(cont)
PM-MM → probe set;
Affymetrix: chip di silicone;
Bead-based arrays: oligonucleotidi su fibre ottiche.
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Affymetrix: dal chip ai dati
milioni di molecole di una particolare sonda sono posizionate su un
are di 400µm2 del chip;
l’immagine viene processata da uno scanner Affymetrix ed ogni
sonda viene rappresentata da circa 100 pixels una specifica zona
dell’immagine:
il software di analisi dell’immagine, produce 2 tipi di files:
CEL che contiene la media, la deviazione standard e la locazione di
tutte le sonde;
CDF che contiene le informazioni realative ai geni e alla locazione
delle sonde sul chip.
I valori di tutte le sonde vengono sintetizzati restituendo all’utente
finale una singola misura di espressione per ogni gene.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
NORMALIZATION
Table 4.5 Affymetrix data information files.
Data files
*.exp
*.dat
*.cel
*.chp
*.rpt
experimental information file
image file
probe intensity file
gene intensity file
report file
Probe information files
*.cif
*.cdf
*.msk
chip information file
chip description file
mask file
ap from the probes to the gene names is needed. This information is stored
e CDF file. Unless different GeneChip types were used, only one CDF file is
ed for an experiment that consists of several arrays.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Estrazione della misura di espressione
Interveniamo in due diversi livelli:
segnale di ciascuna singola probe → eventuale preprocessing per
rimuovere il background locale usando i MM
segnale di ciascun probe set
Diverse opzioni per rimuovere il rumore di background:
Sgj = PMgj − pMMgj (p ∈ [0, 1] ad hoc) + MAS 4.0 AvDiffg (media
trimmed di PM-MM) oppure + MAS 5.0 Media robusta (Tukey
biweight)
Sgj = log (PMgj /MMgj )
Sgj = max{PMgj − Īempty , 0}
correzione probabilistica basata su modello (RMA [add. su scala log]
Irizarry et al. rma, normexp simile a MBEI [molt] Li & Wong)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Estrazione del segnale per la singola probe - aspetti critici
Se MMgj è misurato con errore non rischiamo di compromettere la
rilevazione del segnale usando MMgj − PMgj ? ( ... dipende ...)
Se la presenza di un solo nucleotide di differenza in MMgj non
previene dall’ibridarsi possiamo perdere interamente il segnale
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Correzione del background probabilistica
Y=B+S
B: segnale dovuto al background
S: segnale dovuto ad un legame specifico
Y: segnale osservato
E [S|Y ]
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Estrazione del segnale per il gene/probe set)
Per dati di tipo Affymetrix, il livello di espressione non è direttamente
misurato ma ottenuto combinando PM e MM.
PMgj e MMgj perfect match and mismatch
per il gene/(probeset) g (g = 1, ..., G ) e probe j (j = 1, ..., mg );
mg : numero di sonde (probe) per gene/probe-set g ;
.... inizialmente non si era tenuto conto del possibile bias introdotto mappando vicine
sull’array le probe dello stesso probe set
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Correzione del background a livello di singola probe (pair)
MMgj possono essere utilizzati per aggiustare i PMgj per depurare il
segnale specifico dall’errore:
Ygj = PMgj − MMgj
Ygj misura del livello di ibridazione del gene g del probe i.
Il segnale Sgj può essere quindi valutato come Sgj = Ygj . Problemi
quando MMgj > PMgj .
Oppure si può usare la scala logaritmica
Ygj = log(PMgj /MMgj )
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Correzione del background: II
Tuttavia può accadere che
Ygj = PMgj − MMgj < 0
MMgj dovrebbe essere aggiustato mediante un valore ideal IMgj (ideal
mismatch value) tale che
0 < IMgj < PMgj
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Correzione del background: III
Irizarry et al. (2002): la moda di log MMgj come stimatore naturale del
background (globale)6
log (PMgj ) − mode(log (MMgj ))
0
−4
−2
log2(PM/MM)
2
4
a) log2(PM/MM) Histograms by log2(PMxMM)
0.0
0.2
0.4
0.6
0.8
1.0
log2(PMxMM) quantile
c) medium (25−75%) abundance
0
0
5000
5000
10000
10000
15000
15000
20000
b) low (0%−25%) abundance
−5.7
−5.1
−4.4
−3.8
−3.1
−2.5
−1.8
−1.2
−0.5
0.2
0.8
1.5
2.1
2.8
3.4
4.1
4.7
5.4
−5.7
−5.1
−4.4
−3.8
−3.1
−2.5
−1.8
−1.2
−0.5
0.2
0.8
1.5
2.1
2.8
3.4
4.1
4.7
5.4
2.8
3.4
4.1
4.7
5.4
e) very (95%−100%) high abundance
0
0
500
200
1000
1500
400
2000
2500
600
3000
3500
800
d) high (75%−95%) abundance
−5.7
6 vedi
Fig. 5, Irizarry et al (2003)
−5.1
−4.4
−3.8
−3.1
−2.5
−1.8
−1.2
−0.5
0.2
0.8
1.5
2.1
2.8
3.4
4.1
4.7
5.4
−5.7
−5.1
−4.4
−3.8
−3.1
−2.5
−1.8
−1.2
−0.5
0.2
0.8
1.5
2.1
Figure
1: a) Histograms of log ratio log2 (PM/MM), stratified by quantiles of abundance,
√PM
log2
× MM, with gray scale representing height of histogram (light grays are high and dark grays
are low) for one array from the mouse data set. The histograms have been scaled so that the mode of
each histogram is represented with the same gray scale. b) Histogram of log ratios for first quartile
of abundance with the histogram for the defective probes represented by a darker gray. c) Like b) for
abundance values between first and third quartile. d) Like b) for abundance values in the last quartile
excluding the highest 5 percent. e) Like b) for the highest 5 percent of abundance.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Misura di espressione del gene/probeset
Il segnale Sg per il gene g può essere misurato come
Pmg
Pmg
(PMgj − MMgj )
Ygj
Sg = i=1
= i=1
mg
mg
Per oviare ai problemi di outlier →
in MAS 4.0 AvDiff accorgimenti ad hoc per le differenze negative e
la media era ristretta alle sole probe i che non eccedevano di 3 volte
lo scostamento quadratico medio calcolato rimuovendo i due estremi
in MAS 5.0 2 varianti: uso della trasfromazione logaritmica per le
differenze e stimatore robusto della locazione (Tukey biweight,
stimatori M [Huber, 1981])
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Misura di espressione del gene/probeset II
Irizarry et al. (2003): la moda di MMgj come stimatore background
globale
Pmg
i=1 log (PMgj − mode(log (MMgj )))
Sg = exp
mg
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Correzione del background: approccio basato sul modello
Li and Wong (2001)7 propongono un approccio basato sul modello.
Indichiamo MMij e PMij i MM e PM per l’array i e la sonda j for un gene
fissato. Il modello proposto è il seguente:
MMij = νj + θi αj + PMij = νj + θi αj + θi φj + 7 Li, C. and Wong, W. (2001). Model-based analysis of oligonucleotide arrays:
Expression index computation and outlier detection. Proceedings of the National
Academy of Science U S A 98, 31–36.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Li and Wong (2001)
MMij = νj + θi αj + PMij = νj + θi αj + θi φj + νj : effetto della sonda j-ma dovuta a ibridazione non specifica;
θi : effetto gene nell’array i-mo;
αj : tasso di crescita dei MM per la sonda j−ma;
φj : tasso di crescita aggiuntivo dei PM per la sonda j−ma.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Li and Wong (2001) (cont)
Una formulazione equivalente del modello è la seguente:
Yij = PMij − MMij = θi φj + ij
dove
θi : vero segnale
φj : effetto probe
ij : errore dove ij ∼ N(0, σi2 )
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Li and Wong (2001) (cont)
Il modello
Yij = PMij − MMij = θi φj + ij
è identificato sole se vengono aggiunti alcuni vincoli. Li e Wong (2001)
propongono
X
φ2j = J
j
dove J è il numero di sonde.
La stima del modello è effettuata mediante il metodo di massima
verosimiglianza o dei minimi quadrati.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Variante in Irizarry (2003)
˜ gj = θg + φj + gj
log PM
θg : effetto gene g
φj : effetto della sonda j-ma
P
Usuali vincoli di identificabilità j φj = 0
Uso di repliche biologiche e stima robusta dei parametri del modello
ANOVA (median-polish) → RMA Robust Multi-array Average (rma)
˜ gjk = θgk + φjk + gjk
log PM
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
R per l’analisi di dati Affymetrix
Pacchetto affy
Analisi dei dati più dettagliata (probe-level data)
Importazione di dati in formato CEL:
CEL <- read.celfile(filename.cel)
Importazione di dati in formato CDF:
CDF <- read.cdffile(filename.cdf)
Visualizzazione dell’immagine: image()
File Plob: combina le informazioni della classe CEL e CDF
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Un caso di studio: Dilution
2 cRNA A (cellule di fegato umano) e B (cellule del sistema nervoso)
sono state ibridizzate su un array umano (HGU95A) con 2 diverse
proporzioni.
20A e 20B : 2 replicazioni della concentrazione 20;
10A e 10B: 2 replicazioni della concentrazione 10;
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Un caso di studio: Dilution
I dati sono contenuti nel pacchetto affy.
library(affydata)
data(Dilution): carica i dati
pm(Dilution) e mm(Dilution)
exprs(Dilution): matrice delle espressioni di dimensione #sonde
× #array
library(affyPLM)
fitPLM(Dilution)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
RMA e AffyPLM
2.4.2
RMA style PLM
These are variations of the RMA model each consisting of models with chip and pr
effects . The first, PM ∼ -1 + samples + probes, is the default model used whe
model is specified in the fitPLM call.
Model
yij1 = βj + αi + ij
yij1 = µ + βj + αi + ij
yij1 = βj + ij
yij1 = µ + βj + ij
yij2 = βj + αi + ij
yij2 = µ + βj + αi + ij
yij2 = βj + ij
yij2 = µ + βj + ij
2.4.3
fitPLM syntax
PM ∼ -1 + samples + probes
PM ∼ samples + probes
PM ∼ -1 + samples
PM ∼ samples
MM ∼ -1 + samples + probes
MM ∼ samples + probes
MM ∼ -1 + samples
MM ∼ samples
PLM with chip-level factor and covariate variables
These models use treatment variables as an alternative to sample effects for the
level factors.
Model
yij1 = xTj θ + αi + ij
T
fitPLM syntax
PM ∼ -1 + treatment + trt.cov + probes
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Robust M-estimate
-6
-4
-2
0
2
4
6
w LS(e)
-6
-4
-2
e
0
2
4
0.0 0.2 0.4 0.6 0.8 1.0
5
0
ψLS(e)
-10 -5
15
0 5
ρ LS(e)
25
10
35
Least Squares
6
-6
-4
-2
e
0
2
4
6
2
4
6
2
4
6
e
-6
-4
-2
0
2
4
6
w H(e)
-6
-4
-2
e
0
2
4
0.0 0.2 0.4 0.6 0.8 1.0
1.0
0.0
ψH(e)
-1.0
ρ H(e)
0 1 2 3 4 5 6 7
Huber
6
-6
-4
-2
e
0
e
w B(e)
-1.0
0
-6
-4
-2
0
2
4
6
e
-6
-4
-2
0
2
4
6
0.0 0.2 0.4 0.6 0.8 1.0
0.0
ψB(e)
2
1
ρ B(e)
3
1.0
Bisquare
-6
-4
-2
e
0
e
Figure 1: Objective, ψ, and weight functions for the least-squares (top), Huber (middle), and bisquare
(bottom) estimators. The tuning constants for these graphs are k = 1.345 for the Huber estimator and
k = 4.685 for the bisquare. (One way to think about this scaling is that the standard deviation of the errors,
σ, is taken as 1.)
Method
Objective Function
Weight Function
Least-Squares
ρ (e) = e2
wL S (e) = 1
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Analisi esplorativa: qualità dei dati
In molte applicazioni, l’obiettivo è quello di confrontare il livello di
espressione in diverse condizioni sperimentali.
Tuttavia le differenze nei segnali osservati possono essere dovute ad altre
fonti di variabilità introdotte nelle varie fasi dell’esperimento:
preparazione del campione biologico;
preparazione dell’array;
labeling, ibridizzazione e scanning;
....
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Qualità dei dati: variabilità tra array
I diversi array di una stessa condizione sperimentale sono replicazioni e
pertanto dovrebbero essere simili.
Boxplot di ogni array → quantili simili
MVA plot: → punti intorno alla retta orizzontale in 0
PM1
M = log2 PM
√ 2
A = log2 PM1 − PM2
dove PM1 e PM2 rappresentano le intensità di una stessa sonda
(probe) per array 1 e array 2.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Esperimenti comparativi
Partiamo dall’esempio più semplice in cui ci sono 2 condizioni
sperimentali che si vogliono mettere a confronto con esperimenti condotti
con microarray.
La domanda è:
quali geni sono differenzialmente espressi nelle due condizioni?
(geni interessanti, attivi, differenzialmente espressi,
(sovra/sotto)-regolati)
Possibili approcci
1
Si può rispondere guardando al singolo gene ed impostando un
problema di verifica di ipotesi facendo attenzione al disegno
sperimentale adottato (dual-channel vs single-channel). Si deve
replicare la procedura su ciascuno dei geni considerati
2
Si può impostare un modello (mistura) in cui l’espressione
differenziale deve essere stimata come quantità nulla o non-nulla
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Confronto tra due gruppi: strumenti
Facciamo una ricognizione degli strumenti metodologici principali:
verifica di un’ipotesi per il confronto tra due gruppi
verifica di molte ipotesi per il confronto tra due gruppi (→
molteplicità)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Test d’ipotesi
per un parametro di espressione differenziale ∆g = µ1,g − µ2,g
bipartizione dello spazio parametrico (non del tutto scontata)
regola di decisione (accettazione/rifiuto)
consegunze di errate decision → errori → garanzie (parziali,
probabilistiche)
statistica test
distribuzione sotto l’ipotesi nulla
strumenti equivalenti/alternativi: i) statistica test e soglie; ii)
statistica test e p-value
(falsificazione, asimmetria, accettazione alternativa ...)
Interpretazione del p-value
Significatività statistica 6= significatività biologica
Significatività alla Neyman e Pearson ; Significatività pura alla Fisher
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Confronti tra due gruppi
Inizialmente affidati alla misurazione del fold-change, di ciascun gene, ma
ben presto sostituiti da veri e propri test statistici
test parametrici sotto l’assunzione di normalità
statistiche test, distribuzione sotto H0 , p-values e regole di decisione
tipi di errore e controllo degli errori
validità delle ipotesi distributive, diagnostiche, robustezza e
modifiche alle statistiche test
test non parametrici (esatti ed asintotici)
pro e contro
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Test parametrici sotto l’assunzione di normalità
Xg ,c,rc ∼ N µg ,c , σ 2
Per un gene fissato g (g = 1, ..., G ) guardo al singolo gene
2 condizioni sperimentali c=1,2
per le quali ho osservato n1 e n2 replicazioni
Statistica test: Student’s T
tg =
x̄g ,1 − x̄g ,1
q
sg n11 + n12
sotto le ipotesi date .... ha distribuzione Tn1 +n2 −2
Controllo l’errore nel test basato sulla statistica test
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Test parametrici sotto l’assunzione di normalità
Xg ,c,rc ∼ N µg ,c , σ 2
Ci riferiamo al p-value
pg = 2Pr {Tg ≥ |tg |; } = Pr {|Tg | ≥ |tg |; }
che (considerando tg come aleatorio) ha distribuzione uniforme sotto
l’ipotesi nulla che µg ,1 = µg ,2
In alcune circostanze ci interessa sottoporre a verifica l’ipotesi che
l’espressione differenziale media µg ,1 − µg ,2 sia superiore (inferiore)
ad una soglia prefissate ∆
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Statistica T di Satterthwaite Welch
x̄g ,1 − x̄g ,1
tg = q 2
sg ,1
sg2,2
n1 + n2
Approssimativamente distribuito come Tν con
ν=
2
sg2,1
sg2,2
+
n1
n2
2
2 2
s2
g ,1
n1
n1 −1
s
+
g ,2
n2
n2 −1
anche quando le varianze non sono uguali la distribuzione sotto
l’ipotesi nulla è approssimativamente Tν
più robusta sotto H0 ma perde in termini di potenza sotto H1
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Definizione generale di p-value
Si consideri una procedura di verifica di ipotesi determinata dalla regione
di rifiuto Rα corrsipondente ad un prefissato livello di probabilità α di
commettere un errore di I specie. Assumiamo che per tale procedura
valga la relazione Rα ⊆ Rα0 per ogni α ≤ α0 . Si può definire in generale,
in corrispondenza di un determinato campione Xobs il p-value come
p(Xobs ) = inf {α : Xobs ∈ Rα }
ovvero la più piccola probabilità di commettere errori di prima specie che
possiamo considerare in un test in modo tale che il test condotto con i
dati osservati Xobs stabilisca il rifiuto dell’ipotesi nulla.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Procedure che aggirano l’ipotesi di normalità
E’ poco realistico pensare che l’ipotesi di normalità possa essere valida in
corrispondenza di tutti i geni g = 1, ..., G ovvero che valga
l’approssimazione del TLC ...
Quali alternative?
Test di randomizzazione e di permutazione
Ricampionamento e bootstrap
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Test di randomizzazione e di permutazione
Scambiabilità, invarianza rispetto a permutazioni (di ordine, di
etichetta,...)
Test esatti, talvolta solo idealmente ma approssimati con metodo
Monte Carlo
Possiamo usare statistiche arbitrarie
Problemi in caso di distribuzioni con varianza diversa (preferibile
bootstrap)
Il test di Wilcoxon (Mann-Whitney) è un test di
permutazione/randomizzazione
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Principio dei test di permutazione
I test di permutazione si basano sul principio che per rappresentare
un’ipotesi nulla di riferimento in un’analisi comparativa (due condizioni)
con assenza di effetti differenziali le osservazioni possano essere
scambiabili
enumerazione di tutte le possibili permutazioni delle osservazioni ed
ottenimento della distribuzione sotto l’ipotesi nulla (test esatti)
nel caso l’enumerazione e la lista completa sia computazionalmente
proibitiva si procede a campionarne un sottoinsieme (test di
permutazione approssimato)
Attenzione. Il test di permutazione con tale ipotesi rileva come violazione
dell’ipotesi nulla anche quelle situazioni in cui le due distribuzioni hanno
in realtà media uguale ma distribuzione intorno ad essa diversa.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Test di Wilcoxon
Basato sulla statistica test somma dei ranghi (rank sum)
Wg =
n1
X
Rank(xg ,1,r1 )
r1 =1
e sulla distribuzione sotto l’ipotesi nulla che l’ordine sia irrilevante e
quindi i ranghi siano casualmente distribuiti in modo uniforme, ovvero in
cui ciascuna permutazione è equiprobabile
Distribuzione esatta per valori piccoli di n1 e n2
Altrimenti approssimazione normale
Wg −
q
n1 (n1 +n2 +1)
2
n1 n2 (n1 +n2 +1)
12
≈ N(0, 1)
Altrimenti ancora approssimazione Monte Carlo
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Ricampionamento e Bootstrap per la verifica d’ipotesi
Filosofia: ricampionare dalla distribuzione empirica condizionando ai
gruppi ove opportuno
+ Non richiede assunzioni parametriche, praticamente funziona con
qualsiasi distribuzione
+ Facilmente implementabile ed adattabile a diverse statistiche test
+ Risultati di validità asintotica.
- Nessuna garanzia di controllo per campioni di dimensione finita.
- Tempi di elaborazione
- Ipotesi di indipendenza delle osservazioni (varianti)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Ricampionamento e Bootstrap
Ricampionando X1b , ..., Xnb con Xib ∼ Fn e calcolando
T b = T (X1b , ..., Xnb ) per b = 1, ..., B (B ripetizioni bootstrap) otteniamo
B
la distribuzione bootstrap FˆT come distribuzione empirica dei B valori
simulati T 1 , ..., T b , ..., T B
Per l’approssimazione della distribuzione campionaria fT (t; F ) di una
statistica di interesse T = T (X1 , ..., Xn ) con X1 , ..., Xn i.i.d Xi ∼ F
Per il calcolo della distorsione di uno stimatore ed eventuale
correzione
Per il calcolo dell’errore standard dello stimatore
Per il calcolo di intervalli di confidenza per parametri di interesse
Per procedure di verifica di ipotesi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Ricampionamento e Bootstrap
Alcuni problemi di approssimazione (distorsione) quando la distribuzione
bootstrap presenta evidenti caratteristiche di asimmetria
Diverse possibilità per correggere/limitare il problema (BCa )
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Il problema della molteplicità dei test
Consideriamo contemporaneamente i seguenti sistemi di ipotesi:
(
H0g : il gene g non è differenzialmente espresso
H1g : il gene g è differenzialmente espresso
g = 1, 2, ..., G
Non Expressed
Expressed
TOT
Non Discovery
TN
FN
N =G −D
Discovery
FP
TP
D
Tot
G0
G1
G
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Il problema della molteplicità dei test (2)
Qual è il numero atteso di falsi positivi FP ?
Qual è la probabilità che su un numero G di test indipendenti tra
loro si verifichi almeno un falso positivo?
Perdita di significato del controllo dell’errore (I specie) nei test
multipli → aggiustamenti
Prima di considerare modi alternativi di affrontare la questione della
molteplicità ricordiamo l’inevitabile trade-off (significatività-potenza,
sensibilità-specificità, false discovery-false nondiscovery, test
conservativo e test potente).
ricordiamo anche la differenza tra impostazioni Freq./Bayes.
Questioni filosofiche e suggerimenti pragmatici
distinguere il ruolo esplorativo da quello confermativo
pre-selezione dei geni (gene filtering) da sottoporre a verifica
informazioni accessorie sul ruolo e le funzioni dei vari gruppi di geni
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Principali nozioni, indicatori e strumenti per il controllo
della molteplicità
Do un singolo outcome binario (funzione test) a un outcome multiplo
binario per il quale vogliamo formalizzare delle nozioni alternative di tasso
di errore (sintesi)
PFER ≥ FWER ≥ FDR ≥ PCER
Altri criteri: EER, k − FWER e FDX (p)
Controllo debole e forte (H0G e H0 1GΛ ), esatto (sharp e non) e
asintotico
Limiti di validità delle ipotesi sulla distribuzione congiunta dei
p-values e/o delle statististiche test
Procedure single step e procedure stepwise, (step down, step up). Le
procedure step up tipivamente più liberali rispetto a quelle
step-down. Si considerano le ipotesi in modo sequenziale usando
come criterio l’ordinamento dei p-value
Controllo di un criterio d’errore, aggiustamento delle soglie di errore,
delle regioni di rifiuto ed aggiustamento dei p-value
Scala di misurazione e significato dei p-value aggiustati e non
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Principali nozioni, indicatori e strumenti per il controllo
della molteplicità (2)
PFER ≥ FWER ≥ FDR ≥ PCER
ER =
E [FP +FN ]
G
PFER = E [FP ]
FWER
Pr {FP ≥ 1}
FDR
FDR = E
PCER =
E [FP ]
G
FP
FP ID>0 = E
D
>
0
Pr {D > 0}
D
D
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Relazioni d’ordine
Notare che
0 ≤ FP ≤ D ≤ G
Inoltre,
D = 0 =⇒ FP = 0
e quindi
FP
FP
≤
ID>0 ≤ IFP >0 ≤ FP ≤ FP + FN
G
D
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
La distribuzione congiunta delle statistiche test o dei p-value è
rilevante per FWER e FDR (e.g. dipendenza
per FDR è rilevante in particolare la distribuzione anche sotto le
ipotesi alternative =⇒ è più difficile da studiare
Dipendenza dalla frazione GG0 e coincidenza di FDR con FWER
quando GG0 = 1 (i.e. G, complete null)
MULTIPLE HYPOTHESIS TESTING
77
F IG . 2. Type I error rates, simple example. Plot of Type I error rates versus individual test size α, for different proportions of true null
hypotheses, m0 /m = 1, 0.9, 0.5, 0.1. The model and multiple testing procedures are described in Section 2.2. The number of hypotheses is
m = 100 and the parameter d was set to 1. FWER: red curve; FDR: blue curve; PCER: green curve.
La quantità aleatoria chiave sarà FDP = FDP ID>0 . Qualche volta
FDP viene indicato come (denominato) FDR. Nella nostra
accezione sarà invece FDR = E [FDP].
would just be rejected, given the values of all test statistics involved (Hommel and Bernhard, 1999; Shaffer,
1995; Westfall and Young, 1993; Wright, 1992; Yekutieli and Benjamini, 1999). If interest is in controlling
the FWER, the adjusted p-value for hypothesis Hj ,
given a specified multiple testing procedure, is p̃j =
inf{α ∈ [0, 1] : Hj is rejected at nominal FWER = α},
where the nominal FWER is the α-level at which the
specified procedure is performed. The corresponding
random variables for unadjusted and adjusted p-values
are denoted by Pj and P̃j , respectively. Hypothesis Hj
is then rejected, that is, gene j is declared differentially expressed at nominal FWER α if p̃j ≤ α. Note
that for many procedures, such as the Bonferroni procedure described in Section 2.4.1, the nominal level is
usually larger than the actual level, thus resulting in
a conservative test. Adjusted p-values for procedures
controlling other types of error rates are defined similarly, that is, for FDR controlling procedures, p̃j =
inf{α ∈ [0, 1] : Hj is rejected at nominal FDR = α}
(Yekutieli and Benjamini, 1999). As in the single
hypothesis case, an advantage of reporting adjusted
p-values, as opposed to only rejection or not of the hypotheses, is that the level of the test does not need to
be determined in advance. Some multiple testing procedures are also most conveniently described in terms
Altre misure di controllo sono basate su quantili ovvero probabilità
di FDP estremi (FDX (k) = Pr {FDP > k}).
Nozioni speculari per valutare globalmente il tasso di errore di tipo
falso negativo ovvero la potenza complessiva in un test multiplo
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: Family-Wise Error Rate
Metodi di controllo:
Bonferroni (single step) t = α/G
√
Sidak (single step) t = 1 − G 1 − α
Westfall & Young min p e max T (single step)
step down - Holm [Bonferroni] p(g ) < tg = α/(G − g + 1),
√
p(g ) < tg = 1 − G +g +1 1 − α
step up - Hochberg [Simes]
step down (+min P +max T ) Westfall-Young. Basata sulle
distribuzioni Fp,r del minimo degli ultimi r = G − g + 1 (rimanenti)
p-value a partire dall’indice che individua il g -esimo p-value
W&Y min P (single step) = Sidak sotto G e indipendenza altrimenti
approssimato per simulazione
Sidak, indipendenza e condizione di Sidak valida per alcune distribuzioni
multivariate
min P + pesante computazionalmente, più conservativo, coincide con
max T quando c’e’ identica distribuzione di Tj
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: Bonferroni
Controllo forte del FWER valido sotto qualunque ipotesi distributiva:
Disuguaglianza
Aggiustamento del livello di significatività del test singolo
αgADJ =
α
G
Aggiustamento della regione di rifiuto del test singolo
Aggiustamento del singolo p-value
pgADJ = G · pg
Interpretazione del p-value aggiustato
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: Sidak
Controllo debole del FWER valido solamente sotto l’ipotesi di
distribuzione congiunta delle statistiche test a componenti indipendenti
Disuguaglianza
Guadagno limitato in termini di liberalità nel rifiuto delle ipotesi
nulle rispetto a Bonferroni
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: Holm
Procedura step down che si basa sulla considerazione dei p-value ordinati
p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G )
Dichiara significativi i test con valore p(g ) per ogni g ≤ gα∗ dove gα∗ è il
più grande intero che soddisfa
p(j) ≤
α
G −j +1
∀j ≤ g
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: Holm
Procedura step down che si basa sulla considerazione dei p-value ordinati
p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G )
Dichiara significativi i test con valore p(g ) per ogni g ≤ gα∗ dove gα∗ è il
più piccolo intero che soddisfa
pgα∗ +1 >
α
G − gα∗
Se tale gα∗ non esiste allore la procedura non rifiuta alcuna ipotesi nulla
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: Holm - p-value aggiustati
Procedura step down che si basa sulla considerazione dei p-value ordinati
p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G )
Può essere anche definita attraverso i p-value aggiustati
pgADJ = max(G − j + 1)p(j)
j≤g
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Alcune considerazioni utili sulle statistiche d’ordine (1)
Sulle notazioni:
Attenzione: pg non necessariamente corrisponde a p(g ) . Si considerino G
valori p1 , ..., pG e i corrispondenti valori ordinati
p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G )
In effetti al generico indice originario g corrisponde la statistica d’ordine
p(r (g )) dove la notazione r (g ) indica la posizione in classifica (rank)
secondo l’ordinamento non decrescente del valore pg
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Alcune considerazioni utili sulle statistiche d’ordine (2)
Per le dimostrazioni:
Valgono le seguenti implicazioni:
1
2
Se p(g ) ≤ M allora (=⇒) vi sono almeno g tra i valori originari
p1 , ..., pG tali che pj ≤ M per ogni j ovvero esiste un sottoinsieme
F ⊂ G tale che |F| ≥ g
pj ≤ M
Se esistono g0 valori pj > M ovvero un sottoinsieme F ⊂ G di
cardinalità |F| = g0 tale che
pj > M
∀j ∈ F
allora
p(G −g0 +1) > M
Qualità dell’informazione numerica e pre-processing
Infatti
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: principio di chiusura
Supponiamo che esista una procedura (locale) che per ogni sottoinsieme
I ⊂ {1, 2, ..., G } garantisce il controllo debole dell’errore (FWER) sotto
l’ipotesi nulla completa (locale)
\
H0I =
Hg = H0,g
g ∈I
Il principio di chiusura afferma che la procedura che si basa sulle
procedure locali e che per ogni I decide di rifiutare Hg solo se vengono
rifiutate con le corrispondenti procedure locali le ipotesi in I con g ∈ I .
Analogamente si rifiutano tutte le ipotesi in I 0 quando vengono rifiutate
con le corrispondenti procedure locali le ipotesi in I per ogni I 0 ⊂ I .
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: Hochberg
Procedura step up che si basa sulla considerazione dei p-value ordinati
p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G )
Dichiara significativi i test con valore p(g ) per ogni g ≤ gα∗∗ dove gα∗∗ è il
piu grande intero che soddisfa
p(g ) ≤
α
G −g +1
8
8 Derivabile
di Simes
sfruttando il principio di chiusura da una generalizzazione dell’identità
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: Hochberg - p-value aggiustati
Procedura step up che si basa sulla considerazione dei p-value ordinati
p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G )
Può essere anche definita attraverso i p-value aggiustati
pgADJ = min(G − j + 1)p(j)
j≤g
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: Westfall & Young - min-P
Si usano test di permutazione (congiunti) per garantire il controllo in
senso debole del FWER sotto l’ipotesi nulla globale usando come
statistica test una funzione di tutte le statistiche test, in particolare
min
g ∈{1,2,...,G }
pg
Una procedura single-step siffatta controlla FWER in senso debole ovvero
sotto H0G
Da questa si può derivare una procedura step-wise con controllo in senso
forte usando i seguenti p-value aggiustati
ADJ
p(g
) = max πg
j≤g
dove
πg = PH G
0
min Pj ≤ p(g )
j∈Og
Og = {og , og +1 , ..., N} e og è l’indice originario del g -esimo p-value (in
ordine non decrescente) pog = p(g )
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Subset Pivotality
Il controllo debole è definito in corrispondenza dell’ipotesi che tutte le
H0g sono vere.
Si parla invece di controllo forte quando è possibile garantire il tasso di
errore qualsiasi sia l’insieme delle ipotesi H0g che sono vere g ∈ GΛ
Per ottenere il controllo in senso forte delle procedure min-P e max-T si
assume la condizione di subset-pivotality che richiede che la distribuzione
dei p-value {pg }g ∈GΛ sia la stessa sotto {H0g }g ∈GΛ e sotto {H0g }g ∈G
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: Westfall & Young - min-P
Relazione con procedura di Holm:
L’ipotesi g è rfiutata se il p-value aggiustato di Holm
maxj≤g (G − j + 1)p(j) ≤ α
Dalla definizione di πg
X
πg ≤
PH G (Pj ≤ p(g ) ) = (G − g + 1)p(g )
0
jinOg
si ha che se il p-value aggiustato di Holm è limitato da α allora anche
πg ≤ α e quindi anche la procedura min-P di Westfall e Young rifiuta.
Dunque W&Y rifiuta più spesso.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FWER: Westfall & Young – max-T
Si usano test di permutazione (congiunti) per garantire il controllo in
senso debole del FWER sotto l’ipotesi nulla globale usando come
statistica test una funzione di tutte le statistiche test, in particolare
max
g ∈{1,2,...,G }
Tg
Una procedura single-step siffatta controlla FWER in senso debole.
Da questa si può derivare una procedura step-wise con controllo forte
usando i seguenti p-value aggiustati
ADJ
p(g
) = max πg
j≤g
dove
πg = P max Tj ≥ t(g )
j∈Og
e Og = {og , og +1 , ..., N} e og è l’indice originario del g -esimo p-value (in
ordine non decrescente) pog = p(g )
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FDR: Benjamini & Hochberg
Procedura step up che si basa sulla considerazione dei p-value ordinati
p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G )
Dichiara significativi i test con valore p(g ) per ogni g ≤ gα∗ dove gα∗ è il
piu grande intero che soddisfa
p(g ) ≤
Graficamente ....
gα
G
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
FDR: Benjamini & Hochberg
Procedura step up che si basa sulla considerazione dei p-value ordinati
p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G )
Dichiara significativi i test con valore p(g ) per ogni g ≤ gα∗ dove gα∗ è il
piu grande intero che soddisfa
p(g ) ≤
gα
G
BH dimostrano che la procedura garantisce
FDRBH ≤
G0
α
G
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
confronto tra BH e Hochberg
set.seed(350)
par(mfrow=c(1,2))
alpha=0.05
G=100
x=seq(1,G)
plot(x,alpha*x/G,ylim=c(0,0.2),type="l")
points(x,alpha/(G-x+1),col="red",type="l")
p=runif(G)
points(x,sort(p),pch=16)
p=rbeta(G,1,23)
points(x,sort(p),pch=16,col="blue")
plot(x,alpha*x/G,ylim=c(0,0.05),type="l",xlim=c(0,50))
points(x,sort(p),pch=16,col="blue")
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
p-FDR: Positive False Discovery Rate
Approccio seguito da Storey (JRSS B 2002, AS 2003)
FP FP
ID>0 = E
FDR = E
D
>
0
Pr {D > 0}
D
D
FP p − FDR = E
D
>
0
D
la definizione condizionata a D > 0 è meno ovvia, ma produce dei vantaggi in
termini di interpretazioni alternative ed approcci alternativi per il controllo
+ si potrebbe argomentare che il caso D = 0 è poco interessante
+ quando ci si attende quasi certamente almeno un gene interessante
Pr {D > 0} ≈ 1 le nozioni coincidono
+ banalmente vale FDR ≤ p − FDR e dunque il controllo del secondo garantisce
anche il primo
- in effetti se G = G0 si avrebbe FP = D e quindi il controllo d’errore basato sulla
nozione proposta non sarebbe attuabile (in senso classico)!
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
p-FDR: Positive False Discovery Rate
Cambiamo in parte prospettiva ed immaginiamo un contesto un in
cui non solo i test multipli avvengano secondo una distribuzione
congiunta ma anche le ipotesi siano probabilizzate.
Si assumono ipotesi Hg ∈ {H0g , H1g } secondo una legge i.i.d. di
Bernoulli con probabilità π0 = Pr {Hg = H0g }.
Sotto queste condizioni Storey dimostra che
p − FDR = Pr {Hg = H0g |Tg ∈ Γg }
dove Γg è un’opportuna regione di rifiuto individuata per il singolo
test basato sulla statistica test Tg . Laddove necessario si
specificherà nella notazione Γg (α) la corrispondente significatività
del test singolo.
Storey propone diversi metodi per stimare p − FDR con valori che
tendono a sovrastimarlo e quindi a controllare FDR in modo conservativo.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
p-FDR: Dimostrazione del risultato di Storey
Riscriviamo p − FDR in termini di regioni di rifiuto e consideriamo
l’evento D > 0 decomposto come
D>0=
G
[
D=r
r =1
in modo tale che si possa condizionare all’evento D = r . In questo modo,
FP
p − FDR = E
|D > 0 =
D
G
X FP
|D = r Pr {D = r |D > 0} =
=
E
D
r =1
G
X
FP
=
E
|D = r Pr {D = r |D > 0}
r
r =1
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
p-FDR: Dimostrazione del risultato di Storey
Dal momento che con r rifiuti di H0g il numero di falsi positivi ovvero r
discoveries FP corrisponde ad una somma di r eventi bernoulliani con
generica probabilità di un test g di risultare falso positivo.
Nell’impostazione adottata l’ipotesi può essere vera o falsa con opportuna
probabilità a priori e dunque il test g risulta tra gli r test rifiutati uno tra
i falsi positivi con opportuna probabilità a posteriori. In formula,
Pr {Hg = H0g |Tg ∈ Γg } =
Pr {Tg ∈ Γg |Hg = H0g }π0
Pr {Tg ∈ Γg |Hg = H0g } · π0 + Pr {Tg ∈ Γg |Hg = H1g } · (1 − π0 )
e quindi tenuto conto del fatto che il valore atteso della v.a. binomiale in
questione è
FP
rPr {Hg = H0g |Tg ∈ Γg }
E
|D = r =
r
r
si ottiene ...
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
p-FDR: Dimostrazione del risultato di Storey (2)
p − FDR
= E
=
=
FP
|D > 0 =
D
G
X
rPr {Hg = H0g |Tg ∈ Γg }
Pr {D = r |D > 0}
r
r =1
G
X
r =1
Pr {Hg = H0g |Tg ∈ Γg }Pr {D = r |D > 0}
= Pr {Hg = H0g |Tg ∈ Γg }
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
q-value per il controllo di p − FDR
Riprendiamo il significato del p-value in termini relazione con le regioni di
rifiuto legate ad un valore osservato della statistica test T = t ma
corrispondenti a livelli α diversi
p − value(t) =
inf
{Γα :t∈Γα }
Pr (T ∈ Γα |H = 0)
con l’ovvia condizione che Γα ⊆ Γα0 quando α ≤ α0 .
Storey propone dunque uno strumento analogo denominato q-value
q − value(t) =
inf
{Γα :t∈Γα }
p − FDR(Γα ) =
inf
{Γα :t∈Γα }
Pr {Hg = H0g |Tg ∈ Γg (α)} =
In questo modo però non possiamo utilizzare la quantità in senso classico
dal momento che p-FDR non può essere controllato in quell’accezione.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Un’interessante rilettura
p − FDR
=
=
=
Pr {Hg = H0g |Tg ∈ Γg }
Pr {Tg ∈ Γg |Hg = H0g }π0
Pr {Tg ∈ Γg |Hg = H0g } · π0 + Pr {Tg ∈ Γg |Hg = H1g } · (1 − π0 )
π0 sensibilità
π0 · sensibilità + (1 − π0 ) · specificità
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Controllo e stima dei tassi di errore FDR e p-FDR
Diversi approcci al controllo:
regioni modificate Γα̃ , oppure soglie aggiustate (sequenzialmente o
non), oppure p-value aggiustati in modo tale che la procedura
definita garantisce il controllo predeterminato
fissare le regioni di rifiuto attraverso soglie critiche ad un livello
predeterminato; valutare/stimare il corrispondente controllo
dell’errore ovvero stimare FDR o p-FDR; far variare le soglie iniziali e
determinare per quali valori delle soglie si ottiene esattamente (o
approssimativamente) il controllo desiderato.
p − FDR
=
=
Pr {Hg = H0g |Tg ∈ Γg }
Pr {Tg ∈ Γg |Hg = H0g }π0
Pr {Tg ∈ Γg }
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
MTP - Inquadramento generale delle procedure di test
multipli
Regola di decisione è funzione dei dati/statistiche test/p-value, soglia
prefissata di tasso di errore di test multipli che non si è disposti a
superare. La regola è
formalizzata attraverso gli indici delle ipotesi nulle da rifiutare δ ∈ 2G
riscrivibile attraverso indicatori binari {0, 1}G
riscrivibile in modo operativo attraverso i sottinsiemi di punti di
cut-off per le statistiche test (soglie nominali/aggiustate)
riscrivibile attraverso i sottinsiemi di punti di cut-off per i p-value
(p-value nominali/aggiustati)
equivalente a determinare un unico cut-off (dipendente dai dati =⇒
aleatorio!)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Quando utilizzo statistiche test o p-value nominali con soglie prefissate
devo valutare il tasso di errore corrispondente.
Quando invece fisso il tasso di errore determino delle soglie aggiustate
(per pg o Tg ) in modo deterministico (single step oppure aleatorio
stepwise il funzione della graduatoria dei p-value.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Frazione di ipotesi nulle false: stima ed impiego
Se indichiamo con Ĝp la distribuzione empirica dei p-value, e fissata una
soglia λ ∈ [0, 1] si avrà che Ĝp (λ) = D(λ)
rapprensenterà la proporzione
G
dei p-value che sono al di sotto della soglia λ e dunque la proporzione di
ipotesi risiutate dalla procedura (step-up) basata sul thresholding dei
p-value; d’altra parte la frazione di ipotesi accettate sarà
ND(λ)
D(λ)
#{g : pg > λ}
=1−
= 1 − Ĝp (λ) =
G
G
G
Storey propone
π̂0 (λ) =
(1 − Ĝp (λ))
1−λ
Questo è solo uno degli ingredienti utili per la stima ed il controllo dei tassi d’errore
(falsi positivi). La soglia λ determina un variance-bias trade-off.
Per λ = 0 la stima (dall’alto) di π0 è banalmente π̂0 (λ = 0) = 1
Argomentazione intuitiva per cui π̂0 (λ) ≈ π0 e dimostrazione formale che
E [π̂0 (λ)] ≥ π0
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Frazione di ipotesi nulle false: stima ed impiego (2)
(1 − Ĝp (λ))
1−λ
L’argomentazione intuitiva si basa sul fatto che per valori λ elevati vicino
ad 1 la proporzione di p-value che superano la soglia tende ad essere
costituita quasi esclusivamente da ipotesi effettivamente nulle e dunque
π̂0 (λ) =
(1 − Ĝp (λ)) ≈ π0 (1 − λ)
In ogni caso, sotto l’ipotesi di uniforme distribuzione dei p-value sotto
H0g si ha
#
"
1 − Ĝp (λ)
≥ π0
E [π̂0 (λ)] = E
(1 − λ)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Stima di π0
significant gene for
ue ⫽ 0.0036) and is
mors. Activity of this
(23), which further
results support the
xpressed in BRCA1involved in DNA
h their q values, p
nomine.org兾qvalue兾
ue is the probability
value is also not the
ve. In the example
013. This value does
h probability 0.013.
e positives incurred
ue measure includes
nt than MSH2, the
may be substantially
obability can also be
atistical significance
hypotheses. When
Fig. 3. The ␲ˆ 0(␭) versus ␭ for the data of Hedenfalk et al. (14). The solid line
is a natural cubic spline fit to these points to estimate ␲ˆ 0(␭ ⫽ 1).
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Stima di FDR
[ λ (t) = π̂0 (λ)
FDR
t
n
o
max Ĝp (t), G1
Sotto la sola ipotesi di uniforme distribuzione di pg sotto H0g si può
dimostrare (Storey, Taylor & Siegmund JRSS(B) 2004) che per ogni
λ ∈ [0, 1)
"
#
1 − Ĝp (λ)
E [π̂0 (λ)] = E
≥ π0
1−λ
h
i
[ λ (t) ≥ FDR
E FDR
Per λ = 0 la stima (dall’alto) di π0 è banalmente π̂0 (λ = 0) = 1
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Procedure con FDR stimato e soglia t ∗ basata sui dati
Definiamo tα (F ) = sup{0 ≤ t ≤ 1 : F (t) ≤ α}. Una strategia per il
controllo è la seguente
[ λ)
tα (FDR
Notare che a questo punto la soglia è aleatoria e dipende dai dati!
Dipende anche dalla seconda soglia λ.
In effetti usando la soglia
[ λ=0 )
tα (FDR
si ottiene esattamente la procedura di Benjamini e Hochberg.
E’ sufficiente verificare dalla definizione che
[ λ=0 (pg ∗ ) ≤ α < FDR
[ λ=0 (pg ∗ +1 )
FDR
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Procedure con FDR stimato e soglia t ∗ basata sui dati
Più in generale si può mostrare che
[ λ=0 ) ≤ pg ∗ +1
pgα∗ ≤ tα (FDR
α
dove gα∗λ è il piu grande intero che soddisfa
p(g ) ≤
gα
π̂0 (λ)G
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
q-value
q − value(t) =
inf
{Γα :t∈Γα }
p − FDR(Γα ) =
inf
{Γα :t∈Γα }
Pr {Hg = H0g |Tg ∈ Γg (α)} =
Nel caso in cui Γg è definita da una statistica test T attraverso una
soglia massima Γg = {t : t ≤ t ∗ } si avrà
q − value(t) = Pr {Hg = H0g |Tg ≤ t}
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Effetti della alta variabilità delle stime della varianza
(Problema della stabilizzazione della variabilità di tgM [CV], vedi dopo)
Un altro volcano plot
Stabilizzare le stime per rendere meno sensibili i test a valori piccoli di sg2 (stime)
tgM =
dove Sg = sg
variabilità di
q
1
+ n1 e S0
n1
2
M
tg , vedi dopo)
x̄g ,1 − x̄g ,2
Sg + S0
opportunamente scelto (minimizzazione CV della
procedure ad hoc di stabilizzazione, veri e propri modelli bayesiani gerarchici
(borrowing strength across genes)
problemi legati alla possibile asimmetria indotta dall’aggregazione di tutti i geni
(differenzialmente espressi e non)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Scelta del fudge factor
Criterio: minimizzazare CV della variabilità di tg (S0 ) in funzione di S0
tgM (S0 ) =
x̄g ,1 − x̄g ,1
Sg + S0
suddividere i geni in sottoinsiemi di uguale numerosità in base ai
quantili di Sg , indichiamoli con Sg ,α1 , ..., Sg ,αj Sg ,αj+1 , Sg ,αJ
per ciascun sottoinsieme calcolo
Vj (S0 ) = MAD(tgM (S0 ))
Scelgo quel valore S0∗ per cui è minimo il
CV (V1 (S0 ), ..., Vj (S0 ), ..., VJ (S0 ))
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
SAM - Significance Analysis of Microarray
Storey & Tibshirani (2003)
M
M
M
Ordinare le statistiche test osservate t(1)
≤ t(2)
≤ ... ≤ t(G
)
Estrarre (con permutazione di etichetta) B statistiche d’ordine
b
b
b
corrispondenti t(1)
≤ t(2)
≤ ... ≤ t(G
) e calcolarne le medie rispetto
M
M
M
alle B estrazioni t̄(1) ≤ t̄(2) ≤ ... ≤ t̄(G
)
Dichiarare differenzialmente espressi (i.e. g ∈ Ĝ−1 ) ∪ Ĝ1 ) quei geni g
per cui
M
M t(g ) − t̄(g
) > ∆
e analogamente per i sottoespressi. Indichiamo con Ĝ−1 e Ĝ1 gli
∗
∗
insiemi di indici corrispondenti e con t−1
= t−1
(∆) e t1∗ = t1∗ (∆) le
soglie di discriminazione della statistica test (grafico
M
M
(t(g
) , t̄(g ) ),intersezione con rette t + ∆ e t − ∆)
Calibrare ∆ in funzione del FDR stimato
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Stima del False Discovery Rate per permutazioni
La versione originaria di SAM stima il FDR attraverso il rapporto
π̂0 F̂P
D
dove F̂P è una stima dei falsi positivi in senso classico e viene calcolata in
b
base al numero di geni g le cui statistiche di permutazione t(g
) (sotto
l’ipotesi nulla di permutazione) risultano esterne alle soglie critiche
b
∗
b
∗
F̂Pb = #g ∈ Ĝ−1 ∪ Ĝ1 : t(g
) < t−1 ∩ t(g ) > t1
e quindi
F̂P =
e π̂0 =
D
G
(F̂P1 + ... + F̂Pb + ... + F̂PB )
B
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Stima del False Discovery Rate per permutazioni
Una versione alternativa di SAM stima il FDR attraverso il rapporto
π̂0 F̂P
D
dove F̂P è una stima dei falsi positivi in senso classico e viene calcolata in
b
base al numero di geni g le cui statistiche di permutazione t(g
) (sotto
l’ipotesi nulla di permutazione) risultano esterne alle soglie critiche
b
∗
b
∗
F̂Pb = #g ∈ G : t(g
) < t−1 ∩ t(g ) > t1
e quindi
F̂P = Med(F̂P1 , ..., F̂Pb , ..., F̂PB )
e π̂0 =
D
G
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Stima del False Discovery Rate per permutazioni
M
∗
M
∗
D(∆) = #{g : t(g
) < t−1 (∆) o t(g ) > t1 (∆)}
0
b
∗
b
∗
D (∆) = #{g : t(g ) < t−1 o t(g ) > t1 }
[ ∆0 (∆) = π̂0
p − FDR
D 0 (∆)
max{D(∆), 1}
Dove ∆0 è un’altra soglia scelta in modo che D 0 (∆0 ) = G /2 e per
calcolare il p − FDR si usa la stima
π̂0 =
G − D(∆0 )
G − D 0 (∆0 )
Dalle stime del pFDR si possono calcolare valori analoghi a p-value
aggiustati per la molteplicità e precisamente dei q-value
qg =
\ ∆0 (∆)
min pFDR
∆:g ∈Ĝ±1
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
2 varianti di SAM
BMC Bioinformatics 2007, 8:230
http://www.biomedcentral.com/1471-2105/8/230
Nella versione originaria per dichiarare il gene differenzialmente espresso
si utlizza direttamente la differenza tra statistica test osservata e quella
prevista( dall’ipotesi
di permutazione e dunque la statistica test deve
)
differenziarsi rispetto al valore atteso sotto l’ipotesi nulla (di
permutazione) di ∆ mentre nella seconda versione si sfrutta
l’ordinamento delle statistiche test osservate ed è sufficiente che la
statistica test corrispondente ad un gene g sia al di sotto [sopra] della
∗
statistica test t−1
[t1∗ ] che determina la soglia critica
2.3.2 The impact of the difference between Steps (f) of SAM and
Step (f') of sam2.20
The change from Step (f) of SAM to Step (f') of sam2.20 is
a desirable change. The problem with Step (f) of SAM is
that it only uses the genes identified as significant to estimate the number of FP. Although in the definition of FDR
Figure 1 reports the findings from SAM. In Figure 1, the
points in red are the genes declared significant by SAM.
There are in total 5 points with displacement larger than
∆, of which 4 are called significant positive and 1 is called
significant negative. The cutoff δL(= -1.649701) is the
value of the test statistic of the only significant negative
gene, and δU(= 1.3068) is the minimum value of the test
statistics of the 4 significant positive genes. It can be
clearly seen from Figure 1 that many points (black dots)
beyond the horizontal cutoffs are not called significant by
SAM. The reason is that these points, although having test
statistics of greater magnitudes than the relevant cutoff, do
not have displacement larger than the threshold ∆.
3 Potential problems of SAM and sam2.20
sam2.20
2
2
observed score
The four red points are considered
significant positive by SAM
cutup
This red point is considered
significant negative by
SAM, but not by sam2.20.
cutup
10
cutlo= −10
-2
0. Hence, there are in total 200 differentially expressed
genes.
http://www.biomedcentral.com/1471-2105/8/230
SAM
Xij = µi + εij and Yik = ηi + ωik for i = 1, ..., n, j = 1, ..., J, k = 1,
..., K,
(10)
where n = 5000, J = K = 4 and εij and ωik are the i.i.d. random errors from N(0,1). For the first 100 genes, µi = 0 and
ηi ~ N(1,1), and for the last 100 genes, µi = 0 and ηi ~ N(1,1). The middle 4800 genes were generated with µi = ηi =
BMC Bioinformatics 2007, 8:230
1
that, if gene i is called significant positive (or significant
negative), it does not imply that gene j with d(j) > d(i)
(resp. d(j) <d(i)) will be called significant as well. Because
of this, it is claimed in [9] that the genes identified as significant by SAM do not necessarily have the largest relative
changes in gene expression. To better understand how
SAM and sam2.20 work differently, we carried out the following simulation. In the simulation, the data were generated from the following model:
sam2.20 declares all these 24 points as significant positive. Note that no point in Figure 2 is declared significant
negative since there is no point with value below the
lower cutoff -1010.
0
from d(i) larger than ∆ are called significant. This means
observed score
2.3 The impact of the change of algorithms
2.3.1 The impact of the difference between Step (e) of SAM and
Step (e') of sam2.20
In Step (e) of SAM, only those genes with displacement
placement greater than does not satisfy d(i) - d(i) < -∆. The
second change is the number of significant genes. Step (e')
of sam2.20 declares all the genes with the test statistics
exceeding the cutoffs as significant. Since there are in total
24 points exceeding the upper cutoff δU = 1.3068,
-1
used in sam2.20 [22].
-2
of non-DE genes. A natural spline based estimator πˆ0 is
1
(9)
0
m = median FP
m (1)," , FP
m(B) ,
(f ’) FP
m (b) = #{1 ≤ i ≤ n: db(i) > δ or db(i) <δ , b = 1, ...,
where FP
U
L
B. Subsequently, the FDR is estimated by
n = πˆ FP
m / TP
m , where πˆ is the estimated proportion
FDR
0
0
However, this feature has been changed in the algorithm
used in sam2.20 due to the use of Step (e'). Figure 2 is the
plot obtained from sam2.20 under the same setup as that
of Figure 1. By checking Figure 2, we see that two changes
have happened. The first change is the cutoffs. Note that
the cutoffs from SAM are -1.6497 and 1.3068, respectively. Nevertheless, Figure 2 shows that the cutoffs from
sam2.20 have become -1010 and 1.3068. The lower cutoff
was arbitrarily set at -1010 since the only point having dis-
-1
The difference on Step (f) is in the estimation of FP and
FDR. Note that SAM estimates the FP only using the null
scores from the genes called significant in Step (e).
sam2.20 uses the null scores from all the genes to estimate
the FP:
cutlo
-1
0
1
expected score
-1
0
1
expected score
The SAM1 plot obtained by using the SAM algorithm
Figure
The SAM plot obtained by using the SAM algorithm.
The red points are the points declared significant by SAM.
The two horizontal lines refer to the lower cutoff δL (=cutlo)
and the upper cutoff δU (=cutlup) from SAM. The threshold
used is ∆ = 0.099.
Page 4 of 12
(page number not for citation purposes)
Figure
The
sam2plot obtained from sam2.20
The sam plot obtained from sam2.20. The red points
are the points declared significant by sam2.20. The horizontal
line refers to the upper cutoff δU (=cutlup) from sam2.20.
The horizontal line corresponding to the lower cutoff δL
(=cutlo) does not show up in the plot since δL = -1010. The
threshold ∆ used is the same as that used in producing Figure
1.
the number of FP refers to those among the genes declared
significant, SAM ignored the fact that the FP genes among
the significant genes are actually the genes which are
3.1 SAM's use of different standards to declare significance
and its poor estimation of FDR
In addition to showing the difference between SAM and
sam2.20, Figures 1 and 2 actually raise concerns about the
use of SAM and sam2.20 in practice. Figure 1 shows that
there are genes with test statistics exceeding δL and δU
which are not identified as significant by Step (e) of SAM
since they do not have displacement larger than the
threshold ∆. However, Step (f) of SAM shows that such
genes are considered as significant in the estimation of
FDR. Hence, SAM used different standards to declare significance. The reason for SAM's use of different standards
can be explained by the results of a simulation described
as follows. The data used in the simulation were generated
from model (10) under the same setup as that used in producing Figures 1 and 2, except that we used µi = 0 and ηi ~
N(3,1) for the first 100 genes, and µi = 0 and ηi ~ N(-3,1)
for the last 100 genes.
Table 1 reports the results obtained from 100 simulations
under the above described setup. Column 1 reports the
average number of genes called significant by sam2.20
from 100 simulations. Column 2 reports the average
number of true FP among the genes declared significant in
each simulation. Columns 3–5 report the mean of estimated numbers of FP from SAM, (7) and sam2.20. Note
that (7) uses the same rule as Step (e) of SAM to declare
significance. The results from (7) should reflect what
would happen if SAM had used the same standard (4) to
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
EBAM e FDR locale
Idea di analisi basata sull’aggregazione di informazioni provenienti dai vari test in
modo da sfruttare l’abbondanza di informazioni su tratti comuni (π0 ,...). Il punto di
vista sarà simile a quello considerato da Storey per il p-FDR e la sua rilettura in ottica
Bayesiana
Il punto di partenza è la distribuzione delle statistiche test ovvero
opportune trasformate come misture:
Zg
Zg
Zg
=
Φ−1 (Pg )
Zg
=
Φ−1 (FTk (Tg ))
∼ F = π0 F0 + π1 F1 (Funzione di ripartizione)
∼ f = π0 f0 + π1 f1 (Funzione di densità)
(1)
(2)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
EBAM e FDR locale
Considerando un modello statistico vero e proprio per (1) è possibile
pervenire ad alcune nuove ed interessanti quantità suggerite da Efron
fdr (z) = Prob (g ∈ G0 |Zg = z)) =
f + (z)
π0 f0 (z)
= 0
π0 f0 (z) + π1 f1 (z)
f (z)
con analogia formale ma significato differente rispetto al positive False
Discovery Rate dato da Storey
FDR(z) = Pr (g ∈ G0 |Zg ≤ z) =
F0+ (z)
F (z)
Ingredienti
π0
f0 theoretical null / empirical null distribution
F1 non null distribution
Interpretazione
Stima
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Dati sul tumore alla prostata
1352
B. EFRON
F IG . 1. Histograms of z values from two microarray experiments. Left panel, prostate data, comparison of 50 nontumor subjects with 52 tumor patients for each of 6033 genes; Singh et al. [31].
Right panel, HIV data, comparison of 4 HIV negative subjects with 4 HIV positive patients for
7680 genes; van’t Wout et al. [34], discussed in [16]. The central peak of the prostate data histogram
closely follows the theoretical N (0, 1) null density (solid curve), but the HIV histogram is substantially too narrow. Short vertical bars are estimated nonnull counts, useful for power calculations, as
discussed in Section 3. Estimated null proportion p0 equals 0.93 in both experiments.
prostate cancer patients, each measured expression levels for the same N = 6033
genes. Each gene yielded a two-sample t-statistic ti comparing tumor versus nontumor men, which was then transformed to a z value,
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Relazione tra l-FDR e p-FDR
Ricordiamo che avevamo già introdotto
p − FDR = Pr {Hg = H0g |Tg ∈ Γg }. Ora se Γg = (−∞, z) (!) questo
corrisponde nella terminologia di Efron al tail-area-FDR
FDR(z) = Pr (g ∈ G0 |Zg ≤ z) =
dal momento che fdr (z) =
Rz
FDR(z) =
f0+ (z)
f (z)
F0+ (z)
F (z)
si capisce la relazione
fdr (Z )f (Z )dZ
Rz
= Ef [fdr (Z )|Z ≤ z]
f (Z )dZ
−∞
−∞
Quindi p-FDR può essere interpretato come ’primitiva’ del l-FDR e
l’interpretazione geometrica di questa relazione può aiutare a capire come
calibrare la qualtificazione numerica del nuovo indicatore
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
1356
Selezione di geni differenzialmente espressi
B. EFRON
F IG . 3. Geometrical relationship of Fdr to fdr; heavy curve plots F0+ (z) versus F (z); fdr(z) is
slope of tangent, Fdr(z) slope of secant.
(It is notationally convenient to consider events Z ≤ z but we could just as well
consider tail areas to the right, two-tailed events, etc.) Figure 3 illustrates the geometrical relationship between Fdr and fdr.
Analytically, Fdr is a conditional expectation of fdr [13],
Fdr(z) =
(2.8)
z
z
−∞
fdr(Z)f (Z) dZ
−∞
f (Z) dZ
= Ef {fdr(Z)|Z ≤ z},
“Ef ” indicating expectation with respect to f (z) [13]. That is, Fdr(z) is the average of fdr(Z) for Z ≤ z; Fdr(z) will be less than fdr(z) in the usual situation where
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Calibrazione dell’FDR locale
(1) Geometricamente ci si può attendere una rappresentazione come
quella nella precedente figura in cui fdr (z) ≥ FDR(z)
(2) Con particolari assunzioni su F1 = F0α (0 < α < 1) vi sono relazioni
esplicite sull’ordine di grandezza del tipo
fdr (z) ≈ FDR(z)/α
In effetti, approssimando
log
fdr (z)
= ...
1 − fdr (z)
(3) Dal punto di vista della densità condizionata
fdr (z) = Prob (g ∈ G0 |Zg = z)) si può pervenire ad una sorta di
interpretazione in termini di fattore di Bayes. Efron ad esempio rapporta
fdr (z)
gli odds a posteriori ovvero 1−fdr
(z) con l’odds a priori ammettendo
(arbitrariamente!) π0 = 0.9 e giustifica come valore di riferimento
fdr (z) = 0.2 in relazione ad un Fattore di Bayes (espressione vs non
espressione) pari a 36 =⇒ evidenza forte in favore di espressione
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Stima dell’FDR locale
c (z) = π0 f0 (z)
fdr
fˆ(z)
dove fˆ(z) è stimata dai dati attraverso una distribuzione appartenente
alla famiglia esponenziale


7
X

fβ (z) = cβ exp
βj z j


j=1
π0 e f0 richiedono anche loro una stima a meno di assunzioni particolari
(talvolta teoricamente difendibili per la distribuzione f0 )
Vantaggi nel riferire per ciascun gene un valore su una scala standard al
di là della regola di decisione. In questo caso il valore è facilmente e
legittimamente interpretabile come probabilità (locale).
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Valutazioni diagnostiche sulla potenza
Idea: mediare fdr locale rispetto a f1
R∞
d1 =
Efdr
dal momento che
c (z)[1 − fdr
c (z)]fˆ(z)dz
fdr
R∞
c (z)]fˆ(z)dz
[1 − fdr
−∞
−∞
Z
∞
π̂1 =
−∞
e
f1 (z) =
c (z)]fˆ(z)dz
[1 − fdr
(1 − fdr (z))f (z)
π1
Valori piccoli =⇒ in media, rispetto a f1 bassa probabilità (a posteriori)
di dichiarare il gene non espresso (formalmente qualche somiglianza con
misure di affinità) =⇒ buona potenza (f1 ha buona capacità di
discriminare rispetto a f0 )
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Stima della distribuzione nulla f0
Ragioni per spiegare non adeguatezza della distribuzione nulla teorica
non normalità delle osservazioni di partenza
covariate non osservate
correlazione tra array
correlazione tra geni
Trade-off tra distorsione indotta da una distribuzione nulla erroneamente
specificata e aumento della variabiltà delle altre quantità stimate
Stima parametrica di f0 : si considerano i valori dell’istogramma (densità
stimata) vicino a 0 e si cerca la migliore approssimazione normale
[ammettiamo più o meno implicitamente che f1 (·) è una quantità
localmente piccola/trascurabile]
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Stima della distribuzione nulla f0
Innanzitutto si parte dalla discretizzazione del problema attraverso ii conteggi in
corrsipondenza di un interallo (indicizzato con k) di ampiezza δ appropriata
zk
=
centro dell’intervallo k
yk
=
numero osservazioni k
e si stima la f (z) attraverso una distribuzione appartenente alla famiglia esponenziale
con 7 parametri
Il fit avviene atraverso una regressione di Poisson e dunque con stumenti standard per
GLM.
Poi si procede al cosiddetto Central matching: approssimazione quadratica (perché?)
locale nel punto 0 della distribuzione empirica dei conteggi.
[Stima alternativa con un modello normale troncato]
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
log(fβ (z)) = log cβ +
7
X
j=1
βj z j
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
1352
Test multipli e controllo dell’errore
B. EFRON
1356
F IG . 1. Histograms of z values from two microarray experiments. Left panel, prostate data, comparison of 50 nontumor subjects with 52 tumor patients for each of 6033 genes; Singh et al. [31].
Right panel, HIV data, comparison of 4 HIV negative subjects with 4 HIV positive patients for
7680 genes; van’t Wout et al. [34], discussed in [16]. The central peak of the prostate data histogram
closely follows the theoretical N (0, 1) null density (solid curve), but the HIV histogram is substantially too narrow. Short vertical bars are estimated nonnull counts, useful for power calculations, as
discussed in Section 3. Estimated null proportion p0 equals 0.93 in both experiments.
prostate cancer patients, each measured expression levels for the same N = 6033
genes. Each gene yielded a two-sample t-statistic ti comparing tumor versus nontumor men, which was then transformed to a z value,
(1.1)
zi = −1 (F100 (ti )),
SIZE, POWER AND FALSE DISCOVERY RATES
F IG . 3. Geometrical relationship of Fdr to fdr; heavy curve plots F0+ (z) versus F (z); fdr(z) is
slope of tangent, Fdr(z) slope of secant.
(It is notationally convenient to consider events Z ≤ z but we could just as well
consider tail areas to the right, two-tailed events, etc.) Figure 3 illustrates the geometrical relationship between Fdr and fdr.
Analytically, Fdr is a conditional expectation of fdr [13],
1365
where F100 is the cumulative distribution function (c.d.f.) of a Student’s t distribution with 100 degrees of freedom, and is the standard normal c.d.f.
We expect zi to have nearly a N(0, 1) distribution for “null” genes, the ones
behaving similarly in tumor and nontumor situations. The left histogram looks
promising in this regard: its large central peak, which is nicely proportional to
a N(0, 1) density, charts the presumably large majority of null genes, while the
heavy tails suggest some interesting “nonnull” genes, those responding differently
in the two situations, the kind the study was intended to detect.
B. EFRON
Fdr(z) =
(2.8)
−∞
fdr(Z)f (Z) dZ
F1 (z) = F0 (z)α
(2.9)
N OTE . It is not necessary that the zi ’s be obtained from t-tests or that the
individual cases correspond to genes. Each of the N cases might involve a sepa-
z
z
−∞
f (Z) dZ
= Ef {fdr(Z)|Z ≤ z},
“Ef ” indicating expectation with respect to f (z) [13]. That is, Fdr(z) is the average of fdr(Z) for Z ≤ z; Fdr(z) will be less than fdr(z) in the usual situation where
fdr(z) decreases as |z| gets large. For example fdr(−3.39) = 0.20 in Figure 2 while
Fdr(−3.39) = 0.105. If the c.d.f.’s F0 (z) and F1 (z) are Lehmann alternatives,
it is straightforward to show that
(2.10)
log
[α < 1],
fdr(z)
Fdr(z)
1
= log
+ log
,
1 − fdr(z)
1 − Fdr(z)
α
giving
(2.11)
F IG . 5. Central matching estimation of p0 and f0 (z) ∼ N (δ0 , σ02 ) for the HIV data; heavy curve is
log of f(z), estimated mixture density (2.5); beaded curve is quadratic fit to log f(z) around z = 0,
0 ).
δ0 , σ0 , p
estimating log f0+ (z), (2.4). The three estimated coefficients of quadratic fit give (
0 ) in (4.6), for
Estimates (β0 , β1 , β2 ) from (8.5) translate to estimates (
δ0 , σ0 , p
σ0 = (2β2 )−1/2 . For the HIV data this gave
example, (4.7)
δ0 = −0.107,
σ0 = 0.753
and
0 = 0.931.
p
The logic here is straightforward: we make the “zero assumption” that the
central peak of the z-value histogram consists mainly of null cases, and choose
(δ0 , σ0 , p0 ) in (4.6) to quadratically approximate the histogram counts near δ = 0.
Some form of the zero assumption is required because the two-class model (2.2)
is unidentifiable in the absence of strong parametric assumptions on f1 .
A healthy literature exists on estimating p0 , as in [21] and [29], all of which
relies on the zero assumption [mostly working with p-values rather than z-values,
e.g., pi = F6 (ti ) in (4.2), where the “zero region” occurs near p = 1]. All of this
literature relies on the validity of the theoretical null, so in this sense (4.5) and (4.6)
is a straightforward extension to situations where the theoretical null is untrustworthy. For the HIV data, using the theoretical null in (4.5) and (4.6), that is, taking
0 = 1.18. This will
(β1 , β2 ) equal (0, 1/2), results in the impossible estimate p
always happen when the z-value histogram is narrower than N(0, 1) near z = 0.
The zero assumption is more believable if p0 , the proportion of null cases, is
large. Efron [8] shows that if p0 exceeds 0.90 the fitting method in Figure 5 will be
nearly unbiased: although the 10% or less of nonnull cases might in fact contribute
δ0 and σ0 ; the p0 estimate
some counts near z = 0, they cannot substantially affect is affected, being upwardly biased, as seen in Table 1.
.
fdr(z) = Fdr(z)/α
for small values of Fdr. The prostate data of Figure 1 has α roughly 1/2 in each
tail.
Benjamini and Hochberg’s [3] Fdr control rule depends on an estimated version
of (2.7) where F (z) is replaced by the empirical c.d.f. “F̄ ” of the z values,
(2.12)
Fdr(z)
= p0 F0 (z)/F̄0 (z)
[F̄ (z) = #{zi ≤ z}/N].
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Paccchetti utili per l’espressione differenziale
genefilter
rowttest
samr
multtest
mt.maxT (FWER)
mt.rawp2adjp(...,proc=’BH’) (FDR)
limma
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Espressione differenziale: approccio basato sul modello
Consideriamo ora alcuni metodi per l’individuazione di geni espressi in
modo differenziale basati sulla formulazione di modelli
statistici-probabilistici.
Modello lineare;
9
Modello gerarchico;
Modello Bayesiano gerarchico.
9 Kerr,
M.K. e Churchill G.A. (2001) Experimental design for gene expression
microarrays, Biostatistics,2, 183–201
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Test F
Indichiamo Ygrc il livello di espressione del gene g , replicazione r e
condizione sperimentale c
Geni: g=1,...,G
Condizioni sperimentali: c=1,...,C (varieties)
Replicazioni: r=1,...,Rc
L’obiettivo è individuare quanti e quali geni sono espressi in modo
differenziale (sovra/sotto espressi).
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
(cont)
Kerr & Churchill(2001) propongono il seguente semplice modello:
Ygrc = µg + Vgc + grc
dove:
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
(cont)
Kerr & Churchill(2001) propongono il seguente semplice modello:
Ygrc = µg + Vgc + grc
dove:
µg : segnale medio del gene g (overall signal);
Vgc : segnale addizionale del gene g dovuto alla condizione
sperimentale (parametro di interesse);
grc : termine di errore grc ∼ N(0, σg ) (IID);
Modello ANOVA: metodo di stima dei minimi quadrati (OLS)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
(cont)
Per ciascun gene g siamo interessati a valutare il seguente test di ipotesi:
H0 : Vgc = 0 H1 : Vgc 6= 0
mediante il seguente F test
F =
MS(V )
MS(E )
dove
MS(V ) =
PC
c=1
(ȳc −ȳ )2
C −1
PC PRc (ycr −ȳc )2
MS(E ) = c=1 r =1
N−1
PRc yrc
ȳc = r =1 Rc (media condizione c)
PC PRc yrc
ȳ = c=1 r =1
N (media totale).
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
(cont)
Sotto l’ipotesi nulla H0 : Vgc = 0
F =
MS(V )
MS(E )
= 1 ∼ F (C − 1, N − C )
Sotto l’ipotesi alternativa H1 : Vgc 6= 0
F =
MS(V )
MS(E )
>1
Per ogni gene g : pg = Pr (F > Fobs )
Un gene è dichiarato espresso in modo differenziale a livello α se
pg < α
Correzione per la molteplicità dei test.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Modello lineare: modello ANOVA
Ygrc = µ + Vc + Ar + Gg + AGgr + (VG )gc + grc
Effetti semplici:
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Modello lineare: modello ANOVA
Ygrc = µ + Vc + Ar + Gg + AGgr + (VG )gc + grc
Effetti semplici:
µ: effetto medio globale;
A: effetto array;
G: effetto gene;
V: effetto condizione sperimentale.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Modello lineare: modello ANOVA
Ygrc = µ + Vc + Ar + Gg + AGgr + (VG )gc + grc
Effetti semplici:
µ: effetto medio globale;
A: effetto array;
G: effetto gene;
V: effetto condizione sperimentale.
Interazioni:
VG: espressione differenziale (parametro di interesse);
AG: variabilità dello spot negli array;
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
(cont)
Diversi metodi di stima:
Minimi quadrati (OLS): test F per la significatività;
Stima in 2 stadi: 10
Normalization model: aggiustamento dagli effetti globali (non
dipendenti dal gene);
Gene model: modellizzazione degli effetti dovuti al gene.
10 Wolfinger
R.D. et al. (2001) Assessing gene significance from cDNA microarray
expression data via mixed models, Journal of Computational Biology,8, 625–637
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Stima a 2 stadi
Wolfinger et al. (2001) propone di stimare il modello in 2 fasi:
Effetti globali: normalization model
Ygrc = µ + Vc + Ar + δgrc
Effetti gene-specifici: gene model
Rgrc = Gg + (AG )gr + (VC )gc + grc
Rgrc : residui del normalization model.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Modello lineare: qualche commento
Alcune assunzioni del modello lineare possono essere poco realistiche:
Normalità: a volte i dati suggeriscono che gli errori non siano
simmetrici e Normali;
Indipendenza: i geni vengono trattati come unità indipendenti;
tuttavia raramente si esprimono in modo isolato e indipendente l’un
l’altro. L’inserimento di una struttura di correlazione tra i geni
potrebbe essere realistica;
Omoschedasticità: in molti modelli grc ∼ N(0, σ). Tuttavia in molti
casi, i geni con livello di espressione più elevato presentano anche
una maggiore variabilità: l’assunzione grc ∼ N(0, σg ) potrebbe
essere maggiormente appropriata.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Modelli gerarchici
Modello non gerarchico:
1
2
Verosimiglianza: L(X |µ, σ)
Distribuzioni a priori: π(µ) ∼ fµ e π(σ) ∼ fσ
Modello gerarchico:
1
2
3
Verosimiglianza: L(X |µ, σ)
Distribuzioni a priori: π(µ|a, b) ∼ f (a, b) e π(σ|c, d) ∼ f (c, d)
Distribuzioni sugli iperparametri: a ∼ fa , b ∼ fb , c ∼ fc e d ∼ fd
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Modelli gerarchici: perchè?
Esempio: si vuole condurre uno studio clinico sull?efficacia di un nuovo
trattamento cardiaco; il piano sperimentale prevede il coinvolgimento di
K ospedali, diversi per qualità, e tipologia di utente. La quantità di
interesse è la probabilità di sopravvivenza, denotata con θj , relativa
all’ospedale j-esimo, per i pazienti sottoposti al trattamento.
In un tale contesto è ragionevole supporre che i diversi θj , relativi a un
campione di ospedali siano in qualche modo legati tra loro, pur
rappresentando realtà differenti.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Modelli gerarchici: perchè? (cont)
in queste situazioni non è più ragionevole considerare le osservazioni
come n realizzazioni indipendenti di una stessa variabile aleatoria
madre;
i parametri di interesse sono in qualche modo legati l’uno con l’altro;
il modello gerarchico incorpora le relazioni tra i θj facendoli
provenire da una distribuzione comune;
il modello gerarchico alleggerisce il peso della distribuzione a priori
sulla distribuzione a posteriori.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Bayes vs Empirical Bayes
Esistono in letteratura principalmente 2 approcci per la stima di modelli
gerarchici:
Empirical Bayes (EB): approccio bayesiano empirico;
Hierarchical Bayes (HB): approccio bayesiano gerarchico.
Supponiamo di avere un modello gerarchico del tipo:
1
2
Yij ∼ f (θj );
θj ∼ λ;
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Empirical Bayes
Si assume che i diversi θj seguano la seguente legge a priori del tipo
p(θ|λ)
Nell’approccio EB si calcola la distribuzione marginale dei dati
condizionatamente a λ ossia
Z Z
Z
p(y |λ) =
...
p(y |θ1 , θ2 , ..., θk )
Ω1
Ω2
Ωk
× p(θ1 , θ2 , ..., θk |λ)dθ1 dθ2 ...dθk
p(y |λ) è una vera e propria verosimiglianza in λ;
λ̂ ottenuta massimizzando p(y |λ);
p(θ|λ̂, y ): mediante il teorema di Bayes.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Hierachical Bayes
Tutte le quantità in gioco vengono considerate aleatorie.
p(y |θ)
p(θ|λ)
p(λ)
Mediante il teorema di Bayes si ottengono le distribuzioni a posteriori di
tutti i parametri.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
EB vs HB: un esempio
Dati i parametri θ = (θ1 , θ2 , ..., θk ) e σ 2 noto, poniamo
yij ∼ N(θj , σ 2 )
Assumiamo inoltre
θj |µ, τ 2 ∼ N(µ, τ 2 )
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
EB vs HB: esempio (cont)
Nell’impostazione EB i parametri di terzo livello µ, τ sono considerati
incogniti ma fissi.
2
2
LEB (µ, τ ) = p(y |µ, τ ) =
Z
k
Y
R k j=1
p(y |θj )p(θj |µ, τ )dθj
µ̂ e τˆ2 : massimizzazione di LEB (µ, τ 2 );
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
(cont)
Dal teorema di Bayes si ottiene la distribuzione a posteriori
θ1 , ..., θk |τ, µ, y ∼ N(θ̂j , V̂j )
dove
θ̂j =
V̂j =
ȳj
σj2
+
1
σj2
+
µ̂
τˆ2
1
τˆ2
σj2 τ̂ 2
σ 2 + τˆ2
j
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
EB vs HB: esempio (cont)
Nell’impostazione gerarchica HB, tutte le quantità presenti nel modello
sono considerate aleatorie e dotate di legge di probabilità. La
distribuzione a posteriori congiunta di (θ, µ, τ 2 ) è proporzionale a
2
2
p(θ, µ, τ |y ) ∝ p(µ, τ )
k
Y
j=1
N(θj |µ, τ 2 )N(yj |θj , σj2 )
Da tale espressione è possibile ottenere in via esplicita o numerica diverse
distribuzioni (o sintesi di queste) di interesse.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
EB vs HB: esempio (cont)
Entrambi gli approcci riconoscono l’incertezza intrinseca dei θj attraverso
una legge governata da λ = (µ, τ ), ma va sottolineato che
EB: λ viene stimato solo attraverso i dati attraverso la
massimizzazione della verosimiglianza;
HB: λ ha una distribuzione a priori aggiornabile tramite la
verosimiglianza;
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
EB vs HB: esempio (cont)
Entrambi gli approcci riconoscono l’incertezza intrinseca dei θj attraverso
una legge governata da λ = (µ, τ ), ma va sottolineato che
EB: λ viene stimato solo attraverso i dati attraverso la
massimizzazione della verosimiglianza;
HB: λ ha una distribuzione a priori aggiornabile tramite la
verosimiglianza;
EB: l’incertezza relativa a λ non è incorporata nelle successive stime
in quanto λ è sostituito con λ̂;
EB: l’errore standard delle stime non si ottiene direttamente (ma
attraverso tecniche di approssimazione);
HB: l’incertezza delle stime è naturalmente contenuta nella
distribuzione a posteriori.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Il modello di Smyth (2004)11
Sia Yg un vettore j × 1 di espressione del gene g in j = 1, 2, ... condizioni
sperimentali. Il modello proposto da Smyth è un modello ANOVA del tipo
Y = X αg + g g ∼ N(0, σg2 )
(3)
11 G. Smyth, Linear Models and Empirical Bayes Methods for Assessing Differential
Expression in Microarray Experiments, Statistical Applications in Genetics and
Molecular Biology, 3 (1), 2004.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Il modello di Smyth (2004)11
Sia Yg un vettore j × 1 di espressione del gene g in j = 1, 2, ... condizioni
sperimentali. Il modello proposto da Smyth è un modello ANOVA del tipo
Y = X αg + g g ∼ N(0, σg2 )
(3)
Si assume
E [Yg ] = X αg ;
Var [Yg ] = Wg σg2
dove Wg è una matrice di pesi nota.
11 G. Smyth, Linear Models and Empirical Bayes Methods for Assessing Differential
Expression in Microarray Experiments, Statistical Applications in Genetics and
Molecular Biology, 3 (1), 2004.
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Il modello di Smyth (approccio classico)
Il modello può essere stimato mediante il metodo OLS ottenendo α̂g
(Var (α̂g ) = Vg sg ) e sg2 stimatore di σg .
I contrasti di interesse βg = C T αg si stimano come
β̂g = C T α̂g
Si dimostra che β̂g e sg2 si distribuiscono approssimativamente come
β̂gj |βgj , σg2 ∼ N(βgj , vgj σg2 )
sg2 |σg2 ∼
σg2 2
χ
dg dg
dove dg = n − 1.
Pertanto,
tgj =
β̂gj
∼ T dg
√
sg vgj
(4)
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Il modello di Smyth: approccio gerarchico
Aggiungiamo le seguenti informazioni a priori sui parametri del modello
1
1
χd
∼
σg2
d0 s0 0
βgj |σg2 , βgj 6= 0 ∼ N(0, v0j σg2 )
Per il modello cosı̀ formulato, la media a posteriori di σg−2 dato sg2 è
s̃g =
d0 s02 + dg sg2
d0 + dg
e la statistica t − moderata è definita come
t̃gj =
s̃g
β̂gj
√
vgj
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Il modello di Smyth: approccio gerarchico (cont)
Si dimostra che
t̃gj |β
6=
0 ∼ (1 +
t̃gj |β =
0
∼ Td0 +d
v0 1/2
) Td0 +d
v
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Controllo FDR in ambito bayesiano
Tipicamente in un’analisi di tipo bayesiano un gene g viene selezionato
(testato rispetto ad un’ipotesi nulla Θ0 contro Θ1 ) in base alla
probabilità a posteriori dell’ipotesi nulla
ppost,g = Pr (Θ1 | Dati osservati X ) > pcut
per un’opportuna scelta della soglia (qui pcut assume la stessa funzione
della soglia t in ambito classico).
La regola di decisione dunque è una funzione indicatrice del tipo
rg (X )[pcut ] = Ippost,g >pcut (X )
Ad una soglia pcut fissata corrisponde dunque la seguente valutazione del
tasso di errore
PG
[ cut ] =
FDR[p
g =1
Pr (Θ0 | Dati osservati X )rg (X )[pcut ]
PG
g =1 rg (X )[pcut ]
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Introduzione a Bioconductor
Progetto di sviluppo di software open source per l’analisi di dati
provenienti da esperimenti genetici high-throughput con un’enorme
quantità di misurazioni contemporanee di processi biologici scritti nel
linguaggio R per l’amibente R.
Lista in continuo aggiornamento di pacchetti [400] (classi, metodi,
funzioni)
http://www.bioconductor.org/
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi
Qualità dell’informazione numerica e pre-processing
Test multipli e controllo dell’errore
Selezione di geni differenzialmente espressi