Bioinformatica
Corso di Laurea Specialistica in Biologia Cellulare e Molecolare
Analisi di Dati di
Espressione
6/5/2008
Stefano Forte
Orario di ricevimento
• Stefano Forte
Lunedi e Mercoledi 10.00 – 11.00
Ufficio 34 dipartimento di Matematica e
Informatica (Sopra box bidelli)
Tel. 095 7383082
email: [email protected]
Le immagini
-Acquisizione di 2 immagini (una
per ogni lunghezza d’onda/dye)
-In fase di acquisizione si cerca di
bilanciare i due canali.
-Identificazione degli spots
(corrispondente ad matrice
testuale 2d tramite una griglia di
spots)
-Calcolo e sottrazione del
background
-Flaging automatico e manuale
delle immagini
-Produzione dei log ratios
Log
Sample1
Sample2
Preprocessing dei Dati
• Dai raw data dobbiamo estrarre l’informazione. Per evitare di
estrarre informazioni sbagliate dobbiamo cercare di eliminare
l’influenza dell’errore sperimentale
Nella cellula
(condizione reale)
Nei risultati (condizione
dedotta)
sample1
sample2
Gene A
30
30
=
Gene B
10
30
Gene C
50
20
NORMALIZZAZIONE
sample1
sample2
Gene A
30
45
-
-
Gene B
10
45
-
+
Gene C
50
30
+
Il sample2 viene sovrastimato di 1,5 volte. Per riportare i valori alla normalità
basta dividere ogni valore per 1,5
Preprocessing dei Dati
• Normalizzazione: processing dei dati all’interno
della stessa ibridazione.
• Standardizzazione (o Normalizzazione tra gli
array): processing dei di tutti gli esperimenti (rende
i dati paragonabili tra loro e quindi utilizzabili nello
stesso processo di analisi)
Normalizzazione
Perché normalizzare?
Ibridazione dello stesso campione su due canali
R
G
L’allontanamento dalla linea
x=y è dovuto a errori random e
sistematici
Normalizzazione
Normalizzare i dati provenienti da una ibridazione self-to-self è banale, ma come ci si
comporta con i dati di un esperimento in cui ogni canale (od ogni array nel caso della
standardizzazione) rappresenta una diversa sorgente?
Selezione dei geni per BIAS correction
TUTTI I GENI
Assunzione: la maggior parte dei geni sono
espressi in maniera uguale nelle cellule
paragonate, mentre solo una piccola parte
dei geni è differenzialmente espressa
(<20%).
Geni Housekeeping
Assunzione: sulla base della conoscenza
biologica un set di geni può essere
considerato come egualmente espresso nei
campioni comparati.
Spiked-in controls
Alcuni controlli vengono immessi nei
campioni a concentrazioni note per tarare il
sistema
Invariant set
Un set di geni viene individuato come
costante senza nessuna conoscenza
biologica di partenza.
Metodi di normalizzazione
1) Normalizzazione globale (SCALING)
Un singolo fattore di normalizzazione (k) è calcolato per il
bilanciamento dei chip o dei canali.
Xinorm = k*Xi
In questo modo si equalizza la media delle intensità
2) Normalizzazione intensità dipendente (Lowess o Loess - Locally Weighted
Linear Regression)
Invece di un singolo fattore si utilizza una funzione che compensa i
bias intesità-dipendenti.
I vantaggi di Lowess
La normalizzazione
globale è inefficace
nella correzione
degli errori intesitàdipendenti. Il
grafico evidenzia
come l’utilizzo di un
singolo parametro
non è sufficiente
allo scopo.
M>0:
Cy3>Cy5
M=
log(Cy3/Cy5)
M<0:
Cy3<Cy5
Low intensities
A
High intensities
Software Tools
• Bioconductor:
pacchetto di applicazioni per il preprocessing e
l’analisi dei dati microarray per l’ambiente statistico
open source R
• BRB:
plugin per Excel. Interfaccia intuitiva, facile da usare
ma meno potente e customizzabile.
Analisi dei dati
Cosa vogliamo sapere dai
nostri dati?
1) Quali geni sono responsabili delle
differenze tra la condizione A e la
condizione B (geni differenzialmente
espressi)
2) Quali geni si muovono insieme, nella
modalità di espressione, all’interno di uno
stesso campione (geni coespressi)
3) Esiste un “classificatore” che ci permette di
riconoscere su base molecolare una data
condizione?
Analisi dei dati
Da cosa partiamo?
Clustering
Metodiche per il raggruppamento dei geni (e dei campioni) che mostrano
un comportamento simile dal punto di vista dell’espressione. Il
Clustering gerarchico raggruppa i geni ed i campioni in gruppi via via
sempre più stretti contenenti geni via via sempre più simili
nell’espressione. E’ possibile quindi identificare una gerarchia ed un
grado di “parentela” tra i diversi gruppi ottenuti.
Clustering
• Due geni che mostrano un pattern di
espressione genica simile si possono
considerare coespressi.
• Ci sono evidenze che molti geni
funzionalmente correlati sono coespressi. Ad
esempio geni codificanti per elementi di un
complesso proteico solitamente hanno simili
pattern di espressione.
• Geni coespressi possono dare informazioni
sui meccanismi regolatori. Se un sistema
regolativo controlla due o più geni questi
risulteranno essere coespressi.
Clustering
Una situazione ideale
La matrice di espressione è una rappresentazione dei dati da
un certo numero di esperimenti di miroarray.
Each element is a log ratio
(usually log 2 (Cy5 / Cy3) )
Exp 1
Exp 2
Exp 3
Exp 4
Exp 5
Exp 6
Gene 1
Gene 2
Gene 3
Gene 4
Black indicates a log
ratio of zero, i. e.,
Cy5 and Cy3 are very
close in value
Gene 5
Gene 6
Gray indicates missing data
Green indicates a
negative log ratio , i.e.
Cy5 < Cy3
Red indicates a
positive log ratio, i.e, Cy5 > Cy3
Expression Vectors
- Il vettore di epressione genica
è una lista che riporta tutti i valori di
espressione di un dato gene su un set
di esperimenti (praticamente una riga
della matrice di espressione).
I vettori di espressione come punti
nello “spazio di espressione”
Exp 1 Exp 2 Exp 3
G
1
G2
G3
G4
G5
-0.8
-0.4
-0.6
0.9
1.3
-0.3
-0.8
-0.8
1.2
0.9
-0.7
-0.7
-0.4
1.3
-0.6
Similar Expression
Experiment 3
Experiment 2
Experiment 1
Distanza e similarità
-the ability to calculate a distance (or similarity, it’s inverse) between two
expression vectors is fundamental to clustering algorithms
-distance between vectors is the basis upon which decisions are made
when grouping similar patterns of expression
-selection of a distance metric defines the concept of distance
La distanza è unamisura (inversa) della similarità tra geni.
Exp 1
Exp 2
Gene A
x1A
x2A
Gene B
x1B
x2B
Exp 3
Exp 4
x3A
x4A
x3B
x4B
Exp 5
Exp 6
x5A
x6A
x5B
x6B
p1
Some distances: (MeV provides 11 metrics)
1. Euclidean: 6i = 1 (xiA - xiB)2
2. Manhattan: i = 1 |xiA – xiB|
6
3. Pearson correlation
p0
Clustering gerarchico (HCL)
HCL is an agglomerative clustering method which
joins similar genes into groups. The iterative
process continues with the joining of resulting
groups based on their similarity until all groups are
connected in a hierarchical tree.
(HCL-1)
Hierarchical Clustering
g1
g2
g3
g4
g5
g6
g7
g8
g1 is most like g8
g1
g8
g2
g3
g4
g5
g6
g7
g4 is most like {g1, g8}
g1
g8
g4
g2
g3
g5
g6
g7
(HCL-2)
Hierarchical Clustering
g1
g8
g4
g2
g3
g5
g6
g7
g5 is most like g7
g1
g8
g4
g2
g3
g5
g7
g6
{g5,g7} is most like {g1, g4, g8}
g1
g8
g4
g5
g7
g2
g3
g6
(HCL-3)
Hierarchical Tree
g1
g8
g4
g5
g7
g2
g3
g6
(HCL-4)
Hierarchical Clustering
Durante la decisione della gerarchia devono
essere prese delle decisioni in merito ai clusters da
collegare tra di loro.
Calcolare la distanza tra due punti è facile (ad
esempio usando la distanza euclidea), ma come
calcolo la distanza tra due clusters? O tra un punto
ed un cluster?
Le regole che governano questi problemi sono i
metodi di linkage.
(HCL-5)
Agglomerative Linkage Methods
Linkage methods are rules or metrics that return a value
that can be used to determine which elements (clusters)
should be linked.
Three linkage methods that are commonly used are:
• Single Linkage
• Average Linkage
• Complete Linkage
(HCL-6)
Single Linkage
Cluster-to-cluster distance is defined as the minimum
distance between members of one cluster and
members of the another cluster. Single linkage tends to
create ‘elongated’ clusters with individual genes chained
onto clusters.
DAB = min ( d(ui, vj) )
where u A and v B
for all i = 1 to NA and j = 1 to NB
DAB
(HCL-7)
Average Linkage
Cluster-to-cluster distance is defined as the average
distance between all members of one cluster and all
members of another cluster. Average linkage has a slight
tendency to produce clusters of similar variance.
DAB = 1/(NANB)  ( d(ui, vj) )
where u A and v B
for all i = 1 to NA and j = 1 to NB
DAB
(HCL-8)
Complete Linkage
Cluster-to-cluster distance is defined as the maximum
distance between members of one cluster and members
of the another cluster. Complete linkage tends to create
clusters of similar size and variability.
DAB = max ( d(ui, vj) )
where u A and v B
for all i = 1 to NA and j = 1 to NB
DAB
(HCL-9)
Comparison of Linkage Methods
Single
Ave.
Complete
(HCL-10)
K-Means / K-Medians Clustering (KMC)– 1
Il K-means è un algoritmo non gerarchico di clustering.
Raggruppa gli elementi in clusters omogenei ma non
genera delle relazioni di parentela tra gli elementi o tra i
clusters.
Questo algoritmo ha bisogno di avere una conosceza apriori del numero di clusters da produrre.
K-Means / K-Medians Clustering (KMC)– 1
1. Specificare il numero dei clusters, ad esempio 5.
2. Assegnare, in maniera casuale, ogni punto ad un cluster.
G1
G2
G3
G4
G5
G6
G7
G8
G9
G10
G11
G12
G13
K-Means Clustering – 2
3. Calcolare media o mediana degli elementi in ogni cluster.
4. Riassegnare gli elementi a cluster in modo tale che ogni
elemento venga assegnato al cluster il cui valore medio o
mediano è il più vicino al valore di quel elemento.
G3
G11
G6
G1
G8
G4
G7
G5
G2
G10
G9 G12
G13
5. Ripetere i passi 3 e 4 finche i geni si stabilizzano (non cambiano più
cluster da una iterazione ad un’altra) o finchè si raggiunge un numero
massimo di iterazioni stabilito dall’utente.
K-Means / K-Medians is most useful when the user has an a-priori hypothesis
about the number of clusters the genes should group into.