A.A. 2008-2009 CORSO DI BIOINFORMATICA per il CLT in

AN EXAMPLE FROM MORE ADVANCED
BIOINFORMATICS
Gene expression data analysis
VI LEZIONE
• Introduzione all'analisi di dati
d'espressione genica.
• Metodi per lo studio dell’espressione
genica su larga scala.
• Profili e matrici d'espressione.
• Ricerca di geni co-espressi e di geni
differenzialmente espressi.
Metodi per lo studio dell’espressione genica
su larga scala:
1. Basati su ibridazione: Microarray/Chip
2. Basati su conteggio di sequenze: EST
sequencing, SAGE, e deep sequencing di
librerie di cDNA
Deep seq. EST
SAGE
MICROARRAY
CHIP
Computational analysis of data by statistical methods
ESPRESSIONE DEL GENOMA UMANO
NELLE CELLULE DIFFERENZIATE
• Tutte le cellule di un organismo hanno lo stesso
corredo genomico
• L’espressione genica tessuto specifica determina il
fenotipo morfo-funzionale dei tipi cellulari e tissutali
• In ogni cellula differenziata ed in ogni particolare
momento dello sviluppo e’ attivo solo un sottoinsieme
dei geni
REGOLAZIONE DELL’ESPRESSIONE GENICA
• Puo’ agire su ciascuno dei livelli che caratterizzano
il passare dell’informazione genica dal DNA alle
proteine
• Negli Eucarioti superiori la regolazione
dell’espressione genica si svolge principalmente
come controllo della trascrizione
• Principali tipi di regolazione:
Controllo epigenetico
Controllo trascrizionale
Controllo post-trascrizionale
“One-gene approach”
Il gene di interesse e’ espresso in un tessuto o in un dato momento dello
sviluppo ? Quanto e’ attivo dal punto di vista trascrizionale ?
Real Time PCR
PCR semiquantitativa
Ibridazione DNA genico o cDNA con RNA
totale o poly(A)+RNA (Northern blot)
Ibridazione in situ
“Large-scale approach”
Quali geni sono espressi in un tessuto ed in un dato momento dello sviluppo ?
Quanto ciascuno di essi e’ attivo dal punto di vista trascrizionale ?
Profilo d’espressione del genoma
(TRASCRITTOMA)
METODI PER LO STUDIO SU LARGA SCALA
DELL’ESPRESSIONE GENICA BASATI SUL
SEQUENZIAMENTO

Sequenziamento sistematico di ESTs da librerie di
cDNA
 Sequenziamento sistematico con metodi di terza
generazione di librerie di cDNA
 SAGE (Serial Analysis of Gene Expression)
Deep seq.
SEQUENCING
mRNA of different genes
cDNA LIBRARY
EST
UniGene Human Release Statistics
Total sequences in clusters:
3115711
Total number of clusters sets:
95928
22094
sets contain at least one known gene
94710
20876
sets contain at least one EST
sets contain both genes and ESTs
EST
ESTIMATE OF THE LEVEL OF EXPRESSION
OF A GIVEN GENE
Sample of 12919 ESTs corresponding to 4460
genes/trascripts
eg. Rhodopsin:
65 retina ESTs  65 / 12919 = 0.503%
SAGE Serial Analysis of Gene Expression
SAGE
SAGE è un metodo sperimentale ideato per utilizzare i vantaggi
del sequenziamento su larga scala per avere informazioni
quantitative di espressione genica (Velculescu et al. 1995,
Zhang et al, 1997)
Con questa tecnica e’ possibile stimare il livello d’espressione
di ciascun gene, attraverso la misura del numero di volte in cui
la TAG che lo rappresenta compare in un campione
abbastanza grande di TAGs sequenziate a partire dal
messaggero del tessuto in analisi
Tag to Gene mapping  Gene to Tag mapping
Consiste nel sequenziamento da messaggeri cellulari di brevi
oligonucleotidi, che fungono da etichette di sequenza (TAG)
SAGE
Isolamento delle “tag”
 le "tag" possono essere unite
insieme in serie, a costituire lunghe
molecole di DNA, che vengono
clonate e sequenziate.
Ligazione
Sequenziamento
Livello di
espressione
Livello di
espressione
Quantificazione di ciascuna
“tag” e determinazione del
pattern di espressione
GENE
GENE
Normale
Normale
 una sequenza di 9 paia di basi
permette di identificare 49 (262144)
diversi trascritti (una "tag" viene
ottenuta da una posizione specifica
di ogni trascritto).
GENE
GENE
Alterato
Alterato
 il numero di volte in cui una singola
"tag" viene osservata permette di
quantificare l'abbondanza del
messaggero identificato nella
popolazione dei messaggeri e,
indirettamente, il livello di
espressione del gene
corrispondente.
MICROARRAY
DUE CANALI
Esperimenti di Microarray
Permettono l’analisi
dell’espressione di
migliaia di geni
simultaneamente
MICROARRAY
DUE CANALI
GeneChip
Affymetrix
SINGOLO
CANALE
Ibridizzazione della sonda marcata
Scansione del GeneChip con scanner laser
Analisi immagine
Normalizzazione
Espressione
differenziale
Clustering
Interpretazione
biologica
MICROARRAY
Analisi dell’immagine
GeneChip
Affymetrix
SINGOLO
CANALE
• Identificazione della
posizione degli spot
• Costruzione di un’area
locale intorno ad ogni
spot
• Calcolo dell’intensità di
ogni singolo spot
• Calcolo del background
locale
MICROARRAY
Elaborazione dei dati
GeneChip
Affymetrix
SINGOLO
CANALE
Deep seq. EST
SAGE
MICROARRAY
CHIP
Matrice dei risultati:
righe = geni, colonne = condizioni sperimentali
Cond. 1
Cond. 2
…
Cond. m
Gene 1
x11
x12
…
x1m
Gene 2
x21
x22
…
x2m
…
…
…
…
xn1
xn2
…
xnm
…
Gene n
• Quali geni sono differenzialmente espressi ?
• Quali e quanti geni sono co-espressi?
Obiettivi dell’analisi saranno…
 Identificazione geni differenzialmente
espressi
 Identificazione pattern di espressione comuni
 Identificazione di geni co-espressi con geni di
funzione nota
Campione 2
Campione 3
Campione 4
Campione 5
Campione 6
Campione 1
Campione 2
Campione 3
Campione 4
Campione 5
Campione 6
Campione 7
Campione 8
10
12
15
50
34
10
12
13
22
10
10
10
10
10
100
150
100
90
70
110
400
345
300
400
300
300
300
409
1000 1110 1200
950
850
900 1100 1110 1200
800 1050
300
400
300
300
300
5
1
1
2
2
3
1
3
1
1
2
2
3
1
50
56
62
68
74
47
86
50
1100 1110 1300
950
850
2
3
3
2
1
2
1
1
1400
1200
1000
Gene 1
Gene 2
800
Gene 3
Gene 4
Gene 5
600
Gene 6
Gene n
400
COLON NORMALE
COLON CARCINOMA
Campione 8
Campione 7
Campione 6
Campione 5
Campione 4
Campione 3
0
Campione 2
200
Campione 1
1
Campione 6
5
Campione 5
1
Campione 4
2
790 1000 1000
Campione 3
1
800 1050
Campione 2
1
900 1100 1110 1000
Schema sperimentale
“semplice”:
Dati d’espressione in colon
normale e carcinoma
Domanda biologica:
Quali geni sono
differenzialmente espressi nel
confronto ?
790 1000 1000
345
Campione 1
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
Gene 6
Gene n
COLON CARCINOMA
Campione 1
COLON NORMALE
GENI DIFFERENZIALMENTE ESPRESSI
Fold Change: un primo criterio puo’ essere quello di
identificare i geni la cui espressione nei due gruppi di
campioni considerati varia di una certa proporzione
(raddoppia, dimezza, …) fold change = 2
Molti falsi positivi
I geni poco espressi risultano differenzialmente espressi
anche3 con variazioni non significative
Selezione basata sui p-values associati a Test T: si applica
un test statistico per il confronto delle medie di due
campioni a ciascun gene; ogni gene risulta associato ad
una probabilità (di essere differenzialmente espresso)
Si esegue uno stesso test statistico molte volte, serve una
correzione
Uso di metodi basati su permutazioni (SAM) e FDR
MUSCOLO
Campione 1
Campione 2
Campione 3
Campione 4
Campione 1
Campione 2
Campione 3
Campione 4
Campione 1
Campione 2
Campione 3
10
12
15
50
34
10
12
13
22
10
10
10
10
10
100
150
100
90
70
110
430
345
300
400
300
300
300
409
1000
1110
1200
950
850
900
1100
1110
1200
800
1050
790
1000
1000
345
300
400
300
300
300
5
1
1
2
2
3
1
3
3
4
2
5
6
7
30
56
62
68
74
47
86
50
1100
1110
1300
950
850
900
1100
1110
1000
800
1050
790
1000
1000
1
1
2
2
3
1
5
1
3
2
1
2
1
1
13
14
12
15
16
17
40
66
72
78
84
57
96
60
120
170
150
110
90
130
500
365
320
560
320
320
320
429
340 1400
440
45
60
200
250
333
1000
2
1
2
1
1
1200
Gene 1
Gene 2
Gene 3
1000
Gene 4
Gene 5
800
Gene 6
Gene 7
600
Gene 8
Gene 9
400
Gene 10
Gene 11
Gene n
200
0
BAMBINO
GIOVANE
ADULTO
MUSCOLO
ANZIANO
Campione 3
29
449
1000
Campione 2
55
340
790
Campione 1
60
200
1050
Campione 4
50
340
800
Campione 3
1000
Campione 2
1110
Campione 1
385
1100
Campione 4
470
900
Campione 3
150
850
Campione 2
110
950
Campione 1
130
Campione 3
180
1300
Campione 2
200
1110
Campione 1
150
1100
Schema sperimentale
piu’ complesso:
Dati d’espressione in
piu’ condizioni
Domanda biologica:
Posso identificare gruppi
di geni espressi in modo
simile ?
ANZIANO
Campione 3
ADULTO
Campione 2
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
Gene 6
Gene 7
Gene 8
Gene 9
Gene 10
Gene 11
Gene n
GIOVANE
Campione 1
BAMBINO
CLUSTER ANALISI
• Il CLUSTERING o analisi cluster o analisi di
raggruppamento è un insieme di tecniche di analisi
multivariata dei dati volte al raggruppamento di elementi
omogenei.
• Un insieme di oggetti grande e disomogeo viene classificato in
una serie limitata di gruppi omogeneei, ovvero “vicini” in
accordo con una specifica misura di distanza.
CLUSTER ANALISI
DUE STEPS:
Misura di similarita’
•
Diverse misure
•
Standardizzazione dei dati
Linking method
•
criterio per stabilire i gruppi
•
Metodi gerarchici e non gerarchici
CLUSTER ANALISI
I geni sono punti nello spazio:
punti vicini nello spazio sono raggruppati insieme
• Si parte dalla matrice dei dati X di dimensione nxp e la si
trasforma in una matrice nxn di dissimilarità o di distanze
tra le n coppie di osservazioni (vettori di p elementi).
• Si sceglie poi un algoritmo che definisca le regole su come
raggruppare le unità in sottogruppi sulla base delle loro
similarità.
• Lo scopo e’ di identificare un cero numero di gruppi tali
che gli elementi appartenenti ad un gruppo siano – in
qualche senso – piu’ simili tra loro che non agli elementi
appartenenti ad altri gruppi.
CLUSTER ANALISI
Distanza euclidea
Correlazione di
Pearson
1- Data Matrix
PROBESET/GEN
E
CD34
Eritroblas
ti
Mieloblas
ti
Monoblas
ti
MKC
Monociti
Neutrofili
Eosinofili
GC00U921857_at
-1.0
1.2
1.1
-1.1
-0.2
-1.0
1.1
-0.2
GC00U922066_at
-0.5
-1.0
-0.9
-0.2
-0.9
1.1
1.2
1.1
GC00U990452_at
-1.1
1.2
1.1
-0.2
1.0
-1.0
0.0
-1.1
GC00U990575_at
0.1
-1.0
-0.5
1.0
-1.0
1.2
1.2
-1.0
GC00U990668_at
1.1
1.1
1.0
0.3
-0.3
-1.0
-1.2
-1.0
GC00U990680_at
-0.8
-0.9
0.2
1.1
1.1
1.2
-0.9
-0.9
GC00U990706_at
-0.1
-1.2
-1.0
0.4
-1.1
1.2
0.9
1.0
GC01M033561_at
0.1
-1.0
-1.0
1.0
-1.2
1.2
1.2
-0.3
GC01M035219_at
1.1
1.1
0.5
-1.0
-0.5
-1.0
-1.1
1.0
GC01M035470_at
-1.0
-0.9
-1.2
1.1
-0.3
0.1
1.0
1.2
GC01M035671_at
1.2
-1.0
0.2
-1.2
0.0
-1.1
1.0
0.9
GC01M035737_at
1.2
1.2
1.2
-0.8
-0.4
-0.4
-0.8
-1.1
GC01M035952_at
1.3
-0.2
1.1
-0.9
1.0
-0.1
-0.9
-1.2
GC01M035958_at
-0.1
-1.2
-1.0
-0.8
-0.4
1.1
1.1
1.2
GC01M036333_at
-0.9
1.2
1.0
0.0
1.2
-0.9
-1.2
-0.4
Eosinofili
Neutrofili
Monociti
Monoblasti
MKC
Mieloblasti
Eritroblasti
CD34
2- Data representation
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
3-Distance and linking method
selection
Pearson QT clustering
1.5
Insieme
disomogeneo
di 40 geni
1.0
0.5
0.0
-0.5
-1.0
Eosinofili
Neutrofili
Monociti
Monoblasti
MKC
Mieloblasti
Eritroblasti
CD34
-1.5
6 cluster,
gruppi
omogenei
4 - Result