Introduzione

Metodi per lo studio dell’espressione genica
su larga scala:
 ESTs
 SAGE
 Microarray
EST
SAGE
MICROARRAY
Computational analysis of data by
statistical methods
ESPRESSIONE DEL GENOMA UMANO NELLE
CELLULE DIFFERENZIATE
• Tutte le cellule di un organismo hanno lo stesso
corredo genomico
• L’espressione genica tessuto specifica determina il
fenotipo morfo-funzionale dei tipi cellulari e tissutali
• In ogni cellula differenziata ed in ogni particolare
momento dello sviluppo e’ attivo solo un sottoinsieme
dei geni
REGOLAZIONE DELL’ESPRESSIONE GENICA
• Puo’ agire su ciascuno dei livelli che caratterizzano il
passare dell’informazione genica dal DNA alle proteine
• Negli Eucarioti superiori la regolazione dell’espressione
genica si svolge principalmente come controllo della
trascrizione
• Principali tipi di regolazione:
Controllo epigenetico
Controllo trascrizionale
Controllo post-trascrizionale
“One-gene approach”
Il gene di interesse e’ espresso in un tessuto o in un dato momento dello
sviluppo ? Quanto e’ attivo dal punto di vista trascrizionale ?
Real Time PCR
PCR semiquantitativa
Ibridazione DNA genico o cDNA con RNA
totale o poly(A)+RNA (Northern blot)
Ibridazione in situ
“Large-scale approach”
Quali geni sono espressi in un tessuto ed in un dato momento dello sviluppo ?
Quanto ciascuno di essi e’ attivo dal punto di vista trascrizionale ?
Profilo d’espressione del genoma
(TRASCRITTOMA)
METODI PER LO STUDIO SU LARGA SCALA
DELL’ESPRESSIONE GENICA
 Sequenziamento sistematico di ESTs da librerie di
cDNA
 SAGE (Serial Analysis of Gene Expression)
 cDNA microarrays
EST SEQUENCING
mRNA of different genes
cDNA LIBRARY
EST
UniGene Human Release Statistics
Total sequences in clusters:
3115711
Total number of clusters sets:
95928
22094
sets contain at least one known gene
94710
20876
sets contain at least one EST
sets contain both genes and ESTs
EST
ESTIMATE OF THE LEVEL OF EXPRESSION
OF A GIVEN GENE
Sample of 12919 ESTs corresponding to 4460
genes/trascripts
eg. Rhodopsin:
65 retina ESTs  65 / 12919 = 0.503%
SAGE Serial Analysis of Gene Expression
SAGE
SAGE è un metodo sperimentale ideato per utilizzare i vantaggi
del sequenziamento su larga scala per avere informazioni
quantitative di espressione genica (Velculescu et al. 1995, Zhang
et al, 1997)
Con questa tecnica e’ possibile stimare il livello d’espressione di
ciascun gene, attraverso la misura del numero di volte in cui la
TAG che lo rappresenta compare in un campione abbastanza
grande di TAGs sequenziate a partire dal messaggero del tessuto
in analisi
Tag to Gene mapping  Gene to Tag mapping
Consiste nel sequenziamento da messaggeri cellulari di brevi
oligonucleotidi, che fungono da etichette di sequenza (TAG)
SAGE
Isolamento delle “tag”
Ligazione
Sequenziamento
Livello di
espressione
Livello di
espressione
Quantificazione di ciascuna
“tag” e determinazione del
pattern di espressione
GENE
GENE
Normale
Normale
GENE
GENE
Alterato
Alterato
 una sequenza di 9 paia di basi
permette di identificare 49
(262144) diversi trascritti (una
"tag" viene ottenuta da una
posizione specifica di ogni
trascritto).
 le "tag" possono essere unite
insieme in serie, a costituire
lunghe molecole di DNA, che
vengono clonate e sequenziate.
 il numero di volte in cui una
singola "tag" viene osservata
permette di quantificare
l'abbondanza del messaggero
identificato nella popolazione dei
messaggeri e, indirettamente, il
livello di espressione del gene
corrispondente.
MICROARRAY
Esperimenti di Microarray
Permettono l’analisi
dell’espressione di
migliaia di geni
simultaneamente
MICROARRAY
GeneChip Affymetrix
Ibridizzazione della sonda marcata
Scansione del GeneChip con scanner laser
MICROARRAY
Analisi dell’immagine
• Identificazione della posizione
degli spot
• Costruzione di un’area locale
intorno ad ogni spot
• Calcolo dell’intensità di ogni
singolo spot
• Calcolo del background locale
MICROARRAY
Elaborazione dei dati
EST
SAGE
MICROARRAY
Matrice dei risultati con più condizioni sperimentali
Cond. 1
Cond. 2
…
Cond. m
Gene 1
x11
x12
…
x1m
Gene 2
x21
x22
…
x2m
…
…
…
…
xn1
xn2
…
xnm
…
Gene n
• Quali geni sono differenzialmente espressi ?
• Quali e quanti geni sono coespressi?
Obiettivi dell’analisi saranno…
Identificazione geni differenzialmente espressi
Identificazione pattern di espressione comuni
Identificazione di geni co-espressi con geni di
funzione nota
CLUSTER ANALISI
• Il CLUSTERING o analisi cluster o analisi di
raggruppamento è un insieme di tecniche di analisi
multivariata dei dati volte al raggruppamento di elementi
omogenei.
• Un insieme di oggetti grande e disomogeo viene classificato in
una serie limitata di gruppi omogeneei, ovvero “vicini” in
accordo con una specifica misura di distanza.
CLUSTER ANALISI
Come si effettua una cluster analisi?
• Si parte dalla matrice dei dati X di dimensione nxp e la si
trasforma in una matrice nxn di dissimilarità o di distanze
tra le n coppie di osservazioni (vettori di p elementi).
• Si sceglie poi un algoritmo che definisca le regole su come
raggruppare le unità in sottogruppi sulla base delle loro
similarità.
• Lo scopo e’ di identificare un cero numero di gruppi tali
che gli elementi appartenenti ad un gruppo siano – in
qualche senso – piu’ simili tra loro che non agli elementi
appartenenti ad altri gruppi.
CLUSTER ANALISI
DUE STEPS:
Misura di similarita’
•
•
Diverse misure
Standardizzazione dei dati
Linking method
•
•
criterio per stabilire i gruppi
Metodi gerarchici e non gerarchici
CLUSTER ANALISI
Identificazione di gruppi di geni con profili di
espressione simili
Simili rispetto a cosa ?
Definizione di distanza
I geni sono punti nello spazio:
punti vicini nello spazio sono raggruppati insieme
Var. 1
Var. 2
…
Var. m
1
x11
x12
…
x1m
…
…
…
…
…
n
xn1
xn2
…
xnm
m=3
Ogni riga è un punto in
uno spazio di m
dimensioni
n punti in uno spazio di
m dimensioni
Var 2
Var 3
Var 1
Livelli vs. Pattern
1
Var. 1
Var. 2
…
Var. m
x11
x12
…
x1m
…
…
…
…
…
n
xn1
xn2
…
xnm
Ogni profilo può
essere inserito in
un grafico …
1
X
2
1
2
3
4
m
Variabili
Distanza euclidea
Correlazione di
Pearson
1- Data Matrix
PROBESET/GEN
E
CD34
Eritroblas
ti
Mieloblas
ti
Monoblas
ti
MKC
Monociti
Neutrofili
Eosinofili
GC00U921857_at
-1.0
1.2
1.1
-1.1
-0.2
-1.0
1.1
-0.2
GC00U922066_at
-0.5
-1.0
-0.9
-0.2
-0.9
1.1
1.2
1.1
GC00U990452_at
-1.1
1.2
1.1
-0.2
1.0
-1.0
0.0
-1.1
GC00U990575_at
0.1
-1.0
-0.5
1.0
-1.0
1.2
1.2
-1.0
GC00U990668_at
1.1
1.1
1.0
0.3
-0.3
-1.0
-1.2
-1.0
GC00U990680_at
-0.8
-0.9
0.2
1.1
1.1
1.2
-0.9
-0.9
GC00U990706_at
-0.1
-1.2
-1.0
0.4
-1.1
1.2
0.9
1.0
GC01M033561_at
0.1
-1.0
-1.0
1.0
-1.2
1.2
1.2
-0.3
GC01M035219_at
1.1
1.1
0.5
-1.0
-0.5
-1.0
-1.1
1.0
GC01M035470_at
-1.0
-0.9
-1.2
1.1
-0.3
0.1
1.0
1.2
GC01M035671_at
1.2
-1.0
0.2
-1.2
0.0
-1.1
1.0
0.9
GC01M035737_at
1.2
1.2
1.2
-0.8
-0.4
-0.4
-0.8
-1.1
GC01M035952_at
1.3
-0.2
1.1
-0.9
1.0
-0.1
-0.9
-1.2
GC01M035958_at
-0.1
-1.2
-1.0
-0.8
-0.4
1.1
1.1
1.2
GC01M036333_at
-0.9
1.2
1.0
0.0
1.2
-0.9
-1.2
-0.4
Eosinofili
Neutrofili
Monociti
Monoblasti
MKC
Mieloblasti
Eritroblasti
CD34
2- Data representation
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
3-Distance and linking method selection
4 - Result
Pearson QT clustering
1.5
Insieme
disomogeneo
di 40 geni
1.0
0.5
0.0
-0.5
-1.0
Eosinofili
Neutrofili
Monociti
Monoblasti
MKC
Mieloblasti
Eritroblasti
CD34
-1.5
6 cluster,
gruppi
omogenei