IV LEZIONE
Dati d'espressione genica:
• ESTs
• SAGE
• Microarray
• NCBI GEO
ESPRESSIONE DEL GENOMA UMANO NELLE
CELLULE DIFFERENZIATE
• Tutte le cellule di un organismo hanno lo stesso
corredo genomico
• L’espressione genica tessuto specifica determina il
fenotipo morfo-funzionale dei tipi cellulari e tissutali
• In ogni cellula differenziata ed in ogni particolare
momento dello sviluppo e’ attivo solo un sottoinsieme
di geni
REGOLAZIONE DELL’ESPRESSIONE GENICA
• Puo’ agire su ciascuno dei livelli che caratterizzano il
passare dell’informazione genica dal DNA alle proteine
• Negli Eucarioti superiori la regolazione dell’espressione
genica si svolge principalmente come controllo della
trascrizione
• Principali tipi di regolazione:
Controllo epigenetico
Controllo trascrizionale
Controllo post-trascrizionale
METODI PER LO STUDIO SU LARGA SCALA
DELL’ESPRESSIONE GENICA
 Sequenziamento sistematico di ESTs da librerie di
cDNA
 SAGE (Serial Analysis of Gene Expression)
 cDNA microarrays
“One-gene approach”
Il gene di interesse e’ espresso in un tessuto o in un dato momento dello
sviluppo ? Quanto e’ attivo dal punto di vista trascrizionale ?
Real Time PCR
PCR semiquantitativa
Ibridazione DNA genico o cDNA con RNA
totale o poly(A)+RNA (Northern blot)
Ibridazione in situ
“Large-scale approach”
Quali geni sono espressi in un tessuto ed in un dato momento dello sviluppo ?
Quanto ciascuno di essi e’ attivo dal punto di vista trascrizionale ?
Profilo d’espressione del genoma
(TRASCRITTOMA)
EST SEQUENCING
mRNA of different genes
cDNA LIBRARY
EST
EST
Il sequenziamento del DNA “codificante” si basa sulla
purificazione dell'RNA messaggero da cellule o da campioni di
tessuto e sulla sua retrotrascrizione in vitro in una sequenza di
DNA complementare (cDNA).

 In genere i cDNA vengono frammentati e clonati in vettori
batterici. Si ottengono in questo modo delle collezioni di batteri,
nelle quali ogni colonia contiene un inserto corrispondente ad un
frammento di sequenza di un gene espresso, dette librerie di
cDNA.
EST
Utilità delle EST
 Scoperta di nuovi geni
 Mappaggio di nuovi geni
 Identificazione degli esoni lungo estese
sequenze genomiche (Gene Prediction)
 Studio dello splicing alternativo
EST
Una libreria di cDNA, che viene preparata dal messaggero
contenuto nelle cellule di uno specifico tessuto, può essere
considerata come un'istantanea che riproduce la composizione
della popolazione dei messaggeri presenti nel tessuto in un
particolare momento dello sviluppo dell'organismo e in
determinate condizioni fisiologiche.
Le librerie di cDNA in cui i cloni da sequenziare vengono scelti in
modo casuale e sulle quali non vengono effettuate né operazioni
di sottrazione né di normalizzazione, possono essere usate per
descrivere, sia qualitativamente sia quantitativamente, la
popolazione dei messaggeri.
EST
EST
EST
SELECTION OF
UNBIASED cDNA
LIBRARIES PERTAINING
A GIVEN TISSUE
UNIGENE
DOWNLOAD FLAT FILES
cDNA LIBRARIES
CLUSTER INFORMATION
REPRESENTATIVE SEQUENCES
READLIBS
count ESTS per gene
estract EST info
BUILDHTML
estract cluster info
build the html pages
with the expression profile
Expression Profiles of Human Tissues
http://telethon.bio.unipd.it/bioinfo/Expression_Profiles/
EST
UniGene Human Release Statistics
Total sequences in clusters:
3115711
Total number of clusters sets:
95928
22094
sets contain at least one known gene
94710
20876
sets contain at least one EST
sets contain both genes and ESTs
EST
ESTIMATE OF THE LEVEL OF EXPRESSION
OF A GIVEN GENE
Sample of 12919 ESTs corresponding to 4460
genes/trascripts
eg. Rhodopsin:
65 retina ESTs  65 / 12919 = 0.503%
EST
EST
SAGE Serial Analysis of Gene Expression
SAGE
SAGE è un metodo sperimentale ideato per utilizzare i vantaggi
del sequenziamento su larga scala con il fine di avere
informazioni quantitative di espressione genica (Velculescu et al.
1995, Zhang et al, 1997)
Con questa tecnica e’ possibile stimare il livello d’espressione di
ciascun gene, attraverso la misura del numero di volte in cui la
TAG che lo rappresenta compare in un campione abbastanza
grande di TAGs sequenziate a partire dal messaggero del
tessuto in analisi
Tag to Gene mapping  Gene to Tag mapping
Consiste nel sequenziamento da messaggeri cellulari di brevi
oligonucleotidi, che fungono da etichette di sequenza (TAG)
SAGE
Si basa su tre principi:
 una sequenza di 9 paia di basi permette di identificare 49 (262144)
diversi trascritti, dal momento che una "tag" viene ottenuta da una
posizione specifica di ogni trascritto (12bp)
 le "tag" possono essere unite insieme in serie, a costituire lunghe
molecole di DNA, che vengono clonate e sequenziate in modo
automatizzato
 il numero di volte in cui una singola "tag" viene osservata permette
di quantificare l'abbondanza del messaggero identificato nella
popolazione dei messaggeri e, indirettamente, il livello di
espressione del gene corrispondente.
SAGE
Una TAG e’ una sequenza di lughezza definita direttamente adiacente
al 3’ del sito di restrizione piu’ 3’, nel messaggero da cui proviene, per
l’enzima utilizzato (spesso NIaIII)
Sintesi DNA a doppia elica a partire dai messaggeri con primer oligo(dT) biotinilato
Taglio con enzima di restrizione e isolamento della porzione 3’ del cDNA per
purificazione mediante sfere a streptavidina
Separazione del cDNA in 2 aliquote,
ciascuna ligata con un linker diverso,
contenente un sito di taglio per un enzima di restrizione (tagging enzyme) che taglia
ad una distanza definita dal sito riconociuto (20bp)
Il linker con attaccato un breve tratto di cDNA (9-12 bp) viene rilasciato
Ligazione tags a due a due ed eliminazione
ditags con due elementi uguali
Taglio ditags in modo da creare estremita’ coesive (spaziatore di 4 bp)
Ligazione ditags in lunghi concatameri
Clonaggio
dei concatameri e sequenziamento
Analisi automatizzata dei risultati: identificazione di tutte le specie di tags, conteggio
della frequenza di ciascuna, assegnazione a sequenze geniche note ed annotazione
SAGE
Isolamento delle “tag”
Ligazione
Sequenziamento
Livello di
espressione
Livello di
espressione
Quantificazione di ciascuna
“tag” e determinazione del
pattern di espressione
GENE
GENE
Normale
Normale
GENE
GENE
Alterato
Alterato






SAGE
Il risultato della SAGE e’ di tipo digitale: una lista di tags e la
frequenza di ciascuna di esse
La fase in cui si stabilisce la corrispondenza tra tag e gene e’
cruciale per una corretta stima del livello d’espressione del gene
La corrispondenza tag-gene non e’ sempre biunivoca, come ci si
aspetterebbe
Gli errori di sequenziamento hanno effetti molto pesanti sui dati
SAGE (1%  10% che ci sia almeno 1 errore su 10 bp)
Le assegnazioni tag/EST sono affette da un errore maggiore
Nel caso di due tag assegnate al medesimo gene:
Reliable mapping  correzione per gli errori di sequenza sulle
ESTs
SAGE
SAGE
SAGE
SAGE
SAGE
SAGE
MICROARRAY
Esperimenti di Microarray
Permettono l’analisi
dell’espressione genica
di migliaia di geni
simultaneamente
MICROARRAY
Un esperimento
MICROARRAY
Misura dell’espressione
dei geni con i microarray
= malato
= sano
Gene 1
Gene 2
MICROARRAY
Analisi dell’immagine
• Identificazione della posizione
degli spot
• Costruzione di un’area locale
intorno ad ogni spot
• Calcolo dell’intensità di ogni
singolo spot
• Calcolo del background locale
MICROARRAY
Elaborazione dei dati
EST
SAGE
MICROARRAY
Matrice dei risultati con più condizioni sperimentali
Cond. 1
Cond. 2
…
Cond. m
Gene 1
x11
x12
…
x1m
Gene 2
x21
x22
…
x2m
…
…
…
…
xn1
xn2
…
xnm
…
Gene n
• Quali geni sono differenzialmente espressi ?
• Quali e quanti geni sono coespressi?
Obiettivi dell’analisi saranno…
Identificazione geni differenzialmente espressi
Identificazione pattern di espressione comuni
Identificazione di geni coespressi con geni di
funzione nota
CLUSTER ANALISI
Identificazione di gruppi di geni con profili di
espressione simili
Simili rispetto a cosa ?
Definizione di distanza
I geni sono punti nello spazio:
punti vicini nello spazio sono raggruppati insieme
CLUSTER ANALISI
DUE STEPS:
Misura di similarita’
•
•
Diverse misure
Standardizzazione dei dati
Linking method
•
•
criterio per stabilire i gruppi
Metodi gerarchici e non gerarchici