Bioinformatica
Analisi del trascrittoma
Dott. Alessandro Laganà
Analisi del trascrittoma
 
 
 
 
 
 
2
Regolazione dell’espressione genica
I microarray
cDNA microarray
Oligo microarray
Affymetrix Chip
Analisi dei dati di espressione
Bioinformatica: Analisi del trascrittoma
12-04-2010
 
Tutte le cellule di un organismo hanno (quasi) lo stesso
genoma
 
 
Due cloni hanno lo stesso genoma, ma possono mostrare
fenotipi diversi.
 
 
Si adattano a diverse condizioni ambientali?
Il genoma di un organismo rimane (quasi) costante nel
tempo
 
3
Perche i diversi tessuti sono così “diversi”?
Perché allora l’organismo cambia nel tempo?
Bioinformatica: Analisi del trascrittoma
12-04-2010
Stesso genotipo, fenotipi diversi
Pranzo ogni
giorno da
McDonald’s
Mi nutro di
alghe e cibo
macrobiotico
Lo stesso genotipo esprimerà differenti fenotipi a causa
di diversi stimoli ambientali
4
Bioinformatica: Analisi del trascrittoma
12-04-2010
 
Il genoma sa cosa fare in ogni condizione
 
 
 
 
 
 
5
Sviluppo
Risposta immunitaria
Condizioni di stress
Cambiamenti ambientali
Interazioni
Per questa ragione a volte è meglio analizzare delle
“istantanee” del sistema
Bioinformatica: Analisi del trascrittoma
12-04-2010
Flusso dell’informazione
genica
6
DNA
Genomica
Transcrizione
RNA
Trascrittomica
Traduzione
PROTEINS (ENZIMES)
Proteomica
Modificazioni post
traduzionali, …
FUNCTION (METABOLISM)
Metabolomica
Bioinformatica: Analisi del trascrittoma
12-04-2010
Approccio globale(1)
From “single gene” to “large scale”
ONE-GENE APROACH
• Real Time PCR
• PCR semiquantitativa
• Northern blot
• In situ Hybridization
LARGE SCALE APROACH
• Systematic sequencing of ESTs from cDNA libraries
• SAGE (Serial Analysis of Gene Expression)
• cDNA microarrays
7
Bioinformatica: Analisi del trascrittoma
12-04-2010
Approccio Globale(2)
 
Nella scienza spesso si cerca di scomporre I problemi
complessi nei singoli elementi che li costituiscono
 
 
L’analisi separata di ogni componente dovrebbe permettere la
comprensione del problema complesso.
Questa assunzione può costituire un limite in quanto:
Il tutto non è sempre uguale alla somma delle
parti
8
Bioinformatica: Analisi del trascrittoma
12-04-2010
 
 
 
9
L’analisi dei trascritti si focalizza su un contesto
maggiormente dinamico rispetto all’analisi dei geni.
Il trascrittoma è più “vicino” al fenotipo rispetto al
genoma.
L’analisi di migliaia di trascritti ci permette di avere una
chiara visione del complesso nella sua interezza (relazioni
tra i geni)
Bioinformatica: Analisi del trascrittoma
12-04-2010
Analisi del trascrittoma
 
 
 
 
 
 
Regolazione dell’espressione genica
I microarray
cDNA microarray
Oligo microarray
Affymetrix Chip
Analisi dei dati di espressione
10
Bioinformatica: Analisi del trascrittoma
12-04-2010
DNA Microarrays
Diverse migliaia (fino anche a 30.000 geni) posso essere rilevati
simultaneamente in un unico esperimento
2 diversi canali possono essere utilizzati
simultaneamente per visualizzare le differenze
nei profili di espressione di 2 campioni.
11
Bioinformatica: Analisi del trascrittoma
12-04-2010
Microarray: le slide.
• In ogni area rappresentata dai
cerchietti (spots) è contenuta una
certa quantità di molecole di DNA
(sonde o probes).
• Dentro ogni spot le molecole di DNA
immobilizzato sono identiche per
sequenza e specifiche per un
particolare gene di un organimo per il
quale la piattaforma è stata
progettata.
• La specificità per il gene target è
acquisita attraverso la
complementarietà.
12
Bioinformatica: Analisi del trascrittoma
12-04-2010
13
Bioinformatica: Analisi del trascrittoma
12-04-2010
Gene 1
cDNA marcato, estratto
da un campione
Gene 2
Gene 3
L’ibridazione si ottiene
attraverso appaiamenti
canonici di Watson-Crick
(AU e GC)
Coated glass slide
14
Bioinformatica: Analisi del trascrittoma
12-04-2010
Diversi tipi di Microarray
 
cDNA Microarray (piattaforma a doppio canale)
 
 
Oligo Array (piattaforma a doppio canale)
 
 
Più vecchi, meno efficienti. I geni target immobilizzati sulla slide sono
costituiti da cDNA. La lunghezza media è elevata può arrivare anche
a qualche kilobase (cDNA full lenght). Aspecificità.
Più efficienti dei cDNA Microarray. Le librerie di oligo devono essere
progettate con cura. Gli oligo utilizzati sono di solito 70meri.
Risposta più specifica.
Affymetrix chips (piattaforma a singolo canale)
 
15
Realizzati tramite tecniche microlitografiche. Oligo molto corti.
Utilizzo di Probe set. Tecnologia Single Channel.
Bioinformatica: Analisi del trascrittoma
12-04-2010
Analisi del trascrittoma
 
 
 
 
 
 
Regolazione dell’espressione genica
I microarray
cDNA microarray
Oligo microarray
Affymetrix Chip
Analisi dei dati di espressione
16
Bioinformatica: Analisi del trascrittoma
12-04-2010
 
 
 
Viene prodotta una libreria di
molecole di cDNA (DNA
complementare all’RNA).
Per la “memorizzazione” e la
“gestione” di queste molecole
vengono utilizzati batteri e vettori a
plasmide.
Per produrre un microarray in
grado di identificare 20,000 geni,
occorrono almeno 20,000 cloni
differenti.
17
Bioinformatica: Analisi del trascrittoma
12-04-2010
 
 
 
La collezione di cDNA è solitamente
contenuta in un grande numero di
pozzetti. Ogni pozzetto contiene un
singolo clone, che rappresenta un gene
target.
Per posizionare i cloni nella piastra
microarray, occorre estrarre da ogni
pozzetto solo la molecola di cDNA per
la sonda (PCR).
Alla fine di questo processo si
ottengono delle piastre i cui pozzetti
contengono le sonde, pronte per
essere inserite nel microarray
(Spotting).
18
Bioinformatica: Analisi del trascrittoma
12-04-2010
 
 
Un robot trasferisce
automaticamente le
sonde a cDNA
contenute nei pozzetti
sulla superficie della
piastra (Spotting).
Le due tecnologie
utilizzate sono
  Piezoelectric (ink jet
style)
  Pen (Capillarity)
19
Bioinformatica: Analisi del trascrittoma
12-04-2010
20
Bioinformatica: Analisi del trascrittoma
12-04-2010
Uno svantaggio dei cDNA microarray
Aspecificità
Gene A
Gene A cDNA
Che succede se i geni A e B
hanno questa regione in comune
tra le loro sequenze?
Gene B
Gene B cDNA
Il gene B sarà rilevato dal cuo cDNA specifico ma anche de quallo
specifico per il gene A. L’aspecificità può condizionare pesantemente I
risultati.
Delle condizioni sperimentali “stringenti” (alta temperatura,
concentrazioni di Sali elavate) possono cercare di limitare questo
fenomeno.
21
Bioinformatica: Analisi del trascrittoma
12-04-2010
cDNA microarrays: pro e contro
 
Pro:
 
 
Economici da realizzare. Serve un robot ed una collezione di
cDNA.
Contro:
 
22
L’aspecificità influenza i risultati.
Bioinformatica: Analisi del trascrittoma
12-04-2010
Analisi del trascrittoma
 
 
 
 
 
 
Regolazione dell’espressione genica
I microarray
cDNA microarray
Oligo microarray
Affymetrix Chip
Analisi dei dati di espressione
23
Bioinformatica: Analisi del trascrittoma
12-04-2010
Oligo Microarrays
 
 
 
 
Una sonda più corta viene utilizzata per rappresentare un
gene.
Di solito la lunghezza degli ologo è di circa 70 nucleotidi.
Gli Oligo devono essere sintetizzati.
La cinetica di ibridazione è diversa rispetto agli array
precedenti.
24
Bioinformatica: Analisi del trascrittoma
12-04-2010
Gene A
Gene B
Gene C
Oligo for
gene B
Oligo for
gene A
Oligo for
gene C
Bioinformatica: Analisi del trascrittoma
12-04-2010
I Gene A, B e C condividono
alcune sottosequenze. Un design
razionale di specifici oligo può
produrre delle sonde altamente
specifiche.
25
Oligo Microarrays: oligos design
 
 
I candidati oligo devono essere specifici e stabili.
BLAST è usato per verificare che:
 
 
 
Ogni oligo sia complementare solo (o almeno soprattutto) al
gene correlato
Ogni oligo non abbia ripetizioni interne
Gli Oligo vengono valutati anche in termini di
caratteristiche termodinamiche poiché devono legarsi ai
loro target con energia sufficientemente elevata (coppie
G-C preferite)
26
Bioinformatica: Analisi del trascrittoma
12-04-2010
Oligo Microarrays
 
Pro:
 
 
Specificità dell’ibridazione aumentata (a patto di aver effettuato
un buon disegno sperimentale), miglioramento della sensibilità.
Contro:
 
27
Necessarie concentrazioni superiori di oligo. Non tutti i
laboratori sono in grado di sintetizzare oligo. Costi
leggermente superiori
Bioinformatica: Analisi del trascrittoma
12-04-2010
Esperimenti Dual Channel: ibridazione
 
 
 
28
Gli spot il cui gene associato è più abbondante nel
campione rosso, “si colorerà” di rosso.
Gli spot il cui gene associato è più abbondante nel
campione verde, “si colorerà” di verde.
Se la concentrazione di un gene è simile in entrambe i
campioni, lo spot relativo “si colorerà” di giallo.
Bioinformatica: Analisi del trascrittoma
12-04-2010
Esperimenti Dual Channel Experiments:
L’immagine
 
 
L’immagine risultante è fatta
di spots i cui colori vanno
dal verde al rosso passando
per il giallo, che rappresenta
gene egualmente espressi
nei due campioni.
I geni più interessanti sono i
più verdi e i più rossi: questi
rappresentano i geni che
sono maggiormente
sbilanciati, nella loro
espressione, nei due
campioni.
29
Bioinformatica: Analisi del trascrittoma
12-04-2010
 
È necessario passare
dall’immagine a valori numerici
che rappresentano l’intensità del
segnale per ogni spot.
 
Addressing: individuare gli spot.
 
Segmentation: definire la forma
geometrica che delimita lo spot
dal background.
Flagging: distinguere i good spots
dai bad spots.
 
 
30
Information extraction: calcolare
l’intensità del segnale e del
background su entrambi i canali
per ogni spot nell’immagine.
Bioinformatica: Analisi del trascrittoma
12-04-2010
Preprocessing dei Dati
 
Normalizzazione: processing dei dati all’interno della
stessa ibridazione.
 
Standardizzazione (o Normalizzazione tra gli array):
processing dei di tutti gli esperimenti (rende i dati paragonabili
tra loro e quindi utilizzabili nello stesso processo di analisi)
31
Bioinformatica: Analisi del trascrittoma
12-04-2010
Normalizzazione
Normalizzare i dati provenienti da una ibridazione self-to-self è banale, ma come ci si
comporta con i dati di un esperimento in cui ogni canale (od ogni array nel caso della
standardizzazione) rappresenta una diversa sorgente?
Selezione dei geni per BIAS correction
TUTTI I GENI
Assunzione: la maggior parte dei geni sono
espressi in maniera uguale nelle cellule
paragonate, mentre solo una piccola parte
dei geni è differenzialmente espressa
(<20%).
Geni Housekeeping
Assunzione: sulla base della conoscenza
biologica un set di geni può essere
considerato come egualmente espresso nei
campioni comparati.
Spiked-in controls
Alcuni controlli vengono immessi nei
campioni a concentrazioni note per tarare il
sistema
Invariant set
Un set di geni viene individuato come
costante senza nessuna conoscenza
biologica di partenza.
32
Bioinformatica: Analisi del trascrittoma
12-04-2010
Analisi del trascrittoma
 
 
 
 
 
 
Regolazione dell’espressione genica
I microarray
cDNA microarray
Oligo microarray
Affymetrix Chip
Analisi dei dati di espressione
33
Bioinformatica: Analisi del trascrittoma
12-04-2010
Tecnologia Affymetrix: una piattaforma a
singolo canale
 
 
 
 
Sono basati su una tecnologia
proprietaria per produrre oligo
microarray direttamente sulla superficie
dei chip tramite microlitografia.
Gli oligo sintetizzati sono molto corti
(circa 25 nucleotidi).
Ogni gene è identificato da un set di
sonde e non da una soltanto (probeset).
Sono usati per esperimenti a singolo
canale (un solo campione per chip) e
forniscono quindi una misura diretta ed
indipendente del livello di espressione
genica in un campione.
34
Bioinformatica: Analisi del trascrittoma
12-04-2010
The process
35
Bioinformatica: Analisi del trascrittoma
12-04-2010
Single channel. Information provided
 
 
 
L’output fornito dal sistema consiste da livelli di espressione
genica assoluti, che rappresentano una valutazione diretta della
quantità di mRNA prodotto per ogni gene.
Non è basato su rapporti (al contrario del dual channel).
Il livello di espressione di un gene è ottenuto dall’integrazione di
tutti i dati del probeset.
36
Bioinformatica: Analisi del trascrittoma
12-04-2010
Affymetrix Technology
 
Pro:
 
 
 
 
Misura diretta ed indipendente.
Alta efficienza, specificità e riproducibilità.
Elevati livelli di standardizzazione dei protocolli.
Contro:
 
 
37
Le nuove versioni dei chip non sono compatibili con quelle
vecchie (il data merging non è possibile).
Tecnologia proprietaria e non customizzabile.
Bioinformatica: Analisi del trascrittoma
12-04-2010
Analisi del trascrittoma
 
 
 
 
 
 
Regolazione dell’espressione genica
I microarray
cDNA microarray
Oligo microarray
Affymetrix Chip
Analisi dei dati di espressione
38
Bioinformatica: Analisi del trascrittoma
12-04-2010
Analisi dei dati
Cosa vogliamo sapere dai
nostri dati?
1)  Quali geni sono responsabili delle
differenze tra la condizione A e la
condizione B (geni differenzialmente
espressi)
2)  Quali geni si muovono insieme, nella
modalità di espressione, all’interno di uno
stesso campione (geni coespressi)
3)  Esiste un “classificatore” che ci permette di
riconoscere su base molecolare una data
condizione?
39
Bioinformatica: Analisi del trascrittoma
12-04-2010
Analisi dei dati
Da cosa partiamo?
40
Bioinformatica: Analisi del trascrittoma
12-04-2010
Clustering
 
 
 
Metodiche per il raggruppamento
dei geni (e dei campioni) che
mostrano un comportamento
simile dal punto di vista
dell’espressione.
Il Clustering gerarchico raggruppa
i geni ed i campioni in gruppi via
via sempre più stretti contenenti
geni via via sempre più simili
nell’espressione.
E’ possibile quindi identificare una
gerarchia ed un grado di
“parentela” tra i diversi gruppi
ottenuti
41
Bioinformatica: Analisi del trascrittoma
12-04-2010
Clustering
 
 
 
Due geni che mostrano un pattern di espressione genica
simile si possono considerare coespressi.
Ci sono evidenze che molti geni funzionalmente correlati
sono coespressi. Ad esempio geni codificanti per
elementi di un complesso proteico solitamente hanno
simili pattern di espressione.
Geni coespressi possono dare informazioni sui
meccanismi regolatori. Se un sistema regolativo controlla
due o più geni questi risulteranno essere coespressi.
42
Bioinformatica: Analisi del trascrittoma
12-04-2010
Clustering
Una situazione ideale
43
Bioinformatica: Analisi del trascrittoma
12-04-2010
GEO
 
 
Gene Expression Omnibus (GEO) è una banca dati relativa ad esperimenti di
varia natura basati sulla tecnologia dei microarrays e preposti allo studio di
espressione di geni e di ibridizzazione fra genomi
I dati sono classificati in 3 categorie:
 
 
 
 
 
platform = dati su tutte le sonde molecolari identificative di ciascuno spot per
l’allestimento di un microarray
samples = dati sui campioni biologici analizzati
series = tutti i dati relativi a un esperimento
Ogni elemento annotato in ciascuna categoria è identificato da un entry code
del tipo GPL##### per la categoria platform, GSM##### per la categoria
samples e GSE##### per la categoria series
GEO è accessibile al seguente indirizzo:
http://www.ncbi.nlm.nih.gov/geo/
44
Bioinformatica: Analisi del trascrittoma
12-04-2010
GEO (2)
 
 
 
La sottomissione dei dati in GEO può essere effettuata via
web o mediante il software SOFT che può essere scaricato
ed utilizzato per la preparazione dei dati da sottomettere
Submitter è colui che sottomette le informazioni
sperimentali. Egli possiede uno userId (obbligatorio)
fornitogli dal sistema GEO e una password.
I dati sottomessi ricevono un accession number che può
essere inviato alla rivista su cui si pubblicano i risultati
scientifici associati all’esperimento sottomesso
45
Bioinformatica: Analisi del trascrittoma
12-04-2010