Sequenziamento dell`RNA

annuncio pubblicitario
Era PostGenomica
Sara Palumbo
Laboratorio di Biologia Molecolare, Dipartimento di
Patologia Chirurgica, Medica, Molecolare e dell’Area
Critica
[email protected]
Era PostGenomica
• Analisi del trascrittoma per identificare i
geni e la loro funzione
• Analisi del proteoma per identificare le
proteine e la loro funzione
Dogma centrale della biologia molecolare
TRASCRITTOMICA
Studia l’attività dei geni mediante la misura del
trascrittoma
TRASCRITTOMA
E’ l’insieme di tutti trascritti, ovvero di RNA
messaggero (mRNA), di un organismo
PROTEOMICA
Ha lo scopo di ottenere una lista completa di tutte le
proteine presenti nel nostro organismo e di
determinarne l’espressione in ogni cellula o tessuto e la
funzione
PROTEOMA
E’ l’insieme di tutte le proteine codificate dai geni di un
organismo
Dogma centrale della biologia molecolare:
Il DNA contiene l’informazione per sintetizzare le
proteine
REPLICAZIONE
TRASCRIZIONE
TRADUZIONE
Dogma centrale della biologia molecolare:
Il DNA contiene l’informazione per sintetizzare le
proteine
RIBOSOMA
SEQUENZA AMINOACIDICA
RNA
DNA
Nucleo
PROTEINE
Trascrizione della sequenza
nucleotidica del DNA in RNA
Solo uno dei due
filamenti è utilizzato
come “stampo” durante
la trascrizione:
Filamento codificante
RNA:
Sequenza nucleotidica
complementare al filamento
codificante del DNA
Filamento non Filamento
codificante
codificante
RNA
Come è fatto l’RNA
L’informazione contenuta nel RNA è rappresentata dall’alternanza di 4 lettere
C
G
A
U
Citosina
Guanina
Adenina
Uracile
Basi azotate
GCUGACUUAACGAAUCGCCACGCGGAAU
Come è fatto l’RNA
è un acido ribonucleico a singolo filamento
Appaiamento delle basi azotate
C
G
A
U
Differenza tra DNA ed RNA
1.
2.
3.
Tipologie di RNA
• Che codificano per proteine
– mRNA (RNA messaggero) trasferisce l’informazione dal DNA al
ribosoma dove avviene la sintesi proteica.
Solo l’1-4 % dell’intero trascrittoma
• Che non codificano per proteine:
• RNA regolatori: funzione regolatrice della traduzione e dello splicing
• tRNA (RNA transfer) 15 %
• rRNA (RNA ribosomiali) 80 %
• snRNA (piccoli RNA nucleari)
•
RNAi (interference RNA): funzione protettiva contro sequenze
nucleotidiche esogene (agenti patogeni come parassiti e virus)
•
miRNA (micro RNA) piccole molecole di RNA che inibiscono la
traduzione degli mRNA
•
siRNA (small interfering RNA)
Splicing alternativo
Da un gene può originare più di un mRNA
Da ogni mRNA origina un solo tipo di proteina
Per ogni mRNA si stima essere tradotta
una quantità di proteina 1000 volte
maggiore
Traduzione
della sequenza nucleotidica
dell’mRNA in proteine
Filamento
Filamento mRNA
non codificante codificante
Il codice genetico
UAA
UAG
UGA
Codoni di stop
della sintesi
proteica
AUG
GUG
Codoni di inizio
della sintesi
proteica
64 triplette versus 20 aminoacidi
Hanno tutte lo stesso genoma,
perché queste cellule sono così
diverse in morfologia e funzione?
Fegato
Corteccia cerebrale
Muscolo liscio
a) Perché esprimono stessi geni in quantita’ diversa
b) Perche’ esprimono geni diversi
Trascrittoma in tessuti diversi
Marta Melé et al. Science 2015
Espressione genica
E’ il processo implicato nella sintesi di
mRNA e quindi proteine a partire da una
sequenza genica
E’ un processo molto complesso e
finemente regolato che permette ad una
cellula di rispondere dinamicamente
•
in risposta a stimoli ambientali
•
in risposta a stimoli della cellula
stessa
Misurare l’espressione di un gene significa....
Eseguire una misurazione quantitativa dei trascritti
(molecole di mRNA) o delle proteine codificate da quel
gene nelle cellule in esame
Quantità di mRNA
Gene
Quantità di proteina
Tecniche per misurare la quantità di
mRNA
•
•
•
•
Northen Blotting
Real-time PCR
Microarray
NGS
Rapidi miglioramenti nella misurazione
dell’espressione dei geni
Northern Blotting:
Tecnica utile al confronto dei
livelli di mRNA
con un campione di controllo
Estrazione di RNA
Sonde
radioattive
Elettroforesi su gel
Trasferimento
su membrana
Visualizzazione
con raggi X
Ibridazione
con sonde
radioattive
Svantaggio: Scarsa sensibilità
Saggio di protezione della Rnasi:
• Permette di prevenire a degradazione dell’RNA
• Metodo più sensibile rispetto al northern blotting
PCR (reazione a catena della
polimerasi)
Tecnologia automatizzata che
permette di creare copie
multiple (Amplificare) di una
sequenza di DNA producendo
milioni di copie
Per poter sfruttare questa
tecnologia nello studio dell’RNA, è
necessario per prima cosa,
sintetizzare una catena
complementare (cDNA) analoga
al DNA stampo da cui è stata
generata
centinaia di copie
per ogni gene
Microarray
Output
cDNA marcato
con fluorofori
Sul vetrino si trovano
depositate le sequenze di
tutti i geni noti
I microarray possono misurare l’espressione di tutti i geni
noti in poche ore
Tecnologia dei microarray
Sfrutta la capacità di una data molecola di
mRNA di ibridizzare con il DNA stampo da
cui è stata generata
Espressione genica differenziale
Estrazione di RNA
Sintesi di cDNA marcato
con fluorofori
Loading del cDNA marcato sul vetrino
Ibridazione del cDNA marcato con le
sequenze presenti sul vetrino
Acquisizione dell’immagine mediante
scansione laser
• Risoluzione
spaziale: 2-5 µm
• Occupazione di
memoria: 250 MB1GB
merge
L’intensità della fluorescenza è
proporzionale alla quantità di mRNA
Il colore della fluorescenza indica la
variazione di espressione rispetto al
campione di controllo
Aumentata espressione genica
Ridotta espressione genica
Nessuna differenza nell’ espressione genica
Minimizzazione degli errori potenziali
• Eseguire repliche sperimentali e biologiche
per validare la riproducibilità del dato
• Eliminare il background (fluorescenza
aspecifica)
• Normalizzare i dati per riportare la varianza
dei dati di espressione ad un valore costante e
utilizzare fattori di correzione che tengano
conto del fatto che segnali intensi
corrispondono a varianze maggiori
Repliche
• Sperimentali: aliquote dello stesso campione
• Biologiche: campioni diversi provenienti da
campioni simili
Analisi computazionale dei dati
1. Gridding dell’immagine
2. Segmentazione
A. Spaziale
B. Per intensità
3. Estrazione dell’intensità di segnale e di background
A. media del pixel
B. mediana del pixel
Correzione del background
Fluorescenza reale
dello spot
Fluorescenza dello
spot misurata
Fluorescenza di zone
limitrofe allo spot
Estrazione dei risultati
• Trasformazione dell’informazione di colore in
informazione numerica
• Normalizzazione dei valori numerici:
Within array
Es. normalizzazione
alle espressioni dei
controlli
Between arrays
Es. normalizzazione alle
espressioni dei geni
housekeeping (geni che
hanno espressione
costante)
Estrazione ed analisi dei risultati
• Si ottiene una lista di geni differenzialmente
espressi
• A ciascun gene è associato un fold change
medio ed un p value rappresentativo della
differenza rispetto al campione di controllo
• Test statistici:
– T-test
– Analisi della varianza (ANOVA)
– ….
Tabella dei risultati
…..
Interpretazione dei dati
• Analisi di Pathway (Kegg Pathway)
• Analisi funzionale (Gene Ontology)
Sequenziamento dell’RNA:
NGS RNA-Seq
• Sequenziamento dell’intero trascrittoma
• Sequenziamento di mRNA
– Eliminazione di rRNA
– Selezione dei poly-A RNA
Coda di adenine (polyA)
Vantaggi della tecnologia
NGS RNA-Seq
•
•
•
•
•
Fino a 96 campioni allo stesso tempo
Fino a 18 campione per fila della Flow cell
Altamente sensibile e specifico
Altamente riproducibile
Costo ridotto di più della metà rispetto ad un
tipico esperimento microarray
Protocollo
Preparazione della Libreria
• Selezione dell’mRNA
• Frammentazione dell’mRNA
• Sintesi del filamento
complementare ai frammenti
di mRNA
• Sintesi del frammento
complementare ai filamenti
neo sintetizzati
Preparazione della Libreria
• Riparazione delle code
• Legame degli adaptor ad
entrambe le estremità
• Amplificazione (PCR)
Sequenziamento
Allineamento delle sequenze alle
sequenze in banca dati (NCBI)
Proteoma
Circa 20.500 geni: > 70.000 proteine
Si stima che il corpo umano possa esprimere
fino a 2 M di proteine diverse
Come sono fatte le proteine?
Sequenza
amminoacidica
di 20 aminoacidi
Struttura tridimensionale delle
proteine
Le proteine si differenziano in
struttura e funzione grazie a
modificazioni chimiche posttrasduzionali
Funzione delle proteine
Proteina
Studio della
struttura
tridimensionale
Ricerca dei ligandi
Ruolo
biologico
Studio dell’
Interazione con
altre proteine
Tecniche di determinazione della
sequenza aminoacidica
• 1950 Tecnica di sequenziamento di Edman: Tecnica laboriosa e time
consuming (un ciclo di 1 ore per ogni aminoacido) che richiede
campioni proteici puri
• Anni 80’ tecniche di spettrometria di massa
• Anni 90’ sviluppo dei database genomici e proteici e sviluppo della
tecnica Peptide mass fingerprinting
Spettrometro di massa
Spettrometria di massa
Tecnica che misura il rapporto tra massa e carica
di frammenti proteici carichi positivamente
generati dalla ionizzazione della proteina
Camera di ionizzazione
Analizzatore
Rivelatore
Detector
Computer
che produce un segnale elettrico
detector
Spettro di massa
Peptide Mass Fingerprinting
identifica una proteina scindendola in brevi
segmenti peptidici e successivamente
deducendo l'identità della proteina
confrontando le masse dei peptidi con quelle di
un database di riferimento
Frammentazione
enzimatica della
proteina
Ionizzazione
+
~10 aminoacidi
+
+ + +
+ +
+
+
+ ++
++ +
+
+
+ +
+
+
Spettrometria di
massa
Allineamento
delle sequenze
utilizzando
datadase
Mascot
Banche dati biologiche
•
•
•
•
•
Kegg
Gene Ontology
Pathway Express
The Human Protein Atlas
Matrix Science
http://www.genome.jp/kegg/
• Kegg è un database che raccoglie tutti i dati
sui profili di espressione genica ottenuti con la
tecnica microarray
http://www.geneontology.org/index.shtml
È un progetto che permette di integrare ed
elaborare i dati di espressione contenuti nelle
banche dati biologiche mediante
standardizzazione della terminologia a creare un
vocabolario di riferimento.
Permette di eseguire un’analisi di tipo funzionale
• L'ontologia, una delle branche fondamentali della
filosofia, è lo studio dell'essere in quanto tale,
nonché delle sue categorie fondamentali.
• Il termine deriva dal greco ὄντος, òntos (genitivo
singolare del participio presente ὤν di εἶναι, èinai, il
verbo essere) più λόγος, lògos, letteralmente
"discorso sull'essere”
Gene Ontology è organizzato in tre
branche volte a determinare:
• la funzione molecolare (funzione biochimica, es.
enzima, recettore…)
•
il ruolo biologico (processo metabolico, es.
metabolismo dei lipidi o dei glucidi, apoptosi…)
•
l’ ubicazione cellulare (membrana, citosol,
nucleo…)
Input: lista di geni differenzialmente
espressi
Pathway Express
http://vortex.cs.wayne.edu/projects.htm
• Mappatura dei geni differenzialmente espressi
nei vari pathway molecolari
• Valutazione della propagazione della
perturbazione provocata dalla variazione di
espressione genica
Impact factor
E’ fornito un valore di ‘impatto’ determinato da:
• Numero di geni differenzialmente espressi che
cadono nello stesso pathway
• Fold-change dell’espressione dei geni che
cadono nello stesso pathway
• Posizione in sui tali geni cadono nel pathway
(a valle o a monte di un processo biologico)
Esempio di pathway
http://www.proteinatlas.org/humanproteome
•
•
•
•
Per esplorare l’espressione genica nel corpo umano
Fornisce indicazione sull’associazione a patologie con specifica sulle neoplasie
Indica la tipologia di proteina (es. enzima)ed il pathway di appartenenza
Suggerisce se la proteina sia target di farmaci
http://www.proteinatlas.org/about/media
Mascot
http://www.matrixscience.com/search_form_select.html
• Per identificare, caratterizzare e quantificare le proteine utilizzando i dati generati
da esperimenti di spettrometria di massa
NCBInr
SwissProt
Mascot
EST/EMBL
Scarica