Era PostGenomica Sara Palumbo Laboratorio di Biologia Molecolare, Dipartimento di Patologia Chirurgica, Medica, Molecolare e dell’Area Critica [email protected] Era PostGenomica • Analisi del trascrittoma per identificare i geni e la loro funzione • Analisi del proteoma per identificare le proteine e la loro funzione Dogma centrale della biologia molecolare TRASCRITTOMICA Studia l’attività dei geni mediante la misura del trascrittoma TRASCRITTOMA E’ l’insieme di tutti trascritti, ovvero di RNA messaggero (mRNA), di un organismo PROTEOMICA Ha lo scopo di ottenere una lista completa di tutte le proteine presenti nel nostro organismo e di determinarne l’espressione in ogni cellula o tessuto e la funzione PROTEOMA E’ l’insieme di tutte le proteine codificate dai geni di un organismo Dogma centrale della biologia molecolare: Il DNA contiene l’informazione per sintetizzare le proteine REPLICAZIONE TRASCRIZIONE TRADUZIONE Dogma centrale della biologia molecolare: Il DNA contiene l’informazione per sintetizzare le proteine RIBOSOMA SEQUENZA AMINOACIDICA RNA DNA Nucleo PROTEINE Trascrizione della sequenza nucleotidica del DNA in RNA Solo uno dei due filamenti è utilizzato come “stampo” durante la trascrizione: Filamento codificante RNA: Sequenza nucleotidica complementare al filamento codificante del DNA Filamento non Filamento codificante codificante RNA Come è fatto l’RNA L’informazione contenuta nel RNA è rappresentata dall’alternanza di 4 lettere C G A U Citosina Guanina Adenina Uracile Basi azotate GCUGACUUAACGAAUCGCCACGCGGAAU Come è fatto l’RNA è un acido ribonucleico a singolo filamento Appaiamento delle basi azotate C G A U Differenza tra DNA ed RNA 1. 2. 3. Tipologie di RNA • Che codificano per proteine – mRNA (RNA messaggero) trasferisce l’informazione dal DNA al ribosoma dove avviene la sintesi proteica. Solo l’1-4 % dell’intero trascrittoma • Che non codificano per proteine: • RNA regolatori: funzione regolatrice della traduzione e dello splicing • tRNA (RNA transfer) 15 % • rRNA (RNA ribosomiali) 80 % • snRNA (piccoli RNA nucleari) • RNAi (interference RNA): funzione protettiva contro sequenze nucleotidiche esogene (agenti patogeni come parassiti e virus) • miRNA (micro RNA) piccole molecole di RNA che inibiscono la traduzione degli mRNA • siRNA (small interfering RNA) Splicing alternativo Da un gene può originare più di un mRNA Da ogni mRNA origina un solo tipo di proteina Per ogni mRNA si stima essere tradotta una quantità di proteina 1000 volte maggiore Traduzione della sequenza nucleotidica dell’mRNA in proteine Filamento Filamento mRNA non codificante codificante Il codice genetico UAA UAG UGA Codoni di stop della sintesi proteica AUG GUG Codoni di inizio della sintesi proteica 64 triplette versus 20 aminoacidi Hanno tutte lo stesso genoma, perché queste cellule sono così diverse in morfologia e funzione? Fegato Corteccia cerebrale Muscolo liscio a) Perché esprimono stessi geni in quantita’ diversa b) Perche’ esprimono geni diversi Trascrittoma in tessuti diversi Marta Melé et al. Science 2015 Espressione genica E’ il processo implicato nella sintesi di mRNA e quindi proteine a partire da una sequenza genica E’ un processo molto complesso e finemente regolato che permette ad una cellula di rispondere dinamicamente • in risposta a stimoli ambientali • in risposta a stimoli della cellula stessa Misurare l’espressione di un gene significa.... Eseguire una misurazione quantitativa dei trascritti (molecole di mRNA) o delle proteine codificate da quel gene nelle cellule in esame Quantità di mRNA Gene Quantità di proteina Tecniche per misurare la quantità di mRNA • • • • Northen Blotting Real-time PCR Microarray NGS Rapidi miglioramenti nella misurazione dell’espressione dei geni Northern Blotting: Tecnica utile al confronto dei livelli di mRNA con un campione di controllo Estrazione di RNA Sonde radioattive Elettroforesi su gel Trasferimento su membrana Visualizzazione con raggi X Ibridazione con sonde radioattive Svantaggio: Scarsa sensibilità Saggio di protezione della Rnasi: • Permette di prevenire a degradazione dell’RNA • Metodo più sensibile rispetto al northern blotting PCR (reazione a catena della polimerasi) Tecnologia automatizzata che permette di creare copie multiple (Amplificare) di una sequenza di DNA producendo milioni di copie Per poter sfruttare questa tecnologia nello studio dell’RNA, è necessario per prima cosa, sintetizzare una catena complementare (cDNA) analoga al DNA stampo da cui è stata generata centinaia di copie per ogni gene Microarray Output cDNA marcato con fluorofori Sul vetrino si trovano depositate le sequenze di tutti i geni noti I microarray possono misurare l’espressione di tutti i geni noti in poche ore Tecnologia dei microarray Sfrutta la capacità di una data molecola di mRNA di ibridizzare con il DNA stampo da cui è stata generata Espressione genica differenziale Estrazione di RNA Sintesi di cDNA marcato con fluorofori Loading del cDNA marcato sul vetrino Ibridazione del cDNA marcato con le sequenze presenti sul vetrino Acquisizione dell’immagine mediante scansione laser • Risoluzione spaziale: 2-5 µm • Occupazione di memoria: 250 MB1GB merge L’intensità della fluorescenza è proporzionale alla quantità di mRNA Il colore della fluorescenza indica la variazione di espressione rispetto al campione di controllo Aumentata espressione genica Ridotta espressione genica Nessuna differenza nell’ espressione genica Minimizzazione degli errori potenziali • Eseguire repliche sperimentali e biologiche per validare la riproducibilità del dato • Eliminare il background (fluorescenza aspecifica) • Normalizzare i dati per riportare la varianza dei dati di espressione ad un valore costante e utilizzare fattori di correzione che tengano conto del fatto che segnali intensi corrispondono a varianze maggiori Repliche • Sperimentali: aliquote dello stesso campione • Biologiche: campioni diversi provenienti da campioni simili Analisi computazionale dei dati 1. Gridding dell’immagine 2. Segmentazione A. Spaziale B. Per intensità 3. Estrazione dell’intensità di segnale e di background A. media del pixel B. mediana del pixel Correzione del background Fluorescenza reale dello spot Fluorescenza dello spot misurata Fluorescenza di zone limitrofe allo spot Estrazione dei risultati • Trasformazione dell’informazione di colore in informazione numerica • Normalizzazione dei valori numerici: Within array Es. normalizzazione alle espressioni dei controlli Between arrays Es. normalizzazione alle espressioni dei geni housekeeping (geni che hanno espressione costante) Estrazione ed analisi dei risultati • Si ottiene una lista di geni differenzialmente espressi • A ciascun gene è associato un fold change medio ed un p value rappresentativo della differenza rispetto al campione di controllo • Test statistici: – T-test – Analisi della varianza (ANOVA) – …. Tabella dei risultati ….. Interpretazione dei dati • Analisi di Pathway (Kegg Pathway) • Analisi funzionale (Gene Ontology) Sequenziamento dell’RNA: NGS RNA-Seq • Sequenziamento dell’intero trascrittoma • Sequenziamento di mRNA – Eliminazione di rRNA – Selezione dei poly-A RNA Coda di adenine (polyA) Vantaggi della tecnologia NGS RNA-Seq • • • • • Fino a 96 campioni allo stesso tempo Fino a 18 campione per fila della Flow cell Altamente sensibile e specifico Altamente riproducibile Costo ridotto di più della metà rispetto ad un tipico esperimento microarray Protocollo Preparazione della Libreria • Selezione dell’mRNA • Frammentazione dell’mRNA • Sintesi del filamento complementare ai frammenti di mRNA • Sintesi del frammento complementare ai filamenti neo sintetizzati Preparazione della Libreria • Riparazione delle code • Legame degli adaptor ad entrambe le estremità • Amplificazione (PCR) Sequenziamento Allineamento delle sequenze alle sequenze in banca dati (NCBI) Proteoma Circa 20.500 geni: > 70.000 proteine Si stima che il corpo umano possa esprimere fino a 2 M di proteine diverse Come sono fatte le proteine? Sequenza amminoacidica di 20 aminoacidi Struttura tridimensionale delle proteine Le proteine si differenziano in struttura e funzione grazie a modificazioni chimiche posttrasduzionali Funzione delle proteine Proteina Studio della struttura tridimensionale Ricerca dei ligandi Ruolo biologico Studio dell’ Interazione con altre proteine Tecniche di determinazione della sequenza aminoacidica • 1950 Tecnica di sequenziamento di Edman: Tecnica laboriosa e time consuming (un ciclo di 1 ore per ogni aminoacido) che richiede campioni proteici puri • Anni 80’ tecniche di spettrometria di massa • Anni 90’ sviluppo dei database genomici e proteici e sviluppo della tecnica Peptide mass fingerprinting Spettrometro di massa Spettrometria di massa Tecnica che misura il rapporto tra massa e carica di frammenti proteici carichi positivamente generati dalla ionizzazione della proteina Camera di ionizzazione Analizzatore Rivelatore Detector Computer che produce un segnale elettrico detector Spettro di massa Peptide Mass Fingerprinting identifica una proteina scindendola in brevi segmenti peptidici e successivamente deducendo l'identità della proteina confrontando le masse dei peptidi con quelle di un database di riferimento Frammentazione enzimatica della proteina Ionizzazione + ~10 aminoacidi + + + + + + + + + ++ ++ + + + + + + + Spettrometria di massa Allineamento delle sequenze utilizzando datadase Mascot Banche dati biologiche • • • • • Kegg Gene Ontology Pathway Express The Human Protein Atlas Matrix Science http://www.genome.jp/kegg/ • Kegg è un database che raccoglie tutti i dati sui profili di espressione genica ottenuti con la tecnica microarray http://www.geneontology.org/index.shtml È un progetto che permette di integrare ed elaborare i dati di espressione contenuti nelle banche dati biologiche mediante standardizzazione della terminologia a creare un vocabolario di riferimento. Permette di eseguire un’analisi di tipo funzionale • L'ontologia, una delle branche fondamentali della filosofia, è lo studio dell'essere in quanto tale, nonché delle sue categorie fondamentali. • Il termine deriva dal greco ὄντος, òntos (genitivo singolare del participio presente ὤν di εἶναι, èinai, il verbo essere) più λόγος, lògos, letteralmente "discorso sull'essere” Gene Ontology è organizzato in tre branche volte a determinare: • la funzione molecolare (funzione biochimica, es. enzima, recettore…) • il ruolo biologico (processo metabolico, es. metabolismo dei lipidi o dei glucidi, apoptosi…) • l’ ubicazione cellulare (membrana, citosol, nucleo…) Input: lista di geni differenzialmente espressi Pathway Express http://vortex.cs.wayne.edu/projects.htm • Mappatura dei geni differenzialmente espressi nei vari pathway molecolari • Valutazione della propagazione della perturbazione provocata dalla variazione di espressione genica Impact factor E’ fornito un valore di ‘impatto’ determinato da: • Numero di geni differenzialmente espressi che cadono nello stesso pathway • Fold-change dell’espressione dei geni che cadono nello stesso pathway • Posizione in sui tali geni cadono nel pathway (a valle o a monte di un processo biologico) Esempio di pathway http://www.proteinatlas.org/humanproteome • • • • Per esplorare l’espressione genica nel corpo umano Fornisce indicazione sull’associazione a patologie con specifica sulle neoplasie Indica la tipologia di proteina (es. enzima)ed il pathway di appartenenza Suggerisce se la proteina sia target di farmaci http://www.proteinatlas.org/about/media Mascot http://www.matrixscience.com/search_form_select.html • Per identificare, caratterizzare e quantificare le proteine utilizzando i dati generati da esperimenti di spettrometria di massa NCBInr SwissProt Mascot EST/EMBL