Next-generation sequencing, annotazione, ed espressione genica Giulio Pavesi Dip. Bioscienze Università di Milano [email protected] Il primo passo... Abbiamo la sequenza completa del DNA di un organismo: Quanti geni contiene in tutto? Dove sono localizzati i geni? A cosa serve ciascun gene (ovvero, qual è la funzione della proteina codificata, ammesso che effettivamente codifichi per una proteina)? A quale livello è “espresso” ciascun gene nelle diverse condizioni? Che cosa è un gene? Definizione genetica: Unità ereditaria degli organismi viventi Definizione molecolare: regione di sequenza genomica, corrispondente a un unità ereditaria Il Dogma dei Geni (Eucariotici) Start DNA End Trascrizione La sequenza dell’RNA è idenCca a uno dei due filamenC di DNA Dopo lo splicing, l mRNA maturo esce dal nucleo della cellula ed entra nel citoplasma RNA SPLICING I gialli (introni) se ne vanno Rimangono i rossi (esoni) mRNA (cDNA) UTR CDS UTR Traduzione in proteina UTR : Regioni non trado/e: 5’UTR e 3’UTR CDS : CoDing Sequence (trado/a) La trascrizione L RNA polimerasi, scorre lungo uno dei due filamenti (in direzione 3 5 ), costruendo una sequenza di RNA complementare al filamento su cui sta scorrendo In pratica, la polimerasi realizza una copia di uno dei due filamenti del DNA Per definizione, sul DNA il gene è annotato sul filamento UGUALE all RNA prodotto (nell esempio, sul filamento nero) 5’ La struttura dell mRNA (maturo) 3’ AAAAAA “Coda” di poly-­‐A “Cap” Codone di “stop” (UGA, ecc.) Codone di “start” (ATG) Regione non trado<a (3’UTR) Regione non trado<a (5’UTR) Regione codificante (coding sequence -­‐ CDS) Leggere le sequenze E’ possibile determinare anche la sequenza di un trascritto (RNA) Quindi, se conosco la sequenza di un RNA, posso localizzare lungo la sequenza genomica la regione che lo produce (che è - a tratti - uguale al trascritto!) Se conosco anche la sequenza dell’eventuale proteina codificata, allora ho completato l’annotazione del gene Dall mRNA (maturo) al DNA 5’ 3’ AAAAAA 5’ L’mRNA (maturo) è cosCtuito dalla giunzione degli esoni. Quindi, “mappando” l’RNA sul DNA corrispondente si trovano delle interruzioni 3’ 5’ 3’ Nota: non necessariamente la sequenza dell RNA è al 100% idenCca a quella genomica trascri/a. Come mai? Struttura del gene Gli esoni sono regioni di un gene che vanno a costituire il trascritto maturo (risultante dallo splicing) Gli introni sono le regioni di un gene che vengono trascritte, ma che successivamente vengono rimosse dal trascritto primario (pre-mRNA) e non vanno a costituire il trascritto maturo (mRNA) Le regioni non tradotte (UTR) sono le regioni del trascritto maturo (mRNA) che non sono tradotte, a monte del codone ATG (5 UTR) e a valle del codone di stop (3 UTR) Dall mRNA (maturo) al DNA 5’ 3’ AAAAAA In questo caso, dove vanno a cadere codone di start, di stop, CDS e UTR? 5’ 3’ Esone1 3’ Esone2 Esone3 5’ Dall mRNA (maturo) al DNA 5’ 3’ AAAAAA In questo caso, dove vanno a cadere codone di start, di stop, CDS e UTR? 5’ 3’ 5’ 3’ ATG STOP! Dall mRNA (maturo) al DNA 5’ 3’ AAAAAA Cosa succede se il trascri/o, invece di essere copia del filamento superiore (senso, o “posiCvo”) è copia del filamento inferiore (anCsenso, o “negaCvo”)? 5’ 3’ 3’ 5’ Dall mRNA (maturo) al DNA 3’ 5’ AAAAAA 5’ 3’ Esone3 3’ Esone2 Esone1 Basta.... girarlo!!!!!!!!!!!!! Trascri/o e gene e numeri degli esoni devono essere sempre leW nello stesso senso, da 5’ a 3’! 5’ Un gene umano semplice Un gene umano più complicato... In questo caso, lo stesso gene produce 3 trascriW alternaCvi Un gene umano MOLTO complicato Quanti geni (regioni trascritte che codificano per una proteina)? Osservando il risultato della mappatura dei trascritti sul genoma, è possibile contare in quanti geni si suddividono, nelle diverse specie: E.coli (4,7 milioni pb) 4.300 “geni” S.cerevisiae (12 milioni pb) 6.700 “geni” D.melanogaster (169 milioni pb) 13.900 “geni” C.elegans (97 milioni pb) 19.000 “geni” Uomo (3,2 miliardi pb) 23.000 “geni” Topo (2,9 miliardi pb) 23.000 “geni” D.rerio (zebrafish, 1,5 miliardi pb) 26.000 “geni” A. thaliana (pianta, 120 milioni pb) 30.000 “geni” Riso (488 milioni pb) 57.000 geni Geni e sequenziamento Genoma Sequenziamento Trascrittoma e RNA-Seq Proteoma Annotazione “old-generation” Mentre sequenziare un intero genoma è (relaCvamente) semplice, lo è molto di meno sequenziare un intero trascri/oma, ovvero il corredo di tuW i trascriW sinteCzzaC dal genoma di una data specie L’espressione (e in primo luogo, la trascrizione) dei geni dipende da diversi fa/ori, quali: Stadio di sviluppo o tessuto Risposta a sCmoli Patologie Fa/ori diversi “individuo-­‐specifici” Difficile o/enere “ragionevole certezza” di avere raggiunto un livello di “copertura” del trascri/oma adeguato, ovvero, di avere effeWvamente sequenziato la quasi totalità dei possibili trascriW Annotazione “old-generation” La “completezza” o meno di un’annotazione dipende dalla disponibilità di trascriW Fino a pochi anni fa, le annotazioni venivano compiute a parCre dalle sequenze disponibili (es. database “GenBank -­‐ NucleoCde” NCBI) prodo/e da laboratori di tu/o il mondo “Campionamento” del trascri/oma “biased”, ovvero per i geni più studiaC (es. TP53, DMD in uomo) erano disponibili molC più trascriW rispe/o a geni poco studiaC o poco cara/erizzaC “Campionamento” del trascri/oma “biased” a seconda della tecnica uClizzata per estrarre/isolare gli RNA (es. poly-­‐A), Cpicamente isolaC/sequenziaC trascriW che codificano per una proteina (mRNA) “Campionamento” del trascri/oma “biased” dai cosC necessari al sequenziamento (un trascri/o per gene può bastare…?) Annotazione “next-generation” Con l’introduzione delle tecniche di sequenziamento de/e “next-­‐generaCon sequencing” la possibilità di sequenziare -­‐ a cosC relaCvamente contenuC -­‐ interi genomi o trascri/omi è diventata accessibile anche a laboratori di dimensione/disponibilità economica piccolo/media Con “RNA-­‐Seq” si intende l’applicazione di un metodo di sequenziamento “next-­‐generaCon” al sequenziamento di un campione di RNA RNA (cDNA) > 1000 bp Sanger sequencing (700 bp) RNA (cDNA) > 1000 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp RNA-Seq: “single end” e “paired end” Frammento RNA (cDNA) Single end: viene sequenziata una delle due estremità (scelta a caso) Paired end: vengono sequenziate entrambe le estremità Direzionale: viene specificato quale dei due filamenti era l’RNA originale, ovvero se è stato sequenziato l’RNA o il suo complemento RNA-Seq • Retrotrascrizione in cDNA • Frammentazione • Sequenziamento frammenC (“read”) • Mappatura dei frammenC sulla sequenza genomica mRNA e RNA-Seq Campione di RNA Sequenziamento (RNA-Seq) “Assemblaggio” trascritti originali Confronto con annotazione genica già disponibile RNA-Seq 5’ Esone NON incluso 3’ 3’ 5’ Esone incluso RNA-Seq – confronto con annotazione 5’ Esone NON incluso 3’ In rosso: frammenti che mappati sul genoma si “spezzano” in due 3’ 5’ Esone incluso RNA-Seq: identificare nuovi trascritti alternativi confrontando con annotazione 5’ Mappando i read si sequenza sul genoma vanno a cadere in un introne tra due esoni già annotati E possibile si tratti di un esone che nessuno ha ancora visto A D 3’ ?? A-­‐D RNA-Seq: identificare nuovi trascritti alternativi 5’ Mappando i read si sequenza sul genoma vanno a cadere in un introne tra due esoni già annotati E possibile si tratti di un esone che nessuno ha ancora visto A 3’ GT AG GT AG RNA-Seq: sequenze PAIREDEND 200 bp 5 3 5 3 RNA-Seq: sequenze PAIREDEND Più facile individuare nuovi esoni dal confronto con annotazioni già esistenti 3 5 ???? Novel exon RNA-Seq: sequenze PAIREDEND 3 5 ???? RNA-Seq e genomi Wang et. al., Nature 456(2008):470-476 10 tessuti umani 5 linee cellulari tumorali Trascritti cDNA divisi in frammenti di 30 bp 12-29 milioni di frammenti per tipo di cellula Circa 500 milioni di frammenti in tutto Scopo: verificare innanzitutto se si è “perso” qualche gene, e per I geni già annotati quanto e come è diffuso lo splicing alternativo Asse x: numero di sequenze per gene Asse y: frazione di geni in cui è idenCficato almeno un trascri/o alternaCvo Frazione di geni con una “isoforma minore” (y) che appare nell’ (x)% dei trascritti del gene La stessa cosa… dimostrata 6 mesi prima.. usando sequenze di EST invece di sequenze RNA-­‐Seq Pervasive tissue-specific regulation of alternative mRNA isoforms. Morale... Il dogma iniziale: ... è ora diventato.. UN GENE UN TRASCRITTO UNA PROTEINA UN GENE TANTI TRASCRITTI (POTENZIALMENTE) TANTE PROTEINE Potenzialmente, perché... non è assolutamente detto che tutti i trascritti prodotti da un gene siano necessariamente codificanti Lo splicing alternativo deve essere considerato una caratteristica normale dei geni eucariotici, piuttosto che un’eccezione Morale... (2) In origine gli RNA erano o Codificanti (mRNA) e uno per gene Non codificanti, e coinvolti nella traduzione dei mRNA (tRNA, rRNA) In realtà, esistono centinaia di RNA non codificanti prodotti da un genoma (miRNA, snoRNA, smallRNA, lncRNA) e così via, con svariate funzioni Progetto “ENCODE” (ENCyclopedia of Dna Elements) • 62% of the human genome is transcribed into sequences >200 bp long – – – • CAGE-seq: 62,403 TSS – – • 5.5% of this is exon 31% is intergenic – no annotated gene Remaining: intronic 44% within 100bp of the 5’ end of a GENCODE gene Others: exons and 3’ UTRs, significance unknown Lots of short ncRNAs: tRNA, miRNA, snRNA etc. ENCODE: quanti geni? GENCODE human reference gene set 20,687 Protein-coding 6.3 alternatively spliced transcripts on average (*= 3.9 protein isoforms on average Protein-coding exons: 1.22% of the genome Still more to come: unidentified peptides in massspec – ci sono geni che “mancano”?!?!? 18,441 ncRNA genes 8801 short ncRNA (es. microRNA) 9640 long nc RNA (“simili” a mRNA, ma non codificanti) 11,224 863 pseudogenes transcribed “Espressione” genica “Espressione” genica Con il termine espressione genica si intende il processo attraverso cui l'informazione contenuta in un gene (costituita di DNA) viene convertita in una macromolecola funzionale (tipicamente una proteina) Sequenziando i trascritti possiamo sapere se/quando un gene viene trascritto E’ possibile “quantificare” il livello di espressione (o meglio, di “trascritto”) di un gene? RNA-Seq ed espressione genica Il pool di RNA (cDNA) viene frammentato I frammenti da sequenziare vengono scelti a caso con probabilità uniforme (sono un sottoinsieme di tutti i frammenti) Più alto sarà il livello di un dato RNA nel pool, più alto sarà il numero di frammenti che produce, più alta sarà la probabilità di sequenziarlo! RNA Sample Fragmented RNA Sample Sequenced reads RNA-Seq: riassumendo Con poche migliaia di euro e un po’ di manodopera bioinformatica è possibile Sequenziare un trascrittoma completo eucariotico, mRNA, RNA non coding, piccoli RNA Annotare i geni sul rispettivo genoma, e/o integrare le annotazioni già esistenti Stimare il livello di trascritto di ciascun gene, separatamente per ogni trascritto alternativo Confrontare le variazioni di espressione (trascrizione) in condizioni diverse Applicate al sequenziamento di trascritti le tecnologie NGS hanno portato ad avanzamenti di enorme portata sia dal punto di vista della ricerca di base (come “funziona” un genoma?) sia da quello applicativo (cosa “funziona” diversamente, in caso di patologie come i tumori?)