Il vostro progetto Analisi di da) di sequenziamento del trascri3oma (RNA-­‐Seq): 1. Analisi di qualità 2. Mappatura sul genoma 3. Calcolo dell’espressione 4. Test di espressione differenziale 5. Visualizzazione e interpretazione 6. Analisi funzionale 6 4 2 0 -2 P1N 8 10 12 Cufflinks 0 2 4 6 P1T 8 10 12 Espressione differenziale Un test di espressione differenziale misura la probabilità che differenze in espressione misurate in due condizioni siano realmente associate a una differenza biologica e non a flu3uazioni casuali. Flu3uazioni possono essere dovute a: errori di misura variazione tecnica dovuta alla preparazione del campione variazione biologica non associata alle due condizioni Viene s)mata la varianza a3esa, calibrata se possibile nelle repliche dell’esperimento, e confrontata con la varianza osservata basata su un modello probabilis)co di mappatura delle reads. La significa)vità dell’eventuale differenza viene s)mata con un test sta)s)co, con ipotesi nulla che non ci sia differenza fra i valori di espressione nelle du condizioni. Cuffdiff File gene_exp.diff Cuffdiff File gene_exp.diff Test_id: Gene_id: Gene: Locus: Sample_1: Sample_2: Status: Value_1: Value_2: Log2(fold_change): Test_stat: P_value: Q_value: Significant: id del locus id del gene nome comune del gene coordinate genomiche del locus nome del primo campione nome della seconda condizione OK, NO TEST, LOW DATA espressione nel primo campione espressione nel secondo campione log del rapporto espressione1/espressione2 risultato del test sta)s)co p-­‐value p-­‐value corre3o per tes)ng mul)plo YES [se q-­‐value < 0.01], NO Interpretazione biologica • Un modo per ottenere un’interpretazione biologica dell’esperimento è di vedere se i geni differenzialmente espressi nelle due condizioni hanno caratteristiche funzionali che possono spiegare il fenotipo osservato • Ma le annotazioni funzionali sono eterogenee, e difficilmente razionalizzabili su larga scala Interpretazione biologica Cosa serve: • Un modo standardizzato per rappresentare caratteristiche funzionali dei prodotti dei geni • Una mappatura accurata delle funzioni sui prodotti genici • Un metodo statistico per valutare se differenze di espressione in due condizioni sono associate significativamente a una o più categorie funzionali Gene Ontology The Gene Ontology (GO) Consortium: Gene Ontology The Gene Ontology (GO) Consortium: • Il Gene Ontology Consortium nasce come una collaborazione fra altri consorzi volti all’annotazione di organismi modello (FlyBase, SGD, MGD). Ora include altri centri e gruppi di interesse • Ontologia: Una rappresentazione formale di una serie di concetti e delle relazioni fra di essi • Scopo: ottenere un’annotazione consistente dei prodotti genici in un organismo e fra organismi diversi Gene Ontology The Gene Ontology (GO) Consortium: • Sono stati sviluppati tre vocabolari controllati (ontologie) di termini (detti termini GO) che descrivono i prodotti dei geni secondo i processi biologici in cui sono coinvolti, le loro funzioni molecolari e la loro localizzazion sub-cellulare o extra-cellulare • Questi termini sono associati fra loro in una forma gerarchica, andando da termini più generici fino a termini più dettagliati Gene Ontology Temine GO: una parola del vocabolario, appartenente a una delle tre ontologie principali, che ha un numero identificativo (ad es. GO:000001), una descrizione, dei sinonimi, e rapporti di parentela (termini genitori e figli) con altre parole Le tre ontologie: • Molecular Function (8360 termini): attività elementari, compito (attività catalitica, legame del calcio, etc.) • Biological Process (14898 termini): scopo generale (trasduzione del segnale, risposta immunitaria, etc.) • Cellular Component (2110 termini): localizzazione o complesso (nucleo, mitocondrio, ribosoma, etc.) Gene Ontology Gene Ontology h3p://www.geneontology.org/ Gene Ontology Gene Ontology Termini figli di Biological Process Gene Ontology • GO ID: GO:0007268 • GO term: synaptic transmission • Ontologia: biological process • Definizione: The process of communication from a neuron to a target (neuron, muscle, or secretory cell) across a synapse Gene Ontology Gene Ontology Gene Ontology Gene Ontology Una volta defini) i termini e le loro relazioni, è necessario associare ques) termini ai geni i cui prodoi hanno una certa funzione molecolare, fanno parte di un certo processo biologico, o si trovano in una certa componente cellulare. Queste associazioni derivano da evidenze sperimentali, oppure da inferenza computazionale Gene Ontology Ogni associazione deriva da una o più evidenza, identificate da un codice specifico: • Experimental Evidence Codes – EXP: Inferred from Experiment – IDA: Inferred from Direct Assay – IPI: Inferred from Physical Interaction – IMP: Inferred from Mutant Phenotype – IGI: Inferred from Genetic Interaction – IEP: Inferred from Expression Pattern • Computational Analysis Evidence Codes – ISS: Inferred from Sequence or Structural Similarity – ISO: Inferred from Sequence Orthology – ISA: Inferred from Sequence Alignment – ISM: Inferred from Sequence Model – IGC: Inferred from Genomic Context – RCA: inferred from Reviewed Computational Analysis Arricchimento funzionale I termini GO associa) ai geni differenzialmente espressi possono essere ricava) da Ensembl, Uniprot o da altre banche da) di annotazioni, cercando di associare la variazione di espressione alle condizioni biologiche confrontate. In questo caso, emerge che un buono numero (il 40%) di geni sono coinvol) nel sistema immunitario Categoria Funzionale Immune response Metabolism Transcription Energy production Neurotransmission Protein transport TOTALE Numero di geni 40 20 20 10 5 5 100 Immune response Metabolism Transcription Energy production Neurotransmission Protein transport Arricchimento funzionale Osservare una certa frazione di geni differenzialmente espressi associati a un certo processo, funzione o altro non è sufficiente: bisogna stimarne la significatività statistica, cioè quanto questa frazione si discosta da quanti ce ne sarebbe attesi campionando geni a caso nel genoma. Si parla di test di arricchimento funzionale Si confronta l’insieme di geni di interesse con un dataset di background, ad es. l’intero proteoma umano, per verificare se una certa annotazione si trova più (o meno) nell’insieme di interesse rispetto ad un campionamento casuale del dataset di background Un test molto usato è quello della distribuzione ipergeometrica Test della distribuzione ipergeometrica • Consideriamo il seguente caso: – Un cassetto contiene N calzini. – Esattamente B calzini sono blu, e i rimanenti N-B sono rosa. – Preleviamo n calzini (senza rimetterli dentro) dal cassetto, e osserviamo che b sono blu • Il numero di calzini blu prelevati è significativamente maggiore o minore di quanto uno si aspetta dalla distribuzione dei calzini nel cassetto? • Se questo è vero, allora il metodo di estrazione dal cassetto favorisce (o sfavorisce) i calzini blu Test della distribuzione ipergeometrica • La probabilità di trovare esattamente b calzini blu fra gli n pescati è data dalla funzione ipergeometrica: ⎛ n ⎞⎛ N − n ⎞ ⎜ ⎟⎜ ⎟ b B − b ⎠ HG ( N , B, n, b) = ⎝ ⎠⎝ ⎛ N ⎞ ⎜ ⎟ ⎝ B ⎠ • La probabilità di trovare almeno b calzini blu è: min( n , B ) HGT ( N , B, n, b) = ∑ i =b HG( N , B, n, i) Test della distribuzione ipergeometrica Probabilità di pescare b calzini blu Nel cassetto ci sono 100 calzini, 90 rosa e 10 blu, e ne pesco 5 a caso Numero b di calzini blu fra i 5 pescati Test della distribuzione ipergeometrica • Nel nostro caso, la popolazione di N geni nel genoma di interesse può essere divisa in B geni che sono associati ad un certo termine GO, e N-B che non sono associati ad esso. • Immaginiamo che fra gli n geni differenzialmente espressi, b sono associati a quel termine GO, e n-b non lo sono • Se il numero b risulta significativamente maggiore o minore dell’atteso, allora il modo di estrazione dei geni (cioè il fatto che siano differenzialmente espressi) è significativamente associato al termine GO in esame Arricchimento funzionale Confronto di 68 strumenti per test di arricchimento funzionale disponibili nel 2008: GOrilla – GO enrichment analysis tool DAVID h3p://david.abcc.ncifcrf.gov/ DAVID h3p://david.abcc.ncifcrf.gov/ DAVID DAVID Si può copiare e incollare una lista di geni di interesse, oppure caricarla da un file Cuffdiff File gene_exp.diff Selezionare i geni (il loro ID di Ensembl o il loro nome comune) con p-value o q-value di espressione differenziale minore di 0.05 DAVID Incollare o caricare la lista dei geni, poi specificare il tipo di identificativo DAVID Specificare se la lista di geni è da usare come background, poi Submit DAVID Si può specificare l’organismo, rinominare la lista di geni, e partire con l’analisi funzionale DAVID DAVID DAVID DAVID DAVID DAVID DAVID KEGG - Kyoto Encyclopedia of Genes and Genomes KEGG - Kyoto Encyclopedia of Genes and Genomes • KEGG contiene pathways metabolici • Esempio: Glicolisi • Substrati e prodotti sono rappresentati da cerchi • Enzimi sono rappresentati da rettangoli KEGG - Kyoto Encyclopedia of Genes and Genomes • KEGG contiene anche pathway di regolazione e trasduzione del segnale • Esempio: MAPK signaling pathway BioCarta BioCarta • BioCarta è specializzata in pathway di trasduzione del segnale • Esempio: ATM signalling pathway BioCarta • Ma contiene anche pathways metabolici • Es: Glicolisi • I composti sono mostrati come strutture e formule • Gli enzimi segnano il passaggio da substrati a prodotti DAVID Lezione 7 Geni per RNA non codificanti RNA non codificante l l l l l Di tutto l'RNA trascritto negli eucarioti superiori, il 98% non è mai tradotto in proteine; Di questo 98%, circa il 50-70% è costituito da introni; Il resto origina da geni non codificanti proteine, fra cui geni per rRNA, tRNA e una vasta serie di altri geni per RNA non codificante (non-coding RNA, ncRNAs); Anche alcuni introni sono stati visti contenere ncRNAs, ad exsempio gli snoRNA; Il numero di ncRNA diversi nei genomi di mammifero è sconosciuto (secondo stime recenti > 15000). RNA non codificante Funzioni dell’RNA: 1. Immagazzinamento/trasferimento dell'informazione genetica: ñ RNA genomico ñ Molti virus hanno genomi composti da RNA è Singolo filamento (ssRNA) [ad es. HIV] è Doppio filamento (dsRNA) [ad es. Rotavirus] ñ RNA messaggero 2. Strutturale 3. Catalitico 4. Regolatorio RNA non codificante Gli ncRNA si possono genericamente classificare in due gruppi in base alla loro funzione: l l l NcRNA housekeeping, i quali sono espressi sempre e sono necessari per le funzioni normali e la sopravvivenza della cellula; NcRNA regolatori o modulatori, i quali sono espressi per rispondere a particolari esigenze; NcRNA regolatori possono influire sull'espressione di altri geni modulando la loro trascrizione o traduzione RNA non codificante Esempi di ncRNA housekeeping: • Apparato per la sintesi proteica: l Transfer RNA (tRNA); l RNA Ribosomiale (rRNA); l snRNA: RNA dello spliceosoma; l snoRNA (small nucleolar RNA) : ruolo accessorio agli rRNA; • tmRNA (tRNA like mRNA): degradazione delle proteine; • gRNA: editing dell'RNA; • RNA della telomerasi: primer per la sintesi del DNA dei telomeri; RNA non codificante Esempi di ncRNA modulatori: • • • • • Micro RNA (miRNA): regolatori della traduzione; Small interfering RNAs (siRNA): silenziamento di geni; Riboswitch RNA: controllo dell'espressione genica; ncRNA modulatori delle funzioni di proteine; ncRNA regolatori della localizzazione di RNA e proteine. RNA non codificante I ncRNA svolgono la loro funzione: In maniera sequenza-specifica (es. per appaiamento di basi con un target); " In maniera struttura-specifica (es. per interazione con ligandi proteici); " " In maniera sia sequenza- che struttura-specifica. Geni per ncRNA nel genoma umano • • • • • • • • • • • • • • • • miRNA tRNA 18S rRNA 5.8S rRNA 28S rRNA 5S rRNA snoRNA U1 U2 U4 U5 U6 U4atac U6atac U11 U12 700 600 200 200 200 200 300 40 30 30 30 20 5 5 5 5 • SRP RNA 1 • RNase P RNA 1 • Telomerase RNA 1 • RNase MRP 1 • Y RNA 5 • Vault 4 • 7SK RNA 1 • Xist 1 • H19 1 • BIC 1 • RNA An)senso 1000? • Altri >10000? RNA non codificante I ncRNA hanno taglie molto eterogenee Geni per ncRNA I geni codificanti per ncRNA possono avere diverse caratteristiche: Possono essere espressi come parte di un gene codificante per proteine; " Possono far parte di un unico trascritto precursore da cui sono estratti diversi ncRNA; " " Possono essere molto corti, o molto lunghi; " Possono avere introni, e subire splicing; " Possono essere espressi da pseudogeni di geni codificanti proteine; " Possono essere trascritti dalla RNA polimerasi II o dalla III; " Possono essere poliadenilati. Geni per ncRNA I geni codificanti per ncRNA non sono generalmente identificabili con metodi per geni codificanti proteine l Segnali - - - l ? Caratteristiche composizionali comuni - - - - l ATG TAA, TGA, TAG GT…..AG Lunghezza degli esoni Lunghezza degli introni Codon bias Altre caratteristiche genomiche Omologia (allineamento in cis) ? ? Geni per ncRNA L’identificazione di geni per ncRNA si può basare su: " Allineamenti cis/trans; " Modelli statistici specifici di particolari famiglie di ncRNA; " Ricerca ab initio in regioni genomiche. Geni per ncRNA L’identificazione di geni per ncRNA si può basare su: Allineamenti cis/trans; (i dati di sequenza sono molto inferiori rispetto a quelli per geni codificanti; le sequenze divergono velocemente) " Modelli statistici specifici di particolari famiglie di ncRNA; (sono difficili da modellare) " Ricerca ab initio in regioni genomiche. (si può fare solo in casi particolari) " Tutti i metodi si avvantaggiano di alcune caratteristiche strutturali dell’RNA Energia della struttura secondaria dell'RNA Non tutti gli RNA hanno una struttura con energia libera minima che è particolarmente più stabile delle altre possibili conformazioni. " Si possono quindi distinguere due classi di RNA: strutturati e non strutturati; " RNA non strutturati (ad es. i mRNA) hanno una serie anche ampia di conformazioni ad energia simile; la loro funzione non è strutturaspecifica; " RNA strutturati (la maggior parte dei ncRNA) invece esisterà per la grande maggioranza del suo tempo in una particolare conformazione, che è importante per la funzione dell'RNA; " Caso particolare sono RNA di particelle ribonucleoproteiche, i quali hanno una struttura stabile e svolgono la funzione in maniera struttura-specifica, ma possono adottare questa conformazione solo formando il complesso con le proteine loro partner. " Struttura dell'RNA - Doppie eliche di RNA non sono stabili come quelle di DNA, a causa del gruppo aggiuntivo -OH in posizione 2'; - L'RNA esiste (quasi) sempre sotto forma di molecole a singolo filamento; - Intermedi di RNA a doppia elica possono formarsi durante la replicazione di alcuni virus, e sono cercati e distrutti da meccanismi di difesa (allo stesso modo del DNA a singola elica); - Non assume una struttura secondaria estesa come il DNA, ma puo' ripiegarsi formando legami idrogeno intra-catena; Struttura dell'RNA A U G C Appaiamento canonico Watson-Crick Struttura dell'RNA Appaiamento Wobble Struttura dell'RNA Sequenze palindrome (inverted repeats) nel DNA possono far formare strutture a forcina nel corrispondente trascritto di RNA 5’ TGCGATACTCATCGCA 3’ 3’ ACGCTATGAGTAGCGT 5’ inverted repeats in an antiparallel double helix 5’ C T A C T A A T G C C G G C T A hairpin 3’ Struttura dell'RNA Struttura dell'RNA L'impilamento delle basi conferisce stabilità Struttura dell'RNA La struttura secondaria può essere descritta da grafi planari in cui sono rappresentate tutte le basi appaiate, le forcine e i loops. Questa rappresentazione ha poco a che vedere con la vera struttura tridimensionale, ma è utile per avere un'idea di quanti e quali elementi strutturali sono presenti. Struttura dell'RNA Rappresentazione della struttura secondaria ..(((.(((......))).((((((....)))).))....))) AGCUACGGAGCGAUCUCCGAGCUUUCGAGAAAGCCUCUAUUAGC Struttura dell'RNA Rappresentazione della struttura secondaria Struttura dell'RNA GGGCUAUUAGCUCAGUUGGUUAGAGCGCACCCCUGAUAAGGGUGAGGUCGCUGAUUCGAAUUCAGCAUAGCCC A (((((((..((((.........)))).(((((.......)))))..... (((((.......)))))))))))). Struttura primaria Struttura terziaria Struttura secondaria Struttura dell'RNA Motivi strutturali dell'RNA Struttura dell'RNA Motivi strutturali dell'RNA single strands bulge A CCUUG hairpin internal loop A CUAC C A A C CGU A GCA A A C GAUG C G A A G U G A-form double helix G T Struttura dell'RNA In aggiunta alle interazioni strutturali secondarie, ci sono interazioni “terziarie” che possono essere a lunga distanza. Spesso non sono rappresentabili da espressioni a parentesi bilanciate Struttura dell'RNA c guu aga aac c ucu cccc acc gc gca ggg ugc acc ggu cc Pseudoknots: pattern di forcine che si incrociano Struttura dell'RNA Rappresentazione circolare di uno pseudoknot Struttura dell'RNA Kissing hairpins l La maggior parte degli appaiamenti di basi non sono incrociati: l Date due coppie (i, j) e (i’,j’) è i < i’ < j’ < j oppure i’ < i < j < j’ Struttura dell'RNA Gli Pseudoknots sono spesso importanti per la funzione dei ncRNA; l Non e' chiaro quanti pseudoknots siano presenti nei ncRNA, ma non sembrano molto frequenti; l Aumentano la complessità di tutti i metodi per lo studio dei ncRNA; l Sono quindi normalmente ignorati. l Struttura dell'RNA RNA Proteine tipi di catene laterali 4 20 rotazioni del backbone 7 2 struttura secondaria eliche α, β, …… # di stati stabili spesso > 1 di solito 1 forza trainante del folding impilamento forza idrofobica stabilità della struttura secondaria stabile senza struttura terziaria instabile senza struttura terziaria Predizione della struttura secondaria dell'RNA • - Minimizzazione dell’energia libera – Basato su algoritmi di programmazione dinamica; – Non richiede un allineamento multiplo ma si può alcolare sulla singola sequenza; – Necessita di parametri energetici stimati sperimentalmente che contribuiscono alla formazione della struttura secondaria. • - Analisi comparativa – Utilizza allineamenti multipli per identificare posizioni che co-evolvono; – Necessita di allineamenti accurati e popolati. Predizione della struttura secondaria dell'RNA Come si trova la struttura ad energia libera minima? l l Abbiamo bisogno: l Di una funzione che calcoli un punteggio (idealmente l'energia libera) data una struttura secondaria di RNA; l Un algoritmo che permetta di trovare la struttura a punteggio maggiore (o energia minore) fra tutte le possibili strutture. Due algoritmi: l Algoritmo di Nussinov l Algoritmo di Zuker Predizione della struttura secondaria dell'RNA Come si trova la struttura ad energia libera minima? l l l L'approccio più semplice consisterebbe nel calcolare l'energia libera di tutte le possibili strutture secondarie che un RNA può assumere; Il numero di possibili strutture secondarie cresce esponenzialmente con la lunghezza della sequenza dell'RNA ed è ~ 1.8N (dove N è la lunghezza); Assumendo che l'energia di 1000 strutture possa essere calcolata in un secondo, per una sequenza di RNA di 100 nucleotidi: - Numero di strutture secondarie: ~ 3 × 1025 - Tempo per valutarle tutte: ~ 1014 anni Predizione della struttura secondaria dell'RNA Soluzione: algoritmi di programmazione dinamica Definiti per la prima volta da Richard Bellman nel 1953; l Idea generale: per risolvere un problema, spesso si possono risolvere diverse parti del problema (sottoproblemi) per poi combinare le soluzioni; l Si applicano a problemi in cui il punteggio è costruito progressivamente da soluzioni parziali; l l Applicazioni: l Allineamento di sequenze; l Ricerca di percorsi ottimali; l Hidden Markov models. Predizione della struttura secondaria dell'RNA Massimizzazione del numero di basi appaiate Un modello semplice assume che l'energia della molecola sia più bassa tante più basi sono appaiate. Massimizzando il numero di appaiamenti si ottiene la struttura secondaria più stabile [Waterman (1978), Nussinov et al (1978), Waterman and Smith (1978)]; " Appaiamenti G – C, A – U, e G – U sono considerati, e generalmente trattati allo stesso modo; " " Altri contributi energetici (stabilizzanti o destabilizzanti) sono ignorati; " Pseudoknots sono ignorati; L'energia di una data coppia di basi è indipendente dallo stato delle basi circostanti. " Energia della struttura secondaria dell'RNA Minimizzazione dell'energia l l l l l L'algoritmo di Nussinov non considera altri contributi energetici (ne positivi ne negativi) Nel laboratorio di Turner sono stati stimate le energie di numerose substrutture di molecole di RNA, per denaturazione termica E' stato anche visto che nella maggior parte dei casi le energie sono additive, e l'energia dipende da interazioni a corto raggio Si può pensare ad un algoritmo che estenda la funzione di scoring a questi parametri energetici Gli algoritmi più popolari sono Mfold e RNAfold Energia della struttura secondaria dell'RNA Energie di forcine calcolate come contributo dell'impilamento fra coppie di basi adiacenti Energia libera (kcal/mole a 37oC ) Energia della struttura secondaria dell'RNA Energia destabilizzante dei loops Dimensione 1 2 3 4 5 6 7 8 30 Internal NA NA NA 1.7 1.8 2.0 2.2 2.3 3.7 Bulge 3.8 2.8 3.2 3.6 4.0 4.4 4.6 4.7 6.1 Hairpin NA NA 5.6 5.5 5.6 5.3 5.8 5.4 7.7 Energia della struttura secondaria dell'RNA Energia della struttura secondaria dell'RNA Energia della struttura secondaria dell'RNA Zuker-Sankoff minimum energy model " " " Le stacks costituiscono la forza stabilizzatrice maggiore; Basi non appaiate formano loops che destabilizzano la struttura; Diversi tipi di loops (hairpin loops, bulge/internal loops, multiloops). :eH(i,j) i j i j :a+3*b+4*c i+1 i i’ j-1 j J’ :eL(i,j,i’,j’) :eS(i,j,i+1,j-1) [Lyngsø (1999)] Identificazione di geni per ncRNA Geni per ncRNA possono essere predetti: 1. Per omologia con ncRNA 2. Per similarità con modelli di famiglie di ncRNA note 2. Ab initio Identificazione di geni per ncRNA Evoluzione della sequenza dei ncRNA l l l l L'evoluzione di un RNA è vincolata dalla sua struttura; Mutazioni che alterano la struttura sono generalmente contro-selezionate, andando a influenzare negativamente anche la funzione; E' però possibile che una mutazione che nonalteri la struttura sia mantenuta nel corso dell'evoluzione; Di conseguenza, RNA con struttura simile possono essere anche molto diversi in sequenza. Identificazione di geni per ncRNA RNA con sequenza diversa possono avere stru3ura simile e svolgere la stessa funzione Identificazione di geni per ncRNA L'evoluzione dei ncRNA è vincolata dalla loro struttura secondaria • Cambiamenti di sequenza anche drastici sono tollerati se la struttura non risulta modificata; • Molto comuni sono le mutazioni compensatorie: – Un appaiamento di basi muta in un' altro appaiamento; – La struttura rimane la stessa Mutazione compensatoria tRNA1: tRNA2: Identificazione di geni per ncRNA Identificazione di geni per ncRNA Analisi della covarianza: Mutazioni compensatorie possono essere cercate calcolando l’informazione mutua Mij fra coppie di colonne i,j di un allineamento mul)plo: Mij = Σi,j fxixj log2 (fxixj/fxi fxj) Dove: fxixj frequenza della coppia fxi frequenza del nucleo)de xi in posizione i 0 <= Mij <=2 Mij = 0 se le posizioni i,j non sono correlate Identificazione di geni per ncRNA Date due colonne dell’allineamento i e j: i j A U A U C G G C fAi = .5 fCi = .25 fGi = .25 fUj = .5 fCj = .25 fGj = .25 fAU = .5 fCG = .25 fGC = .25 Mij = Σxixj fxixj log2 (fxixj/fxi fxj) = .5 log2 (.5/(.5*.5))+2*.25 log2 (.25/(.25*.25))=.5 *1 +.5*2 = 1.5 A U U A A U A U A U C G A U G C Mij = 1 log 1 = 0 Mij = 4*.25 log 4 = 2 Identificazione di geni per ncRNA Geni per ncRNA possono essere predetti: 1. Per omologia con ncRNA 2. Per similarità con modelli di famiglie di ncRNA note 2. Ab initio Identificazione di geni per ncRNA Allineamento di sequenze/ stru3ure di RNA Costruzione del modello (ad es. con SCFG) modello Test del modello genoma Finestra che scorre Identificazione di geni per ncRNA Se si ha a disposizione un buon allineamento di sequenze di ncRNA della stessa famiglia, la cui struttura è nota, lo si può usare per costruire un modello statistico della famiglia, da usare per ricerche in genomi di altri membri della famiglia; Strumenti per specifiche famiglie: " tRNAscan-SE (tRNA) " BRUCE (transfer-messenger RNA) " SNOSCAN (box c/D small nucleolar RNA) " SNOGPS (box H/ACA snoRNA) " FISHER (box H/ACA snoRNA) " ProMIR (miRNA umani) " MiR-scan (miRNA di vertebrati) " Harvester (miRNA di piante) " MiR-Abela (miRNA di mammiferi) Strumenti generici: covariance models (CM), basati su stochastic context free grammars (SCFG); oppure si usano varianti di HMM. " INFERNAL " CMFinder tRNAscan I tRNA hanno una stru3ura molto conservata sopratu3o in alcune posizioni chiave. La ricerca di geni per tRNA consiste nel ricercare nel genoma queste posizioni conservate alla distanza giusta. Si u)lizza un albero decisionale, in cui le cara3eris)che da cercare sono priori)zzate, si ha una predizione posi)va se tu3e le condizioni sono rispe3ate. Rfam E' una banca dati gestita dal Wellcome Trust Sanger Institute di famiglie di ncRNA e di elementi strutturati di RNA degli RNA messaggeri; Gli allineamenti e le annotazioni sono curate manualmente da esperti; Simile in scopo e struttura alla banca dati Pfam per famiglie proteiche; Per ogni famiglia esiste un allineamento multiplo di sequenza (MSA) curato manualmente (l'allineamento seed); Dal seed viene costruito un covariance model, usato per identificare altri membri della famiglia usando INFERNAL, che sono poi incorporati in un altro MSA, generato automaticamente (l'allineamento full). Rfam Rfam