i`,j` - Centro di Bioinformatica Molecolare

Il vostro progetto
Analisi di da) di sequenziamento del trascri3oma (RNA-­‐Seq): 1.  Analisi di qualità 2.  Mappatura sul genoma 3.  Calcolo dell’espressione 4.  Test di espressione differenziale 5.  Visualizzazione e interpretazione 6.  Analisi funzionale 6
4
2
0
-2
P1N
8
10
12
Cufflinks
0
2
4
6
P1T
8
10
12
Espressione differenziale
Un test di espressione differenziale misura la probabilità che differenze in espressione misurate in due condizioni siano realmente associate a una differenza biologica e non a flu3uazioni casuali. Flu3uazioni possono essere dovute a: errori di misura variazione tecnica dovuta alla preparazione del campione variazione biologica non associata alle due condizioni Viene s)mata la varianza a3esa, calibrata se possibile nelle repliche dell’esperimento, e confrontata con la varianza osservata basata su un modello probabilis)co di mappatura delle reads. La significa)vità dell’eventuale differenza viene s)mata con un test sta)s)co, con ipotesi nulla che non ci sia differenza fra i valori di espressione nelle du condizioni. Cuffdiff
File gene_exp.diff Cuffdiff
File gene_exp.diff Test_id: Gene_id:
Gene: Locus: Sample_1: Sample_2: Status: Value_1: Value_2: Log2(fold_change):
Test_stat: P_value: Q_value:
Significant: id del locus id del gene nome comune del gene coordinate genomiche del locus nome del primo campione nome della seconda condizione OK, NO TEST, LOW DATA espressione nel primo campione espressione nel secondo campione log del rapporto espressione1/espressione2 risultato del test sta)s)co p-­‐value p-­‐value corre3o per tes)ng mul)plo YES [se q-­‐value < 0.01], NO Interpretazione biologica
•  Un modo per ottenere un’interpretazione biologica
dell’esperimento è di vedere se i geni
differenzialmente espressi nelle due condizioni
hanno caratteristiche funzionali che possono
spiegare il fenotipo osservato
•  Ma le annotazioni funzionali sono eterogenee, e
difficilmente razionalizzabili su larga scala
Interpretazione biologica
Cosa serve:
•  Un modo standardizzato per rappresentare caratteristiche
funzionali dei prodotti dei geni
•  Una mappatura accurata delle funzioni sui prodotti genici
•  Un metodo statistico per valutare se differenze di
espressione in due condizioni sono associate
significativamente a una o più categorie funzionali
Gene Ontology
The Gene Ontology (GO) Consortium: Gene Ontology
The Gene Ontology (GO) Consortium: •  Il Gene Ontology Consortium nasce come una
collaborazione fra altri consorzi volti all’annotazione di
organismi modello (FlyBase, SGD, MGD). Ora include
altri centri e gruppi di interesse
•  Ontologia: Una rappresentazione formale di una serie di
concetti e delle relazioni fra di essi
•  Scopo: ottenere un’annotazione consistente dei prodotti
genici in un organismo e fra organismi diversi
Gene Ontology
The Gene Ontology (GO) Consortium: •  Sono stati sviluppati tre vocabolari controllati (ontologie) di
termini (detti termini GO) che descrivono i prodotti dei geni
secondo i processi biologici in cui sono coinvolti, le loro
funzioni molecolari e la loro localizzazion sub-cellulare o
extra-cellulare
•  Questi termini sono associati fra loro in una forma
gerarchica, andando da termini più generici fino a termini
più dettagliati
Gene Ontology
Temine GO: una parola del vocabolario, appartenente a una delle
tre ontologie principali, che ha un numero identificativo (ad es.
GO:000001), una descrizione, dei sinonimi, e rapporti di parentela
(termini genitori e figli) con altre parole
Le tre ontologie:
•  Molecular Function (8360 termini): attività elementari, compito
(attività catalitica, legame del calcio, etc.)
•  Biological Process (14898 termini): scopo generale
(trasduzione del segnale, risposta immunitaria, etc.)
•  Cellular Component (2110 termini): localizzazione o complesso
(nucleo, mitocondrio, ribosoma, etc.)
Gene Ontology
Gene Ontology
h3p://www.geneontology.org/ Gene Ontology
Gene Ontology
Termini figli di Biological Process Gene Ontology
•  GO ID: GO:0007268
•  GO term: synaptic transmission
•  Ontologia: biological process
•  Definizione: The process of communication from
a neuron to a target (neuron, muscle, or
secretory cell) across a synapse
Gene Ontology
Gene Ontology
Gene Ontology
Gene Ontology
Una volta defini) i termini e le loro relazioni, è necessario associare ques) termini ai geni i cui prodoi hanno una certa funzione molecolare, fanno parte di un certo processo biologico, o si trovano in una certa componente cellulare. Queste associazioni derivano da evidenze sperimentali, oppure da inferenza computazionale Gene Ontology
Ogni associazione deriva da una o più evidenza, identificate da un
codice specifico:
• Experimental Evidence Codes
– EXP: Inferred from Experiment
– IDA: Inferred from Direct Assay
– IPI: Inferred from Physical Interaction
– IMP: Inferred from Mutant Phenotype
– IGI: Inferred from Genetic Interaction
– IEP: Inferred from Expression Pattern
• Computational Analysis Evidence Codes
– ISS: Inferred from Sequence or Structural Similarity
– ISO: Inferred from Sequence Orthology
– ISA: Inferred from Sequence Alignment
– ISM: Inferred from Sequence Model
– IGC: Inferred from Genomic Context
– RCA: inferred from Reviewed Computational Analysis
Arricchimento funzionale
I termini GO associa) ai geni differenzialmente espressi possono essere ricava) da Ensembl, Uniprot o da altre banche da) di annotazioni, cercando di associare la variazione di espressione alle condizioni biologiche confrontate. In questo caso, emerge che un buono numero (il 40%) di geni sono coinvol) nel sistema immunitario Categoria Funzionale
Immune response
Metabolism
Transcription
Energy production
Neurotransmission
Protein transport
TOTALE
Numero di geni
40
20
20
10
5
5
100
Immune response
Metabolism
Transcription
Energy production
Neurotransmission
Protein transport
Arricchimento funzionale
Osservare una certa frazione di geni differenzialmente espressi
associati a un certo processo, funzione o altro non è sufficiente:
bisogna stimarne la significatività statistica, cioè quanto questa
frazione si discosta da quanti ce ne sarebbe attesi
campionando geni a caso nel genoma. Si parla di test di
arricchimento funzionale
Si confronta l’insieme di geni di interesse con un dataset di
background, ad es. l’intero proteoma umano, per verificare se
una certa annotazione si trova più (o meno) nell’insieme di
interesse rispetto ad un campionamento casuale del dataset di
background
Un test molto usato è quello della distribuzione ipergeometrica
Test della distribuzione ipergeometrica
•  Consideriamo il seguente caso:
–  Un cassetto contiene N calzini.
–  Esattamente B calzini sono blu, e i rimanenti N-B
sono rosa.
–  Preleviamo n calzini (senza rimetterli dentro) dal
cassetto, e osserviamo che b sono blu
•  Il numero di calzini blu prelevati è significativamente
maggiore o minore di quanto uno si aspetta dalla
distribuzione dei calzini nel cassetto?
•  Se questo è vero, allora il metodo di estrazione dal
cassetto favorisce (o sfavorisce) i calzini blu
Test della distribuzione ipergeometrica
•  La probabilità di trovare esattamente b calzini blu fra gli n
pescati è data dalla funzione ipergeometrica:
⎛ n ⎞⎛ N − n ⎞
⎜ ⎟⎜
⎟
b
B
−
b
⎠
HG ( N , B, n, b) = ⎝ ⎠⎝
⎛ N ⎞
⎜ ⎟
⎝ B ⎠
•  La probabilità di trovare almeno b calzini blu è:
min( n , B )
HGT ( N , B, n, b) =
∑
i =b
HG( N , B, n, i)
Test della distribuzione ipergeometrica
Probabilità di pescare b calzini blu
Nel cassetto ci sono 100 calzini, 90 rosa e 10 blu, e ne
pesco 5 a caso
Numero b di calzini blu fra i 5 pescati
Test della distribuzione ipergeometrica
•  Nel nostro caso, la popolazione di N geni nel genoma di
interesse può essere divisa in B geni che sono associati ad
un certo termine GO, e N-B che non sono associati ad esso.
•  Immaginiamo che fra gli n geni differenzialmente espressi, b
sono associati a quel termine GO, e n-b non lo sono
•  Se il numero b risulta significativamente maggiore o minore
dell’atteso, allora il modo di estrazione dei geni (cioè il fatto
che siano differenzialmente espressi) è significativamente
associato al termine GO in esame
Arricchimento funzionale
Confronto di 68 strumenti
per test di arricchimento
funzionale disponibili nel
2008:
GOrilla – GO enrichment analysis tool
DAVID
h3p://david.abcc.ncifcrf.gov/ DAVID
h3p://david.abcc.ncifcrf.gov/ DAVID
DAVID
Si può copiare e incollare una lista di
geni di interesse, oppure caricarla da
un file
Cuffdiff
File gene_exp.diff Selezionare i geni (il loro ID di Ensembl o il loro nome comune) con p-value
o q-value di espressione differenziale minore di 0.05
DAVID
Incollare o caricare la lista dei geni,
poi specificare il tipo di identificativo
DAVID
Specificare se la lista di geni è da
usare come background, poi Submit
DAVID
Si può specificare l’organismo,
rinominare la lista di geni, e
partire con l’analisi funzionale
DAVID
DAVID
DAVID
DAVID
DAVID
DAVID
DAVID
KEGG - Kyoto Encyclopedia of Genes and Genomes
KEGG - Kyoto Encyclopedia of Genes and Genomes
•  KEGG contiene
pathways metabolici
•  Esempio: Glicolisi
•  Substrati e prodotti sono
rappresentati da cerchi
•  Enzimi sono
rappresentati da
rettangoli
KEGG - Kyoto Encyclopedia of Genes and Genomes
•  KEGG contiene anche
pathway di regolazione
e trasduzione del
segnale
•  Esempio: MAPK
signaling pathway
BioCarta
BioCarta
•  BioCarta è specializzata
in pathway di
trasduzione del segnale
•  Esempio: ATM signalling
pathway
BioCarta
•  Ma contiene anche
pathways metabolici
•  Es: Glicolisi
•  I composti sono mostrati
come strutture e formule
•  Gli enzimi segnano il
passaggio da substrati a
prodotti
DAVID
Lezione 7
Geni per RNA non
codificanti
RNA non codificante
l 
l 
l 
l 
l 
Di tutto l'RNA trascritto negli eucarioti superiori, il 98% non è
mai tradotto in proteine;
Di questo 98%, circa il 50-70% è costituito da introni;
Il resto origina da geni non codificanti proteine, fra cui geni
per rRNA, tRNA e una vasta serie di altri geni per RNA non
codificante (non-coding RNA, ncRNAs);
Anche alcuni introni sono stati visti contenere ncRNAs, ad
exsempio gli snoRNA;
Il numero di ncRNA diversi nei genomi di mammifero è
sconosciuto (secondo stime recenti > 15000).
RNA non codificante
Funzioni dell’RNA:
1. Immagazzinamento/trasferimento dell'informazione genetica:
ñ RNA genomico
ñ Molti virus hanno genomi composti da RNA
è  Singolo filamento (ssRNA) [ad es. HIV]
è  Doppio filamento (dsRNA) [ad es. Rotavirus]
ñ RNA messaggero
2. Strutturale
3. Catalitico
4. Regolatorio
RNA non codificante
Gli ncRNA si possono genericamente classificare in due gruppi in
base alla loro funzione:
l 
l 
l 
NcRNA housekeeping, i quali sono espressi sempre e sono
necessari per le funzioni normali e la sopravvivenza della
cellula;
NcRNA regolatori o modulatori, i quali sono espressi per
rispondere a particolari esigenze;
NcRNA regolatori possono influire sull'espressione di altri geni
modulando la loro trascrizione o traduzione
RNA non codificante
Esempi di ncRNA housekeeping:
•  Apparato per la sintesi proteica:
l 
Transfer RNA (tRNA);
l 
RNA Ribosomiale (rRNA);
l 
snRNA: RNA dello spliceosoma;
l 
snoRNA (small nucleolar RNA) : ruolo accessorio agli rRNA;
•  tmRNA (tRNA like mRNA): degradazione delle proteine;
•  gRNA: editing dell'RNA;
•  RNA della telomerasi: primer per la sintesi del DNA dei telomeri;
RNA non codificante
Esempi di ncRNA modulatori:
• 
• 
• 
• 
• 
Micro RNA (miRNA): regolatori della traduzione;
Small interfering RNAs (siRNA): silenziamento di geni;
Riboswitch RNA: controllo dell'espressione genica;
ncRNA modulatori delle funzioni di proteine;
ncRNA regolatori della localizzazione di RNA e proteine.
RNA non codificante
I ncRNA svolgono la loro funzione:
In maniera sequenza-specifica (es. per appaiamento di basi
con un target);
" 
In maniera struttura-specifica (es. per interazione con ligandi
proteici);
" 
" 
In maniera sia sequenza- che struttura-specifica.
Geni per ncRNA nel genoma umano
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
miRNA tRNA 18S rRNA 5.8S rRNA 28S rRNA 5S rRNA snoRNA U1 U2 U4 U5 U6 U4atac U6atac U11 U12 700 600 200 200 200 200 300 40 30 30 30 20 5 5 5 5 •  SRP RNA 1 •  RNase P RNA
1 •  Telomerase RNA 1 •  RNase MRP 1 •  Y RNA 5 •  Vault
4 •  7SK RNA 1 •  Xist 1 •  H19 1 •  BIC 1 •  RNA An)senso 1000? •  Altri >10000? RNA non codificante
I ncRNA hanno taglie molto eterogenee
Geni per ncRNA
I geni codificanti per ncRNA possono avere diverse caratteristiche:
Possono essere espressi come parte di un gene codificante per
proteine;
"
Possono far parte di un unico trascritto precursore da cui sono estratti
diversi ncRNA;
"
"
Possono essere molto corti, o molto lunghi;
"
Possono avere introni, e subire splicing;
"
Possono essere espressi da pseudogeni di geni codificanti proteine;
"
Possono essere trascritti dalla RNA polimerasi II o dalla III;
"
Possono essere poliadenilati.
Geni per ncRNA
I geni codificanti per ncRNA non sono generalmente identificabili
con metodi per geni codificanti proteine
l 
Segnali
- 
- 
- 
l 
? Caratteristiche composizionali comuni
- 
- 
- 
- 
l 
ATG
TAA, TGA, TAG
GT…..AG
Lunghezza degli esoni
Lunghezza degli introni
Codon bias
Altre caratteristiche genomiche
Omologia (allineamento in cis)
? ? Geni per ncRNA
L’identificazione di geni per ncRNA si può basare su:
" 
Allineamenti cis/trans;
" 
Modelli statistici specifici di particolari famiglie di ncRNA;
" 
Ricerca ab initio in regioni genomiche.
Geni per ncRNA
L’identificazione di geni per ncRNA si può basare su:
Allineamenti cis/trans;
(i dati di sequenza sono molto inferiori rispetto a quelli per geni codificanti;
le sequenze divergono velocemente)
" 
Modelli statistici specifici di particolari famiglie di ncRNA;
(sono difficili da modellare)
" 
Ricerca ab initio in regioni genomiche.
(si può fare solo in casi particolari)
" 
Tutti i metodi si avvantaggiano di alcune caratteristiche strutturali dell’RNA
Energia della struttura secondaria dell'RNA
Non tutti gli RNA hanno una struttura con energia libera minima che
è particolarmente più stabile delle altre possibili conformazioni.
"
Si possono quindi distinguere due classi di RNA: strutturati e non
strutturati;
"
RNA non strutturati (ad es. i mRNA) hanno una serie anche ampia di
conformazioni ad energia simile; la loro funzione non è strutturaspecifica;
"
RNA strutturati (la maggior parte dei ncRNA) invece esisterà per la
grande maggioranza del suo tempo in una particolare conformazione,
che è importante per la funzione dell'RNA;
"
Caso particolare sono RNA di particelle ribonucleoproteiche, i quali
hanno una struttura stabile e svolgono la funzione in maniera
struttura-specifica, ma possono adottare questa conformazione solo
formando il complesso con le proteine loro partner.
"
Struttura dell'RNA
- Doppie eliche di RNA non sono stabili come quelle di DNA, a
causa del gruppo aggiuntivo -OH in posizione 2';
- L'RNA esiste (quasi) sempre sotto forma di molecole a singolo
filamento;
- Intermedi di RNA a doppia elica possono formarsi durante la
replicazione di alcuni virus, e sono cercati e distrutti da
meccanismi di difesa (allo stesso modo del DNA a singola elica);
- Non assume una struttura secondaria estesa come il DNA, ma
puo' ripiegarsi formando legami idrogeno intra-catena;
Struttura dell'RNA
A
U
G
C
Appaiamento canonico Watson-Crick
Struttura dell'RNA
Appaiamento Wobble
Struttura dell'RNA
Sequenze palindrome (inverted repeats) nel DNA
possono far formare strutture a forcina nel
corrispondente trascritto di RNA
5’ TGCGATACTCATCGCA
3’ 3’ ACGCTATGAGTAGCGT
5’ inverted repeats in an antiparallel double helix
5’ C T A C T A A T G C C G G C T A hairpin
3’ Struttura dell'RNA
Struttura dell'RNA
L'impilamento delle basi conferisce stabilità
Struttura dell'RNA
La struttura secondaria può
essere descritta da grafi
planari in cui sono
rappresentate tutte le basi
appaiate, le forcine e i loops.
Questa rappresentazione ha
poco a che vedere con la
vera struttura tridimensionale,
ma è utile per avere un'idea
di quanti e quali elementi
strutturali sono presenti.
Struttura dell'RNA
Rappresentazione della struttura secondaria
..(((.(((......))).((((((....)))).))....)))
AGCUACGGAGCGAUCUCCGAGCUUUCGAGAAAGCCUCUAUUAGC
Struttura dell'RNA
Rappresentazione della struttura secondaria
Struttura dell'RNA
GGGCUAUUAGCUCAGUUGGUUAGAGCGCACCCCUGAUAAGGGUGAGGUCGCUGAUUCGAAUUCAGCAUAGCCC
A
(((((((..((((.........)))).(((((.......))))).....
(((((.......)))))))))))).
Struttura primaria
Struttura terziaria
Struttura secondaria
Struttura dell'RNA
Motivi strutturali dell'RNA
Struttura dell'RNA
Motivi strutturali dell'RNA
single strands
bulge
A CCUUG
hairpin
internal loop
A CUAC
C A A C
CGU A GCA A A C GAUG
C
G
A
A
G
U G
A-form
double helix
G T Struttura dell'RNA
In aggiunta alle interazioni strutturali secondarie, ci sono
interazioni “terziarie” che possono essere a lunga distanza.
Spesso non sono
rappresentabili da
espressioni a
parentesi
bilanciate
Struttura dell'RNA
c guu aga aac c ucu cccc acc gc gca ggg ugc acc ggu cc Pseudoknots: pattern di
forcine che si incrociano
Struttura dell'RNA
Rappresentazione circolare di uno pseudoknot
Struttura dell'RNA
Kissing hairpins
l 
La maggior parte degli appaiamenti di basi non sono incrociati:
l 
Date due coppie (i, j) e (i’,j’) è i < i’ < j’ < j oppure i’ < i < j < j’
Struttura dell'RNA
Gli Pseudoknots sono
spesso importanti per la
funzione dei ncRNA;
l 
Non e' chiaro quanti
pseudoknots siano presenti
nei ncRNA, ma non sembrano
molto frequenti;
l 
Aumentano la complessità di
tutti i metodi per lo studio dei
ncRNA;
l 
Sono quindi normalmente
ignorati.
l 
Struttura dell'RNA
RNA
Proteine
tipi di catene laterali
4
20
rotazioni del backbone
7
2
struttura secondaria
eliche
α, β, ……
# di stati stabili
spesso > 1
di solito 1
forza trainante del folding
impilamento
forza idrofobica
stabilità della struttura
secondaria
stabile senza struttura
terziaria
instabile senza
struttura terziaria
Predizione della struttura secondaria dell'RNA
•  - Minimizzazione dell’energia libera
–  Basato su algoritmi di programmazione dinamica;
–  Non richiede un allineamento multiplo ma si può alcolare
sulla singola sequenza;
–  Necessita di parametri energetici stimati sperimentalmente
che contribuiscono alla formazione della struttura
secondaria.
•  - Analisi comparativa
–  Utilizza allineamenti multipli per identificare posizioni che
co-evolvono;
–  Necessita di allineamenti accurati e popolati.
Predizione della struttura secondaria dell'RNA
Come si trova la struttura ad energia libera minima?
l 
l 
Abbiamo bisogno:
l  Di una funzione che calcoli un punteggio
(idealmente l'energia libera) data una
struttura secondaria di RNA;
l  Un algoritmo che permetta di trovare la
struttura a punteggio maggiore (o energia
minore) fra tutte le possibili strutture.
Due algoritmi:
l  Algoritmo di Nussinov
l  Algoritmo di Zuker
Predizione della struttura secondaria dell'RNA
Come si trova la struttura ad energia libera minima?
l 
l 
l 
L'approccio più semplice consisterebbe nel calcolare
l'energia libera di tutte le possibili strutture secondarie
che un RNA può assumere;
Il numero di possibili strutture secondarie cresce
esponenzialmente con la lunghezza della sequenza
dell'RNA ed è ~ 1.8N (dove N è la lunghezza);
Assumendo che l'energia di 1000 strutture possa
essere calcolata in un secondo, per una sequenza di
RNA di 100 nucleotidi:
- Numero di strutture secondarie: ~ 3 × 1025
- Tempo per valutarle tutte: ~ 1014 anni
Predizione della struttura secondaria dell'RNA
Soluzione: algoritmi di programmazione dinamica
Definiti per la prima volta da Richard Bellman nel
1953;
l 
Idea generale: per risolvere un problema, spesso si
possono risolvere diverse parti del problema
(sottoproblemi) per poi combinare le soluzioni;
l  Si applicano a problemi in cui il punteggio è
costruito progressivamente da soluzioni parziali;
l 
l 
Applicazioni:
l  Allineamento di sequenze;
l  Ricerca di percorsi ottimali;
l  Hidden Markov models.
Predizione della struttura secondaria dell'RNA
Massimizzazione del numero di basi appaiate
Un modello semplice assume che l'energia della molecola sia più
bassa tante più basi sono appaiate. Massimizzando il numero di
appaiamenti si ottiene la struttura secondaria più stabile [Waterman
(1978), Nussinov et al (1978), Waterman and Smith (1978)];
" 
Appaiamenti G – C, A – U, e G – U sono considerati, e
generalmente trattati allo stesso modo;
" 
" 
Altri contributi energetici (stabilizzanti o destabilizzanti) sono ignorati;
" 
Pseudoknots sono ignorati;
L'energia di una data coppia di basi è indipendente dallo stato delle
basi circostanti.
" 
Energia della struttura secondaria dell'RNA
Minimizzazione dell'energia
l 
l 
l 
l 
l 
L'algoritmo di Nussinov non considera altri contributi energetici (ne
positivi ne negativi)
Nel laboratorio di Turner sono stati stimate le energie di numerose
substrutture di molecole di RNA, per denaturazione termica
E' stato anche visto che nella maggior parte dei casi le energie sono
additive, e l'energia dipende da interazioni a corto raggio
Si può pensare ad un algoritmo che estenda la funzione di scoring a
questi parametri energetici
Gli algoritmi più popolari sono Mfold e RNAfold
Energia della struttura secondaria dell'RNA
Energie di forcine calcolate come contributo dell'impilamento fra
coppie di basi adiacenti
Energia libera (kcal/mole a 37oC )
Energia della struttura secondaria dell'RNA
Energia destabilizzante dei loops
Dimensione
1
2
3
4
5
6
7
8
30
Internal
NA
NA
NA
1.7
1.8
2.0
2.2
2.3
3.7
Bulge
3.8
2.8
3.2
3.6
4.0
4.4
4.6
4.7
6.1
Hairpin
NA
NA
5.6
5.5
5.6
5.3
5.8
5.4
7.7
Energia della struttura secondaria dell'RNA
Energia della struttura secondaria dell'RNA
Energia della struttura secondaria dell'RNA
Zuker-Sankoff minimum energy model
" 
" 
" 
Le stacks costituiscono la forza stabilizzatrice maggiore;
Basi non appaiate formano loops che destabilizzano la struttura;
Diversi tipi di loops (hairpin loops, bulge/internal loops, multiloops).
:eH(i,j)
i
j
i
j
:a+3*b+4*c
i+1
i
i’
j-1
j
J’
:eL(i,j,i’,j’)
:eS(i,j,i+1,j-1)
[Lyngsø (1999)]
Identificazione di geni per ncRNA
Geni per ncRNA possono essere predetti:
1.  Per omologia con ncRNA
2.  Per similarità con modelli di famiglie di ncRNA note
2. Ab initio
Identificazione di geni per ncRNA
Evoluzione della sequenza dei ncRNA
l 
l 
l 
l 
L'evoluzione di un RNA è vincolata dalla sua
struttura;
Mutazioni che alterano la struttura sono
generalmente contro-selezionate, andando a
influenzare negativamente anche la funzione;
E' però possibile che una mutazione che nonalteri la struttura sia mantenuta nel corso
dell'evoluzione;
Di conseguenza, RNA con struttura simile
possono essere anche molto diversi in
sequenza.
Identificazione di geni per ncRNA
RNA con sequenza diversa possono avere stru3ura simile e svolgere la stessa funzione Identificazione di geni per ncRNA
L'evoluzione dei ncRNA è vincolata dalla loro struttura secondaria
•  Cambiamenti di sequenza anche drastici sono tollerati se la struttura
non risulta modificata;
•  Molto comuni sono le mutazioni compensatorie:
–  Un appaiamento di basi muta in un' altro appaiamento;
–  La struttura rimane la stessa
Mutazione compensatoria
tRNA1:
tRNA2:
Identificazione di geni per ncRNA
Identificazione di geni per ncRNA
Analisi della covarianza: Mutazioni compensatorie possono essere cercate calcolando l’informazione mutua Mij fra coppie di colonne i,j di un allineamento mul)plo: Mij = Σi,j fxixj log2 (fxixj/fxi fxj) Dove: fxixj frequenza della coppia fxi frequenza del nucleo)de xi in posizione i 0 <= Mij <=2 Mij = 0 se le posizioni i,j non sono correlate Identificazione di geni per ncRNA
Date due colonne dell’allineamento i e j: i j A
U
A
U
C
G
G
C
fAi = .5 fCi = .25 fGi = .25 fUj = .5 fCj = .25 fGj = .25 fAU = .5 fCG = .25 fGC = .25 Mij = Σxixj fxixj log2 (fxixj/fxi fxj) = .5 log2 (.5/(.5*.5))+2*.25 log2 (.25/(.25*.25))=.5 *1 +.5*2 = 1.5 A
U
U
A
A
U
A
U
A
U
C
G
A
U
G
C
Mij = 1 log 1 = 0 Mij = 4*.25 log 4 = 2 Identificazione di geni per ncRNA
Geni per ncRNA possono essere predetti:
1.  Per omologia con ncRNA
2.  Per similarità con modelli di famiglie di ncRNA note
2. Ab initio
Identificazione di geni per ncRNA
Allineamento di sequenze/
stru3ure di RNA Costruzione del modello (ad es. con SCFG) modello Test del modello genoma Finestra che scorre Identificazione di geni per ncRNA
Se si ha a disposizione un buon allineamento di sequenze di ncRNA
della stessa famiglia, la cui struttura è nota, lo si può usare per
costruire un modello statistico della famiglia, da usare per ricerche in
genomi di altri membri della famiglia;
Strumenti per specifiche famiglie:
" tRNAscan-SE (tRNA)
" BRUCE (transfer-messenger RNA)
" SNOSCAN (box c/D small nucleolar RNA)
" SNOGPS (box H/ACA snoRNA)
" FISHER (box H/ACA snoRNA)
" ProMIR (miRNA umani)
" MiR-scan (miRNA di vertebrati)
" Harvester (miRNA di piante)
" MiR-Abela (miRNA di mammiferi)
Strumenti generici: covariance models (CM), basati su stochastic
context free grammars (SCFG); oppure si usano varianti di HMM.
" INFERNAL
" CMFinder
tRNAscan
I tRNA hanno una stru3ura molto conservata sopratu3o in alcune posizioni chiave. La ricerca di geni per tRNA consiste nel ricercare nel genoma queste posizioni conservate alla distanza giusta. Si u)lizza un albero decisionale, in cui le cara3eris)che da cercare sono priori)zzate, si ha una predizione posi)va se tu3e le condizioni sono rispe3ate. Rfam
E' una banca dati gestita dal Wellcome Trust Sanger Institute di famiglie di
ncRNA e di elementi strutturati di RNA degli RNA messaggeri;
Gli allineamenti e le annotazioni sono curate manualmente da esperti;
Simile in scopo e struttura alla banca dati Pfam per famiglie proteiche;
Per ogni famiglia esiste un allineamento multiplo di sequenza (MSA) curato
manualmente (l'allineamento seed);
Dal seed viene costruito un covariance model, usato per identificare altri
membri della famiglia usando INFERNAL, che sono poi incorporati in un
altro MSA, generato automaticamente (l'allineamento full).
Rfam
Rfam