Bioinformatica e Banche Dati
Biologiche
Alberto Ferrarini
1
Il corso – Orari
Teoria
Giovedì dalle 15:30 alle 17:30 – Aula D
Laboratorio
Giovedì dalle 11:30 alle 14:30 – Laboratorio Alfa
2
Modalità esame
• Viene effettuato un unico esame comprendente
domande di teoria e di laboratorio. Viene prodotto un
unico voto complessivo.
• Per gli studenti del CdL di Biotecnologie, la
verbalizzazione del voto del corso “Bioinformatica e
Banche dati biologiche” verrà effettuata dal docente di
Bioinformatica e banche dati biologiche (6 crediti).
• Per gli studenti del CdL di Bioinformatica, il voto
complessivo del modulo “Biochimica - LABORATORIO
DI BIOINFORMATICA I” farà poi media col modulo
“Elementi di Biochimica” della Prof.ssa Paola Dominici
che verbalizzerà il voto complessivo (12 crediti).
3
Il corso - programma
• Introduzione
– Concetti di base
– L’informazione biologica
– Perche’ la bioinformatica
• Banche dati biologiche
–
–
–
–
Acquisizione di dati scientifici
Interrogazione di banche dati in rete
Banche dati di sequenze e strutture di acidi nucleici e proteine
Classificazioni delle strutture proteiche: SCOP, CATH.
• Allineamento di sequenze
–
–
–
–
Matrici a punti e algoritmi di allineamento
Matrici di punteggio (PAM e Blosum)‫‏‏‬
Algorimi dinamici di allineamento: NW, SW
Ricerca in banche dati con singola sequenza: BLAST
4
Il corso - programma
• Allineamento multiplo di sequenze
– Alberi filogenetici
– Ricerche in banche dati con allineamenti multipli,
CLUSTALW
• Introduzione alla Bioinformatica Strutturale
– Visualizzazione di strutture di proteine, acidi nucleici e
complessi; riconoscimento di motivi strutturali
– Predizione di strutture secondarie dalle sequenza
• Introduzione alla genomica
– Concetti di base (dogma centrale, trascrizione, ecc)
– Banche dati di dati genetici
– Genome Browser (Ensembl, UCSC, NCBI e IGV)
5
Materiale del corso (teoria)
• Il materiale del corso verrà caricato in formato
PDF sulla pagina web:
• http://ddlab.sci.univr.it/alberto/bioinformatica/
6
Cos’è la bioinformatica
• La bioinformatica è una disciplina scientifica dedicata alla
risoluzione di problemi biologici a livello molecolare con
metodi informatici.
• Descrive fenomeni biologici in modo numerico/statistico
• La bioinformatica principalmente
– fornisce modelli per l'interpretazione di dati provenienti da
esperimenti di biologia al fine di identificare tendenze e leggi
numeriche
– genera nuovi strumenti matematici per l'analisi di dati biologici
(sequenze di DNA, RNA e proteine, ….).
– organizza le conoscenze acquisite in basi di dati al fine di
rendere tali dati accessibili
8
Cos’è la bioinformatica
• Condivide alcuni argomenti con:
– Biologia computazionale:
• Integra l’approccio di laboratorio con
risultati sperimentali in silico, ottenuti
quindi per mezzo di metodi
informatici a partire da dati biologici.
– Genomica computazionale:
• disciplina della biologia computazionale
dedicata allo studio del genoma tramite
metodologie bioinformatiche e
statistiche.
9
Il flusso dell’informazione biologica
• Ad ogni livello di organizzazione (da interazioni
fra biomolecole fino a cellule, organismi,
popolazioni) l’elemento unificante e’
l’EVOLUZIONE, unico vero fondamento teorico
della disciplina
10
Evoluzione
• EVOLUZIONE: adattamento progressivo attraverso
variabilita’ genetica casuale e selezione naturale (Darwin,
1859)
• Ad ogni livello biologico, il fenotipo (insieme di tratti e
caratteri somatici) e’ codificato dal genotipo (il patrimonio
genetico)
• Genotipo: sorgente primaria di variazione genetica;
fenotipo: bersaglio della selezione naturale
• Il genotipo e’ conservato nel genoma (fatto di DNA,
eccezion fatta per virus a RNA)
11
The central dogma of molecular
biology
DNA
Replication
RNA
Transcription
Translation
PROTEIN
Genes are transcribed from DNA into mRNA, which leaves the nucleus
and is translated to protein. A gene actively transcribed is said to be
12
expressed.
Struttura degli acidi nucleici
sono poliesteri composti da nucleotidi (composti da una base azotata, uno
zucchero 2’-deossi-ribosio (o ribosio in RNA) e un gruppo fosforico)
13
http://www.molecularstation.com/molecular-biology-images/502-dna-pictures/5-the-chemical-structure-of-dna.html
DNA base pairing
Guanine - Citosine
Adenine - Timine
The monomeric units of nucleic acids are called nucleotides. A nucleotide is a
phospate, a sugar, and a purine or a pyramidine base.
14
DNA replication
New strands of DNA are copied from parental DNA
creating a complementary template DNA.
In the replication of double-stranded or duplex DNA
molecule, both parental DNA strands are copied.
The transcription direction on different strands is
opposite.  asimmetric transcription.
When copying is finished, the two new duplexes,
each
consisting of one of the original strands plus its copy,
separate from each other.
15
DNA replication
Synthesis by DNA polymerases proceeds
from 5’ to 3’.
Replication is performed by a
“collaboration” of many proteins like
helicases, primases, ligases,
topoisomerases and DNA polimerases.
16
La struttura dei geni
Un gene si trova in una precisa porzione fisica del genoma (locus genico)
In un gene le Open Reading Frames (parti di DNA/RNA codificanti) si
trovano comprese fra il codone d'inizio e il codone di stop.
Il genoma eucariotico contiene porzioni non codificanti importanti per la
regolazione (promotori, enhancers) e per la costituzione (introni, sequenze
ripetute).Lo splicing (“saldatura”) prepara il pre-mRNA per la traduzione
17
L’RNA
• L’RNA e’ meno stabile ma piu’ versatile del DNA; e’ scarsamente reattivo (meglio
per conservare l’informazione) e assume strutture 3D anche molto complesse
• ne esistono diverse forme: mRNA, tRNA, rRNA e piccoli RNA; cio’ e’
fondamentale per la trasmissione dell’informazione genetica
http://www.accessexcellence.org/RC/VL/GG/protein_synthesis.php
•Il codice genetico e’ degenere
18
(eccezioni: codoni di Met e Trp)
RNA transcription
• 1 prokariotic RNA polymerase
• 3 different RNA polymerases in eukariotes:
– RNA polymerase I: transcribes large ribosomal
RNA precursor gene
– RNA polymerase II: protein coding genes
– RNA polymerase III: tRNA genes, some snRNAs,
ribosomal RNAs (5S)
19
RNA trancription
• 3 steps in RNA transcription:
– Initiation:
• DNA-dependent RNA polymerase requires a promoter
and upstream regulatory regions.
20
RNA polymerase associate to trancription factors
(TFIIA – TFIIH)
RNA pol II
TF II E
TF II
A
TBP TAF
TATA
TF II
B
TF II H
DNA
•TFIIH phosphorilates the RNA pol which moves
downstream, starting the elongation phase.
•RNA polymerase initiate the transcription from the start site
in the template DNA upstream of the coding sequence.
21
Elongation
22
Termination
• The termination sequence is AATAAA followed by GT repeat
23
Regulation of trancription
• Expression is regulated through multiple
transcriptional control regions
• Regulatory elements may be located at kilobases
from start sites.
• Repressors bind to operators overlapping the
promoter regions
• Activators bind on the opposite strand of the
polymerase
• Enhancers may be up to kilobases upstream or
downstream the start codon and can be inside an
intron.
24
Modification of heteronuclear RNA
• Capping at 5’-end
• Tailing at 3’-end
• mRNA splicing
• RNA editing
25
5’-end capping
•The 5’ cap is recognized by cap binding protein prior to translation.
•Performed prior to splicing.
•The 5’-capping process takes place in the nucleus.
Triphosphate bridge
7-methylguanosine
26
Poly-A tailing
• The tailing process occurs prior to splicing
• The tailing process takes place in the nucleus
• A oligo consisting of all adenine nucleotides (a
poly-A tail) is added to the 3’ end of the mRNA
after transcript
27
mRNA splicing
Intron 1
Intron 2
Intron 3
DNA
Exon 1
Exon 2
Exon 3
Exon 4
Exon 2
Exon 3
Exon 4
Primary transcripts
Exon 1
Mature mRNA
Exon 1
UTR 5’
Exon 2
Exon 3
CDS
Exon 4
UTR 3’
28
Untranslated regions are present at both the 5’ and the 3’ end of the mRNA
Splicing mechanism
29
Alternative splicing
Exon 1
Exon 2
Exon 3
Exon 4
Multiple spliced transcripts
encoding different proteins
can be produced from the
same primary transcript
Exon 1
Exon 2
Exon 3
Exon 4
Exon 1
Exon 2
Exon 4
30
RNA editing
• Takes place at transcription level.
• One genes can produce more than one
protein
• Editing by deamination:
– C to U editing
– A to I editing
• Can also cause cleavage by nucleases
31
Regioni ripetute del genoma
http://carolguze.com/text/442-1-humangenome.shtml
32
Mutazioni
Le mutazioni puntiformi (singola base sostituita da un’altra) sono comuni (errori
occasionali nella duplicazione, fattori ambientali come radiazione UV o sostanze
chimiche). Alcune importanti tipologie (non tutte):
• mutazioni silenti o sinonime (conservative): l’a.a. codificato non e’ modificata (es.
CUU, CUC -> Leu)
• mutazioni missenso: l’a.a. codificato cambia. Puo’ essere neutra (es. SNP,
polimorfismi a singolo nucleotide) o no: la natura dell’ a.a. e’ molto diversa. Possibili
conseguenze sulla fitness per destabilizzazione della struttura proteica. Puo’ anche
essere neutrale e fissarsi nelle generazioni successive
• mutazioni nonsenso: la mutazione introduce un codone di stop
(stop!!)
UGC –>UGA
• inserzioni/delezioni (indel): errori in fase di duplicazione; a multipli di 3
(inserzione o delezione di una tripletta) non alterano la fase di lettura di una ORF
33
Esempio: anemia falciforme
Glu 6
Val
L’emoglobina diventa meno solubile; precipita; cio’ si ripercuote sul fenotipo
cellulare
34
Translation
Translation takes place in the cytoplasm.
Triplets of nucleic acids (codons) code for different aminoacids. Translation
starts from start codon (AUG) and stops at stop codons. Ribosomes translate
the mRNA into proteins.
Growing protein
tRNA
TAC
CCT GTA
ATG GGA CAT
35
Le proteine
• Sono il risultato del flusso dell’informazione genetica
• La presenza di 20 amminoacidi naturali con proprieta’ chimico-fisiche
diverse conferisce una variabilità enorme
Il codice a una
e tre lettere
degli
amminoacidi
VA SAPUTO A
MEMORIA !
36
Il legame peptidico crea il backbone di qualunque proteina
http://en.wikipedia.org/wiki/File:Amino_Acids.svg
La proteina è come un filamento di luci
di natale: il backbone è il filo elettrico e
le luci colorate le varie catene laterali
37
La struttura di una proteina si organizza in 4 livelli, visibili “srotolando” la
matassa della luce di natale:
38
La struttura 3D di una proteina e’ molto complessa
La determinazione della
struttura 3D di proteine e’ un
settore di ricerca molto attivo,
come mostra la crescita
esponenziale di strutture
depositate nel Protein Data
Bank
39
L’organizzazione strutturale delle proteine e’ancora piu’ complessa:
Si identificano motivi strutturali e domini, inoltre cofattori, gruppi
prostetici…
Esempio: il motivo EF-hand e la calmodulina
40
Valeyev et al., BMC Systems Biology 2008, 2:48
Il cosmo “omico”
• Genoma: comprende la totalità
del materiale genetico di un
organismo e comprende sia i geni
che sequenze non codificanti
(Es.: elementi mobili, sequenze
ripetute,…).
• Genomica: scienza che se ne
occupa.
• Genoma Umano: Sequenziato
completamente nel 2003.
• Occorre localizzare: Elementi
Funzionali:
• Regioni ‘utili’ → geni;
• Sequenze codificanti,
comprendere i meccanismi che
regolano l’espressione, scoprire
la funzione, e cercare
d’intervenire specificamente su
quest’ultima.
Genomica
Trascrittogenomica
Proteomica
[…]
41
Quantità di dati prodotti per run di
sequenziamento
Nel 2000: 1.6 Mb al giorno
Attualmente: un singolo HiSeq X produce fino a 1.8 Tb in 3 giorni
Diminuzione del costo del
sequenziamento
$100,000,000
$10,000.00
$10,000,000
$1,000.00
Cost per Genome
$1,000,000
$100.00
$100,000
$10,000
$10.00
Cost per Mb
Cost per Genome
Cost per Mb
$1,000
$1.00
$100
$0.10
$10
Mar-14
Oct-13
May-13
Dec-12
Jul-12
Feb-12
Sep-11
Apr-11
Nov-10
Jun-10
Jan-10
Aug-09
Mar-09
Oct-08
May-08
Dec-07
Jul-07
Feb-07
Sep-06
Apr-06
Nov-05
Jun-05
Jan-05
Aug-04
Mar-04
Oct-03
May-03
Dec-02
Jul-02
Feb-02
$0.01
Sep-01
$1
Costo del genoma oggi è alla portata del sequenziamento del genoma di ciascun
individuo.
Crescita di GenBank
Genbank è passato da 591 sequenze del 1981 a > 200.000.000 oggi (un
aumento di circa 340000 volte!)
Il cosmo “omico”
• Trascrittoma: l'insieme di tutti i
trascritti (RNA messaggeri,
mRNA)
• Trascrittomica: scienza che se ne
occupa.
• Occorre localizzare: Profili di
espressione:
• più dinamico del genoma
• tecnologie come microarray o
RNA-Seq monitorano i livelli di
espressione di tutti i geni allo
stesso tempo. Mirano ad
individuare correlazioni e
legami tra espressione genica,
attivazione e inibizione.
Esempi: studio nella
differenziazione di cellule
staminali o evoluzione di
tumori.
Genomica
Trascrittogenomica
Proteomica
[…]
45
Il cosmo “omico”
• Proteoma: l'insieme di tutte le
proteine in un sistema biologico o
nel suo genoma
• Proteomica: scienza che se ne
occupa.
• Occorre localizzare: sia le
proteine codificate dai geni che le
possibili modificazioni posttraduzionali (gruppi prostetici,
multidomini, fosforilazione, ecc).
• Alcune tecniche
• Gel:
• 1^ dimensione punto
isoelettrico
• 2^ massa molecolare
• Spettrometria di massa:
identifica una proteina in base
al suo rapporto massa/carica in
seguito a ionizzazione
Genomica
Trascrittogenomica
Proteomica
[…]
46
Il cosmo “omico”
• Proteomica strutturale:
determinazione della struttura
terziaria e quaternaria (3D e
domini) delle proteine.
• Tecniche: cristallografia, NMR,
homology modeling.
• La struttura terziaria di una
proteina è essenziale per
determinarne la funzione
Genomica
Trascrittogenomica
Proteomica
Proteomica
Genomica
Strutturale
47
Introduzione
Il cosmo “omico”
• Farmacogenomica: mira a
prevedere la reazione di ciascun
individuo verso un principio attivo
in base al suo genotipo.
• Obiettivo: creare terapie
farmacologiche personalizzate
per ottimizzare il risultato
minimizzando gli effetti
collaterali.
• Esempio: previsione di gravi
reazione avverse a Abacavir
nella terapia dell’HIV
Genomica
Trascrittogenomica
Proteomica
Farmacogenomica
48
L’evoluzione ed il confronto tra sequenze
Un allele (variante di un gene presente contemporaneamente
nella popolazione) puo’ essere generato, fissato o mutare nel
tempo
Uno degli obiettivi in senso lato della bioinformatica e’
stabilire se l’analisi dell’informazione molecolare riguardo
due oggetti biologici (e.g. geni o proteine) permette di
stabilire una relazione di OMOLOGIA, cioe’ di
discendenza da un antenato comune
49
Due sequenze che vengono separate fisicamente (per speciazione,
duplicazione ecc.) non si scambiano piu’ “informazione” ed evolvono
indipendentemente, accumulando mutazioni. Spetta a noi trovare i tratti
conservati dal comune antenato.
Un modo per muoversi in tal direzione e’ allineare le sequenze e determinare
la percentuale di identita’ o sequence identity (s.i.) (rapporto, in % tra il
numero dei residui/basi identici rispetto al totale) o comunque il grado di
similitudine.
Di norma, sequenze nucleotidiche non correlate hanno una s.i. ~50%;
sequenze amminoacidiche non correlate hanno una s.i. ~20%. Discostandosi
da tali valori aumenta la probabilità che le sequenze siano omologhe. Ma tale
indice dovrebbe tener conto anche della lunghezza delle sequenze.
Una s.i. del 90% fra due sequenze di 100 a.a. ha un significato diverso
rispetto alla stessa s.i. su sequenze di 30 a.a.
Allineare due sequenze significa stabilire se tra esse sussiste
una relazione di omologia
50