I dati in Bioinformatica File - e-Learning

Laboratorio di Elementi di
Bioinformatica
Laurea Triennale in Informatica
(codice: E3101Q116)
AA 2016/2017
I dati in Bioinformatica
Docente del laboratorio: Raffaella Rizzi
1
Il DNA (oggetto biologico)
Il DNA è una catena polinucleotidica.
Il “mattoncino” che compone una catena di DNA
prende il nome di nucleotide.
D
b
P
D: zucchero pentoso è deossiribosio
P: gruppo fosfato
b: base azotata
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
b
P
D: zucchero pentoso è deossiribosio
P: gruppo fosfato
b: base azotata di quattro tipi:
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
A
P
D: zucchero pentoso è deossiribosio
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
G
P
D: zucchero pentoso è deossiribosio
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
C
P
D: zucchero pentoso è deossiribosio
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
T
P
D: zucchero pentoso è deossiribosio
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
- timina (T)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
T
P
D: zucchero pentoso è deossiribosio
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
purine
- guanina (G)
- citosina (C)
- timina (T)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
T
P
D: zucchero pentoso è deossiribosio
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
pirimidine
- timina (T)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
direzione 5’3’
3’
D
5’
T
P
D: zucchero pentoso è deossiribosio
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
- timina (T)
Il DNA (oggetto biologico)
D
T
P
D
A
P
D
P
C
Legame fosfodiesterico
è legame tra D e P
Il DNA (oggetto biologico)
3’
D
T
P
D
A
P
D
5’
P
C
La sequenza delle basi azotate
elencate dal 5’ al 3’ fornisce
la sequenza primaria della
molecola di DNA
Nell’esempio della figura la sequenza
primaria è quindi CAT (e non TAC)
Il DNA (oggetto biologico)
3’
D
T
P
D
A
La sequenza delle basi azotate
elencate dal 5’ al 3’ fornisce
la sequenza primaria della
molecola di DNA
Nell’esempio della figura la sequenza
primaria è quindi CAT (e non TAC)
nucleotide “coincide con” base azotata
P
D
5’
P
C
Il DNA genomico
Il DNA genomico (genoma) è la lunga molecola di DNA
che contiene le informazioni che regolano la vita di
un organismo vivente:
ü  è contenuto nel nucleo di tutte le cellule
dell’organismo
ü  è una doppia catena avvolta ad elica
ü  è suddiviso in cromosomi
Il DNA genomico
Il DNA genomico (genoma) è la lunga molecola di DNA
che contiene le informazioni che regolano la vita di
un organismo vivente:
ü  è contenuto nel nucleo di tutte le cellule
dell’organismo
ü  è una doppia catena avvolta ad elica
ü  è suddiviso in cromosomi
Genoma umano (3,2 miliardi di basi):
ü  22 coppie di autosomi (chr1, chr2, …, chr22)
ü  cromosomi X e Y (XX=femmina, XY=maschio)
ü  il cromosoma 1 è il più lungo (circa 245 milioni di basi)
Il DNA genomico
P
5’
D
T
A
A
T
C
G
D
3’
P
P
D
D
P
P
5’
P
D
D
3’
Il DNA genomico
A è complementare a T à due legami idrogeno
C è complementare a G à tre legami idrogeno
P
5’
D
T
A
A
T
C
G
D
3’
P
P
D
D
P
P
5’
P
D
D
3’
Il DNA genomico
P
D
T
A
A
T
C
G
D
3’
P
P
D
D
P
P
P
D
D
strand +
(forward) 5’
5’ strand –
(reverse)
3’
Il DNA genomico
P
D
T
A
A
T
C
G
D
3’
5’ strand –
(reverse)
P
P
D
P
D
P
D
Catena forward è CAT
D
strand +
(forward) 5’
P
3’
Il DNA genomico
P
D
T
A
D
3’
5’ strand –
(reverse)
Catena reverse è ATG
P
P
A
T
C
G
D
P
D
P
D
Catena forward è CAT
D
strand +
(forward) 5’
P
3’
Il DNA (dato informatico)
La sequenza primaria di un catena di DNA è dunque
rappresentata da una stringa di simboli appartenenti
all’alfabeto Σ={A,C,G,T}
Il DNA (dato informatico)
La sequenza primaria di un catena di DNA è dunque
rappresentata da una stringa di simboli appartenenti
all’alfabeto Σ={A,C,G,T}
La lunghezza di una sequenza di DNA si misura
in base pair (bp).
Quindi una sequenza lunga 1000bp è composta
da 1000 basi.
Il DNA (dato informatico)
Operazione fondamentale à Reverse&Complement
…per ottenere, data la sequenza primaria di una catena
di DNA, la sequenza primaria della sua catena
appaiata:
ü 
si trasforma ogni singola base nella sua
complementare:
ü 
ü 
A in T (e viceversa), C in G (e viceversa)
si inverte la sequenza ottenuta
Il DNA (dato informatico)
Esempio di Reverse&Complement:
A C G T A G
Il DNA (dato informatico)
Esempio di Reverse&Complement:
A C G T A G
complement
T G C A T C
Il DNA (dato informatico)
Esempio di Reverse&Complement:
A C G T A G
complement
T G C A T C
reverse
C T A C G T
L’RNA (oggetto biologico)
Il nucleotide (il “mattoncino” dell’RNA)
R
b
P
D: zucchero pentoso è ribosio
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
uracile al posto della
- uracile (U)
timina
L’RNA (dato informatico)
La sequenza primaria di un catena di RNA è
rappresentata tramite una stringa simboli appartenenti
all’alfabeto Σ={A,C,G,U}
L’RNA si trova in catene singole
Le proteine
Una proteina è una catena di aminoacidi e
la sua sequenza primaria è rappresentata
da una stringa definita su un alfabeto di 20 simboli
(20 sono gli aminoacidi presenti in natura).
Glu
Ile
Phe
Thr
Val
His
Il sequenziamento
Sequenziare significa determinare la sequenza
primaria delle molecole biologiche (DNA/RNA e
proteine)
è  sequenza delle basi {A,C,G,T|U} per DNA e RNA
è  sequenza degli aminoacidi per le proteine
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola
biologica?
è single-end read
DNA/RNA
GTTGTGCAGTGACGGA
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
è  paired-end read
è  mate-pair
insertion size
DNA/RNA
A
B
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
è  paired-end read
è  mate-pair
insertion size
DNA/RNA
A
B
A=B
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
è  paired-end read
è  mate-pair
insertion size
DNA/RNA
A
B
A=B
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
è  paired-end read
è  mate-pair
insertion size
DNA/RNA
A
B
A=B
Output è
+ insertion size
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
è  paired-end read
è  mate-pair
F
R
insertion size
DNA/RNA
agttgcgt
aatgcctg
A
Output è
B
agttgcgt
gtccgtaa
Insertion size <= 1000 bp
A=B
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
è  paired-end read
è  mate-pair
R
F
insertion size
DNA/RNA
agttgcgt
aatgcctg
A
Output è
B
tgcgttga
aatgcctg
Insertion size <= 2000-5000 bp
A=B
Il sequenziamento
Attenzione agli errori di sequenziamento!!!
Le stringhe che rappresentano la sequenza primaria
di DNA e RNA sono in realtà definite su di un alfabeto
esteso che prende il nome di IUPAC code
IUPAC code per DNA
SIMBOLO
A
C
G
T
R
Y
M
K
W
S
B
D
H
V
N
DESCRIZIONE
Adenine
Cytosine
Guanine
Thymine
Purine (A or G)
Pyrimidine (C or T)
C or A
T, or G
T, or A
C or G
C, T or G (not A)
A, T or G (not C)
A, T or C (not G)
A, C or G (not T)
any base (A, C, G, T)
IUPAC code per RNA
SIMBOLO
A
C
G
U
R
Y
M
K
W
S
B
D
H
V
N
DESCRIZIONE
Adenine
Cytosine
Guanine
Uracil
Purine (A or G)
Pyrimidine (C or U)
C or A
U or G
U or A
C or G
C, U or G (not A)
A, U or G (not C)
A, U or C (not G)
A, C or G (not U)
any base (A, C, G or U)
Sanger VS Next-Generation
Sequencing (NGS)
Metodo Sanger
ð  Piuttosto costoso
(centinaia di milioni di dollari
per Human Genome Project)
ð  Processa pochissimi reads
in un run (copertura
relativamente bassa)
ð  Lunghezza dei reads fino
a 1000 bp
ð  Qualità elevata
Metodi NGS
ð  Poco costosi (attorno al
milione di dollari per
sequenziare il genoma
umano)
ð  Processano tanti reads in
un run (milioni) (copertura da
10 a 100 volte superiore
quella Sanger)
ð  Reads relativamente corti
ð  Qualità relativamente
bassa
Cos’è un gene?
Un gene è una regione (locus) del DNA genomico che
codifica una proteina.
Cos’è un gene?
Un gene è una regione (locus) del DNA genomico che
codifica una proteina.
Un gene viene identificato tramite il suo HUGO NAME
(http://www.genenames.org/)
Cos’è un gene?
Un gene è una regione (locus) del DNA genomico che
codifica una proteina.
Un gene viene identificato tramite il suo HUGO NAME
(http://www.genenames.org/)
Esempio di HUGO NAME: ATP6AP1
(ATPase, H+ transporting, lysosomal accessory
protein 1)
Cos’è un gene?
La sequenza primaria del locus di DNA di un gene
prende il nome di sequenza genomica.
Cos’è un gene?
La sequenza primaria del locus di DNA di un gene
prende il nome di sequenza genomica.
Sequenza genomica è un termine
generale per indicare la sequenza di una
qualsiasi regione di DNA genomico
Una sequenza genomica è dunque in
Bioinformatica una sottostringa della
sequenza primaria del DNA genomico
Sequenza genomica
In genere una sequenza genomica viene memorizzata
in formato FASTA che è:
ü 
ü 
ü 
un formato di puro testo nato come formato di input del
software di allineamento FASTA
pensato per memorizzare sequenze nucleotidiche (DNA e
RNA) e qualche informazione aggiuntiva
diventato un formato standard di input di molti tools di analisi
di sequenze
Il nome di un file in formato FASTA ha estensione fa oppure fasta
Formato FASTA (esempio)
>X dna:chromosome chromosome:GRCh38:X:154428632:154436516:1
GGGGGCAACGGTCACCTGATCTGCGGCTGTCGAGGCCGCTGAGGCAGTGGAGGCTGAGGC
TATGATGGCGGCCATGGCGACGGCTCGAGTGCGGATGGGGCCGCGGTGCGCCCAGGCGCT
CTGGCGCATGCCGTGGCTGCCGGTGTTTTTGTCGTTGGCGGCGGCGGCGGCGGCGGCAGC
GGCGGAGCAGCAGGTCCCGCTGGTGCTGTGGTCGAGTGACCGGTGAGCGGGCCGGGGTGG
GATGCGCTGTGGCGGCTGAGGCGCCCTCGCCCGACTCCGGCGCTGTCCTAGGCGAGGGGT
GGTGAGGCCCGGAGGTGGACTGTTCCTTGCTCGGGGGCTCGCAGCGAATCTGCCGGCGAC
AGAGCTCCAGTCCACATGCGCCCCCGTCTGACAGCACCTCTTCTGTGCCCTGCCAGGGAC
TTGTGGGCTCCTGCGGCCGACACTCATGAAGGCCACATCACCAGCGACTTGCAGCTCTCT
ACCTACTTAGATCCCGCCCTGGAGCTGGGTCCCAGGAATGTGCTGCTGTTCCTGCAGGAC
AAGGTGCGCCCGCCCCAGCCCACTCTCCCCCGGTCATCGGGAGGCAGCCAGGCCCCCTCC
CCCCATGACACTGACGCCCATTCCCCAAGGGAAGCTTCAGTGACCTTGTCCCAACTGTAG
GGAGGTGTGGGTCGTCTCATGGGAAGGCCTGTAGTAAACGCTTCAGTGGGCATGGCGACA
GCCTCGGAAATGGCACCAACTTGATTGGAGGAAGCGACGGACCAGAGGCCAGGTACCTAC
TGAGTACCAAGCACTTTGGATATCTGACTTAGTCCAATATGGTGGGTGGGGATTATCGTC
[…]
Formato FASTA (esempio)
>X dna:chromosome chromosome:GRCh38:X:154428632:154436516:1
GGGGGCAACGGTCACCTGATCTGCGGCTGTCGAGGCCGCTGAGGCAGTGGAGGCTGAGGC
TATGATGGCGGCCATGGCGACGGCTCGAGTGCGGATGGGGCCGCGGTGCGCCCAGGCGCT
Header FASTA à il primo simbolo deve essere ‘>’
CTGGCGCATGCCGTGGCTGCCGGTGTTTTTGTCGTTGGCGGCGGCGGCGGCGGCGGCAGC
GGCGGAGCAGCAGGTCCCGCTGGTGCTGTGGTCGAGTGACCGGTGAGCGGGCCGGGGTGG
GATGCGCTGTGGCGGCTGAGGCGCCCTCGCCCGACTCCGGCGCTGTCCTAGGCGAGGGGT
GGTGAGGCCCGGAGGTGGACTGTTCCTTGCTCGGGGGCTCGCAGCGAATCTGCCGGCGAC
AGAGCTCCAGTCCACATGCGCCCCCGTCTGACAGCACCTCTTCTGTGCCCTGCCAGGGAC
TTGTGGGCTCCTGCGGCCGACACTCATGAAGGCCACATCACCAGCGACTTGCAGCTCTCT
ACCTACTTAGATCCCGCCCTGGAGCTGGGTCCCAGGAATGTGCTGCTGTTCCTGCAGGAC
AAGGTGCGCCCGCCCCAGCCCACTCTCCCCCGGTCATCGGGAGGCAGCCAGGCCCCCTCC
CCCCATGACACTGACGCCCATTCCCCAAGGGAAGCTTCAGTGACCTTGTCCCAACTGTAG
GGAGGTGTGGGTCGTCTCATGGGAAGGCCTGTAGTAAACGCTTCAGTGGGCATGGCGACA
GCCTCGGAAATGGCACCAACTTGATTGGAGGAAGCGACGGACCAGAGGCCAGGTACCTAC
TGAGTACCAAGCACTTTGGATATCTGACTTAGTCCAATATGGTGGGTGGGGATTATCGTC
[…]
Formato FASTA (esempio)
>X dna:chromosome chromosome:GRCh38:X:154428632:154436516:1
GGGGGCAACGGTCACCTGATCTGCGGCTGTCGAGGCCGCTGAGGCAGTGGAGGCTGAGGC
TATGATGGCGGCCATGGCGACGGCTCGAGTGCGGATGGGGCCGCGGTGCGCCCAGGCGCT
CTGGCGCATGCCGTGGCTGCCGGTGTTTTTGTCGTTGGCGGCGGCGGCGGCGGCGGCAGC
GGCGGAGCAGCAGGTCCCGCTGGTGCTGTGGTCGAGTGACCGGTGAGCGGGCCGGGGTGG
GATGCGCTGTGGCGGCTGAGGCGCCCTCGCCCGACTCCGGCGCTGTCCTAGGCGAGGGGT
GGTGAGGCCCGGAGGTGGACTGTTCCTTGCTCGGGGGCTCGCAGCGAATCTGCCGGCGAC
La sequenza viene di solito spezzata in parti di 60/80 caratteri
AGAGCTCCAGTCCACATGCGCCCCCGTCTGACAGCACCTCTTCTGTGCCCTGCCAGGGAC
TTGTGGGCTCCTGCGGCCGACACTCATGAAGGCCACATCACCAGCGACTTGCAGCTCTCT
ACCTACTTAGATCCCGCCCTGGAGCTGGGTCCCAGGAATGTGCTGCTGTTCCTGCAGGAC
AAGGTGCGCCCGCCCCAGCCCACTCTCCCCCGGTCATCGGGAGGCAGCCAGGCCCCCTCC
CCCCATGACACTGACGCCCATTCCCCAAGGGAAGCTTCAGTGACCTTGTCCCAACTGTAG
GGAGGTGTGGGTCGTCTCATGGGAAGGCCTGTAGTAAACGCTTCAGTGGGCATGGCGACA
GCCTCGGAAATGGCACCAACTTGATTGGAGGAAGCGACGGACCAGAGGCCAGGTACCTAC
TGAGTACCAAGCACTTTGGATATCTGACTTAGTCCAATATGGTGGGTGGGGATTATCGTC
[…]
Cos’è un gene?
Entrambe le catene del DNA genomico contengono
geni.
5’
3’
strand + (forward)
3’
strand - (reverse) 5’
Cos’è un gene?
Entrambe le catene del DNA genomico contengono
geni.
5’
strand + (forward)
3’
3’
strand - (reverse) 5’
Genoma umano è circa 25000 geni codificanti
Tutte le cellule di un organismo contengono l’intero set di
geni dell’organismo
Espressione di un gene
locus genico
5’
3’
3’
5’
Espressione di un gene
locus genico
5’
3’
Espressione di un gene
locus genico
5’
exon 1
intron1
exon 2
Esone = regione codificante
Introne = regione non-codificante
intron2
exon 3
3’
Espressione di un gene
locus genico
5’
exon 1
intron1
exon 2
intron2
5’ splice site
3’ splice site
(confine esone-introne) (confine introne-esone)
Esone = regione codificante
Introne = regione non-codificante
exon 3
3’
Espressione di un gene
locus genico
5’
exon 1
intron1
exon 2
intron2
exon 3
3’
intron2
exon 3
3’
TRASCRIZIONE (in un RNA)
pre-mRNA
5’
exon 1
intron1
exon 2
Espressione di un gene
locus genico
5’
exon 1
intron1
exon 2
intron2
exon 3
3’
intron2
exon 3
3’
TRASCRIZIONE (in un RNA)
pre-mRNA
5’
exon 1
intron1
exon 2
Il pre-mRNA è la copia
della sequenza di DNA
genomico con la
sostituzione di T con U
Espressione di un gene
locus genico
5’
exon 1
intron1
exon 2
intron2
exon 3
3’
intron2
exon 3
3’
TRASCRIZIONE (in un RNA)
pre-mRNA
5’
exon 1
intron1
exon 2
SPLICING
mRNA
exon 1
exon 2
exon 3
trascritto
Espressione di un gene
locus genico
5’
exon 1
intron1
exon 2
intron2
exon 3
3’
intron2
exon 3
3’
TRASCRIZIONE (in un RNA)
pre-mRNA
5’
exon 1
intron1
exon 2
SPLICING
mRNA
trascritto
coding sequence (CDS)
AUG………[stop]
start codon
stop codon
UAG
[stop] UAA
UGA
Espressione di un gene
locus genico
5’
exon 1
exon 2
intron1
intron2
exon 3
3’
intron2
exon 3
3’
TRASCRIZIONE (in un RNA)
pre-mRNA
5’
exon 1
intron1
exon 2
SPLICING
mRNA
coding sequence (CDS)
trascritto
AUG………[stop]
5’ UTR
3’ UTR
UAG
[stop] UAA
UGA
Espressione di un gene
mRNA
coding sequence (CDS)
trascritto
AUGCCAAGCGAUUAG
La CDS viene suddivisa in triplette
(codoni) e ogni codone viene mappato a
un aminoacido attraverso il codice genetico.
Codice genetico da Wikipedia
Espressione di un gene
mRNA
coding sequence (CDS)
trascritto
AUGCCAAGCGAUUAG
Proteina:
Met
Codice genetico da Wikipedia
Espressione di un gene
mRNA
coding sequence (CDS)
trascritto
AUGCCAAGCGAUUAG
Proteina:
Met Pro
Codice genetico da Wikipedia
Espressione di un gene
mRNA
coding sequence (CDS)
trascritto
AUGCCAAGCGAUUAG
Proteina:
Met Pro Ser
Codice genetico da Wikipedia
Espressione di un gene
mRNA
coding sequence (CDS)
trascritto
AUGCCAAGCGAUUAG
Proteina:
Met Pro Ser Asp
Codice genetico da Wikipedia
Espressione di un gene
mRNA
coding sequence (CDS)
trascritto
AUGCCAAGCGAUUAG
Met Pro Ser Asp [stop]
Codice genetico da Wikipedia
Pattern di un introne
5’
exon 1
exon 2
3’
exon 3
Introne canonico
GT
99.24 %
AG
Introni non canonici
0.69 %
GC
AT
AG
0.05 %
ALTRO
Burset et al., Nucleic Acids Res. 2000, 28:4363-4375
AC
0.02 %
Espressione di un gene
Numero dei geni umani: 25000 circa
Numero delle proteine umane: centinaia di migliaia
La corrispondenza 1 a 1 non è rispettata. Perché?
Espressione di un gene
Numero dei geni umani: 25000 circa
Numero delle proteine umane: centinaia di migliaia
La corrispondenza 1 a 1 non è rispettata. Perché?
ALTERNATIVE SPLICING (AS)
è un gene è in grado di esprimere una molteplicità di trascritti
Perché AS è importante?
ü 
AS avviene nel 40-60% dei geni umani
(Modrek and Lee, 2002)
Perché AS è importante?
ü 
ü 
AS avviene nel 40-60% dei geni umani
(Modrek and Lee, 2002)
AS è specifico al tessuto in cui si trova la
cellula (Graveley, 2001)
Perché AS è importante?
ü 
ü 
ü 
AS avviene nel 40-60% dei geni umani
(Modrek and Lee, 2002)
AS è specifico al tessuto in cui si trova la
cellula (Graveley, 2001)
AS è specifico alle condizioni in cui si
trova la cellula (es. stadio di sviluppo)
Perché AS è importante?
ü 
ü 
ü 
ü 
AS avviene nel 40-60% dei geni umani
(Modrek and Lee, 2002)
AS è specifico al tessuto in cui si trova la
cellula (Graveley, 2001)
AS è specifico alle condizioni in cui si
trova la cellula (es. stadio di sviluppo)
AS è specifico allo “stato di salute” in cui si
trova la cellula (correlazione con malattie)
Alternative Splicing (AS)
Gene1
mRNAref
5’
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
3’
Alternative Splicing (AS)
Gene1
5’
mRNAref
mRNA1
exon 1’
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’’
intron retention
3’
Alternative Splicing (AS)
Gene1
5’
mRNAref
mRNA1
mRNA2
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon skipping
exon 3
3’
Alternative Splicing (AS)
Gene1
5’
mRNAref
mRNA1
mRNA2
mRNA3
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon 1’’’
5’ competing sites
exon 3
exon 2
exon 3
3’
Alternative Splicing (AS)
Gene1
5’
mRNAref
mRNA1
mRNA2
mRNA3
mRNA4
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon 1’’’
exon 1
exon 3
exon 2
exon 2
exon 3
exon 3’
3’ competing sites
3’
Alternative Splicing (AS)
Gene2
mRNAref
5’
exon 1
exon 2
exon 3
exon 4
exon 1
exon 2
exon 3
exon 4
3’
Alternative Splicing (AS)
Gene2
5’
exon 1
exon 2
exon 3
exon 4
mRNAref
exon 1
exon 2
exon 3
exon 4
mRNA1
exon 1
exon 3
exon 4
mRNA2
exon 1
exon 2
exon 4
3’
Alternative Splicing (AS)
Gene2
5’
exon 1
exon 2
exon 3
exon 4
mRNAref
exon 1
exon 2
exon 3
exon 4
mRNA1
exon 1
exon 3
exon 4
mRNA2
exon 1
exon 2
exon 4
mutually exclusive exons
3’
Alternative Splicing (AS)
Gene2
5’
exon 1
exon 2
exon 3
exon 4
mRNAref
exon 1
exon 2
exon 3
exon 4
mRNA1
exon 1
exon 3
exon 4
mRNA2
exon 1
exon 2
mRNA3
exon 1
exon 2
exon 4
exon 3
exon 4
multiple poly(A) sites
3’
Alternative Splicing (AS)
Gene2
5’
exon 1
exon 2
exon 3
exon 4
mRNAref
exon 1
exon 2
exon 3
exon 4
mRNA1
exon 1
exon 3
exon 4
mRNA2
exon 1
exon 2
mRNA3
exon 1
exon 2
exon 3
exon 2
exon 3
mRNA4
exon 1
multiple promoters
exon 4
exon 4
exon 4
3’
Alternative Splicing (AS)
Gene2
5’
exon 1
exon 2
exon 3
exon 4
mRNAref
exon 1
exon 2
exon 3
exon 4
mRNA1
exon 1
exon 3
exon 4
mRNA2
mRNA3
mRNA4
1
exon 2che il gene è in
Isoformaexon
= trascritto
(mRNA)
grado di esprimere
exon 1
exon 1
exon 2
exon 3
exon 2
exon 3
multiple promoters
exon 4
exon 4
exon 4
3’
Alternative Splicing (AS)
Gene2
5’
exon 1
exon 2
exon 3
exon 4
mRNAref
exon 1
exon 2
exon 3
exon 4
mRNA1
exon 1
exon 3
exon 4
mRNA2
mRNA3
mRNA4
2
Isoformaexon
= 1proteina che il exon
gene
è in grado di
produrre
exon 1
exon 1
exon 2
exon 3
exon 2
exon 3
multiple promoters
exon 4
exon 4
exon 4
3’
Problema computazionale di
Alternative Splicing
In Bioinformatica
si ha la necessità di algoritmi e tools per
ü 
ü 
ü 
predire la struttura in esoni-introni di un gene
predire le isoforme alternative
quantificare le isoforme alternative
Dati importanti…
Dati fondamentali in Bioinformatica sono i dati
ottenuti dal sequenziamento di trascritti (mRNA)
che prendono il nome di:
q  EST (Expressed Sequence Tag) se ottenuti
con metodo (tradizionale) Sanger
q  RNA-seq se ottenuti tramite tecnologie NGS
EST vs RNA-seq
Metodo Sanger
Metodi NGS
ð Piuttosto costoso
(centinaia di milioni di
dollari per Human Genome
Project)
ð Poco costosi (attorno al
milione di dollari per
sequenziare il genoma
umano)
ð  Processa pochissimi
reads in un run (copertura
relativamente bassa)
ð  Processano tanti reads in
un run (milioni) (copertura da
10 a 100 volte superiore
quella Sanger)
ð  Lunghezza dei reads fino
a 1000 bp
ð Qualità elevata
ð Lunghezza relativamente
bassa
ð Qualità relativamente bassa
EST vs RNA-seq
Metodo Sanger
Metodi NGS
ð Piuttosto costoso
(centinaia di milioni di
dollari per Human Genome
Expressed Sequence Tag (EST)
Project)
ð Poco costosi (attorno al
milione di dollari per
sequenziare il genoma
umano)
ð  Processa pochissimi
reads in un run (copertura
relativamente bassa)
ð  Processano tanti reads in
un run (milioni) (copertura da
10 a 100 RNA-seq
volte superiore
quella Sanger)
ð  Lunghezza dei reads fino
a 1000 bp
ð Qualità elevata
ð Lunghezza relativamente
bassa
ð Qualità relativamente bassa
Risorse dati in Bioinformatica
Risorse a disposizione
ü 
ü 
ü 
ü 
Banche dati genomiche
Browser Genomici
Sistemi integrati
Software tools
Banche dati genomiche
Scopo:
archiviare e diffondere i dati ottenuti da esperimenti
biologici
Oggetti contenuti (entries):
ü 
ü 
ü 
ü 
sequenze nucleotidiche (DNA, RNA)
ü  Geni
ü  trascritti
ü  Expressed Sequence Tag (EST)
proteine
strutture proteiche 3D
etc…
Banche dati genomiche
ü 
ü 
Non è detto che siano DB relazionali
L’entry è identificata univocamente da un ID
(Accession Number) e di solito è un file di puro testo:
ü 
ü 
ü 
human-readable
facile da sottoporre a parsing (con Ruby, Perl, Python,
etc.)
Due tipi principali di banche:
ü 
primarie
ü 
ü 
oggetti di tipo eterogeneo archiviati con un minimo di
informazione (ad esempio sequenze nucleotidiche)
specializzate:
ü 
oggetti omogenei per tassonomia, funzione, etc. (ad
esempio frammenti di trascritto)
Banche dati genomiche
Le “storiche” banche primarie di sequenze nucleotidiche
sono:
EMBL Data Bank
ü 
sviluppata da EMBL-EBI (European Bioinformatics Institute,
parte dell’European Molecular Biology Laboratory, EMBL)
ü 
formato entry file: EMBL
ü 
http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/
Banche dati genomiche
Le “storiche” banche primarie di sequenze nucleotidiche
sono:
EMBL Data Bank
ü 
sviluppata da EMBL-EBI (European Bioinformatics Institute,
parte dell’European Molecular Biology Laboratory, EMBL)
ü 
formato entry file: EMBL
ü 
http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/
GenBank
ü 
sviluppata da NCBI (National Center for Biotechnology
Information, USA)
ü 
formato entry file: GenBank
ü 
http://www.ncbi.nlm.nih.gov/Genbank/index.html
Banche dati genomiche
Le “storiche” banche primarie di sequenze nucleotidiche
sono:
DDBJ DNA Data Bank of Japan
ü 
sviluppata dal National Institute of Genetics in Mishima
ü 
formato entry file: GenBank
ü 
http://www.ddbj.nig.ac.jp/
Banche dati genomiche
Le “storiche” banche primarie di sequenze nucleotidiche
sono:
DDBJ DNA Data Bank of Japan
ü 
sviluppata dal National Institute of Genetics in Mishima
ü 
formato entry file: GenBank
ü 
http://www.ddbj.nig.ac.jp/
La stessa sequenza nucleotidica è identificata in queste
tre banche dallo stesso Accession Number
Banche dati genomiche
Esercizio
q 
Recuperare la sequenza con Accession Number M10051 da
EMBL (http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/); scaricarla sia in
formato EMBL che in formato FASTA
Banche dati genomiche
Una banca specializzata…
UniGene
ü 
banca di trascritti (EST e mRNA)
ü 
mette a disposizione i trascritti raggruppati in cluster. Ogni
cluster riguarda un gene e un organismo
ü 
sviluppata da NCBI (National Center for Biotechnology
Information, USA)
ü 
formato entry file: FASTA
ü 
http://www.ncbi.nlm.nih.gov/unigene
Browser genomici
Database che conservano i dati relativi a interi genomi e
mettono a disposizione dell’utente un’interfaccia sofisticata
per esplorarli
Ensembl
ü 
sviluppato da EMBL-EBI + Wellcome Trust Sanger Institute
ü 
http://www.ensembl.org
UCSC Genome Browser
ü 
sviluppato da University of California Santa Cruz
ü 
http://genome.ucsc.edu/
Sistemi integrati
Sistemi per interrogare contemporaneamente più
banche dati
Entrez
ü 
ü 
sviluppato da NCBI (National Center for Biotechnology
Information, USA)
http://www.ncbi.nlm.nih.gov/gquery