Bioinformatica
Lo sviluppo delle Biotecnologie, che negli ultimi venti anni ha
consentito di elevare la moderna biologia a "Big Science", e delle
Scienze dell’Informazione, hanno introdotto nei settori delle
moderne scienze biologiche una nuova branca di ricerca: la
Bioinformatica.
(Valle et al., 2003)

Scienza osservativa o deduttiva?
La Bioinformatica nasce agli inizi degli anni ‘80 in
concomitanza
con
lo
sviluppo
dei
sequenziamento rapido degli acidi nucleici
metodi
di
Tecnologie del DNA ricombinante
Sequenziamento degli acidi nucleici
strumenti informatici per
l’immagazzinamento e la
caratterizzazione dei dati.
Una grande quantità di dati
• Databases 1.6 × 1010 base pairs (16 Gbp)
• Genoma umano 3.2 Gbp
HUman Genome EquivalentS (huges)
2.5 volte il genoma umano
Grande quantità di dati
Traguardi immaginabili:
• Comprendere gli aspetti integrativi della biologia
degli organismi
• Correlare la sequenza, la struttura, le interazioni
e le funzioni di biomolecole e loro complessi
• Usare dati contemporanei per dedurre eventi
evoluzionistici e prevedere future modificazioni
• Dare precise indicazioni per la progettazione di
molecole bioattive (industria, agricoltura,
medicina…)
Il nuovo dogma
Sequenza
Struttura
Funzione
Archivi di dati
• Banche dati o basi di dati?
Databank / Database
• Messa a punto dei sistemi idonei per
collezionare e interrogare l'enorme mole
di dati biologici disponibili.
Archivi di dati
•
•
•
•
Archivi di informazioni biologiche
Archivi di informazioni derivate
Archivi bibliografici
Archivi di siti web
Archivi di dati
• Archivi di informazioni biologiche
– Sequenze annotate
– Strutture
– Pattern di espressione di proteine
Archivi di dati
• Archivi di informazioni biologiche
• Archivi di informazioni derivate
– Patterns, signature, consensus motifs
– Mutazioni e varianti
– Classificazioni o relazioni
(es. classificazione gerarchica della struttura
di proteine)
Archivi di dati
• Archivi di informazioni biologiche
• Archivi di informazioni derivate
• Archivi bibliografici
– Tutti i riferimenti bibliografici con link al
pdf, se consentito
Archivi di dati
•
•
•
•
Archivi di informazioni biologiche
Archivi di informazioni derivate
Archivi bibliografici
Archivi di siti web
– Archivi degli archivi di cui sopra
– Collegamenti tra archivi
Cosa possiamo chiedere al database?
• Data una sequenza, trovare sequenze
simili (string matching)
• Data la struttura di una proteina, trovare
strutture simili
• Data una sequenza, trovare strutture
simili
• Data una struttura, trovare sequenze che
hanno strutture simili
The World Wide Web
Client-server
Le principali infrastrutture
• EBI, il laboratorio Europeo di
Bioinformatica, http://www.ebi.ac.uk
• NCBI, il National Center of
Biotechnology Information,
http://www.ncbi.nlm.nih.gov
• ExPASy, Expert Protein Analysis System,
http://www.expasy.org
Quali gli aspetti rilevanti
dell’era post-genomica?
 STUDI
DI GENOMICA FUNZIONALE
 Caratterizzazione
funzionale dei geni
Umani e degli altri organismi modello
mediante lo studio del TRASCRITTOMA
e del PROTEOMA
Quali gli aspetti rilevanti
dell’era post-genomica?
 GENOMICA
 Analisi
COMPARATA
comparativa fra i genomi a
supporto della Genomica Funzionale
Quali gli aspetti rilevanti
dell’era post-genomica?
 FARMACOGENOMICA
 Lo
studio dell’influenza dell’eredità
genetica sulla risposta al farmaco da
parte di ciascun individuo.
Why do similarity search?
• Similarity indicates conserved function
• Human and mouse genes are more than 80%
similar at sequence level
• But these genes are small fraction of genome
• Most sequences in the genome are not
recognizably similar
• Comparing sequences helps us understand
function
– Locate similar gene in another species to
understand your new gene
– Rosetta stone
Issues to consider
• Dealing with gaps
– Do we want gaps in alignment?
– What are disadvantages of
• Many small gaps?
• Some big gaps?
Warning: similarity not transitive!
• If 1 is “similar” to 2, and 3 is “similar” to 2,
is 1 similar to 3?
• Not necessarily
– AAAAAABBBBBB is similar to AAAAAA and
BBBBBB
– But AAAAAA is not similar to BBBBBB
• “not transitive unless alignments are
overlapping”
Summary
• Why are biological sequences similar to
one another?
– Start out similar, follow different paths
• Knowledge of how and why sequences
change over time can help you interpret
similarities and differences between them
BLAST
• Basic Local Alignment Search Tool
• Algorithm for comparing a given sequence
against sequences in a database
• A match between two sequences is an
alignment
• Many BLAST databases and web services
available
Example BLAST questions
• Which bacterial species have a protein
that is related in lineage to a protein
whose amino-acid sequence I know?
• Where does the DNA I’ve sequenced
come from?
• What other genes encode proteins that
exhibit structures similar to the one I’ve
just determined?
Global vs. Local
• Global – both sequences aligned along
entire lengths
• Local – best subsequence alignment
found
• Global alignment of two genomic
sequences may not align exons
• Local alignment would only pick out
maximum scoring exon
BLAST Overview
• Three heuristic layers: seeding, extension,
and evaluation
• Seeding – identify where to start alignment
• Extension – extending alignment from
seeds
• Evaluation – Determine which alignments
are statistically significant