Bioinformatica Lo sviluppo delle Biotecnologie, che negli ultimi venti anni ha consentito di elevare la moderna biologia a "Big Science", e delle Scienze dell’Informazione, hanno introdotto nei settori delle moderne scienze biologiche una nuova branca di ricerca: la Bioinformatica. (Valle et al., 2003) Scienza osservativa o deduttiva? La Bioinformatica nasce agli inizi degli anni ‘80 in concomitanza con lo sviluppo dei sequenziamento rapido degli acidi nucleici metodi di Tecnologie del DNA ricombinante Sequenziamento degli acidi nucleici strumenti informatici per l’immagazzinamento e la caratterizzazione dei dati. Una grande quantità di dati • Databases 1.6 × 1010 base pairs (16 Gbp) • Genoma umano 3.2 Gbp HUman Genome EquivalentS (huges) 2.5 volte il genoma umano Grande quantità di dati Traguardi immaginabili: • Comprendere gli aspetti integrativi della biologia degli organismi • Correlare la sequenza, la struttura, le interazioni e le funzioni di biomolecole e loro complessi • Usare dati contemporanei per dedurre eventi evoluzionistici e prevedere future modificazioni • Dare precise indicazioni per la progettazione di molecole bioattive (industria, agricoltura, medicina…) Il nuovo dogma Sequenza Struttura Funzione Archivi di dati • Banche dati o basi di dati? Databank / Database • Messa a punto dei sistemi idonei per collezionare e interrogare l'enorme mole di dati biologici disponibili. Archivi di dati • • • • Archivi di informazioni biologiche Archivi di informazioni derivate Archivi bibliografici Archivi di siti web Archivi di dati • Archivi di informazioni biologiche – Sequenze annotate – Strutture – Pattern di espressione di proteine Archivi di dati • Archivi di informazioni biologiche • Archivi di informazioni derivate – Patterns, signature, consensus motifs – Mutazioni e varianti – Classificazioni o relazioni (es. classificazione gerarchica della struttura di proteine) Archivi di dati • Archivi di informazioni biologiche • Archivi di informazioni derivate • Archivi bibliografici – Tutti i riferimenti bibliografici con link al pdf, se consentito Archivi di dati • • • • Archivi di informazioni biologiche Archivi di informazioni derivate Archivi bibliografici Archivi di siti web – Archivi degli archivi di cui sopra – Collegamenti tra archivi Cosa possiamo chiedere al database? • Data una sequenza, trovare sequenze simili (string matching) • Data la struttura di una proteina, trovare strutture simili • Data una sequenza, trovare strutture simili • Data una struttura, trovare sequenze che hanno strutture simili The World Wide Web Client-server Le principali infrastrutture • EBI, il laboratorio Europeo di Bioinformatica, http://www.ebi.ac.uk • NCBI, il National Center of Biotechnology Information, http://www.ncbi.nlm.nih.gov • ExPASy, Expert Protein Analysis System, http://www.expasy.org Quali gli aspetti rilevanti dell’era post-genomica? STUDI DI GENOMICA FUNZIONALE Caratterizzazione funzionale dei geni Umani e degli altri organismi modello mediante lo studio del TRASCRITTOMA e del PROTEOMA Quali gli aspetti rilevanti dell’era post-genomica? GENOMICA Analisi COMPARATA comparativa fra i genomi a supporto della Genomica Funzionale Quali gli aspetti rilevanti dell’era post-genomica? FARMACOGENOMICA Lo studio dell’influenza dell’eredità genetica sulla risposta al farmaco da parte di ciascun individuo. Why do similarity search? • Similarity indicates conserved function • Human and mouse genes are more than 80% similar at sequence level • But these genes are small fraction of genome • Most sequences in the genome are not recognizably similar • Comparing sequences helps us understand function – Locate similar gene in another species to understand your new gene – Rosetta stone Issues to consider • Dealing with gaps – Do we want gaps in alignment? – What are disadvantages of • Many small gaps? • Some big gaps? Warning: similarity not transitive! • If 1 is “similar” to 2, and 3 is “similar” to 2, is 1 similar to 3? • Not necessarily – AAAAAABBBBBB is similar to AAAAAA and BBBBBB – But AAAAAA is not similar to BBBBBB • “not transitive unless alignments are overlapping” Summary • Why are biological sequences similar to one another? – Start out similar, follow different paths • Knowledge of how and why sequences change over time can help you interpret similarities and differences between them BLAST • Basic Local Alignment Search Tool • Algorithm for comparing a given sequence against sequences in a database • A match between two sequences is an alignment • Many BLAST databases and web services available Example BLAST questions • Which bacterial species have a protein that is related in lineage to a protein whose amino-acid sequence I know? • Where does the DNA I’ve sequenced come from? • What other genes encode proteins that exhibit structures similar to the one I’ve just determined? Global vs. Local • Global – both sequences aligned along entire lengths • Local – best subsequence alignment found • Global alignment of two genomic sequences may not align exons • Local alignment would only pick out maximum scoring exon BLAST Overview • Three heuristic layers: seeding, extension, and evaluation • Seeding – identify where to start alignment • Extension – extending alignment from seeds • Evaluation – Determine which alignments are statistically significant