Bioinformatica e Banche Dati Biologiche Alberto Ferrarini 1 Il corso – Orari Teoria Giovedì dalle 15:30 alle 17:30 – Aula D Laboratorio Giovedì dalle 11:30 alle 14:30 – Laboratorio Alfa 2 Modalità esame • Viene effettuato un unico esame comprendente domande di teoria e di laboratorio. Viene prodotto un unico voto complessivo. • Per gli studenti del CdL di Biotecnologie, la verbalizzazione del voto del corso “Bioinformatica e Banche dati biologiche” verrà effettuata dal docente di Bioinformatica e banche dati biologiche (6 crediti). • Per gli studenti del CdL di Bioinformatica, il voto complessivo del modulo “Biochimica - LABORATORIO DI BIOINFORMATICA I” farà poi media col modulo “Elementi di Biochimica” della Prof.ssa Paola Dominici che verbalizzerà il voto complessivo (12 crediti). 3 Il corso - programma • Introduzione – Concetti di base – L’informazione biologica – Perche’ la bioinformatica • Banche dati biologiche – – – – Acquisizione di dati scientifici Interrogazione di banche dati in rete Banche dati di sequenze e strutture di acidi nucleici e proteine Classificazioni delle strutture proteiche: SCOP, CATH. • Allineamento di sequenze – – – – Matrici a punti e algoritmi di allineamento Matrici di punteggio (PAM e Blosum) Algorimi dinamici di allineamento: NW, SW Ricerca in banche dati con singola sequenza: BLAST 4 Il corso - programma • Allineamento multiplo di sequenze – Alberi filogenetici – Ricerche in banche dati con allineamenti multipli, CLUSTALW • Introduzione alla Bioinformatica Strutturale – Visualizzazione di strutture di proteine, acidi nucleici e complessi; riconoscimento di motivi strutturali – Predizione di strutture secondarie dalle sequenza • Introduzione alla genomica – Concetti di base (dogma centrale, trascrizione, ecc) – Banche dati di dati genetici – Genome Browser (Ensembl, UCSC, NCBI e IGV) 5 Materiale del corso (teoria) • Il materiale del corso verrà caricato in formato PDF sulla pagina web: • http://ddlab.sci.univr.it/alberto/bioinformatica/ 6 Cos’è la bioinformatica • La bioinformatica è una disciplina scientifica dedicata alla risoluzione di problemi biologici a livello molecolare con metodi informatici. • Descrive fenomeni biologici in modo numerico/statistico • La bioinformatica principalmente – fornisce modelli per l'interpretazione di dati provenienti da esperimenti di biologia al fine di identificare tendenze e leggi numeriche – genera nuovi strumenti matematici per l'analisi di dati biologici (sequenze di DNA, RNA e proteine, ….). – organizza le conoscenze acquisite in basi di dati al fine di rendere tali dati accessibili 8 Cos’è la bioinformatica • Condivide alcuni argomenti con: – Biologia computazionale: • Integra l’approccio di laboratorio con risultati sperimentali in silico, ottenuti quindi per mezzo di metodi informatici a partire da dati biologici. – Genomica computazionale: • disciplina della biologia computazionale dedicata allo studio del genoma tramite metodologie bioinformatiche e statistiche. 9 Il flusso dell’informazione biologica • Ad ogni livello di organizzazione (da interazioni fra biomolecole fino a cellule, organismi, popolazioni) l’elemento unificante e’ l’EVOLUZIONE, unico vero fondamento teorico della disciplina 10 Evoluzione • EVOLUZIONE: adattamento progressivo attraverso variabilita’ genetica casuale e selezione naturale (Darwin, 1859) • Ad ogni livello biologico, il fenotipo (insieme di tratti e caratteri somatici) e’ codificato dal genotipo (il patrimonio genetico) • Genotipo: sorgente primaria di variazione genetica; fenotipo: bersaglio della selezione naturale • Il genotipo e’ conservato nel genoma (fatto di DNA, eccezion fatta per virus a RNA) 11 The central dogma of molecular biology DNA Replication RNA Transcription Translation PROTEIN Genes are transcribed from DNA into mRNA, which leaves the nucleus and is translated to protein. A gene actively transcribed is said to be 12 expressed. Struttura degli acidi nucleici sono poliesteri composti da nucleotidi (composti da una base azotata, uno zucchero 2’-deossi-ribosio (o ribosio in RNA) e un gruppo fosforico) 13 http://www.molecularstation.com/molecular-biology-images/502-dna-pictures/5-the-chemical-structure-of-dna.html DNA base pairing Guanine - Citosine Adenine - Timine The monomeric units of nucleic acids are called nucleotides. A nucleotide is a phospate, a sugar, and a purine or a pyramidine base. 14 DNA replication New strands of DNA are copied from parental DNA creating a complementary template DNA. In the replication of double-stranded or duplex DNA molecule, both parental DNA strands are copied. The transcription direction on different strands is opposite. asimmetric transcription. When copying is finished, the two new duplexes, each consisting of one of the original strands plus its copy, separate from each other. 15 DNA replication Synthesis by DNA polymerases proceeds from 5’ to 3’. Replication is performed by a “collaboration” of many proteins like helicases, primases, ligases, topoisomerases and DNA polimerases. 16 La struttura dei geni Un gene si trova in una precisa porzione fisica del genoma (locus genico) In un gene le Open Reading Frames (parti di DNA/RNA codificanti) si trovano comprese fra il codone d'inizio e il codone di stop. Il genoma eucariotico contiene porzioni non codificanti importanti per la regolazione (promotori, enhancers) e per la costituzione (introni, sequenze ripetute).Lo splicing (“saldatura”) prepara il pre-mRNA per la traduzione 17 L’RNA • L’RNA e’ meno stabile ma piu’ versatile del DNA; e’ scarsamente reattivo (meglio per conservare l’informazione) e assume strutture 3D anche molto complesse • ne esistono diverse forme: mRNA, tRNA, rRNA e piccoli RNA; cio’ e’ fondamentale per la trasmissione dell’informazione genetica http://www.accessexcellence.org/RC/VL/GG/protein_synthesis.php •Il codice genetico e’ degenere 18 (eccezioni: codoni di Met e Trp) RNA transcription • 1 prokariotic RNA polymerase • 3 different RNA polymerases in eukariotes: – RNA polymerase I: transcribes large ribosomal RNA precursor gene – RNA polymerase II: protein coding genes – RNA polymerase III: tRNA genes, some snRNAs, ribosomal RNAs (5S) 19 RNA trancription • 3 steps in RNA transcription: – Initiation: • DNA-dependent RNA polymerase requires a promoter and upstream regulatory regions. 20 RNA polymerase associate to trancription factors (TFIIA – TFIIH) RNA pol II TF II E TF II A TBP TAF TATA TF II B TF II H DNA •TFIIH phosphorilates the RNA pol which moves downstream, starting the elongation phase. •RNA polymerase initiate the transcription from the start site in the template DNA upstream of the coding sequence. 21 Elongation 22 Termination • The termination sequence is AATAAA followed by GT repeat 23 Regulation of trancription • Expression is regulated through multiple transcriptional control regions • Regulatory elements may be located at kilobases from start sites. • Repressors bind to operators overlapping the promoter regions • Activators bind on the opposite strand of the polymerase • Enhancers may be up to kilobases upstream or downstream the start codon and can be inside an intron. 24 Modification of heteronuclear RNA • Capping at 5’-end • Tailing at 3’-end • mRNA splicing • RNA editing 25 5’-end capping •The 5’ cap is recognized by cap binding protein prior to translation. •Performed prior to splicing. •The 5’-capping process takes place in the nucleus. Triphosphate bridge 7-methylguanosine 26 Poly-A tailing • The tailing process occurs prior to splicing • The tailing process takes place in the nucleus • A oligo consisting of all adenine nucleotides (a poly-A tail) is added to the 3’ end of the mRNA after transcript 27 mRNA splicing Intron 1 Intron 2 Intron 3 DNA Exon 1 Exon 2 Exon 3 Exon 4 Exon 2 Exon 3 Exon 4 Primary transcripts Exon 1 Mature mRNA Exon 1 UTR 5’ Exon 2 Exon 3 CDS Exon 4 UTR 3’ 28 Untranslated regions are present at both the 5’ and the 3’ end of the mRNA Splicing mechanism 29 Alternative splicing Exon 1 Exon 2 Exon 3 Exon 4 Multiple spliced transcripts encoding different proteins can be produced from the same primary transcript Exon 1 Exon 2 Exon 3 Exon 4 Exon 1 Exon 2 Exon 4 30 RNA editing • Takes place at transcription level. • One genes can produce more than one protein • Editing by deamination: – C to U editing – A to I editing • Can also cause cleavage by nucleases 31 Regioni ripetute del genoma http://carolguze.com/text/442-1-humangenome.shtml 32 Mutazioni Le mutazioni puntiformi (singola base sostituita da un’altra) sono comuni (errori occasionali nella duplicazione, fattori ambientali come radiazione UV o sostanze chimiche). Alcune importanti tipologie (non tutte): • mutazioni silenti o sinonime (conservative): l’a.a. codificato non e’ modificata (es. CUU, CUC -> Leu) • mutazioni missenso: l’a.a. codificato cambia. Puo’ essere neutra (es. SNP, polimorfismi a singolo nucleotide) o no: la natura dell’ a.a. e’ molto diversa. Possibili conseguenze sulla fitness per destabilizzazione della struttura proteica. Puo’ anche essere neutrale e fissarsi nelle generazioni successive • mutazioni nonsenso: la mutazione introduce un codone di stop (stop!!) UGC –>UGA • inserzioni/delezioni (indel): errori in fase di duplicazione; a multipli di 3 (inserzione o delezione di una tripletta) non alterano la fase di lettura di una ORF 33 Esempio: anemia falciforme Glu 6 Val L’emoglobina diventa meno solubile; precipita; cio’ si ripercuote sul fenotipo cellulare 34 Translation Translation takes place in the cytoplasm. Triplets of nucleic acids (codons) code for different aminoacids. Translation starts from start codon (AUG) and stops at stop codons. Ribosomes translate the mRNA into proteins. Growing protein tRNA TAC CCT GTA ATG GGA CAT 35 Le proteine • Sono il risultato del flusso dell’informazione genetica • La presenza di 20 amminoacidi naturali con proprieta’ chimico-fisiche diverse conferisce una variabilità enorme Il codice a una e tre lettere degli amminoacidi VA SAPUTO A MEMORIA ! 36 Il legame peptidico crea il backbone di qualunque proteina http://en.wikipedia.org/wiki/File:Amino_Acids.svg La proteina è come un filamento di luci di natale: il backbone è il filo elettrico e le luci colorate le varie catene laterali 37 La struttura di una proteina si organizza in 4 livelli, visibili “srotolando” la matassa della luce di natale: 38 La struttura 3D di una proteina e’ molto complessa La determinazione della struttura 3D di proteine e’ un settore di ricerca molto attivo, come mostra la crescita esponenziale di strutture depositate nel Protein Data Bank 39 L’organizzazione strutturale delle proteine e’ancora piu’ complessa: Si identificano motivi strutturali e domini, inoltre cofattori, gruppi prostetici… Esempio: il motivo EF-hand e la calmodulina 40 Valeyev et al., BMC Systems Biology 2008, 2:48 Il cosmo “omico” • Genoma: comprende la totalità del materiale genetico di un organismo e comprende sia i geni che sequenze non codificanti (Es.: elementi mobili, sequenze ripetute,…). • Genomica: scienza che se ne occupa. • Genoma Umano: Sequenziato completamente nel 2003. • Occorre localizzare: Elementi Funzionali: • Regioni ‘utili’ → geni; • Sequenze codificanti, comprendere i meccanismi che regolano l’espressione, scoprire la funzione, e cercare d’intervenire specificamente su quest’ultima. Genomica Trascrittogenomica Proteomica […] 41 Quantità di dati prodotti per run di sequenziamento Nel 2000: 1.6 Mb al giorno Attualmente: un singolo HiSeq X produce fino a 1.8 Tb in 3 giorni Diminuzione del costo del sequenziamento $100,000,000 $10,000.00 $10,000,000 $1,000.00 Cost per Genome $1,000,000 $100.00 $100,000 $10,000 $10.00 Cost per Mb Cost per Genome Cost per Mb $1,000 $1.00 $100 $0.10 $10 Mar-14 Oct-13 May-13 Dec-12 Jul-12 Feb-12 Sep-11 Apr-11 Nov-10 Jun-10 Jan-10 Aug-09 Mar-09 Oct-08 May-08 Dec-07 Jul-07 Feb-07 Sep-06 Apr-06 Nov-05 Jun-05 Jan-05 Aug-04 Mar-04 Oct-03 May-03 Dec-02 Jul-02 Feb-02 $0.01 Sep-01 $1 Costo del genoma oggi è alla portata del sequenziamento del genoma di ciascun individuo. Crescita di GenBank Genbank è passato da 591 sequenze del 1981 a > 200.000.000 oggi (un aumento di circa 340000 volte!) Il cosmo “omico” • Trascrittoma: l'insieme di tutti i trascritti (RNA messaggeri, mRNA) • Trascrittomica: scienza che se ne occupa. • Occorre localizzare: Profili di espressione: • più dinamico del genoma • tecnologie come microarray o RNA-Seq monitorano i livelli di espressione di tutti i geni allo stesso tempo. Mirano ad individuare correlazioni e legami tra espressione genica, attivazione e inibizione. Esempi: studio nella differenziazione di cellule staminali o evoluzione di tumori. Genomica Trascrittogenomica Proteomica […] 45 Il cosmo “omico” • Proteoma: l'insieme di tutte le proteine in un sistema biologico o nel suo genoma • Proteomica: scienza che se ne occupa. • Occorre localizzare: sia le proteine codificate dai geni che le possibili modificazioni posttraduzionali (gruppi prostetici, multidomini, fosforilazione, ecc). • Alcune tecniche • Gel: • 1^ dimensione punto isoelettrico • 2^ massa molecolare • Spettrometria di massa: identifica una proteina in base al suo rapporto massa/carica in seguito a ionizzazione Genomica Trascrittogenomica Proteomica […] 46 Il cosmo “omico” • Proteomica strutturale: determinazione della struttura terziaria e quaternaria (3D e domini) delle proteine. • Tecniche: cristallografia, NMR, homology modeling. • La struttura terziaria di una proteina è essenziale per determinarne la funzione Genomica Trascrittogenomica Proteomica Proteomica Genomica Strutturale 47 Introduzione Il cosmo “omico” • Farmacogenomica: mira a prevedere la reazione di ciascun individuo verso un principio attivo in base al suo genotipo. • Obiettivo: creare terapie farmacologiche personalizzate per ottimizzare il risultato minimizzando gli effetti collaterali. • Esempio: previsione di gravi reazione avverse a Abacavir nella terapia dell’HIV Genomica Trascrittogenomica Proteomica Farmacogenomica 48 L’evoluzione ed il confronto tra sequenze Un allele (variante di un gene presente contemporaneamente nella popolazione) puo’ essere generato, fissato o mutare nel tempo Uno degli obiettivi in senso lato della bioinformatica e’ stabilire se l’analisi dell’informazione molecolare riguardo due oggetti biologici (e.g. geni o proteine) permette di stabilire una relazione di OMOLOGIA, cioe’ di discendenza da un antenato comune 49 Due sequenze che vengono separate fisicamente (per speciazione, duplicazione ecc.) non si scambiano piu’ “informazione” ed evolvono indipendentemente, accumulando mutazioni. Spetta a noi trovare i tratti conservati dal comune antenato. Un modo per muoversi in tal direzione e’ allineare le sequenze e determinare la percentuale di identita’ o sequence identity (s.i.) (rapporto, in % tra il numero dei residui/basi identici rispetto al totale) o comunque il grado di similitudine. Di norma, sequenze nucleotidiche non correlate hanno una s.i. ~50%; sequenze amminoacidiche non correlate hanno una s.i. ~20%. Discostandosi da tali valori aumenta la probabilità che le sequenze siano omologhe. Ma tale indice dovrebbe tener conto anche della lunghezza delle sequenze. Una s.i. del 90% fra due sequenze di 100 a.a. ha un significato diverso rispetto alla stessa s.i. su sequenze di 30 a.a. Allineare due sequenze significa stabilire se tra esse sussiste una relazione di omologia 50