Fisica Computazionale applicata alle Macromolecole Presentazione del corso Pier Luigi Martelli Università di Bologna www.biocomp.unibo.it/gigi/TRENTO [email protected] 051 2094005 338 3991609 Calendario del corso •Martedì, 8 Novembre 15.00-18.00 (?) •Mercoledì, 9 Dicembre 8.30-11.30 (?) •Martedì, 15 Novembre 15.00-18.00 •Mercoledi, 16 Novembre 8.30-11.30 •Martedì, 29 Novembre 15.00-18.00 •Mercoledì, 30 Novembre 8.30-11.30 •Martedì, 6 Dicembre •Mercoledì, 7 Dicembre •ESAMI….? 15.00-18.00 8.30-11.30 ERA “OMICA” The analysis of the components of a living organism in its entirety GA EVANS, Nature Biotechnology 2000, 18, 127 Genoma: Patrimonio genetico di un organismo (o individuo) Insieme di tutti i geni (proteine) da esso codificate Tecniche di Sequenziamento veloce (shot gun) •1995 Primo genoma completo del batterio Haemophilus influenzae (Fleischman et al., Science 269, 496) •2001 Prime bozze del genoma umano assemblato da Celera e da l’ International Human Genome Sequencing Consortium •2004 Stesura della parte eucromatica del genoma •2005 Mappa degli aplotipi umani (variabilità, SNPs, linkage) (about 30,000 in the human genome) …with different effects depending on variability Genes in DNA... >protein kinase acctgttgatggcgacagggactgtatgctgatct atgctgatgcatgcatgctgactactgatgtgggg gctattgacttgatgtctatc.... Over 9.8 millions of single mutations are known …code for proteins... …proteins correspond to functions... From Genotype to Phenotype From 5000 to 10000 proteins per tissue …when they are expressed Proteins interact ….in methabolic pathways SEQUENZIAMENTO Top-Down Shotgun ERA “OMICA” Trascrittoma: Insieme degli mRNA presenti in una cellula in un dato tempo e in una data condizione. Livelli di espressione genica Tecniche di cDNA array, GeneChips... Figure 4. Characterized genes induced in the Environmental Stress Response (ESR). Characterized genes that are induced in the ESR are displayed according to their involvement in (A) carbohydrate metabolism, (B) cellular redox reactions and defense against reactive oxygen species, (C) protein folding. Gasch et al. (2000) Mol. Biol. Cell. 11(12) 4241-4257 ERA “OMICA” Proteomica: Insieme delle proteine presenti in una cellula in un dato tempo e in una data condizione. Tecniche di 2D-elettroforesi, Spettrometria di massa ERA “OMICA” Variabilità: Ogni individuo in una popolazione è portatore di una variabilità genetica che lo differenzia. -) SNPs: Single Nucleotide Polymorphisms In un gene codificante un enzima glicosilante Es: Gruppi sanguigni A .ctggtgacccctt. N-acetilgalattosamina B .ctcgtcaccgcta. Galattoso 0 .ctggt-acccctt. Enzima inattivo -) Aplotipi: poliformismi coeredidati: Markers di biodiversità per studi di popolazione e forensi -) Geni differenti in popolazioni della stessa specie: PANGENOMI batterici (80% in comune) ERA “OMICA” Interattoma: Insieme delle interazioni tra proteine (e tra proteine e DNA) Tecniche di doppio ibrido Oliver S, Nature 2000, 403 , 601 Alcuni problemi aperti Gene finding. Data una sequenza di DNA, dove sono i geni? E le regioni promotrici?….. Struttura. Data una sequenza proteica, che conformazione strutturale assume? Interazione. Con quali meccanismi le macromolecole biologiche interagiscono? Sistema. Si possono modellizzare reti metaboliche? livelli di espressione genica in particolari condizioni ambientali?….. ... Fisica Computazionale e Macromolecole Biologiche Approccio “Molecolare” : •si descrivono le molecole in termini di potenziali di interazione tra atomi •si ricavano informazioni riguardo la stabilità energetica di molecole e complessi e riguardo ai loro moti •approccio adatto allo studio delle singole molecole o a sistemi vicini alla conformazione di equilibrio Meccanica e Dinamica Molecolare, Docking, Quantomeccanica molecolare •si simulano solo piccoli sistemi e brevi tempi •si utilizzano forzatamente potenziali approssimati •approccio inadatto ad analisi genomica, al problema del folding (se non accoppiato a altri strumenti) Fisica Computazionale e Macromolecole Biologiche Approccio “Analisi di sequenza” : •DNA, RNA e proteine sono eteropolimeri complessi lineari •Presupposti teorici: •Dogma centrale della biologia molecolare DNA RNA Proteina Il DNA contiene anche le zone di regolazione dell’espressione genica Dato il DNA è teoricamente possibile risalire a tutte le proteine da esso espresse e alla loro regolazione nelle differenti condizioni Fisica Computazionale e Macromolecole Biologiche Approccio “Analisi di sequenza” : •DNA, RNA e proteine sono eteropolimeri complessi lineari •Presupposti teorici: •Dogma centrale della biologia molecolare •Ipotesi termodinamica di Anfinsen e relazione struttura-funzione La struttura tridimensionale di una proteina dipende dalla sua sequenza (e dall’ambiente fisiologico) La funzione di una proteina dipende dalla struttura tridmensionale Fisica Computazionale e Macromolecole Biologiche Approccio “Analisi di sequenza” : •DNA, RNA e proteine sono eteropolimeri complessi lineari •Presupposti teorici: •Dogma centrale della biologia molecolare •Ipotesi termodinamica di Anfinsen e relazione struttura-funzione Le sequenze contengono tutta (o quasi) l’informazione necessaria Fisica Computazionale e Macromolecole Biologiche Approccio “Analisi di sequenza” : •DNA, RNA e proteine sono eteropolimeri complessi lineari •Presupposti teorici: •Dogma centrale della biologia molecolare •Ipotesi termodinamica di Anfinsen e relazione struttura-funzione Le sequenze contengono tutta (o quasi) l’informazione necessaria •Si utilizzano strumenti derivati dalla teoria dell’analisi del segnale •Forniscono predittori per il gene finding e per la struttura delle proteine Fisica Computazionale e Macromolecole Biologiche Approccio “Sistemico” : •Descrizione delle molecole in interazione (cicli metabolici, reti geniche, livelli di espressione) •Si utilizzano strumenti della teoria dei sistemi •Dati via via disponibili tramite microarray, sistema a due ibridi, ….. Focus del corso Approccio “Analisi di sequenze” Modelli e approcci utili in tutti i contesti di analisi di segnali Strumenti matematici principali: Allineamento di sequenze, reti neurali, Hidden Markov Model Applicato al problema della predizione della struttura e della funzione di una proteine a partire dalla sua sequenza Programma del corso •Richiami sulla struttura proteica (strutture secondarie, terziarie, domini, forze stabilizzanti) •Banche dati di sequenze e strutture note •Problema della predizione della struttura 3D •Analisi di sequenze: Pattern e metodi di allineamento •Reti Neurali •Modelli probabilistici per sequenze (Hidden Markov Model) •Predittori di caratteristiche morfo-funzionali a partire dalla sequenza amminoacidica •Ricostruzione della struttura terziaria delle proteine (building per omologia,threading, metodi ab inizio)