Fisica Computazionale applicata alle
Macromolecole
Presentazione del corso
Pier Luigi Martelli
Università di Bologna
www.biocomp.unibo.it/gigi/TRENTO
[email protected]
051 2094005
338 3991609
Calendario del corso
•Martedì, 8 Novembre 15.00-18.00 (?)
•Mercoledì, 9 Dicembre 8.30-11.30 (?)
•Martedì, 15 Novembre 15.00-18.00
•Mercoledi, 16 Novembre 8.30-11.30
•Martedì, 29 Novembre 15.00-18.00
•Mercoledì, 30 Novembre 8.30-11.30
•Martedì, 6 Dicembre
•Mercoledì, 7 Dicembre
•ESAMI….?
15.00-18.00
8.30-11.30
ERA “OMICA”
The analysis of the components of a living organism in its
entirety
GA EVANS, Nature Biotechnology 2000, 18, 127
Genoma: Patrimonio genetico di un organismo (o individuo)
 Insieme di tutti i geni (proteine) da esso codificate
Tecniche di Sequenziamento veloce (shot gun)
•1995 Primo genoma completo del batterio Haemophilus
influenzae (Fleischman et al., Science 269, 496)
•2001 Prime bozze del genoma umano assemblato da Celera e
da l’ International Human Genome Sequencing Consortium
•2004 Stesura della parte eucromatica del genoma
•2005 Mappa degli aplotipi umani (variabilità, SNPs, linkage)
(about 30,000 in the human
genome)
…with
different effects
depending on
variability
Genes in
DNA...
>protein kinase
acctgttgatggcgacagggactgtatgctgatct
atgctgatgcatgcatgctgactactgatgtgggg
gctattgacttgatgtctatc....
Over 9.8 millions of
single mutations are
known
…code for
proteins...
…proteins correspond to
functions...
From Genotype
to Phenotype
From 5000 to 10000
proteins per tissue
…when they are expressed
Proteins
interact
….in methabolic pathways
SEQUENZIAMENTO
Top-Down
Shotgun
ERA “OMICA”
Trascrittoma: Insieme degli mRNA presenti in una cellula in
un dato tempo e in una data condizione.
Livelli di espressione genica
Tecniche di cDNA array, GeneChips...
Figure 4. Characterized genes induced in the Environmental Stress
Response (ESR).
Characterized genes that are induced in the ESR are displayed
according to their involvement in (A) carbohydrate metabolism, (B)
cellular redox reactions and defense against reactive oxygen species,
(C) protein folding.
Gasch et al. (2000) Mol. Biol. Cell. 11(12) 4241-4257
ERA “OMICA”
Proteomica: Insieme delle proteine presenti in una cellula in
un dato tempo e in una data condizione.
Tecniche di 2D-elettroforesi, Spettrometria di
massa
ERA “OMICA”
Variabilità:
Ogni individuo in una popolazione è portatore di
una variabilità genetica che lo differenzia.
-) SNPs: Single Nucleotide Polymorphisms
In un gene codificante un enzima glicosilante
Es: Gruppi sanguigni
A .ctggtgacccctt. N-acetilgalattosamina
B .ctcgtcaccgcta. Galattoso
0
.ctggt-acccctt. Enzima inattivo
-) Aplotipi: poliformismi coeredidati: Markers di
biodiversità per studi di popolazione e forensi
-) Geni differenti in popolazioni della stessa
specie: PANGENOMI batterici (80% in comune)
ERA “OMICA”
Interattoma: Insieme delle interazioni tra proteine (e tra
proteine e DNA)
Tecniche di doppio ibrido
Oliver S, Nature 2000, 403 , 601
Alcuni problemi aperti
Gene finding. Data una sequenza di DNA, dove sono i geni? E
le regioni promotrici?…..
Struttura. Data una sequenza proteica, che conformazione
strutturale assume?
Interazione. Con quali meccanismi le macromolecole biologiche
interagiscono?
Sistema. Si possono modellizzare reti metaboliche? livelli di
espressione genica in particolari condizioni ambientali?…..
...
Fisica Computazionale e Macromolecole Biologiche
Approccio “Molecolare” :
•si descrivono le molecole in termini di potenziali di
interazione tra atomi
•si ricavano informazioni riguardo la stabilità energetica
di molecole e complessi e riguardo ai loro moti
•approccio adatto allo studio delle singole molecole o a
sistemi vicini alla conformazione di equilibrio
 Meccanica e Dinamica Molecolare, Docking,
Quantomeccanica molecolare
•si simulano solo piccoli sistemi e brevi tempi
•si utilizzano forzatamente potenziali approssimati
•approccio inadatto ad analisi genomica, al problema del
folding (se non accoppiato a altri strumenti)
Fisica Computazionale e Macromolecole Biologiche
Approccio “Analisi di sequenza” :
•DNA, RNA e proteine sono eteropolimeri complessi
lineari
•Presupposti teorici:
•Dogma centrale della biologia molecolare
DNA  RNA  Proteina
Il DNA contiene anche le zone di regolazione
dell’espressione genica
Dato il DNA è teoricamente possibile risalire a tutte le
proteine da esso espresse e alla loro regolazione nelle
differenti condizioni
Fisica Computazionale e Macromolecole Biologiche
Approccio “Analisi di sequenza” :
•DNA, RNA e proteine sono eteropolimeri complessi
lineari
•Presupposti teorici:
•Dogma centrale della biologia molecolare
•Ipotesi termodinamica di Anfinsen e relazione
struttura-funzione
La struttura tridimensionale di una proteina dipende dalla
sua sequenza (e dall’ambiente fisiologico)
La funzione di una proteina dipende dalla struttura
tridmensionale
Fisica Computazionale e Macromolecole Biologiche
Approccio “Analisi di sequenza” :
•DNA, RNA e proteine sono eteropolimeri complessi
lineari
•Presupposti teorici:
•Dogma centrale della biologia molecolare
•Ipotesi termodinamica di Anfinsen e relazione
struttura-funzione
 Le sequenze contengono tutta (o quasi)
l’informazione necessaria
Fisica Computazionale e Macromolecole Biologiche
Approccio “Analisi di sequenza” :
•DNA, RNA e proteine sono eteropolimeri complessi
lineari
•Presupposti teorici:
•Dogma centrale della biologia molecolare
•Ipotesi termodinamica di Anfinsen e relazione
struttura-funzione
 Le sequenze contengono tutta (o quasi)
l’informazione necessaria
•Si utilizzano strumenti derivati dalla teoria dell’analisi
del segnale
•Forniscono predittori per il gene finding e per la
struttura delle proteine
Fisica Computazionale e Macromolecole Biologiche
Approccio “Sistemico” :
•Descrizione delle molecole in interazione (cicli
metabolici, reti geniche, livelli di espressione)
•Si utilizzano strumenti della teoria dei sistemi
•Dati via via disponibili tramite microarray, sistema a
due ibridi, …..
Focus del corso
Approccio “Analisi di sequenze”
Modelli e approcci utili in tutti i contesti di analisi di
segnali
Strumenti matematici principali: Allineamento di
sequenze, reti neurali, Hidden Markov Model
Applicato al problema della predizione della struttura e
della funzione di una proteine a partire dalla sua
sequenza
Programma del corso
•Richiami sulla struttura proteica (strutture secondarie,
terziarie, domini, forze stabilizzanti)
•Banche dati di sequenze e strutture note
•Problema della predizione della struttura 3D
•Analisi di sequenze: Pattern e metodi di allineamento
•Reti Neurali
•Modelli probabilistici per sequenze (Hidden Markov
Model)
•Predittori di caratteristiche morfo-funzionali a partire
dalla sequenza amminoacidica
•Ricostruzione della struttura terziaria delle proteine
(building per omologia,threading, metodi ab inizio)