Diapositiva 1 - Università degli Studi di Roma "Tor Vergata"

Genomica, proteomica,
genomica strutturale, banche
dati ………….
Alcune pietre miliari della biologia
anno
1866
1944
1951
1953
1959
1960s
1977
1975-79
1986
1995
1997
1999
2000
2001
risultato
Mendel scopre I geni
il DNA è il materiale genetico
prima sequenza di una proteina (insulina)
Struttura del DNA
struttura della mioglobina
delucidazione del codice genetico
Avvento del sequenziamento del DNA
primi clonaggi di geni umani
sviluppo di un sistema di seq. aut. del DNA
primo genoma completo (H. Influenzae)
Genoma di E. coli
primo cromosoma umano (Chr #22)
Drosophila / Arabidopsis genomi
genomi dell’uomo e di topo
La quantità di informazione genetica
già disponibile è impressionante e
cresce a ritmo vertiginoso.
Numerosissimi sono i genomi in corso
di sequenziamento che saranno
completati in pochi anni.
La disponibilita di questa massa di
informazioni sta cambiando la ricerca
biologica
I genomi sequenziati
(http://www.genomesonline.org/gold.cgi/)
Dati aggiornati al 3 marzo 2004
Genomi completi: 187 (17 archeobatteri, 139 batteri, 22 eucarioti)
Genomi in corso di sequenziamento: 906
Dati aggiornati al 14 marzo 2005
Genomi completi: 260 (21 archeobatteri, 206 batteri, 33 eucarioti)
Genomi in corso di sequenziamento: 1137
Dati aggiornati al 18 maggio 2007
Genomi completi: 556 (41 archeobatteri, 466 batteri, 49 eucarioti)
Genomi in corso di sequenziamento: 1884
(1108 batteri, 720 eucarioti, 56
archeobatteri)
Dati aggiornati al 18 maggio 2008
Genomi completi: 797 (53 archeobatteri, 658 batteri, 86 eucarioti)
Genomi in corso di sequenziamento: 2792
(1768 batteri, 934 eucarioti, 90
archeobatteri)
Dati aggiornati al 25 maggio 2009
Genomi completi: 1000 (61 archeobatteri, 833 batteri, 106 eucarioti)
Genomi in corso di sequenziamento: 3682
(2557 batteri, 1028 eucarioti, 97 archeobatteri)
Metagenomica
La Metagenomica (detta anche genomica
ambientale, ecogenomica o genomica delle
comunità) è lo studio dei genomi recuperati da
ambienti piuttosto che da singoli organismi
Comunità intestinali, comunità marine (es. i batteri
del mar dei Sargassi), biofilm …..
167 (126 l’anno scorso, 73 nel 2007) progetti in
corso
(http://www.genomesonline.org/gold.cgi?want=M
etagenomes)
Banche dati di acidi nucleici
• Tre consorzi che scambiano informazioni
(International Nucleotide Sequence
Database Collaboration):
• GenBank (americana)
• EMBL (europea)
• DDBJ (giapponese)
DATABASE
Una collezione di informazioni
organizzata in modo che un
programma al computer possa
velocemente accedere a
determinate porzioni di dati
Banche dati di proteine
• SWISS-PROT—sequenze di
proteine (http://www.expasy.ch/)
• PDB—strutture 3D di proteine
(http://www.rcsb.org)
Bioinformatica e analisi dei
genomi
• Bioinformatica – l’analisi tramite strumenti
informatici delle informazioni biologiche.
Generalmente ci si riferisce all’analisi
computazionale di grandi set di dati su
DNA proteine e dati strutturali
Analisi di singoli geni
•
•
•
•
•
•
•
Mappe di restrizione
Mappe di plasmidi
ORF e sequenze codificati
Ricerche in database
Comparazione di sequenze
Allineamenti multipli di proteine
……
Analisi più complesse
•
•
•
•
•
•
Assemblaggio di genomi
Predizione degli ORF
identificatione di domini
Confronto di strutture
Predizioni strutturali
Predizioni di promotori e giunzioni di
splicing
• Analisi di genomi
Alcune sfide della genomica e della
proteomica
• Qual è la funzione di ciascun gene (e di
ciascuna proteina)?
• Come viene regolata l’espressione dei geni?
• Come rispondono i geni agli stimoli ambientali?
• Quali geni sono coinvolti nelle diverse malattie?
• In che modo le diverse proteine interagiscono
tra loro?
• …………….
A che servono tutte queste proteine ?
Funzioni
presunte
Funzioni
note
Funzioni sconosciute
Analisi del genoma/proteoma
• Fino poco tempo fa i ricercatori studiavano
l’espressione di un singolo gene
• Ora è possibile studiare l’espressione di
tutti i geni di un organismo
simultaneamente (questo può aiutare a
capire meglio la funzione dei singoli geni
nel contesto cellulare)
Al di là dei progetti di sequenziamento
DNA Microarray
GENOMA
Screening genetici
PROTEOMI
Interazioni
Proteine-ligandi
interazioni
Proteina-Proteina
Struttura delle proteine
L’ERA POST-GENOMICA
La proteomica funzionale utilizza diverse
tecnologie complementari
– DNA Microarray
Utili per ottenere un profilo di trascrizione dell’intero
genoma
– Interazioni Proteina-Ligando
• Per scoprire inibitori delle proteine
• Per scoprirne le funzioni
– Interazioni Proteina-Proteina
• Per identificare la rete di interazioni regolative
• Per scoprirne le funzioni
Cosa sono i Microarrays?
• I microarrays sono semplicemente delle lastrine di
vetro o silice sulla cui superficie sono disposti in
modo ordinato migliaia di geni (tra 500-20,000)
• Tramite una convenzionale ibridazione con una
sonda marcata (fluorescente), il livello di
espressione di tutti questi geni viene misurato
• I dati vengono misurati tramite opportuni lettori
• Si confontano i risultati con campioni di controllo
17
Un
microarray
Yeast genome: 12,800 points
Diameter: 120 microns
Slide size: 170 mm
x 340 mm
Perchè analizzare cosi
tanti geni?
• <10% del geni umani sono stati studiati a
livello della loro funzione individuale. Ma I
geni totali sono circa 40,000
• I pannelli di espressione globale forniscono
molte più informazioni
• Soprattutto si ottengono informazioni non
attese!
Preparare un microarray
1 goccia di un nanolitro
90-120 μm diametro
I diversi passaggi di un
esperimento
• 1- ottenere un microarray
• 2- Disegno sperimentale: cosa paragonare
a cosa?
• 3- preparazione della sonda e ibridazione
• 4- acquisizione delle immagini e
quantificazione
• 5- Costruzione di un database
• 6- Analisi statistica- Risultati
• La popolazione di messaggeri (mRNA) proveniente dal
campione biologico di interesse viene usata come
stampo per la retrotrascrizione. Uno dei nucleotidi è
marcato con un colorante fluorescente che può essere:
Cy3, che emette fluorescenza di colore verde
Cy5, che emette fluorescenza di colore rosso.
• I due divesi fluorocromi vengono usati per marcare RNA
provenienti da due campioni diversi. In questo modo su
uno stesso vetrino si possono saggiare due diverse
popolazioni di mRNA e si possono confrontare una con
l'altra
Gene D
Sovraespresso
in tessuti
normali
Gene E
Sovra
Espresso
Nei tumori
•
Il proteoma
Spettrometria di massa
(quantitativa -con applicazioni qualitative)
Nella SPETTROMETRIA DI MASSA le molecole sono ionizzate
e poi accelerate nel vuoto da un campo elettrico
A secondo del tipo di ionizzazioni si ottengono spettri a picco
singolo o multiplo. I primi sono utili per determinare le masse
molecolari accurate, mentre i secondi servono a determinare
altre proprietà molecolari
Le particelle sono discriminate in vario modo sulla base del
diverso rapporto tra massa e carica
I dati ottenuti possono essere utilizzati per:
Calcolare il peso molecolare esatto di una molecola
Ottenere informazioni sulla sua struttura ed eventuali
modifiche post-traduzionali
Determinare l’abbondanza di specie isotopiche
Matrix-Assisted Laser Desorption Time-of-Flight
Mass Spectrometry (MALDI-TOF)
Ions
Laser pulse irradiation
Sample
Matrix
Sample plate
Sample plate
Laser
Acceleration grids
Detector
MALDI-TOF MS of Phosphopeptides
Relative Intensity
100
1573.9 1588.2
1431.8
Positive Ion
Mode
%
1539.8
0
1651.8
Relative Intensity
100
Negative Ion
Mode
1571.7
80 Da
%
1429.7
0
1400
1450
1537.7
1500
1550
m/z
1667.7
1586.0
1600
1650
1700
Caratterizzazione delle modificazioni post-traduzionali di
una proteina
Incuba con tripsina,
estrai I peptidi e
dasalifica
Preleva la banda
54 kDa
45 kDa
MKKCTILVVASLLLVNSLLPGYGQNKIIQA
QRNLNELCYNEGNDNKLYHVLNSKNGKIYN
RNTVNRLLPMLRRKKNEKKNEKIERNNKLK
QPPPPPNPNDPPPPNPNDPPPPNPNDPPPP
NPNDPPPPNANDPPPPNANDPAPPNANDPA
PPNANDPAPPNANDPAPPNANDPAPPNAND
PAPPNANDPPPPNPNDPAPPQGNNNPQPQP
RPQPQPQPQPQPQPQPQPQPRPQPQPQPGG
NNNNKNNNNDDSYIPSAEKILEFVKQIRDS
ITEEWSQCNVTCGSGIRVRKRKGSNKKAED
LTLEDIDTEICKMDKCSSIFNIVSNSLGFV
ILLVLVFFN
••
•••
•••
Determina la massa
molecolare dei peptidi
Confronta I risultati
ottenuti con quelli attesi
Gli array di proteine
Legame di piccole
molecole
Modificazioni posttraduzionali
Interazioni proteinaproteina
Interazioni proteina DNA
Saggi enzimatici
Mappatura degli epitopi
Genomica strutturale
Obiettivo: La determinazione della struttura 3D
delle proteine codificate da un intero genoma.
E’ una naturale estensione dei progetti di
sequenziamento genomico
L’obiettivo è quello di capire le funzioni
molecolari e cellulari di tutti i prodotti genici.
Questo dovrebbe aiutare la progettazione
razionale di farmaci e sistemi diagnostici
20
0
t
i
l
s
o
s
o
u
a
c
rm ye
til
.
e
b
E
h
u
t
.
s
M
B.
4289
5
5885
10
1855
15
4100
% of Proteins
PROTEINE CON OMOLOGHI 3D