1° parte - CusMiBio

1. Introduzione
Il corso offre l'opportunità di affrontare il tema classico della relazione fra fenotipo e genotipo
in modo moderno e attuale e di approfondire le tematiche connesse alla Biologia dello
sviluppo, un'area di grande importanza nella biologia moderna. Il percorso didattico parte
dall'osservazione del fenotipo di embrioni di pesce normali e mutanti e giunge a individuare la
stretta relazione che intercorre con il rispettivo genotipo a livello molecolare. Si tratta quindi
di un viaggio dagli organismi ai loro geni, dal macro al micro, cercando di dimostrare come
una mutazione osservabile dal vivo sia rintracciabile a livello molecolare; inoltre con
l’utilizzo delle banche dati bioinformatiche, seguiremo la sua storia evolutiva fino all’uomo.
2. Prerequisiti
Questi
1.
2.
3.
gli argomenti base del corso:
Gli organismi modello
Le mutazioni
Lo sviluppo embrionale
2.1 Gli organismi modello
Un vecchio adagio della biologia molecolare dice che i problemi fondamentali possono essere
facilmente risolti utilizzando l’organismo più semplice ed accessibile in cui il quesito può
essere posto: un organismo modello.
Tutti gli organismi modello devono avere delle caratteristiche precise: dimensioni ridotte,
tempi brevi di riproduzione, accessibilità e possibilità di manipolazione del genoma. La
scelta dell’organismo modello dipende da quale ricerca si voglia fare consentendo di
combinare approcci genetici e biochimici.
Un organismo modello è un esemplare di una specie che viene utilizzata per studiare
fenomeni biologici complessi; le scoperte fatte possono essere poi utilizzate in altri organismi.
Questo è possibile poiché i processi biologici fondamentali come il metabolismo, la
regolazione, il ciclo cellulare, lo sviluppo embrionale e i geni che li controllano si sono
conservati nell’evoluzione.
Ci sono vari organismi modello utilizzati in biologia molecolare; il primo è stato
probabilmente il batterio Escherichia coli (Fig. 2.1) e tra gli eucarioti il
lievito Saccharomyces cerevisiae (Fig. 2.2); il lievito ha un ciclo
Fig. 2.2
cellulare molto simile al ciclo cellulare dell’uomo ed è regolato da
Fig. 2.1
proteine omologhe a quelle umane.
Anche il moscerino della frutta, Drosophila melanogaster (Fig. 2.3), e
il nematode Caenorhabditis elegans (Fig. 2.4) sono utilizzati come
organismi modello nello studio dello sviluppo e per analizzarne le
Fig. 2.4
anomalie.
Fig. 2.3
Lo Zebra Danio o Zebrafish (Brachydanio rerio o Danio rerio), Fig. 2.5,
l’organismo modello utilizzato per questo corso, è utile per lo studio delle fasi dello sviluppo
embrionale dato che si riproduce molto velocemente, passando dallo
stato di uovo fecondato a quello di larva in meno di tre giorni
attraverso stadi trasparenti; è un pesce tropicale generalmente allevato
in acquario, appartenente alla famiglia dei Cyprinidae ed è chiamato
Fig.2.5
così per le sue striature orizzontali sul fianco del corpo.
Zebrafish è un pesce robusto e resistente, utilizzato per chi vuole iniziare ad allestire un
acquario in casa; è originario dell’est dell’India e arriva alla lunghezza di 6 cm vivendo fino a
5 anni. Vive comunemente in ruscelli, canali, stagni e campi di riso ed è onnivoro. Le sue
condizioni ambientali ottimali sono: acqua a 6.0–8.0 di pH con conducibilità 700µs e
temperatura tra i 18–24 °C.
1
2.2 Le mutazioni
Una mutazione è un cambiamento stabile ed ereditabile del materiale genetico.
Le mutazioni derivano da errori nella replicazione del genoma e possono essere spontanee o
indotte. Le cause fisiche per le mutazioni spontanee includono la variazione di stato
tautomerico delle basi (passaggio reversibile dalla forma chetonica a quella enolica, due
forme con diversa tendenza all'appaiamento) e l'azione non riconosciuta di mutageni
ambientali.
Gli agenti mutageni noti sono di natura fisica, chimica o biologica. I fattori fisici più comuni
nella mutagenesi sono le radiazioni UV, X e gamma che ionizzano le basi provocando
l'addizione di acqua oppure rompono il legame zucchero-fosfato.
I composti chimici mutageni agiscono sul DNA già esistente oppure provocano errori di
sintesi del nuovo DNA (ad es. sostituzioni di basi) o infine disturbano la normale
duplicazione del DNA. Quest’ultima attività è tipica degli agenti intercalanti che si
introducono nella doppia elica modificandone l'assetto e interferendo con la sua replicazione.
Non sempre l'azione di agenti mutageni porta a mutazione perchè il DNA non è l'unico
potenziale bersaglio. Nei diversi casi, possono esserlo anche RNA e proteine con conseguenze
più facilmente riparabili dalla cellula. Inoltre, l'effetto mutageno è in relazione con la dose e
con l'efficacia dei meccanismi di riparo pre-replicazionali e post-replicazionali di cui la
cellula dispone.
I prodotti genici che si ottengono dopo mutazione, quando questa non li renda del tutto privi
di senso o letali per la cellula, sono di solito inattivi o meno attivi di quelli originari oppure,
sebbene molto raramente, provvisti di attività maggiore o diversa.
Le mutazioni possono essere di tipo somatico e germinale. Quelle somatiche provocano
danni solo all’individuo che le porta, invece quelle germinali, che interessano le cellule
riproduttive, si ripercuotono sulla progenie.
Le mutazioni possono essere di tre tipi:
a) Mutazioni genomiche
b) Mutazioni cromosomiche
c) Mutazioni geniche o puntiformi
a) Mutazioni genomiche: consistono in una variazione del numero di cromosomi dovuta a
perdita o aggiunta di interi cromosomi. Si distinguono in:
• Aneuploidie: sono piuttosto dannose e si verificano quando ad un organismo
diploide (2n) viene a mancare, oppure viene aggiunto, un particolare
cromosoma (es. trisomia 21 o sindrome di Down, trisomia 13 o sindrome di
Patau e trisomia 18 o sindrome di Edwards, la monosomia del cromosoma X
o sindrome di Turner XO); le trisomie sono compatibili con la vita solo per
cromosomi di piccole dimensioni e con pochi geni espressi.
• Poliploidie: compaiono quando si aggiungono uno o più corredi cromosomici
completi. In questo modo un individuo si trova a possedere, all'interno dei
nuclei delle sue cellule, un corredo cromosomico triplo (3n) o quadruplo (4n).
b) Mutazioni cromosomiche: interi pezzi di cromosomi vengono casualmente eliminati o si
fondono con altri già presenti. I geni si vengono così a trovare in una posizione diversa da
quella originale. Dato che la regolazione dell’attività di un gene dipende, in parte, dalla sua
localizzazione nel genoma, le mutazioni cromosomiche hanno, generalmente, effetti
estremamente drammatici e sono piuttosto rare.
Si evidenziano questi tipi (Fig. 2.6):
• Delezioni e duplicazioni: portano alla perdita durante la meiosi di piccoli segmenti.
Questi s’inseriscono nel cromosoma omologo che viene quindi a possedere un tratto
del DNA duplicato.
• Traslocazioni: scambio di materiale cromosomico tra due cromosomi non omologhi.
2
•
•
•
Inversioni: sono dovute a doppia rottura cromosomica e inserzione del frammento in
posizione capovolta.
Fusione centrica: fusione di due cromosomi con perdita di un centromero.
Dissociazione centrica: fenomeno inverso alla fusione; in questo caso da un
cromosoma se ne ottengono due con formazione di un nuovo centromero.
Fig. 2.6
c) Mutazioni geniche o puntiformi: consistono in cambiamenti nella sequenza delle basi con
conseguente alterazione dell’informazione genetica contenuta. Le mutazioni puntiformi
comprendono: le sostituzioni, le inserzioni e le delezioni.
Nello schema seguente sono mostrati diversi tipi di mutazioni puntiformi:
GAC-AAA-GGA-TGA-CTG
SEQUENZA ORIGINALE
GAC-AAA-CGA-TGA-CTG
SOSTITUZIONE DI G CON C
GAC-AAA-TGG-ATG-ACT-G
GAC-AA~G-GAT-GAC-TG
INSERZIONE DI T
DELEZIONE DI A
La sostituzione di una base può avvenire per errore di appaiamento delle basi durante la
replicazione del DNA e può consistere in una transizione (una purina sostituisce l’altra purina
o una pirimidina sostituisce l’altra pirimidina) o in una transversione (una purina si ritrova
appaiata con una purina o una pirimidina si trova appaiata con una pirimidina).
La sostituzione di una base può provocare:
• una mutazione “sinonima” se la tripletta codifica per lo stesso amminoacido.
• una mutazione “missense” se l’effetto è quello di formare una tripletta che codifica
per un amminoacido diverso da quello iniziale. La proteina che incorporerà
quell’amminoacido perderà o modificherà, quasi sicuramente, la sua attività
enzimatica (es. anemia falciforme).
• una mutazione “non sense” se si forma una tripletta che non codifica per alcun
amminoacido (tripletta di stop). Questo comporta l’arresto prematuro della sintesi
proteica.
• una mutazione di “allungamento” se una tripletta di stop viene sostituita da una
tripletta codificante.
La delezione o l’inserzione di basi determina uno shift nella lettura del codice genetico che,
come si usa dire, è un codice privo di punteggiatura. Quindi se in un gene si inserisce o si
perde una base, le triplette da quel punto in poi cambiano con conseguente produzione di una
catena polipeptidica alterata.
3
É importante osservare che le mutazioni possono essere silenti cioè non avere alcun effetto.
Questo può avvenire per diverse ragioni:
• la mutazione avviene in un gene che controlla la sintesi di una proteina non
indispensabile.
• la mutazione interessa una sequenza non codificante (zone introniche).
• la mutazione forma una tripletta che codifica per lo stesso amminoacido della tripletta
originaria. Questo può avvenire perchè il codice genetico è degenerato cioè
sovrabbondante e lo stesso amminoacido è codificato da diverse triplette.
• la mutazione viene soppressa da un’altra mutazione.
• l’amminoacido mutato non altera la funzionalità della proteina.
2.3 Lo sviluppo embrionale
Per sviluppo embrionale si intende il processo che consente allo zigote di accrescersi,
differenziarsi ed acquisire le caratteristiche della specie cui appartiene.
Le prime fasi dello sviluppo sono influenzate dal tipo di uovo di partenza. A questo riguardo
le uova si classificano in base alla quantità di materiale di riserva (tuorlo) in esse contenuto:
• uova a-lecitiche, tipiche dei Mammiferi Placentati, sono prive di tuorlo e vanno
incontro a divisione totale.
• uova oligolecitiche che contengono poco tuorlo; le più comuni sono le uova dei
mammiferi, degli anfiossi e dei ricci di mare. L'embrione si trova presto nelle
condizioni di non dipendere dall'uovo per sopravvivere.
• uova mesolecitiche con media quantità di tuorlo. Le più comuni sono le uova dei
Ciclostomi Petromizonti (lampreda di mare), dei Pesci ossei e degli anfibi. Il
sostentamento dell'embrione viene garantito solo per le prime fasi dello sviluppo.
• uova telolecitiche con grande quantità di tuorlo. Le più comuni sono le uova dei Pesci
cartilaginei, dei Rettili, degli Uccelli e dei Mammiferi non placentati. La notevole
quantità di tuorlo garantisce il sostentamento per tutto il periodo dello sviluppo.
Polarità dell'uovo
Il tuorlo (o deutoplasma o vitello) dell'uovo in genere non è distribuito in modo uniforme, ma
secondo un gradiente di concentrazione: è più abbondante verso il polo vegetativo dell'uovo,
mentre è meno concentrato al polo opposto (polo animale).
La polarità dell'uovo, già manifesta nel corso dell'ovogenesi, si esprimerà poi nel piano
generale di organizzazione dell' embrione.
Lo sviluppo embrionale si suddivide in tre fasi principali:
• la segmentazione
• la gastrulazione
• l'organogenesi
La segmentazione inizia subito dopo la fecondazione: l'uovo
fecondato (zigote) comincia a dividersi. All' inizio va incontro ad
una serie di divisioni mitotiche che portano alla formazione di una
morula (massa sferoidale compatta di cellule); ad un certo punto
dello sviluppo, al centro di tale struttura viene a formarsi una cavità
colma di liquido, definita blastocele, e l’embrione viene allora
definito blastula (Fig. 2.7). Le singole cellule prendono il nome di
blastomeri.
Fig. 2.7 Blastula
4
Poichè il vitello dello zigote non sempre è distribuito
omogeneamente, queste prime divisioni cellulari danno
origine ad una distribuzione differenziale delle sostanze di
riserva nelle cellule figlie; negli embrioni che contengono
scarse quantità di vitello o non ne contengono affatto (es.
riccio di mare) le cellule che derivano dalla segmentazione
hanno tutte la medesima dimensione (Fig. 2.8); questo tipo di
segmentazione è detto segmentazione totale.
Nelle uova che contengono invece elevate quantità di vitello,
i solchi di segmentazione non possono penetrare nella massa
di vitello e la segmentazione risulta incompleta. L’embrione
si sviluppa di conseguenza come una struttura discoidale, o
discoblastula, al di sopra della massa vitellina. Questo tipo di
segmentazione viene definito segmentazione discoidale e un
esempio è rappresentato dallo sviluppo delle uova di
Zebrafish (Fig. 2.9 )
Fig. 2.8 Le prime fasi della segmentazione di un
uovo oligolecitico
Fig. 2.9 Segmentazione discoidale di un uovo di
Zebrafish
Successivamente avviene il processo di gastrulazione durante il quale
le cellule della blastula si organizzano in tre foglietti embrionali:
ectoderma, endoderma, mesoderma. Nella gastrulazione la blastula,
mediante invaginazione, si trasforma in gastrula. La gastrula è una
struttura formata da un doppio strato cellulare che delimita una cavità,
l'archenteron, comunicante all'esterno mediante un'apertura definita
blastoporo (Fig. 2.10). Successivamente si forma un terzo strato
cellulare, il mesoderma, e si realizzano gli eventi che porteranno alla
formazione degli organi principali. In posizione dorsale la parete
Fig 2.10 Gastrulazione
dell'archenteron (mesoderma) forma un tubo che prende il nome di
corda dorsale che costituirà l'asse di sostegno dell'animale.
Il mesoderma si suddivide in
vescicole simmetriche, dette
somiti (Fig. 2.11). I somiti
sono collegati per mezzo di
peduncoli
al
rimanente
mesoderma che delimita una
cavità
interna
definita
celoma.
Il
celoma
è
internamente rivestito da una
membrana definita peritoneo
che avvolge tutti gli organi
presenti nella cavità.
Alla fine della gastrulazione
l'embrione già possiede un
Fig. 2.11 Sviluppo di uovo di Zebrafish da 6 a 29 ore dalle fecondazione
con formazione dei somiti
5
intestino primitivo e strati di cellule che porteranno successivamente alla formazione di tutti i
tessuti ed organi del corpo.
L'organogenesi, infine, è il processo con cui si formano i definitivi tessuti ed organi e si
determina l'accrescimento corporeo dell'embrione. In particolare, dall’ectoderma si formano
l’epidermide, il sistema nervoso, gli organi di senso; dall’endoderma si formano il
rivestimento interno dell’apparato digerente e le ghiandole annesse (fegato e pancreas); dal
mesoderma si formano il rivestimento della principale cavità del corpo (il celoma), la
muscolatura, l’apparato circolatorio, il sangue, l’apparato respiratorio e, nei vertebrati, lo
scheletro e l’apparato urogenitale. Nello Zebrafish l’organogenesi inizia a partire dall’
undicesima ora dalla fecondazione (Fig. 2.12).
Fig. 2.12 Sviluppo embrionale di Zebrafish da 0 a 72 ore
6
3. Un gene per gli occhi
Come le variazioni nella sequenza genomica di un gene possono alterare
visibilmente il fenotipo di un organismo
Gli obbiettivi di questa attività sono di familiarizzare con:
1) la relazione tra genotipo e fenotipo
2) le tappe fondamentali dello sviluppo del sistema nervoso dei vertebrati
3) l’uso sperimentale dei mutanti
I modelli biologici utilizzati: embrioni normali del pesce Zebrafish e embrioni normali e
mutati del pesce Medaka
Nel corso di questa attività pratica avremo modo di
osservare come un singolo difetto genetico possa
provocare drastiche alterazioni nella struttura corporea
negli embrioni di un vertebrato. A questo scopo, prima
osserveremo lo sviluppo embrionale normale di
Zebrafish, Danio rerio, con particolare attenzione allo
sviluppo del sistema nervoso.
Successivamente, studieremo il mutante eyeless del
pesce Medaka che è completamente privo di occhi.
Simile a Zebrafish, il pesce Medaka dal Giappone, Oryzias latipes, è un organismo modello,
importante soprattutto per lo studio dei geni che determinano lo sviluppo embrionale. Per
identificare questi geni e il loro ruolo durante lo sviluppo vengono studiati dei mutanti che
hanno difetti genetici circoscritti. Per quanto riguarda i pesci, questi mutanti possono essere
prodotti su larga scala in laboratorio attraverso mutagenesi chimica. Questi esperimenti di
mutagenesi producono una vasta gamma di pesci mutanti, la cui prole mostra difetti fenotipici
durante lo sviluppo embrionale. Le mutazioni artificialmente prodotte sono distribuite in
modo casuale in tutto il genoma dei pesci e i geni che sono danneggiati in uno specifico
fenotipo devono essere identificati successivamente attraverso metodi di genetica e biologia
molecolare. L’identificazione delle basi molecolari della variazione fenotipica (cioè ad
esempio, il mutante A reca una mutazione puntiforme nel gene B e questa mutazione fa sì che
la proteina codificata non funzioni correttamente) è il processo che viene definito
genotipizzazione.
Durante l’attività pratica genotipizzeremo un mutante noto. Prima di tutto selezioneremo al
microscopio embrioni del pesce Medaka portatori della mutazione eyeless distinguendoli da
quelli normali. Dopodiché estrarremo il DNA genomico dai singoli embrioni e lo utilizzeremo
per un esperimento di PCR. La PCR é progettata in modo che le reazioni a cui é aggiunto
DNA estratto dai mutanti eyeless amplifichino un frammento di DNA mentre quelle a cui è
aggiunto DNA estratto dagli embrioni normali non diano alcun amplificato.
7
3.1 Attività Pratica: osservazione
Un gene per gli occhi: lo sviluppo nei pesci e il modello di Zebrafish
Obbiettivo
L’obbiettivo di questa attività pratica é presentare agli studenti:
• le tappe principali dello sviluppo embrionale nei vertebrati
• l’uso di organismi modello nello studio dello sviluppo embrionale
Organismo modello
Embrioni di Zebrafish (Danio rerio).
Perché studiare Zebrafish:
La fecondazione é esterna.
Gli embrioni sono trasparenti.
Si sviluppano in breve tempo, impiegano tre giorni per raggiungere la schiusa dell’uovo.
Producono un elevato numero di piccoli. Tollerano di essere allevati ad elevata densità.
Condizioni ottimali dell’acqua:
Temperatura 27°C, pH 7
Concentrazione di nitrati e nitriti 0%
Conducibilità 700 µs
Ciclo di illuminazione:
Primavera, 14 ore di luce e 10 ore di buio
Alimentazione:
Artemia (crostaceo) = vitamine
Cibo secco = proteine
Dimorfismo sessuale:
I maschi sono di solito più piccoli, più snelli e di colore più rossiccio. Le femmine hanno un
addome rigonfio e un colore che tende al grigio e al verde.
Incrocio:
Il maschio e la femmina sono messi insieme in una vasca
separata per l’accoppiamento nel tardo pomeriggio o alla
sera e depongono le uova al ritorno della luce, dopo il
periodo di buio. Le uova vengono poi fecondate.
I pesci adulti devono essere mantenuti separati dagli
embrioni perché tendono a mangiarseli. In natura gli
embrioni sono disseminati fra i ciotoli del fondo dove sono
fuori dalla loro portata. In laboratorio sono usate speciali
vasche per l’accoppiamento con una griglia sul fondo attraverso la quale gli embrioni cadono
e rimangono separati dagli adulti.
Gli embrioni vengono raccolti con un colino da té e messi in
una piastra Petri a 28˚C. I pesciolini possono restare nella
piastra Petri per cinque giorni dopodiché sono spostati in un
acquario con acqua corrente e nutriti con cibo ricco di
proteine per tre settimane circa.
8
4. Un gene per gli occhi: “ Rx3”; la mutazione eyeless nel
pesce Medaka
Le mutazioni sono cambiamenti della sequenza nucleotidica del DNA che possono verificarsi
per cause naturali o essere indotte da agenti esterni. Una mutazione può consistere in una
variazione in un solo nucleotide (mutazione puntiforme) o in una delezione o inserzione di un
intero frammento di DNA. Le mutazioni possono alterare il funzionamento di un gene in vari
modi e gli effetti possono interferire con i processi di trascrizione o traduzione impedendo la
produzione di una proteina o possono dar luogo alla formazione di una proteina
malfunzionante.
La mutazione associata al mutante eyeless del pesce Medaka é una grossa inserzione nel gene
Rx3. I geni negli organismi eucarioti non sono costituiti da una sequenza continua ma sono
organizzati in segmenti codificanti, detti esoni, interrotti da segmenti di DNA non codificanti
anche molto lunghi, detti introni. Il gene Rx3 é costituito da tre esoni interrotti da due introni.
L’inserzione che caratterizza la mutazione eyeless si trova fra l’esone 2 e 3 (Fig. 4.1) nel
secondo introne.
Fig. 4.1
inserzione
Negli embrioni normali il gene RX3 viene trascritto in una molecola di RNA messaggero. Le
regioni fiancheggianti gli introni vengono riconosciute dall’apparato di splicing che opera dei
tagli in corrispondenza delle giunzioni esone/introne e introne/esone, unendo quindi gli esoni
in una molecola di RNA maturo.
Negli embrioni mutanti eyeless non si formano le molecole di RNA mature necessarie per la
traduzione della proteina RX3. La natura e il meccanismo molecolare che causa l’assenza
dell’RNA non è stato ancora definito e potrebbe essere dovuto o ad un blocco della
trascrizione o ad una mancata maturazione (splicing) dell’RNA (Felix Loosli et al.
Development. (2001): 128, 4035-4044).
9
Il gene RX3 codifica per un fattore di trascrizione agendo come un interruttore in grado di
accendere o spegnere l’attività di altri geni che a loro volta possono agire su un altro livello di
geni ( Fig. 4.2).
Fig. 4.2
É chiaro che, se il segnale dall’interruttore principale viene interrotto perché la proteina
codificata non viene prodotta, tutti i geni dei successivi livelli non vengono attivati o inattivati
come previsto dal programma dello sviluppo (Fig. 4.3). Questo porta al mancato sviluppo
della struttura somatica di cui questi geni sono responsabili.
Quando il gene RX3 è mutato la
Fig.4.3
proteina codificata non viene
sintetizzata e non può svolgere la
sua azione regolatoria; quindi
non attiva la cascata di eventi
che porta alla formazione delle
strutture oculari.
La mutazione eyeless è un
esempio
di
mutazione
condizionale, i cui effetti
dipendono dalla temperatura.
Quando la temperatura è bassa,
cioè intorno ai 18 °C, nessuna
molecola di RNA maturo viene
prodotta. Invece quando la temperatura è più elevata (Fig. 4.4) almeno qualche molecola di
RNA maturo riesce ad essere prodotta dando luogo a una quantità ridotta di proteina RX3 che
riesce ad attivare la cascata di eventi per la formazione dell’occhio solo in un ristretto numero
di cellule. La struttura oculare che si forma è quindi costituita da poche cellule e quindi
ridotta. L’attività del macchinario responsabile dello splicing è sensibile alla temperatura e
l’effetto della mutazione è più o meno grave a temperature diverse.
L’effetto della temperatura sul fenotipo di questa mutazione suggerisce che l’assenza di
mRNA per la proteina RX3 sia dovuta ad un difetto dello splicing.
10
Fig. 4.4
L’assenza della proteina prodotta da Rx3 interrompe la cascata di eventi che portano alla
formazione degli occhi, dando luogo al fenotipo eyeless (Fig. 4.5)
É stato dimostrato che una
mutazione nel gene omologo
Rx3 in Zebrafish interferisce
con lo sviluppo degli occhi.
Questo fatto suggerisce che
Rx3 sia implicato nello
sviluppo degli occhi in tutti i
vertebrati.
Fig. 4.5
Riconoscere il fenotipo eyeless
nel pesce Medaka è molto
facile, perché gli embrioni che recano questa mutazione sono totalmente privi di occhi. Fin
dallo stadio di neurula é possibile distinguerli perché le vescicole ottiche non si invaginano
come avviene negli embrioni normali. Le basi molecolari di una mutazione vengono
identificate tramite tecniche di biologia molecolare, un processo detto genotipizzazione.
11
5. Attività Pratica di laboratorio
Come funziona una PCR?
La PCR é una tecnica basata su un principio semplice che, a partire dagli anni ’80, é divenuta
molto comune e preziosa per gli scienziati. Infatti, la PCR (acronimo per Polymerase Chain
Reaction) é stata utilizzata per moltissime applicazioni diverse: dalla mappatura dei genomi e
la ricerca di base alla diagnosi medica e alla biologia forense.
L’idea alla base di questa tecnica venne concepita da Kary Müllis mentre guidava la sua
automobile su e giù per le montagne della California e la sua applicazione gli valse
l’assegnazione del Nobel per la Chimica nel 1993 (per ulteriori informazioni visita i siti web
http://www.nobel.se/chemistry/laureates/1993/index.html
http://www.sunsite.berkeley.edu/pcr).
Tramite la PCR é possibile produrre quantità illimitate di una specifica regione di DNA, per
esempio un gene o uno specifico segmento di DNA.
La reazione si svolge in 3 passaggi successivi (Fig. 5.1):
1)
2)
3)
Fig. 5.1
Nella prima fase del processo di PCR la molecola a doppio filamento di DNA stampo viene
separata aumentando la temperatura in modo che l’energia termica rompa i legami fra i due
filamenti.
Nella seconda fase la temperatura si abbassa e i primer si appaiano al DNA stampo. Questi
ultimi sono due corte molecole (una ventina di basi) di DNA sintetizzate artificialmente in
modo da essere complementari a due regioni del DNA stampo che si trovano agli estremi del
frammento che vogliamo amplificare,
Successivamente la temperatura si alza fino a quella ottimale per l’enzima DNA polimerasi.
Esso si lega ai primer e inizia ad allungarli aggiungendo nucleotidi complementari al
filamento stampo.
Questi tre passaggi vengono ripetuti più volte. Nella prima fase del ciclo successivo, con il
riscaldamento, i frammenti prodotti dall’allungamento dei primer nel primo ciclo, si separano
dallo stampo e nella seconda fase fungono da stampo a loro volta. I primer si appaiano ad essi
e vengono allungati dalla DNA polimerasi. Il numero di copie del frammento desiderato
aumenta così in modo esponenziale: nel giro di un paio d’ore viene amplificato un milione di
volte! La grande quantità del segmento di DNA così prodotta può essere utilizzata per
ulteriori analisi. Proviamo ora ad elencare il materiale che serve per una PCR ripercorrendo i
vari passaggi:
DNA stampo
due primer diversi opportunamente scelti (forward e reverse)
DNA polimerasi
desossinucleotidi
12
oltre, naturalmente, ad una macchina in grado di modificare la temperatura delle provette
secondo il protocollo scelto, cioè un termociclatore. (Confronta questo elenco con quello
riportato nel protocollo per la PCR).
Durante l’attività pratica di questo corso amplificheremo un frammento del gene RX3 che
presenta un’inserzione nei mutanti eyeless. I primer sono disegnati in modo da essere
complementari l’uno ad una regione presente nell’inserto che si trova nel DNA dei mutanti, e
l’altro a una regione che si trova nel terzo esone del gene Rx3 (Fig. 5.2).
Fig. 5.2
Primer
forward
Esone 2
Esone 3
Inserzione
Rx3
Primer
reverse
In questo modo durante la PCR verrà amplificato il frammento compreso fra i due primer nel
caso che il DNA che abbiamo aggiunto nella provetta provenga da un pesce mutante che reca
l’inserzione (in rosso). Nel caso in cui invece il DNA provenga da un pesce wildtype il primer
forward non potrà appaiarsi al primo ciclo e non otterremo alcun amplificato.
13
Protocollo
Genotipizzare i mutanti del pesce Medaka con la PCR
Esperimento
Selezione
Fase 1
Fase 2
Identifica i fenotipi al microscopio stereoscopico. Seleziona un embrione mutante e uno
normale e trasferiscili in due provette da 2 ml con una pipetta. Rimuovi il liquido in eccesso
con la pipetta. Attenzione: assicurati di aver scritto su ciascuna provetta quale tipo di
embrione contiene!
Aggiungi in ogni provetta 200 µl di tampone TEN9. Omogenizza con due o tre colpi di
pestello ciascun embrione e aggiungi 10 µl di proteinasi K (20 mg/ml) (la proteinasi K separa
il DNA dalle proteine che sono legate ad esso). Lascia in incubazione per 24h circa a 500C .
Estrazione del DNA
Nota: Secondo la legislazione europea i pesci sono considerati animali solo dopo la schiusa
dell’uovo, perciò, legalmente, NON STAI eseguendo esperimenti su animali.
Fase 3
Aggiungi 200 µl di fenolo:cloroformio:alcol isoamilico (25:24:1). Mescola bene invertendo
per 10 minuti.
Fase 4
Centrifuga le provette in una centrifuga da banco per 20 min. a 10.000 rpm a 40C. Trasferisci
le provette in ghiaccio. Trasferisci la fase acquosa in una nuova provetta (su cui hai già scritto
il tipo di embrione!) e aggiungi 200 µl di isopropanolo. Mantieni le provette a 40C (l’
isoporopanolo fa precipitare il DNA. Infatti il DNA non è solubile in alcol; perciò quando
esso viene aggiunto alla miscela, gli altri componenti passano in soluzione nell’alcol, mentre
il DNA precipita).
Fase 5
14
Centrifuga le provette in una centrifuga da banco per 10 min. a 14000 rpm a 40C. Rimuovi il
sovranatante (il DNA dovrebbe ora essere visibile sotto forma di pellet attaccato alle pareti
della provetta), aggiungi 400 µl di etanolo in acqua al 70% (l’etanolo serve per lavare il pellet
di DNA) e centrifuga ogni provetta in una centrifuga da banco per 5 minuti a 14000 rpm a
40C. Togli il sovranatante e lascia asciugare per alcuni minuti. Risospendi il pellet in 40 µl di
tampone TE.
Fase 6
Prendi due provette da 0,5 ml, fai un segno di riconoscimento per ogni tipo di embrione e,
tenendole in ghiaccio, prepara per ciascuna la seguente soluzione:
•
•
•
2 µl di DNA stampo (da prelevarsi dall’estratto di embrioni)
22.8 µl pre-mix per PCR (nucleotidi, tampone di reazione, primers, acqua)
0.2 µl Taq polimerasi
25 µl volume finale di reazione
Wash
PCR
Fase 7
Programma il termociclatore con il protocollo seguente
Step 1:
94°C
Step 2:
94°C
Step 3:
68°C
40 cicli degli step 2 – 3
Step 4:
72°C
1 minuto
45 secondi
2 minuti
5 minuti.
Preriscalda il blocco e mettilo in pausa, inserisci le tue
provette e fai ripartire il programma.
Fase 8
Ettroforesi su gel
Fase 9
Alla fine della PCR trasferisci le provette in ghiaccio.
Prepara un gel di agarosio all’1%. Trasferisci il gel nella vaschetta per l’elettroforesi riempita
con tampone TAE. Carica 20 µl del prodotto di PCR in ogni pozzetto e 5 µl di marcatore di
DNA come riferimento negli ultimi pozzetti a destra e sinistra del gel. (L’elettroforesi è un
metodo che permette di separare le diverse molecole di DNA in base alle loro dimensioni
grazie alla loro carica elettrica negativa. Il DNA viene messo in un denso polimero
(l’agarosio) che funziona come un grosso setaccio molecolare e viene creato un campo
elettrico. La cariche negative del DNA fanno sì che esso si muova attraverso la rete
tridimensionale dell’agarosio verso il polo positivo del campo elettrico. Tanto più lunga è la
molecola di DNA tanto più è difficoltoso il suo passaggio attraverso il polimero e quindi la
distanza percorsa risulta inversamente proporzionale alle dimensioni della molecola.)
Fase
10
Lascia correre il gel a 100V per 45 minuti.
Fase
11
Trasferisci il gel nella soluzione di etidio bromuro per colorarlo (il bromuro di etidio è una
molecola fluorescente che si inserisce (intercala) fra le basi del DNA rendendolo visibile sotto
la luce UV). Lascia il gel nella soluzione per 10 minuti a temperatura ambiente (Attenzione! Il
bromuro d’etidio è una sostanza tossica e mutagena, metti i guanti!).
Fase
12
Metti il gel su un transilluminatore e scatta una fotografia.
15
Reagenti
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
tampone TE (tris EDTA);
tampone TEN9 (100mM Tris pH8.5 , 10 mM EDTA, 200mM NaCl, SDS 10%)
Proteinasi K (20 mgr/ml)
fenolo:cloroformio:alcol isoamilico (25:24:1)
isopropanolo
etanolo in acqua al 70%;
PCR pre-mix (25 ml per reazione):
2.5 ml dNTPs (2.5 mM)
0.5 ml reverse primer (50 mM)
0.5 ml forward primer (50 mM)
2.5 ml 10x tampone PCR
16.8 ml acqua
Taq polimerasi;
1% agarosio;
tampone TAE (tris acetato EDTA) per elettroforesi;
DNA marker;
soluzione di etidio bromuro;
ghiaccio.
Tris = trisidrossimetilaminometano = NH2C(CH2 OH)3
EDTA = Acido Etilendiamintetracetico, agente chelante, blocca enzimi come le
proteasi
SDS = sodiododecilsolfato
Attrezzatura e strumentazione da laboratorio
•
•
•
•
•
•
•
•
•
•
•
•
•
•
16
microscopi stereoscopici;
freezer -20°C;
set di pipette (P10, P200, P1000) e puntali;
pipette di plastica per i trasferimenti;
provette da 2.0 ml ;
pestelli di plastica;
provette per PCR;
piastre petri;
centrifughe da banco;
termociclatore per PCR;
vaschette per elettroforesi e alimentatore;
blocchi riscaldati;
transilluminatore UV;
guanti;
6.Una proteina nella rete
6.1 Introduzione alla bioinformatica
L’era genomica ha assistito ad una crescita esponenziale delle informazioni biologiche rese
disponibili dai progressi nel campo della biologia molecolare. In particolare, il
sequenziamento del genoma umano e di altri organismi ha dato un forte impulso a quel settore
della bioinformatica che si occupa dello studio del DNA e delle proteine. La grande sfida che
la comunità scientifica sta ora affrontando consiste nel cercare di analizzare e capire l’enorme
quantità di dati prodotta in laboratorio.
La bioinformatica é una nuova disciplina che si occupa dello sviluppo e dell'integrazione delle
applicazioni della scienza dell’ informazione al servizio della ricerca scientifica in campo
biotecnologico. Per fare ciò utilizza strumenti informatici per analizzare i dati biologici che
descrivono sequenze di geni, composizione e struttura delle proteine, processi biochimici
nelle cellule, etc.
Definizione di BIOINFORMATICA :
(da Wikipedia, l'enciclopedia libera) http://it.wikipedia.org/
Disciplina ultima arrivata nel campo delle bioscienze, la bioinformatica costituisce
l'ambizioso tentativo di descrivere dal punto di vista numerico e statistico i fenomeni
biologici: storicamente ed epistemologicamente la biologia ha sempre sofferto di una carenza
in tal senso rispetto a discipline come la fisica e la chimica, ma oggi la bioinformatica tenta di
supplire a questa lacuna fornendo ai risultati tipici della biochimica e della biologia
molecolare un corredo di strumenti analitici e numerici davvero promettente.
La bioinformatica principalmente si occupa di:
*
fornire modelli statistici validi per l'interpretazione dei dati provenienti da esperimenti
di biologia molecolare e biochimica al fine di identificare tendenze e leggi numeriche
*
generare nuovi modelli e strumenti matematici per l'analisi di sequenze di DNA, RNA
e proteine al fine di creare un corpus di conoscenze relative alla frequenza di sequenze
rilevanti
*
organizzare le conoscenze acquisite a livello globale su genoma e proteoma in basi di
dati al fine di rendere tali dati accessibili a tutti, e ottimizzare gli algoritmi di ricerca dei dati
stessi per migliorarne l'accessibilità.
Una delle attività principali dei bioinformatici consiste nella progettazione, costruzione e uso
di banche dati di interesse biologico. Questo tipo di banche dati raccoglie dati e informazioni
derivati da esperimenti di laboratorio, da esperimenti in silico (cioè l’utilizzo di analisi
informatiche che producono dati che possono essere usati come punto di partenza per gli
esperimenti in vitro. Si dice "in silico", in quanto i processori dei calcolatori sono costituiti da
silicio) e dalla letteratura scientifica. Le banche dati sono progettate come contenitori costruiti
per immagazzinare dati in modo efficiente e razionale al fine di renderli facilmente accessibili
a tutti gli utenti: ricercatori, medici, studenti, etc.
Una banca dati è costituita da voci (in inglese entry) ciascuna contenente informazioni
sull’oggetto caratteristico della banca dati (ad esempio: sequenze nucleotidiche o referenze
bibliografiche) insieme a tutte le altre informazioni che si riferiscono a quella entry in
particolare).
Una entry di una banca dati di sequenze nucleotidiche potrebbe contenere, oltre alla sequenza
di una molecola di DNA, il nome dell’organismo cui la sequenza appartiene, la lista degli
articoli che riportano dati su quella sequenza, le caratteristiche funzionali (cioè se si tratta di
un gene o di una sequenza non codificante) e ogni altra informazione ritenuta di interesse.
17
6.2 Esempio di banca dati: la rubrica telefonica
Ognuno di noi ha esperienza di banche dati come le rubriche telefoniche. In una rubrica
telefonica, una entry ha come oggetto principale il numero di telefono di uno dei nostri amici
o parenti
La nostra rubrica sarebbe totalmente inutile se insieme ai numeri di telefono non
catalogassimo anche il nome e il cognome del possessore del numero di telefono
La nostra rubrica potrebbe essere arricchita anche con altre informazioni: l’indirizzo della
persona (di casa e di lavoro), la sua occupazione (se non ci ricordassimo il nome
dell’idraulico, dovremmo provare tutti i numeri della rubrica mentre la casa si allaga!!!!), il
suo compleanno.
Una banca dati potrà di conseguenza apparire come un elenco di righe o come un insieme di
tabelle
Bruno Macchi
Carla Cecioni
Dante Alighieri
| dentista
| autista
| poeta
| via Calandrino 27
| piazza Crati 45
| via Monti 35
| 02-72597259
| 02-68686868
| 02-41563444
NOME
Ercole Palestri
LAVORO
NOME
Dante Alighieri
INDIRIZZO
LAVORO
poeta
NOME
Carla Cecioni
TELEFONO
INDIRIZZO
monti
27Macchi
LAVORO
NOME viamaestra
Bruno
TELEFONO
02-72597259
INDIRIZZO
viadentista
Calandrino 27
LAVORO
TELEFONO
INDIRIZZO02-72597259
via Calandrino 27
TELEFONO 02-72597259
6.3 Tipi di banche dati: primarie e specializzate
Le banche dati possono essere di due tipi: primarie o specializzate.
Le banche dati primarie contengono informazioni e annotazioni delle sequenze
nucleotidiche e proteiche, strutture del DNA e proteine e dati sull’ espressione di DNA e
proteine.
Le principali banche dati primarie sono: la EMBL datalibrary, la GenBank e la DDBJ. La
EMBL datalibrary è la banca dati europea costituita nel 1980 nel laboratorio Europeo di
Biologia Molecolare di Heidelberg (Germania). La GenBank è la corrispondente banca
americana costituita nel 1982 e la DDBJ è la corrispondente Giapponese. Fra le tre banche
dati è stato stipulato un accordo internazionale per cui il contenuto dei dati di sequenza
presenti nelle tre banche dati è quasi del tutto coincidente in quanto gli aggiornamenti
quotidiani apportati in ciascuna banca dati vengono automaticamente trasmessi alle altre due.
Le banche dati specializzate si sono sviluppate successivamente e raccolgono insiemi di
dati omogenei dal punto di vista tassonomico e/o funzionale disponibili nelle banche dati
primarie e/o in letteratura, o derivanti da vari approcci sperimentali, rivisti e annotati con
informazioni di valore aggiunto.
18
Sequenze
nucleotidiche
strutture 3D
sequenze
proteiche
BD
farmaci
motivi funzionali
letteratura
scientifica
6.4 Strumenti bioinformatici
Una volta che i dati sono stati archiviati nelle banche date biologiche è necessario utilizzare
alcuni strumenti bioinformatici in modo tale da ricavarne informazioni. Essi si sono sviluppati
in base a questi tre processi biologici fondamentali:
- la sequenza del DNA determina la sequenza aminoacidica della proteina (mediante il
processo della sintesi proteica);
- la sequenza aminoacidica determina la struttura tridimensionale della proteina;
- la struttura tridimensionale della proteina ne determina la funzione.
La bioinformatica ha focalizzato la sua analisi su dati relativi a questi processi, e di
conseguenza le banche dati costituiscono un potente supporto per una vasta gamma di
ricerche quali, ad esempio:
- data una sequenza di acidi nucleici o proteica trovare una sequenza simile in banca dati;
- data una struttura proteica trovare, in banca dati, una struttura simile ad essa;
- data una sequenza proteica prevedere una possibile struttura tridimensionale.
I principali strumenti possono essere cosi organizzati:
Ricerca di sequenze simili
Sequenze omologhe sono sequenze che hanno un gene ancestrale comune. Il grado di
simalarità fra due sequenze può essere misurato mentre l’omologia è un dato qualitativo.
Esistono una serie di strumenti (ad es. BLAST) che possono essere utilizzati per identificare
similarità fra nuove sequenze con funzione e struttura sconosciuta e sequenze (archiviate nelle
banche dati) la cui struttura e funzione sono note.
Studio delle funzione delle proteine
Questo gruppo di programmi (es. PROSITE, SMART) permette di utilizzare una sequenza
per estrarre informazioni su motif, domini strutturali dalle banche dati specializzate. Questo
potrebbe essere di aiuto per avere informazioni sulla funzione della proteine ignota.
Analisi delle strutture
Questi strumenti permettono di comparare una struttura con una banca dati di strutture note.
Molto spesso proteine con struttura simile hanno una stessa funzione, quindi determinare la
struttura secondaria/terziaria é cruciale per capire la funzione. (es. EBI-MSD)
Analisi della sequenza primaria
Identificare/analizzare l’evoluzione, identificare mutazioni, regioni idrofobiche o altre
proprietà che permettano di capire la funzione della proteina. (es. ENSEMBL)
19
6.5 Principali applicazioni della Bioinformatica
Numerose possono essere le applicazioni della bioinformatica. Qui citeremo solo un aspetto
della medicina molecolare. Si ritiene che molte malattie siano associate ad una componente
genetica. La malattia, infatti, può essere ereditaria (sono note circa 3000-4000 malattie
genetiche come la fibrosi cistica, alcune forme di diabete,..) oppure essere il risultato di fattori
ambientali che causano alterazioni del genoma (tumori, malattie cardiache, ecc). Una branca
della bioinformatica studia quali geni siano associati a diverse malattie per capirne più
chiaramente le basi molecolari con lo scopo di migliorarne la prevenzione e la cura.
7. Caccia al tesoro bioinformatica
Nel corso di questa attività utilizzeremo alcune delle più importanti banche dati disponibili in
rete per cercare informazioni su una proteina. Immaginate di aver appena ottenuto
sperimentalmente da tessuti di Zebrafish la sequenza di una proteina che sapete essere il
fattore di trascrizione Pax6: seguendo le tracce di questa proteina nella rete scopriremo se
abbia un omologo in uomo e troveremo informazioni sulla sua funzione, struttura,
localizzazione e sulle malattie associate a mutazioni nella sua sequenza.
1. Apri, con un rapido doppio click, il file sequenza.txt che si trova sul desktop del tuo
computer.
MPQKEYYNRATWESGVASMMQNSHSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCD
ISRILQVSNGCVSKILGRYYETGSIRPRAIGGSKPRVATPEVVGKIAQYKRECPSIFAWE
IRDRLLSEGVCTNDNIPSVSSINRVLRNLASEKQQMGADGMYEKLRMLNGQTGTWGTRPG
WYPGTSVPGQPNQDGCQQSDGGGENTNSISSNGEDSDETQMRLQLKRKLQRNRTSFTQEQ
IEALEKEFERTHYPDVFARERLAAKIDLPEARIQVWFSNRRAKWRREEKLRNQRRQASNS
SSHIPISSSFSTSVYQPIPQPTTPVSFTSGSMLGRSDTALTNTYSALPPMPSFTMANNLP
MQPSQTSSYSCMLPTSPSVNGRSYDTYTPPHMQAHMNSQSMAASGTTSTGLISPGVSVPV
QVPGSEPDMSQYWPRLQ
La sequenza di lettere che vedi rappresenta la sequenza primaria della proteina Pax6 del pesce
Zebrafish. Ogni lettera corrisponde ad uno dei venti amminoacidi esistenti, come indicato
nella seguente tabella.
Ala A Alanina
Leu L Leucina
Arg R Arginina
Lys K Lisina
Asn N Asparagina
Met M Metionina
Asp D Acido aspartico
Phe F Fenilanina
Cis C Cisteina
Pro P Prolina
Gly G Glicina
Ser S Serina
Glu E Acido glutamico Thr T Treonina
Gln Q Glutamina
Trp W Triptofano
His H Istidina
Tyr Y Tirosina
Ile I Isoleucina
20
Val V Valina
2. Seleziona l’intera sequenza facendo click sul menù Modifica e scegliendo la voce
Seleziona tutto. Quando il testo é evidenziato con uno sfondo in colore diverso, scegli
dal menù Modifica la voce Copia. Chiudi il file sequenza.txt.
3. Dall’icona del browser sul desktop del tuo computer apri la pagina web di BLAST:
http://www.ncbi.nlm.nih.gov:80/BLAST/ e seleziona l’opzione protein-protein
BLAST é un programma interattivo mantenuto dal sito NCBI (vedi glossario) che serve per
confrontare una sequenza (nucleotidica o amminoacidica) con tutte le sequenze registrate
nelle banche dati.
4. Con il mouse fai click nella finestra Search e incolla la sequenza che hai copiato
precedentemente, scegliendo incolla dal menù Modifica. Seleziona SwissProt nella
finestra Choose database; nella finestra Options, nella parte inferiore della pagina,
seleziona Homo Sapiens come organismo. Fai click sul tasto BLAST.
21
Queste sono le prime informazioni ottenute dal programma sulla tua sequenza, prima di
confrontarla con quelle in banca dati. Come puoi vedere la proteina contiene 437
amminoacidi. La rappresentazione grafica evidenzia la presenza di due domini noti nella
proteina: il dominio PAX e un omeodominio. Si tratta di regioni della sequenza proteica con
una struttura indipendente e che svolgono una funzione specifica. I tratti della proteina
rappresentati in azzurro (grigio sulla carta) rappresentano le regioni a bassa complessità (vedi
glossario), cioè regioni caratterizzate da un’inusuale ripetizione di alcuni amminoacidi.
5. Fai click sul tasto Format.
Dovrai aspettare qualche minuto prima di avere il risultato della ricerca perché il programma
impiega un certo tempo a confrontare la tua sequenza con quelle disponibili in banca dati.
22
6. Quando il browser visualizza la pagina dei risultati della ricerca, osservala da cima a
fondo utilizzando la barra di scorrimento laterale.
Come avrai notato, la pagina é divisa in tre sezioni. La prima presenta lo schema riportato qui
sopra. La linea rossa numerata come un righello rappresenta la sequenza che avete inserito per
la ricerca e sotto di essa sono rappresentate come spesse linee le varie sequenze di proteine
umane trovate in banca dati. Il colore delle rette indica il grado di similarità, il rosso indica il
valore più elevato come illustrato dalla scala di colore. Come puoi vedere, le varie sequenze
trovate dal programma hanno diverse lunghezze e diverso grado di similarità. In questo caso,
la prima mostra quasi la stessa lunghezza e la massima similarità.
Scendendo lungo la pagina con la barra di scorrimento laterale, raggiungete la seconda
sezione dove sono elencati in blu i numeri di accesso delle varie sequenze trovate in diverse
banche dati. A fianco dei numeri di accesso trovate la descrizione breve della proteina a cui si
riferiscono e due numeri (Score e E-Value) che esprimono il grado di similarità. Il più utile é
23
l’E-Value (vedi Glossario): quanto più questo punteggio si avvicina a zero tanto più elevato é
il grado di similarità.
La terza sezione di questa pagina mostra l’allineamento amminoacido per amminoacido fra la
sequenza da noi immessa (indicata con Query) e ciascuna delle sequenze trovate dal
programma (indicata con Sbjct). In mezzo a queste due é inserita una sequenza che
comprende solo gli aminoacidi comuni ad entrambe. Dove la nostra sequenza (Query)
presenta delle X anziché gli amminoacidi che occupano realmente quella posizione, significa
che il programma non ne ha tenuto conto (si dice che li ha mascherati) perché sono regioni a
bassa complessità e quindi non statisticamente significative.
7. Prendi nota del simbolo della proteina che corrisponde alla prima sequenza:
Pax6_human. Come ricorderete dalla rappresentazione grafica iniziale, la prima
sequenza é quella con la maggior similarità. Questo significa che, con ogni
probabilità, la proteina umana omologa a Pax6 di Zebrafish si chiama, anche in
questo organismo, Pax6. Con questo dato, siete pronti per proseguire la caccia al
tesoro nella prossima banca dati: SwissProt.
8. Apri il sito della banca dati SwissProt all’indirizzo:
http://www.expasy.org/sprot/sprot-top.html.
24
9. Inserisci nella finestra Search il codice d’identificazione della nostra proteina
(Pax6_human) e fai click sul tasto Go.
10. La pagina dei risultati é molto lunga e divisa in sezioni, ciascuna segnalata con una
striscia blu. Con la barra di scorrimento laterale osserva i vari tipi di informazioni
disponibili. Poi torna all’inizio.
In quest’area della pagina puoi trovare informazioni sul nome della proteina e i suoi
sinonimi. Inoltre é indicato il nome del gene e alcune indicazioni tassonomiche
sull’organismo (in questo caso l’uomo).
25
11. Prendi nota del numero d’identificazione tassonomica TaxID (9606). Esso
identifica quest’organismo nella banca dati dell’NCBI che contiene
informazioni tassonomiche. Fai scorrere la pagina con la barra di scorrimento
laterale fino alla sezione References.
In questa sezione puoi trovare elencati i dati di alcuni articoli relativi alla nostra proteina,
Pax6.
12. Cerca:
a) in quale referenza é possibile trovare informazioni sulla conservazione della sequenza
di Pax6 in altri organismi. (risposta: [2])
b) almeno tre referenze che si riferiscano a malattie associate a mutazioni in Pax6.
(risposta: dalla [14] in poi).
Fai scorrere la pagina fino alla sezione Comments.
26
13. Cerca in questa sezione informazioni sulla funzione, sulla localizzazione e
sull’espressione di Pax6.
Quale organo colpiscono le malattie associate a mutazioni in questo gene?
(risposta: gli occhi)
Fai scorrere la pagina fino alla sezione Cross-references.
In questa sezione sono contenuti i link a banche dati che contengono informazioni di altro tipo
riferite a Pax6. É possibile anche ritrovare le stesse pagine eseguendo una ricerca nelle banche
dati specifiche utilizzando i numeri d’accesso segnalati in questa pagina.
14. Prendi nota di tutti i numeri d’accesso della banca dati PDB, OMIM (segnalati con
MIM) e SMART (che si trova più in basso in questa pagina).
Fai scorre la pagina fino a raggiungere la sezione Sequence information.
27
Questa sezione riporta la sequenza della proteina Pax6 umana, puoi dedurne la lunghezza e il
peso molecolare.
A questo punto le informazioni che hai annotato sul foglietto ti dicono gia molte cose sulla
proteina di cui fino a poco fa conoscevi solo la sequenza in Zebrafish! Ma con i numeri di
accesso di cui hai preso nota possiamo sapere molto di più visitando altre banche dati.
15. Apri
l’home
page
dell’NCBI
(vedi
glossario)
all’indirizzo
http://www.ncbi.nlm.nih.gov/ e fai click sulla parola TaxBrowser in bianco sulla
striscia blu sotto il logo.
28
16. Nella casella per la ricerca digita il numero TaxID di cui hai preso nota (9606) e fai
click sul tasto Go.
Come puoi vedere il numero di accesso corrisponde all’organismo Homo sapiens.
17. Per saperne di più fai click sulla parola Homo sapiens.
Ci sono due specie sotto Homo sapiens, una delle quali estinta!
29
18. Fai click sulla prima voce.
In questa pagina puoi trovare altre informazioni sulla classificazione dell’organismo che ti
interessa, oltre al suo nome comune e il numero di cromosomi che lo caratterizzano. Facendo
click sul numero di un cromosoma é possibile accedere alla sua mappa.
19. Apri la home page di SMART all’indirizzo http://smart.embl-heidelberg.de/ .
20. Digita nella casella search il codice per la nostra proteina di cui hai preso nota
(Pax6_human) e fai click sul tasto Go.
30
In questa pagina é possibile trovare informazioni sui domini che caratterizzano la nostra
proteina: un dominio PAX e un omeodominio (indicato con HOX). Il tipo di domini presenti
spesso caratterizza anche la famiglia a cui una proteina appartiene. Per esempio Pax6 è il
sesto membro della famiglia Pax.
Per avere ulteriori informazioni riguardo ai due domini presenti in Pax6, fate click sullo
schema della proteina, rispettivamente PAX e HOX
21. Apri l’home page della banca dati PDB all’indirizzo http://www.ebi.ac.uk/thorntonsrv/databases/pdbsum/ .
22. Nella casella search digita il codice PDB di cui hai preso nota consultando SwissProt
e fai click su Find.
31
Questa banca dati fornisce informazioni sulla struttura terziaria della proteina. Nella figura si
vede il cristallo costituito dalla proteina associata al DNA. La struttura secondaria può essere
ad alfa-elica, beta-foglietto o casuale.
23. Fai click sul logo Jmol sopra la scritta Contents sulla sinistra dello schermo.
Questo link permette di accedere ad animazioni della molecola che può essere ruotata o vista
più o meno da vicino tramite la funzione zoom. In questa rappresentazione le alfa-eliche sono
indicate con spirali in rosa (corrispondenti ai cilindri viola nella visione statica), i betafoglietti sono frecce (in giallo in Jmol) e le strutture casuali sono strisce. Il DNA è
rappresentato con la tipica doppia elica.
24. Fai click sulla lettera A collegata alla parole Protein chain, sotto la voce Contents,
sulla sinistra dello schermo.
32
In questa pagina ci sono informazioni sulla struttura secondaria della proteina ed é possibile
vedere l’animazione della sua struttura tridimensionale facendo click sulla figura in alto a
sinistra.
Ora che conosci le caratteristiche della proteina sei pronto a scoprire qualcosa di più sulla sua
funzione e sulle malattie ad essa correlate.
25. Apri l’home page del sito NCBI http://www.ncbi.nlm.nih.gov/ e fai click sulla parola
OMIM in bianco sulla striscia blu sotto il logo.
26. Digita nella casella Search le parole Pax6 e human. L’utilizzo di due termini permette
di restringere un pò la ricerca perché il programma cercherà tutte le voci in banca dati
che le contengano entrambe. Fai click su tasto Go.
33
27. Fai click sulla prima voce.
Questa banca dati fornisce un riassunto dei dati principali legati ad una proteina, un gene o
una malattia (vedi l’introduzione a OMIM). Confronta i numeri delle referenze che trovi citate
con quelli di cui hai preso nota nella banca dati SwissProt. Alcune referenze che sono state
trovate da questa ricerca non sono presenti nella tua lista. Si tratta di voci richiamate perché
contengono le parole digitate ma che non si riferiscono specificamente alla proteina Pax6 (ad
esempio la voce bibliografica 167416).
Per ottenere informazioni più specifiche é possibile accedere direttamente alle pubblicazioni
scritte dai ricercatori per comunicare i loro risultati. I riassunti (abstract) degli articoli sono
raccolti nella banca dati PubMed (vedi introduzione a PubMed).
34
28. Apri l’home page del sito NCBI http://www.ncbi.nlm.nih.gov/ e fai click sulla parola
PubMed in bianco sulla striscia blu sotto il logo.
29. Nella casella Search digita Pax6 e fai click sul tasto Go.
Questa banca dati fornisce i riferimenti degli articoli pubblicati che contengano le parole con
cui hai eseguito la ricerca (per saperne di più vedi l’introduzione a PubMed). I primi articoli
in cima alla pagina sono, di solito, quelli più recenti. Facendo click sul simbolino giallo a
sinistra é possibile accedere al riassunto dell’articolo e al testo completo dell’articolo, se
l’editore lo mette a disposizione. Nella parte alta della pagina é scritto il numero totale di
articoli presenti in banca dati che soddisfano la ricerca: 746. Per restringere la ricerca é
possibile digitare più parole separate da “AND”. Questo fa sì che il sistema cerchi solo gli
articoli che contengono tutte le parole digitate.
35
30. Digita nella casella Search le parole “Pax6”, “eye”, “development”, “human”
separate da “AND”.
In questo caso le voci sono “soltanto” 104 e sono più specifiche per quanto riguarda lo
sviluppo dell’occhio. Facendo click sull’icona gialla a sinistra del titolo potete accedere ai
riassunti degli articoli.
A questo punto sai davvero quasi tutto quello che è necessario per risolvere la domanda finale
della caccia al tesoro!
36
7.1 Modulo per la caccia al tesoro bioinformatica
1. Esiste una proteina umana omolga a Pax6 di Zebrafish?
Risposta:
Risposta:
2. Da quali elementi è possibile capire quale sequenza di quelle trovate dal programma sia
omologa a quella di Zebrafish?
Risposta:
3. prendi nota del codice di identificazione con cui è indicata la sequenza scelta
.......................................................................................................................................................
4. Dalla pagina di SwissProt prendi nota del numero taxID
.............................................................................................
5. Indica in quale referenza è possibile trovare informazioni sulla conservazione della
sequenza di Pax6 in altri organismi
.....................................................................................................................................................
6. Indica almeno tre referenze che si riferiscano a malattie associate a mutazioni in Pax6
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
7. Indica la funzione della tua proteina
.......................................................................................................................................................
.......................................................................................................................................................
8. Indica la localizzazione subcellulare della tua proteina
.......................................................................................................................................................
.......................................................................................................................................................
37
9. Indica in quali tessuti è espressa la tua proteina
.......................................................................................................................................................
.......................................................................................................................................................
10. Indica quale organo colpiscono le malattie associate a mutazioni in questo gene
.......................................................................................................................................................
.......................................................................................................................................................
11. Prendi nota del numero di accesso della banca dati PDB
.......................................................................................................................................................
12. Prendi nota di tutti i numeri della banca dati OMIM
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
13. Prendi nota del numero di accesso della banca dati SMART
.......................................................................................................................................................
14. Qual’è la lunghezza e il peso molecolare di questa proteina?
.......................................................................................................................................................
.......................................................................................................................................................
15. Utilizzando i codici di accesso che hai scritto nelle risposte 11, 12, 13 puoi accedere ad
altre informazioni contenute in diverse banche dati.
16. Ora, utilizzando le banche dati che hai visitato, rispondi alla domanda finale che decreta il
vincitore della caccia: in quali specie è stato individuato un omologo di Pax6 di Zebrafish?
38
7.2 La bancadati UniProt/Swiss-Prot
Uniprot/Swiss-Prot é una bancadati di sequenze proteiche che fornisce diversi tipi
di informazioni: sequenze, riferimenti bibliografici, informazioni sull’organismo da cui deriva
la proteina oltre a quelle che sono chiamate annotazioni (annotations). Le annotazioni
comprendono la descrizione della funzione della proteina, le sue modificazioni posttrascrizionali (ad esempio carboidrati associati, fosforilazione, acetilazione), i suoi siti e i
domini (come per esempio le regioni che legano il calcio, o i siti di legame per l’ATP, zinc
fingers, homeobox), la sua struttura secondaria (alfa elica, beta foglietto), la struttura
quaternaria (cioè se costituisce omodimeri, eterodimeri, ecc.), similarità con altre proteine,
patologie associate a mutazioni nella sua sequenza, varianti proteiche, ecc.
Questo database é gestito in collaborazione dallo Swiss Institute for Bioinformatics (SIB) and
the European Bioinformatics Institute (EBI).
L’homepage di Uniprot/Swiss-Prot si trova all’indirizzo http://www.expasy.org/sprot/
Per eseguire una ricerca inserisci
una o più termini nella casella
“search for” e fai click sul
pulsante d’azione “Go”. Il
sistema richiamerà tutte le
informazioni che contengono i
termini della ricerca. Per la
ricerca puoi usare il nome o il
simbolo di un gene o di una
proteina o i codici di accesso che
hai ricavato da altre banchedati.
Per esempio digita Pax6,
seleziona
Swiss-Prot
come
database e fai click sul pulsante
Go.
Il risultato della ricerca é una lista di voci
che riguardano Pax6 in diversi organismi.
Nella prima riga c’é il simbolo del gene in
blu
seguito
dall’identificazione
dell’organismo e da un codice che
identifica questo gene. Nella seconda riga
in nero c’é il nome della proteina, in questo
caso paired box protein Pax6, i suoi
sinonimi e il nome dell’organismo di
provenienza in inglese e in latino.
Fai click sulla voce che si riferisce a Pax6
umano.
39
Fai scorrere la pagina che hai ottenuto con
la barra di scorrimento laterale: essa é
divisa in sezioni, dedicate ciascuna a un
diverso tipo di informazioni e identificate
dal titolo sulla striscia blu.
Sotto i primi due titoli, “Entry
information” e “Name and origin of the
protein”, ritroviamo le informazioni sul
nome della proteina, del gene e sulla
posizione tassonomica dell’organismo di
origine.
In questa sezione puoi trovare elencati i dati di
alcuni articoli relativi alla proteina, Pax6.
Nella sezione “Comments” si trovano
informazioni sulla funzione della proteina e
sulle eventuali malattie ad essa correlate. I
codici in blu preceduti dalla lettere MIM
costituiscono un link alle pagine web della
bancadati di OMIM (vedi l’introduzione a
OMIM).
40
In questa sezione sono contenuti i link a
banchedati che contengono informazioni
di altro tipo riferite a Pax6, per esempio
sulla struttura della proteina, sui suoi
domini, sulle funzioni molecolari, ecc. É
possibile anche ritrovare le stesse pagine
eseguendo una ricerca nelle banchedati
specifiche
utilizzando
i
numeri
d’accesso segnalati in questa pagina. In
particolare é possibile accedere ai
database OMIM, SMART e PDB (per
avere altre informazioni, vedi la caccia
al tesoro bioinformatica).
7.3 La bancadati OMIM
OMIM, Online Mendelian Inheritance in
Man, é una bancadati che contiene
informazioni sui geni umani e sulle
malattie genetiche realizzato e mantenuto
dall’NCBI, the National Center for
Biotechnology Information. Esso contiene
la descrizione di geni e delle malattie ad
essi associate, i quadri clinici e i
riferimenti bibliografici, oltre a link a
sequenze e ad altre risorse web. Si tratta
della versione on line del testo
“Mendelian Inheritance in Man”, ora alla
sua dodicesima edizione, a cura di Victor
A. McKusick e di un gruppo di colleghi
della Johns Hopkins University e di altre
istituzioni. La bancadati é aggiornata
quotidianamente e a metà 2004 contiene
oltre 15400 voci. Nella bancadati database
sono riportate solo malattie che sono state
associate ad uno o più geni.
La pagina di accesso ad OMIM si raggiunge tramite un link sulla homepage dell’NCBI:
(http://www.ncbi.nlm.nih.gov/).
Fai click sulla parola OMIM in bianco sulla striscia blu in cima alla pagina.
41
Per eseguire una ricerca inserisci uno o
più parole chiave nella casella “search
for” a fai click sul pulsante “Go”. Il
sistema cercherà tutte le voci in banca dati
che contengano questi termini. Si possono
usare il nome o il simbolo di un gene, il
nome di una malattia, il numero di
accesso ricavato da altre banchedati o
qualunque altro termine che possa servire
per richiamare le informazioni che ti
interessano. Per esempio digita Pax6 e fai
click sul pulsante “Go”.
Questa pagina mostra una serie di voci che
contengono i termini che hai digitato. Dal
numero in alto puoi vedere che, in totale, le
voci che soddisfano la tua ricerca sono 37.
Nella prima riga c’é un codice in blu usato
dal sistema di OMIM per identificare
ciascuna voce della bancadati. Nella seconda
riga, in nero, c’é il nome del gene, seguito dal
suo simbolo. In questo caso il nome é paired
box gene 6, che significa che si tratta del
sesto membro della famiglia di proteine
paired box, mentre il simbolo é Pax6. Nella
terza riga in blu é indicata la localizzazione
del gene. In questo caso 11p13 che significa
che si trova sul cromosoma 11, nel braccio
corto (p sta per petit, corto in francese),
banda 13. In una stessa banda sono spesso
presenti più geni, come si può vedere facendo
click sulla localizzazione in blu.
Fai click sulla prima voce che si riferisce
specificamente a Pax6.
42