1. Introduzione Il corso offre l'opportunità di affrontare il tema classico della relazione fra fenotipo e genotipo in modo moderno e attuale e di approfondire le tematiche connesse alla Biologia dello sviluppo, un'area di grande importanza nella biologia moderna. Il percorso didattico parte dall'osservazione del fenotipo di embrioni di pesce normali e mutanti e giunge a individuare la stretta relazione che intercorre con il rispettivo genotipo a livello molecolare. Si tratta quindi di un viaggio dagli organismi ai loro geni, dal macro al micro, cercando di dimostrare come una mutazione osservabile dal vivo sia rintracciabile a livello molecolare; inoltre con l’utilizzo delle banche dati bioinformatiche, seguiremo la sua storia evolutiva fino all’uomo. 2. Prerequisiti Questi 1. 2. 3. gli argomenti base del corso: Gli organismi modello Le mutazioni Lo sviluppo embrionale 2.1 Gli organismi modello Un vecchio adagio della biologia molecolare dice che i problemi fondamentali possono essere facilmente risolti utilizzando l’organismo più semplice ed accessibile in cui il quesito può essere posto: un organismo modello. Tutti gli organismi modello devono avere delle caratteristiche precise: dimensioni ridotte, tempi brevi di riproduzione, accessibilità e possibilità di manipolazione del genoma. La scelta dell’organismo modello dipende da quale ricerca si voglia fare consentendo di combinare approcci genetici e biochimici. Un organismo modello è un esemplare di una specie che viene utilizzata per studiare fenomeni biologici complessi; le scoperte fatte possono essere poi utilizzate in altri organismi. Questo è possibile poiché i processi biologici fondamentali come il metabolismo, la regolazione, il ciclo cellulare, lo sviluppo embrionale e i geni che li controllano si sono conservati nell’evoluzione. Ci sono vari organismi modello utilizzati in biologia molecolare; il primo è stato probabilmente il batterio Escherichia coli (Fig. 2.1) e tra gli eucarioti il lievito Saccharomyces cerevisiae (Fig. 2.2); il lievito ha un ciclo Fig. 2.2 cellulare molto simile al ciclo cellulare dell’uomo ed è regolato da Fig. 2.1 proteine omologhe a quelle umane. Anche il moscerino della frutta, Drosophila melanogaster (Fig. 2.3), e il nematode Caenorhabditis elegans (Fig. 2.4) sono utilizzati come organismi modello nello studio dello sviluppo e per analizzarne le Fig. 2.4 anomalie. Fig. 2.3 Lo Zebra Danio o Zebrafish (Brachydanio rerio o Danio rerio), Fig. 2.5, l’organismo modello utilizzato per questo corso, è utile per lo studio delle fasi dello sviluppo embrionale dato che si riproduce molto velocemente, passando dallo stato di uovo fecondato a quello di larva in meno di tre giorni attraverso stadi trasparenti; è un pesce tropicale generalmente allevato in acquario, appartenente alla famiglia dei Cyprinidae ed è chiamato Fig.2.5 così per le sue striature orizzontali sul fianco del corpo. Zebrafish è un pesce robusto e resistente, utilizzato per chi vuole iniziare ad allestire un acquario in casa; è originario dell’est dell’India e arriva alla lunghezza di 6 cm vivendo fino a 5 anni. Vive comunemente in ruscelli, canali, stagni e campi di riso ed è onnivoro. Le sue condizioni ambientali ottimali sono: acqua a 6.0–8.0 di pH con conducibilità 700µs e temperatura tra i 18–24 °C. 1 2.2 Le mutazioni Una mutazione è un cambiamento stabile ed ereditabile del materiale genetico. Le mutazioni derivano da errori nella replicazione del genoma e possono essere spontanee o indotte. Le cause fisiche per le mutazioni spontanee includono la variazione di stato tautomerico delle basi (passaggio reversibile dalla forma chetonica a quella enolica, due forme con diversa tendenza all'appaiamento) e l'azione non riconosciuta di mutageni ambientali. Gli agenti mutageni noti sono di natura fisica, chimica o biologica. I fattori fisici più comuni nella mutagenesi sono le radiazioni UV, X e gamma che ionizzano le basi provocando l'addizione di acqua oppure rompono il legame zucchero-fosfato. I composti chimici mutageni agiscono sul DNA già esistente oppure provocano errori di sintesi del nuovo DNA (ad es. sostituzioni di basi) o infine disturbano la normale duplicazione del DNA. Quest’ultima attività è tipica degli agenti intercalanti che si introducono nella doppia elica modificandone l'assetto e interferendo con la sua replicazione. Non sempre l'azione di agenti mutageni porta a mutazione perchè il DNA non è l'unico potenziale bersaglio. Nei diversi casi, possono esserlo anche RNA e proteine con conseguenze più facilmente riparabili dalla cellula. Inoltre, l'effetto mutageno è in relazione con la dose e con l'efficacia dei meccanismi di riparo pre-replicazionali e post-replicazionali di cui la cellula dispone. I prodotti genici che si ottengono dopo mutazione, quando questa non li renda del tutto privi di senso o letali per la cellula, sono di solito inattivi o meno attivi di quelli originari oppure, sebbene molto raramente, provvisti di attività maggiore o diversa. Le mutazioni possono essere di tipo somatico e germinale. Quelle somatiche provocano danni solo all’individuo che le porta, invece quelle germinali, che interessano le cellule riproduttive, si ripercuotono sulla progenie. Le mutazioni possono essere di tre tipi: a) Mutazioni genomiche b) Mutazioni cromosomiche c) Mutazioni geniche o puntiformi a) Mutazioni genomiche: consistono in una variazione del numero di cromosomi dovuta a perdita o aggiunta di interi cromosomi. Si distinguono in: • Aneuploidie: sono piuttosto dannose e si verificano quando ad un organismo diploide (2n) viene a mancare, oppure viene aggiunto, un particolare cromosoma (es. trisomia 21 o sindrome di Down, trisomia 13 o sindrome di Patau e trisomia 18 o sindrome di Edwards, la monosomia del cromosoma X o sindrome di Turner XO); le trisomie sono compatibili con la vita solo per cromosomi di piccole dimensioni e con pochi geni espressi. • Poliploidie: compaiono quando si aggiungono uno o più corredi cromosomici completi. In questo modo un individuo si trova a possedere, all'interno dei nuclei delle sue cellule, un corredo cromosomico triplo (3n) o quadruplo (4n). b) Mutazioni cromosomiche: interi pezzi di cromosomi vengono casualmente eliminati o si fondono con altri già presenti. I geni si vengono così a trovare in una posizione diversa da quella originale. Dato che la regolazione dell’attività di un gene dipende, in parte, dalla sua localizzazione nel genoma, le mutazioni cromosomiche hanno, generalmente, effetti estremamente drammatici e sono piuttosto rare. Si evidenziano questi tipi (Fig. 2.6): • Delezioni e duplicazioni: portano alla perdita durante la meiosi di piccoli segmenti. Questi s’inseriscono nel cromosoma omologo che viene quindi a possedere un tratto del DNA duplicato. • Traslocazioni: scambio di materiale cromosomico tra due cromosomi non omologhi. 2 • • • Inversioni: sono dovute a doppia rottura cromosomica e inserzione del frammento in posizione capovolta. Fusione centrica: fusione di due cromosomi con perdita di un centromero. Dissociazione centrica: fenomeno inverso alla fusione; in questo caso da un cromosoma se ne ottengono due con formazione di un nuovo centromero. Fig. 2.6 c) Mutazioni geniche o puntiformi: consistono in cambiamenti nella sequenza delle basi con conseguente alterazione dell’informazione genetica contenuta. Le mutazioni puntiformi comprendono: le sostituzioni, le inserzioni e le delezioni. Nello schema seguente sono mostrati diversi tipi di mutazioni puntiformi: GAC-AAA-GGA-TGA-CTG SEQUENZA ORIGINALE GAC-AAA-CGA-TGA-CTG SOSTITUZIONE DI G CON C GAC-AAA-TGG-ATG-ACT-G GAC-AA~G-GAT-GAC-TG INSERZIONE DI T DELEZIONE DI A La sostituzione di una base può avvenire per errore di appaiamento delle basi durante la replicazione del DNA e può consistere in una transizione (una purina sostituisce l’altra purina o una pirimidina sostituisce l’altra pirimidina) o in una transversione (una purina si ritrova appaiata con una purina o una pirimidina si trova appaiata con una pirimidina). La sostituzione di una base può provocare: • una mutazione “sinonima” se la tripletta codifica per lo stesso amminoacido. • una mutazione “missense” se l’effetto è quello di formare una tripletta che codifica per un amminoacido diverso da quello iniziale. La proteina che incorporerà quell’amminoacido perderà o modificherà, quasi sicuramente, la sua attività enzimatica (es. anemia falciforme). • una mutazione “non sense” se si forma una tripletta che non codifica per alcun amminoacido (tripletta di stop). Questo comporta l’arresto prematuro della sintesi proteica. • una mutazione di “allungamento” se una tripletta di stop viene sostituita da una tripletta codificante. La delezione o l’inserzione di basi determina uno shift nella lettura del codice genetico che, come si usa dire, è un codice privo di punteggiatura. Quindi se in un gene si inserisce o si perde una base, le triplette da quel punto in poi cambiano con conseguente produzione di una catena polipeptidica alterata. 3 É importante osservare che le mutazioni possono essere silenti cioè non avere alcun effetto. Questo può avvenire per diverse ragioni: • la mutazione avviene in un gene che controlla la sintesi di una proteina non indispensabile. • la mutazione interessa una sequenza non codificante (zone introniche). • la mutazione forma una tripletta che codifica per lo stesso amminoacido della tripletta originaria. Questo può avvenire perchè il codice genetico è degenerato cioè sovrabbondante e lo stesso amminoacido è codificato da diverse triplette. • la mutazione viene soppressa da un’altra mutazione. • l’amminoacido mutato non altera la funzionalità della proteina. 2.3 Lo sviluppo embrionale Per sviluppo embrionale si intende il processo che consente allo zigote di accrescersi, differenziarsi ed acquisire le caratteristiche della specie cui appartiene. Le prime fasi dello sviluppo sono influenzate dal tipo di uovo di partenza. A questo riguardo le uova si classificano in base alla quantità di materiale di riserva (tuorlo) in esse contenuto: • uova a-lecitiche, tipiche dei Mammiferi Placentati, sono prive di tuorlo e vanno incontro a divisione totale. • uova oligolecitiche che contengono poco tuorlo; le più comuni sono le uova dei mammiferi, degli anfiossi e dei ricci di mare. L'embrione si trova presto nelle condizioni di non dipendere dall'uovo per sopravvivere. • uova mesolecitiche con media quantità di tuorlo. Le più comuni sono le uova dei Ciclostomi Petromizonti (lampreda di mare), dei Pesci ossei e degli anfibi. Il sostentamento dell'embrione viene garantito solo per le prime fasi dello sviluppo. • uova telolecitiche con grande quantità di tuorlo. Le più comuni sono le uova dei Pesci cartilaginei, dei Rettili, degli Uccelli e dei Mammiferi non placentati. La notevole quantità di tuorlo garantisce il sostentamento per tutto il periodo dello sviluppo. Polarità dell'uovo Il tuorlo (o deutoplasma o vitello) dell'uovo in genere non è distribuito in modo uniforme, ma secondo un gradiente di concentrazione: è più abbondante verso il polo vegetativo dell'uovo, mentre è meno concentrato al polo opposto (polo animale). La polarità dell'uovo, già manifesta nel corso dell'ovogenesi, si esprimerà poi nel piano generale di organizzazione dell' embrione. Lo sviluppo embrionale si suddivide in tre fasi principali: • la segmentazione • la gastrulazione • l'organogenesi La segmentazione inizia subito dopo la fecondazione: l'uovo fecondato (zigote) comincia a dividersi. All' inizio va incontro ad una serie di divisioni mitotiche che portano alla formazione di una morula (massa sferoidale compatta di cellule); ad un certo punto dello sviluppo, al centro di tale struttura viene a formarsi una cavità colma di liquido, definita blastocele, e l’embrione viene allora definito blastula (Fig. 2.7). Le singole cellule prendono il nome di blastomeri. Fig. 2.7 Blastula 4 Poichè il vitello dello zigote non sempre è distribuito omogeneamente, queste prime divisioni cellulari danno origine ad una distribuzione differenziale delle sostanze di riserva nelle cellule figlie; negli embrioni che contengono scarse quantità di vitello o non ne contengono affatto (es. riccio di mare) le cellule che derivano dalla segmentazione hanno tutte la medesima dimensione (Fig. 2.8); questo tipo di segmentazione è detto segmentazione totale. Nelle uova che contengono invece elevate quantità di vitello, i solchi di segmentazione non possono penetrare nella massa di vitello e la segmentazione risulta incompleta. L’embrione si sviluppa di conseguenza come una struttura discoidale, o discoblastula, al di sopra della massa vitellina. Questo tipo di segmentazione viene definito segmentazione discoidale e un esempio è rappresentato dallo sviluppo delle uova di Zebrafish (Fig. 2.9 ) Fig. 2.8 Le prime fasi della segmentazione di un uovo oligolecitico Fig. 2.9 Segmentazione discoidale di un uovo di Zebrafish Successivamente avviene il processo di gastrulazione durante il quale le cellule della blastula si organizzano in tre foglietti embrionali: ectoderma, endoderma, mesoderma. Nella gastrulazione la blastula, mediante invaginazione, si trasforma in gastrula. La gastrula è una struttura formata da un doppio strato cellulare che delimita una cavità, l'archenteron, comunicante all'esterno mediante un'apertura definita blastoporo (Fig. 2.10). Successivamente si forma un terzo strato cellulare, il mesoderma, e si realizzano gli eventi che porteranno alla formazione degli organi principali. In posizione dorsale la parete Fig 2.10 Gastrulazione dell'archenteron (mesoderma) forma un tubo che prende il nome di corda dorsale che costituirà l'asse di sostegno dell'animale. Il mesoderma si suddivide in vescicole simmetriche, dette somiti (Fig. 2.11). I somiti sono collegati per mezzo di peduncoli al rimanente mesoderma che delimita una cavità interna definita celoma. Il celoma è internamente rivestito da una membrana definita peritoneo che avvolge tutti gli organi presenti nella cavità. Alla fine della gastrulazione l'embrione già possiede un Fig. 2.11 Sviluppo di uovo di Zebrafish da 6 a 29 ore dalle fecondazione con formazione dei somiti 5 intestino primitivo e strati di cellule che porteranno successivamente alla formazione di tutti i tessuti ed organi del corpo. L'organogenesi, infine, è il processo con cui si formano i definitivi tessuti ed organi e si determina l'accrescimento corporeo dell'embrione. In particolare, dall’ectoderma si formano l’epidermide, il sistema nervoso, gli organi di senso; dall’endoderma si formano il rivestimento interno dell’apparato digerente e le ghiandole annesse (fegato e pancreas); dal mesoderma si formano il rivestimento della principale cavità del corpo (il celoma), la muscolatura, l’apparato circolatorio, il sangue, l’apparato respiratorio e, nei vertebrati, lo scheletro e l’apparato urogenitale. Nello Zebrafish l’organogenesi inizia a partire dall’ undicesima ora dalla fecondazione (Fig. 2.12). Fig. 2.12 Sviluppo embrionale di Zebrafish da 0 a 72 ore 6 3. Un gene per gli occhi Come le variazioni nella sequenza genomica di un gene possono alterare visibilmente il fenotipo di un organismo Gli obbiettivi di questa attività sono di familiarizzare con: 1) la relazione tra genotipo e fenotipo 2) le tappe fondamentali dello sviluppo del sistema nervoso dei vertebrati 3) l’uso sperimentale dei mutanti I modelli biologici utilizzati: embrioni normali del pesce Zebrafish e embrioni normali e mutati del pesce Medaka Nel corso di questa attività pratica avremo modo di osservare come un singolo difetto genetico possa provocare drastiche alterazioni nella struttura corporea negli embrioni di un vertebrato. A questo scopo, prima osserveremo lo sviluppo embrionale normale di Zebrafish, Danio rerio, con particolare attenzione allo sviluppo del sistema nervoso. Successivamente, studieremo il mutante eyeless del pesce Medaka che è completamente privo di occhi. Simile a Zebrafish, il pesce Medaka dal Giappone, Oryzias latipes, è un organismo modello, importante soprattutto per lo studio dei geni che determinano lo sviluppo embrionale. Per identificare questi geni e il loro ruolo durante lo sviluppo vengono studiati dei mutanti che hanno difetti genetici circoscritti. Per quanto riguarda i pesci, questi mutanti possono essere prodotti su larga scala in laboratorio attraverso mutagenesi chimica. Questi esperimenti di mutagenesi producono una vasta gamma di pesci mutanti, la cui prole mostra difetti fenotipici durante lo sviluppo embrionale. Le mutazioni artificialmente prodotte sono distribuite in modo casuale in tutto il genoma dei pesci e i geni che sono danneggiati in uno specifico fenotipo devono essere identificati successivamente attraverso metodi di genetica e biologia molecolare. L’identificazione delle basi molecolari della variazione fenotipica (cioè ad esempio, il mutante A reca una mutazione puntiforme nel gene B e questa mutazione fa sì che la proteina codificata non funzioni correttamente) è il processo che viene definito genotipizzazione. Durante l’attività pratica genotipizzeremo un mutante noto. Prima di tutto selezioneremo al microscopio embrioni del pesce Medaka portatori della mutazione eyeless distinguendoli da quelli normali. Dopodiché estrarremo il DNA genomico dai singoli embrioni e lo utilizzeremo per un esperimento di PCR. La PCR é progettata in modo che le reazioni a cui é aggiunto DNA estratto dai mutanti eyeless amplifichino un frammento di DNA mentre quelle a cui è aggiunto DNA estratto dagli embrioni normali non diano alcun amplificato. 7 3.1 Attività Pratica: osservazione Un gene per gli occhi: lo sviluppo nei pesci e il modello di Zebrafish Obbiettivo L’obbiettivo di questa attività pratica é presentare agli studenti: • le tappe principali dello sviluppo embrionale nei vertebrati • l’uso di organismi modello nello studio dello sviluppo embrionale Organismo modello Embrioni di Zebrafish (Danio rerio). Perché studiare Zebrafish: La fecondazione é esterna. Gli embrioni sono trasparenti. Si sviluppano in breve tempo, impiegano tre giorni per raggiungere la schiusa dell’uovo. Producono un elevato numero di piccoli. Tollerano di essere allevati ad elevata densità. Condizioni ottimali dell’acqua: Temperatura 27°C, pH 7 Concentrazione di nitrati e nitriti 0% Conducibilità 700 µs Ciclo di illuminazione: Primavera, 14 ore di luce e 10 ore di buio Alimentazione: Artemia (crostaceo) = vitamine Cibo secco = proteine Dimorfismo sessuale: I maschi sono di solito più piccoli, più snelli e di colore più rossiccio. Le femmine hanno un addome rigonfio e un colore che tende al grigio e al verde. Incrocio: Il maschio e la femmina sono messi insieme in una vasca separata per l’accoppiamento nel tardo pomeriggio o alla sera e depongono le uova al ritorno della luce, dopo il periodo di buio. Le uova vengono poi fecondate. I pesci adulti devono essere mantenuti separati dagli embrioni perché tendono a mangiarseli. In natura gli embrioni sono disseminati fra i ciotoli del fondo dove sono fuori dalla loro portata. In laboratorio sono usate speciali vasche per l’accoppiamento con una griglia sul fondo attraverso la quale gli embrioni cadono e rimangono separati dagli adulti. Gli embrioni vengono raccolti con un colino da té e messi in una piastra Petri a 28˚C. I pesciolini possono restare nella piastra Petri per cinque giorni dopodiché sono spostati in un acquario con acqua corrente e nutriti con cibo ricco di proteine per tre settimane circa. 8 4. Un gene per gli occhi: “ Rx3”; la mutazione eyeless nel pesce Medaka Le mutazioni sono cambiamenti della sequenza nucleotidica del DNA che possono verificarsi per cause naturali o essere indotte da agenti esterni. Una mutazione può consistere in una variazione in un solo nucleotide (mutazione puntiforme) o in una delezione o inserzione di un intero frammento di DNA. Le mutazioni possono alterare il funzionamento di un gene in vari modi e gli effetti possono interferire con i processi di trascrizione o traduzione impedendo la produzione di una proteina o possono dar luogo alla formazione di una proteina malfunzionante. La mutazione associata al mutante eyeless del pesce Medaka é una grossa inserzione nel gene Rx3. I geni negli organismi eucarioti non sono costituiti da una sequenza continua ma sono organizzati in segmenti codificanti, detti esoni, interrotti da segmenti di DNA non codificanti anche molto lunghi, detti introni. Il gene Rx3 é costituito da tre esoni interrotti da due introni. L’inserzione che caratterizza la mutazione eyeless si trova fra l’esone 2 e 3 (Fig. 4.1) nel secondo introne. Fig. 4.1 inserzione Negli embrioni normali il gene RX3 viene trascritto in una molecola di RNA messaggero. Le regioni fiancheggianti gli introni vengono riconosciute dall’apparato di splicing che opera dei tagli in corrispondenza delle giunzioni esone/introne e introne/esone, unendo quindi gli esoni in una molecola di RNA maturo. Negli embrioni mutanti eyeless non si formano le molecole di RNA mature necessarie per la traduzione della proteina RX3. La natura e il meccanismo molecolare che causa l’assenza dell’RNA non è stato ancora definito e potrebbe essere dovuto o ad un blocco della trascrizione o ad una mancata maturazione (splicing) dell’RNA (Felix Loosli et al. Development. (2001): 128, 4035-4044). 9 Il gene RX3 codifica per un fattore di trascrizione agendo come un interruttore in grado di accendere o spegnere l’attività di altri geni che a loro volta possono agire su un altro livello di geni ( Fig. 4.2). Fig. 4.2 É chiaro che, se il segnale dall’interruttore principale viene interrotto perché la proteina codificata non viene prodotta, tutti i geni dei successivi livelli non vengono attivati o inattivati come previsto dal programma dello sviluppo (Fig. 4.3). Questo porta al mancato sviluppo della struttura somatica di cui questi geni sono responsabili. Quando il gene RX3 è mutato la Fig.4.3 proteina codificata non viene sintetizzata e non può svolgere la sua azione regolatoria; quindi non attiva la cascata di eventi che porta alla formazione delle strutture oculari. La mutazione eyeless è un esempio di mutazione condizionale, i cui effetti dipendono dalla temperatura. Quando la temperatura è bassa, cioè intorno ai 18 °C, nessuna molecola di RNA maturo viene prodotta. Invece quando la temperatura è più elevata (Fig. 4.4) almeno qualche molecola di RNA maturo riesce ad essere prodotta dando luogo a una quantità ridotta di proteina RX3 che riesce ad attivare la cascata di eventi per la formazione dell’occhio solo in un ristretto numero di cellule. La struttura oculare che si forma è quindi costituita da poche cellule e quindi ridotta. L’attività del macchinario responsabile dello splicing è sensibile alla temperatura e l’effetto della mutazione è più o meno grave a temperature diverse. L’effetto della temperatura sul fenotipo di questa mutazione suggerisce che l’assenza di mRNA per la proteina RX3 sia dovuta ad un difetto dello splicing. 10 Fig. 4.4 L’assenza della proteina prodotta da Rx3 interrompe la cascata di eventi che portano alla formazione degli occhi, dando luogo al fenotipo eyeless (Fig. 4.5) É stato dimostrato che una mutazione nel gene omologo Rx3 in Zebrafish interferisce con lo sviluppo degli occhi. Questo fatto suggerisce che Rx3 sia implicato nello sviluppo degli occhi in tutti i vertebrati. Fig. 4.5 Riconoscere il fenotipo eyeless nel pesce Medaka è molto facile, perché gli embrioni che recano questa mutazione sono totalmente privi di occhi. Fin dallo stadio di neurula é possibile distinguerli perché le vescicole ottiche non si invaginano come avviene negli embrioni normali. Le basi molecolari di una mutazione vengono identificate tramite tecniche di biologia molecolare, un processo detto genotipizzazione. 11 5. Attività Pratica di laboratorio Come funziona una PCR? La PCR é una tecnica basata su un principio semplice che, a partire dagli anni ’80, é divenuta molto comune e preziosa per gli scienziati. Infatti, la PCR (acronimo per Polymerase Chain Reaction) é stata utilizzata per moltissime applicazioni diverse: dalla mappatura dei genomi e la ricerca di base alla diagnosi medica e alla biologia forense. L’idea alla base di questa tecnica venne concepita da Kary Müllis mentre guidava la sua automobile su e giù per le montagne della California e la sua applicazione gli valse l’assegnazione del Nobel per la Chimica nel 1993 (per ulteriori informazioni visita i siti web http://www.nobel.se/chemistry/laureates/1993/index.html http://www.sunsite.berkeley.edu/pcr). Tramite la PCR é possibile produrre quantità illimitate di una specifica regione di DNA, per esempio un gene o uno specifico segmento di DNA. La reazione si svolge in 3 passaggi successivi (Fig. 5.1): 1) 2) 3) Fig. 5.1 Nella prima fase del processo di PCR la molecola a doppio filamento di DNA stampo viene separata aumentando la temperatura in modo che l’energia termica rompa i legami fra i due filamenti. Nella seconda fase la temperatura si abbassa e i primer si appaiano al DNA stampo. Questi ultimi sono due corte molecole (una ventina di basi) di DNA sintetizzate artificialmente in modo da essere complementari a due regioni del DNA stampo che si trovano agli estremi del frammento che vogliamo amplificare, Successivamente la temperatura si alza fino a quella ottimale per l’enzima DNA polimerasi. Esso si lega ai primer e inizia ad allungarli aggiungendo nucleotidi complementari al filamento stampo. Questi tre passaggi vengono ripetuti più volte. Nella prima fase del ciclo successivo, con il riscaldamento, i frammenti prodotti dall’allungamento dei primer nel primo ciclo, si separano dallo stampo e nella seconda fase fungono da stampo a loro volta. I primer si appaiano ad essi e vengono allungati dalla DNA polimerasi. Il numero di copie del frammento desiderato aumenta così in modo esponenziale: nel giro di un paio d’ore viene amplificato un milione di volte! La grande quantità del segmento di DNA così prodotta può essere utilizzata per ulteriori analisi. Proviamo ora ad elencare il materiale che serve per una PCR ripercorrendo i vari passaggi: DNA stampo due primer diversi opportunamente scelti (forward e reverse) DNA polimerasi desossinucleotidi 12 oltre, naturalmente, ad una macchina in grado di modificare la temperatura delle provette secondo il protocollo scelto, cioè un termociclatore. (Confronta questo elenco con quello riportato nel protocollo per la PCR). Durante l’attività pratica di questo corso amplificheremo un frammento del gene RX3 che presenta un’inserzione nei mutanti eyeless. I primer sono disegnati in modo da essere complementari l’uno ad una regione presente nell’inserto che si trova nel DNA dei mutanti, e l’altro a una regione che si trova nel terzo esone del gene Rx3 (Fig. 5.2). Fig. 5.2 Primer forward Esone 2 Esone 3 Inserzione Rx3 Primer reverse In questo modo durante la PCR verrà amplificato il frammento compreso fra i due primer nel caso che il DNA che abbiamo aggiunto nella provetta provenga da un pesce mutante che reca l’inserzione (in rosso). Nel caso in cui invece il DNA provenga da un pesce wildtype il primer forward non potrà appaiarsi al primo ciclo e non otterremo alcun amplificato. 13 Protocollo Genotipizzare i mutanti del pesce Medaka con la PCR Esperimento Selezione Fase 1 Fase 2 Identifica i fenotipi al microscopio stereoscopico. Seleziona un embrione mutante e uno normale e trasferiscili in due provette da 2 ml con una pipetta. Rimuovi il liquido in eccesso con la pipetta. Attenzione: assicurati di aver scritto su ciascuna provetta quale tipo di embrione contiene! Aggiungi in ogni provetta 200 µl di tampone TEN9. Omogenizza con due o tre colpi di pestello ciascun embrione e aggiungi 10 µl di proteinasi K (20 mg/ml) (la proteinasi K separa il DNA dalle proteine che sono legate ad esso). Lascia in incubazione per 24h circa a 500C . Estrazione del DNA Nota: Secondo la legislazione europea i pesci sono considerati animali solo dopo la schiusa dell’uovo, perciò, legalmente, NON STAI eseguendo esperimenti su animali. Fase 3 Aggiungi 200 µl di fenolo:cloroformio:alcol isoamilico (25:24:1). Mescola bene invertendo per 10 minuti. Fase 4 Centrifuga le provette in una centrifuga da banco per 20 min. a 10.000 rpm a 40C. Trasferisci le provette in ghiaccio. Trasferisci la fase acquosa in una nuova provetta (su cui hai già scritto il tipo di embrione!) e aggiungi 200 µl di isopropanolo. Mantieni le provette a 40C (l’ isoporopanolo fa precipitare il DNA. Infatti il DNA non è solubile in alcol; perciò quando esso viene aggiunto alla miscela, gli altri componenti passano in soluzione nell’alcol, mentre il DNA precipita). Fase 5 14 Centrifuga le provette in una centrifuga da banco per 10 min. a 14000 rpm a 40C. Rimuovi il sovranatante (il DNA dovrebbe ora essere visibile sotto forma di pellet attaccato alle pareti della provetta), aggiungi 400 µl di etanolo in acqua al 70% (l’etanolo serve per lavare il pellet di DNA) e centrifuga ogni provetta in una centrifuga da banco per 5 minuti a 14000 rpm a 40C. Togli il sovranatante e lascia asciugare per alcuni minuti. Risospendi il pellet in 40 µl di tampone TE. Fase 6 Prendi due provette da 0,5 ml, fai un segno di riconoscimento per ogni tipo di embrione e, tenendole in ghiaccio, prepara per ciascuna la seguente soluzione: • • • 2 µl di DNA stampo (da prelevarsi dall’estratto di embrioni) 22.8 µl pre-mix per PCR (nucleotidi, tampone di reazione, primers, acqua) 0.2 µl Taq polimerasi 25 µl volume finale di reazione Wash PCR Fase 7 Programma il termociclatore con il protocollo seguente Step 1: 94°C Step 2: 94°C Step 3: 68°C 40 cicli degli step 2 – 3 Step 4: 72°C 1 minuto 45 secondi 2 minuti 5 minuti. Preriscalda il blocco e mettilo in pausa, inserisci le tue provette e fai ripartire il programma. Fase 8 Ettroforesi su gel Fase 9 Alla fine della PCR trasferisci le provette in ghiaccio. Prepara un gel di agarosio all’1%. Trasferisci il gel nella vaschetta per l’elettroforesi riempita con tampone TAE. Carica 20 µl del prodotto di PCR in ogni pozzetto e 5 µl di marcatore di DNA come riferimento negli ultimi pozzetti a destra e sinistra del gel. (L’elettroforesi è un metodo che permette di separare le diverse molecole di DNA in base alle loro dimensioni grazie alla loro carica elettrica negativa. Il DNA viene messo in un denso polimero (l’agarosio) che funziona come un grosso setaccio molecolare e viene creato un campo elettrico. La cariche negative del DNA fanno sì che esso si muova attraverso la rete tridimensionale dell’agarosio verso il polo positivo del campo elettrico. Tanto più lunga è la molecola di DNA tanto più è difficoltoso il suo passaggio attraverso il polimero e quindi la distanza percorsa risulta inversamente proporzionale alle dimensioni della molecola.) Fase 10 Lascia correre il gel a 100V per 45 minuti. Fase 11 Trasferisci il gel nella soluzione di etidio bromuro per colorarlo (il bromuro di etidio è una molecola fluorescente che si inserisce (intercala) fra le basi del DNA rendendolo visibile sotto la luce UV). Lascia il gel nella soluzione per 10 minuti a temperatura ambiente (Attenzione! Il bromuro d’etidio è una sostanza tossica e mutagena, metti i guanti!). Fase 12 Metti il gel su un transilluminatore e scatta una fotografia. 15 Reagenti • • • • • • • • • • • • • • • • tampone TE (tris EDTA); tampone TEN9 (100mM Tris pH8.5 , 10 mM EDTA, 200mM NaCl, SDS 10%) Proteinasi K (20 mgr/ml) fenolo:cloroformio:alcol isoamilico (25:24:1) isopropanolo etanolo in acqua al 70%; PCR pre-mix (25 ml per reazione): 2.5 ml dNTPs (2.5 mM) 0.5 ml reverse primer (50 mM) 0.5 ml forward primer (50 mM) 2.5 ml 10x tampone PCR 16.8 ml acqua Taq polimerasi; 1% agarosio; tampone TAE (tris acetato EDTA) per elettroforesi; DNA marker; soluzione di etidio bromuro; ghiaccio. Tris = trisidrossimetilaminometano = NH2C(CH2 OH)3 EDTA = Acido Etilendiamintetracetico, agente chelante, blocca enzimi come le proteasi SDS = sodiododecilsolfato Attrezzatura e strumentazione da laboratorio • • • • • • • • • • • • • • 16 microscopi stereoscopici; freezer -20°C; set di pipette (P10, P200, P1000) e puntali; pipette di plastica per i trasferimenti; provette da 2.0 ml ; pestelli di plastica; provette per PCR; piastre petri; centrifughe da banco; termociclatore per PCR; vaschette per elettroforesi e alimentatore; blocchi riscaldati; transilluminatore UV; guanti; 6.Una proteina nella rete 6.1 Introduzione alla bioinformatica L’era genomica ha assistito ad una crescita esponenziale delle informazioni biologiche rese disponibili dai progressi nel campo della biologia molecolare. In particolare, il sequenziamento del genoma umano e di altri organismi ha dato un forte impulso a quel settore della bioinformatica che si occupa dello studio del DNA e delle proteine. La grande sfida che la comunità scientifica sta ora affrontando consiste nel cercare di analizzare e capire l’enorme quantità di dati prodotta in laboratorio. La bioinformatica é una nuova disciplina che si occupa dello sviluppo e dell'integrazione delle applicazioni della scienza dell’ informazione al servizio della ricerca scientifica in campo biotecnologico. Per fare ciò utilizza strumenti informatici per analizzare i dati biologici che descrivono sequenze di geni, composizione e struttura delle proteine, processi biochimici nelle cellule, etc. Definizione di BIOINFORMATICA : (da Wikipedia, l'enciclopedia libera) http://it.wikipedia.org/ Disciplina ultima arrivata nel campo delle bioscienze, la bioinformatica costituisce l'ambizioso tentativo di descrivere dal punto di vista numerico e statistico i fenomeni biologici: storicamente ed epistemologicamente la biologia ha sempre sofferto di una carenza in tal senso rispetto a discipline come la fisica e la chimica, ma oggi la bioinformatica tenta di supplire a questa lacuna fornendo ai risultati tipici della biochimica e della biologia molecolare un corredo di strumenti analitici e numerici davvero promettente. La bioinformatica principalmente si occupa di: * fornire modelli statistici validi per l'interpretazione dei dati provenienti da esperimenti di biologia molecolare e biochimica al fine di identificare tendenze e leggi numeriche * generare nuovi modelli e strumenti matematici per l'analisi di sequenze di DNA, RNA e proteine al fine di creare un corpus di conoscenze relative alla frequenza di sequenze rilevanti * organizzare le conoscenze acquisite a livello globale su genoma e proteoma in basi di dati al fine di rendere tali dati accessibili a tutti, e ottimizzare gli algoritmi di ricerca dei dati stessi per migliorarne l'accessibilità. Una delle attività principali dei bioinformatici consiste nella progettazione, costruzione e uso di banche dati di interesse biologico. Questo tipo di banche dati raccoglie dati e informazioni derivati da esperimenti di laboratorio, da esperimenti in silico (cioè l’utilizzo di analisi informatiche che producono dati che possono essere usati come punto di partenza per gli esperimenti in vitro. Si dice "in silico", in quanto i processori dei calcolatori sono costituiti da silicio) e dalla letteratura scientifica. Le banche dati sono progettate come contenitori costruiti per immagazzinare dati in modo efficiente e razionale al fine di renderli facilmente accessibili a tutti gli utenti: ricercatori, medici, studenti, etc. Una banca dati è costituita da voci (in inglese entry) ciascuna contenente informazioni sull’oggetto caratteristico della banca dati (ad esempio: sequenze nucleotidiche o referenze bibliografiche) insieme a tutte le altre informazioni che si riferiscono a quella entry in particolare). Una entry di una banca dati di sequenze nucleotidiche potrebbe contenere, oltre alla sequenza di una molecola di DNA, il nome dell’organismo cui la sequenza appartiene, la lista degli articoli che riportano dati su quella sequenza, le caratteristiche funzionali (cioè se si tratta di un gene o di una sequenza non codificante) e ogni altra informazione ritenuta di interesse. 17 6.2 Esempio di banca dati: la rubrica telefonica Ognuno di noi ha esperienza di banche dati come le rubriche telefoniche. In una rubrica telefonica, una entry ha come oggetto principale il numero di telefono di uno dei nostri amici o parenti La nostra rubrica sarebbe totalmente inutile se insieme ai numeri di telefono non catalogassimo anche il nome e il cognome del possessore del numero di telefono La nostra rubrica potrebbe essere arricchita anche con altre informazioni: l’indirizzo della persona (di casa e di lavoro), la sua occupazione (se non ci ricordassimo il nome dell’idraulico, dovremmo provare tutti i numeri della rubrica mentre la casa si allaga!!!!), il suo compleanno. Una banca dati potrà di conseguenza apparire come un elenco di righe o come un insieme di tabelle Bruno Macchi Carla Cecioni Dante Alighieri | dentista | autista | poeta | via Calandrino 27 | piazza Crati 45 | via Monti 35 | 02-72597259 | 02-68686868 | 02-41563444 NOME Ercole Palestri LAVORO NOME Dante Alighieri INDIRIZZO LAVORO poeta NOME Carla Cecioni TELEFONO INDIRIZZO monti 27Macchi LAVORO NOME viamaestra Bruno TELEFONO 02-72597259 INDIRIZZO viadentista Calandrino 27 LAVORO TELEFONO INDIRIZZO02-72597259 via Calandrino 27 TELEFONO 02-72597259 6.3 Tipi di banche dati: primarie e specializzate Le banche dati possono essere di due tipi: primarie o specializzate. Le banche dati primarie contengono informazioni e annotazioni delle sequenze nucleotidiche e proteiche, strutture del DNA e proteine e dati sull’ espressione di DNA e proteine. Le principali banche dati primarie sono: la EMBL datalibrary, la GenBank e la DDBJ. La EMBL datalibrary è la banca dati europea costituita nel 1980 nel laboratorio Europeo di Biologia Molecolare di Heidelberg (Germania). La GenBank è la corrispondente banca americana costituita nel 1982 e la DDBJ è la corrispondente Giapponese. Fra le tre banche dati è stato stipulato un accordo internazionale per cui il contenuto dei dati di sequenza presenti nelle tre banche dati è quasi del tutto coincidente in quanto gli aggiornamenti quotidiani apportati in ciascuna banca dati vengono automaticamente trasmessi alle altre due. Le banche dati specializzate si sono sviluppate successivamente e raccolgono insiemi di dati omogenei dal punto di vista tassonomico e/o funzionale disponibili nelle banche dati primarie e/o in letteratura, o derivanti da vari approcci sperimentali, rivisti e annotati con informazioni di valore aggiunto. 18 Sequenze nucleotidiche strutture 3D sequenze proteiche BD farmaci motivi funzionali letteratura scientifica 6.4 Strumenti bioinformatici Una volta che i dati sono stati archiviati nelle banche date biologiche è necessario utilizzare alcuni strumenti bioinformatici in modo tale da ricavarne informazioni. Essi si sono sviluppati in base a questi tre processi biologici fondamentali: - la sequenza del DNA determina la sequenza aminoacidica della proteina (mediante il processo della sintesi proteica); - la sequenza aminoacidica determina la struttura tridimensionale della proteina; - la struttura tridimensionale della proteina ne determina la funzione. La bioinformatica ha focalizzato la sua analisi su dati relativi a questi processi, e di conseguenza le banche dati costituiscono un potente supporto per una vasta gamma di ricerche quali, ad esempio: - data una sequenza di acidi nucleici o proteica trovare una sequenza simile in banca dati; - data una struttura proteica trovare, in banca dati, una struttura simile ad essa; - data una sequenza proteica prevedere una possibile struttura tridimensionale. I principali strumenti possono essere cosi organizzati: Ricerca di sequenze simili Sequenze omologhe sono sequenze che hanno un gene ancestrale comune. Il grado di simalarità fra due sequenze può essere misurato mentre l’omologia è un dato qualitativo. Esistono una serie di strumenti (ad es. BLAST) che possono essere utilizzati per identificare similarità fra nuove sequenze con funzione e struttura sconosciuta e sequenze (archiviate nelle banche dati) la cui struttura e funzione sono note. Studio delle funzione delle proteine Questo gruppo di programmi (es. PROSITE, SMART) permette di utilizzare una sequenza per estrarre informazioni su motif, domini strutturali dalle banche dati specializzate. Questo potrebbe essere di aiuto per avere informazioni sulla funzione della proteine ignota. Analisi delle strutture Questi strumenti permettono di comparare una struttura con una banca dati di strutture note. Molto spesso proteine con struttura simile hanno una stessa funzione, quindi determinare la struttura secondaria/terziaria é cruciale per capire la funzione. (es. EBI-MSD) Analisi della sequenza primaria Identificare/analizzare l’evoluzione, identificare mutazioni, regioni idrofobiche o altre proprietà che permettano di capire la funzione della proteina. (es. ENSEMBL) 19 6.5 Principali applicazioni della Bioinformatica Numerose possono essere le applicazioni della bioinformatica. Qui citeremo solo un aspetto della medicina molecolare. Si ritiene che molte malattie siano associate ad una componente genetica. La malattia, infatti, può essere ereditaria (sono note circa 3000-4000 malattie genetiche come la fibrosi cistica, alcune forme di diabete,..) oppure essere il risultato di fattori ambientali che causano alterazioni del genoma (tumori, malattie cardiache, ecc). Una branca della bioinformatica studia quali geni siano associati a diverse malattie per capirne più chiaramente le basi molecolari con lo scopo di migliorarne la prevenzione e la cura. 7. Caccia al tesoro bioinformatica Nel corso di questa attività utilizzeremo alcune delle più importanti banche dati disponibili in rete per cercare informazioni su una proteina. Immaginate di aver appena ottenuto sperimentalmente da tessuti di Zebrafish la sequenza di una proteina che sapete essere il fattore di trascrizione Pax6: seguendo le tracce di questa proteina nella rete scopriremo se abbia un omologo in uomo e troveremo informazioni sulla sua funzione, struttura, localizzazione e sulle malattie associate a mutazioni nella sua sequenza. 1. Apri, con un rapido doppio click, il file sequenza.txt che si trova sul desktop del tuo computer. MPQKEYYNRATWESGVASMMQNSHSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCD ISRILQVSNGCVSKILGRYYETGSIRPRAIGGSKPRVATPEVVGKIAQYKRECPSIFAWE IRDRLLSEGVCTNDNIPSVSSINRVLRNLASEKQQMGADGMYEKLRMLNGQTGTWGTRPG WYPGTSVPGQPNQDGCQQSDGGGENTNSISSNGEDSDETQMRLQLKRKLQRNRTSFTQEQ IEALEKEFERTHYPDVFARERLAAKIDLPEARIQVWFSNRRAKWRREEKLRNQRRQASNS SSHIPISSSFSTSVYQPIPQPTTPVSFTSGSMLGRSDTALTNTYSALPPMPSFTMANNLP MQPSQTSSYSCMLPTSPSVNGRSYDTYTPPHMQAHMNSQSMAASGTTSTGLISPGVSVPV QVPGSEPDMSQYWPRLQ La sequenza di lettere che vedi rappresenta la sequenza primaria della proteina Pax6 del pesce Zebrafish. Ogni lettera corrisponde ad uno dei venti amminoacidi esistenti, come indicato nella seguente tabella. Ala A Alanina Leu L Leucina Arg R Arginina Lys K Lisina Asn N Asparagina Met M Metionina Asp D Acido aspartico Phe F Fenilanina Cis C Cisteina Pro P Prolina Gly G Glicina Ser S Serina Glu E Acido glutamico Thr T Treonina Gln Q Glutamina Trp W Triptofano His H Istidina Tyr Y Tirosina Ile I Isoleucina 20 Val V Valina 2. Seleziona l’intera sequenza facendo click sul menù Modifica e scegliendo la voce Seleziona tutto. Quando il testo é evidenziato con uno sfondo in colore diverso, scegli dal menù Modifica la voce Copia. Chiudi il file sequenza.txt. 3. Dall’icona del browser sul desktop del tuo computer apri la pagina web di BLAST: http://www.ncbi.nlm.nih.gov:80/BLAST/ e seleziona l’opzione protein-protein BLAST é un programma interattivo mantenuto dal sito NCBI (vedi glossario) che serve per confrontare una sequenza (nucleotidica o amminoacidica) con tutte le sequenze registrate nelle banche dati. 4. Con il mouse fai click nella finestra Search e incolla la sequenza che hai copiato precedentemente, scegliendo incolla dal menù Modifica. Seleziona SwissProt nella finestra Choose database; nella finestra Options, nella parte inferiore della pagina, seleziona Homo Sapiens come organismo. Fai click sul tasto BLAST. 21 Queste sono le prime informazioni ottenute dal programma sulla tua sequenza, prima di confrontarla con quelle in banca dati. Come puoi vedere la proteina contiene 437 amminoacidi. La rappresentazione grafica evidenzia la presenza di due domini noti nella proteina: il dominio PAX e un omeodominio. Si tratta di regioni della sequenza proteica con una struttura indipendente e che svolgono una funzione specifica. I tratti della proteina rappresentati in azzurro (grigio sulla carta) rappresentano le regioni a bassa complessità (vedi glossario), cioè regioni caratterizzate da un’inusuale ripetizione di alcuni amminoacidi. 5. Fai click sul tasto Format. Dovrai aspettare qualche minuto prima di avere il risultato della ricerca perché il programma impiega un certo tempo a confrontare la tua sequenza con quelle disponibili in banca dati. 22 6. Quando il browser visualizza la pagina dei risultati della ricerca, osservala da cima a fondo utilizzando la barra di scorrimento laterale. Come avrai notato, la pagina é divisa in tre sezioni. La prima presenta lo schema riportato qui sopra. La linea rossa numerata come un righello rappresenta la sequenza che avete inserito per la ricerca e sotto di essa sono rappresentate come spesse linee le varie sequenze di proteine umane trovate in banca dati. Il colore delle rette indica il grado di similarità, il rosso indica il valore più elevato come illustrato dalla scala di colore. Come puoi vedere, le varie sequenze trovate dal programma hanno diverse lunghezze e diverso grado di similarità. In questo caso, la prima mostra quasi la stessa lunghezza e la massima similarità. Scendendo lungo la pagina con la barra di scorrimento laterale, raggiungete la seconda sezione dove sono elencati in blu i numeri di accesso delle varie sequenze trovate in diverse banche dati. A fianco dei numeri di accesso trovate la descrizione breve della proteina a cui si riferiscono e due numeri (Score e E-Value) che esprimono il grado di similarità. Il più utile é 23 l’E-Value (vedi Glossario): quanto più questo punteggio si avvicina a zero tanto più elevato é il grado di similarità. La terza sezione di questa pagina mostra l’allineamento amminoacido per amminoacido fra la sequenza da noi immessa (indicata con Query) e ciascuna delle sequenze trovate dal programma (indicata con Sbjct). In mezzo a queste due é inserita una sequenza che comprende solo gli aminoacidi comuni ad entrambe. Dove la nostra sequenza (Query) presenta delle X anziché gli amminoacidi che occupano realmente quella posizione, significa che il programma non ne ha tenuto conto (si dice che li ha mascherati) perché sono regioni a bassa complessità e quindi non statisticamente significative. 7. Prendi nota del simbolo della proteina che corrisponde alla prima sequenza: Pax6_human. Come ricorderete dalla rappresentazione grafica iniziale, la prima sequenza é quella con la maggior similarità. Questo significa che, con ogni probabilità, la proteina umana omologa a Pax6 di Zebrafish si chiama, anche in questo organismo, Pax6. Con questo dato, siete pronti per proseguire la caccia al tesoro nella prossima banca dati: SwissProt. 8. Apri il sito della banca dati SwissProt all’indirizzo: http://www.expasy.org/sprot/sprot-top.html. 24 9. Inserisci nella finestra Search il codice d’identificazione della nostra proteina (Pax6_human) e fai click sul tasto Go. 10. La pagina dei risultati é molto lunga e divisa in sezioni, ciascuna segnalata con una striscia blu. Con la barra di scorrimento laterale osserva i vari tipi di informazioni disponibili. Poi torna all’inizio. In quest’area della pagina puoi trovare informazioni sul nome della proteina e i suoi sinonimi. Inoltre é indicato il nome del gene e alcune indicazioni tassonomiche sull’organismo (in questo caso l’uomo). 25 11. Prendi nota del numero d’identificazione tassonomica TaxID (9606). Esso identifica quest’organismo nella banca dati dell’NCBI che contiene informazioni tassonomiche. Fai scorrere la pagina con la barra di scorrimento laterale fino alla sezione References. In questa sezione puoi trovare elencati i dati di alcuni articoli relativi alla nostra proteina, Pax6. 12. Cerca: a) in quale referenza é possibile trovare informazioni sulla conservazione della sequenza di Pax6 in altri organismi. (risposta: [2]) b) almeno tre referenze che si riferiscano a malattie associate a mutazioni in Pax6. (risposta: dalla [14] in poi). Fai scorrere la pagina fino alla sezione Comments. 26 13. Cerca in questa sezione informazioni sulla funzione, sulla localizzazione e sull’espressione di Pax6. Quale organo colpiscono le malattie associate a mutazioni in questo gene? (risposta: gli occhi) Fai scorrere la pagina fino alla sezione Cross-references. In questa sezione sono contenuti i link a banche dati che contengono informazioni di altro tipo riferite a Pax6. É possibile anche ritrovare le stesse pagine eseguendo una ricerca nelle banche dati specifiche utilizzando i numeri d’accesso segnalati in questa pagina. 14. Prendi nota di tutti i numeri d’accesso della banca dati PDB, OMIM (segnalati con MIM) e SMART (che si trova più in basso in questa pagina). Fai scorre la pagina fino a raggiungere la sezione Sequence information. 27 Questa sezione riporta la sequenza della proteina Pax6 umana, puoi dedurne la lunghezza e il peso molecolare. A questo punto le informazioni che hai annotato sul foglietto ti dicono gia molte cose sulla proteina di cui fino a poco fa conoscevi solo la sequenza in Zebrafish! Ma con i numeri di accesso di cui hai preso nota possiamo sapere molto di più visitando altre banche dati. 15. Apri l’home page dell’NCBI (vedi glossario) all’indirizzo http://www.ncbi.nlm.nih.gov/ e fai click sulla parola TaxBrowser in bianco sulla striscia blu sotto il logo. 28 16. Nella casella per la ricerca digita il numero TaxID di cui hai preso nota (9606) e fai click sul tasto Go. Come puoi vedere il numero di accesso corrisponde all’organismo Homo sapiens. 17. Per saperne di più fai click sulla parola Homo sapiens. Ci sono due specie sotto Homo sapiens, una delle quali estinta! 29 18. Fai click sulla prima voce. In questa pagina puoi trovare altre informazioni sulla classificazione dell’organismo che ti interessa, oltre al suo nome comune e il numero di cromosomi che lo caratterizzano. Facendo click sul numero di un cromosoma é possibile accedere alla sua mappa. 19. Apri la home page di SMART all’indirizzo http://smart.embl-heidelberg.de/ . 20. Digita nella casella search il codice per la nostra proteina di cui hai preso nota (Pax6_human) e fai click sul tasto Go. 30 In questa pagina é possibile trovare informazioni sui domini che caratterizzano la nostra proteina: un dominio PAX e un omeodominio (indicato con HOX). Il tipo di domini presenti spesso caratterizza anche la famiglia a cui una proteina appartiene. Per esempio Pax6 è il sesto membro della famiglia Pax. Per avere ulteriori informazioni riguardo ai due domini presenti in Pax6, fate click sullo schema della proteina, rispettivamente PAX e HOX 21. Apri l’home page della banca dati PDB all’indirizzo http://www.ebi.ac.uk/thorntonsrv/databases/pdbsum/ . 22. Nella casella search digita il codice PDB di cui hai preso nota consultando SwissProt e fai click su Find. 31 Questa banca dati fornisce informazioni sulla struttura terziaria della proteina. Nella figura si vede il cristallo costituito dalla proteina associata al DNA. La struttura secondaria può essere ad alfa-elica, beta-foglietto o casuale. 23. Fai click sul logo Jmol sopra la scritta Contents sulla sinistra dello schermo. Questo link permette di accedere ad animazioni della molecola che può essere ruotata o vista più o meno da vicino tramite la funzione zoom. In questa rappresentazione le alfa-eliche sono indicate con spirali in rosa (corrispondenti ai cilindri viola nella visione statica), i betafoglietti sono frecce (in giallo in Jmol) e le strutture casuali sono strisce. Il DNA è rappresentato con la tipica doppia elica. 24. Fai click sulla lettera A collegata alla parole Protein chain, sotto la voce Contents, sulla sinistra dello schermo. 32 In questa pagina ci sono informazioni sulla struttura secondaria della proteina ed é possibile vedere l’animazione della sua struttura tridimensionale facendo click sulla figura in alto a sinistra. Ora che conosci le caratteristiche della proteina sei pronto a scoprire qualcosa di più sulla sua funzione e sulle malattie ad essa correlate. 25. Apri l’home page del sito NCBI http://www.ncbi.nlm.nih.gov/ e fai click sulla parola OMIM in bianco sulla striscia blu sotto il logo. 26. Digita nella casella Search le parole Pax6 e human. L’utilizzo di due termini permette di restringere un pò la ricerca perché il programma cercherà tutte le voci in banca dati che le contengano entrambe. Fai click su tasto Go. 33 27. Fai click sulla prima voce. Questa banca dati fornisce un riassunto dei dati principali legati ad una proteina, un gene o una malattia (vedi l’introduzione a OMIM). Confronta i numeri delle referenze che trovi citate con quelli di cui hai preso nota nella banca dati SwissProt. Alcune referenze che sono state trovate da questa ricerca non sono presenti nella tua lista. Si tratta di voci richiamate perché contengono le parole digitate ma che non si riferiscono specificamente alla proteina Pax6 (ad esempio la voce bibliografica 167416). Per ottenere informazioni più specifiche é possibile accedere direttamente alle pubblicazioni scritte dai ricercatori per comunicare i loro risultati. I riassunti (abstract) degli articoli sono raccolti nella banca dati PubMed (vedi introduzione a PubMed). 34 28. Apri l’home page del sito NCBI http://www.ncbi.nlm.nih.gov/ e fai click sulla parola PubMed in bianco sulla striscia blu sotto il logo. 29. Nella casella Search digita Pax6 e fai click sul tasto Go. Questa banca dati fornisce i riferimenti degli articoli pubblicati che contengano le parole con cui hai eseguito la ricerca (per saperne di più vedi l’introduzione a PubMed). I primi articoli in cima alla pagina sono, di solito, quelli più recenti. Facendo click sul simbolino giallo a sinistra é possibile accedere al riassunto dell’articolo e al testo completo dell’articolo, se l’editore lo mette a disposizione. Nella parte alta della pagina é scritto il numero totale di articoli presenti in banca dati che soddisfano la ricerca: 746. Per restringere la ricerca é possibile digitare più parole separate da “AND”. Questo fa sì che il sistema cerchi solo gli articoli che contengono tutte le parole digitate. 35 30. Digita nella casella Search le parole “Pax6”, “eye”, “development”, “human” separate da “AND”. In questo caso le voci sono “soltanto” 104 e sono più specifiche per quanto riguarda lo sviluppo dell’occhio. Facendo click sull’icona gialla a sinistra del titolo potete accedere ai riassunti degli articoli. A questo punto sai davvero quasi tutto quello che è necessario per risolvere la domanda finale della caccia al tesoro! 36 7.1 Modulo per la caccia al tesoro bioinformatica 1. Esiste una proteina umana omolga a Pax6 di Zebrafish? Risposta: Risposta: 2. Da quali elementi è possibile capire quale sequenza di quelle trovate dal programma sia omologa a quella di Zebrafish? Risposta: 3. prendi nota del codice di identificazione con cui è indicata la sequenza scelta ....................................................................................................................................................... 4. Dalla pagina di SwissProt prendi nota del numero taxID ............................................................................................. 5. Indica in quale referenza è possibile trovare informazioni sulla conservazione della sequenza di Pax6 in altri organismi ..................................................................................................................................................... 6. Indica almeno tre referenze che si riferiscano a malattie associate a mutazioni in Pax6 ....................................................................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... 7. Indica la funzione della tua proteina ....................................................................................................................................................... ....................................................................................................................................................... 8. Indica la localizzazione subcellulare della tua proteina ....................................................................................................................................................... ....................................................................................................................................................... 37 9. Indica in quali tessuti è espressa la tua proteina ....................................................................................................................................................... ....................................................................................................................................................... 10. Indica quale organo colpiscono le malattie associate a mutazioni in questo gene ....................................................................................................................................................... ....................................................................................................................................................... 11. Prendi nota del numero di accesso della banca dati PDB ....................................................................................................................................................... 12. Prendi nota di tutti i numeri della banca dati OMIM ....................................................................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... 13. Prendi nota del numero di accesso della banca dati SMART ....................................................................................................................................................... 14. Qual’è la lunghezza e il peso molecolare di questa proteina? ....................................................................................................................................................... ....................................................................................................................................................... 15. Utilizzando i codici di accesso che hai scritto nelle risposte 11, 12, 13 puoi accedere ad altre informazioni contenute in diverse banche dati. 16. Ora, utilizzando le banche dati che hai visitato, rispondi alla domanda finale che decreta il vincitore della caccia: in quali specie è stato individuato un omologo di Pax6 di Zebrafish? 38 7.2 La bancadati UniProt/Swiss-Prot Uniprot/Swiss-Prot é una bancadati di sequenze proteiche che fornisce diversi tipi di informazioni: sequenze, riferimenti bibliografici, informazioni sull’organismo da cui deriva la proteina oltre a quelle che sono chiamate annotazioni (annotations). Le annotazioni comprendono la descrizione della funzione della proteina, le sue modificazioni posttrascrizionali (ad esempio carboidrati associati, fosforilazione, acetilazione), i suoi siti e i domini (come per esempio le regioni che legano il calcio, o i siti di legame per l’ATP, zinc fingers, homeobox), la sua struttura secondaria (alfa elica, beta foglietto), la struttura quaternaria (cioè se costituisce omodimeri, eterodimeri, ecc.), similarità con altre proteine, patologie associate a mutazioni nella sua sequenza, varianti proteiche, ecc. Questo database é gestito in collaborazione dallo Swiss Institute for Bioinformatics (SIB) and the European Bioinformatics Institute (EBI). L’homepage di Uniprot/Swiss-Prot si trova all’indirizzo http://www.expasy.org/sprot/ Per eseguire una ricerca inserisci una o più termini nella casella “search for” e fai click sul pulsante d’azione “Go”. Il sistema richiamerà tutte le informazioni che contengono i termini della ricerca. Per la ricerca puoi usare il nome o il simbolo di un gene o di una proteina o i codici di accesso che hai ricavato da altre banchedati. Per esempio digita Pax6, seleziona Swiss-Prot come database e fai click sul pulsante Go. Il risultato della ricerca é una lista di voci che riguardano Pax6 in diversi organismi. Nella prima riga c’é il simbolo del gene in blu seguito dall’identificazione dell’organismo e da un codice che identifica questo gene. Nella seconda riga in nero c’é il nome della proteina, in questo caso paired box protein Pax6, i suoi sinonimi e il nome dell’organismo di provenienza in inglese e in latino. Fai click sulla voce che si riferisce a Pax6 umano. 39 Fai scorrere la pagina che hai ottenuto con la barra di scorrimento laterale: essa é divisa in sezioni, dedicate ciascuna a un diverso tipo di informazioni e identificate dal titolo sulla striscia blu. Sotto i primi due titoli, “Entry information” e “Name and origin of the protein”, ritroviamo le informazioni sul nome della proteina, del gene e sulla posizione tassonomica dell’organismo di origine. In questa sezione puoi trovare elencati i dati di alcuni articoli relativi alla proteina, Pax6. Nella sezione “Comments” si trovano informazioni sulla funzione della proteina e sulle eventuali malattie ad essa correlate. I codici in blu preceduti dalla lettere MIM costituiscono un link alle pagine web della bancadati di OMIM (vedi l’introduzione a OMIM). 40 In questa sezione sono contenuti i link a banchedati che contengono informazioni di altro tipo riferite a Pax6, per esempio sulla struttura della proteina, sui suoi domini, sulle funzioni molecolari, ecc. É possibile anche ritrovare le stesse pagine eseguendo una ricerca nelle banchedati specifiche utilizzando i numeri d’accesso segnalati in questa pagina. In particolare é possibile accedere ai database OMIM, SMART e PDB (per avere altre informazioni, vedi la caccia al tesoro bioinformatica). 7.3 La bancadati OMIM OMIM, Online Mendelian Inheritance in Man, é una bancadati che contiene informazioni sui geni umani e sulle malattie genetiche realizzato e mantenuto dall’NCBI, the National Center for Biotechnology Information. Esso contiene la descrizione di geni e delle malattie ad essi associate, i quadri clinici e i riferimenti bibliografici, oltre a link a sequenze e ad altre risorse web. Si tratta della versione on line del testo “Mendelian Inheritance in Man”, ora alla sua dodicesima edizione, a cura di Victor A. McKusick e di un gruppo di colleghi della Johns Hopkins University e di altre istituzioni. La bancadati é aggiornata quotidianamente e a metà 2004 contiene oltre 15400 voci. Nella bancadati database sono riportate solo malattie che sono state associate ad uno o più geni. La pagina di accesso ad OMIM si raggiunge tramite un link sulla homepage dell’NCBI: (http://www.ncbi.nlm.nih.gov/). Fai click sulla parola OMIM in bianco sulla striscia blu in cima alla pagina. 41 Per eseguire una ricerca inserisci uno o più parole chiave nella casella “search for” a fai click sul pulsante “Go”. Il sistema cercherà tutte le voci in banca dati che contengano questi termini. Si possono usare il nome o il simbolo di un gene, il nome di una malattia, il numero di accesso ricavato da altre banchedati o qualunque altro termine che possa servire per richiamare le informazioni che ti interessano. Per esempio digita Pax6 e fai click sul pulsante “Go”. Questa pagina mostra una serie di voci che contengono i termini che hai digitato. Dal numero in alto puoi vedere che, in totale, le voci che soddisfano la tua ricerca sono 37. Nella prima riga c’é un codice in blu usato dal sistema di OMIM per identificare ciascuna voce della bancadati. Nella seconda riga, in nero, c’é il nome del gene, seguito dal suo simbolo. In questo caso il nome é paired box gene 6, che significa che si tratta del sesto membro della famiglia di proteine paired box, mentre il simbolo é Pax6. Nella terza riga in blu é indicata la localizzazione del gene. In questo caso 11p13 che significa che si trova sul cromosoma 11, nel braccio corto (p sta per petit, corto in francese), banda 13. In una stessa banda sono spesso presenti più geni, come si può vedere facendo click sulla localizzazione in blu. Fai click sulla prima voce che si riferisce specificamente a Pax6. 42