Argomenti trattati nella dispensa III Cenni su proteine - formate da aminoacidi - peptidi (corte sequenze proteiche) - rappresentazione della sequenza: stringa di caratteri che rappresentano gli aa. - direzionalità della sequenza e sua rappresentazione (N terminale C terminale) - la maggior parte di proteine hanno una lunghezza compresa tra 100 e 1000 aa Cenni su acidi nucleici - costituiti da nucleotidi (un ribosio (RNA) o deossiribosio (manca del gruppo OH al 2’) (DNA) con legata una base azotata con al 5’ un gruppo fosfato - esistono 4 (+1 per RNA) tipi di nucleotidi che si distinguono per la base azotata la base azotata (Adenina (A). Guanina (G), Citosina (C) e Timina (T solo nel DNA) e Uracile (U solo nell’RNA) - DNA formato da due filamenti formanti una doppia elica, RNA invece da una unico filamento. - Appaiamento delle basi complementari nelle doppie eliche: A con T (due legami ponti idrogeno) e G con C (tre legami ponti idrogeno) - Il DNA a doppia elica si può rappresentare con una singola stringa (generalmente scritta dal 5’ al 3’), la seconda elica si può desumere dalla prima facendo il ‘reverse-complementare’ - Oligonucleotide: corta sequenza di nucleotidi. - Sequenze cromosomiche possono essere lunghe milioni di paia di basi (bp) - Direzionalità della sequenza dal 5’ al 3’ rappresentazione della sequenza: stringa di caratteri che rappresentano i nucleotidi trasformazione di una sequenza nella relativa complementare e inversa-complementare Definizione di Genoma e Genomica Duplicazione (copia DNA in un’altra molecola di DNA). Trascrizione (da DNA a RNA) in particolare nell’mRNA. Traduzione (da mRNA a proteina) . Definizione di Gene (o cistrone). La trascrizione può essere tessuto/organo specifica. Non tutto il DNA viene trascritto Esoni e introni: nel genoma degli eucarioti, generalmente, la sequenza codificante un singolo gene non è tutta contigua, ma spezzettata in più parti (esoni) da sequenze non codificanti (Introni). Splicing: Maturazione dell’mRNA (da trascritto primario a trascritto maturo (finale) Splicing alternativo: in molti casi (tessuto o momento specifico) alcuni esoni possono essere esclusi con lo splicing, generando differenti mRNA maturi e quindi originando differenti proteine (forme alternative o isoforme). Non tutta la sequenza dell’mRNA maturo viene tradotta: normalmente, la sequenza iniziale e la sequenza finale non sono tradotte (regione 5’UTR e 3’UTR) Traduzione - Codice genetico, codoni (formati dalle combinazioni di tre nucleotidi), - 3 codoni particolari sono non-senso (indicano lo stop della traduzione) - codone per la Metionina (AUG) indica l’inizio della traduzione Traduzione in silico (uso di particolari programmi e loro interpretazione) Nella traduzione in silico si ottengono 6 differenti ‘frame’ di lettura (tre per ogni filamento). Generalmente, il ‘frame giusto’ è quello in cui è rappresentata l’ORF (open reading frame) più lunga. Codice IUPAC: vengono usate particolari lettere (codici) per rappresentare tutte le combinazioni possibili di basi. In questo modo si possono rappresentare sequenze caratterizzate da polimorfismi o da incertezze Argomenti trattati nella Dispensa IV Database biologici Le sequenze nucleotidiche (soprattutto di DNA ) rappresentano la maggior parte dei dati contenuti nei database biologici (relativa facilità di sequenziare il DNA) Attualmente si possono ottenere solo corte sequenze di DNA, le sequenze più lunghe si ottengono assemblando corte sequenze. L’mRNA viene sequenziato indirettamente, prima deve essere convertito in DNA e per questo si chiama cDNA (DNA complementare all’RNA) Le sequenze EST sono corte sequenze (50-300 pb) ricavate dall’mRNA e servono per individuare i geni trascritti in particolari momenti o per scoprire nuovi geni. Si basa sul principio che corte sequenze, soprattutto se collocate nelle regioni iniziale e finale del mRNA (non codificante), sono sufficienti per individuare correttamente il gene da cui proviene il trascritto) Database primari: EMBL, GenBank, DDBJ: contenitori di tutte le sequenze conosciute Database derivati: Sotto insiemi particolari di sequenze Sistemi integrati ENTREZ e SRS rappresentano degli strumenti che facilitano l’interrogazione alle banche dati Database ‘NUCLEOTIDE’ all’NCBI e all’EMBL Ricerca per il contenuto di alcuni campi Campi particolari: - Accession Number - Reference - Origin (sequence) - FT (Feature Table o FEATURES ): - - gene: localizzazione del gene sulla sequenza; - - db_xref: cross link a particolari database - - 5’UTR : sequenza al 5’ trascritta ma non tradotta,; - - CDS (CoDing Sequence) sequenza codificante; - - 3’UTR sequenza al 3’ trascritta ma non tradotta. formato FASTA delle sequenze: la prima riga inizia con il simbolo ‘>’ seguito dal nome. Dalla seconda riga inizia la stringa della sequenza Database non ridondanti: - RefSeq (tutte le sequenze nucleotidiche e proteiche non ridondanti); - UniGene (solo sequenze di cDNA (mRNA) (non ridondanti); - Gene (rappresentate solo le sequenze geniche compresi gli introni) Consultazione di questi database, interpretazione della relative pagine web e delle figure rappresentate, individuazione di esoni, introni, senso della trascrizione (forward o reverse) , forme alternative o isoforme). Database UniProt diviso in due parti: - Prima parte: SwissProt (proteine conosciute) - Seconda parte : Trembl (proteine ricavate automaticamente dalle sequenze geniche) Cenni sui domini proteici: Domini Proteici: parti tridimensionali delle proteine che formano una parte funzionale ella stessa proteina. Una proteina può essere fatta da più domini. Domini simili possono trovarsi in differenti proteine Le sequenze di domini simili sono conservate anche in organismi filogeneticamente distanti. Database di domini proteici funzionali: Pfam Cenni sui DB – OMIM (malattie genetiche) – Taxonomy (tassonomia) – GeneOntology definizione precisa dei geni e del ruolo svolto dalle singole proteine tramite un vocabolario (delle ontologie) Argomenti trattati nella dispensa V Ricerca per similarità: considerazioni sulla similarità tra sequenze Cenni su duplicazioni genica e mutazioni (puntiformi, delezioni, inserzioni, inversioni) Mutazioni ‘silenti’ (non cambiano la traduzione) ‘missense’ (cambia il corrispondente aminoacido), ‘non-senso’ introducono un codone di stop (fermano la traduzione) Inserzioni di uno o due basi, possono cambiare il ‘frame di lettura’ probabile traduzione in una proteina non funzionante Significato di Omologia ed in particolare della omologia dei geni (hanno un gene ancestrale in comune) Confronto dei termini : - omologia (origine filogenetica comune) - similarità (somiglianza tra due soggetti che può non implicare l’omologia) - analogia (funzione simile) Geni omologhi, probabilmente, hanno sequenze simili. Specie evolutivamente vicine hanno geni omologhi (e le loro proteine) più simili, rispetto a specie evolutivamente lontante (filogenesi) Ricerca di sequenze ‘simili’ nei database: Allineamento di sequenze: metodo dot-matrix: rappresentazione ed interpretazione della relativa matrice ed in particolare individuazione delle regioni simili, regioni ripetute, inversioni, inserzioni e delezioni ‘misura della similarità’: score (punteggio che il programma assegna nell’allineamento di due sequenze. Matrici di sostituzione: contengono punteggi (score) da assegnare negli allineamenti per ogni possibile coppia di amminoacidi. Tengono conto dell’importanza della conservazione di alcuni aminocidi e che diverse sostituzioni aminoacidiche possono avere effetti differenti sul funzionamento della proteina e quindi nell’evoluzione genica. Ricerca di similarità di una sequenza (query) in un database (confronto a coppie della sequenza query contro tutte le altre) BLAST: potentissimo programma di allineamento locale (non globale) di sequenze. Si basa sulla indicizzazione di corte ‘parole’ contenute nelle sequenze del database. Preventivamente, le sequenze del database vengono suddivise in corte parole e memorizzate in appositi file indici. Nel momento della richiesta, la sequenza query viene anch’essa suddivisa in corte parole. Vengono individuate velocemente (merito dell’indicizzazione) le relative corrispindenze di queste con le corte parole del database. Uno speciale algoritmo tende ad estendere l’allineamento di queste corte parole. Possibilità di eseguire allineamenti tra: - tra sequenze nucleotidiche (blastn) - tra sequenze proteiche (blastp) - una sequenza nucleotidica contro le sequenze proteiche di una banca dati (blastx) - una sequenza proteica contro le sequenze nucleotidiche di una banca dati (tblastn) (queste sequenze vengono prima tradotte automaticamente nei 6 possibili ‘frame’ di lettura) - la traduzione di una sequenza nucleotidica contro le traduzioni delle sequenze nucleotidiche presenti nel database (tblastx) Utilizzo di BLAST: modalità di interrogazione ed interpretazione dei risultati, in particolare dei dati ottenuti via Web (a) parte grafica degli allineamenti, b) tabella degli allineamenti, c) dettaglio degli allineamenti) Genome Browser: (visualizzazione grafica degli allineamenti delle regioni cromosomiche con le sequenze conosciute (anche tra differenti organismi) rapidi crosslink ai differenti database: Utilizzo di UCSC Genome Browser ed interpretazione dei risultati grafici. In particolare: - individuazione del senso della traduzione - sequenze rappresentate nei differenti database - sequenze di trascritti - EST, esoni/introni/UTR - forme alternative dello stesso gene (individuabili per la presenza/mancanza di esoni in alcune sequenze allineate)