Riassunto lezioni dispense III, IV e V

Argomenti trattati nella dispensa III
Cenni su proteine
- formate da aminoacidi
- peptidi (corte sequenze proteiche)
- rappresentazione della sequenza: stringa di caratteri che rappresentano gli aa.
- direzionalità della sequenza e sua rappresentazione (N terminale  C terminale)
- la maggior parte di proteine hanno una lunghezza compresa tra 100 e 1000 aa
Cenni su acidi nucleici
- costituiti da nucleotidi (un ribosio (RNA) o deossiribosio (manca del gruppo OH al 2’)
(DNA) con legata una base azotata con al 5’ un gruppo fosfato
- esistono 4 (+1 per RNA) tipi di nucleotidi che si distinguono per la base azotata la base
azotata (Adenina (A). Guanina (G), Citosina (C) e Timina (T solo nel DNA) e Uracile (U
solo nell’RNA)
- DNA formato da due filamenti formanti una doppia elica, RNA invece da una unico
filamento.
- Appaiamento delle basi complementari nelle doppie eliche: A con T (due legami ponti
idrogeno) e G con C (tre legami ponti idrogeno)
- Il DNA a doppia elica si può rappresentare con una singola stringa (generalmente scritta dal
5’ al 3’), la seconda elica si può desumere dalla prima facendo il ‘reverse-complementare’
- Oligonucleotide: corta sequenza di nucleotidi.
- Sequenze cromosomiche possono essere lunghe milioni di paia di basi (bp)
-
Direzionalità della sequenza dal 5’ al 3’
rappresentazione della sequenza: stringa di caratteri che rappresentano i nucleotidi
trasformazione di una sequenza nella relativa complementare e inversa-complementare
Definizione di Genoma e Genomica
Duplicazione (copia DNA in un’altra molecola di DNA).
Trascrizione (da DNA a RNA) in particolare nell’mRNA.
Traduzione (da mRNA a proteina) .
Definizione di Gene (o cistrone).
La trascrizione può essere tessuto/organo specifica. Non tutto il DNA viene trascritto
Esoni e introni:
nel genoma degli eucarioti, generalmente, la sequenza codificante un singolo gene non è tutta
contigua, ma spezzettata in più parti (esoni) da sequenze non codificanti (Introni).
Splicing: Maturazione dell’mRNA (da trascritto primario a trascritto maturo (finale)
Splicing alternativo: in molti casi (tessuto o momento specifico) alcuni esoni possono essere
esclusi con lo splicing, generando differenti mRNA maturi e quindi originando differenti proteine
(forme alternative o isoforme).
Non tutta la sequenza dell’mRNA maturo viene tradotta: normalmente, la sequenza iniziale e la
sequenza finale non sono tradotte (regione 5’UTR e 3’UTR)
Traduzione
- Codice genetico, codoni (formati dalle combinazioni di tre nucleotidi),
- 3 codoni particolari sono non-senso (indicano lo stop della traduzione)
- codone per la Metionina (AUG) indica l’inizio della traduzione
Traduzione in silico (uso di particolari programmi e loro interpretazione)
Nella traduzione in silico si ottengono 6 differenti ‘frame’ di lettura (tre per ogni filamento).
Generalmente, il ‘frame giusto’ è quello in cui è rappresentata l’ORF (open reading frame) più
lunga.
Codice IUPAC: vengono usate particolari lettere (codici) per rappresentare tutte le combinazioni
possibili di basi. In questo modo si possono rappresentare sequenze caratterizzate da polimorfismi o
da incertezze
Argomenti trattati nella Dispensa IV
Database biologici
Le sequenze nucleotidiche (soprattutto di DNA ) rappresentano la maggior parte dei dati contenuti
nei database biologici (relativa facilità di sequenziare il DNA)
Attualmente si possono ottenere solo corte sequenze di DNA, le sequenze più lunghe si ottengono
assemblando corte sequenze.
L’mRNA viene sequenziato indirettamente, prima deve essere convertito in DNA e per questo si
chiama cDNA (DNA complementare all’RNA)
Le sequenze EST sono corte sequenze (50-300 pb) ricavate dall’mRNA e servono per individuare i
geni trascritti in particolari momenti o per scoprire nuovi geni. Si basa sul principio che corte
sequenze, soprattutto se collocate nelle regioni iniziale e finale del mRNA (non codificante), sono
sufficienti per individuare correttamente il gene da cui proviene il trascritto)
Database primari: EMBL, GenBank, DDBJ: contenitori di tutte le sequenze conosciute
Database derivati: Sotto insiemi particolari di sequenze
Sistemi integrati ENTREZ e SRS rappresentano degli strumenti che facilitano l’interrogazione alle
banche dati
Database ‘NUCLEOTIDE’ all’NCBI e all’EMBL
Ricerca per il contenuto di alcuni campi
Campi particolari:
- Accession Number
- Reference
- Origin (sequence)
- FT (Feature Table o FEATURES ):
- - gene: localizzazione del gene sulla sequenza;
- - db_xref: cross link a particolari database
- - 5’UTR : sequenza al 5’ trascritta ma non tradotta,;
- - CDS (CoDing Sequence) sequenza codificante;
- - 3’UTR sequenza al 3’ trascritta ma non tradotta.
formato FASTA delle sequenze: la prima riga inizia con il simbolo ‘>’ seguito dal nome. Dalla
seconda riga inizia la stringa della sequenza
Database non ridondanti:
- RefSeq (tutte le sequenze nucleotidiche e proteiche non ridondanti);
- UniGene (solo sequenze di cDNA (mRNA) (non ridondanti);
- Gene (rappresentate solo le sequenze geniche compresi gli introni)
Consultazione di questi database, interpretazione della relative pagine web e delle figure
rappresentate, individuazione di esoni, introni, senso della trascrizione (forward o reverse) , forme
alternative o isoforme).
Database UniProt diviso in due parti:
- Prima parte: SwissProt (proteine conosciute)
- Seconda parte : Trembl (proteine ricavate automaticamente dalle sequenze geniche)
Cenni sui domini proteici:
Domini Proteici: parti tridimensionali delle proteine che formano una parte funzionale ella stessa
proteina.
Una proteina può essere fatta da più domini.
Domini simili possono trovarsi in differenti proteine
Le sequenze di domini simili sono conservate anche in organismi filogeneticamente distanti.
Database di domini proteici funzionali: Pfam
Cenni sui DB
– OMIM (malattie genetiche)
– Taxonomy (tassonomia)
– GeneOntology definizione precisa dei geni e del ruolo svolto dalle singole proteine tramite
un vocabolario (delle ontologie)
Argomenti trattati nella dispensa V
Ricerca per similarità: considerazioni sulla similarità tra sequenze
Cenni su duplicazioni genica e mutazioni (puntiformi, delezioni, inserzioni, inversioni)
Mutazioni ‘silenti’ (non cambiano la traduzione) ‘missense’ (cambia il corrispondente
aminoacido), ‘non-senso’ introducono un codone di stop (fermano la traduzione)
Inserzioni di uno o due basi, possono cambiare il ‘frame di lettura’  probabile traduzione in una
proteina non funzionante
Significato di Omologia ed in particolare della omologia dei geni (hanno un gene ancestrale in
comune)
Confronto dei termini :
- omologia (origine filogenetica comune)
- similarità (somiglianza tra due soggetti che può non implicare l’omologia)
- analogia (funzione simile)
Geni omologhi, probabilmente, hanno sequenze simili. Specie evolutivamente vicine hanno geni
omologhi (e le loro proteine) più simili, rispetto a specie evolutivamente lontante (filogenesi)
Ricerca di sequenze ‘simili’ nei database:
Allineamento di sequenze:
metodo dot-matrix: rappresentazione ed interpretazione della relativa matrice ed in particolare
individuazione delle regioni simili, regioni ripetute, inversioni, inserzioni e delezioni
‘misura della similarità’: score (punteggio che il programma assegna nell’allineamento di due
sequenze.
Matrici di sostituzione: contengono punteggi (score) da assegnare negli allineamenti per ogni
possibile coppia di amminoacidi. Tengono conto dell’importanza della conservazione di alcuni
aminocidi e che diverse sostituzioni aminoacidiche possono avere effetti differenti sul
funzionamento della proteina e quindi nell’evoluzione genica.
Ricerca di similarità di una sequenza (query) in un database (confronto a coppie della sequenza
query contro tutte le altre)
BLAST: potentissimo programma di allineamento locale (non globale) di sequenze. Si basa sulla
indicizzazione di corte ‘parole’ contenute nelle sequenze del database. Preventivamente, le
sequenze del database vengono suddivise in corte parole e memorizzate in appositi file indici. Nel
momento della richiesta, la sequenza query viene anch’essa suddivisa in corte parole. Vengono
individuate velocemente (merito dell’indicizzazione) le relative corrispindenze di queste con le
corte parole del database. Uno speciale algoritmo tende ad estendere l’allineamento di queste corte
parole.
Possibilità di eseguire allineamenti tra:
- tra sequenze nucleotidiche (blastn)
- tra sequenze proteiche (blastp)
- una sequenza nucleotidica contro le sequenze proteiche di una banca dati (blastx)
- una sequenza proteica contro le sequenze nucleotidiche di una banca dati (tblastn) (queste
sequenze vengono prima tradotte automaticamente nei 6 possibili ‘frame’ di lettura)
- la traduzione di una sequenza nucleotidica contro le traduzioni delle sequenze nucleotidiche
presenti nel database (tblastx)
Utilizzo di BLAST: modalità di interrogazione ed interpretazione dei risultati, in particolare dei dati
ottenuti via Web (a) parte grafica degli allineamenti, b) tabella degli allineamenti, c) dettaglio degli
allineamenti)
Genome Browser: (visualizzazione grafica degli allineamenti delle regioni cromosomiche con le
sequenze conosciute (anche tra differenti organismi) rapidi crosslink ai differenti database:
Utilizzo di UCSC Genome Browser ed interpretazione dei risultati grafici. In particolare:
- individuazione del senso della traduzione
- sequenze rappresentate nei differenti database
- sequenze di trascritti
- EST, esoni/introni/UTR
- forme alternative dello stesso gene (individuabili per la presenza/mancanza di esoni in
alcune sequenze allineate)