Sequenziamento e analisi
di genomi
•
1995 genoma batterico
1996 genoma lievito
Shotgun
Programmi di assemblaggio  contig
Sequenze ripetute
Radiation Hybrids
Sequenziamento automatico
Assemblaggio (Arachne)
Finishing
Leggere il Genoma
• Riconoscimento di ORF
• Pattern distintivi (HMM)
• Metodi comparativi
Open Reading Frames
GeneMark – HMM
Approccio comparativo – COG
Metodi statistici combinati – Orpheus
Genome Browser
Allineamento
Siti Genomici

NCBI Genomes

EBI Genomes

TIGR
jump
Il Genoma Umano
 Il Genoma Umano all’NCBI

GDB

Ensembl
Organismi Modello

Drosophyla --> FlyBASE

Topo --> MGD

Lievito --> SGD

Caenorhabditis --> WormBase
jump
Banche dati Specializzate
di Geni
• COGs
• EuGENES
• LocusLink
Analisi linguistica
Gene finding servers:
tecniche di analisi linguistica
per la predizione di geni e di
elementi regolatori
Gene finding servers
• Applicare tecniche di analisi linguistica
per la predizione di geni e di elementi
regolatori
Analisi linguistica:
•
•
•
•
•
•
•
•
localizzazione del sito promotore : TATAbox, CAATbox
ricerca di CpG islands
analisi del contesto del codone d’inizio AUG
ricerca di siti di splicing
ricerca di regioni codificanti proteine
ricerca di domini strutturali
ricerca di sequenze ripetute :Alu, LINE, SINE
analisi di complessità….
…..ricerca di ogni segnale nucleotidico e proteico associato ad
un ruolo funzionale nel complesso processo del ciclo vitale degli
organismi
Pattern recognition
Individuare in una sequenza anonima o in un
set di sequenze isofunzionali stringhe con
frequenze statisticamente significative
e
associabili a funzionalità biologiche definite.
Pattern (motivo) 
insieme di caratteri
nucleotidici o aminoacidici anche non contigui che con
alta frequenza ricorrono associati ad una specifica
funzione e/o struttura
sito promotore
sito di legame al DNA
sito di splicing
I motivi possono essere codificati
mediante
• multiallineamenti
• consensus
• profili
• weight matrix
• espressioni regolari
• Hidden Markov Models
Ricercare un motivo implica ricercare stringhe che nei limiti della
significatività statistica somiglino a motivi già annotati secondo
una delle codifiche su citate
Codifica dei Motivi
Consensus
•La sequenza consensus riporta in ogni posizione la base
più rappresentata in un multi-allineamento di sequenze
che sicuramente codificano la funzione.
•Il contenuto informativo di un consensus non è
sufficiente a identificare in modo univoco tutte e sole le
sequenze che possiedono la funzione ad esse associata.
•Il metodo WordUP è una valida alternativa alla ricerca di
un consensus.
Codifica dei Motivi
Weight Matrices
Un segnale s costituito da L nucleotidi viene
solitamente rappresentato da una matrice Ws
costituita da 4 righe, corrispondenti ai quattro
nucleotidi A, C, G, T e da L colonne.
Un motivo
TATA Box
regione di controllo a monte del sito di inizio della
trascrizione di geni eucariotici
alla TATA Box si legano i
fattori di inizio della
trascrizione che guidano
la RNApolII eucariotica
nella localizzazione del
sito di inizio
Consensus e Weight Matrix della TATABox determinate
analizzando 60 geni di vertebrati
Weight Matrix
posizione-4
-3
-2
-1
+1
+2
+3
+4
+5
A
42
56
89
12
0
0
86
94
12
T
28
10
18
17
0
139
9
16
7
C
42
60
16
8
0
0
3
13
3
G
27
13
16
102
139
0
41
16
117
sito donatore degli introni
Codifica dei Motivi
Espressioni regolari
Le espressioni regolari sono formule che si possono
usare per definire pattern testuali utilizzando le
lettere dell’alfabeto e meta-caratteri <$+*[{( )?.
ecc. ai quali è associata una determinata funzione
[A,G]X(4)GK[S,T] e’ un espressione regolare
descrittiva del p-loop della proteina umana Ras :
tale motivo è costituito da A o G, seguito da 4
amminoacidi qualsiasi, seguiti da G, da K e quindi
da S o T