Sequenziamento e analisi di genomi • 1995 genoma batterico 1996 genoma lievito Shotgun Programmi di assemblaggio contig Sequenze ripetute Radiation Hybrids Sequenziamento automatico Assemblaggio (Arachne) Finishing Leggere il Genoma • Riconoscimento di ORF • Pattern distintivi (HMM) • Metodi comparativi Open Reading Frames GeneMark – HMM Approccio comparativo – COG Metodi statistici combinati – Orpheus Genome Browser Allineamento Siti Genomici NCBI Genomes EBI Genomes TIGR jump Il Genoma Umano Il Genoma Umano all’NCBI GDB Ensembl Organismi Modello Drosophyla --> FlyBASE Topo --> MGD Lievito --> SGD Caenorhabditis --> WormBase jump Banche dati Specializzate di Geni • COGs • EuGENES • LocusLink Analisi linguistica Gene finding servers: tecniche di analisi linguistica per la predizione di geni e di elementi regolatori Gene finding servers • Applicare tecniche di analisi linguistica per la predizione di geni e di elementi regolatori Analisi linguistica: • • • • • • • • localizzazione del sito promotore : TATAbox, CAATbox ricerca di CpG islands analisi del contesto del codone d’inizio AUG ricerca di siti di splicing ricerca di regioni codificanti proteine ricerca di domini strutturali ricerca di sequenze ripetute :Alu, LINE, SINE analisi di complessità…. …..ricerca di ogni segnale nucleotidico e proteico associato ad un ruolo funzionale nel complesso processo del ciclo vitale degli organismi Pattern recognition Individuare in una sequenza anonima o in un set di sequenze isofunzionali stringhe con frequenze statisticamente significative e associabili a funzionalità biologiche definite. Pattern (motivo) insieme di caratteri nucleotidici o aminoacidici anche non contigui che con alta frequenza ricorrono associati ad una specifica funzione e/o struttura sito promotore sito di legame al DNA sito di splicing I motivi possono essere codificati mediante • multiallineamenti • consensus • profili • weight matrix • espressioni regolari • Hidden Markov Models Ricercare un motivo implica ricercare stringhe che nei limiti della significatività statistica somiglino a motivi già annotati secondo una delle codifiche su citate Codifica dei Motivi Consensus •La sequenza consensus riporta in ogni posizione la base più rappresentata in un multi-allineamento di sequenze che sicuramente codificano la funzione. •Il contenuto informativo di un consensus non è sufficiente a identificare in modo univoco tutte e sole le sequenze che possiedono la funzione ad esse associata. •Il metodo WordUP è una valida alternativa alla ricerca di un consensus. Codifica dei Motivi Weight Matrices Un segnale s costituito da L nucleotidi viene solitamente rappresentato da una matrice Ws costituita da 4 righe, corrispondenti ai quattro nucleotidi A, C, G, T e da L colonne. Un motivo TATA Box regione di controllo a monte del sito di inizio della trascrizione di geni eucariotici alla TATA Box si legano i fattori di inizio della trascrizione che guidano la RNApolII eucariotica nella localizzazione del sito di inizio Consensus e Weight Matrix della TATABox determinate analizzando 60 geni di vertebrati Weight Matrix posizione-4 -3 -2 -1 +1 +2 +3 +4 +5 A 42 56 89 12 0 0 86 94 12 T 28 10 18 17 0 139 9 16 7 C 42 60 16 8 0 0 3 13 3 G 27 13 16 102 139 0 41 16 117 sito donatore degli introni Codifica dei Motivi Espressioni regolari Le espressioni regolari sono formule che si possono usare per definire pattern testuali utilizzando le lettere dell’alfabeto e meta-caratteri <$+*[{( )?. ecc. ai quali è associata una determinata funzione [A,G]X(4)GK[S,T] e’ un espressione regolare descrittiva del p-loop della proteina umana Ras : tale motivo è costituito da A o G, seguito da 4 amminoacidi qualsiasi, seguiti da G, da K e quindi da S o T