Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Modello computazionale per la predizione di siti di legame per fattori di trascrizione Attività di tirocinio svolto presso il Telethon Institute of Genetics and Medicine Relatori Prof. Giuseppe Trautteur Ing. Diego Di Bernardo Candidata Rossella Rispoli Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Sommario 1 Cenni di biologia molecolare Gene e sequenze di DNA Relazioni tra sequenze geniche 2 Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Obiettivi 3 Fasi del lavoro Estrazione dati Metodi per l’identificazione di siti di legame Validazione ed analisi 4 Conclusioni Considerazioni sui risultati ottenuti Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Sommario 1 Cenni di biologia molecolare Gene e sequenze di DNA Relazioni tra sequenze geniche 2 Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Obiettivi 3 Fasi del lavoro Estrazione dati Metodi per l’identificazione di siti di legame Validazione ed analisi 4 Conclusioni Considerazioni sui risultati ottenuti Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Sommario 1 Cenni di biologia molecolare Gene e sequenze di DNA Relazioni tra sequenze geniche 2 Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Obiettivi 3 Fasi del lavoro Estrazione dati Metodi per l’identificazione di siti di legame Validazione ed analisi 4 Conclusioni Considerazioni sui risultati ottenuti Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Sommario 1 Cenni di biologia molecolare Gene e sequenze di DNA Relazioni tra sequenze geniche 2 Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Obiettivi 3 Fasi del lavoro Estrazione dati Metodi per l’identificazione di siti di legame Validazione ed analisi 4 Conclusioni Considerazioni sui risultati ottenuti Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Gene e sequenze di DNA Dalla biologia alla biologia computazionale Era Post-Genomica Il cromosoma può essere visto come una stringa su un insieme si 4 caratteri {A,T,C,G} Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Gene e sequenze di DNA Dalla biologia alla biologia computazionale Era Post-Genomica Il cromosoma può essere visto come una stringa su un insieme si 4 caratteri {A,T,C,G} Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Gene e sequenze di DNA Dalla biologia alla biologia computazionale struttura di una sequenza genica Figura: elements of gene sequence Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Relazioni tra sequenze geniche Sommario 1 Cenni di biologia molecolare Gene e sequenze di DNA Relazioni tra sequenze geniche 2 Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Obiettivi 3 Fasi del lavoro Estrazione dati Metodi per l’identificazione di siti di legame Validazione ed analisi 4 Conclusioni Considerazioni sui risultati ottenuti Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Relazioni tra sequenze geniche Conservazione di sequenze di DNA e siti di legame Figura: Sequence Alignment conservazione omologia-similarità ortologia Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Relazioni tra sequenze geniche Conservazione di sequenze di DNA e siti di legame Figura: Sequence Alignment conservazione omologia-similarità ortologia Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Relazioni tra sequenze geniche Conservazione di sequenze di DNA e siti di legame Figura: Sequence Alignment conservazione omologia-similarità ortologia Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Sommario 1 Cenni di biologia molecolare Gene e sequenze di DNA Relazioni tra sequenze geniche 2 Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Obiettivi 3 Fasi del lavoro Estrazione dati Metodi per l’identificazione di siti di legame Validazione ed analisi 4 Conclusioni Considerazioni sui risultati ottenuti Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Siti di legame per fattori di trascrizione Sequenze bersaglio I siti di legame o sequenze bersaglio sono sequenze del DNA con le seguenti proprietà: lunghe circa 10/15 basi si trovano nelle regioni non codificanti della sequenza genica non sono univoche Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Siti di legame per fattori di trascrizione Sequenze bersaglio I siti di legame o sequenze bersaglio sono sequenze del DNA con le seguenti proprietà: lunghe circa 10/15 basi si trovano nelle regioni non codificanti della sequenza genica non sono univoche Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Siti di legame per fattori di trascrizione Sequenze bersaglio I siti di legame o sequenze bersaglio sono sequenze del DNA con le seguenti proprietà: lunghe circa 10/15 basi si trovano nelle regioni non codificanti della sequenza genica non sono univoche Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Obiettivi Sommario 1 Cenni di biologia molecolare Gene e sequenze di DNA Relazioni tra sequenze geniche 2 Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Obiettivi 3 Fasi del lavoro Estrazione dati Metodi per l’identificazione di siti di legame Validazione ed analisi 4 Conclusioni Considerazioni sui risultati ottenuti Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Obiettivi La ricerca di siti di legame Ci proponiamo di: Realizzare strumenti per individuare possibili sequenze bersaglio lungo la sequenza di DNA Figura: transcription factor binding site Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Estrazione dati Sommario 1 Cenni di biologia molecolare Gene e sequenze di DNA Relazioni tra sequenze geniche 2 Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Obiettivi 3 Fasi del lavoro Estrazione dati Metodi per l’identificazione di siti di legame Validazione ed analisi 4 Conclusioni Considerazioni sui risultati ottenuti Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Estrazione dati Database genomici: proprietà e utilizzo I database genomici forniscono: una collezione di sequenze di DNA, frutto di ampi lavori di sequenziamento e riconoscimento una collezione di annotazioni Essi si dividono in: banche dati primarie banche di dati specializzate genome browser Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Estrazione dati Database genomici: proprietà e utilizzo I database genomici forniscono: una collezione di sequenze di DNA, frutto di ampi lavori di sequenziamento e riconoscimento una collezione di annotazioni Essi si dividono in: banche dati primarie banche di dati specializzate genome browser Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Estrazione dati Database genomici: proprietà e utilizzo I database genomici forniscono: una collezione di sequenze di DNA, frutto di ampi lavori di sequenziamento e riconoscimento una collezione di annotazioni Essi si dividono in: banche dati primarie banche di dati specializzate genome browser Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Estrazione dati Database genomici: proprietà e utilizzo I database genomici forniscono: una collezione di sequenze di DNA, frutto di ampi lavori di sequenziamento e riconoscimento una collezione di annotazioni Essi si dividono in: banche dati primarie banche di dati specializzate genome browser Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Estrazione dati Database genomici: proprietà e utilizzo I database genomici forniscono: una collezione di sequenze di DNA, frutto di ampi lavori di sequenziamento e riconoscimento una collezione di annotazioni Essi si dividono in: banche dati primarie banche di dati specializzate genome browser Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Estrazione dati DB ENSEMBL e DB UCSC Figura: Ensembl genome browser Figura: UCSC genome browser ENSEMBL: informazioni sull’ortologia ma errate identificazioni delle locazioni geniche UCSC: corrette identificazioni geniche e score di conservazione Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Estrazione dati DB ENSEMBL e DB UCSC Figura: Ensembl genome browser Figura: UCSC genome browser ENSEMBL: informazioni sull’ortologia ma errate identificazioni delle locazioni geniche UCSC: corrette identificazioni geniche e score di conservazione Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Estrazione dati Integrazione dati Soluzione Integrazione delle due sorgenti dati Ensebl e Ucsc Scopo proposto Preservare la qualità dei dati Modifiche asincrone Differenti individuazioni degli oggetti Incongruenze di schema Assicurare Assembly coincidenti Uso di identificatori esterni Analisi dei dati usati e integrati Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Estrazione dati Integrazione dati Soluzione Integrazione delle due sorgenti dati Ensebl e Ucsc Scopo proposto Preservare la qualità dei dati Modifiche asincrone Differenti individuazioni degli oggetti Incongruenze di schema Assicurare Assembly coincidenti Uso di identificatori esterni Analisi dei dati usati e integrati Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Estrazione dati Integrazione dati Soluzione Integrazione delle due sorgenti dati Ensebl e Ucsc Scopo proposto Preservare la qualità dei dati Modifiche asincrone Differenti individuazioni degli oggetti Incongruenze di schema Assicurare Assembly coincidenti Uso di identificatori esterni Analisi dei dati usati e integrati Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Estrazione dati Modulo Computazionale per l’estrazione dati Figura: Design data extraction Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Metodi per l’identificazione di siti di legame Sommario 1 Cenni di biologia molecolare Gene e sequenze di DNA Relazioni tra sequenze geniche 2 Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Obiettivi 3 Fasi del lavoro Estrazione dati Metodi per l’identificazione di siti di legame Validazione ed analisi 4 Conclusioni Considerazioni sui risultati ottenuti Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Metodi per l’identificazione di siti di legame Idea alla base dei metodi di identificazione Figura: Binding factor and sequence È possibile estrarre un modello di legame da un allineamento di sequenze bersaglio dello stesso fattore di trascrizione A ? Posizione: sito 1 sito 2 sito 3 Consenso: 1 A A A A 2 G C ¯ G G 3 A A A A 4 A A A A Tabella: figura consenso 5 C C C C 6 A A T A Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Metodi per l’identificazione di siti di legame Idea alla base dei metodi di identificazione Figura: Binding factor and sequence È possibile estrarre un modello di legame da un allineamento di sequenze bersaglio dello stesso fattore di trascrizione A ? Posizione: sito 1 sito 2 sito 3 Consenso: 1 A A A A 2 G C ¯ G G 3 A A A A 4 A A A A Tabella: figura consenso 5 C C C C 6 A A T A Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Metodi per l’identificazione di siti di legame PWM (Positional Weight Matrix) e TRANSFAC Quindi È possibile estrarre da un allineamento di piú sequenze bersaglio di uno stesso fattore di trascrizione un modello di legame cioé un consenso A T C G 1 3 0 0 0 2 0 0 1 2 3 3 0 0 0 4 3 0 0 0 5 0 0 3 0 6 2 1 0 0 Tabella: matrice di peso PWM Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Metodi per l’identificazione di siti di legame Conservazione e distanza evolutiva Figura: conservation score Figura: distance filogenetic Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Metodi per l’identificazione di siti di legame Conservazione e distanza evolutiva Figura: conservation score Figura: distance filogenetic Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Metodi per l’identificazione di siti di legame Conservazione e distanza evolutiva Figura: conservation score Figura: distance filogenetic Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Validazione ed analisi Sommario 1 Cenni di biologia molecolare Gene e sequenze di DNA Relazioni tra sequenze geniche 2 Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Obiettivi 3 Fasi del lavoro Estrazione dati Metodi per l’identificazione di siti di legame Validazione ed analisi 4 Conclusioni Considerazioni sui risultati ottenuti Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Validazione ed analisi Modelli di score Score0 = log2 L−w X i=1 Score1 = log2 L−w X i=1 j=i Qi+w −1 j=i i=1 PN Score3 = j=i Qi+w −1 Qi+w −1 PN Score2 = Qi+w −1 i=1 j=i pj 0 pj ∗ pj (1) 0 pj Pi+w −1 j=i w scj ! (2) Score0i ∗ (1 − di ) N (3) Score1i ∗ (1 − di ) N (4) Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Validazione ed analisi Modelli di score Score0 = log2 L−w X i=1 Score1 = log2 L−w X i=1 j=i Qi+w −1 j=i i=1 PN Score3 = j=i Qi+w −1 Qi+w −1 PN Score2 = Qi+w −1 i=1 j=i pj 0 pj ∗ pj (1) 0 pj Pi+w −1 j=i w scj ! (2) Score0i ∗ (1 − di ) N (3) Score1i ∗ (1 − di ) N (4) Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Validazione ed analisi Modelli di score Score0 = log2 L−w X i=1 Score1 = log2 L−w X i=1 j=i Qi+w −1 j=i i=1 PN Score3 = j=i Qi+w −1 Qi+w −1 PN Score2 = Qi+w −1 i=1 j=i pj 0 pj ∗ pj (1) 0 pj Pi+w −1 j=i w scj ! (2) Score0i ∗ (1 − di ) N (3) Score1i ∗ (1 − di ) N (4) Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Validazione ed analisi Modelli di score Score0 = log2 L−w X i=1 Score1 = log2 L−w X i=1 j=i Qi+w −1 j=i i=1 PN Score3 = j=i Qi+w −1 Qi+w −1 PN Score2 = Qi+w −1 i=1 j=i pj 0 pj ∗ pj (1) 0 pj Pi+w −1 j=i w scj ! (2) Score0i ∗ (1 − di ) N (3) Score1i ∗ (1 − di ) N (4) Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Validazione ed analisi Modulo computazionale per l’implementazione dei modelli di score FASTA FILE MARKOV MODEL MOTIF INPUT BUILD_SCORE MS ALGORITMO_MS OUTPUT PER SINGOLO JOB DATI SEQUENZA E MATRICE DATI DI CONSERVAZIONE OUTPUT GLOBALE DATI SEQUENZE E MATRICI IMPLEMENTATION MULTI SCORES ON MATRIX SAMPLER Figura: Computational module for implementation of scores Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Validazione ed analisi Validazione su p63 Obiettivo Identificare una sequenza bersaglio nota, calcolando i 4 score per ognuna delle 546 matrici note in TRANSFAC Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Validazione ed analisi Risultati Figura: Results scores Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Validazione ed analisi Risultati Figura: Results scores Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Validazione ed analisi Risultati Figura: Results scores Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Fasi del lavoro Conclusioni Validazione ed analisi Risultati sensitivity = ppv = TP TP + FN (5) TP TP + FP (6) Score a confronto Sensitivity: 33% ppvScore0 0.04 ppvScore1 0.1 ppvScore2 0.02 ppvScore3 0.35 Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Considerazioni sui risultati ottenuti Sommario 1 Cenni di biologia molecolare Gene e sequenze di DNA Relazioni tra sequenze geniche 2 Oggetto e scopo del lavoro di tesi Siti di legame per fattori di trascrizione Obiettivi 3 Fasi del lavoro Estrazione dati Metodi per l’identificazione di siti di legame Validazione ed analisi 4 Conclusioni Considerazioni sui risultati ottenuti Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Considerazioni sui risultati ottenuti Stato del lavoro e Sviluppi futuri il contributo positivo della conservazione problematiche aperte Fasi del lavoro Conclusioni Cenni di biologia molecolare Oggetto e scopo del lavoro di tesi Considerazioni sui risultati ottenuti Stato del lavoro e Sviluppi futuri il contributo positivo della conservazione problematiche aperte Fasi del lavoro Conclusioni