Modello computazionale per la predizione di siti di legame per fattori

Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Modello computazionale per la predizione di siti di
legame per fattori di trascrizione
Attività di tirocinio svolto presso il
Telethon Institute of Genetics and Medicine
Relatori
Prof. Giuseppe Trautteur
Ing. Diego Di Bernardo
Candidata
Rossella Rispoli
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Sommario
1
Cenni di biologia molecolare
Gene e sequenze di DNA
Relazioni tra sequenze geniche
2
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Obiettivi
3
Fasi del lavoro
Estrazione dati
Metodi per l’identificazione di siti di legame
Validazione ed analisi
4
Conclusioni
Considerazioni sui risultati ottenuti
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Sommario
1
Cenni di biologia molecolare
Gene e sequenze di DNA
Relazioni tra sequenze geniche
2
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Obiettivi
3
Fasi del lavoro
Estrazione dati
Metodi per l’identificazione di siti di legame
Validazione ed analisi
4
Conclusioni
Considerazioni sui risultati ottenuti
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Sommario
1
Cenni di biologia molecolare
Gene e sequenze di DNA
Relazioni tra sequenze geniche
2
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Obiettivi
3
Fasi del lavoro
Estrazione dati
Metodi per l’identificazione di siti di legame
Validazione ed analisi
4
Conclusioni
Considerazioni sui risultati ottenuti
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Sommario
1
Cenni di biologia molecolare
Gene e sequenze di DNA
Relazioni tra sequenze geniche
2
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Obiettivi
3
Fasi del lavoro
Estrazione dati
Metodi per l’identificazione di siti di legame
Validazione ed analisi
4
Conclusioni
Considerazioni sui risultati ottenuti
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Gene e sequenze di DNA
Dalla biologia alla biologia computazionale
Era Post-Genomica
Il cromosoma può essere visto come una stringa
su un insieme si 4 caratteri {A,T,C,G}
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Gene e sequenze di DNA
Dalla biologia alla biologia computazionale
Era Post-Genomica
Il cromosoma può essere visto come una stringa
su un insieme si 4 caratteri {A,T,C,G}
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Gene e sequenze di DNA
Dalla biologia alla biologia computazionale
struttura di una sequenza genica
Figura: elements of gene sequence
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Relazioni tra sequenze geniche
Sommario
1
Cenni di biologia molecolare
Gene e sequenze di DNA
Relazioni tra sequenze geniche
2
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Obiettivi
3
Fasi del lavoro
Estrazione dati
Metodi per l’identificazione di siti di legame
Validazione ed analisi
4
Conclusioni
Considerazioni sui risultati ottenuti
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Relazioni tra sequenze geniche
Conservazione di sequenze di DNA e siti di legame
Figura: Sequence Alignment
conservazione
omologia-similarità
ortologia
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Relazioni tra sequenze geniche
Conservazione di sequenze di DNA e siti di legame
Figura: Sequence Alignment
conservazione
omologia-similarità
ortologia
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Relazioni tra sequenze geniche
Conservazione di sequenze di DNA e siti di legame
Figura: Sequence Alignment
conservazione
omologia-similarità
ortologia
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Sommario
1
Cenni di biologia molecolare
Gene e sequenze di DNA
Relazioni tra sequenze geniche
2
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Obiettivi
3
Fasi del lavoro
Estrazione dati
Metodi per l’identificazione di siti di legame
Validazione ed analisi
4
Conclusioni
Considerazioni sui risultati ottenuti
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Siti di legame per fattori di trascrizione
Sequenze bersaglio
I siti di legame o sequenze bersaglio sono sequenze del DNA con le
seguenti proprietà:
lunghe circa 10/15 basi
si trovano nelle regioni non codificanti della sequenza genica
non sono univoche
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Siti di legame per fattori di trascrizione
Sequenze bersaglio
I siti di legame o sequenze bersaglio sono sequenze del DNA con le
seguenti proprietà:
lunghe circa 10/15 basi
si trovano nelle regioni non codificanti della sequenza genica
non sono univoche
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Siti di legame per fattori di trascrizione
Sequenze bersaglio
I siti di legame o sequenze bersaglio sono sequenze del DNA con le
seguenti proprietà:
lunghe circa 10/15 basi
si trovano nelle regioni non codificanti della sequenza genica
non sono univoche
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Obiettivi
Sommario
1
Cenni di biologia molecolare
Gene e sequenze di DNA
Relazioni tra sequenze geniche
2
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Obiettivi
3
Fasi del lavoro
Estrazione dati
Metodi per l’identificazione di siti di legame
Validazione ed analisi
4
Conclusioni
Considerazioni sui risultati ottenuti
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Obiettivi
La ricerca di siti di legame
Ci proponiamo di:
Realizzare strumenti per individuare possibili sequenze bersaglio lungo la
sequenza di DNA
Figura: transcription factor binding site
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Estrazione dati
Sommario
1
Cenni di biologia molecolare
Gene e sequenze di DNA
Relazioni tra sequenze geniche
2
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Obiettivi
3
Fasi del lavoro
Estrazione dati
Metodi per l’identificazione di siti di legame
Validazione ed analisi
4
Conclusioni
Considerazioni sui risultati ottenuti
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Estrazione dati
Database genomici: proprietà e utilizzo
I database genomici forniscono:
una collezione di sequenze di DNA, frutto di ampi lavori di
sequenziamento e riconoscimento
una collezione di annotazioni
Essi si dividono in:
banche dati primarie
banche di dati specializzate
genome browser
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Estrazione dati
Database genomici: proprietà e utilizzo
I database genomici forniscono:
una collezione di sequenze di DNA, frutto di ampi lavori di
sequenziamento e riconoscimento
una collezione di annotazioni
Essi si dividono in:
banche dati primarie
banche di dati specializzate
genome browser
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Estrazione dati
Database genomici: proprietà e utilizzo
I database genomici forniscono:
una collezione di sequenze di DNA, frutto di ampi lavori di
sequenziamento e riconoscimento
una collezione di annotazioni
Essi si dividono in:
banche dati primarie
banche di dati specializzate
genome browser
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Estrazione dati
Database genomici: proprietà e utilizzo
I database genomici forniscono:
una collezione di sequenze di DNA, frutto di ampi lavori di
sequenziamento e riconoscimento
una collezione di annotazioni
Essi si dividono in:
banche dati primarie
banche di dati specializzate
genome browser
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Estrazione dati
Database genomici: proprietà e utilizzo
I database genomici forniscono:
una collezione di sequenze di DNA, frutto di ampi lavori di
sequenziamento e riconoscimento
una collezione di annotazioni
Essi si dividono in:
banche dati primarie
banche di dati specializzate
genome browser
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Estrazione dati
DB ENSEMBL e DB UCSC
Figura: Ensembl genome browser
Figura: UCSC genome browser
ENSEMBL: informazioni sull’ortologia ma errate identificazioni delle
locazioni geniche
UCSC: corrette identificazioni geniche e score di conservazione
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Estrazione dati
DB ENSEMBL e DB UCSC
Figura: Ensembl genome browser
Figura: UCSC genome browser
ENSEMBL: informazioni sull’ortologia ma errate identificazioni delle
locazioni geniche
UCSC: corrette identificazioni geniche e score di conservazione
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Estrazione dati
Integrazione dati
Soluzione
Integrazione delle due sorgenti dati Ensebl e Ucsc
Scopo proposto
Preservare la qualità dei dati
Modifiche asincrone
Differenti individuazioni degli oggetti
Incongruenze di schema
Assicurare Assembly coincidenti
Uso di identificatori esterni
Analisi dei dati usati e integrati
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Estrazione dati
Integrazione dati
Soluzione
Integrazione delle due sorgenti dati Ensebl e Ucsc
Scopo proposto
Preservare la qualità dei dati
Modifiche asincrone
Differenti individuazioni degli oggetti
Incongruenze di schema
Assicurare Assembly coincidenti
Uso di identificatori esterni
Analisi dei dati usati e integrati
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Estrazione dati
Integrazione dati
Soluzione
Integrazione delle due sorgenti dati Ensebl e Ucsc
Scopo proposto
Preservare la qualità dei dati
Modifiche asincrone
Differenti individuazioni degli oggetti
Incongruenze di schema
Assicurare Assembly coincidenti
Uso di identificatori esterni
Analisi dei dati usati e integrati
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Estrazione dati
Modulo Computazionale per l’estrazione dati
Figura: Design data extraction
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Metodi per l’identificazione di siti di legame
Sommario
1
Cenni di biologia molecolare
Gene e sequenze di DNA
Relazioni tra sequenze geniche
2
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Obiettivi
3
Fasi del lavoro
Estrazione dati
Metodi per l’identificazione di siti di legame
Validazione ed analisi
4
Conclusioni
Considerazioni sui risultati ottenuti
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Metodi per l’identificazione di siti di legame
Idea alla base dei metodi di identificazione
Figura: Binding factor and sequence
È possibile estrarre un modello di legame da un allineamento di sequenze
bersaglio dello stesso fattore di trascrizione A ?
Posizione:
sito 1
sito 2
sito 3
Consenso:
1
A
A
A
A
2
G
C
¯
G
G
3
A
A
A
A
4
A
A
A
A
Tabella: figura consenso
5
C
C
C
C
6
A
A
T
A
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Metodi per l’identificazione di siti di legame
Idea alla base dei metodi di identificazione
Figura: Binding factor and sequence
È possibile estrarre un modello di legame da un allineamento di sequenze
bersaglio dello stesso fattore di trascrizione A ?
Posizione:
sito 1
sito 2
sito 3
Consenso:
1
A
A
A
A
2
G
C
¯
G
G
3
A
A
A
A
4
A
A
A
A
Tabella: figura consenso
5
C
C
C
C
6
A
A
T
A
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Metodi per l’identificazione di siti di legame
PWM (Positional Weight Matrix) e TRANSFAC
Quindi
È possibile estrarre da un allineamento di piú sequenze bersaglio di uno
stesso fattore di trascrizione un modello di legame cioé un consenso
A
T
C
G
1
3
0
0
0
2
0
0
1
2
3
3
0
0
0
4
3
0
0
0
5
0
0
3
0
6
2
1
0
0
Tabella: matrice di peso PWM
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Metodi per l’identificazione di siti di legame
Conservazione e distanza evolutiva
Figura: conservation score
Figura: distance filogenetic
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Metodi per l’identificazione di siti di legame
Conservazione e distanza evolutiva
Figura: conservation score
Figura: distance filogenetic
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Metodi per l’identificazione di siti di legame
Conservazione e distanza evolutiva
Figura: conservation score
Figura: distance filogenetic
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Validazione ed analisi
Sommario
1
Cenni di biologia molecolare
Gene e sequenze di DNA
Relazioni tra sequenze geniche
2
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Obiettivi
3
Fasi del lavoro
Estrazione dati
Metodi per l’identificazione di siti di legame
Validazione ed analisi
4
Conclusioni
Considerazioni sui risultati ottenuti
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Validazione ed analisi
Modelli di score
Score0 = log2
L−w
X
i=1
Score1 = log2
L−w
X
i=1
j=i
Qi+w −1
j=i
i=1
PN
Score3 =
j=i
Qi+w −1
Qi+w −1
PN
Score2 =
Qi+w −1
i=1
j=i
pj
0
pj
∗
pj
(1)
0
pj
Pi+w −1
j=i
w
scj
!
(2)
Score0i ∗ (1 − di )
N
(3)
Score1i ∗ (1 − di )
N
(4)
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Validazione ed analisi
Modelli di score
Score0 = log2
L−w
X
i=1
Score1 = log2
L−w
X
i=1
j=i
Qi+w −1
j=i
i=1
PN
Score3 =
j=i
Qi+w −1
Qi+w −1
PN
Score2 =
Qi+w −1
i=1
j=i
pj
0
pj
∗
pj
(1)
0
pj
Pi+w −1
j=i
w
scj
!
(2)
Score0i ∗ (1 − di )
N
(3)
Score1i ∗ (1 − di )
N
(4)
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Validazione ed analisi
Modelli di score
Score0 = log2
L−w
X
i=1
Score1 = log2
L−w
X
i=1
j=i
Qi+w −1
j=i
i=1
PN
Score3 =
j=i
Qi+w −1
Qi+w −1
PN
Score2 =
Qi+w −1
i=1
j=i
pj
0
pj
∗
pj
(1)
0
pj
Pi+w −1
j=i
w
scj
!
(2)
Score0i ∗ (1 − di )
N
(3)
Score1i ∗ (1 − di )
N
(4)
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Validazione ed analisi
Modelli di score
Score0 = log2
L−w
X
i=1
Score1 = log2
L−w
X
i=1
j=i
Qi+w −1
j=i
i=1
PN
Score3 =
j=i
Qi+w −1
Qi+w −1
PN
Score2 =
Qi+w −1
i=1
j=i
pj
0
pj
∗
pj
(1)
0
pj
Pi+w −1
j=i
w
scj
!
(2)
Score0i ∗ (1 − di )
N
(3)
Score1i ∗ (1 − di )
N
(4)
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Validazione ed analisi
Modulo computazionale per l’implementazione dei modelli
di score
FASTA FILE
MARKOV
MODEL
MOTIF
INPUT
BUILD_SCORE
MS
ALGORITMO_MS
OUTPUT PER SINGOLO JOB
DATI SEQUENZA
E MATRICE
DATI DI CONSERVAZIONE
OUTPUT GLOBALE
DATI SEQUENZE
E MATRICI
IMPLEMENTATION MULTI SCORES
ON MATRIX SAMPLER
Figura: Computational module for implementation of scores
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Validazione ed analisi
Validazione su p63
Obiettivo
Identificare una sequenza bersaglio nota, calcolando i 4 score per ognuna
delle 546 matrici note in TRANSFAC
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Validazione ed analisi
Risultati
Figura: Results scores
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Validazione ed analisi
Risultati
Figura: Results scores
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Validazione ed analisi
Risultati
Figura: Results scores
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Fasi del lavoro
Conclusioni
Validazione ed analisi
Risultati
sensitivity =
ppv =
TP
TP + FN
(5)
TP
TP + FP
(6)
Score a confronto
Sensitivity:
33%
ppvScore0
0.04
ppvScore1
0.1
ppvScore2
0.02
ppvScore3
0.35
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Considerazioni sui risultati ottenuti
Sommario
1
Cenni di biologia molecolare
Gene e sequenze di DNA
Relazioni tra sequenze geniche
2
Oggetto e scopo del lavoro di tesi
Siti di legame per fattori di trascrizione
Obiettivi
3
Fasi del lavoro
Estrazione dati
Metodi per l’identificazione di siti di legame
Validazione ed analisi
4
Conclusioni
Considerazioni sui risultati ottenuti
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Considerazioni sui risultati ottenuti
Stato del lavoro e Sviluppi futuri
il contributo positivo della conservazione
problematiche aperte
Fasi del lavoro
Conclusioni
Cenni di biologia molecolare
Oggetto e scopo del lavoro di tesi
Considerazioni sui risultati ottenuti
Stato del lavoro e Sviluppi futuri
il contributo positivo della conservazione
problematiche aperte
Fasi del lavoro
Conclusioni