pattern discovery in sequenze promotoriali per la ricerca di nuovi

PATTERN, MOTIVI E PROFILI
IN ACIDI NUCLEICI
 REGOLAZIONE
DELL’ESPRESSIONE GENICA
 PATTERN DISCOVERY IN
SEQUENZE PROMOTORIALI PER
LA RICERCA DI NUOVI ELEMENTI
FUNZIONALI
PATTERN, MOTIVI E PROFILI
IN ACIDI NUCLEICI
 REGOLAZIONE
DELL’ESPRESSIONE GENICA
 PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER
LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
REGOLAZIONE DELL’ESPRESSIONE GENICA
ESPRESSIONE DEL GENOMA UMANO
NELLE CELLULE DIFFERENZIATE
1. Tutte le cellule di un organismo hanno lo stesso
corredo genomico (~40000 geni)
2. L’espressione genica tessuto specifica determina il
fenotipo morfo-funzionale dei tipi cellulari e tissutali
3. In ogni cellula differenziata ed in ogni particolare
momento dello sviluppo e’ attivo solo un
sottoinsieme di geni
REGOLAZIONE DELL’ESPRESSIONE GENICA
Restrizione spaziale e temporale dell’espressione genica
 Geni housekeeping
 Geni con espressione ristretta nello spazio
• Espressione in piu’ organi/tessuti diversi
Stesso ruolo in piu’ tessuti
Il gene codifica per diverse isoforme (promotori alternativi e/o
splicing alternativo tessuto
specifico)
• Espressione specifica per tessuto, linea o tipo cellulare
• Espressione solo in singole cellule
• Distribuzione intracellulare o extracellulare
 Geni con espressione ristretta nel tempo
 Stadio di sviluppo
 Stadio di differenziamento
 Momento del ciclo cellulare
 Espressione inducibile da parte di fattori ambientali o extracellulari
REGOLAZIONE DELL’ESPRESSIONE GENICA
DNA
Pre RNA
mRNA
PRIMARY
TRANSLATION
ACTIVE PROTEIN
REGOLAZIONE DELL’ESPRESSIONE GENICA
Puo’ agire su ciascuno dei Negli Eucarioti superiori si
livelli che caratterizzano il svolge pricipalmente come
passare dell’informazione controllo della trascrizione
genica dal DNA alle
proteine
INIZIO DELLA TRASCRIZIONE
La RNA polimerasi riconosce l’inizio del gene. Viene diretta
sul TSS (Transcription Start Site) sulla base della sua affinita’ per
la specifica sequenza upstream al gene, ovvero il promotore. La
doppia elica viene aperta dove inizia la sintesi del messaggero.
2 steps
1. I TF legano la sequenza promotrice (e gli enhancers) formando
un complesso multiproteico
2. Il complesso recluta la pol II complessata ad alcuni GTF e questa
si lega al promotore core
REGOLAZIONE DELL’ESPRESSIONE GENICA
POL II PROMOTER ELEMENTS
TSS (vicino alla regione Initiator) + sito di legame per un
GTF (spesso TBP)
CORE PROMOTER ELEMENTS
• TATA box
• Initiator
• Downstream promoter element
TRANSCRIPTION FACTORS (TF) BINDING SITES
• CAAT box
• GC box
• Sp-1 sites
• GAGA boxes
ENHANCER(S) SITES
REGOLAZIONE DELL’ESPRESSIONE GENICA
Assemblaggio del complesso attivatore della trascrizione sul
promotore prossimale e sulla regione core
Struttura schematica di un promotore per la Pol II
PROMOTORE CORE

PROM. PROSSIMALE

PROMOTORE DISTALE

regione sufficiente a deteminare
il TSS esatto
200-300 bp upstream al TSS,
responsabile, almeno in parte,
della modulazione
dell’espressione
100 bp – 2 Mb
4 possibili assetti di promotori core funzionali
GENERAL
CORE PROMOTER MODULE
A
C
B
D
Sequenze nucleotidiche al 5’ del sito d’inizio della trascrizione di geni di E.coli
trascritti attraverso il fattore housekeeping sigma70 della RNA polimerasi
caaaacggttgacaacatga
aaagagtattgacttaaagt
tggcggtgttgacataaata
cgtgcgtgttgactatttta
tgccgaagttgagtattttt
tctttttgatgcaattcgct
cattaacgtttacaatttaa
cgtcaggattgacaccctcc
aattgttgttgttaacttgt
atgagctgttgacaattaat
tgttgacaattt t
•
•
•
•
•
agtaaacacggtacgatgtaccacat
ctaacctataggatacttacagccat
ccactggcggtgatactgagcacatc
cctctggcggtgataatggttgcatg
gctgtatttgtcataatgactcctgt
ttgcttctgactataatagacagggt
atatttgcttatacaatcatcctgtt
caattgtatgttttcatgcctccaaa
ttattgcagcttataatggttacaaa
catcgaactagttaactagtacgcaa
t t tg tataatg
c t
Due regioni in cui la sequenza e’ conservata: -10 - 35 dallo start site (motivi
TTGACA e TATAAT)
IL TFIID e’ un complesso della TATA box binding protein (TBP) e di altre
proteine chiamate TATA binding protein associated factors, o TAFs.
L’inizio della transcrizione puo’ essere studiato in vitro (DNA + proteine
purificate). L’inizio della trascrizione da promotori TATA-containing non richiede
necessariamente TAFs.
TAFs stimulate initiation from TATA-containing promoters that also have Inr's.
TAFs are required for initiation from TATA-less promoters.
CONSENSUS SEQUENCE APPROACH TO THE
IDENTIFICATION OF GENETIC SIGNALS
• I motivi TTGACA and TATAAT sono i segnali che
vengono riconosciuti dalla subunita’ sigma70 della
polimerasi.
• La “forza” relativa di un promotore e’ proporzionale
alla sua similarita’ ad una specifica sequenza
consenso.
• Mutazioni nelle regioni -10 and –35 alterano la
“forza” del promotore.
• Esperimenti tipo footprinting o methylation
interference confermano la loro attivita’.
GENETIC SIGNALS
dobefmolecdaiularsqueihgensvweticskiprovsvillmmdescheplemolasusyretpb
• Gli ELEMENTI SEGNALE generalmente agiscono solo sulle
molecole di DNA di cui fanno parte ("cis-acting elements“)
• Questi elementi segnale vengono “accesi” o “spenti”
attraverso l’interazione con fattori di trascrizione
• I fattori di trascrizione sono PROTEINE. In generale, sono
proteine in grado di diffondere nelle cellule e in grado di
interagire con elementi bersaglio che possono trovarsi in
una qualsiasi molecola di DNA (“trans-acting factors”)
dobefmolecdaiularsqueihgensvweticskiprovsvillmmdescheplemolasusyretpb
molec
ular
gen
etics pro vi
des
ple
asu re
ESEMPIO DI FATTORE DI TRASCRIZIONE
MEF-2 (myocyte enhancer factor-2)
PROTEINA DI 507 AA
MGRKKIQITRIMDERNRQVTFTKRKFGLMKKAYELSVLCDCEIALIIFNSSNKLFQYASTMDKVLLKYTEYNEPHESRTNS
DIVEALNKKEHRGCDSPDPDTSYVLTPHTEEKYKKINEFDNMMRNHKIAPGLPPQNFSMSVTVPVTSPNALSYTNPGSSLV
SPSLAASSTLTDSSMLPPQTTLHRNVSPGAPQRPPSTGNAGGMLSTTDLTVPNGAGSSPVGNGFVNSRASPNLIGTGANSL
GKVMPTKSPPPPGGGNLGMNSRKPDLRVVIPPSSKGMMPPLSEEEELELNTQRSSSQATQPLATPVVSVTTPSLPPQGLVY
SAMPTAYNTDYSLTSADLSALQGFNSPGMLSGQVSAWQQHHLGQAALSSLVAGGQLSQGSNLSINTNQNISIKSEPISPPR
DRMTPSGFQQQQQQQQQQPPPPPQPQPQPPQPQPRQEMGRSPVDSLSSSSSSYDGSDREDPRGDFHSPVLGRPPNTEDRES
PSVKRMRMDAWVT
DATI NOTI: SEQUENZE REGOLATIVE IN GRADO DI LEGARE
MEF-2 UPSTREAM AD ALCUNI GENI REGOLATI DA MEF-2
muscle-type creatine kinase (-1091 –1062)
... ggaggagaagctcgctCTAAAAATAAccct ...
alpha-myosin heavy chain (-340 -313)
... cagaTTAAAAATAActaa ...
myogenin (-131 –15)
... gcagccggacaagttttgatgcgaggcagcagcttagggtgggct
aggtttcctttaggttttctatatttatctctgtgatttaatgccagcgccgg
ggtttaaatggcaccgag ...
...
Evidenze:
DNase I footprinting, direct gel shift, supershift
(antibody binding) e methylation protection
MATRICE DI MEF-2
POS.
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
A
5
16
18
19
22
33
20
3
3
85
57
91
96
93
0
100
9
34
36
20
30
23
C
28
32
36
25
12
9
4
85
8
0
0
0
0
0
0
0
0
46
28
37
34
23
G
25
31
27
33
43
21
43
3
0
0
0
1
0
1
0
0
90
11
8
15
13
22
T
42
21
19
23
23
37
33
9
89
15
41
8
4
6
100
0
1
9
28
28
23
32
SEQUENZA CONSENSO LEGANTE MEF-2:
NNNNNNKCTAWAAATAGMNNNN
N
N
N
N
N
N
K
C
T
A
W
A
A
A
T
A
G
M
N
N
N
N
(G o T, Keto)
(A O T, Weak)
(A o C, Amino)
METODO
SEQUENZE UPSTREAM
ALLINEAMENTO LOCALE
ANALISI DELL’ALLINEAMENTO
PATTERN DISCOVERY
MOTIVO
TRANSFAC
http://transfac.gbf.de/TRANSFAC/index.html
TRANSFAC
MODELLO DI ORGANIZZAZIONE DI UN PROMOTORE
COMPLESSO
RANTES/CCL5 - chemokine – inflammation
Promoter characterized
PATTERN, MOTIVI E PROFILI
IN ACIDI NUCLEICI
 REGOLAZIONE DELL’ESPRESSIONE GENICA
 PATTERN DISCOVERY IN
SEQUENZE PROMOTORIALI PER
LA RICERCA DI NUOVI ELEMENTI
FUNZIONALI
PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER
LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
• Sono disponibili le sequenze di molti genomi interi
• Per diversi organismi procariotici ed eucariotici
virtualmente tutti i geni sono noti o predetti
• Informazioni funzionali ancora parziali:
 regolazione espressione genica
 funzione proteine
• L’analisi di singoli promotori con i metodi tradizionali e’
molto lenta e dispendiosa, non “scaled up” alla
quantita’ di dati disponibili
• Applicazione di metodi di “PATTERN DISCOVERY”
allo studio di sequenze regolative
PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER
LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
Perche’ si possono applicare metodi di “PATTERN
DISCOVERY” allo studio di sequenze regolative di geni ?
E’ verosimile che:
gruppi di geni espressi in modo simile (nel tempo, nello
spazio) co-regolati ovvero che siano controllati da
sottogruppi simili di fattori di trascrizione
condividano almeno parte degli elementi regolativi cis-acting,
cioe’ i segnali nelle sequenze promotoriali
Pattern discovery  scoprire sottostringhe comuni tra piu’
stringhe (es. Sequenze di DNA)
Problemi:
I “segnali genetici” non sono pattern esatti ma approssimati
Possono esserci o non esserci nelle sequenze analizzate
PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER
LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
PATTERN MATCHING/RECOGNITION
vs
PATTERN DISCOVERY
• PATTERN MATCHING  trovare TUTTE le volte in cui uno
specifico PATTERN esatto si presenta (occurences) in una
stringa o in un insieme di stringhe (sequenze di DNA o
aminoacidi)
Es.: trovare il PATTERN “HHKHKK” in
AMVOIBGJFDHHKHKKUUUPFIRJRNTMDHHKHKKHJHKKSAAW
• PATTERN RECOGNITION  riconoscere le occurences
approssimate di uno specifico PATTERN in una una
stringa o in un insieme di stringhe
Es.: trovare il PATTERN “HH*HKK” in
AMVOIBGJFDHHKHKKUUUPFIRJRNTMDHHAHKKHJHKKSAAW
PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER
LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
PATTERN MATCHING/RECOGNITION
vs
PATTERN DISCOVERY
• PATTERN DISCOVERY  identificare PATTERN
SIGNIFICATIVI in una stringa o in un insieme di
stringhe senza conoscerli a priori
Es.: trovare i PATTERN SIGNIFICATIVI in
ATTCAGTCTTGTGCTTTTAGTCTCTTAGCTAGTCTCTAATTTAGACAGTCTA
Uno puo’ essere: AGTCT, infatti:
ATTCAGTCTTGTGCTTTTAGTCTCTTAGCTAGTCTCTAATTTAGACAGTCTA
Approaches to pattern recognition
Quali siti potenzialmente leganti fattori di trascrizione si trovano sulla mia
sequenza e dove sono localizzati ?
Query: 250 bp upstream al gene per un canale Na+/Ca++ espresso nel
muscolo e nel tessuto nervoso
Approaches to pattern recognition
Quali siti potenzialmente leganti fattori di trascrizione si trovano sulla mia
sequenza e dove sono localizzati ?
Tabella dei risultati
Sp1
http://www.cbil.upenn.edu/cgi-bin/tess
Approaches to pattern discovery
Pattern driven:
Enumerazione di tutti (o alcuni) dei
possibili patterns fino a una certa
lunghezza, per ciascun pattern si calcola
un punteggio basato sulla frequenza e si
scelgono i punteggi piu’ alti
Non fattibile per pattern anche di dimensione modesta
Sequence driven:
 Ricerca dei pattern basata
sull’allineamento delle sequenze
Algoritmi pattern driven
• I metodi "pattern driven" cercano in una sequenza
specifiche classi di pattern e valutano la loro
frequenza di apparizione.
• Il numero di pattern possibili aumenta
esponenzialmente con la lunghezza dell'input. Per
pattern esatti, ad esempio, e' quadratico.
• L'utilizzo di una struttura di dati ad albero dei suffissi
migliora l'efficienza del metodo e permette di trovare
tutte le sequenze piu' (o meno) rappresentate
dell'atteso in tempo lineare con la dimensione
dell'input
Algoritmi pattern driven
Il problema e’ trovare pattern significativi, tra tutti i possibili pattern. I pattern
sono sottostringhe. Considero tutti i possibili pattern lunghi 10 nucleotidi
nella seguente sottostringa:
AGTCTTGTGCTTTTAGTCTTGTGCCTAGTCTCTAATTTAGACAGTCT
AGTCTTGTGC
GTCTTGTGCT
TCTTGTGCTT
CTTGTGCTTTT
TTGTGCTTTTA
TGTGCTTTTAG
GTGCTTTTAGT
TGCTTTTAGTC
GCTTTTAGTCT
CTTTTAGTCTT
TTTTAGTCTTG
TTTAGTCTTGT
TTAGTCTTGTG
TAGTCTTGTGC
AGTCTTGTGCC
GTCTTGTGCCT
...
Sono rappresentati tutti 1 volta, mentre la sottostringa AGTCTTGTGCC e’
rappresentata 2 volte.
Voglio sapere se trovare una sottostringa lunga 10 rappresentata 2 volte e’
SORPRENDENTE.
Algoritmi pattern driven
Per calcolare quanto un fenomeno sia sorprendente ci si riferisce a quello
che ci si aspetta, sotto un’ipotesi probabilistica. La frequenza attesa di una
sottostringa dipende dalla composizione della stringa.
se %G=%C=%A=%T=25%
posso immaginare una sorgente casuale che crea delle stringhe in modo
che la probabilita’ di osservare un certo nucleotide in una certa posizione e’
indipendente dalla sequenza precedentemente generata
(Modello di Bernoulli)
A
ATGCTGT
T
sempre 25%
G
C
Approccio enumerativo:
 enumerare tutti i possibili pattern di una certa lunghezza contenuti in una
stringa
 calcolare la significativita’ statistica di ciascuno
 prendere in considerazione i pattern piu’ significativi
Pero’ esistono 410 (1,048,574) possibili pattern lunghi 10 in un alfabeto di 4
nucleotidi
Algoritmi pattern driven
Poiche’ il problema e’ computazionalmente complesso, sono stati
introdotti approcci euristici per limitare il “search space”:
 si cerca solo un sottogruppo di pattern and esempio imponendo
restrizioni sulla posizione dei “mismatches”
 si usano particolari strutture-dati che facilitano la ricerca
Un Suffix Tree e’ una struttura-dati che permette di risolvere
“agevolmente”molti problemi con le stringhe
tree
tree-->|---mississippi
|
|---i-->|---ssi-->|---ssippi
|
|
|
|
|
|---ppi
|
|
|
|---ppi
|
|---s-->|---si-->|---ssippi
|
|
|
|
|
|---ppi
|
|
|
|---i-->|---ssippi
|
|
|
|---ppi
|
|---p-->|---pi
|
|---i
substrings
m .. mississippi
i .. ississippi
issip,issipp,issippi
ip, ipp, ippi
s .. ssissippi
ssip, ssipp, ssippi
si .. sissippi
sip, sipp, sippi
p, pp, ppi
p, pi
Algoritmi pattern driven
ANALYSIS OF MULTIPLE SEQUENCES:
trova le parole sopra- o sotto-rappresentate in un
gruppo di sequenze
ANALYSIS OF MULTIPLE SEQUENCES:
Enumera tutti i possibili pattern che ricorrono in
almeno q sequenze, con em mutazioni, se m e’ la
lunghezza del pattern
Algoritmi sequence driven
Si basano su:
1. Raggruppamento di sequenze simili o “funzionalmente equivalenti”
2. Per ogni gruppo, ricerca di pattern comuni tra le sequenze
3. Raggruppamento di pattern simili e ripetizione dello step precedente
fino a che rimane un solo gruppo
I metodi "sequence driven" lavorano combinando i
risultati della comparazione a coppie di sequenze,
con il fine di evidenziare le regioni simili. Il problema
di enumerare tutti i possibili pattern con occorrenze
non esatte e' piuttosto impegnativo, percio' molti
programmi cercano soluzioni "quasi ottimali"
attraverso algoritmi euristici.
LAVORO “SPERIMENTALE”
ANALISI BIOINFORMATICA E COMPUTAZIONALE
DELLE SEQUENZE DI DNA A MONTE DI GENI
DIFFERENZIALMENTE ESPRESSI NELLA RETINA
SCOPO
IDENTIFICARE SEQUENZE REGOLATIVE ANCORA
SCONOSCIUTE E DI SVILUPPARE NUOVI
MODELLI DI REGIONI REGOLATIVE TESSUTOSPECIFICHE
METODI
PREDIZIONE DI PROMOTORI
RICERCA E SCOPERTA DI NUOVI PATTERNS
LAVORO “SPERIMENTALE”
ANALISI BIOINFORMATICA E COMPUTAZIONALE DELLE SEQUENZE DI
DNA A MONTE DI GENI DIFFERENZIALMENTE ESPRESSI NELLA RETINA
DATI: SEQUENZE DI DNA A MONTE DI GENI RETINASPECIFICI
>NM_000539.2 rhodopsin (opsin 2, rod pigment)(RHO)chr3:147548167-147549166 exons
in upper case
CCTTCAGACTGGAGTCCCCTGAAGGGTTCTGCCCCTCCCCTGCTCTGGTAGCCCCCTCCATCCTCCCTCCCTCCACTCCATCTTTGGGGGCATTTGAGTCACCTTTCTACACCAGTGATCTGCCCA
AGCCACTGCTCACTTTCCTCTGGATAAAGCCAGGTTCCCCGGCCTAGCGTTCAAGACCCATTACAACTGCCCCCAGCCCAGATCTTCCCCACCTAGCCACCTGGCAAACTGCTCCTTCTCTCAAAG
GCCCAAACATGGCCTCCCAGACTGCAACCCCCAGGCAGTCAGGCCCTGTCTCCACAACCTCACAGCCACCCTGGACGGAATCTGCTTCTTCCCACATTTGAGTCCTCCTCAGCCCCTGAGCTCCTC
TGGGCAGGGCTGTTTCTTTCCATCTTTGTATTCCCAGGGGCCTGCAAATAAATGTTTAATGAACGAACAAGAGAGTGAATTCCAATTCCATGCAACAAGGATTGGGCTCCTGGGCCCTAGGCTATG
TGTCTGGCACCAGAAACGGAAGCTGCAGGTTGCAGCCCCTGCCCTCATGGAGCTCCTCCTGTCAGAGGAGTGTGGGGACTGGATGACTCCAGAGGTAACTTGTGGGGGAACGAACAGGTAAGGGGC
TGTGTGACGAGATGAGAGACTGGGAGAATAAACCAGAAAGTCTCTAGCTGTCCAGAGGACATAGCACAGAGGCCCATGGTCCCTATTTCAAACCCAGGCCACCAGACTGAGCTGGGACCTTGGGAC
AGACAAGTCATGCAGAAGTTAGGGGACCTTCTCCTCCCTTTTCCTGGATCCTGAGTACCTCTCCTCCCTGACCTCAGGCTTCCTCCTAGTGTCACCTTGGCCCCTCTTAGAAGCCAATTAGGCCCT
CAGTTTCTGCAGCGGGGATTAATATGATTATGAACACCCCCAATCTCCCAGATGCTGATTCAGCCAGGAGCTTAGGAGGGGGAGGTCACTTTATAAGGGTCTGGGGGGGTCAGAACCC
>NM_000172.1 guanine nucleotide binding protein (G protein), alpha transducing
activity polypeptide 1 (GNAT1)chr3:55664892-55665891
<
AAAAAAAAAAAAAAAAAAGGCCAGGCACGGTGGCTCATGCCTGTAATCCCAGCACTTTGGGAGGCCGAGGCGGGCAGATCACGAGGTCAGGAGACTGAGACCATCCTGGCTAACACGGTGAAACCC
TGTCTTTACTAAAATACAAAAAAAGTAGCCCGACGTAGTGGCGGGCACCTGTTGTCCCAGCTACTCAGGAGGCTGAGGCAGGAGAATGGCGTGAACCTGGGAGGTGGAGCTTGCAGTGAGCTGAGA
TTGCGCCACTGCACTCCAGCCTGAGCAACAGAGCGAGACTCCATCTCAGAAAAAAAAAAAAAAAAGACACATACACCGAGGCACACAGAGCAGATATGCATGCCCACCACAGTCCGCTGGAAGCAG
AGGACCTCCTTGGGGCAGCTCCAGCCTGTGATATGGGATGAATGCAATGCCCACTGTTTCCCTCTCTCTGGATTCCCTGCAGGTCATAAAATCCCAGTCCAGAGTCACCAGCCCTTCTTAACCACT
TCCTACTGTGTGACCCTTTCAGCCTTTACTTCCTCATCAGTAAAATGAGGCTGATGATATGGGCATCCATACTCCAGGGCCAGTGTGAGCTTACAACAAGATAAGGAGTGGTGCTGAGCCTGGTGC
CGGGCAGGCAGCAGGCATGTTTCTCCCAATTATGCCCTCTCACTGCCAGCCCCACCTCCATTGTCCTCACCCCCAGGGCTCAAGGTTCTGCCTTCCCCTTTCTCAGCCCTGACCCTACTGAACATG
TCTCCCCACTCCCAGGCAGTGCCAGGGCCTCTCCTGGAGGGTTGCGGGGACAGAAGGACAGCCGGAGTGCAGAGTCAGCGGTTGAGGGATTGGGGCTATGCCAGCCCGATTAGAAGGGTTGGGGGG
GCTGAGCTGGATTCACCTGTCCTTGTCTCTGATTGGCTCTTGGACACCCCTAGCCCCCAAATCCCACTAAGCAGCCCCACCAGGGATTGCACAGGTCCGTAGAGAGCCAGTTGATTGC
>NM_021200.1 PH domain containing protein in retina 1 (PHRET1) chr11:7831161678312615
CACAAAGAAATGTAAAAGTTACTTGTTGGCTTATTAGTCTCAATAAGTTTTAGTTGATTGAACAAACAAAGTCTCTCACAGCCAGGACTGCTGCGGCTGGAATTCCTGACATACTGTCATACCTCT
CACTCGTCAATCTACACTCTCCTCCCATCTACACAGCTCTGGAAATTAAAAACAATCCAACCATGACTATCATGGCTTCAGAGGTCTATGAACTCCCAGGAATTATACGCAGATTTTTTCCTGAGG
ACAGTCTACACTTCCTTATTGGCTTCTCAAAGAGGGTCACTGACCAGCTTTTAGAGACATGGGCCAAGTCCGGCTACGTTTAGATTCGGTAGTAGTGTCTGTGGTTTTAGTTTGCCACGTCCTTTC
CTCTTTTTTTCGTCATAGTGCCCGCTCTTTGGGAGGTAGGGGAGAGTCTTCCCCTGAAGTCTCCACTGCTGCTGGAGAACCTTCCTTTTTCATCTGGTTGCTAAATCCAGAGAATGAAATCTAGGA
GATGATTGCACCGTCCCCGCCCCTCAACATGAAGGATGCCCCACTGCCCATCGGGGAGGGGAGCAGGGAGAGCTGGAGAGAGGCTGGGTCGGGGCAGGACCCAGGCGCAGATCCTCCGAGGCCAGC
TGCAGCCCTACCTACCTGCCTTCCCCTCTTTCCCCTCCCTTCTTTTCTCCTTCTGTCTTTCCTTCCTTCCATATCTCTTTCCTTGCCTCTTTCCCCCTCCCACTGCTTCCTTTCTTCCTTCCACTG
TGGAGGTGGAAAATTTAGCTAGGAGAAGCTGGGACTGGGACGTTCCAGGAACCAGACAGAGAGTGAGTTAAAGGCACAGAGATGAAAACGCGGTTTGGGAGAGCTGGTTCTTGAGTCGGCTAAGAG
GGGATGAACTCAATGGTTAATAGGATTGGCCATGGCGAATCCCTCAGCAGGGCACGCACCGCACAAAGGGCCGAAGCGCGAGGGTAGCTCGAGGTCAGGATTACAGAGACTCAGGAGC
Cerca "parole" non-degenerate, sovrarappresentate in
un gruppo di sequenze (positive set) rispetto ad un
gruppo di controllo (negative set)
LIMITI DEI PROGRAMMI ESISTENTI:
• DISPONIBILITA’ DEL SOFTWARE
• POSSIBILITA’ DI REGOLARE I PARAMETRI DI RICERCA
• LENTEZZA
• NON FUNZIONAMENTO PER LA RICERCA DI PATTERN
MEDIO LUNGHI E CON ALCUNE WILDCARDS
• INCAPACITA’ DI TROVARE SEGNALI RAPPRESENTATI IN
UNA FRAZIONE NON MAGGIORITARIA DELLE SEQUENZE
INPUT
• ESPLOSIONE DELL’OUTPUT
• OUTPUT “ILLEGGIBILE”
IL “CHALLENGE PROBLEM”
Trovare un segnale lungo 15 nucleotidi con 4 wildcards (15-4)
In 20 sequenze tutte conteneti un’istanza del segnale stesso.
Performances dei diversi programmi:
Sostanzialmente una frazione molto piccola dei segnali viene
ritrovata e questa frazione tende a zero non appena la
lunghezza delle sequenze in analisi supera il centinaio di basi
COMPLESSITA’ REALE DEL PROBLEMA:
• La lunghezza delle sequenze promotoriali varia da 300 a 2000
paia di basi a seconda del gene e del fatto che si consideri il
promotore core, quello prossimale o anche quello distale.
• I segnali non sono pattern esatti.
• Non tutti i promotori di geni presumibilmente coregolati
contengono il medesimo segnale.
E’ NECESSARIO FARE RICORSO ALLE CONOSCENZE
BIOLOGICHE PER FILTRARE L’INPUT E L’OUTPUT DI
PROGRAMMI DI PATTERN DISCOVERY:
• ANALISI SU LARGA SCALA DELLE MATRICI DI TRANSFAC
• UTILIZZO DI SIMULAZIONI
• MASCHERAMENTO DELLE SEQUENZE ???
“Predicting gene regulatory elements in silico on
a genomic scale”
BRAZMA et al. 1998, Genome Research
• Analisi sistematica di regioni upstream a geni di lievito per cercare di
scoprire “regular expression-type patterns” ed identificare nuovi
elementi regolativi presunti
• Nuovo algoritmo di pattern discovery che cerca in modo esaustivo
pattern sconosciuti a priori che siano piu’ rappresentati nelle
sequenze upstream a geni che in un insieme di sequenze
extrageniche di lievito, prese come campione di riferimento
• Data set: >6000 sequenze upstream a geni di lievito
• Metodo: cercano i pattern che si trovano piu’ frequentemente nelle
regioni upstream a geni che non nel resto del genoma
numero di seq. upstr. che contengono il pattern
Punteggio=
numero di sequenze random che lo contengono
• Risultati: tra i pattern con i punteggi piu’ alti molti sono simili a
sequenze note per legare fattori di trascrizione di lievito