Barreca_Federica_JASPAR2

JASPAR
Jaspar è un database ad accesso libero di profili, annotati e ad altà qualità, di
siti di legame per fattori di trascrizione degli eucarioti multicellulari. I profili
derivano esclusivamente da un set di sequenze nucleotidiche delle quali è
sperimentalmente dimostrato che leghino i fattori di trascrizione. Il database è
completato da un’interfaccia grafica per il caricamento, la ricerca e selezione di
sottoinsiemi, sono inoltre presenti un servizio di analisi online delle sequenze e
un insieme d strumenti di programmazione per il genoma e per l’analisi
genomica comparativa delle regioni di regolazione.
Quindi Jaspar ha come scopo quello essere un deposito per campioni non
ridondanti di profili ad alta qualità, basati su matrici, dei siti di legame dei
fattori di trascrizione (transcription factor binding site, TFBS).
Tutti i profili derivano da pubblicazioni di dati definiti sperimentalmente di
TFBSs di eucarioti multicellulari. I siti di binding sono stati determinati sia
tramite esperimenti in SELEX sia dall’insieme di dati raccolti dall’analisi
sperimentale di regioni di legame con attività regolativa; questa distinzione è
annotata chiaramente nel commento al profilo stesso.
Le matrici di peso o profili (PSSM, position specific scoring matrix) sono delle
matrici di valori di punteggio che danno un match pesato, ponderato a
qualsiasi sequenza data di lunghezza fissa. Sono date dall’insieme delle matrici
di frequenza derivate da un allineamento multiplo e corrispondenti alla
similarità realmente osservata tra le sequenze, e le matrici di sostituzione che
rappresentano invece una similarità generica, ovvero quanto è mediamente
probabile che quella base venga sostituita con un’altra. Essa ha una riga per
ogni base e una colonna per ciascuna posizione; il punteggio del profilo è dato
dalla somma dei punteggi di posizione specifici per ogni base della sequenza.
Jaspar offre vantaggi signficativi rispetto ad altri database simili, è una
collezione non ridondante di profili affidabili di siti di binding, l’accesso ai dati è
privo di restrizioni (open-source) ed è funzionalmente connesso a strumenti di
programmazione come ad esempio Jaspar API.
Al
momento
sono
presenti
111
profili
facilmente
consultabili
tramite
l’interfaccia web. Per mezzo di quest’ultima è possibile:

consultare la raccolta dei profili dei siti di legame dei fattori di
trascrizione; i profili possono essere visualizzati in gruppi in base a
specifici criteri come ad esempio la classe strutturale di domini di
legame, la specie o il nome.

cercare i profili tramite identificativi o annotazioni.

confrontare profili inseriti dall’utente con profili esistenti nel database
mediante l’utilizzo di algoritmi di allineamento locale.

tramite una sequenza nucleotidica specifica cercare profili di fattori di
trascrizione selezionati.
Jaspar è costituito da un’insieme di database inferiori ciascuno con obbiettivi
differenti. Quello che viene maggiormente usato dai ricercatori è Jaspar CORE.
Jaspar core contiene un insieme accurato e non ridondante di profili selezionati
da raccolte di pubblicazioni riguardanti gli esperimenti per l’individuazione di
siti
di
legame
per
fattori
di
trascrizione
degli
eucarioti
multicellulari.
Rappresenta una raccolta di sequenze target e viene utilizzato per cercare
modelli per specifici fattori di trascrizione o per classi strutturali o nel caso in
cui sia importante avere l’evidenza sperimentale. Uno degli obbiettivi principali
di Jaspar Core è quello di fornire l’unico modello migliore per ciascun fattore di
trascrizione è infatti un piccolo insieme di dati non ridondanti e precisi.
Oltre al Jaspar Core è presente una raccolta
di matrici, “jaspar Collection”.
Possiamo distinguere:

Jaspar FAM: un database di 11 modelli che descrivono le proprietà di
legame condivise tra le diverse classi strutturali di fattori di trascrizione;
possono essere anche chiamati metamodelli, matrici consenso o profili
familiari. Viene utilizzato nel caso in cui si vogliano cercare sequenze
lunghe senza averne una conoscenza a priori e per la classificazione di
profili forniti dagli utenti.

Jaspar PHILOFACTS: un database di 174 profili derivati dagli elementi
filogeneticamente conservati a monte di un gene. È un insieme di matrici
che corrispondono a un mix di motivi di fattori di trascrizione noti e non,
sono utili quando ci si aspetta che altri fattori possano determinare le
caratteristiche del promotore, come ad esempio aspetti strutturali e
specificità del tessuto. Queste matrici sono complementari a quelle del
Jaspar Core quindi il loro utilizzo migliore è in combinazione con
quest’ultime.

Jaspar POLII: è un sub-database contenente 13 pattern conosciuti di Dna
legati al core del promotore della polimerasi II, ciascuno dei quali basato
su evidenze sperimentali. Una differenza sostanziale con i profili dei
fattori di trascrizione di Jaspar Core è che non necessariamente i pattern
hanno una proteina con la quale interagiscono. Viene utilizzato quando si
vogliono analizzare le proprietà del core dei promotori.

Jaspar CNE: è una raccolta di 233 matrici derivate dal raggruppamento
dei motivi sovrarappresentati
di elementi conservati non codificanti
nell’uomo. Gli elementi conservati non codificanti sono una caratteristica
distintiva dei genomi degli animali, molti dei quali possono fungere da
enhancers che portano all’espressione dei geni regolatori dello sviluppo e
del differenziamento. Questo tipo di database viene quindi utilizzato
quando si vogliono analizzare le proprietà di possibili enhancers.

Jaspar SPLICE: è un piccolo assortimento di matrici di profili di siti di
splicing umani, sia canonici sia non canonici; può quindi essere
consultato quando si stanno analizzando i siti di spicing e di splicing
alternativo.

Jaspar PBM: tutta la collezione è stata organizzata tramite l’utilizzo di
tecniche basate sul microarray. È possibile distinguere il Jaspar PBM
semplice da quello HOMEO e HLH. Il primo è un set di siti preferenziali di
legame di 104 fattori di trascrizione murini. Il secondo include 176 profili
da omodomini di topo e il terzo contiele 19 modelli di fattori di
trascrizione di C.elegans bHLH.
Per
quanto
riguarda
l’utilizzo
(http://jaspar.genereg.net/)
tramite
di
Jaspar,
già
un collegamento
nella
diretto
home
è
page
possibile
effettuare una consultazione dello Jaspar Core in base al gruppo tassonomico
di interesse: Vertebrata, Nematoda, Insecta, Plantae, Fungi e infine Classi
strutturali. Si possono scegliere inoltre delle specifiche opzioni di ricerca per
qualunque dei “Jaspar collection” ed è anche possibile confrontare pattern
personalizzati con quelli già esistenti.
Sono presenti una barra di consultazione (Browse tab) in cui l’intero database
può essere visualizzato ordinato secondo un criterio prestabilito (ID, specie,
classe strutturale, gruppo tassonomico), una per la ricerca (Search tab) ovvero
una selezione di sottoinsiemi di profili utilizzando criteri stabiliti dall’utente,
tramite una ricerca per campi (ID, nome, specie, classe e tipo) anche
attraverso operatori boleani (AND, OR, NOT). Infine è possibile effettuare una
ricerca valutando la significatività dell’allineamento di un profilo di input con
quelli presenti nel database.
Una volta effettuata una consultazione è possibile, cliccando sul logo del
modello scelto, osservare maggiori e più dettagliate informazioni su di esso:
appunti sui dati, sequence logos(rappresentazione grafica della matrice basata
sulle informazioni contenute posizione per posizione) e matrice di conteggio.
Oltre all’analisi di una sequenza utilizzando un sotto insieme di profili, è
possibile estendere la funzionalità del database, si possono raggruppare alcune
matrici in un albero filogenetico utilizzando l’algoritmo UPGMA e si possono
generare delle matrici random tramite il mescolamento delle colonne delle
matrici scelte. Infine può essere scelto tra tre diverse opzioni il formato di
output: Raw, Jaspar e Transfact.