Presentazione di PowerPoint - Università degli Studi di Udine

Strumenti bioinformatici per l’analisi di dati derivati dal
sequenziamento di nuova generazione per la salute umana
La comprensione dei meccanismi di regolazione trascrizionale è di fondamentale importanza per lo studio dei processi biologici come
sviluppo, risposta ai farmaci e la patogenesi di una malattia. Gli esperimenti di sequenziamento di nuova generazione (NGS) generano grandi
quantità di dati e efficaci analisi computazionali stanno diventando cruciali per scoprire nuovi meccanismi biologici. NGS permette il
mappaggio dell’intero genoma, dei siti di legame di molte proteine di interesse, come fattori di trascrizione, insulators o enzimi che modificano
la cromatina. Il mio lavoro è focalizzato nello generare robuste pipelines computazionali di analisi di dati, allo scopo di maneggiare grandi
quantità di dati biologici provenienti sia dal data mining che da esperimenti che sfruttano le varie tecnologie descritte nel poster, al fine di
ottenere dei risultati affidabili .
Analisi computazionale di dati di ChIP-seq
L’immunoprecipitazione dellla cromatina (ChIP) seguita dal
sequenziamento massivo (ChIP-Seq) è una nuova tecnologia per
mappare interazioni DNA-proteine nei vari genomi ed è basato
sull’arricchimento del DNA associato con una proteina di interesse.
I fattori di trascrizione giocano dei ruoli critici nella regolazione
dell’espressione genica. La determinazione dei siti di legame dei
fattori di trascrizione (TFBSs) sta diventando una sfida perchè i
segmenti di DNA riconosciuti dai fattori di trascrizione (TF) sono
spesso corti e dispersi nel genoma, e i target loci di un TF variano
tra tessuti, stadi di sviluppo e condizioni fisiologiche. Usando le
read mappate in maniera univoca dal profilo della ChIP e un profilo
per il controllo, che è solitamente creato dal DNA input, il “peak
calling” genera una lista di regioni putativamente legate dal TF.
Per la ChIP-seq, l’analisi di follow-up più comune è focalizzata
sulla ricerca di motivi di sequenza conservati che possano
rappresentare siti di legame per fattori di trascrizione.
Analisi computazionale di dati di RNA-seq
Il sequenziamento dell’RNA (RNA-seq) è una tecnica sviluppata
recentemente per permettere l’analisi del trascrittoma di genomi
a più alta risoluzione che con il sequenziamento di base (Sanger)
o metodi basati sui microarray. I cDNA generati dall’RNA vengono
sequenziati direttamente mediante le tecnologie di sequenziamento
di nuova generazione. Le read vengono allineate su un genoma di
riferimento allo scopo di costruire una mappa del trascrittoma
dell’intero genoma. L’RNA-seq è stato usato con successo per
quantificare precisamente i livelli dei trascritti, confermare o rivedere
estremità 5’ e 3’ di geni annotati e mappare i confini esone-introne.
L’RNA‐seq fornisce un opportunità per fare ipotesi libere da disegni
sperimentali, e investigare specie con annotazioni genomiche povere
o assenti. Al di la dell’analisi di espressione genica, l’RNA-seq può
essere usata come applicazione di scoperta per identificare eventi
di splicing alternativo e trascritti nuovi e rari.
L’abilità di separazione intrinseca delle misure di
similarità (fraction enrichment proximity score, FES)
Le misure di similarità sono centrali a molte applicazioni
bioinformatiche che hanno lo scopo di desumere nuove
conoscenze da conoscenze precedenti. L’abilità di
separazione intrinseca è un importante metodologia che
può essere impiegata per valutare misure di prossimità,
ad es. come una distanza raggruppa al meglio degli oggetti
simili in un dataset. La potenza delle misure di similarità di
identificare esperimenti connessi è valutata calcolando per
ognuno i valori dello Z-score e dell’area sotto la curva (AUC).
Fraction enrichment proximity score (FES ) è inspirato dallo
score di arricchimento della frazione usato per la predizione
della struttura proteica e dall’analisi di arricchimento di gruppi
di geni (GSEA). E’ usato per determinare il grado di
sovrapposizione tra il nostro esperimento e altri esperimenti.
FES ha una buona abilità di separazione intrinseca e un buon
potenziale per riconoscere gruppi comuni di geni
differenzialmente espressi tra due esperimenti.
Conclusioni
Gli strumenti bioinformatici permettono ai biologi di avere una
più chiara e completa visione del comportamento cellulare.
Possono essere utili per comprendere meglio il ruolo chiave
di geni target coinvolti nella regolazione dei meccanismi
biologici rilevanti per il cancro e a formulare nuove ipotesi a
partire dall’analisi dei dati di espressione.
Dott. Fabrizio Serra
Prof. Federico Fogolari
Prof. Claudio Brancolini
Info:
Tel. +39 0432494286
Fax. +39 0432 494301
Indirizzo mail: [email protected]
Riferimenti bibliografici
Fabrizio Serra, Chiara Romualdi,
Federico Fogolari.
Similarity measures based on the
overlap of ranked genes are effective
for comparison and classification of
microarray data. (Submitted)
Dipartimento di Scienze Mediche e Biologiche
Corso di Dottorato in Scienze Biomediche e
Biotecnologie
AREA MEDICA