Strumenti bioinformatici per l’analisi di dati derivati dal sequenziamento di nuova generazione per la salute umana La comprensione dei meccanismi di regolazione trascrizionale è di fondamentale importanza per lo studio dei processi biologici come sviluppo, risposta ai farmaci e la patogenesi di una malattia. Gli esperimenti di sequenziamento di nuova generazione (NGS) generano grandi quantità di dati e efficaci analisi computazionali stanno diventando cruciali per scoprire nuovi meccanismi biologici. NGS permette il mappaggio dell’intero genoma, dei siti di legame di molte proteine di interesse, come fattori di trascrizione, insulators o enzimi che modificano la cromatina. Il mio lavoro è focalizzato nello generare robuste pipelines computazionali di analisi di dati, allo scopo di maneggiare grandi quantità di dati biologici provenienti sia dal data mining che da esperimenti che sfruttano le varie tecnologie descritte nel poster, al fine di ottenere dei risultati affidabili . Analisi computazionale di dati di ChIP-seq L’immunoprecipitazione dellla cromatina (ChIP) seguita dal sequenziamento massivo (ChIP-Seq) è una nuova tecnologia per mappare interazioni DNA-proteine nei vari genomi ed è basato sull’arricchimento del DNA associato con una proteina di interesse. I fattori di trascrizione giocano dei ruoli critici nella regolazione dell’espressione genica. La determinazione dei siti di legame dei fattori di trascrizione (TFBSs) sta diventando una sfida perchè i segmenti di DNA riconosciuti dai fattori di trascrizione (TF) sono spesso corti e dispersi nel genoma, e i target loci di un TF variano tra tessuti, stadi di sviluppo e condizioni fisiologiche. Usando le read mappate in maniera univoca dal profilo della ChIP e un profilo per il controllo, che è solitamente creato dal DNA input, il “peak calling” genera una lista di regioni putativamente legate dal TF. Per la ChIP-seq, l’analisi di follow-up più comune è focalizzata sulla ricerca di motivi di sequenza conservati che possano rappresentare siti di legame per fattori di trascrizione. Analisi computazionale di dati di RNA-seq Il sequenziamento dell’RNA (RNA-seq) è una tecnica sviluppata recentemente per permettere l’analisi del trascrittoma di genomi a più alta risoluzione che con il sequenziamento di base (Sanger) o metodi basati sui microarray. I cDNA generati dall’RNA vengono sequenziati direttamente mediante le tecnologie di sequenziamento di nuova generazione. Le read vengono allineate su un genoma di riferimento allo scopo di costruire una mappa del trascrittoma dell’intero genoma. L’RNA-seq è stato usato con successo per quantificare precisamente i livelli dei trascritti, confermare o rivedere estremità 5’ e 3’ di geni annotati e mappare i confini esone-introne. L’RNA‐seq fornisce un opportunità per fare ipotesi libere da disegni sperimentali, e investigare specie con annotazioni genomiche povere o assenti. Al di la dell’analisi di espressione genica, l’RNA-seq può essere usata come applicazione di scoperta per identificare eventi di splicing alternativo e trascritti nuovi e rari. L’abilità di separazione intrinseca delle misure di similarità (fraction enrichment proximity score, FES) Le misure di similarità sono centrali a molte applicazioni bioinformatiche che hanno lo scopo di desumere nuove conoscenze da conoscenze precedenti. L’abilità di separazione intrinseca è un importante metodologia che può essere impiegata per valutare misure di prossimità, ad es. come una distanza raggruppa al meglio degli oggetti simili in un dataset. La potenza delle misure di similarità di identificare esperimenti connessi è valutata calcolando per ognuno i valori dello Z-score e dell’area sotto la curva (AUC). Fraction enrichment proximity score (FES ) è inspirato dallo score di arricchimento della frazione usato per la predizione della struttura proteica e dall’analisi di arricchimento di gruppi di geni (GSEA). E’ usato per determinare il grado di sovrapposizione tra il nostro esperimento e altri esperimenti. FES ha una buona abilità di separazione intrinseca e un buon potenziale per riconoscere gruppi comuni di geni differenzialmente espressi tra due esperimenti. Conclusioni Gli strumenti bioinformatici permettono ai biologi di avere una più chiara e completa visione del comportamento cellulare. Possono essere utili per comprendere meglio il ruolo chiave di geni target coinvolti nella regolazione dei meccanismi biologici rilevanti per il cancro e a formulare nuove ipotesi a partire dall’analisi dei dati di espressione. Dott. Fabrizio Serra Prof. Federico Fogolari Prof. Claudio Brancolini Info: Tel. +39 0432494286 Fax. +39 0432 494301 Indirizzo mail: [email protected] Riferimenti bibliografici Fabrizio Serra, Chiara Romualdi, Federico Fogolari. Similarity measures based on the overlap of ranked genes are effective for comparison and classification of microarray data. (Submitted) Dipartimento di Scienze Mediche e Biologiche Corso di Dottorato in Scienze Biomediche e Biotecnologie AREA MEDICA