Nuove metodologie di analisi molecolari e statistiche e

Nuove metodologie di analisi molecolari, statistiche e bioinformatiche di dati ottenuti
mediante tecnologie ad alta produttività in ambito della ricerca biomedica
Con l’avvento dell’era genomica è emersa una nuova classe di dati, le cui caratteristiche e la cui
quantità comporta l’utilizzo di metodi matematici e statistici che consentono di estrapolare il
massimo dell’informazione contenuta in essi.
Sotto il nome comune di “Microarray” o tecnologie ad alta produttività esistono diverse piattaforme
sperimentali che possono essere raggruppate in distinte categorie: Array di Espressione, Array CGH
e SNP Array. Inoltre, l’avvento delle tecnologie di sequenziamento di nuova generazione, nel loro
utilizzo per il sequenziamento di ampi tratti o dell’intero genoma o per la valutazione
dell’espressione genica, rendono necessaria l’applicazione e lo sviluppo di metodologie statistiche e
bioinformatiche di alta specialità.
Gli array d’espressione permettono di monitorare l’espressione genica di migliaia di geni
contemporaneamente consentendo al ricercatore di avere una visione globale di quello che accade
all’interno della cellula a livello del trascrittoma (mRNA). Le due principali applicazioni degli array
di espressione sono lo studio dell’espressione differenziale e della coespressione.
Gli algoritmi utilizzati per lo studio dell’espressione differenziale si basano su modifiche del t-test
tradizionale e consentono l’identificazione di quei geni in cui l’abbondanza di trascritto è diversa tra
“caso” e “controllo”. La letteratura è molto ricca di algoritmi per lo studio dell’espressione
differenziale ed essenzialmente i vari metodi si differenziano tra di loro per il modo in cui viene
calcolato il “rumore” della statistica t.
L’obiettivo dello studio di coespressione è invece quello di individuare raggruppamenti (clusters)
significativi di campioni biologici (o di geni), basandosi sui profili di espressione genica. In
letteratura esistono molti algoritmi che hanno affrontato il problema del clustering su esperimenti di
microarray sia in modo “supervisionato” che “non supervisionato”. Tali approcci spaziano dai più
tradizionali e semplici metodi di clustering gerarchico (agglomerativo e divisivo) ai più complessi
ed avanzati algoritmi di intelligenza artificiale basati su reti neurali, modelli di markov nascosti
(HMM) e Support Vector Machine (SVM). Negli ultimi anni gli array di espressione sono stati
utilizzati anche per la costruzione delle cosiddette “reti geniche” (gene networks) o più
propriamente reti di coespressione genica; in questo filone di ricerca ancora allo stato embrionale
sono stati applicati algoritmi provenienti dalla fisica dei materiali condensati che hanno consentito
di analizzare i dati degli RNAarray in modo più completo. La trasformazione dei dati di espressione
in gene networks permette infatti di avere sia risultati di tipo “globale” (simili ai risultati degli
algoritmi di clustering) ma anche risultati di tipo “locale” (statistiche locali del singolo gene).
I CGHarray (Comparative Genomic Hybridization) si differenziano dagli RNAarray in quanto nel
Microarray viene ibridato DNA invece che RNA e si ottiene quindi una misura dell’abbondanza
differenziale di DNA tra il campione di test e un campione di controllo per identificare aberrazioni
genomiche (delezioni e amplificazioni). La caratteristica peculiare dei CGHarray è che ogni singolo
dato (relativo all’abbondanza di DNA di un campione rispetto ad un reference) viene riportato in un
grafico in funzione della sua posizione genomica. In questo modo la rappresentazione grafica
mostra nuvole di dati con differenti medie locali, che può essere vista come un segnale rumoroso
composto da segmenti con diverse lunghezze e con livello medio che cambia il suo valore in
funzione del numero di copie di DNA. L’obiettivo dell’analisi di un profilo genomico è quello di
identificare i confini delle regioni con alto o basso segnale (amplificazioni o delezioni). Per
identificare le aberrazioni sono stati applicati algoritmi di segmentazione monodimensionale che
hanno fatto uso di metodi bayesiani, segmentazioni binarie, massimizzazione di verosimiglianza di
misture gaussiane, modelli di markov nascosti. In letteratura esistono approcci statistici molto
superficiali riguardo a questo argomento e uno sviluppo futuro potrebbe essere quello di mettere a
punto algoritmi deputati all’analisi contemporanea di profili genomici per identificare regioni
aberrate ricorrenti.
Gli SNP array sono particolari DNA microarray che sono usati per studiare il polimorfismo di un
singolo oligonucleotide (single nucleotide polymorphisms - SNPs) che si ritengono responsabili
della variazione genetica e della suscettibilità individuale a manifestare determinate malattie. Una
delle applicazioni degli SNParray è la genotipizzazione parallela di molti individui su più loci. Le
metodologie bioinformatiche su questa piattaforma tecnologica riguardano metodi statistici per la
ricostruzione di aplotipi da dati di genotipizzazione e per gli studi di associazione volti alla
valutazione dei fattori di rischio genetici nelle malattie. Gli algoritmi per la ricostruzione di aplotipi
includono metodi di massima verosimiglianza (il “parsimony algorithm” introdotto da Clark),
metodi bayesiani che valutano la distribuzione condizionale degli aplotipi (dati i genotipi) e metodi
ottimizzazione iterativa che si basano sull’algoritmo di “Expectation-Maximization”(EM).
Partendo da questo stato dell’arte il candidato dovrà essere in grado di mettere a punto, sviluppare
ed applicare tecnologie di analisi molecolare, statistiche e bioinformatiche ad alta produttività al
fine di supportare la ricerca biomedica avanzata.