Nuove metodologie di analisi molecolari, statistiche e bioinformatiche di dati ottenuti mediante tecnologie ad alta produttività in ambito della ricerca biomedica Con l’avvento dell’era genomica è emersa una nuova classe di dati, le cui caratteristiche e la cui quantità comporta l’utilizzo di metodi matematici e statistici che consentono di estrapolare il massimo dell’informazione contenuta in essi. Sotto il nome comune di “Microarray” o tecnologie ad alta produttività esistono diverse piattaforme sperimentali che possono essere raggruppate in distinte categorie: Array di Espressione, Array CGH e SNP Array. Inoltre, l’avvento delle tecnologie di sequenziamento di nuova generazione, nel loro utilizzo per il sequenziamento di ampi tratti o dell’intero genoma o per la valutazione dell’espressione genica, rendono necessaria l’applicazione e lo sviluppo di metodologie statistiche e bioinformatiche di alta specialità. Gli array d’espressione permettono di monitorare l’espressione genica di migliaia di geni contemporaneamente consentendo al ricercatore di avere una visione globale di quello che accade all’interno della cellula a livello del trascrittoma (mRNA). Le due principali applicazioni degli array di espressione sono lo studio dell’espressione differenziale e della coespressione. Gli algoritmi utilizzati per lo studio dell’espressione differenziale si basano su modifiche del t-test tradizionale e consentono l’identificazione di quei geni in cui l’abbondanza di trascritto è diversa tra “caso” e “controllo”. La letteratura è molto ricca di algoritmi per lo studio dell’espressione differenziale ed essenzialmente i vari metodi si differenziano tra di loro per il modo in cui viene calcolato il “rumore” della statistica t. L’obiettivo dello studio di coespressione è invece quello di individuare raggruppamenti (clusters) significativi di campioni biologici (o di geni), basandosi sui profili di espressione genica. In letteratura esistono molti algoritmi che hanno affrontato il problema del clustering su esperimenti di microarray sia in modo “supervisionato” che “non supervisionato”. Tali approcci spaziano dai più tradizionali e semplici metodi di clustering gerarchico (agglomerativo e divisivo) ai più complessi ed avanzati algoritmi di intelligenza artificiale basati su reti neurali, modelli di markov nascosti (HMM) e Support Vector Machine (SVM). Negli ultimi anni gli array di espressione sono stati utilizzati anche per la costruzione delle cosiddette “reti geniche” (gene networks) o più propriamente reti di coespressione genica; in questo filone di ricerca ancora allo stato embrionale sono stati applicati algoritmi provenienti dalla fisica dei materiali condensati che hanno consentito di analizzare i dati degli RNAarray in modo più completo. La trasformazione dei dati di espressione in gene networks permette infatti di avere sia risultati di tipo “globale” (simili ai risultati degli algoritmi di clustering) ma anche risultati di tipo “locale” (statistiche locali del singolo gene). I CGHarray (Comparative Genomic Hybridization) si differenziano dagli RNAarray in quanto nel Microarray viene ibridato DNA invece che RNA e si ottiene quindi una misura dell’abbondanza differenziale di DNA tra il campione di test e un campione di controllo per identificare aberrazioni genomiche (delezioni e amplificazioni). La caratteristica peculiare dei CGHarray è che ogni singolo dato (relativo all’abbondanza di DNA di un campione rispetto ad un reference) viene riportato in un grafico in funzione della sua posizione genomica. In questo modo la rappresentazione grafica mostra nuvole di dati con differenti medie locali, che può essere vista come un segnale rumoroso composto da segmenti con diverse lunghezze e con livello medio che cambia il suo valore in funzione del numero di copie di DNA. L’obiettivo dell’analisi di un profilo genomico è quello di identificare i confini delle regioni con alto o basso segnale (amplificazioni o delezioni). Per identificare le aberrazioni sono stati applicati algoritmi di segmentazione monodimensionale che hanno fatto uso di metodi bayesiani, segmentazioni binarie, massimizzazione di verosimiglianza di misture gaussiane, modelli di markov nascosti. In letteratura esistono approcci statistici molto superficiali riguardo a questo argomento e uno sviluppo futuro potrebbe essere quello di mettere a punto algoritmi deputati all’analisi contemporanea di profili genomici per identificare regioni aberrate ricorrenti. Gli SNP array sono particolari DNA microarray che sono usati per studiare il polimorfismo di un singolo oligonucleotide (single nucleotide polymorphisms - SNPs) che si ritengono responsabili della variazione genetica e della suscettibilità individuale a manifestare determinate malattie. Una delle applicazioni degli SNParray è la genotipizzazione parallela di molti individui su più loci. Le metodologie bioinformatiche su questa piattaforma tecnologica riguardano metodi statistici per la ricostruzione di aplotipi da dati di genotipizzazione e per gli studi di associazione volti alla valutazione dei fattori di rischio genetici nelle malattie. Gli algoritmi per la ricostruzione di aplotipi includono metodi di massima verosimiglianza (il “parsimony algorithm” introdotto da Clark), metodi bayesiani che valutano la distribuzione condizionale degli aplotipi (dati i genotipi) e metodi ottimizzazione iterativa che si basano sull’algoritmo di “Expectation-Maximization”(EM). Partendo da questo stato dell’arte il candidato dovrà essere in grado di mettere a punto, sviluppare ed applicare tecnologie di analisi molecolare, statistiche e bioinformatiche ad alta produttività al fine di supportare la ricerca biomedica avanzata.