Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi Materiale del corso: http://telethon.bio.unipd.it/bioinfo/Didattica_2004/HomeStatBioinfo.html VII ESERCITAZIONE Analisi di dati d'espressione genica. Espressione genica differenziale e coespressione. Metodi: Cluster analisi, distanza Euclidea, correlazione di Pearson, Tests per l'espressione differenziale. Programmi: EXCEL, SPSS, IDEG6 Durante l’ultimo decennio l’automatizzazione di diverse metodologie sperimentali per la misurazione su larga scala del livello d’espressione di geni ha permesso di produrre una gran quantita’ di dati d’espressione, riguardanti i trascrittomi di diversi organismi in diverse condizioni. Sia che i dati siano stati prodotti a partire da analisi di librerie di cDNA, con la SAGE oppure con microarray, essi sono generalmente rappresentabili come matrici “n * m” con n geni e m condizioni. Il numero dei geni puo’ variare da alcune centinaia al set pressoche’ completo dei geni di un organismo, mentre le condizioni possono essere riferite a diversi tessuti (ad es. cuore, cervello e fegato umani), a tessuti in condizione normale o patologica (ad es. polmone sano e tumore al polmone), oppure a cellule coltivate in modo diverso (ad es. senza e con uno specifico farmaco). Le matrici di dati d’espressione sono generalmente il prodotto finale di studi sperimentali ma rappresentano il punto di partenza per la comprensione del significato biologico dei risultati di questi studi. Per questa ragione la ricerca negli ultimi anni si e’ notevolmente concentrata sullo sviluppo e sull’applicazione di metodi statistici per l’analisi dei dati d’espressione genica. Un gruppo di metodologie utile allo scopo e’ noto sotto il nome di cluster analisi, utile ad identificare appunto raggruppamenti nei dati, in riferimento ad opportune misure di similarita’. Attraverso l’applicazione della cluster analisi a dati d’espressione genica e’ possibile ad esempio identificare gruppi di geni co-espressi, ovvero con pattern d’espressione simili. Un altro genere di analisi statistica applicabile ai dati d’espressione e’ l’analisi dell’espressione differenziale, utile all’identificazione di geni significativamente differenzialmente espressi in specifiche condizioni rispetto ad altre. DATI • matrice di dati d’espressione di 98 geni (UniGene clusters) in 17 tessuti umani differenziati 1 Scaricare il file di excel con la tabella originale contenente i dati sperimentali; 4329 11381 4046 5717 5842 6484 15032 21453 23686 11627 20774 26964 27430 6275 13535 33815 14763 testis_n retina_n prostate_n pineal_gland_n pancreas_n muscle_n melanocyte_n marrow_n lung_n liver_n hyppocampus_n hypothalamus_n hypophisis_n 1 0 0 0 0 0 2095 24 0 0 48 3 0 0 0 2 Hs.399996 glucagon 0 Human heat shock protein 86 0 Hs.381246 mRNA, 5'end. calmodulin 2 (phosphorylase 2 Hs.425808 kinase, delta) eukaryotic translation 66 Hs.422118 elongation factor 1 alpha 1 heat shock 90kDa protein 1, Hs.356531 alpha 28 0 0 0 0 0 0 0 0 0 0 0 1496 0 0 0 0 0 1 3 31 4 0 16 635 143 3 137 141 1 299 6 6 7 1 4 14 20 81 23 860 12 11 59 41 13 38 9 69 34 15 25 43 8 9 36 93 84 7 27 237 16 90 169 48 8 3 3 25 20 25 14 182 49 7 82 81 14 270 56 193 Hs.287820 fibronectin 1 glyceraldehyde-3-phosphate Hs.169476 dehydrogenase 2 437 0 1 1 4 0 58 32 296 10 96 5 0 3 2 5 7 30 37 14 4 26 35 19 2 49 13 73 33 41 5 356 2 … 0 colon_n Hs.184411 albumin cerebellum_n Descr bone_n adipose_n Hs … 2 Utilizzando Excel, calcolare i totali di riga e di colonna. 3 Normalizzare i dati per colonna, tenendo conto del numero totale di ESTs per profilo. Per ogni valore, calcolare: xij(norm) = xij / Nj * 10000 4 Fare un istogramma a barre dei livelli d’espressione dei primi cinque geni nei diversi tessuti, cosi’ da evidenziare quanto difficoltoso sia dare un’interpretazione descrittiva delle somiglianze e differenze tra i pattern d’espressione di anche pochissimi geni. Cluster analysis 5 Dopo aver resi univoci e piu’ brevi di 8 caratteri i nomi delle variabili, salvare la matrice come un unico foglio di calcolo (dati.xls), da utilizzare per la cluster analisi con SPSS. Ad es.: adi bon cer col … gene1 0 0,878 0 0 … gene2 0 0 0 0 gene3 0 0 2,471 5,247 … gene4 4,620 6,150 2,471 6,996 … … … … … … … 6 Utilizzando SPSS, importare il file preparato, sistemare eventualmente in tipi ed in nomi delle variabili. 7 Eseguire l’analisi cluster utilizzando la Distanza Euclidea e il metodo gerarchico (legame medio tra gruppi), selezionando anche la visualizzazione della matrice di distanze e del dendrogramma. Copiare tutti i risultati in un file di Word, sistemare il dendrogramma in modo da renderlo continuo. 8 Eseguire l’analisi cluster utilizzando la Correlazione di Pearson e il metodo gerarchico (legame medio tra gruppi), selezionando anche la visualizzazione della matrice di distanze e del dendrogramma. Copiare tutti i risultati in un file di Word, sistemare il dendrogramma in modo da renderlo continuo. 9 Interpretazione i risultati. Tracciare la posizione relativa dei geni 21 e 40 nei due dendrogrammi ottenuti utilizzando distanze diverse: 10 Quali sono le differenze nelle posizioni relative? Riguardare la matrice dei dati originali per cercare di capire a cosa sono imputabili. 11 Selezionare le righe della matrice corrispondenti ai geni 21 e 40 e fare un grafico a linee per descrivere la similarita’ dei loro pattern d’espressione nei tessuti considerati. Analisi dell’espressione differenziale con IDEG.6 12 A partire dalla matrice originale (punto 1), selezionare il gruppo di geni piu’ espressi nel tessuto adiposo che in tutti gli altri. 13 Preparare un file per IDEG.6 (identification of differentially expressed genes in multiple tag sampling experiments; http://telethon.bio.unipd.it/bioinfo/IDEG6_form/) nel formato: UNIQID Descr 12500 6000 5800 Hs.350108 RPLP0 Ribosomal protein, large, P0 2 3 43 Hs.83870 Nebulin 3 10 6 Hs.1288 actin, alpha 1, skeletal muscle 1 23 45 14 Fare l’upload del file preparato; 15 Selezionare i test a coppie “Audic e Claverie” con alpha=0.01, per evidenziare i geni differenzialmente espressi nel tessuto adiposo. Quanti sono ? 16 CONSEGNARE UNA RELAZIONE CONTENENTE: Riassunto dei contenuti dell’esercitazione (massimo 150 parole). Risposte ai punti in grassetto. VADEMECUM Cluster analisi Le metodologie di analisi dei raggruppamenti si applicano a dati del genere “casi * variabili”, codificati in matrici. Generalmente le variabili costituiscono le colonne della matrice e i casi le righe. Ad es. una matrice “siti oceanografici campionati * specie” potrebbe contenere il numero di individui di una certa specie ritrovati in campioni pescati in diversi punti geografici: Sito 1 Sito 2 … Sito M Specie 1 x11 x12 … x1m Specie 2 x21 x22 … x2m … … … … … Specie n xn1 xn2 … xnm Lo scopo dell’analisi e’ generalmente quello di evidenziare, all’interno di gruppi numerosi e diversificati, sottogruppi di dati maggiormente omogenei. E’ possibile raggruppare le variabili in base ai casi (ad es. cercare gruppi di siti oceanografici piu’ omogenei per il contenuto di specie e/o la proporzione osservata di queste) oppure raggruppare i casi in base alle variabili (ad es. ricercare gruppi di specie che co-occorrono spesso negli stessi siti). Operativamente, e’ necessario definire innanzitutto una misura di similarita’ (o di distanza) che si utilizzera’ per calcolare un matrice di similarita’ (o di distanza), contenente i valori risultanti per tutti i possibili confronti a coppie. In seguito, sara’ necessario definire un metodo per generare raggruppamenti a partire dalla matrice. Infine, i risultati potranno essere visualizzati attraverso un dendrogramma (rappresentazione grafica ad albero). caso2 caso95 caso16 caso10 caso17 caso55 caso85 caso50 2 95 16 10 17 55 85 50 Esistono moltissime misure di similarita’ diverse. L’applicazione di misure diverse agli stessi dati permette di ottenere matrici di similarita’ anche molto diverse tra di loro. E’ necessario scegliere la misura di distanza piu’ appropriata alla domanda biologica a cui e’ associata una specifica analisi. Consideriamo brevemente la differenza tra due misure di distanza molto utilizzate, la Distanza Euclidea Quadratica e la Correlazione di Pearson. Distanza Euclidea Quadratica. Si definisce come la sommatoria delle distanze al quadrato fra tutte le variabili di due differenti gruppi: d(x,y) = i (xi –yi)2 Correlazione di Pearson. Misura la similarita’ tra due profili (Pearson Correlation distance: d = 1 – r): r = Z(x)·Z(y)/n dove Z(x) = (x –m) / stdev e m, media di x Anche le metodologie di linking sono le piu’ varie ed influenzano molto i risultati finali. Grossolanamente, i metodi di linking possono essere cassificati in gerarchici e non gerarchici a seconda che i legami o le partizioni generati nelle fasi precoci dell’analisi rimangano sempre fissati oppure possano essere rimaneggiati in seguito. Nell'ambito della modalita' gerarchica esitono due tipi di raggruppamenti: quello agglomerativo, che riunisce gli elementi piu' vicini fino a formare un unico grande cluster, e quello divisivo, che parte da un unico grande cluster fino a formare un cluster per ogni singolo caso. I casi ed i cluster si riuniscono in base a criteri che vengono adottati in ogni passo della aggregazione e si basano sulla matrice delle distanze o delle somiglianze fra i casi. Il modello piu' semplice e' quello del collegamento singolo: i primi casi ad essere uniti in cluster sono quelli che hanno le distanze piu' piccole. In questo caso la distanza fra un cluster ed un caso singolo viene calcolata come la piu' piccola distanza fra il caso ed uno dei casi del cluster, mentre la distanza tra due casi non uniti in cluster rimane invece sempre la stessa. Un altro sistema e’ metodo del collegamento medio fra i gruppi (average linkage between groups method, UPGMA), che definisce la distanza fra i cluster come la distanza media fra tutte le coppie di punti dei quali uno appartiene ad un cluster e l'altro appartiene all'altro cluster.