esercitazione

Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova
C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B)
Docente: Dr. Stefania Bortoluzzi
Materiale del corso: http://telethon.bio.unipd.it/bioinfo/Didattica_2006/HomeStatBioinfo.html
VII ESERCITAZIONE
Analisi di dati d'espressione genica. Espressione genica differenziale e coespressione.
Metodi: Cluster analisi, distanza Euclidea, correlazione di Pearson, Tests per l'espressione
differenziale.
Programmi: EXCEL, SPSS, IDEG6
Durante l’ultimo decennio l’automatizzazione di diverse metodologie sperimentali per la misurazione
su larga scala del livello d’espressione di geni ha permesso di produrre una gran quantita’ di dati
d’espressione, riguardanti i trascrittomi di diversi organismi in diverse condizioni. Sia che i dati siano
stati prodotti a partire da analisi di librerie di cDNA, con la SAGE oppure con microarray, essi sono
generalmente rappresentabili come matrici “n * m” con n geni e m condizioni. Il numero dei geni puo’
variare da alcune centinaia al set pressoche’ completo dei geni di un organismo, mentre le condizioni
possono essere riferite a diversi tessuti (ad es. cuore, cervello e fegato umani), a tessuti in condizione
normale o patologica (ad es. polmone sano e tumore al polmone), oppure a cellule coltivate sottoposte a
diversi trattamenti.
Le matrici di dati d’espressione sono generalmente il prodotto finale di studi sperimentali ma
rappresentano il punto di partenza per la comprensione del significato biologico dei risultati di questi
studi. Per questa ragione la ricerca negli ultimi anni si e’ notevolmente concentrata sullo sviluppo e
sull’applicazione di metodi statistici per l’analisi dei dati d’espressione genica.
Un gruppo di metodologie utile allo scopo e’ noto sotto il nome di cluster analisi, utile ad identificare
appunto raggruppamenti nei dati, in riferimento ad opportune misure di similarita’. Attraverso
l’applicazione della cluster analisi a dati d’espressione genica e’ possibile ad esempio identificare
gruppi di geni co-espressi, ovvero con pattern d’espressione simili.
Un altro genere di analisi statistica applicabile ai dati d’espressione e’ l’analisi dell’espressione
differenziale, utile all’identificazione di geni significativamente differenzialmente espressi in specifiche
condizioni rispetto ad altre.
DATI

matrice di dati d’espressione di 98 geni (UniGene clusters) in 17 tessuti umani differenziati
1
Scaricare il file di excel con la tabella originale contenente i dati sperimentali;
4329 11381 4046 5717 5842 6484 15032 21453 23686 11627 20774 26964 27430 6275 13535 33815 14763
testis_n
retina_n
prostate_n
pineal_gland_n
pancreas_n
muscle_n
melanocyte_n
marrow_n
lung_n
liver_n
hyppocampus_n
hypothalamus_n
hypophisis_n
1
0
0
0
0
0
2095 24
0
0
48
3
0
0
0
2
Hs.399996 glucagon
0
Human heat shock protein 86
Hs.381246 mRNA, 5'end.
0
calmodulin 2 (phosphorylase
Hs.425808 kinase, delta)
2
eukaryotic
translation
Hs.422118 elongation factor 1 alpha 1
66
heat shock 90kDa protein 1,
Hs.356531 alpha
28
0
0
0
0
0
0
0
0
0
0
0
1496 0
0
0
0
0
1
3
31
4
0
16
635
143
3
137
141
1
299
6
6
7
1
4
14
20
81
23
860
12
11
59
41
13
38
9
69
34
15
25
43
8
9
36
93
84
7
27
237
16
90
169
48
8
3
3
25
20
25
14
182
49
7
82
81
14
270
56
193
Hs.287820 fibronectin 1
glyceraldehyde-3-phosphate
Hs.169476 dehydrogenase
2
437
0
1
1
4
0
58
32
296
10
96
5
0
3
2
5
7
30
37
14
4
26
35
19
2
49
13
73
33
41
5
356
2
…
0
colon_n
Hs.184411 albumin
cerebellum_n
Descr
bone_n
adipose_n
Hs
…
2
Utilizzando Excel, calcolare i totali di riga e di colonna.
3
Normalizzare i dati per colonna, tenendo conto del numero totale di ESTs per profilo. Per
ogni valore, calcolare:
xij(norm) = xij / Nj * 10000
4
Fare un istogramma a barre dei livelli d’espressione dei primi cinque geni nei diversi
tessuti, cosi’ da evidenziare quanto difficoltoso sia dare un’interpretazione descrittiva delle
somiglianze e differenze tra i pattern d’espressione di anche pochissimi geni.
Cluster analysis
5
Dopo aver resi univoci e piu’ brevi di 8 caratteri i nomi delle variabili, salvare la matrice
come un unico foglio di calcolo (dati.xls), da utilizzare per la cluster analisi con SPSS.
Ad es.:
adi
bon
cer
col
…
gene1
0
0,878
0
0
…
gene2
0
0
0
0
gene3
0
0
2,471
5,247
…
gene4
4,620
6,150
2,471
6,996
…
…
…
…
…
…
…
6
Utilizzando SPSS, importare il file preparato, sistemare eventualmente i tipi ed i nomi delle
variabili.
7
Eseguire l’analisi cluster utilizzando la Distanza Euclidea e il metodo gerarchico
(legame medio tra gruppi), selezionando anche la visualizzazione della matrice di distanze e
del dendrogramma. Copiare tutti i risultati in un file di Word, sistemare il dendrogramma
in modo da renderlo continuo (carattere 6).
8
Eseguire l’analisi cluster utilizzando la Correlazione di Pearson e il metodo gerarchico
(legame medio tra gruppi), selezionando anche la visualizzazione della matrice di distanze e
del dendrogramma. Copiare tutti i risultati in un file di Word, sistemare il dendrogramma
in modo da renderlo continuo (carattere 6).
9
Interpretazione i risultati. Tracciare la posizione relativa dei geni 21 e 40 nei due
dendrogrammi ottenuti utilizzando distanze diverse:
10
Quali sono le differenze nelle posizioni relative? Riguardare la matrice dei dati
originali per cercare di capire a cosa sono imputabili.
11
Selezionare le righe della matrice corrispondenti ai geni 21 e 40 e fare un grafico a
linee per descrivere la similarita’ dei loro pattern d’espressione nei tessuti considerati.
12
CONSEGNARE UNA RELAZIONE CONTENENTE:

Riassunto dei contenuti dell’esercitazione (massimo 150 parole).

Risposte ai punti in grassetto.
VADEMECUM
Cluster analisi
Le metodologie di analisi dei raggruppamenti si applicano a dati del genere “casi * variabili”,
codificati in matrici. Generalmente le variabili costituiscono le colonne della matrice e i casi le righe.
Ad es. una matrice “siti oceanografici campionati * specie” potrebbe contenere il numero di individui
di una certa specie ritrovati in campioni pescati in diversi punti geografici:
Sito 1
Sito 2
…
Sito M
Specie 1
x11
x12
…
x1m
Specie 2
x21
x22
…
x2m
…
…
…
…
…
Specie n
xn1
xn2
…
xnm
Lo scopo dell’analisi e’ generalmente quello di evidenziare, all’interno di gruppi numerosi e
diversificati, sottogruppi di dati maggiormente omogenei. E’ possibile raggruppare le variabili in base
ai casi (ad es. cercare gruppi di siti oceanografici piu’ omogenei per il contenuto di specie e/o la
proporzione osservata di queste) oppure raggruppare i casi in base alle variabili (ad es. ricercare gruppi
di specie che co-occorrono spesso negli stessi siti).
Operativamente, e’ necessario definire innanzitutto una misura di similarita’ (o di distanza) che si
utilizzera’ per calcolare un matrice di similarita’ (o di distanza), contenente i valori risultanti per tutti i
possibili confronti a coppie.
In seguito, sara’ necessario definire un metodo per generare raggruppamenti a partire dalla matrice.
Infine, i risultati potranno essere visualizzati attraverso un dendrogramma (rappresentazione grafica ad
albero).
caso2
caso95
caso16
caso10
caso17
caso55
caso85
caso50
2
95
16
10
17
55
85
50










Esistono moltissime misure di similarita’ diverse. L’applicazione di misure diverse agli stessi dati
permette di ottenere matrici di similarita’ anche molto diverse tra di loro. E’ necessario scegliere la
misura di distanza piu’ appropriata alla domanda biologica a cui e’ associata una specifica analisi.
Consideriamo brevemente la differenza tra due misure di distanza molto utilizzate, la Distanza Euclidea
Quadratica e la Correlazione di Pearson.
Distanza Euclidea Quadratica.
Si definisce come la sommatoria delle distanze al quadrato fra tutte le variabili di due differenti gruppi:
d(x,y) = i (xi –yi)2
Correlazione di Pearson.
Misura la similarita’ tra due profili (Pearson Correlation distance: d = 1 – r):
r = Z(x)·Z(y)/n
dove Z(x) = (x –m) / stdev e m, media di x
Anche le metodologie di linking sono le piu’ varie ed influenzano molto i risultati finali.
Grossolanamente, i metodi di linking possono essere cassificati in gerarchici e non gerarchici a seconda
che i legami o le partizioni generati nelle fasi precoci dell’analisi rimangano sempre fissati oppure
possano essere rimaneggiati in seguito.
Nell'ambito della modalita' gerarchica esistono due tipi di raggruppamenti: quello agglomerativo, che
riunisce gli elementi piu' vicini fino a formare un unico grande cluster, e quello divisivo, che parte da
un unico grande cluster fino a formare un cluster per ogni singolo caso.
I casi ed i cluster si riuniscono in base a criteri che vengono adottati in ogni passo della aggregazione e
si basano sulla matrice delle distanze o delle somiglianze fra i casi. Il modello piu' semplice e' quello
del collegamento singolo: i primi casi ad essere uniti in cluster sono quelli che hanno le distanze piu'
piccole. In questo caso la distanza fra un cluster ed un caso singolo viene calcolata come la piu' piccola
distanza fra il caso ed uno dei casi del cluster, mentre la distanza tra due casi non uniti in cluster rimane
invece sempre la stessa.
Un altro sistema e’ metodo del collegamento medio fra i gruppi (average linkage between groups
method, UPGMA), che definisce la distanza fra i cluster come la distanza media fra tutte le coppie di
punti dei quali uno appartiene ad un cluster e l'altro appartiene all'altro cluster.