Analisi dei dati di espressione genica in esperimenti realizzati

Analisi dei dati di espressione
genica in esperimenti realizzati
mediante microarray
Erika Melissari
ESPRESSIONE GENICA
E’ un processo molto complesso e
finemente regolato che permette ad
una cellula di rispondere
dinamicamente sia agli stimoli
ambientali che alle sue stesse
necessità di cambiamento
2
Misurare l’espressione di un gene
significa....
Dare una valutazione quantitativa della
presenza di trascritti (molecole di
mRNA) o delle proteine codificate da
quel gene nelle cellule in esame
3
Tecnologia dei microarray
Sfrutta la capacità di una data
molecola di mRNA di ibridizzare
con il DNA stampo da cui è stata
generata
4
I microarray: la tecnologia
Agilent
®
5
Disegno sperimentale
Precisione nella stima delle differenze fra le due classi
Efficienza ~ 1/varianza delle stime
Esperimenti “equivalenti”
a) Stesso numero di microarray impiegati
b) Stesso numero di campioni non-reference ibridizzati
Come disegno un esperimento efficiente?
“Posso comprare solo 10 array (non ho problemi a reperire campioni).”
“Ho solo 10 campioni (non ho problemi a comprare array).”
6
Disegni sperimentali per class comparison
• Reference Design
Il confronto fra le due classi è realizzato
attraverso il campione Reference
• Loop Design
È un’evoluzione del reference design
• Balanced Block Design
Per ciascun gruppo (classe) metà dei campioni
sono marcati con un fluorocromo e metà con
l’altro
7
Come disegno un esperimento di class
comparison efficiente?
Per testare l’ipotesi nulla di assenza di espressione genica differenziale
bisogna fissare:
• un livello α di significatività
• un livello 1-β di potenza
• l’effect-size δ da detettare (fold change)
• i livelli di varianza σ o τ dei dati
• il disegno sperimentale
Reference Design
Balanced Block Design
8
cellule trattate
cellule non trattate
1) Estrazione dell’RNA totale dai
campioni
2) Isolamento dell’ mRNA,
retrotrascrizione in cDNA e marcatura
con fluorofori
RNA
Cy5
cDNA
3) Ibridizzazione
4) Scansione del vetrino
Cy3
9
Scansione del vetrino
Scansione
10
Scansione del vetrino
11
Scansione del vetrino
• Scanner a due laser
– Lunghezze d’onda di eccitazione dei fluorocromi
• 635 nm - Red
• 532 nm - Green
• Canali separati in acquisizione
– formazione di due immagini
• Codifica su 16 bit
– 2^16 = 65536 livelli di colore
• Occupazione di memoria
– 130 MB c.a.
12
Quantizzazione dei dati
• “Gridding” dell’immagine
¾ GAL file
• Segmentazione:
¾ spaziale;
¾ per intensità;
•
Segnale
Background
Estrazione delle intensità di segnale e di background:
¾ media del pixel;
¾ mediana dei pixel.
13
•
Pre-trattamento dei dati
Correzione del background
per
sottrazione
dal segnale utile
¾ “spotting”
scorretto;
del suo valore calcolato:
¾ legami aspecifici del
¾
su un intorno
campione
con il ristretto dello
spot;
supporto;
¾ su
una sezionepropria
dell’array;
fluorescenza
dei reagenti.
¾ su un intorno largo dello spot;
•
¾ su spot dedicati.
Applicazione di indicatori di qualità agli spot per la
selezione dei geni giudicati idonei per la successiva
normalizzazione
SNR = Mediana del segnale / SD del rumore
14
Normalizzazione (1)
Variabili che possono influenzare i risultati di un
esperimento di microarray:
•
•
•
•
•
•
Disomogeneità nel processo di deposizione delle sonde;
Quantità iniziali diverse di RNA;
Diversa efficienza di incorporazione dei due fluorocromi;
Disomogeneità di ibridizzazione sul vetrino;
Diversa efficienza di emissione dei due fluorocromi;
Diversa efficienza dello scanner nel leggere i due canali.
Determinazione di un fold change scorretto
Fold Changegene X = Valore di intensità del Trattato / Valore di intensità del Controllo
Espressione differenziale del gene X nel
campione trattato rispetto al campione di
controllo
15
Normalizzazione (2)
Per correggere le variabili (sistematiche) che possono
influenzare i risultati di un esperimento di microarray
A =½ log (R*G)
M = log (R/G)
16
Normalizzazione (3)
E’ necessario che la normalizzazione tenga conto del
disegno dell’esperimento (confronto realizzato):
• Normalizzazione within array
• Normalizzazione between arrays
La normalizzazione va applicata ad un gruppo di geni
appositamente scelti:
• Tutti i geni sull’array
Ipotesi: i geni differenzialmente espressi sono pochi rispetto
alla totalità dei geni presenti sul vetrino
N.B.: valida solo su vetrini whole genome
• Geni espressi in maniera costante (housekeeping)
• Controlli positivi (spiked) e serie di diluizioni (titration)
controlli
17
Normalizzazione within array
Normalizzazione globale -> Centraggio della distribuzione
R=K*G
log2 R/G - - - -> log2 R/G – c = log2 R/(KG)
Normalizzazione intensità-dipendente
c = log2 K
Interpolazione LO(W)ESS (LOcally WEighted
polynomial regreSSion) globale
LOWESS
Funzione di
smoothing
18
Estrazione dei dati di espressione genica
•
Metodi empirici
- selezione di una soglia empirica sulla distribuzione dei rapporti delle
intensità (log2 [Trattato/Controllo])
ƒ Metodi statistici
- t-test, ANOVA, B-statistic
ƒ Clustering
- raggruppamenti sulla base di somiglianze
ƒ Modelli di apprendimento
- reti neurali
Lista di geni differenzialmente espressi
19
Visualizzazione dell’espressione media globale
Principal Component Analysis - PCA
Analisi delle Componenti Principali per rappresentare
l’espressione media globale in uno spazio bassodimensionale
Genesis SW
20
Verifica biologica ed
Interpretazione del dato
• Validazione di un sottoinsieme di geni
differenzialmente espressi attraverso
metodiche alternative (real time RT-PCR)
• Interpretazione della lista dei geni DE per
individuare l’effetto a livello molecolare del
fenomeno biologico indagato
– informazioni sui singoli geni
– reti biochimiche (pathway) di trasmissione del
segnale
21
Banche dati
22
Banche dati
• KEGG (Kyoto Encyclopedia of Genes and Genomes )
http://www.genome.jp/kegg/
- pathway di attivazione genica
https://pathwayexplorer.genome.tugraz.at/
- SW per la ricerca di pathway in dataset
http://vortex.cs.wayne.edu/projects.htm
- SW per l’analisi di pathway
• The Gene Ontology
http://www.geneontology.org/
- classificazione per categorie ontologiche
- funzione molecolare
- processo biologico
- componente cellulare
http://vortex.cs.wayne.edu/projects.htm
- SW per la caratterizzazione ontologica in dataset
23
Banche dati
•
KEGG (Kyoto Encyclopedia of Genes and Genomes )
http://www.genome.jp/kegg/
- pathway di attivazione genica
https://pathwayexplorer.genome.tugraz.at/
- SW per la ricerca di pathway in dataset
http://vortex.cs.wayne.edu/projects.htm
- SW per l’analisi di pathway
•
The Gene Ontology
http://www.geneontology.org/
- classificazione per categorie ontologiche
- funzione molecolare
- processo biologico
- componente cellulare
http://vortex.cs.wayne.edu/projects.htm
- SW per la caratterizzazione ontologica in dataset
24
Banche dati
• KEGG (Kyoto Encyclopedia of Genes and Genomes )
http://www.genome.jp/kegg/
- pathway di attivazione genica
https://pathwayexplorer.genome.tugraz.at/
- SW per la ricerca di pathway in dataset
• The Gene Ontology
http://www.geneontology.org/
- classificazione per categorie ontologiche
- funzione molecolare
- processo biologico
- componente cellulare
http://vortex.cs.wayne.edu/projects.htm
- SW per la caratterizzazione ontologica in dataset
25
Banche dati
• KEGG (Kyoto Encyclopedia of Genes and Genomes
) Component
Cellular
http://www.genome.jp/kegg/
Molecular Function
Biological Process
- pathway di attivazione genica
https://pathwayexplorer.genome.tugraz.at/
- SW per la ricerca di pathway in dataset
• The Gene Ontology
http://www.geneontology.org/
- classificazione per categorie ontologiche
- funzione molecolare
- processo biologico
- componente cellulare
http://vortex.cs.wayne.edu/projects.htm
- SW per la caratterizzazione ontologica in dataset
26
Software per l’interpretazione
dei dati
• http://www.genecards.org/index.shtml
• http://ihop-net.org/UniPub/iHop/
• http://www.pubgene.org/
27
PubGene
28
Esperimento ApoAI Knockout
Materiali e metodi:
- 16 topi C57BL/6 “black six”
- in 8 topi è stato “spento” il gene che codifica per l’apolipoproteina AI
- per ciascun topo è stato estratto l’RNA dal fegato, è stato isolato l’mRNA, è
stato retrotrascritto in cDNA e marcato con un fluorocromo rosso Cianina
Cy5
- il cDNA marcato di ciscun topo è stato mescolato con un’aliquota di un
campione di riferimento, ottenuto facendo il pool degli RNA degli 8 topi di
controllo e marcando il materiale così ottenuto con il fluorocromo verde Cianina
Cy3
- le 16 miscele sono state ibridizzate su 16 microarray distinti
29
Esperimento Swirl zebrafish
Materiali e metodi:
- 2 pesci zebra
- in 1 pesce è presente una mutazione sul gene BMP2
- per ciascun pesce è stato estratto l’RNA, è stato isolato l’mRNA, è stato
retrotrascritto in cDNA. Il cDNA di ogni pesce è stato diviso in quattro
aliquote.
- Due aliquote di cDNA di pesce mutato sono state marcate con il fluorocromo
rosso Cianina Cy5 e le altre due con il fluorocromo verde Cianina Cy3.
Analogamente per il cDNA del pesce wild-type.
- il disegno sperimentale è di tipo diretto con dye-swap
30