Analisi dei dati di espressione genica in esperimenti realizzati

annuncio pubblicitario
Analisi dei dati di espressione
genica in esperimenti realizzati
mediante microarray
Erika Melissari
ESPRESSIONE GENICA
E’ un processo molto complesso e
finemente regolato che permette ad
una cellula di rispondere
dinamicamente sia agli stimoli
ambientali che alle sue stesse
necessità di cambiamento
2
Misurare l’espressione di un gene
significa....
Dare una valutazione quantitativa della
presenza di trascritti (molecole di
mRNA) o delle proteine codificate da
quel gene nelle cellule in esame
3
Tecnologia dei microarray
Sfrutta la capacità di una data
molecola di mRNA di ibridizzare
con il DNA stampo da cui è stata
generata
4
I microarray: la tecnologia
Agilent
®
5
Disegno sperimentale
Precisione nella stima delle differenze fra le due classi
Efficienza ~ 1/varianza delle stime
Esperimenti “equivalenti”
a) Stesso numero di microarray impiegati
b) Stesso numero di campioni non-reference ibridizzati
Come disegno un esperimento efficiente?
“Posso comprare solo 10 array (non ho problemi a reperire campioni).”
“Ho solo 10 campioni (non ho problemi a comprare array).”
6
Disegni sperimentali per class comparison
• Reference Design
Il confronto fra le due classi è realizzato
attraverso il campione Reference
• Loop Design
È un’evoluzione del reference design
• Balanced Block Design
Per ciascun gruppo (classe) metà dei campioni
sono marcati con un fluorocromo e metà con
l’altro
7
Come disegno un esperimento di class
comparison efficiente?
Per testare l’ipotesi nulla di assenza di espressione genica differenziale
bisogna fissare:
• un livello α di significatività
• un livello 1-β di potenza
• l’effect-size δ da detettare (fold change)
• i livelli di varianza σ o τ dei dati
• il disegno sperimentale
Reference Design
Balanced Block Design
8
cellule trattate
cellule non trattate
1) Estrazione dell’RNA totale dai
campioni
2) Isolamento dell’ mRNA,
retrotrascrizione in cDNA e marcatura
con fluorofori
RNA
Cy5
cDNA
3) Ibridizzazione
4) Scansione del vetrino
Cy3
9
Scansione del vetrino
Scansione
10
Scansione del vetrino
11
Scansione del vetrino
• Scanner a due laser
– Lunghezze d’onda di eccitazione dei fluorocromi
• 635 nm - Red
• 532 nm - Green
• Canali separati in acquisizione
– formazione di due immagini
• Codifica su 16 bit
– 2^16 = 65536 livelli di colore
• Occupazione di memoria
– 130 MB c.a.
12
Quantizzazione dei dati
• “Gridding” dell’immagine
¾ GAL file
• Segmentazione:
¾ spaziale;
¾ per intensità;
•
Segnale
Background
Estrazione delle intensità di segnale e di background:
¾ media del pixel;
¾ mediana dei pixel.
13
•
Pre-trattamento dei dati
Correzione del background
per
sottrazione
dal segnale utile
¾ “spotting”
scorretto;
del suo valore calcolato:
¾ legami aspecifici del
¾
su un intorno
campione
con il ristretto dello
spot;
supporto;
¾ su
una sezionepropria
dell’array;
fluorescenza
dei reagenti.
¾ su un intorno largo dello spot;
•
¾ su spot dedicati.
Applicazione di indicatori di qualità agli spot per la
selezione dei geni giudicati idonei per la successiva
normalizzazione
SNR = Mediana del segnale / SD del rumore
14
Normalizzazione (1)
Variabili che possono influenzare i risultati di un
esperimento di microarray:
•
•
•
•
•
•
Disomogeneità nel processo di deposizione delle sonde;
Quantità iniziali diverse di RNA;
Diversa efficienza di incorporazione dei due fluorocromi;
Disomogeneità di ibridizzazione sul vetrino;
Diversa efficienza di emissione dei due fluorocromi;
Diversa efficienza dello scanner nel leggere i due canali.
Determinazione di un fold change scorretto
Fold Changegene X = Valore di intensità del Trattato / Valore di intensità del Controllo
Espressione differenziale del gene X nel
campione trattato rispetto al campione di
controllo
15
Normalizzazione (2)
Per correggere le variabili (sistematiche) che possono
influenzare i risultati di un esperimento di microarray
A =½ log (R*G)
M = log (R/G)
16
Normalizzazione (3)
E’ necessario che la normalizzazione tenga conto del
disegno dell’esperimento (confronto realizzato):
• Normalizzazione within array
• Normalizzazione between arrays
La normalizzazione va applicata ad un gruppo di geni
appositamente scelti:
• Tutti i geni sull’array
Ipotesi: i geni differenzialmente espressi sono pochi rispetto
alla totalità dei geni presenti sul vetrino
N.B.: valida solo su vetrini whole genome
• Geni espressi in maniera costante (housekeeping)
• Controlli positivi (spiked) e serie di diluizioni (titration)
controlli
17
Normalizzazione within array
Normalizzazione globale -> Centraggio della distribuzione
R=K*G
log2 R/G - - - -> log2 R/G – c = log2 R/(KG)
Normalizzazione intensità-dipendente
c = log2 K
Interpolazione LO(W)ESS (LOcally WEighted
polynomial regreSSion) globale
LOWESS
Funzione di
smoothing
18
Estrazione dei dati di espressione genica
•
Metodi empirici
- selezione di una soglia empirica sulla distribuzione dei rapporti delle
intensità (log2 [Trattato/Controllo])
ƒ Metodi statistici
- t-test, ANOVA, B-statistic
ƒ Clustering
- raggruppamenti sulla base di somiglianze
ƒ Modelli di apprendimento
- reti neurali
Lista di geni differenzialmente espressi
19
Visualizzazione dell’espressione media globale
Principal Component Analysis - PCA
Analisi delle Componenti Principali per rappresentare
l’espressione media globale in uno spazio bassodimensionale
Genesis SW
20
Verifica biologica ed
Interpretazione del dato
• Validazione di un sottoinsieme di geni
differenzialmente espressi attraverso
metodiche alternative (real time RT-PCR)
• Interpretazione della lista dei geni DE per
individuare l’effetto a livello molecolare del
fenomeno biologico indagato
– informazioni sui singoli geni
– reti biochimiche (pathway) di trasmissione del
segnale
21
Banche dati
22
Banche dati
• KEGG (Kyoto Encyclopedia of Genes and Genomes )
http://www.genome.jp/kegg/
- pathway di attivazione genica
https://pathwayexplorer.genome.tugraz.at/
- SW per la ricerca di pathway in dataset
http://vortex.cs.wayne.edu/projects.htm
- SW per l’analisi di pathway
• The Gene Ontology
http://www.geneontology.org/
- classificazione per categorie ontologiche
- funzione molecolare
- processo biologico
- componente cellulare
http://vortex.cs.wayne.edu/projects.htm
- SW per la caratterizzazione ontologica in dataset
23
Banche dati
•
KEGG (Kyoto Encyclopedia of Genes and Genomes )
http://www.genome.jp/kegg/
- pathway di attivazione genica
https://pathwayexplorer.genome.tugraz.at/
- SW per la ricerca di pathway in dataset
http://vortex.cs.wayne.edu/projects.htm
- SW per l’analisi di pathway
•
The Gene Ontology
http://www.geneontology.org/
- classificazione per categorie ontologiche
- funzione molecolare
- processo biologico
- componente cellulare
http://vortex.cs.wayne.edu/projects.htm
- SW per la caratterizzazione ontologica in dataset
24
Banche dati
• KEGG (Kyoto Encyclopedia of Genes and Genomes )
http://www.genome.jp/kegg/
- pathway di attivazione genica
https://pathwayexplorer.genome.tugraz.at/
- SW per la ricerca di pathway in dataset
• The Gene Ontology
http://www.geneontology.org/
- classificazione per categorie ontologiche
- funzione molecolare
- processo biologico
- componente cellulare
http://vortex.cs.wayne.edu/projects.htm
- SW per la caratterizzazione ontologica in dataset
25
Banche dati
• KEGG (Kyoto Encyclopedia of Genes and Genomes
) Component
Cellular
http://www.genome.jp/kegg/
Molecular Function
Biological Process
- pathway di attivazione genica
https://pathwayexplorer.genome.tugraz.at/
- SW per la ricerca di pathway in dataset
• The Gene Ontology
http://www.geneontology.org/
- classificazione per categorie ontologiche
- funzione molecolare
- processo biologico
- componente cellulare
http://vortex.cs.wayne.edu/projects.htm
- SW per la caratterizzazione ontologica in dataset
26
Software per l’interpretazione
dei dati
• http://www.genecards.org/index.shtml
• http://ihop-net.org/UniPub/iHop/
• http://www.pubgene.org/
27
PubGene
28
Esperimento ApoAI Knockout
Materiali e metodi:
- 16 topi C57BL/6 “black six”
- in 8 topi è stato “spento” il gene che codifica per l’apolipoproteina AI
- per ciascun topo è stato estratto l’RNA dal fegato, è stato isolato l’mRNA, è
stato retrotrascritto in cDNA e marcato con un fluorocromo rosso Cianina
Cy5
- il cDNA marcato di ciscun topo è stato mescolato con un’aliquota di un
campione di riferimento, ottenuto facendo il pool degli RNA degli 8 topi di
controllo e marcando il materiale così ottenuto con il fluorocromo verde Cianina
Cy3
- le 16 miscele sono state ibridizzate su 16 microarray distinti
29
Esperimento Swirl zebrafish
Materiali e metodi:
- 2 pesci zebra
- in 1 pesce è presente una mutazione sul gene BMP2
- per ciascun pesce è stato estratto l’RNA, è stato isolato l’mRNA, è stato
retrotrascritto in cDNA. Il cDNA di ogni pesce è stato diviso in quattro
aliquote.
- Due aliquote di cDNA di pesce mutato sono state marcate con il fluorocromo
rosso Cianina Cy5 e le altre due con il fluorocromo verde Cianina Cy3.
Analogamente per il cDNA del pesce wild-type.
- il disegno sperimentale è di tipo diretto con dye-swap
30
Scarica