Analisi dei dati di espressione genica in esperimenti realizzati mediante microarray Erika Melissari ESPRESSIONE GENICA E’ un processo molto complesso e finemente regolato che permette ad una cellula di rispondere dinamicamente sia agli stimoli ambientali che alle sue stesse necessità di cambiamento 2 Misurare l’espressione di un gene significa.... Dare una valutazione quantitativa della presenza di trascritti (molecole di mRNA) o delle proteine codificate da quel gene nelle cellule in esame 3 Tecnologia dei microarray Sfrutta la capacità di una data molecola di mRNA di ibridizzare con il DNA stampo da cui è stata generata 4 I microarray: la tecnologia Agilent ® 5 Disegno sperimentale Precisione nella stima delle differenze fra le due classi Efficienza ~ 1/varianza delle stime Esperimenti “equivalenti” a) Stesso numero di microarray impiegati b) Stesso numero di campioni non-reference ibridizzati Come disegno un esperimento efficiente? “Posso comprare solo 10 array (non ho problemi a reperire campioni).” “Ho solo 10 campioni (non ho problemi a comprare array).” 6 Disegni sperimentali per class comparison • Reference Design Il confronto fra le due classi è realizzato attraverso il campione Reference • Loop Design È un’evoluzione del reference design • Balanced Block Design Per ciascun gruppo (classe) metà dei campioni sono marcati con un fluorocromo e metà con l’altro 7 Come disegno un esperimento di class comparison efficiente? Per testare l’ipotesi nulla di assenza di espressione genica differenziale bisogna fissare: • un livello α di significatività • un livello 1-β di potenza • l’effect-size δ da detettare (fold change) • i livelli di varianza σ o τ dei dati • il disegno sperimentale Reference Design Balanced Block Design 8 cellule trattate cellule non trattate 1) Estrazione dell’RNA totale dai campioni 2) Isolamento dell’ mRNA, retrotrascrizione in cDNA e marcatura con fluorofori RNA Cy5 cDNA 3) Ibridizzazione 4) Scansione del vetrino Cy3 9 Scansione del vetrino Scansione 10 Scansione del vetrino 11 Scansione del vetrino • Scanner a due laser – Lunghezze d’onda di eccitazione dei fluorocromi • 635 nm - Red • 532 nm - Green • Canali separati in acquisizione – formazione di due immagini • Codifica su 16 bit – 2^16 = 65536 livelli di colore • Occupazione di memoria – 130 MB c.a. 12 Quantizzazione dei dati • “Gridding” dell’immagine ¾ GAL file • Segmentazione: ¾ spaziale; ¾ per intensità; • Segnale Background Estrazione delle intensità di segnale e di background: ¾ media del pixel; ¾ mediana dei pixel. 13 • Pre-trattamento dei dati Correzione del background per sottrazione dal segnale utile ¾ “spotting” scorretto; del suo valore calcolato: ¾ legami aspecifici del ¾ su un intorno campione con il ristretto dello spot; supporto; ¾ su una sezionepropria dell’array; fluorescenza dei reagenti. ¾ su un intorno largo dello spot; • ¾ su spot dedicati. Applicazione di indicatori di qualità agli spot per la selezione dei geni giudicati idonei per la successiva normalizzazione SNR = Mediana del segnale / SD del rumore 14 Normalizzazione (1) Variabili che possono influenzare i risultati di un esperimento di microarray: • • • • • • Disomogeneità nel processo di deposizione delle sonde; Quantità iniziali diverse di RNA; Diversa efficienza di incorporazione dei due fluorocromi; Disomogeneità di ibridizzazione sul vetrino; Diversa efficienza di emissione dei due fluorocromi; Diversa efficienza dello scanner nel leggere i due canali. Determinazione di un fold change scorretto Fold Changegene X = Valore di intensità del Trattato / Valore di intensità del Controllo Espressione differenziale del gene X nel campione trattato rispetto al campione di controllo 15 Normalizzazione (2) Per correggere le variabili (sistematiche) che possono influenzare i risultati di un esperimento di microarray A =½ log (R*G) M = log (R/G) 16 Normalizzazione (3) E’ necessario che la normalizzazione tenga conto del disegno dell’esperimento (confronto realizzato): • Normalizzazione within array • Normalizzazione between arrays La normalizzazione va applicata ad un gruppo di geni appositamente scelti: • Tutti i geni sull’array Ipotesi: i geni differenzialmente espressi sono pochi rispetto alla totalità dei geni presenti sul vetrino N.B.: valida solo su vetrini whole genome • Geni espressi in maniera costante (housekeeping) • Controlli positivi (spiked) e serie di diluizioni (titration) controlli 17 Normalizzazione within array Normalizzazione globale -> Centraggio della distribuzione R=K*G log2 R/G - - - -> log2 R/G – c = log2 R/(KG) Normalizzazione intensità-dipendente c = log2 K Interpolazione LO(W)ESS (LOcally WEighted polynomial regreSSion) globale LOWESS Funzione di smoothing 18 Estrazione dei dati di espressione genica • Metodi empirici - selezione di una soglia empirica sulla distribuzione dei rapporti delle intensità (log2 [Trattato/Controllo]) Metodi statistici - t-test, ANOVA, B-statistic Clustering - raggruppamenti sulla base di somiglianze Modelli di apprendimento - reti neurali Lista di geni differenzialmente espressi 19 Visualizzazione dell’espressione media globale Principal Component Analysis - PCA Analisi delle Componenti Principali per rappresentare l’espressione media globale in uno spazio bassodimensionale Genesis SW 20 Verifica biologica ed Interpretazione del dato • Validazione di un sottoinsieme di geni differenzialmente espressi attraverso metodiche alternative (real time RT-PCR) • Interpretazione della lista dei geni DE per individuare l’effetto a livello molecolare del fenomeno biologico indagato – informazioni sui singoli geni – reti biochimiche (pathway) di trasmissione del segnale 21 Banche dati 22 Banche dati • KEGG (Kyoto Encyclopedia of Genes and Genomes ) http://www.genome.jp/kegg/ - pathway di attivazione genica https://pathwayexplorer.genome.tugraz.at/ - SW per la ricerca di pathway in dataset http://vortex.cs.wayne.edu/projects.htm - SW per l’analisi di pathway • The Gene Ontology http://www.geneontology.org/ - classificazione per categorie ontologiche - funzione molecolare - processo biologico - componente cellulare http://vortex.cs.wayne.edu/projects.htm - SW per la caratterizzazione ontologica in dataset 23 Banche dati • KEGG (Kyoto Encyclopedia of Genes and Genomes ) http://www.genome.jp/kegg/ - pathway di attivazione genica https://pathwayexplorer.genome.tugraz.at/ - SW per la ricerca di pathway in dataset http://vortex.cs.wayne.edu/projects.htm - SW per l’analisi di pathway • The Gene Ontology http://www.geneontology.org/ - classificazione per categorie ontologiche - funzione molecolare - processo biologico - componente cellulare http://vortex.cs.wayne.edu/projects.htm - SW per la caratterizzazione ontologica in dataset 24 Banche dati • KEGG (Kyoto Encyclopedia of Genes and Genomes ) http://www.genome.jp/kegg/ - pathway di attivazione genica https://pathwayexplorer.genome.tugraz.at/ - SW per la ricerca di pathway in dataset • The Gene Ontology http://www.geneontology.org/ - classificazione per categorie ontologiche - funzione molecolare - processo biologico - componente cellulare http://vortex.cs.wayne.edu/projects.htm - SW per la caratterizzazione ontologica in dataset 25 Banche dati • KEGG (Kyoto Encyclopedia of Genes and Genomes ) Component Cellular http://www.genome.jp/kegg/ Molecular Function Biological Process - pathway di attivazione genica https://pathwayexplorer.genome.tugraz.at/ - SW per la ricerca di pathway in dataset • The Gene Ontology http://www.geneontology.org/ - classificazione per categorie ontologiche - funzione molecolare - processo biologico - componente cellulare http://vortex.cs.wayne.edu/projects.htm - SW per la caratterizzazione ontologica in dataset 26 Software per l’interpretazione dei dati • http://www.genecards.org/index.shtml • http://ihop-net.org/UniPub/iHop/ • http://www.pubgene.org/ 27 PubGene 28 Esperimento ApoAI Knockout Materiali e metodi: - 16 topi C57BL/6 “black six” - in 8 topi è stato “spento” il gene che codifica per l’apolipoproteina AI - per ciascun topo è stato estratto l’RNA dal fegato, è stato isolato l’mRNA, è stato retrotrascritto in cDNA e marcato con un fluorocromo rosso Cianina Cy5 - il cDNA marcato di ciscun topo è stato mescolato con un’aliquota di un campione di riferimento, ottenuto facendo il pool degli RNA degli 8 topi di controllo e marcando il materiale così ottenuto con il fluorocromo verde Cianina Cy3 - le 16 miscele sono state ibridizzate su 16 microarray distinti 29 Esperimento Swirl zebrafish Materiali e metodi: - 2 pesci zebra - in 1 pesce è presente una mutazione sul gene BMP2 - per ciascun pesce è stato estratto l’RNA, è stato isolato l’mRNA, è stato retrotrascritto in cDNA. Il cDNA di ogni pesce è stato diviso in quattro aliquote. - Due aliquote di cDNA di pesce mutato sono state marcate con il fluorocromo rosso Cianina Cy5 e le altre due con il fluorocromo verde Cianina Cy3. Analogamente per il cDNA del pesce wild-type. - il disegno sperimentale è di tipo diretto con dye-swap 30