Analisi ARRAY QUALUNQUE TECNOLOGIA SUFFICIENTEMENTE AVANZATA E' INDISTINGUIBILE DALLA MAGIA ARRAY • Come definito da Schena ed altri (Scienze 270, 467-470, 1995), un DNA microarray è "un allineamento ordinato degli acidi nucleici, di piccole molecole, che permette l'analisi parallela dei campioni biochimici complessi". RICERCA DI BASE RICERCA DI NUOVI GENI ibridazione del cDNA in siti di probabili ORF IDENTIFICAZIONE DI ELEMENTI REGOLATIVI studio di coespressione genica d'azione EVOLUZIONE profili di trascrizione numero di copie di geni polimorfismi CARATTERIZZAZIONE DI SISTEMI COMPLESSI organi e patologie specifiche risposta allo stress invecchiamento VALUTAZIONE DELLA TOSSICITA' tossici e farmaci cibo ambiente RICERCA APPLICATA FUNZIONE DEI GENI pathway metabolici analisi di mutazioni RICERCA DI NUOVI FARMACI identificazione e validazione del target ottimizzazione dell'efficacia meccanismo d'azione DIAGNOSI DI PATOLOGIE prognosi e diagnosi classificazione dellle patologie strategie di trattamento CARATTERIZZAZIONE DI SISTEMI COMPLESSI organi e patologie specifiche risposta allo stress invecchiamento VALUTAZIONE DELLA TOSSICITA' tossici e farmaci cibo ambiente Funzione Genica Sperimentalmente sono stati identificati ~ 10.000-40.000 geni Un singolo gene solitamente è implicato in più di una funzione biologica Solo una piccola parte dei ~ 10.000 geni identificati ha almeno una funzione certa Perché è importante lo studio dell’espressione genica Si ipotizza che geni espressi in modo simile nelle stesse condizioni sperimentali siano regolati da promotori simili Si suppone che geni co-regolati siano coinvolti negli stessi processi biologici (e che quindi abbiano funzioni simili) interpreta Mondo reale Modello osservazione m odifica verifica Mondo reale Modello Rapp resentazione attraverso un modello generico COSA SI VEDE Causa Effetto TEORIA Programma Osservazioni Si crede Si vede COSA SI CREDE Rappresentazione di un modello statistico Statistica: la certezza dell’incertezza Non sono in grado di dare risposte certe ma posso specificare oggettivamente le ambiguità e quantificarne gli effetti. Principi dell’inferenza Lo studio QUANTITATIVO dei fenomeni collettivi comporta la MISURA di una pluralità di osservazioni riguardanti uno o più caratteri rilevati sulle UNITA’ STATISTICHE (US). Principi dell’inferenza RILEVAZIONE STATISTICA può riguardare: POPOLAZIONE=insieme di tutte le possibili osservazioni relative ad una certa caratteristica CAMPIONE=parte della popolazione la rilevazione è totale la rilevazione è parziale INFERENZA L’insieme delle tecniche che costituiscono il processo logicooperativo con cui è possibile estendere le conclusioni ricavate dalle unità osservate a tutto il collettivo è detta INFERENZA STATISTICA si sviluppa in verifica delle ipotesi stima dei parametri ignoti della popolazione Misurazioni hard e misure soft q Precisione: accordo tra le misure replicate; non possiede un valore numerico, è la qualità di una misura per cui essa è definita esattamente nel minimo dettaglio. In alcuni casi questo termine viene impiegato come sinonimo di validità. q Riproducibilità: reliability nella terminologia anglosassone, indica la precisione tra le serie o tra giorni, ossia la stabilità di una osservazione. q Accuratezza: l’accuratezza rappresenta l’accordo tra la stima del parametro ed il vero valore. Esistono due tipi di validità: quella interna che rappresenta il grado di conformità con il campione della popolazione studiata, mentre quella esterna rappresenta la possibilità di generalizzare i dati su altre realtà non prese in considerazione. q Inaccuratezza: differenza tra la media di una serie di misure ed il valore vero. La differenza viene espressa solitamente in %. q Bias: errore sistematico, rappresenta una distorsione dei risultati. q Attendibilità: è una caratteristica delle misurazioni ripetute. Errore --- Rand om Sistematico Grossolano Precisione Ottimale Cattiva Buona -- Accuratezza Ottimale Buona Cattiva -- Il test In ogni test statistico sono impiegate delle procedure matematiche che prevedono il rispetto di alcuni assunti, se tali assunti non sono rispettati le conclusioni del test non possono ritenersi valide Campioni estratti dalla popolazione con tecniche random q Omogeneità della varianza q Normalità della distribuzione q Addittività della varianza IL MODELLO BASE yij=µ+τj+ε ANOVA (analysis of variance): log (segnale ) = A + P + D + B + Rest Il test Si devono quindi rispettare alcune condizioni: q Aumentando le ripetizioni, si accresce la precisione (omogeneità). q Il numero di individui deve essere tendenzialmente uguale nei diversi gruppi. q Il test é valido solo se i gruppi sperimentali hanno subito un'influenza sistematica (randomizzazione). Tutti gli individui devono avere la stessa probabilità di essere assegnati ad un trattamento. q La randomizzazione deve essere fatta con mezzi obbiettivi. q Nel corso dell'esperimento tutti i diversi individui devono essere influenzati nello stesso modo dalle circostanze non controllate dell'esperimento. q Indipendenza degli errori. Disegno Sperimentale • Disegno dell’array – quali sequenze spottare; – se e quante repliche per gene inserire nell’array; – utilizzo di sequenze di controllo; – quanti controlli e dove questi controlli devono essere spottati. • Posizionamento dell’mRNA sul vetrino – quali campioni di mRNA da usare nella ibridazione competitiva; – assegnazione dei florofori; – repliche dell’esperimento. Agire sul disegno sperimentale • Gli esperimenti di microarray richiedono Pianificazione guidata dagli obbiettivi sperimentali FAQ: Quante repliche sono necessarie per raggiungere gli obbiettivi? • Devono essere chiari gli obbiettivi: -Indicare una soglia minima di effetto che ci interessa -Indicare la probabilità con cui si vorrebbe osservare il superamento di tale soglia -Fare ipotesi anche forti: es. sulla forma delle distribuzioni di probabilità nelle popolazioni di riferimento, su alcuni parametri delle distribuzioni ricavati da osservazioni pregresse analoghe… Disegno sperimentale I campioni di interesse sono confrontati con un campione di riferimento Perchè misuriamo un campione di riferimento? … Il ruolo del data-set di input (dati X) per la costruzione di un modello Nella costruzione di un modello vi sono due tappe fondamentali, entrambe utilizzano porzioni del data set di input FASE DI CALIBRAZIONE Utilizza una parte dei dati di input per trovare la migliore matrice che lega XeY FASE DI VALIDAZIONE Utilizza una parte dei dati di input per verificare (“validare”) che il legame trovato sia generalizzabile ad altri dati excitation cDNA clones (probes) laser 2 PCR product amplification purification scanning laser 1 emission mRNA target) printing overlay images and normalise 0.1nl/spot microarray Hybridise target to microarray analysis Cos’è un microarray? Fino a 44000 spots Numerosi probes Microarray, in base all’uso cDNA microarray: per permettere l’analisi su larga scala di un gran quantitativo di mRNA come un indicatore dell’espressione genetica; microarray SNP (“Single Nucleotide Polymorphism”) e array di mutazione: per rilevare polimorfismi o mutazioni in una popolazione usando array SNP o array progettati per rilevare mutazioni conosciute. microarray CHG (“Comparative Hybridization Genomic”): per osservare perdite o guadagni genomici, o un cambiamento nel numero di copie di un gene particolare coinvolto in una malattia. Tecnologie per la produzione: Microarray a DNA spottato Microarray in situ Applicazioni: Analisi dell’espressione genica Identificazione di SNP, sequenziamento genico Tecnologia del Microarray: analisi dell’espressione genica trattamento +X Cellule -X estrazione mRNA analisi dati Marcatura ibridazione lettura Esperimenti di Microarray Permettono l’analisi dell’espressione genica di migliaia di geni simultaneamente Sia i macroarrays che i microarrays sono stati sviluppati per soddisfare l’esigenza di misurare contemporaneamente l’espressione di più geni. Entrambe le tecnologie si basano sullo stesso principio: L’array viene ibridizzato con una miscela complessa di molecole Come sonda si usano marcate rappresentative olgonucleotidi o molecole di cDNA dell’mRNA espresso dalle cellule non marcati, immmobilizzati in in esame posizioni precise di un supporto solido 1 α β γ δ 2 ε ζ η θ 3 ι κ λ µ 4 ν ξ ο π Array C mRNA RT Nucleotidi marcati cDNA Microrray: tecnologia Affymetrix • Le molecole sonda sono oligonucleotidi sintetizzati direttamente su microchip di silicio con un metodo fotolitografico. • Su ogni microchip vengono sintetizzati fino a 400000 oligonucleotidi diversi. • La metodica è stata sviluppata in modo da permettere misurazioni assolute dell’abbondanza dei singoli mRNA Microrray: tecnologia Affymetrix 50µm ~~50 50--400 400 chips/wafer chips/wafer 50µm probes Thousands of identical probes/feature Oltre ~ 400,000 up to ~ 400,000 features/chip Elaborazione delle immagini Microarray Data Flow Printer Scanner .tiff File Analisi immagine Raw Gene Expression Data Gene Annotation Normalizazzione Filtraggio AGED Others… MAD Database Normalizzazione Data con Gene Annotation Database Database Analisi di espressione Interpretazione dei risulati Data processing Disegno sperimentale complesso 2 repliche Disegno con 4 targets “Cycle Design” disegno = 4*2*2= 16 Reference Target D Cy3 Target A Target B Target C Cy5 SCHEMA DI PROCESSO Campione 1 mRNA Cy3 intensità RT Cy3 Cy3-cDNA RT Cy5 Cy5-cDNA Campione 2 cDNA array Cy5 intensità I cDNA arrays sono solitamente suddivisi in sotto sezioni ognuna delle quali può essere caratterizzata da specifici problemi di background dovuti al deterioramento delle tips di spotting o ad un’ibridazione non uniforme. -Un approccio che permette di minimizzare le discrepanze tra le zone dell’array è la trattazione indipendente delle varie sottosezioni. Morfologia matematica È possibile misurare forme e posizione, orientazione, area, perimetro. Le Immagini sono a toni di grigio: L’immagine è definita da: un insieme di elementi (i pixel, pii) l’origine O del sistema di riferimento Analisi Immagine 1. Addressing:TROVARE IL CENTRO 2" . Segmentation: classificazione dei pixels 3. Information extraction: per ogni spot calcolare l’intensità del segnale e la qualità della misura. " Photomultiplier tube (PMT) Pinhole" Detector lens" Beam-splitter" Laser" Objective Lens" Dye" Glass Slide" Processo di scannerizzazione Laser" Dye" A/D" PMT" Convertor" Electrons" Segnale" Photons" Eccitazione" Amplificazione" Filtraggio" " LIMITI DI DETECTION Lo Scanner genera immagini a 16 bit in scala di grigio TIFF: immagine per ogni probe (Cy3 e Cy5) il segnale a 16 bit varia da 0 a 216=65536 Ogni immagine occupa da 20 to 30 MB per ogni vetrino con risoluzione 10 mm/pixel Image size 22 MB Blending Image size 28 MB Parametri pin X1 pin Y1 pin Y2 pin X2 Parameteri dello spot spot spacing Cerchiati in azzurro, di riconoscimento grossolanamente scorretto. Nella figura (b) tali errori sono stati corretti manualmente (il cerchio con barra verticale indica che il software considera lo spot assente). ADDRESSING Vengono assegnate le coordinate ad ogni spot. L ‘automazione permette analisi high throughput analysis. • 4 per 4 rettangoli • 19 per 21 spots rettangolo Misure di Intensità Per ogni spot Intensità su canale 1: x Intensità su canale 2: y Più una serie di misure di qualità per ogni spot Metodi di Segmentazione • Fixed circles • Adaptive Circle • Adaptive Shape – Edge detection. – Seeded Region Growing. (R. Adams and L. Bishof (1994) : • Histogram Methods – Adaptive threshold. — Definizione della Intensità — media (pixel intensità). — mediana (pixel intensità). — Valori di Background — Locale — Morfologico — Constante (global) — Nessuno — Qualità dell’Informazione PRENDERE LA MEDIA" Limiti nella segmentazione circolare — Piccolo spot — Non circolare Risultato da SRG" Backgrounds LOCALI Cosa viene misurato • Spot (SRG) – vallate – morfologia • ScanAlzye (cerchi predefiniti) • GenePix (addattamento) • QuantArray – Circhi predefiniti – Adattamento (Chen’s method) – Istogrammi Segnale Background Spot Finding Spot finding richiede una stima della dimensione spot. Lo spot può essere con contorno irregolare, come una elisse, o con contorno non connesso. Area per calcolare Intensità spot Area usata per il calcolo del background Background sottrazione... Background subtraction è basata sul concetto che il segnale è ADDITTIVO. VERO = Spot - Spot Bkg background plus spot intensity Additivity idea background intensity PROBLEMA: PUO’ ESSERE< 0 microarray Definizione e calcolo dello spot Spot Area, A = numero dei pixels definiti come spot boundary BKG = mediana dei pixel Integrale = Somma di tutti gli spot pixels Esclusi quelli saturati Intensità = Integrale-BKG*A Integrazione segnale con Background SEGNALE Livello Background Calcolo della intensità n ⎡ ⎤ I = ⎢∑ (Φi | Φi < 65536)⎥ − µ ⋅ nα ⎣ i =1 ⎦ Φi = intensità pixel iesimo n = numero dei pixels nello spot µ = mediana del background nα = numero dei pixels non saturati nello spot Controllo di qualità Due misure sulla qualità sono riportati dal programma SpotFinder: • Fattore di saturazione • QC Score; (indica la forma e il rapporto segnale/rumore). Area saturata Area non saturata Spot saturato Saturazione, Valore limite Output: pixel value 216=65536 Input: Fluorescenza-Intensità segnale Test sulla ADDITTIVITA’ Per il test sono necessari • Diversi punti • Misurare la linea di intersezione con asse verticale Linearity (?) of Dye and the need for background subtraction Saturation Intensity Spot Intensity Background corrected spot intensity Background intensity? Nr. dye molecules attached to gene per pixel Caratteristiche della misura La misura della grandezza è caratterizzata da: - il valore di misura; - l’incertezza di misura; - l’unità di misura Fattore di saturazione Saturazione = (# good pixels in spot) (total number of spot pixels) Misura della qualità • Array – Correlation between spot intensities. – Percentage of spots with no signals. – Distribution of spot signal area. • Spot – Signal / Noise ratio. – Variation in pixel intensities. – Identification of “bad spot” (spots with no signal). • Ratio (2 spots combined) – Circularity ALCUNE FONTI DI VARIABILITA’ grado di marcatura del cDNA da ibridare derivato da total RNA o mRNA. Ibridazione Lavaggi Operatore Effetti distorsivi dye-effect (o effetto colore); print-tip (o deposito irregolare); array-effect (o effetto intensità). QC Score Il QC Score è determinato per ogni spot e considera lo spot shape e misura il rapporto segnale/rumore. QC Score QCA shape signal/noise QCB shape signal/noise Parametri dello spot: SHAPE Shape Factor = (Spot Area/Perimetro) Spots con un perimetro relativamente elevato rispetto all area possiedono uno shape basso. 216 Signal / Noise Ratio Pixel Values S/N factor = frazione degli spot pixels che eccedono: 0 α*med(BKG) + β* SD(BKG) med(BKG) Quality Control QC Score = (QCA+QCB)/2 QCA= radice (QC shape*QC S/N) per il canale A QCB= radice (QC shape*QC S/N) per il canale B Cause di variazione I microarry contengono fonti di variazione che dipendono : • Dal gene • mRNA target • … dall’array • … dal print-pin • … dal colorante • … dal background. Definizione della qualità delle repliche log2(t/c) Valore definito dall’utente in funzione della qualità delle repliche; ad es.:|log2(Cx/Cy)|= 0.6. Un modo molto usato per visualizzare l’espressione differenziale è fare il plot delle intensità di Cy5 rispetto a quelle di Cy3 e vedere come queste si discostavano dalla diagonale su un grafico logaritmico. Dudoit e collaboratori hanno proposto un diverso modo di rappresentare le espressioni differenziali, che ruota di 45° le curve che abbiamo visto. Questo tipo di rappresentazione si ottiene plottando log2(Cy5/Cy3) rispetto a log2(√(Cy5*Cy3) Nello stesso vetrino ci " possono essere" dei Movimenti" 4 by 4 grids ALTRI : -- Non perfetta calibrazione -- Rotazione -- Deformazioni nell’array Soluzioni?? J. Andrews (Genome Research, Vol 10 p. 2030 ): “… Add 39,542 to make things positive… ” Affymetrix handbook: “partition the array in 16 pieces. Then calculate for each piece the average of the lowest 2% of the background intensities. Subtract this value from the signal intensity.” Reference Standards Utilizzare un insieme di geni invarianti, i quali si presuppone abbiano un livello di espressione costante in tutte le condizioni sperimentali. - Housekeeping genes - Geni scelti a posteriori sulla base della loro espressione tra array Normalizzazione Identificare e rimuovere errori sistematici – efficienza diversa delle due marcature; – diverse quantità di mRNA per un canale e per l’altro (Cy3 e Cy5); – diversi parametri di scansione; – bilanciamento dei laser; – effetti di punte, effetti spaziali o di supporto. • Necessaria per un confronto dei livelli di espressione all’interno dello stesso array e tra array diversi Normalizzazione: maggior Fluorescenza = maggior espressione 1) Normalizzazione globale: Un singolo fattore di normalizzazione (k) è calcolato per il bilanciamento dei chip o dei canali. Xinorm = k*Xi 2) Normalizzazione intensità dipendente: Invece di un singolo fattore si utilizza una funzione che compensa i bias intesitàdipendenti. Normalizzazione globale calcolare la mediana globale di Cy5 e di Cy3 fare il rapporto mediana Cy5/mediana Cy3 moltiplicare il valore ottenuto per ognuno dei valori di Cy3 dei geni Normalizzazione locale Dudoit ha suggerito l’uso di una funzione di smoothing di dati scattered disponibile all’interno del pacchetto R (lowess). In particolare l’idea è calcolare la curva di smoothing (cj(log2(Cy5/Cy3)) per log2(Cy5/ Cy3) rispetto a log2(√(Cy5Cy3). Sottrarre la curva di smoothing a log2(Cy5/Cy3): log2(Cy5/Cy3) - cj(log2(Cy5/Cy3). Normalizzazione per punte prima dopo Interpretazione dei risultati i microarray sono il punto di partenza per successivi studi funzionali • Validazione dei risultati (di tutti o di una parte) ottenuti con altre tecniche di laboratorio• Ricerca bibliografica sulle possibili implicazioni funzionali e interazioni geniche dei trascritti non regolati • Studio delle proteine associate ai trascritti identificati differenzialmente espressi Matrice dei risultati con una condizione sperimentale Condizione Gene 1 Gene 2 … Gene n x11 x21 … xn1 Domande: • Quali geni sono differenzialmente espressi ? • Cosa vuol dire differenzialmente espresso ? Nessun modello probabilistico ipotizzato zik Malato Sovraespressi 1 geni -1 Sottoespressi Aik = E(xi1k) Bik = E(yi2k) zik = Log2(Aik / Bik) Sano Matrice dei risultati con più condizioni sperimentali Cond. 1 Cond. 2 Gene 1 Gene 2 … Gene n x11 x21 x12 x22 … Cond. m … x1m … x2m … … … … xn1 xn2 … xnm Domande: • Quali geni sono differenzialmente espressi • Quali e quanti geni sono coespressi ? ? ANALISI CLUSTER Identificazione di gruppi di geni con profili di espressione simili Simili rispetto a cosa ? Definizione di distanza Geni sono punti nello spazio: punti vicini nello spazio sono raggruppati insieme ANALISI MULTIVARIATE dei dati Analisi con più condizioni sperimentali Ø Unsupervised Methods ANALISI CLUSTER Descrittiva (non so nulla a priori) Ø Supervised Methods ANALISI DISCRIMINANTE Predittiva (devo sapere a priori la classe patologica di appartenenza dei pazienti) Microarrays e loro funzione diagnostica Patologie diverse o sottoclassi della stessa patologia hanno dimostrato essere caratterizzate da diversi pattern di espressione. Analisi Cluster Identificazione di sottoclassi non note della patologia. Analisi Discriminante Identificazione di gruppi di geni marcatori della patologia stessa. ANALISI CLUSTER Tante informazioni: COME INTERPRETARLE ? CLUSTERING Clustering gerarchico K-means clustering G1 G4 g1 g8 g4 g5 g7 Linguaggio R G5 G8 G2 G11 G6 G3 G7 G10 progetto Bioconductor