Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Strumenti statistici per l’analisi di dati genetici Luca Tardella + Maria Brigida Ferraro 1 email: [email protected] Lezione #4 – Analisi di dati microarray e selezione di geni differenzialmente espressi 16 maggio 2014 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore 1 Qualità dell’informazione numerica e pre-processing 2 Test multipli e controllo dell’errore 3 Selezione di geni differenzialmente espressi Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Microarray L’idea di fondo è usare le informazioni nel cosiddetto transcriptoma per capire i meccanismi di funzionamento dell’informazione genetica. DNA → mRNA → Proteine Nell’ultimo passaggio aumenta il grado di complessità strutturale (2D → 3D) e di trattamento sperimentale (purificazione) [esperienza valentina] Un gene alla vota? Descrizione sommaria e semplificata dei microarray Qualità dell’informazione numerica e pre-processing Alcune immagini Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Tipici obiettivi sperimentali ... di esperimenti condotti su microarray Quali geni sono espressi nei differenti tessuti di un organismo Espressione differenziale in differenti condizioni biologiche, trattamenti, fasi di sviluppo cellulare Esplorazione, tipizzazione, classificazione Quali gruppi di geni sono collegati nel caratterizzare una condizione sperimentale (e.g. malattia) Malattie multifattoriali (genetici, ambientali, stile di vita, alimentare ...) Pattern temporali Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Fasi dell’esperimento microarray Preparazione del supoporto (chip) Preparazione del campione biologico (colorazione con cianine) Fissaggio (hybridization) e lavaggio Scansione dell’immagine (laser, fuorescenza/e, lunghezze d’onda) saturazione vs dynamic range allineamento foreground/background Traduzione immagine in misurazioni numeriche (dettagli sui manuali software) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Technology differences ♦pin spotting or photolithography or … ♦multi-channel or single-channel ♦almost-complete or sequences (cDNA) cDNA array subsequences (oligonucleotides) Affymetrix chip 10 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Esempi di supporti solidi per la rilevazione di espressione 1 1 Affymetrix GeneChip probe array. Image courtesy of Affymetrix Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Dall’immagine alla misurazione numerica filtering gridding segmenting quantifying Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Dall’immagine alla misurazione numerica (2) Diversi software proprietari espletano queste fasi, talvolta in modo semi-automatico. Ciascuno prevede metodi ed opzioni differenti. ScanArray Spot Affymetrix MAS GenePix ScanAlyze Quantarray E’ fondamentale riferirsi ai manuali per capire le scelte e le eventuali implicazioni sulla qualità dell’output numerico. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi ArrayVision Reference Manual 2-39 individual spot beforeGrowing sampling. As a result, all sampling areas coincide exactly with the Seeded Region Algorithm spot boundaries on the image (Figure 2-52). Figure 2-52: Segmentation of an array that varies in spot size and shape. At left, the template elements (red circles) are all of the predefined size. Some spots are much smaller than this. At right, the template elements adjust themselves to find the spot boundaries. To apply the segmentation process to your images, check the Enable Segmentation Fissare un punto iniziale (seed) per il segnale all’interno dello checkbox. spot e un punto iniziale per il background Please note, although the segmentation process determines individual spot boundaries Layout parameters, including aconto automatically, your protocol mustdei stillpunti includeper all Array Accrescere l’insieme entrambi i gruppi tenendo spot size. The template should also be aligned with the array before sampling. della distanza fisica e di livello di intensità di segnale Figure 2-53: Segmentation page of the protocol editor. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Quantificazione Spot intensity (sintesi: media, mediana, trimmed, biweight ...) Spot background Altre misure (sd / cv) Morfologia (circularity) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Pre-processing e normalizzazione SEGNALE + RUMORE/ERRORE ALEATORIO + RUMORE/ERRORE SISTEMATICO Conoscenza approfondita del contenuto dei dati di scansione Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Pre-processing e normalizzazione SEGNALE + RUMORE/ERRORE ALEATORIO + RUMORE/ERRORE SISTEMATICO Conoscenza approfondita del contenuto dei dati di scansione Qualità delle misurazioni rilevate Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Pre-processing e normalizzazione SEGNALE + RUMORE/ERRORE ALEATORIO + RUMORE/ERRORE SISTEMATICO Conoscenza approfondita del contenuto dei dati di scansione Qualità delle misurazioni rilevate Scala di misrazione e trasformazioni Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Pre-processing e normalizzazione SEGNALE + RUMORE/ERRORE ALEATORIO + RUMORE/ERRORE SISTEMATICO Conoscenza approfondita del contenuto dei dati di scansione Qualità delle misurazioni rilevate Scala di misrazione e trasformazioni Rimozione/riduzione di effetti di distorsione sistematica globale e locale (rumore di fondo/background, colorazioni, print-tips, ...) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Pre-processing e normalizzazione SEGNALE + RUMORE/ERRORE ALEATORIO + RUMORE/ERRORE SISTEMATICO Conoscenza approfondita del contenuto dei dati di scansione Qualità delle misurazioni rilevate Scala di misrazione e trasformazioni Rimozione/riduzione di effetti di distorsione sistematica globale e locale (rumore di fondo/background, colorazioni, print-tips, ...) Rimodulazione delle misure replicate Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Pre-processing e normalizzazione SEGNALE + RUMORE/ERRORE ALEATORIO + RUMORE/ERRORE SISTEMATICO Conoscenza approfondita del contenuto dei dati di scansione Qualità delle misurazioni rilevate Scala di misrazione e trasformazioni Rimozione/riduzione di effetti di distorsione sistematica globale e locale (rumore di fondo/background, colorazioni, print-tips, ...) Rimodulazione delle misure replicate Aggiustamenti manuali ad hoc Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Fasi sequenziali per l’analisi o modello integrato? Pro e contro dell’approccio sequenziale che distingue la fase di pre-processing da quella di analisi una parte della variabilità è lasciata fuori non si possono distinguere nei risultati i contributi/le implicazioni delle varie fasi ad-hoc complessità computazionale Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Qualità dei dati 50 100 Column 150 200 250 campione3.txt Visualizzazione immagine 50 100 150 200 250 300 Row 50 anomalie, graffi ... 100 Column 150 200 250 sampleCtxt 50 100 150 200 250 300 Row Accorpamento di spot adiacenti (bleeding) Pattern orizzontali/verticali/diagonali/... Metodi formali, automatici (prevedibilità spaziale e aleatorietà spaziale) pattern nei segnali di array consecutivi (MTB) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Quante fasi di pre-processing? Distorsione spaziale Presenza di background osservato Distorsione imputabile alla diversa colorazione (dye effect) (MA plot → smooth → sconto differenza → inditero) Distorsione imputabile al set di ’testine’ usate per spottare le probes sul supporto fisico (print-tip effect) Effetto array nelle replicazioni della stessa condizione sperimentale (quantità di materiale, angolo di scansione, tempi di coibridazione ...) In questo ordine? Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Aleatorietà spaziale Indice di Clark ed Evans (1954) d̄ − TCSR = q 1 √ 2 ρ 4−π 4G πρ richiede la selezione di un certo numero r di outlier identificati secondo un criterio ed è basato sul confronto osservato/atteso tra la distanza (media) tra i punti risptto ai propri vicini. La distribuzione di riferimento è un processo di poisson spaziale omogeneo. La statistica test (normale sotto l’ipotesi di aleatorietà o assenza di clustering/ordinamento) di = r G ρ distanza dell’i − esimo outlier dal suo vicino più prossimo #outlier = #spots r G Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Background adjustment Presenza di un segnale di fondo (rumore) che non è dovuto all’effettiva espressione genica Può variare da array ad array e dipenderà anche dalla calibrazione dello scanner Può variare sistematicamente all’interno dello stesso array (effetto riga e/o colonna) Come comportarsi? local/global - linear/non-linear correlazione local background - signal perequazione locale del background → globale (lineare) sottrazione o rapporto utilizzare spot di controllo Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Within-array Background Adjustment and Normalization (1) Problema evidenziato dai confronti tra le espressioni di due array della stessa condizione sperimentale (replicazioni) e.g. grafici “MA” (log-ratio vs log-average) Si pone il problema della stabilizzazione della varianza che ha comunque riflessi sulla distribuzione globale delle espressioni Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Within-array Background Adjustment and Normalization (2) Il problema della scala di misurazione: misura originaria, trasformata o ordinamento? scala originaria → scala di misurazione trasformata trasformazione logaritmica variante traslata X → log(X + c) (Sapir & Churchill, unpublished 2000; Gottardo & ... 2006) trasformazione alernativa (concava) X p (p = 1/2, 1/3) (Box-Cox) (X p − 1)/p arcsinh & glog transformation (generalized log) p X → log X + X 2 + 1 e sue varianti parametrizzate (1-2-4 parametri) q X → log (X − α) + (X − α)2 + β β > 0 (Durbin & ..., 2002; Huber & ..., 2002) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Within-array Background Adjustment and Normalization (3) 0 glog(x) 1 2 3 Confronto tra log(x) e glog(x,a) -2 -1 log(x) glog(x,0.1) glog(x,1) glog(x,2) glog(x,10) -2 0 2 4 x 6 8 10 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Within-array Background Adjustment and Normalization (4) Veri e propri modelli statistici da stimare. Utili anche per fare inferenza sul segnale non osservabile depurato dal rumore. modellizzazione di rumore/errore additivo e moltiplicativo sovrapposto ad un segnale o espressione media µ X = α + µe η + ε (Rocke & Durbin, 2001) glog transformation (generalized log) s X → log (X − α) + 2 (X − α) + σε2 Sη2 ! Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Alcuni dei metodi principali di background correction basati su local background Ammettiamo che il software restituisca per ciascun gene g = 1, ..., G due misure, di cui una di foreground XF ,g e l’altra di background XB,g . Dobbiamo rimuovere ’rumore’ introdotto da legame spurio (non specific binding) come pure possibili pattern spaziali. Correzione intuitiva: Foreground-Background oppure Foreground/Background. Può dipendere anche dal software impiegato. Possiamo ragionevolmente assumere che il background locale sia una misura non distorta del rumore ... ma ... può dar luogo ad effetti indesiderati. Potrebbe essere a sua volta misurato con errore. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Alcuni dei metodi principali di background (2) Prolemi: talvolta sorgono problemi come correzione che supera il valore misurato (XB,g > XF ,g =⇒ espressione negativa!!) [filtraggio] nel confronto di espressioni differenziali ’ventaglio’ aperto in corrispondenza dei valori bassi effetti di confondimento sulla rilevazione di espressione differenziale (sottostima) Soluzioni alternative Usare come base per l’aggiustamento il background locale ... ma non solo: metodi basati su modelli di convoluzione o di doppia locazione-scala Normexp Glog Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Domanda fondamentale Qual è la scala di misurazione ’corretta’ ? verifica linearità dell’espressione originaria e numero di molecole che trascrivono interpretabilità (logaritmi e fold change) compatibilità con le ipotesi adottate nell’analisi rinuncia alla scala → metodi non parametrici (pro e contro) Le nuove tecniche NGS nascono idealmente per risolvere questo tipo di inconveniente (ma la misurazione sebbene più diretta non sarà mai esatta) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Alcuni dettagli su NormExp Ipotesi: XF = XB + S + N X S B B = ∼ ∼ S +B exp (α) N(µ, σ 2 ) ⊥ ⊥ S (B, S) → (X , S) =⇒ (S|X ) =⇒ E (S|X ) Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Alcuni dettagli su NormExp La formula finale di trasformazione parametrica per la rimozione del background sarà E [S|X = x] = µX ·S + σ 2 fN(µX ·S ,σ2 ) (0) 1 − FN(µX ·S ,σ2 ) (0) e dipenderà dai 3 parametri della normexp stimati sui dati. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Alcuni dettagli su Glog Altrimenti un modello simile derivato dalla stabilizzazione della varianza ... Ygc ; g = 1, ..., G c = 1, ..., C Yg : E [Yg ] = mg V [Yg ] = vg = v (mg ) Ipotesi: v (mg ) = (a1 mg + a2 )2 + a3 (a3 > 0) Tibshirani, JASA 1998 =⇒ individua la trasformazione che stabilizza (approx) la varianza nel senso che h(Yg ) : V [Yg ] ≈ const Z y 1 p dm h(y ) = v (m) h(m) = γarcsinh(b0 + b1 m) ygc → h(ygc ) : Ygc = αc + gc gc ∼ N(0, τ 2 ) Alla fine se devo confrontare due condizioni sperimentali userò ĥ(Yg 1 ) − ĥ(Yg 2 ) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Alcuni dettagli su Glog (2) significato delle differenze modulazione di scala nella transizione da valori bassi a valori alti distorsione e riduzione d’impatto (shrinkage) (differenze glog sempre ≤ rispetto alle deifferenze log ovevro al cosiddetto log-fold change) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Validazione e confronto tra metodi alternativi void or ground (2001a) ffect of spike-in did not rom the hen no with a ground Ryde, n et al. variable und the of biasonstant extreme es. stimate Ritchie et al. (Bioinformatics, 2007) Comparison of background correction methods Table 1. Summary of the background correction methods considered Method Data extraction software Bg estimate Adjustment Standard Kooperberg Edwards Normexp Normexpþoffset Vsn Morph No background GenePix GenePix GenePix GenePix GenePix GenePix Spot 2.0 GenePix Subtraction Model Model Model Model Model Subtraction None Pro Pro Pro Pro Pro Pro 3.0/4.0 3.0/4.0 3.0/4.0 3.0/4.0 3.0/4.0 3.0/4.0 Pro 3.0/4.0 Local median Local mean Local median Local median Local median Local median Morph None We compare eight background correction methods (Table 1) which use different estimates for Rb and Gb and different processing methods (variants on subtraction) for removing background signal. The methods are outlined below with details in Supplementary Material. All are implemented in the backgroundCorrect function of the limma software package. The standard method can produce negative corrected Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Between-array Normalization Aspetto delicato che ha rilevanti implicazioni nelle fasi d’analisi successive Normalizzazione indipendente oppure dipendente dalle intensità (linear, smooth curve,...) A quale valore di intensità fare riferimento (mediana) Quali sono i geni (invariant set) con i quali calibrare la funzione [controllo, housekeeping, tutti, vuoti...] Quale classe di funzioni Quantile Normalization: normalizzazione basata sui quantili e sul q-q plot (a coppie) Diversi livelli di replicazione (tecniche e biologiche) e di normalizzazione Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Between-array Normalization - Pomo 0.8 0.6 0.4 0.2 0.0 Density 1.0 1.2 1.4 Raw log(Foreground/Background) Signal 0 1 2 3 N = 94928 Bandwidth = 0.02701 4 5 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Quantile Normalization Dati R array, ciascuno contnente G geni, si consideri la corrispondente matrice X di espressioni (parzialmente già pre-processate) G × R Si ordina ciascuna colonna di X per ottenere Xsort Si calcolano le medie (o le mediane) per ciascuna riga2 di Xsort e la si 0 sostituisce ad ogni elemento della riga corrispondente per avere Xsort 0 Riordinando Xsort applicando permutazioni inverse a quelle utilizzate per passare da X a Xsort , si ottiene Xnormalized . 2 N.B.#1 - nelle colonne ordinate la riga non corrisponde più ad un particolare spot, si è perso il riferimento all’unità statistica N.B.#2 - per non perdere il riferimento di ciascun valore della colonna riordinata dovrò registrare quale permutazione (order(...) in R ) ha prodotto il vettore ordinato Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Normalizzazione mediante quantili: estensioni E’ anche possibile usare un sottoinsieme di geni invarianti GI NORMALIZATION 89 of spot values across the array. In particular, this would be the case when the array contains only a few genes that have been selected on the basis of this expected response to the conditions. Qualità dell’informazione numerica e pre-processing (a) Test multipli e controllo dell’errore (b) Selezione di geni differenzialmente espressi Figure 4.9 Raw log-transformed data from two different cDNA slides from the same skin cancer experiment. The x -axes and y-axes contain the Cy3 and Cy5 values respectively. The lines in both plots correspond with the line of equality and a loess smoother through the points. Plot (a) of array 2 shows a remarkably linear dye effect, whereas plot (b) of array 1 is clearly indicative of a more complex, non-linear relationship between the dyes. Normalizzazione con curve interpolanti Two methods have been suggested to deal with intensity-dependent dye effects. The first method consists of estimating the relative dye efficiency at each intensity and subtracting it from the data. A variation of this method is discussed in the following section. The other method is sometimes called dye-swap normalization (Yang and Speed 2002). Dye-swap experiments consist in repeating a hybridization twice with the dyes swapped and averaging the expression values for each spot over the Cy3 and Cy5 channel. There are two main problems with this method. First, the dye effect tends to differ from array to array, and there is no guarantee that the method effectively removes the dye effect. Secondly, a dye-swap experiment is not the most efficient way of measuring differential expression in large designs, as was explained in Section 3.3.2. Nevertheless, if a dye-swap experiment has been performed, then averaging out expressions in the Cy3 and Cy5 channels gives some protection against under- or over-smoothing. Two words of caution are appropriate here. Whereas this intensity-dependent dye bias is well known, it might be that there are still some other effects that influence the incorporation of dye molecules onto the array. It would be essential to normalize also for these effects in order to avoid bias. At the same time, the dye bias can be confounded by other nuisance effects. In Section 6.2.3, we saw a case in which the dye effect was confounded with a spatial effect on the array. In such instances, direct application of dye normalization methods can be disastrous and, in fact, introduce bias. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Normalizzazione dell’effetto di colorazione (dye) originariamente si effettuavano correzioni globali del tipo moltiplicativo o additivo i dati spesso non supportano l’ipotesi di globalità se i canali misurano espressione di condizioni sperimentali diverse è difficile separare il segnale dal rumore e’ possibile utilizzare (se presenti) gli spot per i quali è noto (o si ritiene) che non vi sia espressione differenziale definendo dunque un insieme invariante interpolazione sulle scale naturali? (scala m-a) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Normalizzazione con curve interpolanti loess 9 6 0 7 8 log(cy3) 30000 10000 cy3 10 spline 0 10000 20000 30000 7.0 7.5 8.0 8.5 9.0 9.5 1.5 1.0 m -0.5 0.0 0.5 1.0 0.5 -0.5 0.0 m 10.5 log(cy5) 1.5 cy5 7 8 9 a 10 7 8 9 a 10 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Normalizzazione con curve interpolanti Nel caso di normalizzazione per i due canali di coibridazione (cy3, verde; cy5; rosso) si preferisce lavorare sulla scala M-A. 10 9 6 7 8 log(cy3) 1.0 0.5 -0.5 0.0 cy3=a-m/2 1.5 Raw Data 7 8 9 10 7.0 7.5 8.0 8.5 9.0 9.5 log(cy5)=a+m/2 10.5 log(cy5) 9 7 8 a - res.m/2 0.5 -0.5 0.0 m 1.0 10 1.5 Loess-Normalized Data 7 8 9 a 10 7 8 9 a + res.m/2 10 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Dipendenza tra variabili Metodi e modelli per la dipendenza tra due (insiemi di) variabili Y e X In un approccio probabilistico l’idea fondamentale è quello di comprendere la funzione di regressione f (x) = E [Y |X = x] In effetti tale funzione è la soluzione dei minimi quadrati del problema min E [(Y − f (X ))2 ] f ∈F Alternativamente Y = f (X ) + ERRORE (segnale+rumore; componente sistematica + componente accidentale) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Approcci per la regressione Vari approcci al problema di individuare una opportuna funzione f ∈ F Approccio completemente probabilistico e parametrico → Versimiglianza Approcci più ’robusti’ rispetto al modello parametrico → opportune funzioni di perdita [*] (rischio di previsione) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Interpolazione e Regressione Locale Supponiamo di avere osservato in n unità le variabili (xi , yi ) i = 1, 2, ..., n e di voler usare un criterio di ottimalità da far valere localmente, dipendente da un particolare punto x0 n X i=1 w xi − x0 h ρ (yi − f (xi , θ(x0 ))) pesi forma della funzione w (·) banda h famiglia parametrica di funzioni f (x; θ) ∈ F ←→ Θ con parametri θ = θ(x0 ) variabili, dipendenti ’localmente’ dal punto x0 funzione di perdita ρ (criterio di fit) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Regressione Locale (3) Quando la funzione di perdita ρ(e) = e 2 =⇒ criterio di fit = minimi quadrati .... ponderati per effetto di w Soluzione esplicita I valori predetti sono funzione lineare di quelli osserati Soluzione conincide con approccio probabilistico basato sulle consuete ipotesi di normalità, omoschedasticità e incorrelazione del termine di errore (rumore additivo) e sono quindi agevolati i conti espliciti per intervalli di previsione, test di ipotesi ... Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Regressione Locale Polinomiale Quando la famiglia di funzioni parametriche è del tipo polinomiale si può tentare di approssimare localmente una generica funzione f smooth con il corrispondente polinomio di Taylor del grado desiderato intorno al punto x0 pp (x; θ(x0 )) = a0 + a1 (x − x0 ) + ap a2 (x − x0 )2 + ... + (x − x0 )p 2 p! Quando la funzione di perdita ρ(e) = e 2 =⇒ criterio di fit = minimi quadrati .... ponderati per effetto di w Soluzione esplicita I valori predetti sono funzione lineare di quelli osserati Soluzione conincide con approccio probabilistico basat sulle consuete ipotesi di normalità, omoschedasticità e incorrelazione del termine di errore (rumore additivo) e sono quindi agevolati i conti espliciti per intervalli di previsione, test di ipotesi ... Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Regressione Locale Polinomiale Il fatto che la funzione viene adattata localmente f (x) ≈ p(x, θ(x0 )) di volta in volta a secondo del punto x0 giustifica la terminologia di regressione nonparametrica in quanto il numero di parametri coinvolti nella soluzione non è in realtà fissato a priori (in realtà non è neanche definita una soluzione globale) n X i=1 w xi − x0 h 2 (yi − p(xi , θ(x0 ))) In forma matriciale θ̂(x0 ) t.c. min(Y − Xx0 θ)T Wx0 (Y − Xx0 θ) θ da cui la soluzione esplicita θ̂(x0 ) = XxT0 Wx0 Xx0 −1 XxT0 Y Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Interpolazione e Regressione Locale Se guardiamo all’espressione della funzione parametrica locale stimata attraverso la precedente stima dei minimi quadrati ponderati in corrispondenza dello stesso punto x = x0 otteniamo la seguente semplificazione p(x0 ; θ̂(x0 )) = â0 + â1 (x0 − x0 ) + ... + â2 (x0 − x0 )2 + 2 âp (x0 − x0 )p = â0 = â0 (x0 ) p! Questo semplificherà l’espressione della ricostruzione del valore predetto ŷ0 = p(x0 ; θ̂(x0 )) = â0 (x0 ) che corrsiponde dunque alla prima componente del vettore delle stime dei minimi quadrati ponderati ottenuta in precedenza in corrsipondenza del sistema di pesi e del polinomio dipendenti da x0 . e precisamente ... Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore (b) 0.6 0.0 20 0.2 0.4 Tricube Weight 60 40 Prestige 0.8 80 1.0 (a) Selezione di geni differenzialmente espressi 10000 15000 20000 25000 0 10000 15000 20000 25000 Average Income (c) (d) 60 Prestige 20 40 60 40 20 Prestige 5000 Average Income 80 5000 80 0 0 5000 10000 15000 20000 25000 Average Income 0 5000 10000 15000 20000 25000 Average Income Figure 1: Local linear regression of prestige on income for the Canadian occupational-prestige data: (a) The broken lines delimit the 50 nearest neighbors of x(80) (at the solid vertical line). (b) Tricube weights for observations in the neighborhood of x(80) . (c) Locally weighted linear regression in the neighborhood of x(80) ; the solid dot is the fitted value above x(80) . (d) The completed locally linear regression, connecting fitted values across the range of x. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Interpolazione e Regressione Locale - Immagini e animazione 5 Regresione polinomiale locale - loess - Ethanol Data 0 1 2 NOx 3 4 osservato predetto w peso ww w w w ww w ww ww w ww www w ww w ww w 0.6 0.7 w www www 0.8 w w ww ww w w w 0.9 wwww wwww 1.0 w w ww www w ww ww wwwww w www w w 1.1 1.2 E 3 3 link al grafico animato: http://151.100.3.150/∼luca/RtmpMZDO44/ Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Interpolazione e Regressione Locale fˆ(x0 ) = â0 (x0 ) = (1, 0, ..., 0) XxT0 Wx0 Xx0 −1 XxT0 Y = `(x0 )T Y = n X j=1 dove 1 1 Xx0 = 1 (x1 − x0 ) (x2 − x0 ) ... ... (xn − x0 ) ... (x2 −x0 )p p (x3 −x0 )p p (xn −x0 )p p `j (x0 )yj = Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Interpolazione e Regressione Locale Se al posto di x0 consideriamo i punti xi effettivamente osservati per ongni i = 1, 2, ..., n n X `j (xi )yj ŷi = â0 (xi ) = j=1 possiamo riassumere i coefficienti dei vettori `(xi ) = (`1 (xi ), ..., `j (xi ), ..., `n (xi )) in una matrice L con generica colonna `(xi ) Ŷ = L̂Y la matrice L̂ è detta matrice hat. Ciascun punto yi viene ricostruito/predetto con un valore ŷi che dipende da un’approssimazione locale della funzione di regressione con un polinomio a coefficienti stimato intorno a (dipendenti da) xi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Stima della varianza di per uno stimatore lineare Stimatore lineare (linear smoother) in corrispondenza della matrice L Pn (yi − ŷi )2 σˆ2 = i=1 n − 2ν1 − ν2 dove ν1 = tr (L) ; ν2 = tr (LT L) = n X i=1 `i (xi )2 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Stima della varianza di per uno stimatore lineare Si può verificare che sotto opportune condizioni che controllano l’andamento di ν1 e ν2 al crescere di n lo stimatore Pn (yi − ŷi )2 σˆ2 = i=1 n − 2ν1 − ν2 è asintoticamente corretto e consistente. Le condizioni sono le seguenti: f (x) sufficientemente liscia ν1 = o(n) ν2 = o(n) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Numero di parametri equivalenti ENP = n X `i (xi )2 = ν2 i=1 Per avere una giustificazione intuitiva si pensi alla matrice L corrispondente ad un regressogramma oppure al fatto che 1 ≤ ||`(xi )||2 ≤ `i (xi )2 ≤ 1 n Ricostruiamo perfettamente il valore ŷi = yi quando `i (xi )2 = 1 (e gli altri ’pesi’ `j (xi ) uguali a 0) e staremmo usando dunque una ’funzione’ molto locale altamente parametrizzata, senza alcuna riduzione della varianza della predizione; invece ŷi = ȳ quando `j (xi )2 = 1/n i = 1, ..., n e quindi il punto viene ricostruito con una ’funzione’ molto poco locale e con una parametrizzazione molto essenziale (costante) basata su un solo peso/parametro (la media). Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Numero di parametri equivalenti Per verificare l’analogia in modo più formale si consideri la matrice di proiezione (hat) L = X (X T X )−1 X T per la quale tr (L) T tr (L L) = q = q Infatti la matrice L è idempotente e il suo rango equivale alla dimensione q dello spazio generato dalle colonne della matrice X Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Inferenza sotto ipotesi di normalità e non ... Per un generico valore x ottenere un intervallo di confidenza intorno al valore f (x) presenta alcune difficoltà dovuta all’eventuale presenza del fattore di distorsione Infatti il generico punto ricostruito dalla funzione di regressione stimata ŷ (x) = fˆ(x) viene ottenuto attraverso un vettore di coefficienti `i (x) che dipendono da x che non necessariamente producono uno stimatore corretto Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Inferenza sotto ipotesi di normalità e non ... (2) Se indichiamo con f¯(x) = E [fˆ(x)] = E [ n X i=1 `i (x)Yi ] = n X `i (x)f (Xi ) i=1 allora possiamo riscrivere fˆ(x) − f (x) sn (x) = = fˆ(x) − f¯(x) f¯(x) − f (x) + sn (x) sn (x) bias() Zn (x) + q Var [fˆ(x)] Se effettuiamo un bilanciamento ottimo tra bias e varianza per la scelta del parametro di smoothing il termine aggiuntivo può non svanire asintoticamnte producendo un intervallo distorto e quindi senza copertura effettiva. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Inferenza sotto ipotesi di normalità Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Inferenza senza ipotesi di normalità Per un singolo intervallo intorno a f¯(x) I (x) = fˆ(x) − z1−α/2 sn (x), fˆ(x) + z1−α/2 sn (x) Per n intervalli intorno ai punti Xi osservati ... si moltiplica sn (x) per una costante c (ad esempio c = z1−α/(2n) ) che tenga conto della molteplicità dei test. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Regressione Locale local regression - loess loess (inizialmente4 lo-we-s-s) [etimologia] Teoria: pesi forma della funzione w (·) ( (1 − |u|3 )3 w (u) = 0 |u| ≤ 1 |u| > 1 tricube=function(x){ (abs(x)<=1)*(1-abs(x)^3)^3 } banda h → generalizzata h(x) secondo l’idea del k-esimo vicino più prossimo h(x) = d(x, x(k),x ) ... (sparsità vs kernel; eventuale standardizzazione con predittori p-dim) famiglia parametrica di funzioni p(x; θ(x0 )) ∈ F ←→ Θ → polinomi di grado 1 o 2 funzione di perdita ρ (criterio di fit) → funzione quadratica 4 locally weighted scatterplot smoothing Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi In pratica: loess(...) ?loess Un aspetto da chiarire è come viene implementata la definizione della banda generalizzata h(x) = hα (x). In effetti tale funzione dipende da un parametro che nella sintassi di R viene indicato come span. la definizione di hα (x) dipende da α nel seguente modo: ( d(x, x(k),x ) se α < 1 hα (x) = 1 p α d(x, x(n),x ) se α ≥ 1 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Scelta del parametro di smoothing con criterio di cross-validation Leave-one-out cross validation n 1X (yi − fˆ(−i) (xi ))2 n i=1 Generalized cross validation n 1X n i=1 dove ν1 = tr (L) ˆ i) yi − f(x 1 − νn1 !2 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Regressione polinomiale locale - vantaggi/svantaggi Locale: nell’uso della fuznione di peso e nella scelta di funzioni approssimanti Generalizza la regressione basata su nucleo → che diventa un caso particolare usando polinomio di grado 0 Meno distorsione ai confini della regione osservata della variabile dipendente (in generale minore per polinomi di grado dispari) Adattività rispetto alla sparsità dei dati osservati Stimatore lineare Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Regressione penalizzata - Spline Minimizziamo rispetto ad un’ampia classe di funzioni f n X i=1 2 (yi − f (xi )) + λJ(f ) con Z J(f ) = 2 f 00 (x) dx λ coefficiente di regolarizzazione [penalizzazione di roughness] o parametro di complessità (inversa) visto che determina implicitamente quanto poco ampia/complessa è la classe di funzioni che si candidano a raggiungere il minimo come si può notare dai casi estremi λ = 0 e λ = ∞. [fedeltà/regolarità] Nei casi non estremi la soluzione è individuata in corrispondenza di funzioni polinomiali a tratti dette natural cubic splines. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Spline Dato un intervallo reale (a,b) e un insieme di punti distinti ordinati in ordine crescente interni all’intervallo ξ1 , ..., ξj , ..., ξk (nodi) a1 (x − xi1 )3 + b1 (x − xi1 )2 + c1 (x − xi1 ) + d1 ... f (x) = aj (x − xij )3 + bj (x − xij )2 + cj (x − xij ) + dj ... a (x − xi )3 + b (x − xi )2 + c (x − xi ) + d k k k k k k k con derivate prime e seconde continue (in corrsipondenza dei nodi) viene chiamata spline cubica (cubic spline). Se inoltre f (x) è lineare al di fuori dei nodi esterni allora si dice spline cubica naturale (natural cubic spline) La soluzione del precedente problema di minimi quadrati penalizzati è data da una particolare spline cubica naturale con opportuni nodi in corrsipondenza dei punti xi osservati. Viene anche detta smoothing spline. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Smoothing Splines Attraverso l’utilizzo di un’opportuna base di funzioni (famiglia delle B-splines) che riesce a decomporre una qualsiasi spline cubica naturale con k nodi nella opportuna combinazione lineare di elementi della base si può riscrivere il problema di ottimizzazione originario come problema di forme quadratiche funzioni dei coefficienti (Y − XB β)T (Y − XB β) + λβ T Ωβ con soluzione finale scritta come forma lineare delle osservazioni yi . T −1 Ŷ = LT B Y = XB (XB XB + λΩ) XB Y {z } | β̂ Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Uso della regressione locale per la normalizzazione interna ad un array Un esempio tipico è quella dei grafici MA relativi ai due canali cy3 e cy5. APO-A1 Data Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Uso della regressione locale per la rimozione/riduzione dell’effetto di distorsione spaziale Procedura suggerita in Wit & McClure (2004) usare uno smoother (e.g. loess) per adattare una curve (superficie) sulle misure di espressione affette da significativi effetti spaziali (B, F, F/B etc.) yi ∼ S(ri , ci ) =⇒ ŷi = Ŝ(ri , ci ) usando (r , c) come variabili indipendenti/regressori nei residui la componente sistematica (spaziale) è rimossa ei = yi − ŷi Per riportarla sulla scala di origine ŷSC ,i = ei + Median(y ) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Uso della regressione locale per la rimozione/riduzione dell’effetto di distorsione spaziale (2) Se vogliamo tener conto anche di eventuali effetti spaziali sulla scala si può procedere analogamente ad una misura di effetto spaziale di scala partendo da |ei | |ei | ∼ Ssc (ri , ci ) =⇒ ŝci = Ŝsc (ri , ci ) e quindi ẑi = yi − ŷi ŝci Opportune trasformazioni per riportare su scala originaria basate su Median(y ) e Median(|e|) più precisamente ŷSC ,i = ẑi · Median(|e|) + Median(y ) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Background e spot di controllo Alcuni spot (da poche unità, a centinaia o addirittura migliaia) vengono stampati con delle sequenze il cui comportamento è controllato (nullo, non-nullo) ed indipendente dalla condizione sperimentale landing lights cross-species hybridization controlli sintetici (ScoreCard by Amersham: “The Lucidea Universal ScoreCard reagents display no crosshybridization over a wide range of biological species”) spiking control kits Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Array di oligonucleotidi La tecnologia degli array di oligonucleotidi ad alta densità è stata introdotta nel lavoro di Lochart et al (1996).5 e sono prodotti con una sintesi chimica a luce diretta. Ogni gene è rappresentato da un insieme di sonde (probe set), tipicamente da 11 a 20 Ogni probe contiene 2 sequenze di 25 oligonucleotidi, dette probe pairs (PM,MM); PM perfect match si appaiano perfettamente con il segmento di gene considerato; MM mismatch sono identiche a PM fatta eccezione per un singolo mismatch. In condizioni ideali, se un gene è espresso in un campione di cellule, i relativi PM dovrebbero presentare un’elevata intensità mentre i MM corrispondenti più bassa intensità. 5 Lockhart D.J., et al. Expression monitoring by hybridization to high-density oligonucleotide arrays. Nat Biotechnol. 1996, 14(13):1675-80. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Implementation of mas 5.0 algorithms Simpleaffy provides a fast, C implementation of the mas 5.0 expression algorithm. As with any re-implementation of an algorithm, variat amount of testing (testing.html) to see how close simpleaffy gets to the values generated by Affymetrix's implementations. You should doubt, use MAS5.0 or GCOS to generate your expression calls. Definitive descriptions of the algorithm can be found in: 1. Hubbell E, et al. (2002) Robust estimators for expression analysis Bioinformatics. 18(12):1585-92. 2. Affymetrix (http://www.affymetrix.com) ' whitepaper, Statistical algorithms description document and we've also written a more informal description based on these, which can be found below... The Affymetrix mas 5.0 expression summary algorithm Before considering the algorithm, you should b works. The job of the expression summary alg and Mis-Match (MM) probes, and use these estimated amount of transcript in solution, as m To do this, .DAT files containing array images which contains measured intensities for each p analysed by the expression calling algorithm. Not only do arrays contain PM and MM spots designed to measure transcript levels, they also contain a series of control spots that, for help the image analysis software align the array properly. These spots are not considered by the analysis algorithm and are simply ignore Background correction The first step is to correct the array for background signal, by calculating the background level for each spot and subtracting it. The array is divided into a set of regions (by default, 4x4) and the average background calculated for each zone. This is the mean intensity of the lowest 2% of the spots in each region. Although dividing the array into different regions allows different parts of the chip to have different backgrounds, simply using these would result in discontinuities between each grid Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore (cont) PM-MM → probe set; Affymetrix: chip di silicone; Bead-based arrays: oligonucleotidi su fibre ottiche. Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Affymetrix: dal chip ai dati milioni di molecole di una particolare sonda sono posizionate su un are di 400µm2 del chip; l’immagine viene processata da uno scanner Affymetrix ed ogni sonda viene rappresentata da circa 100 pixels una specifica zona dell’immagine: il software di analisi dell’immagine, produce 2 tipi di files: CEL che contiene la media, la deviazione standard e la locazione di tutte le sonde; CDF che contiene le informazioni realative ai geni e alla locazione delle sonde sul chip. I valori di tutte le sonde vengono sintetizzati restituendo all’utente finale una singola misura di espressione per ogni gene. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi NORMALIZATION Table 4.5 Affymetrix data information files. Data files *.exp *.dat *.cel *.chp *.rpt experimental information file image file probe intensity file gene intensity file report file Probe information files *.cif *.cdf *.msk chip information file chip description file mask file ap from the probes to the gene names is needed. This information is stored e CDF file. Unless different GeneChip types were used, only one CDF file is ed for an experiment that consists of several arrays. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Estrazione della misura di espressione Interveniamo in due diversi livelli: segnale di ciascuna singola probe → eventuale preprocessing per rimuovere il background locale usando i MM segnale di ciascun probe set Diverse opzioni per rimuovere il rumore di background: Sgj = PMgj − pMMgj (p ∈ [0, 1] ad hoc) + MAS 4.0 AvDiffg (media trimmed di PM-MM) oppure + MAS 5.0 Media robusta (Tukey biweight) Sgj = log (PMgj /MMgj ) Sgj = max{PMgj − Īempty , 0} correzione probabilistica basata su modello (RMA [add. su scala log] Irizarry et al. rma, normexp simile a MBEI [molt] Li & Wong) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Estrazione del segnale per la singola probe - aspetti critici Se MMgj è misurato con errore non rischiamo di compromettere la rilevazione del segnale usando MMgj − PMgj ? ( ... dipende ...) Se la presenza di un solo nucleotide di differenza in MMgj non previene dall’ibridarsi possiamo perdere interamente il segnale Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Correzione del background probabilistica Y=B+S B: segnale dovuto al background S: segnale dovuto ad un legame specifico Y: segnale osservato E [S|Y ] Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Estrazione del segnale per il gene/probe set) Per dati di tipo Affymetrix, il livello di espressione non è direttamente misurato ma ottenuto combinando PM e MM. PMgj e MMgj perfect match and mismatch per il gene/(probeset) g (g = 1, ..., G ) e probe j (j = 1, ..., mg ); mg : numero di sonde (probe) per gene/probe-set g ; .... inizialmente non si era tenuto conto del possibile bias introdotto mappando vicine sull’array le probe dello stesso probe set Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Correzione del background a livello di singola probe (pair) MMgj possono essere utilizzati per aggiustare i PMgj per depurare il segnale specifico dall’errore: Ygj = PMgj − MMgj Ygj misura del livello di ibridazione del gene g del probe i. Il segnale Sgj può essere quindi valutato come Sgj = Ygj . Problemi quando MMgj > PMgj . Oppure si può usare la scala logaritmica Ygj = log(PMgj /MMgj ) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Correzione del background: II Tuttavia può accadere che Ygj = PMgj − MMgj < 0 MMgj dovrebbe essere aggiustato mediante un valore ideal IMgj (ideal mismatch value) tale che 0 < IMgj < PMgj Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Correzione del background: III Irizarry et al. (2002): la moda di log MMgj come stimatore naturale del background (globale)6 log (PMgj ) − mode(log (MMgj )) 0 −4 −2 log2(PM/MM) 2 4 a) log2(PM/MM) Histograms by log2(PMxMM) 0.0 0.2 0.4 0.6 0.8 1.0 log2(PMxMM) quantile c) medium (25−75%) abundance 0 0 5000 5000 10000 10000 15000 15000 20000 b) low (0%−25%) abundance −5.7 −5.1 −4.4 −3.8 −3.1 −2.5 −1.8 −1.2 −0.5 0.2 0.8 1.5 2.1 2.8 3.4 4.1 4.7 5.4 −5.7 −5.1 −4.4 −3.8 −3.1 −2.5 −1.8 −1.2 −0.5 0.2 0.8 1.5 2.1 2.8 3.4 4.1 4.7 5.4 2.8 3.4 4.1 4.7 5.4 e) very (95%−100%) high abundance 0 0 500 200 1000 1500 400 2000 2500 600 3000 3500 800 d) high (75%−95%) abundance −5.7 6 vedi Fig. 5, Irizarry et al (2003) −5.1 −4.4 −3.8 −3.1 −2.5 −1.8 −1.2 −0.5 0.2 0.8 1.5 2.1 2.8 3.4 4.1 4.7 5.4 −5.7 −5.1 −4.4 −3.8 −3.1 −2.5 −1.8 −1.2 −0.5 0.2 0.8 1.5 2.1 Figure 1: a) Histograms of log ratio log2 (PM/MM), stratified by quantiles of abundance, √PM log2 × MM, with gray scale representing height of histogram (light grays are high and dark grays are low) for one array from the mouse data set. The histograms have been scaled so that the mode of each histogram is represented with the same gray scale. b) Histogram of log ratios for first quartile of abundance with the histogram for the defective probes represented by a darker gray. c) Like b) for abundance values between first and third quartile. d) Like b) for abundance values in the last quartile excluding the highest 5 percent. e) Like b) for the highest 5 percent of abundance. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Misura di espressione del gene/probeset Il segnale Sg per il gene g può essere misurato come Pmg Pmg (PMgj − MMgj ) Ygj Sg = i=1 = i=1 mg mg Per oviare ai problemi di outlier → in MAS 4.0 AvDiff accorgimenti ad hoc per le differenze negative e la media era ristretta alle sole probe i che non eccedevano di 3 volte lo scostamento quadratico medio calcolato rimuovendo i due estremi in MAS 5.0 2 varianti: uso della trasfromazione logaritmica per le differenze e stimatore robusto della locazione (Tukey biweight, stimatori M [Huber, 1981]) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Misura di espressione del gene/probeset II Irizarry et al. (2003): la moda di MMgj come stimatore background globale Pmg i=1 log (PMgj − mode(log (MMgj ))) Sg = exp mg Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Correzione del background: approccio basato sul modello Li and Wong (2001)7 propongono un approccio basato sul modello. Indichiamo MMij e PMij i MM e PM per l’array i e la sonda j for un gene fissato. Il modello proposto è il seguente: MMij = νj + θi αj + PMij = νj + θi αj + θi φj + 7 Li, C. and Wong, W. (2001). Model-based analysis of oligonucleotide arrays: Expression index computation and outlier detection. Proceedings of the National Academy of Science U S A 98, 31–36. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Li and Wong (2001) MMij = νj + θi αj + PMij = νj + θi αj + θi φj + νj : effetto della sonda j-ma dovuta a ibridazione non specifica; θi : effetto gene nell’array i-mo; αj : tasso di crescita dei MM per la sonda j−ma; φj : tasso di crescita aggiuntivo dei PM per la sonda j−ma. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Li and Wong (2001) (cont) Una formulazione equivalente del modello è la seguente: Yij = PMij − MMij = θi φj + ij dove θi : vero segnale φj : effetto probe ij : errore dove ij ∼ N(0, σi2 ) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Li and Wong (2001) (cont) Il modello Yij = PMij − MMij = θi φj + ij è identificato sole se vengono aggiunti alcuni vincoli. Li e Wong (2001) propongono X φ2j = J j dove J è il numero di sonde. La stima del modello è effettuata mediante il metodo di massima verosimiglianza o dei minimi quadrati. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Variante in Irizarry (2003) ˜ gj = θg + φj + gj log PM θg : effetto gene g φj : effetto della sonda j-ma P Usuali vincoli di identificabilità j φj = 0 Uso di repliche biologiche e stima robusta dei parametri del modello ANOVA (median-polish) → RMA Robust Multi-array Average (rma) ˜ gjk = θgk + φjk + gjk log PM Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi R per l’analisi di dati Affymetrix Pacchetto affy Analisi dei dati più dettagliata (probe-level data) Importazione di dati in formato CEL: CEL <- read.celfile(filename.cel) Importazione di dati in formato CDF: CDF <- read.cdffile(filename.cdf) Visualizzazione dell’immagine: image() File Plob: combina le informazioni della classe CEL e CDF Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Un caso di studio: Dilution 2 cRNA A (cellule di fegato umano) e B (cellule del sistema nervoso) sono state ibridizzate su un array umano (HGU95A) con 2 diverse proporzioni. 20A e 20B : 2 replicazioni della concentrazione 20; 10A e 10B: 2 replicazioni della concentrazione 10; Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Un caso di studio: Dilution I dati sono contenuti nel pacchetto affy. library(affydata) data(Dilution): carica i dati pm(Dilution) e mm(Dilution) exprs(Dilution): matrice delle espressioni di dimensione #sonde × #array library(affyPLM) fitPLM(Dilution) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi RMA e AffyPLM 2.4.2 RMA style PLM These are variations of the RMA model each consisting of models with chip and pr effects . The first, PM ∼ -1 + samples + probes, is the default model used whe model is specified in the fitPLM call. Model yij1 = βj + αi + ij yij1 = µ + βj + αi + ij yij1 = βj + ij yij1 = µ + βj + ij yij2 = βj + αi + ij yij2 = µ + βj + αi + ij yij2 = βj + ij yij2 = µ + βj + ij 2.4.3 fitPLM syntax PM ∼ -1 + samples + probes PM ∼ samples + probes PM ∼ -1 + samples PM ∼ samples MM ∼ -1 + samples + probes MM ∼ samples + probes MM ∼ -1 + samples MM ∼ samples PLM with chip-level factor and covariate variables These models use treatment variables as an alternative to sample effects for the level factors. Model yij1 = xTj θ + αi + ij T fitPLM syntax PM ∼ -1 + treatment + trt.cov + probes Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Robust M-estimate -6 -4 -2 0 2 4 6 w LS(e) -6 -4 -2 e 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0 5 0 ψLS(e) -10 -5 15 0 5 ρ LS(e) 25 10 35 Least Squares 6 -6 -4 -2 e 0 2 4 6 2 4 6 2 4 6 e -6 -4 -2 0 2 4 6 w H(e) -6 -4 -2 e 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0 1.0 0.0 ψH(e) -1.0 ρ H(e) 0 1 2 3 4 5 6 7 Huber 6 -6 -4 -2 e 0 e w B(e) -1.0 0 -6 -4 -2 0 2 4 6 e -6 -4 -2 0 2 4 6 0.0 0.2 0.4 0.6 0.8 1.0 0.0 ψB(e) 2 1 ρ B(e) 3 1.0 Bisquare -6 -4 -2 e 0 e Figure 1: Objective, ψ, and weight functions for the least-squares (top), Huber (middle), and bisquare (bottom) estimators. The tuning constants for these graphs are k = 1.345 for the Huber estimator and k = 4.685 for the bisquare. (One way to think about this scaling is that the standard deviation of the errors, σ, is taken as 1.) Method Objective Function Weight Function Least-Squares ρ (e) = e2 wL S (e) = 1 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Analisi esplorativa: qualità dei dati In molte applicazioni, l’obiettivo è quello di confrontare il livello di espressione in diverse condizioni sperimentali. Tuttavia le differenze nei segnali osservati possono essere dovute ad altre fonti di variabilità introdotte nelle varie fasi dell’esperimento: preparazione del campione biologico; preparazione dell’array; labeling, ibridizzazione e scanning; .... Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Qualità dei dati: variabilità tra array I diversi array di una stessa condizione sperimentale sono replicazioni e pertanto dovrebbero essere simili. Boxplot di ogni array → quantili simili MVA plot: → punti intorno alla retta orizzontale in 0 PM1 M = log2 PM √ 2 A = log2 PM1 − PM2 dove PM1 e PM2 rappresentano le intensità di una stessa sonda (probe) per array 1 e array 2. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Esperimenti comparativi Partiamo dall’esempio più semplice in cui ci sono 2 condizioni sperimentali che si vogliono mettere a confronto con esperimenti condotti con microarray. La domanda è: quali geni sono differenzialmente espressi nelle due condizioni? (geni interessanti, attivi, differenzialmente espressi, (sovra/sotto)-regolati) Possibili approcci 1 Si può rispondere guardando al singolo gene ed impostando un problema di verifica di ipotesi facendo attenzione al disegno sperimentale adottato (dual-channel vs single-channel). Si deve replicare la procedura su ciascuno dei geni considerati 2 Si può impostare un modello (mistura) in cui l’espressione differenziale deve essere stimata come quantità nulla o non-nulla Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Confronto tra due gruppi: strumenti Facciamo una ricognizione degli strumenti metodologici principali: verifica di un’ipotesi per il confronto tra due gruppi verifica di molte ipotesi per il confronto tra due gruppi (→ molteplicità) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Test d’ipotesi per un parametro di espressione differenziale ∆g = µ1,g − µ2,g bipartizione dello spazio parametrico (non del tutto scontata) regola di decisione (accettazione/rifiuto) consegunze di errate decision → errori → garanzie (parziali, probabilistiche) statistica test distribuzione sotto l’ipotesi nulla strumenti equivalenti/alternativi: i) statistica test e soglie; ii) statistica test e p-value (falsificazione, asimmetria, accettazione alternativa ...) Interpretazione del p-value Significatività statistica 6= significatività biologica Significatività alla Neyman e Pearson ; Significatività pura alla Fisher Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Confronti tra due gruppi Inizialmente affidati alla misurazione del fold-change, di ciascun gene, ma ben presto sostituiti da veri e propri test statistici test parametrici sotto l’assunzione di normalità statistiche test, distribuzione sotto H0 , p-values e regole di decisione tipi di errore e controllo degli errori validità delle ipotesi distributive, diagnostiche, robustezza e modifiche alle statistiche test test non parametrici (esatti ed asintotici) pro e contro Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Test parametrici sotto l’assunzione di normalità Xg ,c,rc ∼ N µg ,c , σ 2 Per un gene fissato g (g = 1, ..., G ) guardo al singolo gene 2 condizioni sperimentali c=1,2 per le quali ho osservato n1 e n2 replicazioni Statistica test: Student’s T tg = x̄g ,1 − x̄g ,1 q sg n11 + n12 sotto le ipotesi date .... ha distribuzione Tn1 +n2 −2 Controllo l’errore nel test basato sulla statistica test Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Test parametrici sotto l’assunzione di normalità Xg ,c,rc ∼ N µg ,c , σ 2 Ci riferiamo al p-value pg = 2Pr {Tg ≥ |tg |; } = Pr {|Tg | ≥ |tg |; } che (considerando tg come aleatorio) ha distribuzione uniforme sotto l’ipotesi nulla che µg ,1 = µg ,2 In alcune circostanze ci interessa sottoporre a verifica l’ipotesi che l’espressione differenziale media µg ,1 − µg ,2 sia superiore (inferiore) ad una soglia prefissate ∆ Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Statistica T di Satterthwaite Welch x̄g ,1 − x̄g ,1 tg = q 2 sg ,1 sg2,2 n1 + n2 Approssimativamente distribuito come Tν con ν= 2 sg2,1 sg2,2 + n1 n2 2 2 2 s2 g ,1 n1 n1 −1 s + g ,2 n2 n2 −1 anche quando le varianze non sono uguali la distribuzione sotto l’ipotesi nulla è approssimativamente Tν più robusta sotto H0 ma perde in termini di potenza sotto H1 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Definizione generale di p-value Si consideri una procedura di verifica di ipotesi determinata dalla regione di rifiuto Rα corrsipondente ad un prefissato livello di probabilità α di commettere un errore di I specie. Assumiamo che per tale procedura valga la relazione Rα ⊆ Rα0 per ogni α ≤ α0 . Si può definire in generale, in corrispondenza di un determinato campione Xobs il p-value come p(Xobs ) = inf {α : Xobs ∈ Rα } ovvero la più piccola probabilità di commettere errori di prima specie che possiamo considerare in un test in modo tale che il test condotto con i dati osservati Xobs stabilisca il rifiuto dell’ipotesi nulla. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Procedure che aggirano l’ipotesi di normalità E’ poco realistico pensare che l’ipotesi di normalità possa essere valida in corrispondenza di tutti i geni g = 1, ..., G ovvero che valga l’approssimazione del TLC ... Quali alternative? Test di randomizzazione e di permutazione Ricampionamento e bootstrap Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Test di randomizzazione e di permutazione Scambiabilità, invarianza rispetto a permutazioni (di ordine, di etichetta,...) Test esatti, talvolta solo idealmente ma approssimati con metodo Monte Carlo Possiamo usare statistiche arbitrarie Problemi in caso di distribuzioni con varianza diversa (preferibile bootstrap) Il test di Wilcoxon (Mann-Whitney) è un test di permutazione/randomizzazione Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Principio dei test di permutazione I test di permutazione si basano sul principio che per rappresentare un’ipotesi nulla di riferimento in un’analisi comparativa (due condizioni) con assenza di effetti differenziali le osservazioni possano essere scambiabili enumerazione di tutte le possibili permutazioni delle osservazioni ed ottenimento della distribuzione sotto l’ipotesi nulla (test esatti) nel caso l’enumerazione e la lista completa sia computazionalmente proibitiva si procede a campionarne un sottoinsieme (test di permutazione approssimato) Attenzione. Il test di permutazione con tale ipotesi rileva come violazione dell’ipotesi nulla anche quelle situazioni in cui le due distribuzioni hanno in realtà media uguale ma distribuzione intorno ad essa diversa. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Test di Wilcoxon Basato sulla statistica test somma dei ranghi (rank sum) Wg = n1 X Rank(xg ,1,r1 ) r1 =1 e sulla distribuzione sotto l’ipotesi nulla che l’ordine sia irrilevante e quindi i ranghi siano casualmente distribuiti in modo uniforme, ovvero in cui ciascuna permutazione è equiprobabile Distribuzione esatta per valori piccoli di n1 e n2 Altrimenti approssimazione normale Wg − q n1 (n1 +n2 +1) 2 n1 n2 (n1 +n2 +1) 12 ≈ N(0, 1) Altrimenti ancora approssimazione Monte Carlo Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Ricampionamento e Bootstrap per la verifica d’ipotesi Filosofia: ricampionare dalla distribuzione empirica condizionando ai gruppi ove opportuno + Non richiede assunzioni parametriche, praticamente funziona con qualsiasi distribuzione + Facilmente implementabile ed adattabile a diverse statistiche test + Risultati di validità asintotica. - Nessuna garanzia di controllo per campioni di dimensione finita. - Tempi di elaborazione - Ipotesi di indipendenza delle osservazioni (varianti) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Ricampionamento e Bootstrap Ricampionando X1b , ..., Xnb con Xib ∼ Fn e calcolando T b = T (X1b , ..., Xnb ) per b = 1, ..., B (B ripetizioni bootstrap) otteniamo B la distribuzione bootstrap FˆT come distribuzione empirica dei B valori simulati T 1 , ..., T b , ..., T B Per l’approssimazione della distribuzione campionaria fT (t; F ) di una statistica di interesse T = T (X1 , ..., Xn ) con X1 , ..., Xn i.i.d Xi ∼ F Per il calcolo della distorsione di uno stimatore ed eventuale correzione Per il calcolo dell’errore standard dello stimatore Per il calcolo di intervalli di confidenza per parametri di interesse Per procedure di verifica di ipotesi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Ricampionamento e Bootstrap Alcuni problemi di approssimazione (distorsione) quando la distribuzione bootstrap presenta evidenti caratteristiche di asimmetria Diverse possibilità per correggere/limitare il problema (BCa ) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Il problema della molteplicità dei test Consideriamo contemporaneamente i seguenti sistemi di ipotesi: ( H0g : il gene g non è differenzialmente espresso H1g : il gene g è differenzialmente espresso g = 1, 2, ..., G Non Expressed Expressed TOT Non Discovery TN FN N =G −D Discovery FP TP D Tot G0 G1 G Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Il problema della molteplicità dei test (2) Qual è il numero atteso di falsi positivi FP ? Qual è la probabilità che su un numero G di test indipendenti tra loro si verifichi almeno un falso positivo? Perdita di significato del controllo dell’errore (I specie) nei test multipli → aggiustamenti Prima di considerare modi alternativi di affrontare la questione della molteplicità ricordiamo l’inevitabile trade-off (significatività-potenza, sensibilità-specificità, false discovery-false nondiscovery, test conservativo e test potente). ricordiamo anche la differenza tra impostazioni Freq./Bayes. Questioni filosofiche e suggerimenti pragmatici distinguere il ruolo esplorativo da quello confermativo pre-selezione dei geni (gene filtering) da sottoporre a verifica informazioni accessorie sul ruolo e le funzioni dei vari gruppi di geni Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Principali nozioni, indicatori e strumenti per il controllo della molteplicità Do un singolo outcome binario (funzione test) a un outcome multiplo binario per il quale vogliamo formalizzare delle nozioni alternative di tasso di errore (sintesi) PFER ≥ FWER ≥ FDR ≥ PCER Altri criteri: EER, k − FWER e FDX (p) Controllo debole e forte (H0G e H0 1GΛ ), esatto (sharp e non) e asintotico Limiti di validità delle ipotesi sulla distribuzione congiunta dei p-values e/o delle statististiche test Procedure single step e procedure stepwise, (step down, step up). Le procedure step up tipivamente più liberali rispetto a quelle step-down. Si considerano le ipotesi in modo sequenziale usando come criterio l’ordinamento dei p-value Controllo di un criterio d’errore, aggiustamento delle soglie di errore, delle regioni di rifiuto ed aggiustamento dei p-value Scala di misurazione e significato dei p-value aggiustati e non Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Principali nozioni, indicatori e strumenti per il controllo della molteplicità (2) PFER ≥ FWER ≥ FDR ≥ PCER ER = E [FP +FN ] G PFER = E [FP ] FWER Pr {FP ≥ 1} FDR FDR = E PCER = E [FP ] G FP FP ID>0 = E D > 0 Pr {D > 0} D D Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Relazioni d’ordine Notare che 0 ≤ FP ≤ D ≤ G Inoltre, D = 0 =⇒ FP = 0 e quindi FP FP ≤ ID>0 ≤ IFP >0 ≤ FP ≤ FP + FN G D Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi La distribuzione congiunta delle statistiche test o dei p-value è rilevante per FWER e FDR (e.g. dipendenza per FDR è rilevante in particolare la distribuzione anche sotto le ipotesi alternative =⇒ è più difficile da studiare Dipendenza dalla frazione GG0 e coincidenza di FDR con FWER quando GG0 = 1 (i.e. G, complete null) MULTIPLE HYPOTHESIS TESTING 77 F IG . 2. Type I error rates, simple example. Plot of Type I error rates versus individual test size α, for different proportions of true null hypotheses, m0 /m = 1, 0.9, 0.5, 0.1. The model and multiple testing procedures are described in Section 2.2. The number of hypotheses is m = 100 and the parameter d was set to 1. FWER: red curve; FDR: blue curve; PCER: green curve. La quantità aleatoria chiave sarà FDP = FDP ID>0 . Qualche volta FDP viene indicato come (denominato) FDR. Nella nostra accezione sarà invece FDR = E [FDP]. would just be rejected, given the values of all test statistics involved (Hommel and Bernhard, 1999; Shaffer, 1995; Westfall and Young, 1993; Wright, 1992; Yekutieli and Benjamini, 1999). If interest is in controlling the FWER, the adjusted p-value for hypothesis Hj , given a specified multiple testing procedure, is p̃j = inf{α ∈ [0, 1] : Hj is rejected at nominal FWER = α}, where the nominal FWER is the α-level at which the specified procedure is performed. The corresponding random variables for unadjusted and adjusted p-values are denoted by Pj and P̃j , respectively. Hypothesis Hj is then rejected, that is, gene j is declared differentially expressed at nominal FWER α if p̃j ≤ α. Note that for many procedures, such as the Bonferroni procedure described in Section 2.4.1, the nominal level is usually larger than the actual level, thus resulting in a conservative test. Adjusted p-values for procedures controlling other types of error rates are defined similarly, that is, for FDR controlling procedures, p̃j = inf{α ∈ [0, 1] : Hj is rejected at nominal FDR = α} (Yekutieli and Benjamini, 1999). As in the single hypothesis case, an advantage of reporting adjusted p-values, as opposed to only rejection or not of the hypotheses, is that the level of the test does not need to be determined in advance. Some multiple testing procedures are also most conveniently described in terms Altre misure di controllo sono basate su quantili ovvero probabilità di FDP estremi (FDX (k) = Pr {FDP > k}). Nozioni speculari per valutare globalmente il tasso di errore di tipo falso negativo ovvero la potenza complessiva in un test multiplo Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: Family-Wise Error Rate Metodi di controllo: Bonferroni (single step) t = α/G √ Sidak (single step) t = 1 − G 1 − α Westfall & Young min p e max T (single step) step down - Holm [Bonferroni] p(g ) < tg = α/(G − g + 1), √ p(g ) < tg = 1 − G +g +1 1 − α step up - Hochberg [Simes] step down (+min P +max T ) Westfall-Young. Basata sulle distribuzioni Fp,r del minimo degli ultimi r = G − g + 1 (rimanenti) p-value a partire dall’indice che individua il g -esimo p-value W&Y min P (single step) = Sidak sotto G e indipendenza altrimenti approssimato per simulazione Sidak, indipendenza e condizione di Sidak valida per alcune distribuzioni multivariate min P + pesante computazionalmente, più conservativo, coincide con max T quando c’e’ identica distribuzione di Tj Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: Bonferroni Controllo forte del FWER valido sotto qualunque ipotesi distributiva: Disuguaglianza Aggiustamento del livello di significatività del test singolo αgADJ = α G Aggiustamento della regione di rifiuto del test singolo Aggiustamento del singolo p-value pgADJ = G · pg Interpretazione del p-value aggiustato Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: Sidak Controllo debole del FWER valido solamente sotto l’ipotesi di distribuzione congiunta delle statistiche test a componenti indipendenti Disuguaglianza Guadagno limitato in termini di liberalità nel rifiuto delle ipotesi nulle rispetto a Bonferroni Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: Holm Procedura step down che si basa sulla considerazione dei p-value ordinati p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G ) Dichiara significativi i test con valore p(g ) per ogni g ≤ gα∗ dove gα∗ è il più grande intero che soddisfa p(j) ≤ α G −j +1 ∀j ≤ g Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: Holm Procedura step down che si basa sulla considerazione dei p-value ordinati p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G ) Dichiara significativi i test con valore p(g ) per ogni g ≤ gα∗ dove gα∗ è il più piccolo intero che soddisfa pgα∗ +1 > α G − gα∗ Se tale gα∗ non esiste allore la procedura non rifiuta alcuna ipotesi nulla Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: Holm - p-value aggiustati Procedura step down che si basa sulla considerazione dei p-value ordinati p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G ) Può essere anche definita attraverso i p-value aggiustati pgADJ = max(G − j + 1)p(j) j≤g Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Alcune considerazioni utili sulle statistiche d’ordine (1) Sulle notazioni: Attenzione: pg non necessariamente corrisponde a p(g ) . Si considerino G valori p1 , ..., pG e i corrispondenti valori ordinati p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G ) In effetti al generico indice originario g corrisponde la statistica d’ordine p(r (g )) dove la notazione r (g ) indica la posizione in classifica (rank) secondo l’ordinamento non decrescente del valore pg Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Alcune considerazioni utili sulle statistiche d’ordine (2) Per le dimostrazioni: Valgono le seguenti implicazioni: 1 2 Se p(g ) ≤ M allora (=⇒) vi sono almeno g tra i valori originari p1 , ..., pG tali che pj ≤ M per ogni j ovvero esiste un sottoinsieme F ⊂ G tale che |F| ≥ g pj ≤ M Se esistono g0 valori pj > M ovvero un sottoinsieme F ⊂ G di cardinalità |F| = g0 tale che pj > M ∀j ∈ F allora p(G −g0 +1) > M Qualità dell’informazione numerica e pre-processing Infatti Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: principio di chiusura Supponiamo che esista una procedura (locale) che per ogni sottoinsieme I ⊂ {1, 2, ..., G } garantisce il controllo debole dell’errore (FWER) sotto l’ipotesi nulla completa (locale) \ H0I = Hg = H0,g g ∈I Il principio di chiusura afferma che la procedura che si basa sulle procedure locali e che per ogni I decide di rifiutare Hg solo se vengono rifiutate con le corrispondenti procedure locali le ipotesi in I con g ∈ I . Analogamente si rifiutano tutte le ipotesi in I 0 quando vengono rifiutate con le corrispondenti procedure locali le ipotesi in I per ogni I 0 ⊂ I . Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: Hochberg Procedura step up che si basa sulla considerazione dei p-value ordinati p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G ) Dichiara significativi i test con valore p(g ) per ogni g ≤ gα∗∗ dove gα∗∗ è il piu grande intero che soddisfa p(g ) ≤ α G −g +1 8 8 Derivabile di Simes sfruttando il principio di chiusura da una generalizzazione dell’identità Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: Hochberg - p-value aggiustati Procedura step up che si basa sulla considerazione dei p-value ordinati p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G ) Può essere anche definita attraverso i p-value aggiustati pgADJ = min(G − j + 1)p(j) j≤g Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: Westfall & Young - min-P Si usano test di permutazione (congiunti) per garantire il controllo in senso debole del FWER sotto l’ipotesi nulla globale usando come statistica test una funzione di tutte le statistiche test, in particolare min g ∈{1,2,...,G } pg Una procedura single-step siffatta controlla FWER in senso debole ovvero sotto H0G Da questa si può derivare una procedura step-wise con controllo in senso forte usando i seguenti p-value aggiustati ADJ p(g ) = max πg j≤g dove πg = PH G 0 min Pj ≤ p(g ) j∈Og Og = {og , og +1 , ..., N} e og è l’indice originario del g -esimo p-value (in ordine non decrescente) pog = p(g ) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Subset Pivotality Il controllo debole è definito in corrispondenza dell’ipotesi che tutte le H0g sono vere. Si parla invece di controllo forte quando è possibile garantire il tasso di errore qualsiasi sia l’insieme delle ipotesi H0g che sono vere g ∈ GΛ Per ottenere il controllo in senso forte delle procedure min-P e max-T si assume la condizione di subset-pivotality che richiede che la distribuzione dei p-value {pg }g ∈GΛ sia la stessa sotto {H0g }g ∈GΛ e sotto {H0g }g ∈G Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: Westfall & Young - min-P Relazione con procedura di Holm: L’ipotesi g è rfiutata se il p-value aggiustato di Holm maxj≤g (G − j + 1)p(j) ≤ α Dalla definizione di πg X πg ≤ PH G (Pj ≤ p(g ) ) = (G − g + 1)p(g ) 0 jinOg si ha che se il p-value aggiustato di Holm è limitato da α allora anche πg ≤ α e quindi anche la procedura min-P di Westfall e Young rifiuta. Dunque W&Y rifiuta più spesso. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FWER: Westfall & Young – max-T Si usano test di permutazione (congiunti) per garantire il controllo in senso debole del FWER sotto l’ipotesi nulla globale usando come statistica test una funzione di tutte le statistiche test, in particolare max g ∈{1,2,...,G } Tg Una procedura single-step siffatta controlla FWER in senso debole. Da questa si può derivare una procedura step-wise con controllo forte usando i seguenti p-value aggiustati ADJ p(g ) = max πg j≤g dove πg = P max Tj ≥ t(g ) j∈Og e Og = {og , og +1 , ..., N} e og è l’indice originario del g -esimo p-value (in ordine non decrescente) pog = p(g ) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FDR: Benjamini & Hochberg Procedura step up che si basa sulla considerazione dei p-value ordinati p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G ) Dichiara significativi i test con valore p(g ) per ogni g ≤ gα∗ dove gα∗ è il piu grande intero che soddisfa p(g ) ≤ Graficamente .... gα G Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi FDR: Benjamini & Hochberg Procedura step up che si basa sulla considerazione dei p-value ordinati p(1) ≤ p(2) ≤ ... ≤ p(g ) ≤ ... ≤ p(G −1) ≤ p(G ) Dichiara significativi i test con valore p(g ) per ogni g ≤ gα∗ dove gα∗ è il piu grande intero che soddisfa p(g ) ≤ gα G BH dimostrano che la procedura garantisce FDRBH ≤ G0 α G Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore confronto tra BH e Hochberg set.seed(350) par(mfrow=c(1,2)) alpha=0.05 G=100 x=seq(1,G) plot(x,alpha*x/G,ylim=c(0,0.2),type="l") points(x,alpha/(G-x+1),col="red",type="l") p=runif(G) points(x,sort(p),pch=16) p=rbeta(G,1,23) points(x,sort(p),pch=16,col="blue") plot(x,alpha*x/G,ylim=c(0,0.05),type="l",xlim=c(0,50)) points(x,sort(p),pch=16,col="blue") Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi p-FDR: Positive False Discovery Rate Approccio seguito da Storey (JRSS B 2002, AS 2003) FP FP ID>0 = E FDR = E D > 0 Pr {D > 0} D D FP p − FDR = E D > 0 D la definizione condizionata a D > 0 è meno ovvia, ma produce dei vantaggi in termini di interpretazioni alternative ed approcci alternativi per il controllo + si potrebbe argomentare che il caso D = 0 è poco interessante + quando ci si attende quasi certamente almeno un gene interessante Pr {D > 0} ≈ 1 le nozioni coincidono + banalmente vale FDR ≤ p − FDR e dunque il controllo del secondo garantisce anche il primo - in effetti se G = G0 si avrebbe FP = D e quindi il controllo d’errore basato sulla nozione proposta non sarebbe attuabile (in senso classico)! Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi p-FDR: Positive False Discovery Rate Cambiamo in parte prospettiva ed immaginiamo un contesto un in cui non solo i test multipli avvengano secondo una distribuzione congiunta ma anche le ipotesi siano probabilizzate. Si assumono ipotesi Hg ∈ {H0g , H1g } secondo una legge i.i.d. di Bernoulli con probabilità π0 = Pr {Hg = H0g }. Sotto queste condizioni Storey dimostra che p − FDR = Pr {Hg = H0g |Tg ∈ Γg } dove Γg è un’opportuna regione di rifiuto individuata per il singolo test basato sulla statistica test Tg . Laddove necessario si specificherà nella notazione Γg (α) la corrispondente significatività del test singolo. Storey propone diversi metodi per stimare p − FDR con valori che tendono a sovrastimarlo e quindi a controllare FDR in modo conservativo. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi p-FDR: Dimostrazione del risultato di Storey Riscriviamo p − FDR in termini di regioni di rifiuto e consideriamo l’evento D > 0 decomposto come D>0= G [ D=r r =1 in modo tale che si possa condizionare all’evento D = r . In questo modo, FP p − FDR = E |D > 0 = D G X FP |D = r Pr {D = r |D > 0} = = E D r =1 G X FP = E |D = r Pr {D = r |D > 0} r r =1 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi p-FDR: Dimostrazione del risultato di Storey Dal momento che con r rifiuti di H0g il numero di falsi positivi ovvero r discoveries FP corrisponde ad una somma di r eventi bernoulliani con generica probabilità di un test g di risultare falso positivo. Nell’impostazione adottata l’ipotesi può essere vera o falsa con opportuna probabilità a priori e dunque il test g risulta tra gli r test rifiutati uno tra i falsi positivi con opportuna probabilità a posteriori. In formula, Pr {Hg = H0g |Tg ∈ Γg } = Pr {Tg ∈ Γg |Hg = H0g }π0 Pr {Tg ∈ Γg |Hg = H0g } · π0 + Pr {Tg ∈ Γg |Hg = H1g } · (1 − π0 ) e quindi tenuto conto del fatto che il valore atteso della v.a. binomiale in questione è FP rPr {Hg = H0g |Tg ∈ Γg } E |D = r = r r si ottiene ... Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi p-FDR: Dimostrazione del risultato di Storey (2) p − FDR = E = = FP |D > 0 = D G X rPr {Hg = H0g |Tg ∈ Γg } Pr {D = r |D > 0} r r =1 G X r =1 Pr {Hg = H0g |Tg ∈ Γg }Pr {D = r |D > 0} = Pr {Hg = H0g |Tg ∈ Γg } Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi q-value per il controllo di p − FDR Riprendiamo il significato del p-value in termini relazione con le regioni di rifiuto legate ad un valore osservato della statistica test T = t ma corrispondenti a livelli α diversi p − value(t) = inf {Γα :t∈Γα } Pr (T ∈ Γα |H = 0) con l’ovvia condizione che Γα ⊆ Γα0 quando α ≤ α0 . Storey propone dunque uno strumento analogo denominato q-value q − value(t) = inf {Γα :t∈Γα } p − FDR(Γα ) = inf {Γα :t∈Γα } Pr {Hg = H0g |Tg ∈ Γg (α)} = In questo modo però non possiamo utilizzare la quantità in senso classico dal momento che p-FDR non può essere controllato in quell’accezione. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Un’interessante rilettura p − FDR = = = Pr {Hg = H0g |Tg ∈ Γg } Pr {Tg ∈ Γg |Hg = H0g }π0 Pr {Tg ∈ Γg |Hg = H0g } · π0 + Pr {Tg ∈ Γg |Hg = H1g } · (1 − π0 ) π0 sensibilità π0 · sensibilità + (1 − π0 ) · specificità Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Controllo e stima dei tassi di errore FDR e p-FDR Diversi approcci al controllo: regioni modificate Γα̃ , oppure soglie aggiustate (sequenzialmente o non), oppure p-value aggiustati in modo tale che la procedura definita garantisce il controllo predeterminato fissare le regioni di rifiuto attraverso soglie critiche ad un livello predeterminato; valutare/stimare il corrispondente controllo dell’errore ovvero stimare FDR o p-FDR; far variare le soglie iniziali e determinare per quali valori delle soglie si ottiene esattamente (o approssimativamente) il controllo desiderato. p − FDR = = Pr {Hg = H0g |Tg ∈ Γg } Pr {Tg ∈ Γg |Hg = H0g }π0 Pr {Tg ∈ Γg } Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi MTP - Inquadramento generale delle procedure di test multipli Regola di decisione è funzione dei dati/statistiche test/p-value, soglia prefissata di tasso di errore di test multipli che non si è disposti a superare. La regola è formalizzata attraverso gli indici delle ipotesi nulle da rifiutare δ ∈ 2G riscrivibile attraverso indicatori binari {0, 1}G riscrivibile in modo operativo attraverso i sottinsiemi di punti di cut-off per le statistiche test (soglie nominali/aggiustate) riscrivibile attraverso i sottinsiemi di punti di cut-off per i p-value (p-value nominali/aggiustati) equivalente a determinare un unico cut-off (dipendente dai dati =⇒ aleatorio!) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Quando utilizzo statistiche test o p-value nominali con soglie prefissate devo valutare il tasso di errore corrispondente. Quando invece fisso il tasso di errore determino delle soglie aggiustate (per pg o Tg ) in modo deterministico (single step oppure aleatorio stepwise il funzione della graduatoria dei p-value. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Frazione di ipotesi nulle false: stima ed impiego Se indichiamo con Ĝp la distribuzione empirica dei p-value, e fissata una soglia λ ∈ [0, 1] si avrà che Ĝp (λ) = D(λ) rapprensenterà la proporzione G dei p-value che sono al di sotto della soglia λ e dunque la proporzione di ipotesi risiutate dalla procedura (step-up) basata sul thresholding dei p-value; d’altra parte la frazione di ipotesi accettate sarà ND(λ) D(λ) #{g : pg > λ} =1− = 1 − Ĝp (λ) = G G G Storey propone π̂0 (λ) = (1 − Ĝp (λ)) 1−λ Questo è solo uno degli ingredienti utili per la stima ed il controllo dei tassi d’errore (falsi positivi). La soglia λ determina un variance-bias trade-off. Per λ = 0 la stima (dall’alto) di π0 è banalmente π̂0 (λ = 0) = 1 Argomentazione intuitiva per cui π̂0 (λ) ≈ π0 e dimostrazione formale che E [π̂0 (λ)] ≥ π0 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Frazione di ipotesi nulle false: stima ed impiego (2) (1 − Ĝp (λ)) 1−λ L’argomentazione intuitiva si basa sul fatto che per valori λ elevati vicino ad 1 la proporzione di p-value che superano la soglia tende ad essere costituita quasi esclusivamente da ipotesi effettivamente nulle e dunque π̂0 (λ) = (1 − Ĝp (λ)) ≈ π0 (1 − λ) In ogni caso, sotto l’ipotesi di uniforme distribuzione dei p-value sotto H0g si ha # " 1 − Ĝp (λ) ≥ π0 E [π̂0 (λ)] = E (1 − λ) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Stima di π0 significant gene for ue ⫽ 0.0036) and is mors. Activity of this (23), which further results support the xpressed in BRCA1involved in DNA h their q values, p nomine.org兾qvalue兾 ue is the probability value is also not the ve. In the example 013. This value does h probability 0.013. e positives incurred ue measure includes nt than MSH2, the may be substantially obability can also be atistical significance hypotheses. When Fig. 3. The ˆ 0() versus for the data of Hedenfalk et al. (14). The solid line is a natural cubic spline fit to these points to estimate ˆ 0( ⫽ 1). Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Stima di FDR [ λ (t) = π̂0 (λ) FDR t n o max Ĝp (t), G1 Sotto la sola ipotesi di uniforme distribuzione di pg sotto H0g si può dimostrare (Storey, Taylor & Siegmund JRSS(B) 2004) che per ogni λ ∈ [0, 1) " # 1 − Ĝp (λ) E [π̂0 (λ)] = E ≥ π0 1−λ h i [ λ (t) ≥ FDR E FDR Per λ = 0 la stima (dall’alto) di π0 è banalmente π̂0 (λ = 0) = 1 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Procedure con FDR stimato e soglia t ∗ basata sui dati Definiamo tα (F ) = sup{0 ≤ t ≤ 1 : F (t) ≤ α}. Una strategia per il controllo è la seguente [ λ) tα (FDR Notare che a questo punto la soglia è aleatoria e dipende dai dati! Dipende anche dalla seconda soglia λ. In effetti usando la soglia [ λ=0 ) tα (FDR si ottiene esattamente la procedura di Benjamini e Hochberg. E’ sufficiente verificare dalla definizione che [ λ=0 (pg ∗ ) ≤ α < FDR [ λ=0 (pg ∗ +1 ) FDR Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Procedure con FDR stimato e soglia t ∗ basata sui dati Più in generale si può mostrare che [ λ=0 ) ≤ pg ∗ +1 pgα∗ ≤ tα (FDR α dove gα∗λ è il piu grande intero che soddisfa p(g ) ≤ gα π̂0 (λ)G Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi q-value q − value(t) = inf {Γα :t∈Γα } p − FDR(Γα ) = inf {Γα :t∈Γα } Pr {Hg = H0g |Tg ∈ Γg (α)} = Nel caso in cui Γg è definita da una statistica test T attraverso una soglia massima Γg = {t : t ≤ t ∗ } si avrà q − value(t) = Pr {Hg = H0g |Tg ≤ t} Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Effetti della alta variabilità delle stime della varianza (Problema della stabilizzazione della variabilità di tgM [CV], vedi dopo) Un altro volcano plot Stabilizzare le stime per rendere meno sensibili i test a valori piccoli di sg2 (stime) tgM = dove Sg = sg variabilità di q 1 + n1 e S0 n1 2 M tg , vedi dopo) x̄g ,1 − x̄g ,2 Sg + S0 opportunamente scelto (minimizzazione CV della procedure ad hoc di stabilizzazione, veri e propri modelli bayesiani gerarchici (borrowing strength across genes) problemi legati alla possibile asimmetria indotta dall’aggregazione di tutti i geni (differenzialmente espressi e non) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Scelta del fudge factor Criterio: minimizzazare CV della variabilità di tg (S0 ) in funzione di S0 tgM (S0 ) = x̄g ,1 − x̄g ,1 Sg + S0 suddividere i geni in sottoinsiemi di uguale numerosità in base ai quantili di Sg , indichiamoli con Sg ,α1 , ..., Sg ,αj Sg ,αj+1 , Sg ,αJ per ciascun sottoinsieme calcolo Vj (S0 ) = MAD(tgM (S0 )) Scelgo quel valore S0∗ per cui è minimo il CV (V1 (S0 ), ..., Vj (S0 ), ..., VJ (S0 )) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi SAM - Significance Analysis of Microarray Storey & Tibshirani (2003) M M M Ordinare le statistiche test osservate t(1) ≤ t(2) ≤ ... ≤ t(G ) Estrarre (con permutazione di etichetta) B statistiche d’ordine b b b corrispondenti t(1) ≤ t(2) ≤ ... ≤ t(G ) e calcolarne le medie rispetto M M M alle B estrazioni t̄(1) ≤ t̄(2) ≤ ... ≤ t̄(G ) Dichiarare differenzialmente espressi (i.e. g ∈ Ĝ−1 ) ∪ Ĝ1 ) quei geni g per cui M M t(g ) − t̄(g ) > ∆ e analogamente per i sottoespressi. Indichiamo con Ĝ−1 e Ĝ1 gli ∗ ∗ insiemi di indici corrispondenti e con t−1 = t−1 (∆) e t1∗ = t1∗ (∆) le soglie di discriminazione della statistica test (grafico M M (t(g ) , t̄(g ) ),intersezione con rette t + ∆ e t − ∆) Calibrare ∆ in funzione del FDR stimato Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Stima del False Discovery Rate per permutazioni La versione originaria di SAM stima il FDR attraverso il rapporto π̂0 F̂P D dove F̂P è una stima dei falsi positivi in senso classico e viene calcolata in b base al numero di geni g le cui statistiche di permutazione t(g ) (sotto l’ipotesi nulla di permutazione) risultano esterne alle soglie critiche b ∗ b ∗ F̂Pb = #g ∈ Ĝ−1 ∪ Ĝ1 : t(g ) < t−1 ∩ t(g ) > t1 e quindi F̂P = e π̂0 = D G (F̂P1 + ... + F̂Pb + ... + F̂PB ) B Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Stima del False Discovery Rate per permutazioni Una versione alternativa di SAM stima il FDR attraverso il rapporto π̂0 F̂P D dove F̂P è una stima dei falsi positivi in senso classico e viene calcolata in b base al numero di geni g le cui statistiche di permutazione t(g ) (sotto l’ipotesi nulla di permutazione) risultano esterne alle soglie critiche b ∗ b ∗ F̂Pb = #g ∈ G : t(g ) < t−1 ∩ t(g ) > t1 e quindi F̂P = Med(F̂P1 , ..., F̂Pb , ..., F̂PB ) e π̂0 = D G Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Stima del False Discovery Rate per permutazioni M ∗ M ∗ D(∆) = #{g : t(g ) < t−1 (∆) o t(g ) > t1 (∆)} 0 b ∗ b ∗ D (∆) = #{g : t(g ) < t−1 o t(g ) > t1 } [ ∆0 (∆) = π̂0 p − FDR D 0 (∆) max{D(∆), 1} Dove ∆0 è un’altra soglia scelta in modo che D 0 (∆0 ) = G /2 e per calcolare il p − FDR si usa la stima π̂0 = G − D(∆0 ) G − D 0 (∆0 ) Dalle stime del pFDR si possono calcolare valori analoghi a p-value aggiustati per la molteplicità e precisamente dei q-value qg = \ ∆0 (∆) min pFDR ∆:g ∈Ĝ±1 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi 2 varianti di SAM BMC Bioinformatics 2007, 8:230 http://www.biomedcentral.com/1471-2105/8/230 Nella versione originaria per dichiarare il gene differenzialmente espresso si utlizza direttamente la differenza tra statistica test osservata e quella prevista( dall’ipotesi di permutazione e dunque la statistica test deve ) differenziarsi rispetto al valore atteso sotto l’ipotesi nulla (di permutazione) di ∆ mentre nella seconda versione si sfrutta l’ordinamento delle statistiche test osservate ed è sufficiente che la statistica test corrispondente ad un gene g sia al di sotto [sopra] della ∗ statistica test t−1 [t1∗ ] che determina la soglia critica 2.3.2 The impact of the difference between Steps (f) of SAM and Step (f') of sam2.20 The change from Step (f) of SAM to Step (f') of sam2.20 is a desirable change. The problem with Step (f) of SAM is that it only uses the genes identified as significant to estimate the number of FP. Although in the definition of FDR Figure 1 reports the findings from SAM. In Figure 1, the points in red are the genes declared significant by SAM. There are in total 5 points with displacement larger than ∆, of which 4 are called significant positive and 1 is called significant negative. The cutoff δL(= -1.649701) is the value of the test statistic of the only significant negative gene, and δU(= 1.3068) is the minimum value of the test statistics of the 4 significant positive genes. It can be clearly seen from Figure 1 that many points (black dots) beyond the horizontal cutoffs are not called significant by SAM. The reason is that these points, although having test statistics of greater magnitudes than the relevant cutoff, do not have displacement larger than the threshold ∆. 3 Potential problems of SAM and sam2.20 sam2.20 2 2 observed score The four red points are considered significant positive by SAM cutup This red point is considered significant negative by SAM, but not by sam2.20. cutup 10 cutlo= −10 -2 0. Hence, there are in total 200 differentially expressed genes. http://www.biomedcentral.com/1471-2105/8/230 SAM Xij = µi + εij and Yik = ηi + ωik for i = 1, ..., n, j = 1, ..., J, k = 1, ..., K, (10) where n = 5000, J = K = 4 and εij and ωik are the i.i.d. random errors from N(0,1). For the first 100 genes, µi = 0 and ηi ~ N(1,1), and for the last 100 genes, µi = 0 and ηi ~ N(1,1). The middle 4800 genes were generated with µi = ηi = BMC Bioinformatics 2007, 8:230 1 that, if gene i is called significant positive (or significant negative), it does not imply that gene j with d(j) > d(i) (resp. d(j) <d(i)) will be called significant as well. Because of this, it is claimed in [9] that the genes identified as significant by SAM do not necessarily have the largest relative changes in gene expression. To better understand how SAM and sam2.20 work differently, we carried out the following simulation. In the simulation, the data were generated from the following model: sam2.20 declares all these 24 points as significant positive. Note that no point in Figure 2 is declared significant negative since there is no point with value below the lower cutoff -1010. 0 from d(i) larger than ∆ are called significant. This means observed score 2.3 The impact of the change of algorithms 2.3.1 The impact of the difference between Step (e) of SAM and Step (e') of sam2.20 In Step (e) of SAM, only those genes with displacement placement greater than does not satisfy d(i) - d(i) < -∆. The second change is the number of significant genes. Step (e') of sam2.20 declares all the genes with the test statistics exceeding the cutoffs as significant. Since there are in total 24 points exceeding the upper cutoff δU = 1.3068, -1 used in sam2.20 [22]. -2 of non-DE genes. A natural spline based estimator πˆ0 is 1 (9) 0 m = median FP m (1)," , FP m(B) , (f ’) FP m (b) = #{1 ≤ i ≤ n: db(i) > δ or db(i) <δ , b = 1, ..., where FP U L B. Subsequently, the FDR is estimated by n = πˆ FP m / TP m , where πˆ is the estimated proportion FDR 0 0 However, this feature has been changed in the algorithm used in sam2.20 due to the use of Step (e'). Figure 2 is the plot obtained from sam2.20 under the same setup as that of Figure 1. By checking Figure 2, we see that two changes have happened. The first change is the cutoffs. Note that the cutoffs from SAM are -1.6497 and 1.3068, respectively. Nevertheless, Figure 2 shows that the cutoffs from sam2.20 have become -1010 and 1.3068. The lower cutoff was arbitrarily set at -1010 since the only point having dis- -1 The difference on Step (f) is in the estimation of FP and FDR. Note that SAM estimates the FP only using the null scores from the genes called significant in Step (e). sam2.20 uses the null scores from all the genes to estimate the FP: cutlo -1 0 1 expected score -1 0 1 expected score The SAM1 plot obtained by using the SAM algorithm Figure The SAM plot obtained by using the SAM algorithm. The red points are the points declared significant by SAM. The two horizontal lines refer to the lower cutoff δL (=cutlo) and the upper cutoff δU (=cutlup) from SAM. The threshold used is ∆ = 0.099. Page 4 of 12 (page number not for citation purposes) Figure The sam2plot obtained from sam2.20 The sam plot obtained from sam2.20. The red points are the points declared significant by sam2.20. The horizontal line refers to the upper cutoff δU (=cutlup) from sam2.20. The horizontal line corresponding to the lower cutoff δL (=cutlo) does not show up in the plot since δL = -1010. The threshold ∆ used is the same as that used in producing Figure 1. the number of FP refers to those among the genes declared significant, SAM ignored the fact that the FP genes among the significant genes are actually the genes which are 3.1 SAM's use of different standards to declare significance and its poor estimation of FDR In addition to showing the difference between SAM and sam2.20, Figures 1 and 2 actually raise concerns about the use of SAM and sam2.20 in practice. Figure 1 shows that there are genes with test statistics exceeding δL and δU which are not identified as significant by Step (e) of SAM since they do not have displacement larger than the threshold ∆. However, Step (f) of SAM shows that such genes are considered as significant in the estimation of FDR. Hence, SAM used different standards to declare significance. The reason for SAM's use of different standards can be explained by the results of a simulation described as follows. The data used in the simulation were generated from model (10) under the same setup as that used in producing Figures 1 and 2, except that we used µi = 0 and ηi ~ N(3,1) for the first 100 genes, and µi = 0 and ηi ~ N(-3,1) for the last 100 genes. Table 1 reports the results obtained from 100 simulations under the above described setup. Column 1 reports the average number of genes called significant by sam2.20 from 100 simulations. Column 2 reports the average number of true FP among the genes declared significant in each simulation. Columns 3–5 report the mean of estimated numbers of FP from SAM, (7) and sam2.20. Note that (7) uses the same rule as Step (e) of SAM to declare significance. The results from (7) should reflect what would happen if SAM had used the same standard (4) to Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi EBAM e FDR locale Idea di analisi basata sull’aggregazione di informazioni provenienti dai vari test in modo da sfruttare l’abbondanza di informazioni su tratti comuni (π0 ,...). Il punto di vista sarà simile a quello considerato da Storey per il p-FDR e la sua rilettura in ottica Bayesiana Il punto di partenza è la distribuzione delle statistiche test ovvero opportune trasformate come misture: Zg Zg Zg = Φ−1 (Pg ) Zg = Φ−1 (FTk (Tg )) ∼ F = π0 F0 + π1 F1 (Funzione di ripartizione) ∼ f = π0 f0 + π1 f1 (Funzione di densità) (1) (2) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi EBAM e FDR locale Considerando un modello statistico vero e proprio per (1) è possibile pervenire ad alcune nuove ed interessanti quantità suggerite da Efron fdr (z) = Prob (g ∈ G0 |Zg = z)) = f + (z) π0 f0 (z) = 0 π0 f0 (z) + π1 f1 (z) f (z) con analogia formale ma significato differente rispetto al positive False Discovery Rate dato da Storey FDR(z) = Pr (g ∈ G0 |Zg ≤ z) = F0+ (z) F (z) Ingredienti π0 f0 theoretical null / empirical null distribution F1 non null distribution Interpretazione Stima Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Dati sul tumore alla prostata 1352 B. EFRON F IG . 1. Histograms of z values from two microarray experiments. Left panel, prostate data, comparison of 50 nontumor subjects with 52 tumor patients for each of 6033 genes; Singh et al. [31]. Right panel, HIV data, comparison of 4 HIV negative subjects with 4 HIV positive patients for 7680 genes; van’t Wout et al. [34], discussed in [16]. The central peak of the prostate data histogram closely follows the theoretical N (0, 1) null density (solid curve), but the HIV histogram is substantially too narrow. Short vertical bars are estimated nonnull counts, useful for power calculations, as discussed in Section 3. Estimated null proportion p0 equals 0.93 in both experiments. prostate cancer patients, each measured expression levels for the same N = 6033 genes. Each gene yielded a two-sample t-statistic ti comparing tumor versus nontumor men, which was then transformed to a z value, Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Relazione tra l-FDR e p-FDR Ricordiamo che avevamo già introdotto p − FDR = Pr {Hg = H0g |Tg ∈ Γg }. Ora se Γg = (−∞, z) (!) questo corrisponde nella terminologia di Efron al tail-area-FDR FDR(z) = Pr (g ∈ G0 |Zg ≤ z) = dal momento che fdr (z) = Rz FDR(z) = f0+ (z) f (z) F0+ (z) F (z) si capisce la relazione fdr (Z )f (Z )dZ Rz = Ef [fdr (Z )|Z ≤ z] f (Z )dZ −∞ −∞ Quindi p-FDR può essere interpretato come ’primitiva’ del l-FDR e l’interpretazione geometrica di questa relazione può aiutare a capire come calibrare la qualtificazione numerica del nuovo indicatore Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore 1356 Selezione di geni differenzialmente espressi B. EFRON F IG . 3. Geometrical relationship of Fdr to fdr; heavy curve plots F0+ (z) versus F (z); fdr(z) is slope of tangent, Fdr(z) slope of secant. (It is notationally convenient to consider events Z ≤ z but we could just as well consider tail areas to the right, two-tailed events, etc.) Figure 3 illustrates the geometrical relationship between Fdr and fdr. Analytically, Fdr is a conditional expectation of fdr [13], Fdr(z) = (2.8) z z −∞ fdr(Z)f (Z) dZ −∞ f (Z) dZ = Ef {fdr(Z)|Z ≤ z}, “Ef ” indicating expectation with respect to f (z) [13]. That is, Fdr(z) is the average of fdr(Z) for Z ≤ z; Fdr(z) will be less than fdr(z) in the usual situation where Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Calibrazione dell’FDR locale (1) Geometricamente ci si può attendere una rappresentazione come quella nella precedente figura in cui fdr (z) ≥ FDR(z) (2) Con particolari assunzioni su F1 = F0α (0 < α < 1) vi sono relazioni esplicite sull’ordine di grandezza del tipo fdr (z) ≈ FDR(z)/α In effetti, approssimando log fdr (z) = ... 1 − fdr (z) (3) Dal punto di vista della densità condizionata fdr (z) = Prob (g ∈ G0 |Zg = z)) si può pervenire ad una sorta di interpretazione in termini di fattore di Bayes. Efron ad esempio rapporta fdr (z) gli odds a posteriori ovvero 1−fdr (z) con l’odds a priori ammettendo (arbitrariamente!) π0 = 0.9 e giustifica come valore di riferimento fdr (z) = 0.2 in relazione ad un Fattore di Bayes (espressione vs non espressione) pari a 36 =⇒ evidenza forte in favore di espressione Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Stima dell’FDR locale c (z) = π0 f0 (z) fdr fˆ(z) dove fˆ(z) è stimata dai dati attraverso una distribuzione appartenente alla famiglia esponenziale 7 X fβ (z) = cβ exp βj z j j=1 π0 e f0 richiedono anche loro una stima a meno di assunzioni particolari (talvolta teoricamente difendibili per la distribuzione f0 ) Vantaggi nel riferire per ciascun gene un valore su una scala standard al di là della regola di decisione. In questo caso il valore è facilmente e legittimamente interpretabile come probabilità (locale). Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Valutazioni diagnostiche sulla potenza Idea: mediare fdr locale rispetto a f1 R∞ d1 = Efdr dal momento che c (z)[1 − fdr c (z)]fˆ(z)dz fdr R∞ c (z)]fˆ(z)dz [1 − fdr −∞ −∞ Z ∞ π̂1 = −∞ e f1 (z) = c (z)]fˆ(z)dz [1 − fdr (1 − fdr (z))f (z) π1 Valori piccoli =⇒ in media, rispetto a f1 bassa probabilità (a posteriori) di dichiarare il gene non espresso (formalmente qualche somiglianza con misure di affinità) =⇒ buona potenza (f1 ha buona capacità di discriminare rispetto a f0 ) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Stima della distribuzione nulla f0 Ragioni per spiegare non adeguatezza della distribuzione nulla teorica non normalità delle osservazioni di partenza covariate non osservate correlazione tra array correlazione tra geni Trade-off tra distorsione indotta da una distribuzione nulla erroneamente specificata e aumento della variabiltà delle altre quantità stimate Stima parametrica di f0 : si considerano i valori dell’istogramma (densità stimata) vicino a 0 e si cerca la migliore approssimazione normale [ammettiamo più o meno implicitamente che f1 (·) è una quantità localmente piccola/trascurabile] Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Stima della distribuzione nulla f0 Innanzitutto si parte dalla discretizzazione del problema attraverso ii conteggi in corrsipondenza di un interallo (indicizzato con k) di ampiezza δ appropriata zk = centro dell’intervallo k yk = numero osservazioni k e si stima la f (z) attraverso una distribuzione appartenente alla famiglia esponenziale con 7 parametri Il fit avviene atraverso una regressione di Poisson e dunque con stumenti standard per GLM. Poi si procede al cosiddetto Central matching: approssimazione quadratica (perché?) locale nel punto 0 della distribuzione empirica dei conteggi. [Stima alternativa con un modello normale troncato] Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore log(fβ (z)) = log cβ + 7 X j=1 βj z j Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing 1352 Test multipli e controllo dell’errore B. EFRON 1356 F IG . 1. Histograms of z values from two microarray experiments. Left panel, prostate data, comparison of 50 nontumor subjects with 52 tumor patients for each of 6033 genes; Singh et al. [31]. Right panel, HIV data, comparison of 4 HIV negative subjects with 4 HIV positive patients for 7680 genes; van’t Wout et al. [34], discussed in [16]. The central peak of the prostate data histogram closely follows the theoretical N (0, 1) null density (solid curve), but the HIV histogram is substantially too narrow. Short vertical bars are estimated nonnull counts, useful for power calculations, as discussed in Section 3. Estimated null proportion p0 equals 0.93 in both experiments. prostate cancer patients, each measured expression levels for the same N = 6033 genes. Each gene yielded a two-sample t-statistic ti comparing tumor versus nontumor men, which was then transformed to a z value, (1.1) zi = −1 (F100 (ti )), SIZE, POWER AND FALSE DISCOVERY RATES F IG . 3. Geometrical relationship of Fdr to fdr; heavy curve plots F0+ (z) versus F (z); fdr(z) is slope of tangent, Fdr(z) slope of secant. (It is notationally convenient to consider events Z ≤ z but we could just as well consider tail areas to the right, two-tailed events, etc.) Figure 3 illustrates the geometrical relationship between Fdr and fdr. Analytically, Fdr is a conditional expectation of fdr [13], 1365 where F100 is the cumulative distribution function (c.d.f.) of a Student’s t distribution with 100 degrees of freedom, and is the standard normal c.d.f. We expect zi to have nearly a N(0, 1) distribution for “null” genes, the ones behaving similarly in tumor and nontumor situations. The left histogram looks promising in this regard: its large central peak, which is nicely proportional to a N(0, 1) density, charts the presumably large majority of null genes, while the heavy tails suggest some interesting “nonnull” genes, those responding differently in the two situations, the kind the study was intended to detect. B. EFRON Fdr(z) = (2.8) −∞ fdr(Z)f (Z) dZ F1 (z) = F0 (z)α (2.9) N OTE . It is not necessary that the zi ’s be obtained from t-tests or that the individual cases correspond to genes. Each of the N cases might involve a sepa- z z −∞ f (Z) dZ = Ef {fdr(Z)|Z ≤ z}, “Ef ” indicating expectation with respect to f (z) [13]. That is, Fdr(z) is the average of fdr(Z) for Z ≤ z; Fdr(z) will be less than fdr(z) in the usual situation where fdr(z) decreases as |z| gets large. For example fdr(−3.39) = 0.20 in Figure 2 while Fdr(−3.39) = 0.105. If the c.d.f.’s F0 (z) and F1 (z) are Lehmann alternatives, it is straightforward to show that (2.10) log [α < 1], fdr(z) Fdr(z) 1 = log + log , 1 − fdr(z) 1 − Fdr(z) α giving (2.11) F IG . 5. Central matching estimation of p0 and f0 (z) ∼ N (δ0 , σ02 ) for the HIV data; heavy curve is log of f(z), estimated mixture density (2.5); beaded curve is quadratic fit to log f(z) around z = 0, 0 ). δ0 , σ0 , p estimating log f0+ (z), (2.4). The three estimated coefficients of quadratic fit give ( 0 ) in (4.6), for Estimates (β0 , β1 , β2 ) from (8.5) translate to estimates ( δ0 , σ0 , p σ0 = (2β2 )−1/2 . For the HIV data this gave example, (4.7) δ0 = −0.107, σ0 = 0.753 and 0 = 0.931. p The logic here is straightforward: we make the “zero assumption” that the central peak of the z-value histogram consists mainly of null cases, and choose (δ0 , σ0 , p0 ) in (4.6) to quadratically approximate the histogram counts near δ = 0. Some form of the zero assumption is required because the two-class model (2.2) is unidentifiable in the absence of strong parametric assumptions on f1 . A healthy literature exists on estimating p0 , as in [21] and [29], all of which relies on the zero assumption [mostly working with p-values rather than z-values, e.g., pi = F6 (ti ) in (4.2), where the “zero region” occurs near p = 1]. All of this literature relies on the validity of the theoretical null, so in this sense (4.5) and (4.6) is a straightforward extension to situations where the theoretical null is untrustworthy. For the HIV data, using the theoretical null in (4.5) and (4.6), that is, taking 0 = 1.18. This will (β1 , β2 ) equal (0, 1/2), results in the impossible estimate p always happen when the z-value histogram is narrower than N(0, 1) near z = 0. The zero assumption is more believable if p0 , the proportion of null cases, is large. Efron [8] shows that if p0 exceeds 0.90 the fitting method in Figure 5 will be nearly unbiased: although the 10% or less of nonnull cases might in fact contribute δ0 and σ0 ; the p0 estimate some counts near z = 0, they cannot substantially affect is affected, being upwardly biased, as seen in Table 1. . fdr(z) = Fdr(z)/α for small values of Fdr. The prostate data of Figure 1 has α roughly 1/2 in each tail. Benjamini and Hochberg’s [3] Fdr control rule depends on an estimated version of (2.7) where F (z) is replaced by the empirical c.d.f. “F̄ ” of the z values, (2.12) Fdr(z) = p0 F0 (z)/F̄0 (z) [F̄ (z) = #{zi ≤ z}/N]. Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Paccchetti utili per l’espressione differenziale genefilter rowttest samr multtest mt.maxT (FWER) mt.rawp2adjp(...,proc=’BH’) (FDR) limma Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Espressione differenziale: approccio basato sul modello Consideriamo ora alcuni metodi per l’individuazione di geni espressi in modo differenziale basati sulla formulazione di modelli statistici-probabilistici. Modello lineare; 9 Modello gerarchico; Modello Bayesiano gerarchico. 9 Kerr, M.K. e Churchill G.A. (2001) Experimental design for gene expression microarrays, Biostatistics,2, 183–201 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Test F Indichiamo Ygrc il livello di espressione del gene g , replicazione r e condizione sperimentale c Geni: g=1,...,G Condizioni sperimentali: c=1,...,C (varieties) Replicazioni: r=1,...,Rc L’obiettivo è individuare quanti e quali geni sono espressi in modo differenziale (sovra/sotto espressi). Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi (cont) Kerr & Churchill(2001) propongono il seguente semplice modello: Ygrc = µg + Vgc + grc dove: Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi (cont) Kerr & Churchill(2001) propongono il seguente semplice modello: Ygrc = µg + Vgc + grc dove: µg : segnale medio del gene g (overall signal); Vgc : segnale addizionale del gene g dovuto alla condizione sperimentale (parametro di interesse); grc : termine di errore grc ∼ N(0, σg ) (IID); Modello ANOVA: metodo di stima dei minimi quadrati (OLS) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi (cont) Per ciascun gene g siamo interessati a valutare il seguente test di ipotesi: H0 : Vgc = 0 H1 : Vgc 6= 0 mediante il seguente F test F = MS(V ) MS(E ) dove MS(V ) = PC c=1 (ȳc −ȳ )2 C −1 PC PRc (ycr −ȳc )2 MS(E ) = c=1 r =1 N−1 PRc yrc ȳc = r =1 Rc (media condizione c) PC PRc yrc ȳ = c=1 r =1 N (media totale). Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi (cont) Sotto l’ipotesi nulla H0 : Vgc = 0 F = MS(V ) MS(E ) = 1 ∼ F (C − 1, N − C ) Sotto l’ipotesi alternativa H1 : Vgc 6= 0 F = MS(V ) MS(E ) >1 Per ogni gene g : pg = Pr (F > Fobs ) Un gene è dichiarato espresso in modo differenziale a livello α se pg < α Correzione per la molteplicità dei test. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Modello lineare: modello ANOVA Ygrc = µ + Vc + Ar + Gg + AGgr + (VG )gc + grc Effetti semplici: Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Modello lineare: modello ANOVA Ygrc = µ + Vc + Ar + Gg + AGgr + (VG )gc + grc Effetti semplici: µ: effetto medio globale; A: effetto array; G: effetto gene; V: effetto condizione sperimentale. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Modello lineare: modello ANOVA Ygrc = µ + Vc + Ar + Gg + AGgr + (VG )gc + grc Effetti semplici: µ: effetto medio globale; A: effetto array; G: effetto gene; V: effetto condizione sperimentale. Interazioni: VG: espressione differenziale (parametro di interesse); AG: variabilità dello spot negli array; Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi (cont) Diversi metodi di stima: Minimi quadrati (OLS): test F per la significatività; Stima in 2 stadi: 10 Normalization model: aggiustamento dagli effetti globali (non dipendenti dal gene); Gene model: modellizzazione degli effetti dovuti al gene. 10 Wolfinger R.D. et al. (2001) Assessing gene significance from cDNA microarray expression data via mixed models, Journal of Computational Biology,8, 625–637 Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Stima a 2 stadi Wolfinger et al. (2001) propone di stimare il modello in 2 fasi: Effetti globali: normalization model Ygrc = µ + Vc + Ar + δgrc Effetti gene-specifici: gene model Rgrc = Gg + (AG )gr + (VC )gc + grc Rgrc : residui del normalization model. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Modello lineare: qualche commento Alcune assunzioni del modello lineare possono essere poco realistiche: Normalità: a volte i dati suggeriscono che gli errori non siano simmetrici e Normali; Indipendenza: i geni vengono trattati come unità indipendenti; tuttavia raramente si esprimono in modo isolato e indipendente l’un l’altro. L’inserimento di una struttura di correlazione tra i geni potrebbe essere realistica; Omoschedasticità: in molti modelli grc ∼ N(0, σ). Tuttavia in molti casi, i geni con livello di espressione più elevato presentano anche una maggiore variabilità: l’assunzione grc ∼ N(0, σg ) potrebbe essere maggiormente appropriata. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Modelli gerarchici Modello non gerarchico: 1 2 Verosimiglianza: L(X |µ, σ) Distribuzioni a priori: π(µ) ∼ fµ e π(σ) ∼ fσ Modello gerarchico: 1 2 3 Verosimiglianza: L(X |µ, σ) Distribuzioni a priori: π(µ|a, b) ∼ f (a, b) e π(σ|c, d) ∼ f (c, d) Distribuzioni sugli iperparametri: a ∼ fa , b ∼ fb , c ∼ fc e d ∼ fd Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Modelli gerarchici: perchè? Esempio: si vuole condurre uno studio clinico sull?efficacia di un nuovo trattamento cardiaco; il piano sperimentale prevede il coinvolgimento di K ospedali, diversi per qualità, e tipologia di utente. La quantità di interesse è la probabilità di sopravvivenza, denotata con θj , relativa all’ospedale j-esimo, per i pazienti sottoposti al trattamento. In un tale contesto è ragionevole supporre che i diversi θj , relativi a un campione di ospedali siano in qualche modo legati tra loro, pur rappresentando realtà differenti. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Modelli gerarchici: perchè? (cont) in queste situazioni non è più ragionevole considerare le osservazioni come n realizzazioni indipendenti di una stessa variabile aleatoria madre; i parametri di interesse sono in qualche modo legati l’uno con l’altro; il modello gerarchico incorpora le relazioni tra i θj facendoli provenire da una distribuzione comune; il modello gerarchico alleggerisce il peso della distribuzione a priori sulla distribuzione a posteriori. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Bayes vs Empirical Bayes Esistono in letteratura principalmente 2 approcci per la stima di modelli gerarchici: Empirical Bayes (EB): approccio bayesiano empirico; Hierarchical Bayes (HB): approccio bayesiano gerarchico. Supponiamo di avere un modello gerarchico del tipo: 1 2 Yij ∼ f (θj ); θj ∼ λ; Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Empirical Bayes Si assume che i diversi θj seguano la seguente legge a priori del tipo p(θ|λ) Nell’approccio EB si calcola la distribuzione marginale dei dati condizionatamente a λ ossia Z Z Z p(y |λ) = ... p(y |θ1 , θ2 , ..., θk ) Ω1 Ω2 Ωk × p(θ1 , θ2 , ..., θk |λ)dθ1 dθ2 ...dθk p(y |λ) è una vera e propria verosimiglianza in λ; λ̂ ottenuta massimizzando p(y |λ); p(θ|λ̂, y ): mediante il teorema di Bayes. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Hierachical Bayes Tutte le quantità in gioco vengono considerate aleatorie. p(y |θ) p(θ|λ) p(λ) Mediante il teorema di Bayes si ottengono le distribuzioni a posteriori di tutti i parametri. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore EB vs HB: un esempio Dati i parametri θ = (θ1 , θ2 , ..., θk ) e σ 2 noto, poniamo yij ∼ N(θj , σ 2 ) Assumiamo inoltre θj |µ, τ 2 ∼ N(µ, τ 2 ) Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi EB vs HB: esempio (cont) Nell’impostazione EB i parametri di terzo livello µ, τ sono considerati incogniti ma fissi. 2 2 LEB (µ, τ ) = p(y |µ, τ ) = Z k Y R k j=1 p(y |θj )p(θj |µ, τ )dθj µ̂ e τˆ2 : massimizzazione di LEB (µ, τ 2 ); Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi (cont) Dal teorema di Bayes si ottiene la distribuzione a posteriori θ1 , ..., θk |τ, µ, y ∼ N(θ̂j , V̂j ) dove θ̂j = V̂j = ȳj σj2 + 1 σj2 + µ̂ τˆ2 1 τˆ2 σj2 τ̂ 2 σ 2 + τˆ2 j Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi EB vs HB: esempio (cont) Nell’impostazione gerarchica HB, tutte le quantità presenti nel modello sono considerate aleatorie e dotate di legge di probabilità. La distribuzione a posteriori congiunta di (θ, µ, τ 2 ) è proporzionale a 2 2 p(θ, µ, τ |y ) ∝ p(µ, τ ) k Y j=1 N(θj |µ, τ 2 )N(yj |θj , σj2 ) Da tale espressione è possibile ottenere in via esplicita o numerica diverse distribuzioni (o sintesi di queste) di interesse. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi EB vs HB: esempio (cont) Entrambi gli approcci riconoscono l’incertezza intrinseca dei θj attraverso una legge governata da λ = (µ, τ ), ma va sottolineato che EB: λ viene stimato solo attraverso i dati attraverso la massimizzazione della verosimiglianza; HB: λ ha una distribuzione a priori aggiornabile tramite la verosimiglianza; Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi EB vs HB: esempio (cont) Entrambi gli approcci riconoscono l’incertezza intrinseca dei θj attraverso una legge governata da λ = (µ, τ ), ma va sottolineato che EB: λ viene stimato solo attraverso i dati attraverso la massimizzazione della verosimiglianza; HB: λ ha una distribuzione a priori aggiornabile tramite la verosimiglianza; EB: l’incertezza relativa a λ non è incorporata nelle successive stime in quanto λ è sostituito con λ̂; EB: l’errore standard delle stime non si ottiene direttamente (ma attraverso tecniche di approssimazione); HB: l’incertezza delle stime è naturalmente contenuta nella distribuzione a posteriori. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Il modello di Smyth (2004)11 Sia Yg un vettore j × 1 di espressione del gene g in j = 1, 2, ... condizioni sperimentali. Il modello proposto da Smyth è un modello ANOVA del tipo Y = X αg + g g ∼ N(0, σg2 ) (3) 11 G. Smyth, Linear Models and Empirical Bayes Methods for Assessing Differential Expression in Microarray Experiments, Statistical Applications in Genetics and Molecular Biology, 3 (1), 2004. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Il modello di Smyth (2004)11 Sia Yg un vettore j × 1 di espressione del gene g in j = 1, 2, ... condizioni sperimentali. Il modello proposto da Smyth è un modello ANOVA del tipo Y = X αg + g g ∼ N(0, σg2 ) (3) Si assume E [Yg ] = X αg ; Var [Yg ] = Wg σg2 dove Wg è una matrice di pesi nota. 11 G. Smyth, Linear Models and Empirical Bayes Methods for Assessing Differential Expression in Microarray Experiments, Statistical Applications in Genetics and Molecular Biology, 3 (1), 2004. Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Il modello di Smyth (approccio classico) Il modello può essere stimato mediante il metodo OLS ottenendo α̂g (Var (α̂g ) = Vg sg ) e sg2 stimatore di σg . I contrasti di interesse βg = C T αg si stimano come β̂g = C T α̂g Si dimostra che β̂g e sg2 si distribuiscono approssimativamente come β̂gj |βgj , σg2 ∼ N(βgj , vgj σg2 ) sg2 |σg2 ∼ σg2 2 χ dg dg dove dg = n − 1. Pertanto, tgj = β̂gj ∼ T dg √ sg vgj (4) Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Il modello di Smyth: approccio gerarchico Aggiungiamo le seguenti informazioni a priori sui parametri del modello 1 1 χd ∼ σg2 d0 s0 0 βgj |σg2 , βgj 6= 0 ∼ N(0, v0j σg2 ) Per il modello cosı̀ formulato, la media a posteriori di σg−2 dato sg2 è s̃g = d0 s02 + dg sg2 d0 + dg e la statistica t − moderata è definita come t̃gj = s̃g β̂gj √ vgj Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Il modello di Smyth: approccio gerarchico (cont) Si dimostra che t̃gj |β 6= 0 ∼ (1 + t̃gj |β = 0 ∼ Td0 +d v0 1/2 ) Td0 +d v Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Controllo FDR in ambito bayesiano Tipicamente in un’analisi di tipo bayesiano un gene g viene selezionato (testato rispetto ad un’ipotesi nulla Θ0 contro Θ1 ) in base alla probabilità a posteriori dell’ipotesi nulla ppost,g = Pr (Θ1 | Dati osservati X ) > pcut per un’opportuna scelta della soglia (qui pcut assume la stessa funzione della soglia t in ambito classico). La regola di decisione dunque è una funzione indicatrice del tipo rg (X )[pcut ] = Ippost,g >pcut (X ) Ad una soglia pcut fissata corrisponde dunque la seguente valutazione del tasso di errore PG [ cut ] = FDR[p g =1 Pr (Θ0 | Dati osservati X )rg (X )[pcut ] PG g =1 rg (X )[pcut ] Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Introduzione a Bioconductor Progetto di sviluppo di software open source per l’analisi di dati provenienti da esperimenti genetici high-throughput con un’enorme quantità di misurazioni contemporanee di processi biologici scritti nel linguaggio R per l’amibente R. Lista in continuo aggiornamento di pacchetti [400] (classi, metodi, funzioni) http://www.bioconductor.org/ Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi Qualità dell’informazione numerica e pre-processing Test multipli e controllo dell’errore Selezione di geni differenzialmente espressi