LEZIONE 1 Array Greppi - Laboratorio di Bionanotecnologie

Analisi ARRAY
QUALUNQUE TECNOLOGIA
SUFFICIENTEMENTE AVANZATA E'
INDISTINGUIBILE DALLA MAGIA
ARRAY
•  Come definito da Schena ed altri (Scienze 270,
467-470, 1995), un DNA microarray è "un
allineamento ordinato degli acidi nucleici, di piccole
molecole, che permette l'analisi parallela dei
campioni biochimici complessi".
RICERCA DI BASE
RICERCA DI NUOVI GENI
ibridazione del cDNA in siti di probabili ORF
IDENTIFICAZIONE DI ELEMENTI REGOLATIVI
studio di coespressione genica
d'azione
EVOLUZIONE
profili di trascrizione
numero di copie di geni
polimorfismi
CARATTERIZZAZIONE DI SISTEMI COMPLESSI
organi e patologie specifiche
risposta allo stress
invecchiamento
VALUTAZIONE DELLA TOSSICITA'
tossici e farmaci
cibo
ambiente
RICERCA APPLICATA
FUNZIONE DEI GENI
pathway metabolici
analisi di mutazioni
RICERCA DI NUOVI FARMACI
identificazione e validazione del target
ottimizzazione dell'efficacia
meccanismo d'azione
DIAGNOSI DI PATOLOGIE
prognosi e diagnosi
classificazione dellle patologie
strategie di trattamento
CARATTERIZZAZIONE DI SISTEMI COMPLESSI
organi e patologie specifiche
risposta allo stress
invecchiamento
VALUTAZIONE DELLA TOSSICITA'
tossici e farmaci
cibo
ambiente
Funzione Genica
Sperimentalmente sono stati identificati ~ 10.000-40.000 geni
Un singolo gene solitamente è implicato in più di una funzione
biologica
Solo una piccola parte dei ~ 10.000 geni identificati ha almeno
una funzione certa
Perché è importante lo studio
dell’espressione genica
Si ipotizza che geni espressi in modo simile nelle stesse condizioni
sperimentali siano regolati da promotori simili
Si suppone che geni co-regolati siano coinvolti negli stessi processi
biologici (e che quindi abbiano funzioni simili)
interpreta
Mondo reale
Modello
osservazione
m odifica
verifica
Mondo reale
Modello
Rapp resentazione attraverso un modello generico
COSA SI VEDE
Causa
Effetto
TEORIA
Programma
Osservazioni
Si crede
Si vede
COSA SI CREDE
Rappresentazione di un modello statistico
Statistica: la certezza dell’incertezza
Non sono in grado di dare risposte certe ma posso specificare
oggettivamente le ambiguità e quantificarne gli effetti.
Principi dell’inferenza
Lo studio QUANTITATIVO dei fenomeni collettivi comporta la MISURA di una
pluralità di osservazioni riguardanti uno o più caratteri rilevati sulle
UNITA’ STATISTICHE (US).
Principi dell’inferenza
RILEVAZIONE STATISTICA può riguardare:
POPOLAZIONE=insieme di tutte le possibili osservazioni relative ad una certa
caratteristica
CAMPIONE=parte della popolazione
la rilevazione è totale
la rilevazione è parziale
INFERENZA
L’insieme delle tecniche che costituiscono il processo logicooperativo con cui è possibile estendere le conclusioni ricavate
dalle unità osservate a tutto il collettivo è detta
INFERENZA STATISTICA
si sviluppa in
verifica delle ipotesi
stima dei parametri
ignoti della popolazione
Misurazioni hard e misure soft
q  Precisione: accordo tra le misure replicate; non possiede un valore numerico,
è la qualità di una misura per cui essa è definita esattamente nel minimo
dettaglio. In alcuni casi questo termine viene impiegato come sinonimo di
validità.
q  Riproducibilità: reliability nella terminologia anglosassone, indica la
precisione tra le serie o tra giorni, ossia la stabilità di una osservazione.
q  Accuratezza: l’accuratezza rappresenta l’accordo tra la stima del parametro
ed il vero valore. Esistono due tipi di validità: quella interna che rappresenta il
grado di conformità con il campione della popolazione studiata, mentre quella
esterna rappresenta la possibilità di generalizzare i dati su altre realtà non
prese in considerazione.
q  Inaccuratezza: differenza tra la media di una serie di misure ed il valore vero.
La differenza viene espressa solitamente in %.
q  Bias: errore sistematico, rappresenta una distorsione dei risultati.
q  Attendibilità: è una caratteristica delle misurazioni ripetute.
Errore
---
Rand om
Sistematico
Grossolano
Precisione
Ottimale
Cattiva
Buona
--
Accuratezza
Ottimale
Buona
Cattiva
--
Il test
In ogni test statistico sono impiegate delle
procedure matematiche che prevedono il
rispetto di alcuni assunti, se tali assunti non
sono rispettati le conclusioni del test non
possono ritenersi valide
Campioni estratti dalla popolazione con tecniche random
q Omogeneità della varianza
q Normalità della distribuzione
q Addittività della varianza
IL MODELLO BASE
yij=µ+τj+ε
ANOVA (analysis of variance):
log (segnale ) = A + P + D + B + Rest
Il test
Si devono quindi rispettare alcune condizioni:
q  Aumentando le ripetizioni, si accresce la precisione (omogeneità).
q  Il numero di individui deve essere tendenzialmente uguale nei diversi gruppi.
q  Il test é valido solo se i gruppi sperimentali hanno subito un'influenza
sistematica (randomizzazione).
Tutti gli individui devono avere la stessa probabilità di essere assegnati ad un
trattamento.
q  La randomizzazione deve essere fatta con mezzi obbiettivi.
q  Nel corso dell'esperimento tutti i diversi individui devono essere influenzati
nello stesso modo dalle circostanze non controllate dell'esperimento.
q  Indipendenza degli errori.
Disegno Sperimentale
• Disegno dell’array
– quali sequenze spottare;
– se e quante repliche per gene inserire nell’array;
– utilizzo di sequenze di controllo;
– quanti controlli e dove questi controlli devono essere spottati.
• Posizionamento dell’mRNA sul vetrino
– quali campioni di mRNA da usare nella ibridazione competitiva;
– assegnazione dei florofori;
– repliche dell’esperimento.
Agire sul disegno sperimentale
• Gli esperimenti di microarray richiedono
Pianificazione guidata dagli obbiettivi sperimentali
FAQ:
Quante repliche sono necessarie per raggiungere gli obbiettivi?
• Devono essere chiari gli obbiettivi:
-Indicare una soglia minima di effetto che ci interessa
-Indicare la probabilità con cui si vorrebbe osservare il superamento di tale soglia
-Fare ipotesi anche forti: es. sulla forma delle distribuzioni di probabilità nelle
popolazioni di riferimento, su alcuni parametri delle distribuzioni ricavati da
osservazioni pregresse analoghe…
Disegno sperimentale
I campioni di interesse sono confrontati
con un campione di riferimento
Perchè misuriamo un campione di
riferimento?
…
Il ruolo del data-set di input (dati X)
per la costruzione di un modello
Nella costruzione di un modello vi sono due tappe fondamentali,
entrambe utilizzano porzioni del data set di input
FASE DI CALIBRAZIONE
Utilizza una parte dei dati
di input per trovare la
migliore matrice che lega
XeY
FASE DI VALIDAZIONE
Utilizza una parte dei dati di
input per verificare
(“validare”) che il legame
trovato sia generalizzabile ad
altri dati
excitation
cDNA clones
(probes)
laser 2
PCR product amplification
purification
scanning
laser 1
emission
mRNA target)
printing
overlay images and normalise
0.1nl/spot
microarray
Hybridise target
to microarray
analysis
Cos’è un microarray?
Fino a 44000
spots
Numerosi
probes
Microarray, in base all’uso
cDNA microarray: per permettere l’analisi su larga scala di un gran quantitativo
di mRNA come un indicatore dell’espressione genetica;
microarray SNP (“Single Nucleotide Polymorphism”) e array di mutazione: per
rilevare polimorfismi o mutazioni in una popolazione usando array SNP o array
progettati per rilevare mutazioni conosciute.
microarray CHG (“Comparative Hybridization Genomic”): per osservare perdite o
guadagni genomici, o un cambiamento nel numero di copie di un gene
particolare coinvolto in una malattia.
Tecnologie per la produzione:
Microarray a DNA
spottato
Microarray in situ
Applicazioni:
Analisi dell’espressione
genica
Identificazione di SNP,
sequenziamento
genico
Tecnologia del Microarray: analisi dell’espressione genica
trattamento
+X
Cellule
-X
estrazione mRNA
analisi dati
Marcatura
ibridazione
lettura
Esperimenti di Microarray
Permettono l’analisi
dell’espressione genica
di migliaia di geni
simultaneamente
Sia i macroarrays che i microarrays sono stati sviluppati per
soddisfare l’esigenza di misurare contemporaneamente
l’espressione di più geni. Entrambe le tecnologie si basano sullo
stesso principio:
L’array viene ibridizzato con una
miscela complessa di molecole
Come sonda si usano
marcate rappresentative
olgonucleotidi o molecole di cDNA
dell’mRNA espresso dalle cellule
non marcati, immmobilizzati in
in esame
posizioni precise di un supporto
solido
1
α
β
γ
δ
2
ε
ζ
η
θ
3
ι
κ
λ
µ
4
ν
ξ
ο
π
Array
C
mRNA
RT
Nucleotidi marcati
cDNA
Microrray: tecnologia Affymetrix
•  Le molecole sonda sono oligonucleotidi sintetizzati direttamente su microchip
di silicio con un metodo fotolitografico.
•  Su ogni microchip vengono sintetizzati fino a 400000 oligonucleotidi diversi.
• La metodica è stata sviluppata in modo da permettere misurazioni assolute
dell’abbondanza dei singoli mRNA
Microrray: tecnologia Affymetrix
50µm
~~50
50--400
400
chips/wafer
chips/wafer
50µm
probes
Thousands of identical
probes/feature
Oltre ~ 400,000
up to ~ 400,000 features/chip
Elaborazione delle immagini
Microarray Data Flow
Printer
Scanner
.tiff File
Analisi immagine
Raw Gene Expression Data
Gene Annotation
Normalizazzione
Filtraggio
AGED
Others…
MAD
Database
Normalizzazione Data con
Gene Annotation
Database
Database
Analisi di espressione
Interpretazione dei risulati
Data processing
Disegno sperimentale complesso
2 repliche
Disegno con 4 targets
“Cycle Design”
disegno = 4*2*2= 16
Reference
Target D
Cy3
Target A
Target B
Target C
Cy5
SCHEMA DI PROCESSO
Campione 1 mRNA
Cy3 intensità
RT
Cy3
Cy3-cDNA
RT
Cy5
Cy5-cDNA
Campione 2
cDNA
array
Cy5 intensità
I cDNA arrays sono solitamente
suddivisi in sotto sezioni ognuna
delle quali può essere
caratterizzata da specifici
problemi di background dovuti al
deterioramento delle tips di
spotting o ad un’ibridazione non
uniforme.
-Un approccio che permette di
minimizzare le discrepanze tra
le zone dell’array è la trattazione
indipendente delle varie
sottosezioni.
Morfologia matematica
È possibile misurare forme e posizione, orientazione, area,
perimetro.
Le Immagini sono a toni di grigio:
L’immagine è definita da:
un insieme di elementi (i pixel, pii)
l’origine O del sistema di riferimento
Analisi Immagine
1.  Addressing:TROVARE IL CENTRO
2" . Segmentation: classificazione dei pixels
3. Information extraction: per ogni spot calcolare l’intensità
del segnale e la qualità della misura. "
Photomultiplier tube (PMT)
Pinhole"
Detector lens"
Beam-splitter"
Laser"
Objective Lens"
Dye"
Glass Slide"
Processo di scannerizzazione
Laser"
Dye"
A/D"
PMT"
Convertor"
Electrons"
Segnale"
Photons"
Eccitazione"
Amplificazione"
Filtraggio"
"
LIMITI DI DETECTION
Lo Scanner genera immagini a 16 bit in scala di grigio TIFF: immagine
per ogni probe (Cy3 e Cy5) il segnale a 16 bit varia da 0 a
216=65536
Ogni immagine occupa da 20 to 30 MB per ogni vetrino con
risoluzione 10 mm/pixel
Image size 22 MB
Blending
Image size
28 MB
Parametri
pin X1
pin Y1
pin Y2
pin X2
Parameteri dello spot
spot spacing
Cerchiati in azzurro, di riconoscimento grossolanamente scorretto.
Nella figura (b) tali errori sono stati corretti manualmente
(il cerchio con barra verticale indica che il software
considera lo spot assente).
ADDRESSING
Vengono assegnate le coordinate ad
ogni spot.
L ‘automazione permette analisi high
throughput analysis.
•  4 per 4 rettangoli
•  19 per 21 spots rettangolo
Misure di Intensità
Per ogni spot
Intensità su canale 1:
x
Intensità su canale 2:
y
Più una serie di misure di qualità per ogni spot
Metodi di Segmentazione
•  Fixed circles
•  Adaptive Circle
•  Adaptive Shape
–  Edge detection.
–  Seeded Region Growing. (R. Adams
and L. Bishof (1994) :
•  Histogram Methods
–  Adaptive threshold.
—  Definizione della Intensità
— media (pixel intensità).
— mediana (pixel intensità).
—  Valori di Background
— Locale
— Morfologico
— Constante (global)
— Nessuno
—  Qualità dell’Informazione
PRENDERE LA MEDIA"
Limiti nella segmentazione circolare
— Piccolo spot
— Non circolare
Risultato da SRG"
Backgrounds LOCALI
Cosa viene misurato
•  Spot (SRG)
–  vallate
–  morfologia
•  ScanAlzye (cerchi predefiniti)
•  GenePix (addattamento)
•  QuantArray
–  Circhi predefiniti
–  Adattamento (Chen’s method)
–  Istogrammi
Segnale
Background
Spot Finding
Spot finding richiede una stima della dimensione
spot.
Lo spot può essere con contorno irregolare,
come una elisse, o con contorno non connesso.
Area per calcolare
Intensità spot
Area usata per il
calcolo del background
Background sottrazione...
Background subtraction è basata sul concetto che il segnale
è ADDITTIVO.
VERO = Spot - Spot Bkg
background
plus spot
intensity
Additivity idea
background intensity
PROBLEMA: PUO’ ESSERE< 0
microarray
Definizione e calcolo dello spot
Spot Area, A = numero dei pixels
definiti come spot boundary
BKG = mediana dei pixel
Integrale = Somma di tutti gli spot pixels
Esclusi quelli saturati
Intensità = Integrale-BKG*A
Integrazione segnale con Background
SEGNALE
Livello Background
Calcolo della intensità
n
⎡
⎤
I = ⎢∑ (Φi | Φi < 65536)⎥ − µ ⋅ nα
⎣ i =1
⎦
Φi
= intensità pixel iesimo
n
= numero dei pixels nello spot
µ
= mediana del background
nα
= numero dei pixels non saturati nello spot
Controllo di qualità
Due misure sulla qualità sono riportati dal programma SpotFinder:
•  Fattore di saturazione
•  QC Score; (indica la forma e il rapporto segnale/rumore).
Area saturata
Area non saturata
Spot saturato
Saturazione, Valore limite
Output:
pixel value
216=65536
Input:
Fluorescenza-Intensità segnale
Test sulla ADDITTIVITA’
Per il test sono necessari
•  Diversi punti
•  Misurare la linea di
intersezione con asse
verticale
Linearity (?) of Dye and
the need for background subtraction
Saturation Intensity
Spot
Intensity
Background corrected
spot intensity
Background
intensity?
Nr. dye molecules attached
to gene per pixel
Caratteristiche della misura
La misura della grandezza è
caratterizzata da:
- il valore di misura;
- l’incertezza di misura;
- l’unità di misura
Fattore di saturazione
Saturazione =
(# good pixels in spot)
(total number of spot pixels)
Misura della qualità
•  Array
–  Correlation between spot intensities.
–  Percentage of spots with no signals.
–  Distribution of spot signal area.
•  Spot
–  Signal / Noise ratio.
–  Variation in pixel intensities.
–  Identification of “bad spot” (spots with no signal).
•  Ratio (2 spots combined)
–  Circularity
ALCUNE FONTI DI VARIABILITA’
grado di marcatura del cDNA da ibridare derivato
da total RNA o mRNA.
Ibridazione
Lavaggi
Operatore
Effetti distorsivi
dye-effect (o effetto colore);
print-tip (o deposito irregolare);
array-effect (o effetto intensità).
QC Score
Il QC Score è determinato per ogni spot e considera
lo spot shape e misura il rapporto segnale/rumore.
QC Score
QCA
shape
signal/noise
QCB
shape
signal/noise
Parametri dello spot: SHAPE
Shape Factor = (Spot Area/Perimetro)
Spots con un perimetro relativamente elevato
rispetto all area possiedono uno shape basso.
216
Signal / Noise Ratio
Pixel Values
S/N factor = frazione degli spot pixels
che eccedono:
0
α*med(BKG) + β* SD(BKG)
med(BKG)
Quality Control
QC Score = (QCA+QCB)/2
QCA= radice (QC shape*QC S/N) per il canale A
QCB= radice (QC shape*QC S/N) per il canale B
Cause di variazione
I microarry contengono
fonti di variazione che
dipendono :
•  Dal gene
•  mRNA target
•  … dall’array
•  … dal print-pin
•  … dal colorante
•  … dal background.
Definizione della qualità delle repliche
log2(t/c)
Valore definito dall’utente in funzione della qualità delle repliche; ad es.:|log2(Cx/Cy)|=
0.6.
Un modo molto usato per visualizzare l’espressione differenziale è fare il plot delle
intensità di Cy5 rispetto a quelle di Cy3 e vedere come queste si discostavano dalla
diagonale su un grafico logaritmico.
Dudoit e collaboratori
hanno proposto un
diverso modo di
rappresentare le
espressioni differenziali,
che ruota di 45° le curve
che abbiamo visto.
Questo tipo di
rappresentazione si
ottiene plottando
log2(Cy5/Cy3) rispetto a
log2(√(Cy5*Cy3)
Nello stesso vetrino ci "
possono essere"
dei Movimenti"
4 by 4 grids
ALTRI :
-- Non perfetta calibrazione
-- Rotazione
-- Deformazioni nell’array
Soluzioni??
J. Andrews (Genome Research, Vol 10 p. 2030 ):
“… Add 39,542 to make things positive… ”
Affymetrix handbook:
“partition the array in 16 pieces. Then calculate for each piece the average
of the lowest 2% of the background intensities. Subtract this value from
the signal intensity.”
Reference Standards
Utilizzare un insieme di geni invarianti, i quali si
presuppone abbiano un livello di espressione costante in
tutte le condizioni sperimentali.
- Housekeeping genes
- Geni scelti a posteriori sulla base della loro espressione tra
array
Normalizzazione
Identificare e rimuovere errori sistematici
– efficienza diversa delle due marcature;
– diverse quantità di mRNA per un canale e per l’altro (Cy3 e
Cy5);
– diversi parametri di scansione;
– bilanciamento dei laser;
– effetti di punte, effetti spaziali o di supporto.
• Necessaria per un confronto dei livelli di espressione
all’interno dello stesso array e tra array diversi
Normalizzazione:
maggior Fluorescenza = maggior espressione
1) Normalizzazione globale:
Un singolo fattore di normalizzazione (k) è calcolato per il bilanciamento dei
chip o dei canali.
Xinorm = k*Xi
2) Normalizzazione intensità
dipendente:
Invece di un singolo fattore
si utilizza una funzione che
compensa i bias intesitàdipendenti.
Normalizzazione globale
calcolare la mediana globale di Cy5 e di Cy3 fare il rapporto mediana Cy5/mediana
Cy3 moltiplicare il valore ottenuto per ognuno dei valori di Cy3 dei geni
Normalizzazione locale
Dudoit ha suggerito l’uso di una funzione di smoothing di dati scattered disponibile
all’interno del pacchetto R (lowess).
In particolare l’idea è calcolare la curva di smoothing (cj(log2(Cy5/Cy3)) per log2(Cy5/
Cy3) rispetto a log2(√(Cy5Cy3).
Sottrarre la curva di smoothing a log2(Cy5/Cy3): log2(Cy5/Cy3) - cj(log2(Cy5/Cy3).
Normalizzazione per punte
prima
dopo
Interpretazione dei risultati
i microarray sono il punto di partenza per successivi studi funzionali
•  Validazione dei risultati (di tutti o di una parte) ottenuti
con altre tecniche di laboratorio•  Ricerca bibliografica sulle possibili implicazioni
funzionali e interazioni geniche dei trascritti non regolati
•  Studio delle proteine associate ai trascritti identificati
differenzialmente espressi
Matrice dei risultati con una condizione sperimentale
Condizione
Gene 1
Gene 2
…
Gene n
x11
x21
…
xn1
Domande:
•  Quali geni sono differenzialmente
espressi ?
•  Cosa vuol dire differenzialmente
espresso ?
Nessun modello probabilistico ipotizzato
zik
Malato
Sovraespressi
1
geni
-1
Sottoespressi
Aik = E(xi1k)
Bik = E(yi2k)
zik = Log2(Aik / Bik)
Sano
Matrice dei risultati con più condizioni sperimentali
Cond. 1 Cond. 2
Gene 1
Gene 2
…
Gene n
x11
x21
x12
x22
…
Cond. m
…
x1m
…
x2m
…
…
…
…
xn1
xn2
…
xnm
Domande:
•  Quali geni sono
differenzialmente espressi
•  Quali e quanti geni sono
coespressi ?
?
ANALISI CLUSTER
Identificazione di gruppi di geni con profili di
espressione simili
Simili rispetto a cosa ?
Definizione di distanza
Geni sono punti nello spazio:
punti vicini nello spazio sono raggruppati insieme
ANALISI MULTIVARIATE dei dati
Analisi con più condizioni sperimentali
Ø Unsupervised Methods
ANALISI CLUSTER
Descrittiva (non so nulla a priori)
Ø Supervised Methods
ANALISI DISCRIMINANTE
Predittiva (devo sapere a priori la classe patologica di appartenenza dei pazienti)
Microarrays e loro funzione
diagnostica
Patologie diverse o sottoclassi della stessa
patologia hanno dimostrato essere caratterizzate
da diversi pattern di espressione.
Analisi Cluster
Identificazione di sottoclassi
non note della patologia.
Analisi Discriminante
Identificazione di gruppi di geni
marcatori della patologia stessa.
ANALISI CLUSTER
Tante informazioni: COME INTERPRETARLE ?
CLUSTERING
Clustering gerarchico
K-means clustering
G1
G4
g1 g8
g4 g5 g7
Linguaggio R
G5
G8
G2 G11
G6 G3
G7 G10
progetto Bioconductor