Quaderni di Bioinformatica
QUADERNI DI BIOINFORMATICA
Edizione a cura di S. Mura e G.F. Greppi
1
Quaderni di Bioinformatica
SCUOLA ESTIVA DI BIOINFORMATICA
II EDIZIONE (25 maggio -29 maggio 2009)
Biotecnologie agrarie e ambientali
Il corso si propone di fornire le conoscenze e gli strumenti statistici fondamentali per l’analisi dei dati ottenuti da esperimenti
condotti con microarray. La piattaforma microarray di riferimento sarà quella dei cDNA microarray, ma tutte le analisi svolte
saranno comunque estendibili anche alle altre piattaforme. Il software statistico di riferimento sarà il principalmente il SAS in
quanto consente, a differenza dei software dedicati, di sviluppare l’analisi dei dati scrivendo ogni singola procedura
parallelamente ai concetti teorici necessari all’interpretazione dei dati. Il corso si svilupperà in tre fasi. La prima riguarderà la
progettazione di un esperimento con i microarray e i meccanismi di genetica molecolare di base su cui si fonda la tecnologia
microarray. Il corso è orientato alle piattaforme Affymetrix ed Illumina. La seconda, detta fase di training, riguarderà l’analisi di
dati provenienti da un esperimento simulato. Sarà ipotizzato un disegno sperimentale semplice e i geni differentemente espressi
saranno conosciuti a priori. Questo consentirà di motivare le scelte fatte tra le numerose tecniche di analisi statistica riscontrabili
in letteratura oltre che da un punto di vista sia teorico che strettamente biologico, anche in termini di efficienza nella
individuazione di geni differentemente espressi. La terza fase, individuata come fase applicativa, riguarderà l’analisi di dati reali
ricavati da un esperimento complesso con i microarray.
Docenti: Prof. Adriano Aguzzi, Prof Luigi Bonizzi, Prof. Corrado Dimauro, Dott. Andrea Galli, Prof. Gian Franco Greppi, Prof.
Nicolò Maciotta, Dott. Paolo Menesatti, Prof. Alessio Valentini,
La macro aree trattate:
-Basi molecolari della tecnologia microarray
-Generazione di microarray da banche dati di sequenze con annotazione automatica
-Disegno sperimentale con microarray
-Controllo di qualità degli spot
-Normalizzazione dei dati
-Statistica di base per l'analisi dei microarray
-Analisi delle fonti di variabilità dei dati preprocessing (normalizzazione dei dati ed approntamento del data-set finale).
- Image analysis in combinazione con la modellistica multivariata
-Dai dati prodotti dal software di analisi delle immagini, all’espressione differenziale dei geni e al data-summary.
-Introduzione all'uso dei linguaggi
-L’analisi statistica della espressione dei geni
-Modelli statistici per l’individuazione dei geni diversamente espressi
-Pattern e clusters di geni
-Esercitazioni con dati simulati
Le esercitazioni avverranno utilizzando i Prodotti Software di SAS Institute e manuali messi
gentilmente a disposizione.
Questa dispensa contiene alcuni testi di supporto didattico alle lezioni del corso, la stampa ed il materiale fornito nel CD è stato
realizzato grazie al contributo della Fondazione Iniziative Zooprofilattiche di Brescia.
2
Quaderni di Bioinformatica
ARRAY E MICROARRAY
QUALUNQUE TECNOLOGIA
SUFFICIENTEMENTE AVANZATA E'
INDISTINGUIBILE DALLA MAGIA
Gian Franco Greppi
Stefania Mura
CNBS (Centro NanoBiotecnologie Sardegna)
Dipartimento di Scienze Zootecniche,
Università di Sassari
Via De Nicola 9, 07100 Sassari
INTRODUZIONE
Storicamente le ricerche in genetica sono state focalizzate sullo studio di uno o pochi geni alla volta. Negli ultimi anni l'identificazione
di un enorme numero di geni ha portato alla necessità di sviluppare nuove tecniche più adeguate ad un'analisi su larga scala. Due
sono state le innovazioni sperimentali che hanno permesso l'analisi simultanea di decine di migliaia di geni. Una è l'utilizzo di supporti
rigidi non porosi come il vetro, molto più adatti alla miniaturizzazione ed all'utilizzo di marcatori fluorescenti. L'altra è la sintesi ad alta
densità spaziale di oligonucleotidi su vetrini sottilissimi con tecniche fotolitografiche. Si è giunti alla nascita di una nuova tecnologia di
analisi comunemente chiamata microarray o DNA chip dopo un percorso che è partito negli anni ’90 e di seguito brevemente
richiamato. La conoscenza di varianti genetiche è da tempo un elemento nella diagnostica e nella la cura di pazienti in biomedicina.
Per esempio, varianti genetiche portano ad incompatibilità tra tessuti ed organi inficiando il successo di un trapianto. Ma variazioni
nella sequenza genomica portano anche ad una diversa suscettibilità verso tutti i tipi di patologie, ad una differente età nella
insorgenza e di gravità di molte malattie genetiche, e causano anche una diversa efficacia nella cura. Gli studi di associazione non
coinvolgono l'analisi di genealogie di grandi famiglie ma confrontano la prevalenza di un particolare marcatore genetico, o di un
gruppo di marcatori, in soggetti affetti e non affetti dalla patologia. Una prevalenza di un marcatore nel gruppo di pazienti affetti viene
considerata evidenza di una associazione tra la malattia ed il marcatore. L'associazione non è un fenomeno specificatamente
genetico; è una deduzione statistica di coesistenza di alleli e/o fenotipi. L'allele A è associato con la patologia P se i soggetti che
presentano P hanno anche una frequenza dell'allele A significativamente maggiore di quella prevista dalle frequenze individuali di A e
P nella popolazione.
Marcatori molecolari
Con il termine di marcatore molecolare si intende un qualsiasi carattere polimorfico mendeliano che può essere impiegato per seguire
l'ereditarietà di un segmento cromosomico attraverso un albero genealogico.
Per le analisi di associazione è necessaria la presenza di meiosi informative, ovvero casi in cui è definibile quando un gamete è o
meno ricombinante. Per la maggior parte degli scopi l'eterozigosità media di un marcatore (la probabilità di un soggetto scelto a caso
di essere eterozigote) è utilizzata come misura di informatività del marcatore stesso.
I polimorfismi genetici sono variazioni nelle sequenze di DNA presenti in una popolazione con una frequenza maggiore dell'1% e
costituiscono strumenti fondamentali per gli studi di genetica.
Nei primi anni ottanta i polimorfismi genetici hanno formato, per la prima volta, un gruppo di marcatori sufficientemente numeroso ed
adeguatamente distribuito lungo tutto il genoma da permettere ricerche di associazione in tutto il DNA genomico.
I primi marcatori molecolari ad essere studiati furono gli RFLP, Restriction Fragment Length Polymorphisms (polimorfismi della
lunghezza dei frammenti di restrizione). Si tratta di una metodica complessa che può avere come scopo la formulazione di un
consiglio genetico. Permette di studiare la trasmissione di un gene in seno a una famiglia quando non è nota la sua sequenza ma
solo la sua localizzazione su di un cromosoma. La metodica si serve dell’analisi delle sequenze non codificanti di DNA contigue
al gene in esame e le utilizza come suoi markers indiretti. Prevede numerosi passaggi tra cui la digestione dell’acido nucleico da
parte di enzimi di restrizione, dell’elettroforesi per la separazione dei frammenti così ottenuti e del southern blotting per il loro
trasferimento su di un filtro di nitrocellulosa. Per potere individuare i siti di restrizione, la regione del genoma di interesse viene
amplificata tramite PCR ed i prodotti vengono incubati con l'enzima. Eseguendo quindi un'elettroforesi su gel di agarosio si è in
grado di determinare se il frammento amplificato è stato tagliato o meno, ovvero se la sequenza specifica riconosciuta dall'enzima è
presente inalterata oppure no. Uno svantaggio di questo tipo di marcatori è dato dalla loro bassa informatività. Infatti gli RFLP
presentano solo due alleli possibili: il sito di restrizione può essere intatto oppure no. L'impiego di questi marcatori per eseguire la
mappa genetica di patologie è però poco attuabile in quanto troppo spesso delle meiosi chiave in una famiglia risultano non
informative.
3
Quaderni di Bioinformatica
Un'altra categoria di marcatori comprende i minisatelliti VNTR (Variable Number of Tandem Repeat), detti anche ripetizioni a tandem
a numero variabile. Hanno sequenze ripetute lunghe una decina di nucleotidi. Tali marcatori sono multiallelici e presentano un alto
grado di eterozigosità. La maggior parte delle meiosi risulta informativa ma i VNTR presentano delle difficoltà relative alla
genotipizzazione in quanto vista la loro lunghezza tali marcatori vengono amplificati con difficoltà in una reazione di PCR. Inoltre non
sono uniformemente distribuiti lungo tutto il genoma. Un ulteriore tipo di marcatori sono i microsatelliti, detti anche ripetizioni a tandem
semplici. Sono ripetizioni lunghe da due a quattro nucleotidi. L'impiego di sequenze tri- o tetranucleotidiche sta gradualmente
soppiantando l'utilizzo di quelle dinucleotidiche, troppo soggette ad uno slittamento della lettura dell'enzima durante la PCR. Come i
precedenti, anche questi marcatori sono multiallelici dal momento che il numero di ripetizioni per ogni allele può variare. Tra i
marcatori molecolari più utilizzati vi sono gli SNP. Come suggerisce il nome, i Single Nucleotide Polymorphisms (polimorfismi a
singolo nucleotide) sono singole variazioni puntiformi del genoma. Tali polimorfismi includono i classici RFLP, ma anche altre
variazioni di sequenza che non creano o sopprimono siti di restrizione. Può sembrare paradossale tornare all'impiego di polimorfismi
biallelici dopo avere individuato dei marcatori pluriallelici, ma il grande vantaggio nell'utilizzare degli SNP è dato dall'elevato numero di
polimorfismi che possono essere genotipizzati e dalla loro elevata densità lungo tutto il genoma. A giugno del 2004 nell'uomo è stata
stimata una frequenza per gli SNP pari ad uno ogni 700pb. Un’elevata densità rende possibile individuare uno o più marcatori in ogni
gene e nelle sue immediate vicinanze. Per quanto concerne i cambi di base relativi agli SNP, si è osservato che le transizioni, ovvero
cambi purina-purina (A vs G) o pirimidina-pirimidina (C vs T), si ritrovano con frequenza maggiore delle trasversioni, ovvero cambi
purina-pirimidina e pirimidina-purina.
Oltre all'elevato numero di SNP conosciuti, il fatto più importante è che oggi si ha una conoscenza precisa di dove sono situati
all'interno del genoma. Il principale impiego di una mappa di SNP umana è dato dalla possibilità di discernere i contributi di diversi
geni in patologie multigeniche complesse.
Dato che siti di SNP sono presenti in tutto il genoma, confrontando lo schema e le frequenze di tali polimorfismi presenti in pazienti
affetti con quelli di soggetti sani di controllo, è possibile identificare quali SNP sono associati a quali malattie. Gli studi relativi
all'associazione tra SNP e malattie saranno più fruttuosi quando verranno risolti alcuni problemi ancora esistenti. Primo, sono poco
conosciute le distribuzioni degli SNP all'interno di diverse popolazioni. Altro fattore importante è che non tutti gli SNP sono eguali, e
sarà essenziale scoprire il più possibile riguardo al loro effetto da analisi computazionali prima di eseguire uno studio relativo al loro
coinvolgimento eventuale in una patologia. Per esempio, ogni SNP può essere classificato in base alla sua presenza in una zona
codificante o non. A loro volta quelli siti in zone codificanti possono essere divisi in base alla loro capacità di alterare o meno la
proteina prodotta dal gene alterato. Alterazioni alla proteina poi possono essere suddivise in base alla loro capacità di modificare la
struttura secondaria e terziara della proteina stessa. Gli SNP situati in zone non codificanti possono poi trovarsi in zone regolatrici.
Molte patologie complesse possono essere causate da variazioni nella quantità, più che nella qualità del prodotto genico coinvolto.
Vi sono numerosi approcci per l'identificazione di SNP, tra questi alcuni vengono anche impiegati per la genotipizzazione. I principali
sono basati sul confronto di sequenze relative ad un determinato locus, provenienti da diversi cromosomi. Tra questi, il più semplice
consiste nell'eseguire il sequenziamento diretto dei prodotti di PCR di regioni genomiche contenenti il gene di interesse in individui
diversi. Su larga scala però tale approccio è molto costoso richiedendo lo studio di primer specifici; inoltre limitato a regioni di cui è
nota la sequenza e, quando si presentano doppi picchi, come atteso negli eterozigoti, non è sempre facile discernere tra artefatti
dovuti al sequenziamento e polimorfismi reali. Diversi approcci basati sul confronto di sequenze ottenute da frammenti clonati
possono essere considerati per ottenere una mappa di SNP in un genoma. In questo caso qualsiasi picco doppio viene considerato
artefatto. Il confronto tra dati di sequenze prodotte in diversi progetti di EST, specialmente se le librerie costruite sono state ottenute
prelevando campioni da diversi individui, possono essere una buona fonte di SNP. Ad ogni modo il numero di SNP individuabili con
questo approccio è limitato dalla pressione selettiva subita dalle sequenze codificanti del genoma. Inoltre, in rari casi, gli SNP
individuati in questo modo potrebbero essere in realtà dovuti a modificazioni post-trascrizionali. Un approccio simile può essere
applicato per i genomi in fase di sequenziamento completo. In questo caso il confronto tra cloni BAC sovrapponibili è una buona fonte
di SNP. Lo svantaggio di tale approccio è dato dal fatto che l'individuazione degli SNP dipende dal numero di cloni BAC
sovrapponibili presenti nella genoteca e provenienti da cromosomi diversi. Recentemente un nuovo approccio chiamato Reduced
Representation Shot-gun (RRS) viene utilizzato per ottenere un elevato numero di SNP nell'uomo. In questo metodo, il DNA
proveniente da diversi individui è mescolato e vengono prodotte delle librerie plasmidiche composte da sottoinsiemi di frammenti di
restrizione purificati tramite elettroforesi su gel.
Viene quindi realizzato un sequenziamento di tipo shotgun su tali librerie e le sequenze che risultano sovrapponibili vengono allineate
andando ad evidenziare i polimorfismi. Quest'ultima fase ha beneficiato grandemente dello sviluppo di programmi come PHRED atti a
stimare la qualità con cui viene definita una base ed altri programmi come POLYPHRED o POLYBAYES che impiegano questo indice
di qualità per il rilevamento di polimorfismi.
Il termine Microarray, definito anche biochips" (comunemente conosciuto come gene chip, DNA chip, o biochip) è un insieme di
piccoli elementi, detti anche spots, sistemati su file orizzontali e colonne verticali; il termine è composto da "micro", che in greco
significa "piccolo" e dal francese "arayer", che significa "sistemare”, ed è sostanzialmente costituito da una collezione di
microscopiche sonde di DNA attaccate ad una superficie solida come vetro, plastica, o chip di silicio formanti quindi un array. Come
definito da Schena ed altri (Scienze 270, 467-470, 1995), un DNA microarray è "un allineamento ordinato degli acidi nucleici, di
4
Quaderni di Bioinformatica
piccole molecole, che permette l'analisi parallela dei campioni biochimici complessi". Con il completamento del progetto genoma
siamo entrati in possesso di un prezioso e ricco dizionario, con molti vocaboli ma pochissime definizioni. L’obiettivo della
postgenomica è stato quello di trovare le definizioni mancanti, utilizzare le informazioni di genomica strutturale per spiegare e
analizzare i processi biologici su scala genomica, e assegnare la corretta funzione ai diversi geni. Gli array vengono utilizzati per
esaminare il profilo d’espressione di un gene o per identificare la presenza di un gene o di una breve sequenza in miscela di migliaia
(spesso anche tutto il patrimonio genetico di un individuo umano o non). Un microarray è rappresentato da elementi microscopici su
una superficie piana su cui è possibile immobilizzare sia acidi nucleici che proteine capaci quindi di riconoscere e legarsi con
molecole complementari. La tecnologia permette di realizzare, pertanto, sia reazioni di ibridazione, quando si tratti di acidi nucleici, o
reazioni immunitarie, quando si tratti di antigeni o anticorpi. Un microarray può essere considerato un potente mezzo diagnostico se
presenta quattro caratteristiche standard ossia essere ordinato, microscopico, planare e specifico. Ordinato, significa che gli elementi
analitici, detti anche molecole probe o chip o spot, devono essere disposti in modo ordinato e preciso lungo file orizzontali diritte ed
incolonnati anche su file verticali perfettamente perpendicolari. I vari elementi devono essere, ovviamente, di grandezza uniforme e
separati da spazi uniformi. E' assolutamente necessario che tali elementi siano disposti in maniera ordinata, sia su linnee orizzontali
che verticali, perché questo ne facilita la produzione in automazione e, quindi a costi contenuti, ma, ancora più importante, ne facilita
e accelera l'esame e l'interpretazione dei risultati. Ogni elemento deve essere uniforme per non rendere ambigua la lettura. Non è
ammissibile la se pur minima sbavatura che rischierebbe di contaminare la lettura dell'elemento vicino. Elementi di forma diversa o di
diversa densità, anche se contenenti lo stesso numero di molecole, darebbero luogo ad un segnale di diversa intensità,
compromettendo la precisione del risultato. Inoltre, ovviamente ogni elemento deve avere una collocazione ben precisa, in base alle
sequenze desiderate, di modo che, automaticamente, si sappia che il dato che la macchina legge corrisponda ad un unico e ben
preciso probe o spot.
La necessità d'assegnare una funzione a ciascuna delle migliaia di geni identificati grazie alla genomica ha reso indispensabile
tecniche che permettano l'analisi simultanea di moltissimi campioni. I macro- e micro-array rispondono a questa esigenza. Le due
tecnologie, identiche nel principio, differiscono nel numero di geni simultaneamente analizzabili (da qualche centinaia a qualche
migliaia per i macro-array; da diverse migliaia a interi genomi per i micro-array) e nel tipo di supporto utilizzato (classiche membrane
di nitrocellulosa o nylon per i macro-array; supporti o "chip" in vetro o altro materiale inerte per i micro-array). Corti frammenti di acidi
nucleici ("oligonucleotidi" della lunghezza compresa fra poche decine e qualche centinaia di paia di basi) corrispondenti ad un
particolare tratto della sequenza dei geni presenti in un particolare tipo di cellula vengono immobilizzati in maniera ordinata e
sistematica in punti precisi (o "spot") del supporto prescelto. Il numero di geni rappresentati è quindi funzione della densità degli
"spot" genici sul supporto come riportato nella immagine.
La tecnologia dei microarray rappresenta un nuovo
potente strumento di ricerca. Il suo sviluppo è stato
possibile solo grazie all’integrazione di diverse
discipline, quali la biologia molecolare, la genetica,
più moderne nanotecnologie, la chimica degli acidi
nucleici, i nuovi software, la robotica e
l’automazione. Esistono infiniti campi di
applicazione per questa nuova tecnologia che
spaziano dall’analisi dell’espressione genica, DNA
RNA microarray, all’analisi delle differenti proteine
presenti in differenti tipi di campioni, protein
microarray, fino ad arrivare alle applicazioni citologiche ed immunoistochimiche dei Tissue microarray.
le
ed
Classificandoli in base alla metodologia costruttiva, esistono tre tipi principali di microarray:
microarray di cloni di DNA: microarray per uso specifico composti di oligonucleotidi oppure di cDNA (ovvero DNA complementare a
singola catena ottenuto per clonazione da un campione di mRNA precedentemente isolato);
microarray di oligonucleotidi prefabbricati: il posizionamento degli oligonucleotidi è fatto sfruttando l’attrazione elettrostatica
esercitata su di loro da parte di microelettrodi;
microarray di oligonucleotidi sintetizzati in situ: microarray ad alta densità contenenti oligonucleotidi sintetizzati usando tecniche
fotolitografiche o di tipo“ink-jet”.
I microarray di cloni sono i più usati e possono analizzare RNA proveniente da due diversi campioni su un singolo chip; le limitazioni
derivano dalla disponibilità di cloni e dalla qualità dei campioni di mRNA. Le altre due classi sono anche note come array
microindirizzabili e permettono l’analisi dell’espressione di un gran numero di geni contemporaneamente ma possono analizzare un
solo campione per chip, con costi considerevoli.
5
Quaderni di Bioinformatica
È possibile classificare i microarray, in base all’uso che ne viene fatto, in tre categorie:
1. cDNA microarray: per permettere l’analisi su larga scala di un gran quantitativo di mRNA come un indicatore
dell’espressione genetica;
2. microarray SNP (“Single Nucleotide Polymorphism”) e array di mutazione: per rilevare polimorfismi o mutazioni in una
popolazione usando array SNP o array progettati per rilevare mutazioni conosciute.
3. microarray CHG (“Comparative Hybridization Genomic”): per osservare perdite o guadagni genomici, o un cambiamento
nel numero di copie di un gene particolare coinvolto in una malattia.
Per quanto riguarda il campo della genomica funzionale i DNA microarray consentono il monitoraggio simultaneo dell’espressione di
migliaia di geni, fornendo un preziosissimo ed innovativo strumento ai ricercatori. Prima di analizzare in dettaglio è opportuno
ritornare al lavoro di Schena e Davis che nel 1999 hanno tracciato una serie di 12 regole che devono sempre essere tenute presenti,
quando si opera con i microarray per ottenere risultati corretti ed apprezzabili. Le riportiamo in sintesi:
1.
Le analisi dei geni devono essere sempre eseguite in parallelo. La valutazione dell'attività dei geni non può essere mai fatta
correttamente su supporti solidi ma non paralleli quali il nylon o la nitrocellulosa, che non hanno una superficie piana.
Occorre poter operare su una superficie perfettamente piana come quella del vetro o di altro materiale che abbia le stesse
caratteristiche. Infatti solo su una superficie perfettamente piana si possono allineare gli spots senza che si creino
inaccettabili convergenze che renderebbero impossibile la lettura in automazione o comunque altererebbero i risultati.
2. Le tecnologie di preparazione devono sempre rendere possibile la miniaturizzazione e l'automazione. Tutti i metodi di
produzione dei microarray, compresa la fotolitografia o le procedure a getto d'inchiostro, devono tendere a realizzare un
prodotto che, comunque, rientri in questi canoni, affinché possa soddisfare la clientela.
3. Ciascun ciclo di analisi dei geni ha cinque fasi evolutive. Come i cicli della vita si ripetono in un divenire sempre identico per
cui si ha prima la nascita, poi lo sviluppo, la crescita per finire con la morte, cosi, per l'analisi dei geni si deve procedere
attraverso cinque tappe: impostare il quesito biologico, preparare il campione, eseguire la reazione biochimica, raccogliere i
risultati, analizzarli per arrivare alla risposta finale.
4. La manipolazione del sistema biologico deve aderire esattamente al quesito biologico. Qualsiasi problema si affronti, sia
che riguardi batteri, lieviti, organismi geneticamente modificati, piante, animali bisogna sempre stare molto attenti alle
influenze dell'ambiente, alla temperatura, ai trattamenti che si fanno e quindi a tutte le tecnologie che si applicano per
evitare che si creino artefatti. Per esempio quando si lavora con le piante bisogna tener presente non solo che la
temperatura sia quella giusta, ma anche l'influenza dell'intensità luminosa e la concentrazione del CO2. Con qualsiasi tipo di
cellula in coltura, il terreno di crescita, il volume o il tipo di recipiente, l'agitazione e tanti altri fattori possono influenzare
l'espressione genica in modo anomalo compromettendo così il risultato finale dell'esperimento.
5. Il campione biochimico deve riflettere esattamente l'esemplare biologico. Bisogna fare in modo che l'isolamento, la
purificazione l'amplificazione, la marcatura e qualsiasi altro metodo o tecnologia si applichi non alterino il campione che si
desidera analizzare. Tener presente che, specialmente le molecole di RNA, sono suscettibili a rapidi cambiamenti fino alla
totale denaturazione da parte di ribonucleasi frequentemente presenti in alcuni ambienti. Anche la marcatura è una fase
che può creare problemi se non si sceglie un tipo di tecnica che sicuramente poi dia la esatta misura del campione.
6. Una presentazione parallela deve sempre essere associata a campioni precisi e correttamente dosati. Quindi non solo i
probes vanno disposti in piano e su linee parallele per rendere possibile la corretta misurazione dei targets, ma anche
essere omogenei e correttamente legati al substrato, altrimenti non vanno usati.
7. Il sistema di lettura deve poter acquisire dati precisi dal posizionamento dei campioni in parallelo. Sia che si tratti di
scanners che di imagers la lettura degli spots divenuti fluorescenti si deve poter svolgere in maniera corretta. Quindi
bisogna scegliere apparecchi con una buona sorgente luminosa, un 'ottica senza difetti e così per tutti i componenti del
sistema di lettura che deve essere in grado di ridurre al minimo sia il rumore di fondo che tutte le eventuali interferenze che
possano alterare in qualche modo il segnale.
8. I dati che provengono dal sistema di lettura devono essere manipolati ed elaborati con precise modalità. Occorre poter
operare con un potente apparecchio di bioinformatica, completato da un ottimo software, per arrivare a risultati che siano lo
specchio del campione biologico sotto esame. Devono essere apparecchi in grado di fornire non solo una serie di numeri
corrispondenti all'intensità della fluorescenza dei singoli spots ma anche un'immagine grafica dell'insieme. Solo così si
riesce ad avere un quadro completo dell'identità dei targets e delle sequenze depositate ed interpretare correttamente il
valore anche di segnali molto deboli.
9. La comparazione dei risultati di due o più esperimenti deve essere sempre soggetta alle limitazioni del caso. Almeno fino a
quando non si potrà disporre di standard di riferimento, certamente i dati di analisi genica che si riescono a raccogliere sul
singolo vetrino sono certamente più attendibili. I dati ottenibili su vetrini di diversa fabbricazione o l'uso di colori fluorescenti
diversi o tecniche diverse possono dare risultati che talvolta non sono facilmente comparabili.
10. Le conclusioni concernenti le relazioni fra i geni (spesso si tratta di grandi numeri) possono essere tratte solo se in un
singolo esperimento si prendono in esame tutte le variabili e si arrivi ad una elaborazione statistica adeguata dei risultati.
6
Quaderni di Bioinformatica
Questo significa che conclusioni riguardanti un determinato processo e concernenti un certo organismo o sistema possono
essere significative solo se, nello stesso esperimento, o meglio con un unico vetrino, si prendono in esame
contemporaneamente tutti i geni di quel genoma che concernono quel processo. Quindi anche un microarray con 10.000
geni, pur fornendo un enorme quantità di dati, può risultare insufficiente se si vuole approfondire un sistema alla cui
attuazione concorrono circa 15.000 geni.
11. L'impostazione analitica deve sempre comprendere tutti gli elementi e le variabili intrinseche ed estrinseche del sistema. Le
analisi eseguite con i microarray non devono mai restare in un contesto interpretativo isolato, ma vanno sempre inquadrate
in una visione globale del sistema che deve comprendere anche i dati molecolari, biochimici, chimici, fisici, enzimatici
nonché le proprietà strutturali sia del gene che i suoi prodotti. Quindi per ogni organismo che interessi, le valutazioni con i
microarray possono essere valutate meglio in un contesto globale di altre informazioni che comprendano anche i rapporti
gene-gene e proteine-proteine derivate.
12. L'analisi parallela di un organismo si può considerare completa solo quando in un contesto quadridimensionale sono
assemblate tutte le variabili del sistema. Un quadro completo dell'espressione genica di un determinato organismo, si può
dire di averlo solo se si conoscono tutte le variabili di ogni gene, in ogni cellula, in ogni fase della vita. Questo significa che
l'attività genica cambia continuamente e quindi va sempre studiata come un film in movimento.
Applicazioni della tecnologia microarray
La tecnologia dei DNA microarray è ancora agli esordi, e sta tutt’oggi crescendo. Le applicazioni di tale tecnologia sono comunque
molteplici, dallo studio dei geni coinvolti nell’insorgenza del cancro e di numerose patologie, alla caratterizzazione di pattern
metabolici.
Gli array sono un importante strumento anche per l’identificazione e la caratterizzazione di nuovi geni. I DNA chips sono stati utilizzati
nella diagnosi e nella prognosi delle malattie e nel design di nuovi farmaci [21, 22]. Le applicazioni in campo umano sono
innumerevoli soprattutto grazie al fatto che l’intero genoma è stato sequenziato. Una grande limitazione di questa tecnologia, oltre al
costo ancora troppo elevato, è infatti la necessità di disporre di sequenze geniche conosciute. Questo pone un enorme freno
all’utilizzo e all’applicazione di tali tecnologie in campo veterinario ed alimentare. Infatti il genoma degli animali di interesse zootecnico
è ancora per lo più sconosciuto.
Campi di utilizzo dei DNA microarray nella ricerca di base e applicata [19]. A differenza degli array oligonucleotidici ad alta densità, il
RICERCA APPLICATA
FUNZIONE DEI GENI
pathway metabolici
analisi di mutazioni
RICERCA DI NUOVI FARMACI
identificazione e validazione del target
ottimizzazione dell'efficacia
meccanismo d'azione
DIAGNOSI DI PATOLOGIE
prognosi e diagnosi
classificazione dellle patologie
strategie di trattamento
CARATTERIZZAZIONE DI SISTEMI COMPLESSI
organi e patologie specifiche
risposta allo stress
invecchiamento
VALUTAZIONE DELLA TOSSICITA'
tossici e farmaci
cibo
ambiente
basso costo e l’alta flessibilità degli gli array a cDNA rendono tale tecnologia molto più adatta alle istituzioni accademiche e alle
applicazioni pratiche della tecnologia. È infatti possibile produrre array home made contenenti un limitato numero di geni di interesse
al fine di effettuare studi molto mirati ed approfonditi, eliminando anche tutti gli irrisolti problemi di gestione dei dati degli array ad alta
densità. Conclusione: Le analisi con i microarray impiegano una miriade di tecnologie e metodi diversi ma sempre bisogna capire
bene di che cosa si tratti (What), del perché (Why) e come (How) l'obiettivo possa essere raggiunto nel modo migliore .
Storia dei DNA microarray
La prima intuizione di tale nuovo metodo di analisi si deve a Mark Schena dell’Università di Stanford, che ne ha fatto cenno ad
Amsterdam nel 1994 nel corso del quarto Congresso Internazionale di Biologia Molecolare delle Piante, ma la prima pubblicazione
riguardante questa nuova tecnica è dell'anno seguente (Schena et al. 1995). Presso l'Università di Stanford, che ha una lunga
tradizione negli studi sugli acidi nucleici, e presso i contigui Laboratori dell’Università di Davis, sono state infatti affrontate le prime
problematiche su come fissare sui vetrini microscopiche linee di sequenze di geni delle piante e su come studiarne l'espressione
utilizzando campioni di mRNA isolati dalle cellule e coniugati ad un enzima per poter evidenziare poi l'avvenuta reazione con la
comparsa di fluorescenza di intensità variabile e quindi misurabile. Quindi i microarray, come i microprocessori, sono nati nella Silicon
Valley. Parallelismo, miniaturizzazione ed automazione sono tre aspetti che mettono in luce una certa similarità fra le due tecnologie.
In realtà possiamo iniziare la storia dei microarray con il primo semplice esempio di array, denominato “dot blot” per arrivare allo
sviluppo dei microarray ad alta densità [1]. L'origine di tale nuova tecnologia va fatta risalire agli esperimenti di Southern che, nel
7
Quaderni di Bioinformatica
1975, dimostrò come fosse possibile fissare il DNA ad un supporto solido ed attrarre, in modo specifico, una catena complementare
sempre di DNA. Tale processo, poi largamente utilizzato per scopi diagnostici, è noto come “Southern blotting". Le tecniche standard
di laboratorio per il rilevamento di specifiche sequenze nucleotidiche utilizzano una sonda (probe) di DNA, costituita da un piccolo
frammento di acido nucleico marcato con un isotopo radioattivo o una sostanza fluorescente. La sonda, rappresentante la sequenza
complementare a quella del gene da individuare, viene posta in contatto con un supporto solido (ad esempio, un gel od un filtro
poroso) sulla cui superficie sono ancorati acidi nucleici provenienti da un dato genoma. Grazie alla peculiarità degli acidi nucleici di
riconoscere le sequenze ad essi complementari, la sonda può legarsi in maniera selettiva al frammento ancorato ad essa
complementare così che, semplicemente misurando la presenza e la quantità di marcatore legato al supporto solido, è possibile
quantificare se e quanto è stato espresso un determinato gene (Southern et al, 1975).
I principi fondamentali dei test di ligazione miniaturizzati di spot paralleli erano già stati descritti da più di un decennio. Roger Ekins e
colleghi avevano descritto le ragioni per cui i saggi effettuati utilizzando i microspot erano più sensibili di qualsiasi altro test di
ligazione [2-4]. Inizialmente l’elevata sensibilità e l’enorme potenziale delle tecnologie basate sui microspot sono stati dimostrati
utilizzando sistemi miniaturizzati per i test immunologici. Tuttavia l’interesse della tecnologia degli “spot” si è presto concentrata sulla
creazione dei “DNA chips”. La possibilità di eseguire centinaia di reazioni di ligazione in parallelo in un unico esperimento
corrisponde, infatti, alla necessità nella ricerca biologica di un approccio a livello genomico più ampio. Il sogno della sequenza
completa del DNA umano (o genoma) nacque praticamente il giorno seguente al quale Sanger scoprì come leggere il DNA. Fu poi
Fodor, che nel 1991, fabbricò i primi microarray, combinando il metodo fotolitografico, usato per i semiconduttori, per realizzarne i
primi fissando degli oligonucleotidi su superfici di vetro.
Avendo intuito l'importanza commerciale che tale
tecnologia avrebbe potuto avere, fondò l'Affymetrix che ha
avuto il merito di mettere sul mercato i GeneChip, che
sono stati i primi vetrini con DNA utilizzabili per tests
genetici. Nel 2002 questo sogno divenne parzialmente
realtà. Il genoma umano fu dichiarato completamente letto
fra squilli di tromba e grandi clamori. Più in piccolo, sotto i
titoli, si leggeva che, in fin dei conti, ci si era limitati a
leggere il 98% della sequenza eucromatinica, ma tanto
bastava. Tutte le regioni del DNA altamente ripetitive, quali
per esempio i telomeri (le code dei cromosomi) e i
contromeri (il nodo centrale dei cromosomi), non erano
assolutamente stati letti. Ciò era dovuto a difficoltà
tecniche, queste regioni sono infatti composte
essenzialmente da un’infinità di ripetizioni di una piccola
sequenza di DNA e contengono pochissimi geni. Spesa totale, circa due miliardi di euro. Molto a prima vista ma, in fin dei conti, con
quei soldi oggigiorno ci si comprano un paio di aerei da caccia militari ultimo modello, o un decimo di traforo alpino per i treni ad alta
velocità. Soldi ben spesi dopo tutto. Non si sa se gabbati dalle loro stesse parole o semplicemente naif, i ricercatori erano attesi al
varco da una brutta sorpresa. Leggere il DNA significa ottenere la sequenza, non riuscire a capirci qualcosa. Ciò che portò un
professore dell’onorevolissimo MIT a commentare “abbiamo speso due miliardi per un libro che non sappiamo leggere”. Si fece quindi
un serio sforzo per cercare di interpretare quell’immensa massa di dati (quasi 3,2 miliardi di lettere) che era stata generata dal
sequenziamento del genoma umano. Oggigiorno questo sforzo è ben lungi dall’essere terminato ma importantissimi passi avanti
furono celermente compiuti. Alla fine del 2002 si conosceva in effetti la sequenza di qualche gene. Un’analisi di tutte queste sequenze
permise allora di identificare quelli che potevano essere considerati come i caratteri comuni a tutti, o almeno molti, geni. Identificati
questi caratteri, furono creati dei programmi informatici (chiamati ab initio) capaci di passare in rassegna l’intero DNA alla ricerca di
altri geni. Iniziò allora il valzer delle cifre. Il genoma umano contiene… le ultime stime dicono meno di 25′000 geni. Si era cominciato
con più di 150′000… molti altri geni furono in seguito identificati grazie al sequenziamento di RNA. Infine, quando altri genomi furono
sequenziati, un confronto fra questi e quello umano permise l’identificazione di numerose regioni del DNA che erano rimaste invariate
nonostante il lungo tempo evolutivo che le separava. Molte di queste regioni corrispondevano a geni. Una prima breccia nella
comprensione del DNA era stata aperta. Badate bene, si era unicamente riusciti ad identificare i geni. La funzione di questi ultimi
restava (e in parte resta ancora oggigiorno) ancora un mistero. Une seconda breccia sarebbe potuta essere aperta se l’espressione
temporale e spaziale dei geni fosse stata conosciuta. Per esempio un gene che si esprime a livello del cervello embrionale,
probabilmente avrà un ruolo nella formazione di quest’organo durante lo sviluppo precoce.
Fu allora che qualcuno ebbe un’idea geniale. Un gene, per essere utilizzato dalla cellula, deve essere fotocopiato in RNA, il quale
sarà in seguito tradotto in proteine. Questa tecnica permette di misurare unicamente l’espressione di un gene alla volta, senza
garantire per altro una quantificazione precisa dell’espressione del gene studiato (analisi unicamente qualitativa). Riuscire a misurare
la quantità di RNA significava riuscire a quantificare l’utilizzo di un dato gene. Una tale tecnica già esisteva con il nome di Northern
8
Quaderni di Bioinformatica
Blot. Questa tecnica applicata per la prima volta da Ed Southern nel 1975, ha aperto di fatto la strada alla possibilità di analizzare i
profili di espressione genica di un intero organismo. Tuttavia, l’applicazione su larga scala di questa metodologia si è avuta solo di
recente grazie all’utilizzo di supporti solidi non porosi, come il vetro, e alla messa a punto di tecniche fotolitografiche per la sintesi di
frammenti oligonucleotidici ad alta densità spaziale. In particolare, i protocolli sviluppati dal gruppo di Pat Brown a Stanford, hanno
permesso di ancorare automaticamente migliaia di catene di cDNA su vetrini da microscopio e, grazie alla loro ibridazione con
campioni di mRNA marcati selettivamente con molecole fluorescenti, di studiare il profilo di espressione di colture cellulari in stati
fisiologici diversi (Brown e Botstein, 1999). Parallelamente, sono state messe a punto tecniche di mascheramento fotolitografico,
normalmente utilizzate nell’industria dei semiconduttori, per la produzione di microarray capaci di 400.000 sonde oligonucleotidiche
su una superficie di un pollice quadrato (Lipshutz et al, 1999).
L’idea geniale fu di cercare misurare in un sol colpo l’espressione di tutti i geni conosciuti. Si sapeva da mezzo secolo che il DNA è
una doppia elica. Le due eliche, se separate si riassociano spontaneamente riformando sempre le coppie A-T, G-C. Le due eliche, se
separate anche molte volte, si riassociano sempre nella stessa posizione. Quest’associazione necessità la presenza delle coppie
sopracitate (A-T. G-C) e, nelle giuste condizioni di temperatura, avverrà solo se le
due sequenze sono perfettamente complementari. Una corta sequenza di DNA, può
dunque essere utilizzata come “sonda” capace di cercare sequenze a lei
complementari. Sebbene non si riuscisse a sintetizzare lunghe catene di DNA senza
una matrice (una copia già fatta) era possibile sintetizzare brevi sequenze
unicamente per via chimica. L’idea fu dunque questa. Sintetizzare migliaia di copie
di un frammento di un gene su uno spazio piccolissimo, poi immediatamente a
fianco di queste sintetizzare migliaia di copie di un altro gene, fino a produrre un
fascio di sonde per ogni gene dell’organismo. Se la sequenza è abbastanza lunga
(20-25 lettere) la probabilità che un altro frammento di DNA sia identico è
abbastanza bassa.
Ad esempio se utilizzassi “nel mezzo del cammin di nostra” (25 lettere spazi esclusi)
ognuno di voi saprebbe di che opera letteraria stiamo parlando, senza
necessariamente doverla citare per intero.
Tornando all’RNA simili sonde furono sintetizzate in griglie finissime. In ogni
quadratino della griglia fu inserita una diversa sonda capace di catturare tutti i
frammenti di DNA corrispondenti a un dato gene. L’insieme della griglia (contenente circa 25′000 posizioni) è quindi capace di
leggere, in un sol colpo, l’intera espressione genica delle cellule studiate.
Come detto l’espressione dei geni necessita la trascrizione dei geni in RNA. Avrete magari notato che, quando si parlava delle
proprietà di riassociazione delle due eliche, si faceva riferimento al DNA. Perché il sistema sopra proposto funzioni, vi è dunque la
necessità di trasformare tutto l’RNA di una cellula in DNA.
Come al solito la biologia, quando messa alle strette, si permise un piccolo furto. Esisteva in effetti una proteina virale in grado di
copiare l’RNA in DNA. Siccome normalmente accade il contrario (il DNA è fotocopiato in RNA) si battezzò questo meccanismo
retrocopia. I virus che possiedono questa proteina sono detti retrovirus, il cui rappresentante più celebre è senz’altro il virus dell’HIV.
Riassumiamo quindi la situazione: il sequenziamento del DNA umano aveva messo a disposizioni immense quantità di dati non
interpretabili. Le sequenze geniche furono trovate grazie a programmi informatici (lavoro ancora in corso).
Misurare l’espressione di tutti i geni poneva però un serio problema.
- I geni sono molti. Problema risolto grazie alla griglia finissima. Le sonde capaci di leggere oltre 25′000 geni possono ora raccolte in
un centimetro quadrato.
- L’RNA pone dei problemi di manipolazione sperimentale. Problema aggirato grazie alla
retrocopia dell’RNA in DNA.
Restava da aggirare il problema della quantificazione dell’RNA retrocopiato. Ci si risolse a
marcare con dei prodotti fluorescenti il DNA retrocopiato.
Ecco dunque la procedura sperimentale. Produrre il microarray (il vetrino contenente le
sonde). Allo stesso tempo estrarre l’RNA dalle cellule studiate (ad esempio le cellule
muscolari). Retrocopiare l’RNA estratto in DNA, approfittare del passaggio per marcare il
DNA così prodotto con dei prodotti fluorescenti. Porre l’estratto di RNA retrocopiato sul
microarray e portare il tutto alle giuste condizioni di temperatura. Ogni RNA si assocerà quindi alla sua sonda (e se tutto va bene solo
alla sua sonda). Misurare la fluorescenza in ogni quadratino della griglia. La quantità di fluorescenza è proporzionale al numero di
RNA che si sono associati alle sonde. Confrontare i dati così prodotti con quelli di altri esperimenti per determinare i geni specifici di
ogni tessuto. Si noti che la quantificazione della fluorescenza è estremamente precisa, un valore numerico può quindi essere
associato ad ogni quantità di fluorescenza (misura quantitativa).
Abbiamo detto che la totalità dell’informazione genetica è chiamata genoma. Per analogia, la totalità dell’informazione della
trascrizione dei geni (RNA in un dato momento, in un dato tessuto) fu chiamata trascrittoma. Questa è dunque la definizione finale di
microarray: Una tecnica capace di misurare in un sol colpo l’intero trascrittoma.
9
Quaderni di Bioinformatica
Non sempre le migliori idee le hanno le università, non fu il caso dei microarray. Fu un’industria privata, Affymetrix, ad avere per
prima l’idea e, logicamente, a ricoprirla di brevetti. La piccola cronaca poi ci rivela che una sbadataggine aziendale fece in modo che i
brevetti sui microarray non fossero mai depositati in Islanda, paese in cui nacque Nimblegen, unica ditta oggi in grado di portare un
po’ di concorrenza sul mercato. I microarray trovarono immediatamente numerosissime applicazioni. Oggigiorno sono utilizzati non
solo per lo studio dell’espressione dei geni nei differenti tessuti ma anche per analizzare la risposta a diversi tipi di stress o la
malignità di un tumore (il sistema che permette la migliore valutazione della probabilità di metastasi).
Una seconda serie di applicazioni derivò da una peculiarità della tecnologia. Come detto la sonda (nelle buone condizioni) è capace
di associarsi alla sequenza complementare solo se la complementarietà è perfetta. Ora esistono numerose differenze genetiche fra
individui (gemelli esclusi) è quindi verosimile che alcune lettere del DNA (nucleotidi) siano differenti fra due individui. In questo caso
nessuna fluorescenza dovrebbe essere osservabile nel quadratino della griglia portante le sonde per un dato gene, anche se questo
gene è trascritto (a causa della mutazione). Visto che questi cambiamenti affliggono generalmente solo una lettera (nucleotide)
vengono detti Sigle Nucleotide Polymorphsm o SNP. L’idea fu la seguente: fabbricare per ogni posizione del DNA quattro sonde
identiche in tutto, tranne che per la posizione studiata in cui rispettivamente si inseriscono le quattro lettere del DNA (A, T, G, C).
Questo procedimento viene ripetuto per ogni posizione del DNA (3,2 miliardi in totale!).
Se questa volta, al posto dell’RNA, associamo alle sonde del DNA precedentemente frammentato e marcato con i colori fluorescenti,
ci aspetteremo di osservare per ogni gruppo di quattro sonde un segnale fluorescente proveniente da una o al massimo due sonde.
Se l’intero procedimento viene fatto sull’intero genoma è possibile “risequenziare” l’intero DNA di un individuo semplicemente
leggendo quale sonda (per gruppi di quattro) offre’ il miglior segnale. Il sistema non è ovviamente perfetto. Gli SNP microarray
(single nucleotide polymorphisms SNPs) sono particolari DNA microarray che sono usati per identificare i così detti tratti ipervariabili,
ovvero quelle sequenze che variano da individuo ad individuo nell’ambito della stessa specie o in sotto popolazioni isolate
geograficamente o socialmente Arrays di oligonucleotide corti sono usati per identificare il polimorfismo di un singolo oligo nucleotide,
che si pensano responsabili della variazione genetica e della suscettibilità individuale a manifestare determinate malattie. Se per
esempio una regione è estremamente variabile non si osserverà alcun segnale per nessuna della quattro sonde (perché altri SNP
sono troppo vicini). Inoltre il metodo non è perfetto, una cospicua percentuale della SNP non è visibile con questo approccio. Infine il
DNA si è rivelato più plastico del previsto con larghe regioni del genoma che possono essere duplicate o perse. Queste variazioni del
DNA di larga scala non sono ovviamente visibili con questo tipo di microarray (altri microarray sono per altro stati prodotti per mettere
in evidenza queste variazioni).
Anno
Evento
1987
Assegnato brevetto su sequenziamento tramite ibridizzazione (SBH)
R.Drmanac, Università di Belgrado Argonne National Laboratory HySeq
1988-1991
Diversi gruppi pubblicano reports sull’SBH
E.Southern, Oxford University (Oxford Gene Technolgy)
A.Mirzabekov, Engelhard Institute, Mosca  Argonne National Laboratory
S.Fodor, Affymetrix
W.Bains, Bath University
1989
Assegnato brevetto europeo a Southern
“Oligonucleotidi arrays as a testing platform”
1993
Assegnato brevetto negli US sull’SHB alla HySeq
1997-1998
HySeq accusa Affimetrix per una violazione del brevetto
“non stiamo sequenziando, ma cercando mutazioni”
1998
Procedimenti legali tra Southern e diverse compagnie produttrici di chip.
(Affimetrix, HySeq, Hoffman-La Roche, Abbot, etc.)
1998
Brevetto US alla Incyte (Synteni) sulla tecnologia di printing di Microarray con densità superiore a
100 polinucleotidi per centimetro quadrato
1998-1999
Affimetrix ed Incute (ed altri) si accusano a vicenda di violazione di brevetti
2000-2004
Genoma umano intero su uno microarray
La battaglia dei brevetti sui gene chip [5]
Attualmente sono disponibili dei microarray per il genoma umano e quello dei principali organismi modello, animali e vegetali.
Moltissime tecniche derivate hanno a loro volta visto la luce (whole genome tiling path array, CHIP on Chip, ecc.). L’uso di microarray
per lo studio del profilo d’espressione genetica è stato pubblicato per la prima volta nel 1995 (Science) e il primo genoma eucariotico
completato con analisi di microarray fu quello del Saccharomyces cerevisiae nel 1997 (Science).
I primi articoli riguardanti la nuova tecnologia denominata DNA-microarray, in grado di consentire il monitoraggio quantitativo
dell’espressione di centinaia di geni simultaneamente, furono pubblicati a metà degli anni novanta da un team di studiosi di diverse
discipline della Stanford University [6]. La biologia molecolare, che fino ad allora aveva adottato un approccio riduzionista, ricomincia
10
Quaderni di Bioinformatica
ora a considerare ogni singolo gene come parte di un sistema più complesso di espressione, che grazie alla nuova tecnologia può
essere valutato nella sua interezza. Il rapido progresso nel sequenziamento dell’intero genoma [7, 8], e l’aumentata importanza degli
studi d’espressione, accoppiati alle nuove tecnologie di sintesi in vitro di oligonucleotidi, hanno permesso di generare con elevata
efficienza migliaia di sonde oligonucleotidiche.
TITOLARI
Università della California
Governo degli Stati Uniti
Sanofi Aventis
GlaxoSmithKlein
Incyte
Bayer
Chiron
Genentech
Amgen
Human Genome Sciences
Wyeth
Merck
Applera
Università del Texas
Novartis
Johns Hopkins University
Pfizer
Massachussetts General Hospital
Novo Nordisk
Harvard University
Stanford University
Lilly
Affymetrix
Cornell University
Salk Institute
Columbia University
University del Wisconsin
Massachussetts Institute of technology
NUMERO DI BREVETTI
1018
926
587
580
517
426
420
401
396
388
371
365
360
358
347
331
289
287
257
255
231
217
207
202
192
186
185
184
Le nuove tendenze tecnologiche nel campo della
microfluidica e delle nanotecnologie, i nuovi sistemi di
rilevamento e il perfezionamento nella tecnologia dei
computer e nella bioinformatica, sono state rapidamente
integrate nella tecnologia dei sistemi basati sulla
tecnologia microarray. Tutto questo ha portato negli
ultimi anni ad un enorme potenziamento di tutte le
tecnologie basate sugli array. L’industria elettronica, in
cui i microchip in silicio sono stati il soggetto ideale per la
miniaturizzazione, ha negli ultimi anni ideato strumenti
micro fabbricati che possono realizzare un insieme di
funzioni come per esempio preparazione del campione,
purificazione, separazioni…La necessità di manipolare
fluidi che si muovono in canali stretti (microfluidica) ha
aperto nuove aree di ricerca, ha sviluppato nuovi metodi
di fabbricazione per i sistemi fluidici, ha portato alla
costruzione di complessi sistemi microfluidici e allo
studio del moto di fluidi in canali di piccole dimensioni.
Inoltre l’introduzione di tecniche fotolitografiche per la
fabbricazione di microsistemi chimici e biochimici, ha
incrementato esponenzialmente il numero di applicazioni
in tale settore. Particolarmente interessante è la
tecnologia MEMS (la sigla MEMS sta per Micro ElectroMechanical Systems) che applica sullo stesso wafer
tecniche di lavorazione usate nella fabbricazione di
circuiti integrati per costruire strumenti microscopici
elettro-meccanici, come per esempio sensori.
Progetto “Lab-on-chip” monolitico della STMicroelectronics.
La tecnologia MEMS permette di applicare la stessa economia dovuta all’integrazione
su piccola scala della lavorazione dei wafer di silicio alla fabbricazione di strumenti
meccanici. Per esempio i sensori prodotti usando le tecnologie convenzionali sono
costruiti uno per volta, mentre usando la tecnologia MEMS, lo stesso sensore è
realizzato in centinaia o migliaia di copie, con prestazioni costanti e basso costo
unitario. Una delle applicazioni della tecnologia MEMS con fluidi in movimento è stata
la realizzazione di uno strumento in grado di realizzare la “Polymerase Chain
Reaction” (PCR) ottenendo uno strumento contenente canali in silicio per i reagenti e
il campione, elementi riscaldanti per modificare le temperature durante il ciclo di
amplificazione e sensori per il controllo della temperatura. Le piccole dimensioni dei
canali permettono l’uso di un minor quantitativo di reagenti e la bassa capacità termica del silicio riduce il tempo necessario per la
stabilizzazione delle temperature. Il risultato è che il tempo richiesto per realizzare l’amplificazione del campione con la PCR è ridotto
da ore a minuti. L’inconveniente è che, non essendo possibile pulire lo strumento, esso è monouso. Inoltre sono in fase di studio
progetti monolitici che consentono, oltre all’amplificazione, anche il riconoscimento delle sequenze di DNA. Una più recente tecnica,
che potrebbe rivelarsi assai promettente, adotta un approccio del tutto diverso per identificare le singole basi che compongono la
molecola di DNA. Questa metodica, chiamata “sequenziamento mediante nanopori”, sfrutta le differenze fisiche esistenti fra le quattro
basi che compongono il DNA, per produrre un segnale diverso. Come l’elettroforesi, questa tecnica trascina le molecole di DNA verso
una carica positiva. Per raggiungerla, le molecole devono attraversare una membrana transitando per un poro con un diametro
11
Quaderni di Bioinformatica
inferiore a 1,5 nanometri, per cui riescono a passare solo le molecole di DNA a filamento singolo. Quando il filamento transita
attraverso il poro, i nucleotidi bloccano temporaneamente il passaggio, alterando la conduttanza elettrica della membrana misurata in
picoampere. Le differenze fisiche fra le quattro basi generano blocchi di durata e grado diversi. Questa tecnologia dovrebbe portare
ad una notevole riduzione dei costi e a leggere un intero genoma umano in non più di 20 ore.
Negli ultimi anni, la tecnologia dei microarray, messa a punto per studiare gli acidi nucleici, si è andata espandendo per analizzare
meglio il proteoma delle cellule e le interazioni che avvengono fra le diverse proteine e fra queste e l'ambiente esterno, che sono
molto importanti nel determinismo delle malattie e le cui conoscenze certamente faciliteranno la messa a punto di nuovi farmaci. Le
proteine sono considerate le più importanti strutture cellulari per il continuo ed intenso lavoro che svolgono sia in stato di benessere
che in corso di malattia. Abbiamo visto che, fino a qualche anno fa si credeva che ogni gene codificasse un solo tipo di mRNA e
quindi, almeno teoricamente, una sola proteina ed attraverso di essa, impartisse istruzioni alle strutture cellulari e quindi al
metabolismo. Oggi sappiamo invece che la realtà è molto più complessa perché ogni gene, con le varianti, può codificare fra 3 e 20
proteine. Quindi per capire come i geni funzionano bisogna arrivare alle proteine che essi esprimono e capire anche come le varie
proteine interagiscono fra di loro. Ne deriva che se è stato molto importante studiare a fondo il genoma è ancora più importante
studiare il proteoma, ossia lo sconfinato mondo delle proteine che è molto più complesso, anche perché non statico ma
continuamente mutevole in un contesto di reti dinamiche per la continua serie di interazioni che avvengono fra di loro per effetto sia
dei processi metabolici sia come risposta agli stimoli ambientali. A differenza del genoma che è costituito da un numero fisso di geni,
il livello a cui le proteine cellulari operano è molto dinamico perché le proteine, direttamente sottoposte a tutti gli stimoli dell'ambiente
vanno incontro a continue variazioni di adattamento e risposta. Ecco perché è molto difficile determinarne accuratamente l'esatto
numero o le quantità presenti nelle cellule viventi. Inoltre le varie famiglie di proteine sono estremamente diverse fra loro sia per le
dimensioni delle molecole, sia per la struttura, che per le caratteristiche chimiche e le funzioni.
Comunque i microarray con proteine, oltre che in campo terapeutico, possono trovare sempre più ampia applicazione in campo
diagnostico specialmente per le malattie infettive di origine virale. Infatti attualmente i metodi più largamente usati per individuare
agenti patogeni virali in campioni biologici, sono quelli che si basano sull'immunoenzimatica eseguita in piastrine o su la PCR. Ma i
primi hanno una sensibilità che oscilla fra il 70 e 90% ed i secondi hanno un costo elevato che ne limita la diffusione su larga scala
specialmente in nazioni del terzo mondo che poi sarebbero quelle che ne avrebbero più necessità. Per la preparazione di microarray
dedicati specificamente, le proteine da usare come probe, che qualcuno preferisce chiamare " protein chip " o semplicemente " chip ",
possono essere derivate da estratti cellulari oppure sintetizzate mettendo insieme dei peptidi sintetici. Le proteine possono anche
essere prodotte in colture di batteri, lieviti, cellule ingegnerizzate di insetti. Tali proteine ricombinanti, sono poi purificate con tecniche
diverse e possono diventare un ottimo materiale da immobilizzare sui vetrini come molecole di cattura. I metodi per fissare le proteine
sui supporti sono fondamentalmente simili a quelli utilizzati per gli acidi nucleici. Come vedremo, però, produrre microarray con le
proteine offre qualche difficoltà in più. Infatti, come primo inconveniente c'è il problema che le proteine sono molto meno stabili degli
acidi nucleici perché vanno incontro spesso a processi di ossidazione e di denaturazione. Poi le proteine, quando sono rimosse dal
loro ambiente naturale, modificano la loro struttura nativa e quindi anche la forma, talvolta esponendo all'esterno aminoacidi diversi
da quelli della forma nativa. Ne deriva che, quando le si va a far reagire, questi aminoacidi esterni, che costituiscono gli epitopi più
esposti, possono pregiudicare il risultato della reazione.
Sono stati studiati diversi tipi di microarray per le proteine che Dev Kambhampati, nella sua monografia (2004), suddivide così:





Array con anticorpi: Sono stati utilizzati sia anticorpi policlonali che monoclonali per titolare proteine specifiche in campioni
biologici. Si possono considerare dei test immunologici in miniatura.
Array con antigeni: E' l'inverso del precedente, perché in questo caso è fissato un antigene sul supporto per titolare il
corrispondente anticorpo presente nel campione biologico.
Array funzionali: Proteine purificate sono fissate sul supporto per legare altre proteine o DNA o interagire con altre piccole
molecole.
Array di cattura: Molecole non proteiche ma capaci di legarsi alle proteine sono ancorate alla fase solida. Esempio il
Ciphergen Protein Chip.
Array in sospensione: E’ un caso particolare che utilizza come fase solida delle microparticelle fornite di qualcosa di simile
ad un codice a barre.
La tecnologia dei DNA microarray
Un tipico esperimento che utilizzi i microarray comprende cinque fasi principali:
1-deposizione degli oligonucleotidi sonda sul supporto rigido;
2-preparazione del materiale genetico da analizzare (compresa la marcatura con molecole fluorescenti);
3- ibridazione dei campioni fluorescenti sul microarray;
12
Quaderni di Bioinformatica
4. lettura dei valori di fluorescenza, effettuata tramite apposito scanner;
5. analisi statistica ed elaborazione dei dati ricavati dalle immagini prodotte.
I microarray rappresentano un sistema di analisi in parallelo, che velocizza considerevolmente l'esplorazione genomica: permettono,
infatti, di esaminare contemporaneamente l'espressione di migliaia di geni o un ampio numero di polimorfismi genetici. Un altro
vantaggio è dato dai costi relativamente contenuti se rapportati al numero di geni o polimorfismi analizzabili per esperimento.
I microarray a DNA possono essere definiti come un insieme miniaturizzato e ordinato di frammenti di acidi nucleici derivati da singoli
geni e fissati in posizioni prestabilite su un supporto solido, rendendo
possibile l’analisi simultanea tramite ibridazione specifica di centinaia
di geni [9].
In questi esperimenti, la complementarità delle sequenze porta alla
ibridizzazione di due molecole di acidi nucleici a singolo filamento,
una delle quali è immobilizzata su una matrice solida [10]. La scelta
di quali geni debbano essere rappresentati può variare dalla totalità
(interi genomi su un unico vetrino) allo specifico (particolari pathway
metabolici, etc.). Esistono di fatto due tecnologie per la produzione di
microarrays: la prima denominata a spotting e la seconda detta in
situ. Nella tecnologia spotting, le sonde da ancorare al supporto
solido, normalmente un vetrino da microscopia, sono sintetizzate a
parte e quindi depositate sul supporto. Tali sonde possono essere costituite da molecole di cDNA lunghe alcune migliaia di paia di
basi le cui sequenze possono essere ricavate da banche dati genomiche (GenBank, dbEST o UniGene) o da librerie proprietarie
costituite da cDNA non ancora completamente sequenziato. Nello studio dell’espressione di organismi eucarioti, le sequenze delle
sonde sono normalmente ricavate dalle cosiddette Express Sequence Tags (EST), ovvero dalle porzioni codificanti identificate dai
singoli progetti genoma. Tali banche dati contengono, assieme alle sequenze, anche tutta una serie di informazioni bibliografiche
necessarie, oltre che per la scelta delle porzioni di DNA da depositare sulla matrice, anche per la successiva valutazione dei profili di
espressione. Nel caso dei lieviti o di organismi procarioti le sonde sono generate per amplificazione diretta, con primers specifici, del
DNA genomico. Selezionate le sequenze da studiare, il cDNA relativo viene prodotto mediante PCR ottenendo così sonde della
dimensione da 600 a 2400 bps. Più recentemente, le sonde che vengono depositate sono rappresentate non tanto da frammenti di
materiale genomico ottenuto via PCR, quanto piuttosto da sequenze sintetiche di oligonucleotidi lunghe 50-70 paia di basi. Una volta
prodotte, le sonde vengono depositate sul supporto solido, in
genere costituito da un vetrino. La deposizione è effettuata da
sistemi robotizzati che mediante l’utilizzo di pennini prelevano
le sonde direttamente dalle piastre utilizzate per la PCR e le
depositano sul vetrino formando spots di circa 100-150 µm di
diametro, distanziati l’uno dall’altro 200-250 µm. Durante la
deposizione, il sistema di controllo del robot registra
automaticamente tutte le informazioni necessarie alla
caratterizzazione ed alla completa identificazione di ciascun
punto della matrice (identità del cDNA, coordinate sul
supporto, ecc.). Una volta sul vetrino, il probe viene legato
covalentemente ai gruppi amminici del supporto attraverso
una reazione innescata dall’irraggiamento con luce
ultravioletta, mentre il cDNA in eccesso viene rimosso con
semplici lavaggi dell’array. Infine, il cDNA sul supporto viene
reso a catena singola attraverso una denaturazione termica o chimica. L’altra tecnica utilizzata per la produzione di microarrays è
quella detta in situ che, sviluppata da Affimetrix, è frutto dell’interazione di due tecnologie particolari, la fotolitografia e la sintesi diretta
in fase solida di oligonucleotidi. La sintesi delle sonde avviene direttamente sulla superficie del supporto solido. In particolare, il
supporto costituito da un wafer di silicio viene funzionalizzato con piccole sequenze di oligonucleotidi (oligo-starter).
Questi oligo hanno la caratteristica di avere il gruppo reattivo protetto da gruppi fotosensibili e quindi, grazie ad una maschera
fotolitografica, è possibile indirizzare la luce in specifiche posizioni dell’array e liberare i siti necessari per la sintesi della sequenza.
Una volta deprotetti selettivamente i siti reattivi, è sufficiente incubare la superficie con desossiribonucleotidi protetti per allungare la
catena in fase di sintesi. Ripetendo il ciclo di deprotezione grazie all’applicazione di maschere fotolitografiche diverse e di incubazione
è quindi possibile aggiungere nucleotidi diversi in posizioni diverse e sintetizzare tutte le sonde necessarie per l’analisi di un dato
genoma.
13
Quaderni di Bioinformatica
Sono state sviluppate due differenti tecnologie per effettuare l’analisi dell’espressione genica [6, 11]: gli array a oligonucleotidi e gli
array a cDNA. Negli array a cDNA, i frammenti di acido nucleico sono spottati con un sistema automatizzato, utilizzando un protocollo
messo a punto inizialmente da un team dell’Università di Stanford (http://cmgm.stanford.edu/pbrown/mguide/). Il protocollo per
produrre questo tipo di microarray è stato inizialmente sviluppato dal Prof. Pat Brown e colleghi dell'Università di Stanford. La
costruzione di questo tipo di microarray consiste nel depositare determinati cloni di DNA o oligonucleotidi in precise zone della
superficie di un vetrino per microscopia secondo una griglia prestabilita. Il cDNA utilizzato per lo spot è generalmente derivato da un
amplificazione tramite PCR di librerie a cDNA. La tecnologia degli oligo-microarray consiste invece nel sintetizzare direttamente i
nucleotidi sulla superficie del vetrino [12]. Esistono due differenti tecnologie per la sintesi degli oligonucleotidi, la tecnologia
fotolitografica, che consente la sintesi di corti nucleotidi di 20-25 basi (Affimetrix, www.affimetrix.com) [13] e la tecnologia inkjet
(Agilent Technologies, [email protected]) che consente la sintesi di oligonucleotidi più lunghi, 60 basi [14].
Entrambe queste tecnologie sono state inizialmente sviluppate per l’industria dei computer e in seguito adattate alla fabbricazione dei
microarray. Esiste inoltre un terzo tipo di array, costituito dallo spot di oligonucleotidi presintetizzati, solitamente tali frammenti sono
più lunghi, circa 70 nucleotidi [15]. La lunghezza ottimale della sonda oligonucleotidica fissata al vetrino è tutt’oggi oggetto di dibattito.
È importante considerare che all’aumentare della lunghezza della sonda aumenta la specificità della reazione, mentre al suo
diminuire aumenta la sensibilità. È necessario effettuare diverse prove ad ogni esperimento al fine di determinare il giusto equilibrio
tra le due variabili.
In entrambe le tipologie di array gli acidi nucleici sono disposti
ordinatamente utilizzando un sistema automatizzato x-y-z
estremamente preciso, in migliaia di spot dal diametro di circa
vantaggio di array così densi, consiste nella richiesta di
piccolissimi volumi per l’ibridazione e quindi di pochissimo
materiale di partenza per l’analisi. I primi array contenevano meno di un centinaio di geni [6], ma si è presto passati ad array con
migliaia di geni [16, 17]. Oggi Affimetrix è in grado di posizionare su un singolo array un numero di sonde pari o superiore al numero
totale di geni presenti nel genoma umano e si propone entro pochi anni di creare array con circa 500.000 spot (il genoma umano è
costituito da circa 30.000 geni!)[13]
Rappresentazione schematica delle due differenti
tecnologie. microarray, a cDNA e oligonucleotidiche.
[Gibson, 2002 #17]
Lo studio dell’espressione genica tramite microarray è basata sul
principio dell’ibridazione competitiva di popolazioni di cDNA differentemente marcate. Marcatori fluorescenti, solitamente Cy3 e Cy5,
sono utilizzati per distinguere pool di DNA retrotrascritti da differenti campioni. Tali sonde sono posate sui microarray e sono quindi
sottoposte ad una reazioni di ligazione secondo i protocolli utilizzati per i Southern Blot. I microarray sfruttano una tecnica di
ibridazione inversa, che consiste nel fissare tutti i probe su un supporto e nel marcare invece l'acido nucleico target. È una tecnica
che è stata sviluppata negli anni '90, oggi permette l'analisi dell'espressione genica
monitorando in una sola volta gli RNA prodotti da migliaia di geni. Per studiare gli
mRNA, essi vengono prima estratti dalle cellule, convertiti in cDNA, con l’uso di un
enzima chiamato transcriptasi inversa e allo stesso momento marcati con una
sonda fluorescente. Quando si fa avvenire l'ibridazione fra la sonda presente sulla
matrice e il cDNA target, quest'ultimo rimarrà legato alla sonda e può essere
identificato semplicemente rilevando la posizione dove è rimasto legato. Il
segmento di DNA legato al supporto solido è noto come probe. Migliaia di probe
sono usati contemporaneamente in un array. Questa tecnologia è nata da una
tecnica più semplice nota come Southern blotting, dove frammenti di DNA attaccati
ad un substrato sono testati da sonde geniche aventi sequenze conosciute. I
microarray possono essere fabbricati usando diverse tecnologie, come la stampa di
micro solchi, con un particolare microspillo appuntito su una lastrina di vetro dove verrà attaccata covalentemente la sonda (probe) di
materiale genetico ottenuta per clonazione sfruttando la tecnica PCR; usando maschere preformate da ditte specializzate come ad
esempio da Greiner Bio-One.
14
Quaderni di Bioinformatica
La sintesi in situ di oligonucleotidi presenta un certo numero di vantaggi rispetto a quella precedentemente vista. I prodotti di questa
sintesi hanno caratteristiche di omogeneità e alta qualità su tutte le celle che compongono l’array su cui vengono sintetizzati, con
varie metodologie, oligonucleotidi diversi. Esistono differenti metodi di posizionamento delle sonde sulla superficie dell’array. Il
metodo più conosciuto combina tecniche fotolitografiche usate nell’industria dei semiconduttori a tecniche di sintesi in fase solida, per
ibridare direttamente su un wafer di quarzo le sonde oligonucleotidiche di lunghezza desiderata (di solito 25 nucleotidi). Questo tipo di
tecnologia è derivata direttamente dagli studi fatti da Foder che ha usato tecniche di fotolitografia per la sintesi chimica in situ di
materiale biochimico direttamente su silicio.
La fabbricazione ad esempio del Gene Chip Affimetrix parte da un wafer di quarzo di pochi centimetri quadrati. Poiché il quarzo è un
materiale idrossilato naturalmente, esso fornisce un eccellente substrato per l’attacco di elementi chimici. Su di esso sono quindi
posizionate molecole di collegamento sintetiche (molecole “linker”) modificate con gruppi di protezione rimovibili fotochimicamente
che serviranno successivamente per posizionare le sonde sull’array. La distanza fra queste molecole “linker” determina la densità di
riempimento delle sonde. Con questo metodo è possibile costruire array con più di 500 mila locazioni (o celle) per le sonde contenute
in 1.28 cm2. Ciascuna di queste locazioni contiene milioni di molecole identiche di DNA (diverse per ciascuna locazione). La parte
critica di questo processo è la fase di allineamento della maschera con il wafer prima di ciascun passo di sintesi. Per assicurare che
questo passo sia accuratamente completato, le tracce di cromo presenti sul wafer e sulla maschera devono essere perfettamente
allineate. Una volta che le locazioni sono state attivate, una soluzione contenente un singolo tipo di desossinucleotidi è gettata sulla
superficie del wafer e i nucleotidi si attaccano ai “linker” attivati con un accoppiamento chimico, dando inizio al processo di sintesi. Il
processo è efficiente anche se talvolta l’aggancio non è perfetto. In tal caso le sonde con il nucleotide mancante vengono
opportunamente “incappucciate” per bloccarne la crescita. Nel passo successivo di sintesi, un’altra maschera è posizionata sopra il
wafer per permettere un ulteriore ciclo di deprotezione e accoppiamento. Il processo è ripetuto fino a che le sonde non raggiungono la
lunghezza voluta. Sono stati creati opportuni algoritmi che permettono di minimizzare il numero di maschere utilizzate coordinando la
crescita delle sonde nelle diverse locazioni, individuando situazioni in cui più maschere possono essere utilizzate nello stesso tempo.
Una volta completata la sintesi, i wafer sono tagliati; in funzione del numero di locazioni delle sonde per array, da un singolo wafer, è
possibile produrre tra 49 e 400 array. I risultanti singoli array sono quindi inseriti in apposite cartucce in cui può circolare la matrice
biologica da analizzare, opportunamente marcata, si tratta sostanzialmente di un sistema chiuso.
Esistono anche strategie non proprietarie che consentono il posizionamento del clone nell'esatta locazione sul vetrino da un robot. Il
supporto dell’array, che inizialmente era costituito da membrane di nylon o nitrocellulosa, è realizzato quasi esclusivamente con
vetrini da microscopio. L’utilizzo del vetro presenta i seguenti vantaggi:
- i campioni di DNA possono essere legati covalentemente sulla sua superficie opportunamente trattata (con poly-L-lisina);
-è un materiale duraturo che sopporta alte temperature;
-è un materiale non poroso e quindi il volume di ibridazione può essere minimizzato consentendo un miglior ancoraggio delle sonde e
una minore diffusione del DNA depositato;
-come conseguenza della sua bassa fluorescenza intrinseca, esso non da contributi significativi al rumore di fondo durante la
rivelazione.
CHIMICA DELLE SUPERFICI
I primi tentativi di fissare biomolecole su membrane di nylon o cellulosa, eseguiti nel trascorso decennio, puntando all'adsorbimento
elettrostatico, hanno portato a risultati molto scadenti. Lo stesso è successo utilizzando superfici a base di poliacrilamide. I primi
risultati accettabili si sono avuti ricoprendo le superfici con del destrano carbossilmodificato, trattamenti chimici delle superfici più
usati per gli acidi nucleici sono a base di organosilani: sono composti che contengono atomi di silicio che si sono dimostrati molto
validi per legare molecole organiche a superfici di vetro. Le molecole utilizzate per fissare alle superfici gli acidi nucleici sono state
utilizzate con discreto successo anche per le proteine.
La qualità delle superfici ha un' importanza enorme nella produzione di microarray che possano essere usati per eseguire delle
analisi ed ottenere risultati riproducibili. Infatti le superfici dei vetrini che si adoperano giocano un ruolo importantissimo nel
determinare non solo come le molecole probe ci si attaccano ma anche per far si che le reazioni che ci si svolgono, possano evolvere
senza problemi o inconvenienti. Riteniamo pertanto utile elencare le qualità essenziali che microarray ideali dovrebbero avere per
poter operare bene:
Dimensione. L'ampiezza delle superfici operative dipendono ovviamente dalle dimensioni del supporto. Come già abbiamo
accennato, ora si preferisce operare su vetrini porta oggetto le cui dimensioni ottimali sono in larghezza, lunghezza e
spessore 25-76-0,94 mm. Tale dimensione standard facilita sia l'automazione della produzione che tutte le fasi operative di
utilizzazione che si concludono con la lettura dei risultati.
15
Quaderni di Bioinformatica
Liscia. La superficie di lettura deve essere omogenea e liscia. Non sono accettabili irregolarità in eccesso o in difetto superiori ai 10
micron. Infatti se la superficie non è omogenea il diametro e la fissazione dei probes o spots non può risultare uniforme né si
riesce ad ottener una regolarità delle distanze fra un probe e quelli vicini. Irregolarità della superficie possono creare problemi
anche in fase di lettura perché alcuni lettori hanno una profondità focale che non supera i 20-30 micron
Planare. Tutta la superficie di 25-76 mm deve essere assolutamente in piano. Dislivelli superiori a 10 micron, per le stesse ragioni
riferite in precedenza compromettono sia la produzione che la corretta utilizzazione dei microarray. A riguardo bisogna anche
curare il confezionamento degli stessi facendo in modo che vengano evitate manovre che possano determinare alterazioni da
torsione. Occorre rendersi conto che lo stesso numero di molecole se disposte su un vetrino che non sia perfettamente in
piano o non sia liscio producono un segnale di intensità variabile.
Uniforme. L'uniformità dipende dalla regolarità sia atomica che molecolare del trattamento utilizzato per rendere la superficie reattiva.
Una superficie si può considerare uniforme se le eventuali variazioni di densità dello strato reattivo non risultino superiori o
inferiori del 25% Lo strato. reattivo è costituito da un monostrato, di solito di organosilani, che sono molecole che stabiliscono
un legame covalente con il supporto che, in genere è vetro. Su questo strato poi va creato un film di acrilamide, polilisina, o
nitrocellulosa che sono molecole capaci di legare i singoli elementi analitici. Nel complesso, quindi, l'uniformità della superficie
è molto importante per poter avere microarray affidabili perché capaci di generare segnali che non varino d'intensità per
ragioni che nulla hanno a che fare con la specificità della reazione.
Stabile. La produzione va curata in modo da ottenere prodotti che, nel periodo di validità che, secondo i tipi può essere variabile,
decadano meno del 10%. Devono essere prodotti molto stabili, considerando anche che le tecniche di utilizzazione possono
essere diversissime e che alcune utilizzano anche temperature elevate.
Inerte. Premesso che il tipo di vetro che si sceglie deve essere perfettamente trasparente, anche i trattamenti a cui lo si sottopone
per poterci fissare poi sopra le molecole dello spot, non devono compromettere tale trasparenza più di un certo livello
standard. Inoltre il tutto non deve presentare fluorescenza anomala né avere effetto deviante sulla luce.
Efficiente. La capacità di legame, che va misurata empiricamente da caso a caso, deve essere tale da rendere possibile la più bassa
concentrazione possibile dei reagenti sia perché sono, di solito, molto cari sia perché così si ottiene la massima efficienza. Per
esempio vediamo che, quando si adoperano oligonucleotidi quali molecole spot, la concentrazione ottimale è di 30 µM, e da
tale concentrazione non è consigliabile derogare, in eccesso o in difetto, più del 30%.
È evidente che questa tecnica richiede apparecchiature robotiche molto sofisticate. Il nucleo dell'apparecchiatura è costituito da una
"gruppo scrivente" che preleva uno o più campioni di cDNA mediante l'utilizzo di pennini e li trasferisce su vetrini per microscopio, il
movimento è ovviamente controllato da un computer. Durante la deposizione il sistema di controllo del robot registra
automaticamente tutte le informazioni necessarie alla caratterizzazione ed alla completa identificazione di ciascun punto della
matrice.
Una volta che la sonda è sul vetrino si effettua il processing, il passaggio cioè in cui la sonda
viene legata covalentemente al supporto attraverso una reazione innescata dall'irraggiamento
con
luce ultravioletta o incubando il vetrino a 80 °C per 2 h. Infine il cDNA viene reso a singola
catena attraverso una denaturazione termica o chimica. Con questa tecnica però era possibile
creare solo microarray a bassa densità (ovvero con poche sonde per mm quadrati). I DNA
microarray possono essere usati per rivelare RNA che può essere o non essere tradotto in
proteine. Questa analisi viene denominata "analisi dell’espressione" o profilo d'espressione.
Con
la tecnologia dei microarray si possono avere decine di migliaia di risultati in pochissimo
tempo. Per questo motivo questa tecnologia ha permesso notevoli accelerazioni in diversi
campi di investigazione biochimico e biotecnologico. In questo caso gli oligonucleotidi sono
sintetizzati in sito, questa tecnica è stata utilizzata per la prima volta dall'Affymetrix, che ne
detiene il brevetto. La tecnica per la produzione di questi chip è detta fotolitografia, con la quale è possibile sintetizzare molte migliaia
di differenti oligonucleotidi sulla superficie di un vetrino. Anche se questa tecnica di sintesi è molto accurata, la massima lunghezza
degli oligonucleotidi che è possibile raggiungere è di 25 nucleotidi, ma oligonucleotidi di queste dimensioni non sono sufficienti a dare
specificità al microarray, per questo servono almeno 3 oligonucleotidi che legano un gene, e altri 3 oligonucleotidi che presentano un
mismatch che serviranno da controllo negativo. Per cui le analisi di un singolo gene richiedono lo studio di sei spot che devono avere
come risultato: i tre oligonucleotidi corretti, positivi, mentre i tre oligonucleotidi con il mismatch, negativi. Inoltre ogni volta bisogna fare
un chip per il controllo e uno del soggetto da analizzare, perché non si può effettuare un'ibridazione per competizione. Sui microarray
a bassa densità solitamente si usavano marcatori radioattivi, questo tipo di marcatori però non permettono una risoluzione
sufficientemente elevata per i chip ad alta densità, con i quali è necessario utilizzare marcatori fluorescenti. La distribuzione degli
spots è indubbiamente una delle fasi più delicate della produzione dei microarray per cui il controllo di qualità è una fase molto
importante del processo. Le varie compagnie commerciali hanno risolto i problemi in vario modo, sfruttando l’esperienza accumulata
negli ultimi anni. Ma, malgrado l’uso di robot, sempre più sofisticati, si ha un coefficiente di variabilità degli spots che oscilla fra lo 0 ed
il 22% ed un C.V. medio del 6,8%. Quando si esegue un esperimento con microarray, e più esattamente, quando si utilizzano le
macchine che fanno lo “spots printing”, ovvero si depositano sui vetrini le goccioline o spots dei probes, possono sorgere diversi
16
Quaderni di Bioinformatica
problemi. Occasionalmente la morfologia degli spots può risultare decisamente alterata nel senso che si verificano delle sbavature
perché il gocciolatore o pin è difettoso e lo si può constatare osservandolo al microscopio. Molti ricercatori hanno osservato una
alterata morfologia degli spots per disturbi di tensione che si possono verificare sulle superfici dei vetrini specialmente quando si
adoperano tamponi a base di fosfati. Se si fa uso di tamponi a base di SSC, tali inconvenienti non si verificano. Altro aspetto della
tecnologia che bisogna curare per avere degli spots omogenei, è un adeguato volume di campione presente nei pozzetti in cui il pin
va a pescare prima di depositare sui vetrini le goccioline o spots. Un altro inconveniente che, talvolta si può verificare è che il DNA
non si fissi bene sul vetrino per cui durante la fase di ibridazione, venga lavato via. Dopo aver eseguito la distribuzione degli spots, un
controllo molto semplice lo si può fare alitando sul vetrino in modo da formare sulla superficie un sottile strato di vapore. Gli spots
dove il DNA si è legato appaiono più chiari. Altri preferiscono controllare il vetrino sotto il microscopio. Ma un metodo tecnicamente
più corretto per valutare il lavoro fatto, che è da molti adottato, è quello di colorare qualche vetrino con un colore fluorescente. Il più
usato per tale genere di controllo è il SybrGold della Molecular Probes. Dopo il lavaggio si fa il controllo con uno scanner al laser che
permette di valutare sia la morfologia che la quantità di DNA degli spots. Il vantaggio di usare il SybrGold è dato dal fatto che,
essendo un colorante non molto invasivo, i vetrini si possono riusare.
Cameretta di ibridazione per vetrini di microarray.
Quando si deve valutare l’attività dei geni, si possono, a tal fine, inserire più geni per
ogni singolo spot e poi, decodificando l’espressione con metodi matematici, capire
se il processo di distribuzione è stato realizzato con una variabilità accettabile (Khan
et al. 2003). Una volta che il microarray è stato costruito o comprato e il campione di
acidi nucleici da analizzare è stato isolato si fa avvenire la reazione di ibridazione,
che permette la formazione degli eteroduplex. Per ottenere dei buoni microarray è
essenziale difenderli dall'umidità (se l'ambiente è secco la soluzione evapora, se
invece è umido si deposita dell'acqua) e dalla polvere (ogni spot è grande circa 50
micron, un granello di polvere e più grande di 50 micron, per cui può coprire vari
spot), per questo motivo esistono delle camere apposite per l'ibridazione dei
microarray che vengono sigillate.
Dopo l'ibridazione il microarray viene lavato per rimuovere il cDNA che non si è legato. Generalmente il Dna fluorescente dei
campioni sperimentali è mescolato con un Dna di un soggetto di controllo marcato con un colorante fluorescente diverso. Per i
microarray si usano solitamente Cy3 (che emette una lunghezza d'onda nel campo del rosso) e Cy5 (che emette nel campo del
verde). In questo modo se la quantità di RNA espressa da un gene nelle cellule di
interesse è aumentata (up regolata) rispetto a quella del campione di riferimento, lo
spot che ne risulta sarà del colore del primo fluorescente. Viceversa se l'espressione
del gene è diminuita (down regolata) rispetto al campione di riferimento lo spot sarà
colorato dal secondo fluorescente. La fluorescenza è rilevata poi grazie ad uno
scanner a laser, grazie al quale si acquisisce un'immagine per ogni fluoroforo. Poi
vengono usati dei software appositi per convertire i segnali in una gamma di colori
dipendente dalla loro intensità. Il segnale rilevato dallo scanner viene poi sottoposto
ad altri algoritmi di filtrazione e di pulizia e convertito in valori numerici. Il principale
problema dei microarray e la mancanza di standardizzazione, che causa difficoltà
nel confronto di dati; inoltre, se oggi con questa tecnica è possibile analizzare i livelli
di espressione di un singolo gene ottenendo degli ottimi risultati, la combinazione
dello studio di molte migliaia di geni risulta molto complicato e può portare spesso a dei falsi positivi, questo accade anche a causa
del fatto che alcuni cDNA possono cross-ibridare altre sonde (che avrebbero dovuto rilevare altri geni).
Un altro problema è presentato dai fluorofori, che nonostante siano molto simili fra loro presentano delle differenze problematiche.
Esiste una diversa efficienza di fluorescenza tra Cy3 e Cy5 che deve essere standardizzata dai software di rilevazione, inoltre poiché
Cy3 è più piccolo di Cy5, c'è un diverso livello di incorporazione del due fluorofori, in quanto la polimerasi presenta più difficoltà a
inserire il nucleotide marcato con Cy5 a causa dell'ingombro sterico; come se non bastasse Cy5 si presenta più labile di Cy3, quindi
una prima scansione di Cy3 con il laser potrebbe ridurre la fluorescenza di Cy5. Per ovviare a tutte questa problematiche e per creare
un minimo di standardizzazione si effettua il dye swap: consiste nel effettuare un secondo microarray scambiando l'uso dei fluorofori.
Se nel primo microarray Cy3 è stato usato per marcare il cDNA sperimentale, nel secondo microarray si userà Cy3 per marcare il
cDNA del soggetto di controllo, e viceversa per Cy5.
17
Quaderni di Bioinformatica
I vetrini sono quindi lavati per eliminare le ibridazioni aspecifiche e sono letti con uno scanner laser confocale, in grado di rivelare
entrambi i segnali fluorescenti, differenziandoli, producendo un’immagine a 16-bit TIFF per ogni canale. Processori di analisi
dell’immagine sono quindi utilizzati per evidenziare ed analizzare i diversi spot. Gli esperimenti effettuati con la tecnologia microarray
generano un’enorme quantità di dati, tale da richiedere lo sviluppo di appositi software per l’acquisizione, lo studio e la valutazione dei
dati.
Nella figura (a) si possono osservare alcuni esempi, cerchiati
in azzurro, di riconoscimento grossolanamente scorretto.
Nella figura (b) tali errori sono stati corretti manualmente (il
cerchio con barra verticale indica che il software considera lo
spot assente).
Di seguito vengono riportati alcuni esempi, volti alla
comprensione delle difficoltà che possono presentarsi
nell’ambito della lettura delle immagini.
Una volta completata l’ibridazione il microchip viene levato e
successivamente eccitato con un laser affinché i marcatori
fluorescenti emettano un segnale luminoso. Uno scanner
legge l’array illuminando ciascuno spot e misurando la
fluorescenza emessa per ciascun colore separatamente, in
modo da fornire una misura della quantità relativa di mRNA
prodotto da ciascun gene nei due tipi di cellula. L’intensità
degli spot verdi misura la quantità di cDNA contrassegnato con
Cy3, mentre quella degli spot rossi misura la quantità
relativa di cDNA contrassegnato con Cy5. Queste misure
forniscono informazioni sul livello relativo d’espressione di
ciascun gene nelle due cellule. Le due immagini
monocromatiche (rossa e verde) vengono poi sovrapposte in
modo da fornire una visione d’insieme, Così il rosso
corrisponde ad un gene molto attivo nella cellula malata e
inattivo in quella sana, il nero ad un gene inattivo in entrambe
le cellule, il giallo ad un gene ugualmente attivo nei due tipi di
cellula, ed infine il verde ad un gene attivo nella cellula sana e
inattivo in quella malata. E’ necessario che queste misure vengano aggiustate per considerare un disturbo di fondo causato ad
esempio dall’alta concentrazione di sale e detergente durante l’ibridazione o la contaminazione del target o da altri
problemi che si possono presentare nell’esecuzione dell’esperimento. L’ibridazione del target alle sonde determina una
reazione chimica che viene catturata in un’immagine digitale da uno scanner laser. Il passo successivo è quello di tradurre l’intensità
del segnale luminoso emesso da ciascun gene, in un coefficiente numerico. S’intuisce pertanto l’importanza della qualità
dell’immagine ai fini di un’accurata interpretazione dei dati. I passi principali delle immagini prodotte sono:
grigliatura (gridding)
estrazione di intensità
segmentazione
La grigliatura ritrova nell’immagine la posizione degli spot che corrispondono alle sonde. Essendo nota la posizione degli spot nel
microarray, questa operazione non risulta particolarmente complessa, sebbene si renda necessaria la stima di alcuni parametri per
tener conto ad esempio di shift (o rotazioni) del microarray nell’immagine o di piccole traslazioni degli spot. L’estrazione di intensità
calcola invece l’intensità della fluorescenza rossa e verde, l’intensità del beckground ed alcune misure di qualità. La
segmentazione consiste infine nel separare il segnale emesso dai marcatori fluorescenti (foreground) rispetto al disturbo di fondo
(background), in modo da isolare le quantità di interesse. Può succedere che questa correzione abbia l’effetto indesiderato di introdurre
valori negativi (ciò accade quando l’intensità del background è più forte rispetto a quella di foreground). In tal caso questi spot
vengono trascurati oppure il loro segnale è sostituito con un valore arbitrariamente piccolo e positivo.
L’enorme numero di geni analizzati dai microarray è il punto più forte, ma anche più debole della metodica. Infatti sono possibili
moltissimi errori (importanza di avere campioni replicati), e il trattamento dell’informazione non è banale! Si pensi ad esempio alle
18
Quaderni di Bioinformatica
sorgenti di variazione dell’espressione genica. Alcune variazioni osservate sono dovute alla risposta differente a condizioni genetiche
e ambientali differenti (es. cellule malate vs cellule sane): variazione questa che possiamo considerare interessante. Al fine di rendere
comparabili i risultati ottenuti su array diversi o anche all’interno dello stesso array, è necessaria la rimozione di alcune distorsioni
sistematiche introdotte nella fase di preparazione dell’array stesso, di esecuzione dell’esperimento, nonché nel
processo d ibridizzazione e nella scansione con il laser. La procedura di normalizzazione si riferisce proprio al trattamento statistico dei
dati finalizzato alla rimozione di tali effetti distorsivi e i più noti sono:
dye-effect (o effetto colore);
print-tip (o deposito irregolare);
array-effect (o effetto intensità).
Ad esempio, un diffuso problema nell’interpretazione dei dati derivanti da microarray, noto come dye-effect, è la diversa intensità di
fluorescenza dei due marcatori Cy3 (verde) e Cy5 (rosso), cosicché l’emissione di fluorescenza del verde è sistematicamente meno
intensa di quella del rosso. Il modo più immediato per rimuovere questo tipo di distorsione, sarebbe quello di ripetere due volte
l’esperimento scambiando l’assegnazione dei marcatori tra i due target, cosa che però renderebbe la tecnica ancora più dispendiosa.
Un’altra fonte di distorsione, nota come print-tip, è dovuta alla diversa quantità di materiale genetico (probe) depositata sul vetrino a
causa delle microscopiche differenze della conformazione delle puntine del robot che stampa l’array. Infine, il terzo tipo di alterazione,
l’array-effect può derivare da differenze di intensità tra un array e l’altro legate a diverse condizioni di preparazione (usura
delle puntine, qualità di conservazione e quantità dei reagenti), estrazione (differenti quantità di mRNA usate per creare il target o
quantità di marcatore fluorescente), ibridizzazione (cross-ibridation) e scansione (bilanciamenti dei laser, diversi parametri di
scansione).
Ai problemi sopra esposti si cerca di dare soluzione mediante il processo di normalizzazione. La normalizzazione prevede che si calcolino
fattori di standardizzazione per ciascuno dei tre effetti sopra menzionati. Si tratta di sottrarre al segnale una (i) media generale di
array, la (ii) differenza tra le medie degli spot stampati da ciascun print-tip e la media generale, ed infine la (iii) differenza tra la media
delle intensità con fluorescenza rossa e verde. Altre variazioni sono introdotte per errore durante la preparazione dei campioni, la
realizzazione degli array, il processamento degli array (labeling, ibridizzazione, scannerizzazione) trattasi quindi una variazione
oscura che deve essere eliminata attraverso il processo di normalizzazione “Soluzione”: trovare un insieme di geni invarianti cioè tali
che:
1) i loro valori di espressione rimangano costanti su tutti gli array
2) i loro valori di espressioni ricoprano l’intero spettro di intensità del segnale osservato. (NB: Il fattore di normalizzazione necessario
per aggiustare le intensità basse non necessariamente è uguale a quello utilizzato ad intensità elevate).
3) i rapporti di normalizzazione tra questi geni siano rappresentativi dei rapporti di normalizzazione per tutti i geni.
Geni di controllo: geni sintetici a concentrazioni note (3?)
Geni housekeeping: geni che sono assunti (in partenza) essere invarianti tra array differenti (1? e 2?)
Geni osservati: geni che vengono osservati, secondo qualche metrica, come poco variabili lungo gli array.
Tutti i geni: è ragionevole aspettarsi che siano molto pochi i geni che variano a causa di una diversa risposta a condizioni di interesse
differenti (più è piccolo il numero di geni che varia, e maggiormente siamo soddisfatti). Quasi tutti i geni dell’array possono essere
utilizzati per la normalizzazione quando si può ragionevolmente assumere che solo una piccola porzione di essi vari significativamente
la propria espressione da un campione all’altro, oppure che esista simmetria nei livelli di espressione dei geni sovra e sotto espressi.
In pratica è però molto difficile trovare un gruppo di spot con un segnale costante su cui trarre un fattore di correzione. Si preferisce
quindi, quando il numero di geni differenzialmente espressi è limitato rispetto al numero totale dei geni indagati, usare tutti gli spot
dell’array nel processo di normalizzazione dei dati. Il secondo approccio si basa sull’assunto che da proporzione di geni
differenzialmente espressi sia un’altra e quindi suggerisce l’uso della restante porzione (housekeeping genes) che si crede abbia un
livello di espressione costante nelle due condizioni. Questa piccola porzione di geni però, oltre ad essere difficilmente identificabile, spesso
risulta poco rappresentativa rispetto ai geni di interesse essendo costituita per lo più da geni con alto livello di espressione. Il terzo
approccio necessita dell’appoggio del laboratorio e prevede di realizzare un microarray per un solo campione di mRNA (prelevato da
un’unica cellula) diviso in due porzioni uguali, ciascuna marcata con colori differenti. Trattandosi dello stesso campione di
materiale genetico, in seguito all’ibridizzazione si dovrebbe avere la stessa intensità degli spot per il rosso e per il verde: eventuali
differenze possono essere usate come fattore di normalizzazione. Un altro trattamento dei dati preliminare all’analisi è la cosiddetta
filtrazione. Essa è finalizzata alla riduzione della variabilità e della dimensionalità dei dati
Il primo obiettivo viene raggiunto rimuovendo quei geni le cui misure non sono sufficientemente accurate, il secondo con l’imitazione
dei geni che prevedono un livello di espressione molto piccolo o negativo (prima o dopo la normalizzazione).
19
Quaderni di Bioinformatica
In pratica, tutti gli spot la cui differenza tra l’intensità di foreground e quella di background non supera un valore soglia di 1.4 fold (una
misura dell’intensità luminosa) vengono eliminati o sostituiti con un valore piccolo arbitrario. Questa procedura è giustificata
dall’evidenza empirica che livelli di espressione più piccoli di 1.4 fold sono solitamente frutto di errori di misura. Si noti che qualsiasi
operazione di filtrazione introduce arbitrarietà nella scelta delle soglie che determinano se un valore è troppo grande o troppo piccolo
oppure se la variabilità delle misure è troppo elevata.
L’acquisizione dei dati è solo la parte iniziale della procedura. La parte più complicata è l’elaborazione della enorme quantità di dati
generati da questi esperimenti, necessaria per rispondere ai quesiti biologici di partenza. I dati più significativi devono essere poi
verificati con altri sistemi (Northern, real time RT-PCR).
Selezione dei geni target. Un potenziale problema per la tecnologia dei cDNA microarray è la cross reattività legata ad omologie di
sequenza, in particolar modo quando si analizzano famiglie geniche. Generalmente le regioni non tradotte in 3’ rappresentano un
target ideale per due principali ragioni: (1) tali regioni sono sottoposte ad una minor pressione selettiva e presentano generalmente
una maggiore variabilità, e (2) l’ibridizzazione risente meno dei fenomeni di terminazione precoce della retro trascrizione. Un'altra
possibilità consiste nell’aggiungere alla soluzione di ibridazione piccoli oligonucleotidi che rappresentano sequenze altamente ripetute
al fine di bloccare le potenziali regioni di crossibridizzazione.
Concentrazione del DNA. La concentrazione del DNA varia nei singoli esperimenti e dipende in parte dal livello di espressione del
Vetrini e printing. Sono presenti in commercio diversi tipi di vetrino. Per alcune ragioni esiste una corrispondenza tra tipo di vetrino e
protocollo per microarray. Durante la deposizione, l’evaporazione dei campioni di DNA può causare seri problemi a causa della
Una possibile soluzione consiste nell’utilizzare per il
printing un buffer composto al 50% da dimetil sulfossido (DMSO). La concentrazione del DNA, il buffer per il printing e il tipo di vetrino
devono essere ottimizzati prima di procedere con la deposizione.
Materiale di partenza. L’integrità e la purezza dell’RNA sono due dei fattori che maggiormente determinano la riproducibilità
dell’esperimento. Spesso un RNA di scarsa qualità è dato da un errato trattamento del materiale di partenza. In generale è importante
mantenere sempre i campioni in ghiaccio, congelarli appena possibile in azoto liquido e non scongelarli fino al momento dell’uso.
Campioni con acidi nucleici
La preparazione dei campioni con acidi nucleici utilizza procedure diverse, che variano secondo i casi. Sono tutte abbastanza
complesse per cui preferiamo tabularle cosi come sono riferite da Schena (2002).
Criteri
Tipo indiretta
Template -DNA
Trascrizione Inversa
Diretta
RNA
RNA Polimerasi
diret. o indiretto
DNA doppia elica e
promotore
Procedura Eberwine
diretta indiretta
DNA doppia elica e
promotore
Prodotto
oligonucleotide
Reattivo
oligonucleotide
fluorescente
modificato
Interazione
T3 o T7 nucleotide
T7 RNA polim
nucleotide
modificato o anticorpo
coniugato TSA
Ibridazione o piccolo
anticorpo
Amplificazione
Tipo di amplificazione
Nessuna
Nulla
Colore fluorescente
BIODIP
Processo
Cianina
Alexa
Nulla
Modificato
Ibridazione
TSA
Dendrimeri
RNA o DNA in
dendrimeri
nucleotide
RNA o DNA con
piccola molecola di
legame
nucleotide
modificato
modificato
modificato o
dendrimero
Ibridazione
piccolo anticorpo
Ibridazione
nulla, enzim o passiva
100-1.000.000
passiva aumento
quantità RNA
100
enzimatica
10-350
passiva
Cianina
qualsiasi
Cianina
fino a 3 ore
nulla ma l'amplificazione
del RNA diversi giorni
3 ore
Cianina
Alexa
3 ore
nucleotide
Riteniamo utile completare quanto riferito nella su esposta tabella con qualche altro dato che può risultare utile per interpretarla:
Trascrizione inversa. E' stato il metodo utilizzato nei primi esperimenti con i microarray. Da questo metodo base sono poi derivate
numerose varianti. usando sia RNA cellulari, che sono molto più facili da ottenere, che mRNA. Sono state anche utilizzati diversi tipi
20
Quaderni di Bioinformatica
di trascriptasi inverse e diversi metodi di purificazione dei campioni. Il principale vantaggio di questo metodo è dato dalla
coniugazione diretta che elimina i trattamenti da fare dopo l'ibridazione, che sono sempre ardui e richiedono molto tempo per essere
espletati. Lo svantaggio maggiore è data dal fatto che si ottiene un segnale molto meno evidente di quello che si ha con l'approccio
indiretto che si giova dell' effetto dell' amplificazione.
La trascriptasi inversa è usata per incorporare la biotina o il dinitrofenolo al cDNA, che poi viene ibridizzato su un microarray ed
incubato con un anticorpo coniugato alla perossidasi. Il chip, così composto, è trattato con acqua ossigenata per cui la perossidasi
ossida il segnale fluorescente della tiramide. Ne deriva un segnale fluorescente molto intenso, fino a 100 volte. E' un segnale, però,
che ha un'emivita molto breve.
RNA polimerasi. Questo, oltre alle trascriptasi inverse è un altro gruppo di enzimi largamente usati per preparare campioni per
microarray. Si tratta di una famiglia di enzimi estratti da virus batterici (T3 e T7), che catalizzano la sintesi del RNA partendo da un
DNA a doppia elica, grazie all'azione di promotori specifici. Si tratta di un processo robusto e ad alta resa che da la possibilità di
produrre quantità notevoli di RNA, che poi può essere diviso facilmente in piccoli frammenti a livello di oligonucleotidi con possibilità di
amplificazione del segnale anche di 100 volte. Bisogna solo stare molto attenti ad evitare l'azione delle ribonucleasi che attaccano
facilmente le molecole di RNA. Si consiglia quindi di operare in stanze molto ben pulite, utilizzare guanti di gomma sintetica e,
ovviamente, essere certi che reattivi e tamponi siano assolutamente privi di ribonucleasi.
Procedura Eberwine. Si tratta di un metodo molto ingegnoso che si basa sull'uso della RNA polimerasi da T7, che converte mRNA
in cDNA con amplificazione, che per ogni procedura è di circa 100 volte e che, alla fine, può arrivare fino a 1.000.000 volte rispetto al
materiale di partenza. Pertanto questo è il metodo preferito quando si devono risolvere particolari problemi biologici che non si
possono risolvere con altri metodi. Lo svantaggio di questo metodo è che è piuttosto arduo e lungo. Infatti occorrono 2-3 giorni per
completarlo e poi si attua attraverso manipolazioni durante le quali non si riesce a seguire cosa stia succedendo, per cui, se ci sono
interferenze da reagenti inattivi o da contaminazioni da ribonucleasi, lo si capisce solo alla fine, di fronte a risultati inattesi.
TARGET targets sono i campioni da fare interagire. Anche questi devono essere in qualche modo preparati. Per quanto riguarda gli
acidi nucleici, spesso occorre fare in modo che il segnale venga amplificato. In tutti i casi, sia per gli acidi nucleici come per le
proteine poi è necessario legarli ad una molecola rivelatrice che, per lo più, finora è stato un colore fluorescente.
Amplificazione del segnale da tiramide (TSA) La tiramide, in questa procedura, ha la funzione di potenziare il segnale di varie
sostanze fluorescenti, come la fluoresceina, la cianina 3 o la cianina 5, per cui si possono realizzare reazioni che portano alla
formazione di colori diversi.
Dendrimeri. Il termine dendrimero deriva dalle parole greche “dendron” e “meros” che significano rispettivamente “albero” e “parte”.
Infatti sono costituiti da ordinati grovigli di monomeri di oligonucleotidi che ricordano la chioma di alberi e che si formano, per processi
di sintesi progressivi, anellandosi gli uni agli altri attraverso cicli progressivi che possono arrivare a formare anche molecole di DNA
aventi un PM di 12000 e contenenti 36000 basi. Le singole molecole fluorescenti attaccate alle numerose estremità sporgenti o
braccia del polimero determinano la comparsa di un segnale fluorescente molto intenso. Un polimero con 300 molecole di colore
produce un segnale 300 volte più intenso. Ne deriva che polimeri aventi un diametro di 0,2 micron si vedono anche ad occhio nudo.
Nel complesso è una tecnica che, anche se non facile da eseguire, presenta molti vantaggi.
Metodi di marcatura. La marcatura fluorescente degli acidi nucleici è un’altra variabile che influenza la riproducibilità. Vernon et. al.
hanno testato la riproducibilità di tre diversi metodi di marcatura e hanno evidenziato come i risultati più riproducibili erano ottenuti
effettuando un RT[18].
Sviluppo di un protocollo di ibridizzazione. Le procedure di ibridizzazione sono legate alla riproducibilità del metodo, è quindi
importante ottimizzare tutti i parametri di ibridizzazione, tra cui la concentrazione del campione, forza ionica, temperatura. Non è
possibile fornire un protocollo universale, ma è necessario procedere all’ottimizzazione di tutti i parametri per ogni singolo
esperimento.
Scanning dei vetrini. Dopo il lavaggio finale i vetrini devono essere immediatamente scannerizzati per il canale Cy5 e poi per il Cy3
(Cy5 è più sensibile alla fotodegradazione), inoltre è importante effettuare una calibrazione dello scanner per il fuoco e il segnale.
Riferimenti
1.
Heller, M.J., DNA microarray technology: Devices, Systems and Applications. Annual Reviews of Biomedics Engeneering,
2002. 4: p. 129-53.
2.
Ekins, R.P., Multi-analyte immunoassay. J.Pharm.Biomed. Anal., 1989. 7: p. 155-168.
3.
Ekins, R.P. and et.al., Multispot, multianalyte,immunoassay. Ann.Biol.Clin., 1990. 48: p. 655-666.
21
Quaderni di Bioinformatica
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
Ekins, R.P. and F. Chu, Multianalyte microspot immunoassay. The microanalytical "compact disk "of the future.
Ann.Biol.Clin., 1992. 50: p. 337-353.
Gabig, M. and W. Grzegorz, An introduction to DNA chips: principles, technology, applications and analysis. Acta
Biochimica Polonica, 2001. 48(3): p. 615-622.
Schena, M., et al., Quantitative monitoring of gene expression patterns with complementary DNA microarray. Science,
1995. 270: p. 476-470.
Lander, E.S. and et.al., Initial sequencing and analysis of the human genome. Nature, 2001. 409: p. 860-921.
Venter, J.C. and et.al., The sequence of the human genome. Science, 2001. 291: p. 1304-1351.
Arcellana-Panlilio, M. and S.M. Robbins, Cutting edge tecnology. Global gene expression profiling using DNA microarrays.
Am.J.Physiol.Gastrointest.Liver Physiol., 2002. 282: p. 397-402.
Southern, E., K. Mir, and M. Shchepinov, Molecular interactions on microarrays. Nature Genetics, 1999. 21: p. 5-9.
Lockart, D.J., et al., Expression monitoring by hybridization to high-density oligonucleotide arrays. Nature Biotechnology,
1996. 14: p. 1675-1680.
Lipshutz, R.J., et al., High density syntetic oligonucleotide arrays. Nature Genetics, 1999. 21: p. 20-24.
Haase, B. Applications of affimetrix microarrays in cancer and genotyping. in Understanding the genome: Scientific
progress in microarray technology. 2002. Genova, Italy.
Cifuentes, F. Characterization and properties of oligonucleotide microarrays produced using inkjet technology. in
Understanding the genome: Scientific progress in microarray technology. 2002. Genova, Italy.
Schubler, P. New platforms for DNA microarrays: 70mer oligonucleotide probes offer excellent sensitivity and specificity. in
Understanding the genome: Scientific progress in microarray technology. 2002. Genova, Italy.
DeRisi, J., et al., Use of a cDNA microarray to analyse gene expression patterns in human cancer. Nature Genetics, 1996.
14: p. 457-460.
Schena, M., et al., Parallel human genome analysis: microarray-based monitoring of 1000 genes. Proc. Natl. Acad. Sci.
USA, 1996. 93: p. 10614-10619.
Vernon, S.D., et al., Reproducibility of alternative probe synthesis approaches for gene expression profilig with arrays. J.
Mol.Diag., 2000. 2: p. 124-127.
Li, X., et al., DNA microarrays: their use and misuse. Microcirculation, 2002. 9: p. 13-22.
Firestein, G.S. and D.S. Pisetsky, DNA microarray: Boundless technology or bound by technology? Guidelines for studies
using microarray technology. Arthritis & Rheumatology, 2002. 46(4): p. 859-861.
Afshari, C.A., E.F. Nuwaysir, and J.C. Barret, Application of complementary DNA microarray technology to carcinogen
identification, toxicology, and drug safety evaluation. Cancer Research, 1999. 59: p. 4759-60.
Ulrich, R. and S.H. Friend, Toxicogenomics and drug discovery: will new technologies help us produce better drugs? Nature
Rev. Drug. Disc., 2002. 1: p. 84-88
Allen J. F. Bioinformatics and discovery: Induction beckons again. Bioassays 23- 104- 2001
22
Quaderni di Bioinformatica
ANALISI D’IMMAGINE E PATTERN RECOGNITION
Alessio Soggiu
Paola Roncada
Gian Franco Greppi
Istituto l.L. Spallanzani Milano
CNBS (Centro NanoBiotecnologie Sardegna)
ll riconoscimento automatico di oggetti (pattern) e la loro descrizione, classificazione e raggruppamento (clustering) sono temi
importanti per una grossa varietà di problemi sia nell’area ingegneristica che scientifica, quali: la biologia, la psicologia, la medicina, il
marketing, la visione artificiale, l’intelligenza artificiale fino alla fusione di dati (meglio conosciuta come data fusion). La domanda che
sorge spontanea nel descrivere la pattern recognition, è: cos’è esattamente un pattern?
Watanabe descrive un pattern come “l’opposto del caos; ovvero un’entità, generalmente definita a cui si può dare un nome”. Per
esempio, un pattern può essere l’immagine di una impronta digitale, una parola scritta in corsivo, l’immagine di un volto, o un segnale
acustico.
Dato un pattern, il suo riconoscimento (detto anche classificazione) può essere principalmente effettuato in due modi;
supervisionato, in cui il pattern in input viene identificato come membro di una classe tra quelle predefinite, ovvero viene classificato
in maniera supervisionata avendo l’utente o il progettista definito a priori le classi di interesse;
non supervisionato, in cui il pattern in input viene assegnato ad una classe sconosciuta a priori, ovvero i pattern vengono raggruppati
nei cosiddetti cluster (tecniche di clustering).
Il problema della pattern recognition quindi viene posto nella forma di classificazione o identificazione delle categorie di appartenenza,
dove le classi o categorie possono essere sia definite dal progettista del sistema (nei metodi supervisionati), sia apprese dalle
similarità tra i pattern (nei metodi non supervisionati). I sistemi di pattern recognition creano, chiaramente, nuovi scenari applicativi sia
a livello accademico che industriale. Si pensi, per esempio, ai vantaggi per un processo industriale che, impiegando il riconoscimento
automatico di oggetti, può beneficiare di un controllo qualità automatizzato. Sempre nell’ambito industriale, l’impiego di algoritmi di
riconoscimento automatico, porta ad arricchire le funzionalità dei robot impiegati, come ad esempio la possibilità di muoversi in
determinati ambienti riconoscendo automaticamente gli ostacoli. Altre applicazioni di interesse, soprattutto ai giorni nostri, sono quelle
di video sorveglianza automatizzata. Pensiamo, ad esempio, ad una stazione ferroviaria o ad un aeroporto ed a come, vista la mole di
persone in transito, un riconoscimento automatico di oggetti incustoditi possa essere cruciale per le funzionalità di sorveglianza. Il
riconoscimento di volti, è un’altra area di applicazione che consente di aumentare notevolmente la sicurezza sia in ambito pubblico
che aziendale. Un ulteriore scenario, molto interessante, riguarda la cosiddetta “Realtà Aumentata” dove informazioni reali percepite
da utenti umani vengono arricchite da informazioni sull’ambiente estratte automaticamente da un sistema automatizzato. Un esempio
tipico è quello militare con la possibilità di avere visori che includono tracciamento automatico dei soggetti individuati e stima della
distanza dall’osservatore. Già da questi primi esempi è chiaro come l’uso di tecniche di riconoscimento automatico possa
notevolmente migliorare le attuali applicazioni tecnologiche in diversi campi, dal settore scientifico a quello sociale ed industriale.
Le principali aree di applicazione della Pattern Recognition sono:
Automazione dei processi industriali.
•Riconoscimento di oggetti, ispezioni visuali, controlli di qualità.
•Navigazione e coordinazione di robot.Sorveglianza e tracking.
•Traffico, sicurezza.
Interazione uomo-computer.
•Rilevamento e riconoscimento di volti.
•Assistenza ai disabili.
Realtà virtuale e visualizzazione.
•Ricostruzione di scene e modelli 3D.
•Fotometria.
Applicazioni spaziali e militari.
23
Quaderni di Bioinformatica
Tra i campi più innovativi nell’applicazione del riconoscimento di pattern, c’è ad esempio l’affective computing, identificato da Picard,
che introduce la possibilità da parte del sistema di riconoscere e esprimere emozioni, al fine di rispondere in maniera intelligente alle
espressioni umane.
In genere, un sistema di pattern recognition, riceve in ingresso la descrizione di un oggetto, ovvero un insieme di misure che lo
caratterizzano (feature) e sulla base di queste “decide” a quale classe l’oggetto appartiene. La decisione della classe di appartenenza
ha un costo associato all’assegnazione dell’oggetto alla classe sbagliata e l’obiettivo con cui realizzare un buon sistema di pattern
recognition è quello di minimizzare il costo di classificazione.
Comunque, la caratteristica comune a tutti questi sistemi e domini applicativi è che le misure caratteristiche (feature) non sono
suggerite o identificate dagli esperti di dominio, ma vengono estratte ed ottimizzate da procedure che elaborano dati; questo avviene
perché in genere abbiamo migliaia di misure possibili anche per un singolo pattern. La crescente disponibilità di risorse per il calcolo
automatico non solo consente di elaborare contemporaneamente grosse moli di dati, ma permette anche l’analisi e la classificazione
di grandi insiemi di pattern. Allo stesso tempo, la domanda di applicazioni di pattern recognition cresce continuamente grazie alla
disponibilità di grosse basi di dati e del calo dei costi dei supporti di memorizzazione. La progettazione di un sistema di pattern
recognition richiede essenzialmente di affrontare i seguenti aspetti:
1. Acquisizione e pre-elaborazione (e normalizzazione) dei dati.
2. Rappresentazione e classificazione dei dati o pattern.
3. Decisione e classificazione.
Il dominio di applicazione, in pratica, influenza enormemente la scelta dei sensori (nel senso generale del termine), delle tecniche di
pre-elaborazione e di normalizzazione dei dati, della rappresentazione degli stessi e del modello decisionale di classificazione.
È noto che per i problemi di riconoscimento ben definiti e quindi condizionati opportunamente (esempio: piccole variazioni nei valori
appartenenti alla stessa classe e grosse variazioni in quelli appartenenti a classi diverse) esistono soluzioni efficienti e buone
strategie decisionali di classificazione. Per esempio, usare approcci orientati all’apprendimento, basandosi su un insieme di dati per
l’addestramento automatico del sistema (training set) consente la necessaria flessibilità del sistema, che addestrato con dati diversi,
può reagire a situazioni diverse con un margine di errore controllabile.
I quattro principali approcci alla pattern recognition sono:
1. approcci basati su modello (Template Matching);
2. approcci con classificazione statistica (Statistical Classification);
3. approcci sintattici o strutturali (Syntactic or Structural Matching);
4. approcci basati su reti neurali (Neural Networks).
Questi approcci non sono necessariamente separati ed indipendenti, infatti a volte lo stesso metodo può essere usato nei diversi
approcci con diverse interpretazioni. Esistono anche tentativi di progettazione e realizzazione di sistemi ibridi che introducono e
integrano più modelli all’interno dello stesso sistema.
Lo sviluppo di metodi nuovi ed effettivi per l’identificazione delle differenze tra gruppi di mappe 2D rappresenta una delle frontiere nel
campo della proteomica, soprattutto per lo sviluppo di strumenti diagnostico-prognostici affidabili e relativamente poco costosi. Il
riconoscimento automatico di oggetti e di immagini (pattern) e la loro descrizione, classificazione e raggruppamento (clustering) sono
temi importanti in una grossa varietà di problemi sia nell’area ingegneristica che scientifica, quali: la biologia, la psicologia, la
medicina, la visione artificiale, l’intelligenza artificiale fino alla fusione di dati (meglio conosciuta come data fusion). La domanda che
sorge spontanea nel descrivere la pattern recognition, è: cos’è esattamente un pattern?
Per esempio, un pattern può essere l’immagine digitale di una mappa proteomica, una parola scritta in corsivo, l’immagine di un volto,
o un segnale acustico. Dato un pattern, il suo riconoscimento (detto anche classificazione) può essere principalmente effettuato in
due modi: supervisionato, in cui il pattern in input viene identificato come membro di una classe tra quelle predefinite, ovvero viene
classificato in maniera supervisionata avendo l’utente o il progettista definito a priori le classi di interesse; oppure non supervisionato,
in cui il pattern in input viene assegnato ad una classe sconosciuta a priori, ovvero i pattern vengono raggruppati nei cosiddetti cluster
(tecniche di clustering). Il problema della pattern recognition quindi viene posto nella forma di classificazione o identificazione delle
categorie di appartenenza, dove le classi o categorie possono essere sia definite dal ricercatore (nei metodi supervisionati), sia
apprese dalle esperienze di addestramento. In genere, un sistema di pattern recognition, riceve in ingresso la descrizione di un
oggetto, ovvero un insieme di misure che lo caratterizzano (feature) e sulla base di queste “decide” a quale classe l’oggetto
appartiene. La decisione della classe di appartenenza ha un costo associato all’assegnazione dell’oggetto alla classe sbagliata e
l’obiettivo con cui realizzare un buon sistema di pattern recognition è quello di minimizzare il costo di classificazione.
Comunque, la caratteristica comune a tutti questi sistemi e domini applicativi è che le misure caratteristiche (feature) non sono
suggerite o identificate dagli esperti di dominio, ma vengono estratte ed ottimizzate da procedure che elaborano dati; questo avviene
perché in genere abbiamo migliaia di misure possibili anche per un singolo pattern.
La crescente disponibilità di risorse per il calcolo automatico non solo consente di elaborare contemporaneamente grosse moli di dati,
ma permette anche l’analisi e la classificazione di grandi insiemi di pattern. Allo stesso tempo, la domanda di applicazioni di pattern
recognition cresce continuamente grazie alla disponibilità di grosse basi di dati e del calo dei costi dei supporti di memorizzazione. In
molte delle applicazioni di pattern recognition risulta evidente che non esista un approccio “ottimale” e “generale” alla classificazione e
che la scelta di integrare diversi metodi e approcci è la migliore da perseguire.
24
Quaderni di Bioinformatica
La progettazione di un sistema di pattern recognition richiede essenzialmente di affrontare i seguenti aspetti:
-Acquisizione e pre-elaborazione (e normalizzazione) dei dati.
-Rappresentazione e classificazione dei dati o pattern.
- Decisione e classificazione.
Con il termine classificazione si intende una procedura statistica che permette di associare ciascun oggetto (che sia un’immagine, un
pattern, un dato numerico. . . ), appartenente a un generico spazio multidimensionale, a una o più etichette, corrispondenti alle
possibili classi di cui può far parte un oggetto; si parla di classificazione esclusiva quando ciascun oggetto appartiene a una sola
classe, o di classificazione continua o fuzzy se un oggetto può appartenere, con un certo grado di probabilità, a più classi. Per
ottenere una classificazione si usano le informazioni riguardanti alcuni tratti salienti (feature, caratteristiche) degli oggetti in esame, e
li si confronta, in un apposito spazio multidimensionale, con quelli di un training set: se questo training set è etichettato, e quindi le
possibili classi sono note e ogni campione nel set è già associato alla classe di appartenenza, si parla di apprendimento
supervisionato; in caso contrario, cioè quando le possibili classi vanno direttamente ricavate dai dati stessi, abbiamo a che fare con
apprendimento non supervisionato. Uno dei primi e più semplici degli approcci alla pattern recognition è quello basato sul modello, il
cosiddetto template matching. I sistemi di pattern recognition basati sul modello utilizzano la cosiddetta tecnica del “matching”; il
matching è definito come l’operazione che viene usata per determinare la similarità tra due entità dello stesso tipo: punti, curve o
forme ad esempio. Nell’approccio basato su modello, quest’ultimo (il modello) è tipicamente un prototipo del pattern od oggetto da
riconoscere e classificare, tipicamente una forma bidimensionale. L’oggetto da riconoscere (il pattern) viene confrontato con tutti i
modelli memorizzati nel sistema considerando i cambiamenti di scala e le possibili invarianze per rotazione o traslazione.
Naturalmente ci saranno casi in cui sarà utile l’invarianza di scala, cioè ci interessa riconoscere l’oggetto semplicemente dalla forma,
mentre in altri casi sarà necessario distinguere non solo rispetto alla forma ma anche rispetto alla dimensione.
La misura di similarità utilizzata nei sistemi basati su modello, è solitamente una correlazione statistica e può essere ottimizzata
apprendendo i parametri dal training set, ovvero da un insieme di esempi di oggetti forniti in input al sistema.
Il confronto di gruppi di mappe 2D non è come potrebbe sembrare a prima vista un problema di poco conto, questo dovuto anche al
fatto che alcuni limiti sperimentali influenzano la tecnica dell’elettroforesi 2D.
Pur essendo infatti una tecnica estremamente potente per la separazione ad alta risoluzione di proteine derivanti da diverse matrici
biologiche, l’elettroforesi 2D è caratterizzata da una riproducibilità a volte bassa. Questo limite dipende da 2 fattori principali: dal
campione che si intende studiare e dalle procedure strumentali e sperimentali che vengono impiegate. Spesso infatti i campioni da
analizzare sono rappresentati da popolazioni eterogenee di proteine con differenti proprietà fisico-chimiche che portano
inevitabilmente all’aumento della complessità e alla diminuzione della riproducibilità nell’esperimento. La seconda causa che porta ad
una diminuzione della riproducibilità è da ricercarsi nelle tecniche strumentali, dalla preparazione del campione alla acquisizione
dell’immagine. Effettivamente la tecnica della 2DE presenta molteplici step (purificazione, estrazione, matrici utilizzate, condizioni di
corsa, colorazioni ecc) che possono introdurre ciascuno della variabilità influenzando, a volte pesantemente, il risultato finale della
riproducibilità della posizione e dell’intensità dei singoli spot sulla mappa 2D. A questo punto è possibile comprendere come
l’elevatissimo numero di proteine teoricamente separabili in una mappa 2D (fino a 10.000) e le difficoltà tecnico/biologiche ad essa
associate complichino abbastanza seriamente il raggiungimento di una classificazione chiara dei campioni e l’utilizzo di questa
tecnica per studi di qualsiasi natura. Tuttavia con il controllo scrupoloso dei vari parametri sperimentali e l’utilizzo della bioinformatica
(analisi d’immagine e statistica) si può ovviare alla maggior parte delle problematiche pocanzi descritte riuscendo ad ottenere risultati
di elevato livello. L’analisi d’immagine effettuata con software dedicati, rappresenta un passaggio cruciale nell’interpretazione
biologica dei dati derivanti da esperimenti di elettroforesi bidimensionale. Gli importanti progressi fatti per quel che riguarda
l’acquisizione delle immagini ad alta risoluzione, combinato con il miglioramento della capacità di calcolo dei computer, permette di
effettuare analisi di routine di un gran numero di esperimenti contemporaneamente, ma sono ancora tanti i limiti dei software per
l’estrapolazione dei dati significativi dalle immagini acquisite. L’analisi d’immagine comprende quei processi di elaborazione che
vengono effettuati sulle immagini, a partire dalla individuazione del numero e delle caratteristiche degli spot (detection), al matching,
alla quantificazione dei volumi, fino alla creazione dei profili di espressione, seguita dall’analisi statistica dei dati. Questo tipo di analisi
è fondamentale, in quanto permette la digitalizzazione dei segnali a partire da un campione biologico e quindi una accurata analisi
statistica. I problemi che si incontrano sono diversi e rappresentano i limiti della maggior parte dei software attualmente in commercio:
attualmente non esiste un software completamente automatizzato che sia in grado di effettuare una analisi completa e precisa senza
ritocchi o interventi manuali da parte dell’operatore. Il primo passaggio fondamentale è quello dell’image filtering, che consente di
eliminare il background e distinguerlo dagli spot proteici. Il rumore di fondo in una mappa bidimensionale può essere di natura diversa
e dipendere da granuli di polvere, microbolle o altre imperfezioni del gel che potrebbero avere forma o dimensioni simili a quelle di
uno spot proteico ed essere confusi con esso. E’ importantissimo quindi mettere a punto algoritmi che siano in grado di distinguere gli
spot e sapere filtrare accuratamente il rumore come saprebbe fare l’occhio dell’operatore. Il secondo passaggio fondamentale è
invece rappresentato dalla spot detection, che permette l’identificazione degli spot e l’attribuzione di tutta una serie di caratteristiche
per descriverlo: area, volume coordinate x/y etc. Questi processi possono essere effettuati manualmente o automaticamente. Nel
primo caso l’operatore può intervenire per correggere eventuali errori del software e il rischio è rappresentato dal fatto che la
manipolazione delle immagini può aumentare l’errore statistico, nel secondo caso invece il software lavora automaticamente, ma
25
Quaderni di Bioinformatica
senza la conoscenza dell’operatore e con il rischio di avere una analisi imprecisa. Lo scopo è quello di effettuare miglioramenti
sull’automatizzazione dell’analisi riducendo al limite gli interventi manuali dell’operatore.
L’analisi dell’immagine è quindi un concetto ampio che potremo suddividere in due step principali:


acquisizione e processamento delle immagini
analisi delle immagini via software
il primo step di acquisizione e processamento è cruciale per i successivi step analitici.
Acquisizione delle immagini.
Digitalizzazione.
La digitalizzazione dell’immagine è il primo step di un’analisi quantitativa. I gel possono
essere acquisiti utilizzando uno scanner (laser o luce bianca) oppure una CCD camera.
Qualunque sia il sistema di acquisizione verranno acquisiti dei valori di trasmissione. Il
valore di trasmissione è il rapporto tra l’intensità del segnale ricevuto dal detector in
presenza del gel e l’intensità ricevuta in assenza del gel (I/I0). Qualunque sia la
strumentazione utilizzata nessuna delle funzioni di aumento del contrasto (es. correzione
gamma) deve essere utilizzata in quanto distorcerebbe il reale valore di trasmissione. I
valori di trasmissione (da 0 a 1) sono generalmente codificati in 8, 12 o 16 bit (a seconda
dello strumento utilizzato e delle sue caratteristiche tecniche) e convertiti in 256(28),
4096(212) o 65536(216) scale di grigio. In questo modo l’immagine che si ottiene è una
matrice di valori (pixel) tra 0 e 65536. Le immagini a questo punto sono descritte da dei
pixel; ciascun pixel è caratterizzato da una coppia di coordinate x e y che ne indicano la
posizione dello spazio 2D e un valore Z che corrisponde all’intensità del pixel (fig 1).
Ciascuna mappa è quindi costituita da una serie di pixel (la matrice) descritti dalla loro
densità ottica (OD). Solitamente viene utilizzato il formato TIFF (tagged image file format) in
scala di grigi, formati (es. JPEG ) che implicano l’utilizzo di algoritmi di compressione non
devono essere utilizzati.
Fig 1. Visone 3D di mappa bidimensionale. Parametri associati ad uno spot.
Risoluzione dell’immagine.
Più alta la risoluzione (pixel per unità di
lunghezza), migliore sarà il riconoscimento e
la quantificazione degli spot. La risoluzione è
inoltre un fattore limitante per la
discriminazione di gruppi di spot che si
sovrappongono. La maggioranza dei
software per l’analisi d’immagine non
rilevano spot multipli in un gruppo se non ci
sono delle variazioni tra i picchi d’intensità
(fig.
1).
Così
l’accuratezza
del
riconoscimento degli spot dipende dall’abilità
di discriminare anche differenze minime che
dipende a sua volta dalla risoluzione.
Fig.2 interfaccia per la calibrazione mediante step tablet
Solitamente per gel 24x20 cm la risoluziutilizzata è di 100micron/pixel che corrisponde circa a 300 dpi (84.7micron/pixel). Questo
valore è un compromesso tra 2 fattori: 1) velocità di acquisizione dell’immagine, in quanto il tempo richiesto per fare la scansione di
un gel può diventare limitante nel caso in cui sia necessario acquisire diversi gel ; 2) dimensione dell’immagine: gel 24x20 acquisiti a
100micron/pixel e 16 bit occupano dai 10 ai 15 MB, ovviamente maggiore sarà la dimensione dei file e la loro numerosità più lungo
sarà il tempo per analizzarli utilizzando dei software dedicati.
Dinamica dell’immagine
26
Quaderni di Bioinformatica
Durante l’acquisizione dell’immagine sarebbe bene utilizzare sempre tutti i bit disponibili in quanto la precisione della quantificazione
dipende dal numero dei livelli di grigio utilizzati. I dati di trasmittanza solitamente vengono convertiti automaticamente in densità ottica
(OD) (questo non si applica nel caso di colorazioni fluorescenti) in quanto la concentrazione proteica è linearmente correlata con la
densità ottica e non con la trasmittanza (fig 1). Facendo questa trasformazione si rende lineare la relazione tra volume degli spot e
quantità di proteina. Tutte queste operazioni solitamente vanno fatte dopo la calibrazione dello scanner mediante step tablet (fig.2) e
la sottrazione del background.
Software dedicati
Per l’analisi delle mappe 2D solitamente vengono utilizzati dei pacchetti software specifici (tabella 1).
Software
Company
Platforms
Images supported
Delta 2-D 4.0
Melanie 7.0
PD Quest 8 Advanced
Xpedition
Image Master 2D Platinum 7
HT Analyzer
Progenesis SameSpot 3.33
Redfin 2D
DECODON
PC (Windows XP, Vista)
http://www.decodon.com
Mac OS X
Geneva Bioinformatics
PC (Windows XP, Vista)
http://www.genebio.com
Bio-Rad Laboratories
PC (Windows XP, Vista)
http://www.biorad.com
Alpha Innotech Corporation
PC (Windows XP, Vista)
http://alphainnotech.com
GE Healthcare
PC (Windows XP, Vista)
http://www4.gelifesciences.com
Genomic Solutions http://
PC (Windows XP, Vista)
www.genomicsolutions.com
Nonlinear Dynamics
PC (Windows XP, Vista)
http://www.nonlinear.com
Ludesi
PC (Windows XP, Vista)
http://www.ludesi.com/
Tabella 1. Software per l’analisi d’immagine
TIFF (8, 12 and 16 bit),
JPEG, BMP, GIF, PNG.
TIFF (8, 16 bit), GIF,
TIFF (8, 16 bit)
Biorad Scan
TIFF (8,12 and 16 bit)
TIFF (8,12 and 16 bit)
TIFF (8, 12 and 16 bit)
TIFF (8, 12 and 16 bit)
TIFF (8, 12 and 16 bit)
Sebbene l’ordine degli step possa differire tra un software e l’altro possiamo comunque suddividere l’analisi in diversi step comuni a
tutti i software:








spot detection
image warping
spot matching
background subtraction
normalization
spot quantification
differential analysis
statistical analysis
Spot detection.
La spot detection è uno degli step più importanti dell’analisi dei gel 2D in quanto è alla base di
altri fondamentali passaggi quali matching e quantification. Una mappa 2D contiene
potenzialmente migliaia di spot e ciascuno di essi corrisponde idealmente a una proteina e
quindi è necessariol’utilizzo di algoritmi di calcolo che permettano di riconoscere gli spot
automaticamente distinguendoli dal rumore di fondo. Esistono 2 tipi principali di algoritmi
implementati nella maggioranza dei software: spot-based e pixel-based, in entrambi i casi però
questi non riescono a rilevare tutti gli spot correttamente ed è necessario un intervento manuale
dell’operatore. Alcuni dei problemi più comuni causa di un inaccurato riconoscimento includono:
rumore di fondo, problemi di acquisizione dei gel, forma degli spot irregolare, sovrapposizione
degli spot (fig.3). Tuttavia è buona norma limitare l’editing dell’operatore ad un livello basso in
modo da non indurre troppa soggettività nell’analisi.
27
Quaderni di Bioinformatica
Fig.3 Immagini di gel 2D e problematiche ricorrenti, vista 2D (sx) e 3D (dx). a) rumore di fondo (pixel singoli scuri); b) focalizzazione
incompleta e strisciate; c) sovrapposizione di spot.
Spot matching
La fase di maching o “registrazione” consiste nell’allineamento di 2 o più immagini in modo da compensare per la diversa posizione
degli stessi spot nei diversi gel. Quindi questa fase serve per determinare quali spot sono la stessa proteina nelle diverse mappe del
nostro esperimento. Questa fase è importante per il successivo passaggio di quantificazione degli spot e quindi delle differenze di
espressione delle proteine tra i nostri gruppi sperimentali. Solitamente il software di analisi d’immagine ci propone un matching di tipo
automatico ma nella maggioranza dei casi bisogna ricorrere ad un laborioso intervento manuale. Nei software di ultima generazione
al matching automatico viene associato il cosiddetto “image warping” che consiste nella deformazione dell’immagine in modo da
supplire alle differenze di allineamento dei vari gel. Inoltre è possibile individuare manualmente dei punti di riferimento (Landmark o
seeds) per il software (fig. 4 a 1-5), ad esempio la stessa proteina in diversi gel in modo da facilitare il compito degli algoritmi.
a
Fig.4 3 2DE Image matching . a) scelta dei Landmark o seeds; b) allineamento manuale
di uno spot tra 2 mappe e creazione del vettore di spostamento (1-3)
Normalizzazione
Tutte le immagini che noi utilizziamo per l’analisi contengono in proporzioni variabili del
rumore di fondo (background noise) dovuto alle procedure sperimentali utilizzate
(separazione, colorazione acquisizione e la stessa analisi). Questo rumore di fondo va
sottratto dal valore reale di OD di ciascun spot per ottenere delle misurazioni accurate
per la successiva fase di quantificazione delle differenze. Il principale scopo della
normalizzazione è quindi quello di compensare le variazioni (tecniche e software) tra i
gel. Il metodo standard nella maggioranza dei software consiste nel dividere il valore di
OD di ciascuno spot per la somma di tutti gli spot presenti nella mappa ottenendo così
una “quantità relativa”o un “volume relativo”.
b
1
2
3
Quantificazione e analisi differenziale
Questo step ci permette di analizzare differenti gruppi di mappe (es. controllomalato), e all’interno di ciascun gruppo ottenere dei valori medi per tutti gli spot
identificati. Una volta che i gruppi quindi sono stati creati è possibile cercare le
proteine differenzialmente espresse. Solitamente spot che mostrano una
variazione di almeno 2 volte vengono indicati come significativamente differenti,
tuttavia è indispensabile applicare dei metodi statistici per ottenere informazioni
realmente significanti.
Fig.5 output di analisi differenziale
Analisi statistica.
I volumi relativi dei singoli spot ottenuti alla fine dell’analisi d’immagine
rappresentano il punto di partenza per le analisi statistiche. Solitamente
è possibile ritrovare nei pacchetti software dei moduli di statistica che
gestiscono questi dati. Il tipo di analisi alla quale vengono sottoposti
solitamente è un’analisi di tipo uni variato (ANOVA o t di Student)
tuttavia il basso numero di replicati e le elevate variabili in gioco (gli
spot) introducono un elevato rischio di generare errori di I tipo (falsi
positivi). E’ quindi di notevole importanza l’utilizzo di metodi multivariati
che ben si adattano alle migliaia di variabili contemporaneamente
presenti in un esperimento di proteomica. L’analisi dei componenti
principali (PCA) è uno dei principali strumenti di analisi multivariata che
è stato inserito ultimamente in alcuni dei più sofisticati software (fig.6)
per l’analisi d’immagine. La sinergia fornita dall’utilizzo combinato di
tecniche statistiche uni e multivariate è di grande aiuto nell’evidenziare
le differenze significative nell’espressione proteica.
Fig. 6 Implementazione software (Progenesis SameSpot) dell’analisi statistica univariata (ANOVA) e multivariata (PCA).
28
Quaderni di Bioinformatica
Analisi multivariata di dataset derivanti da mappe 2D
I dati di volume di ciascuno spot ottenuti mediante quantificazione e analisi differenziale sono un’ottima base di partenza per l’analisi
multivariata; questo è dovuto principalmente alla loro larga dimensionalità (elevato numero di spot presenti in ciascuna mappa) e alla
difficoltà nell’identificare le piccole differenze esistenti nel caso dell’analisi di migliaia di spot contemporaneamente. Con l’analisi
multivariata è quindi possibile considerare tutte le variabili contemporaneamente, producendo risultati chiari e robusti. Tra le tecniche
statistiche che sono state applicate con successo a dataset di spot possiamo ricordare:
Metodi di riconoscimento di pattern
 Analisi dei componenti principali (PCA)

Cluster Analysis
Metodi di classificazione
 Analisi Discriminante (LDA)

Soft indipendent Model of Class Analogy (SIMCA)
Metodi di regressione
 Analisi discriminante-regressione parziale dei minimi
quadrati (DA-PLS)
I dati da utilizzare per l’analisi multivariata sono solitamente convertiti in matrici di dimensioni n x p, dove n è il numero di campioni
(uno per riga) e p il numero delle variabili (una per ciascuna colonna della matrice).
Nella tabella 2 sono riportati i principali software per la statistica multivariata
Software
Company
SPSS 17
SPSS Inc.
http://www.spss.it
SAS
SAS institute inc
http://www.sas.com
The Unscrambler 9.8
CAMO
http://www.camo.com
Minitab 15
Minitab inc
http://www.minitab.com
Stata 10
StataCorp LP
http://www.stata.com
SYSTAT 12
Cranes Software International Ltd
www.systat.com
STATISTICA 8
STATSOFT inc
http://www.statsoft.com
statistiXL 1.8
StatistiXL
http://www.statistixl.com/
Tabella 2 . Software per la statistica multivariata
Analisi dei componenti principali (PCA)
La PCA è una metodica che rappresenta gli oggetti, descritti dalle variabili originali,
in un nuovo sistema di riferimento caratterizzato da nuove variabili chiamate
componenti principali (PC). Ogni PC ha la proprietà di descrivere la maggiore
quantità possibile di varianza residua contenuta nel dataset originale: la prima PC
solitamente spiega la massima quantità di varianza contenuta nel dataset intero,
mentre la seconda descrive la massima varianza rimanente. Le PC sono quindi
calcolate in maniera tale che il rumore sperimentale e le variazioni casuali siano
contenute nelle ultime componenti. Le PC mantengono una stretta relazione con il
sistema di riferimento originario dal momento che sono calcolate come combinazioni
29
Platforms
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
Quaderni di Bioinformatica
lineari delle variabili originali e sono ortogonali (non correlate) rispetto alle altre, così da contenere fonti indipendenti di informazione
(fig .7)
Fig.7 Costruzione delle PC
Il calcolo delle PC viene operato in maniera gerarchica (ordine decrescente di varianza), questo fa si che risultino utili per ottenere
una riduzione della dimensionalità nel dataset originale: infatti il grande numero di variabili originarie (gli spot) vengono sostituite da
un piccolo numero di PC significative che contengono a loro volta una rilevante quantità di informazione. La PCA fornisce due
strumenti principali per l’analisi dei dati: gli score e i loading.
Gli score (gli oggetti) rappresentano le coordinate dei campioni nel nuovo sistema di riferimento, mentre i loading (le variabili)
rappresentano i coefficienti delle combinazioni lineari che descrivono ciascuna PC (es. il peso delle variabili originali su ciascuna PC).
La rappresentazione grafica degli score nello spazio delle PC ci permette l’identificazione di gruppi di campioni che mostrano un
comportamento simile (campioni molto vicini nel grafico) o caratteristiche differenti (campioni distanti tra loro nel plot). Osservando il
loading plot è possibile identificare le variabili che sono responsabili delle analogie o delle differenze rilevate tra i campioni nello score
plot.
Fig.8 esempio di loading e score plot.
Nella figura 8 è rappresentato un esempio di loading e score plot. In questo caso è possibile discriminare i 2 gruppi presenti. La prima
componente è efficace nel discriminare i campioni 4, 5 e 6 (score negativo) dai campioni 2 e 3 (score positivo). Dal punto di vista
dell’identificazione di gruppi di campioni e variabili esistenti in un dataset, la PCA è uno strumento estremamente potente in quanto
permette la rappresentazione di dati multivariati attraverso l’utilizzo di poche PC significative. Esistono anche come rappresentazione
grafica i cosidetti biplot che riportano in forma grafica contemporaneamente score (oggetti) e loading (variabili) (fig.9).
Fig.9 Esempio di biplot. Numeri in rosso rappresentano i loading e numeri in nero gli score.
Un ultimo problema viene sempre incontro durante l’utilizzo di questa tecnica e cioè: quante PC bisogna tenere per ciascuna analisi?
La risposta a questa domanda non è mai definitiva ma bisogna valutare caso per caso. Tuttavia esistono almeno 3 criteri (euristici)
per la scelta del numero di componenti:
1. prendere solo quelle componenti che spiegano il 70-80% della variabilità complessiva
2.
seguire la regola di Kaiser: prendere solo quelle componenti che hanno un autovalore (eigenvalue) >=1 o che equivalentemente
con varianza > varianza media
30
Quaderni di Bioinformatica
3.
la scelta del n° di componenti (sufficienti a riprodurre con una buona approssimazione i dati di partenza) può essere fatta
attraverso il grafico degli autovalori o scree plot (fig.9). all’interno del grafico si sceglie il numero di componenti corrispondente
al punto di “gomito” della spezzata.
Nell’esempio che segue I risultati prodotti dall’ANALISI COMPONENTI PRINCIPALI sono i seguenti:
Queste tabelle contengono la statistica descrittiva della matrice, le componenti trovate con il rispettivo auto valore (eigenvalue) , la
varianza spiegata, la varianza cumulata Principal Component Results for:
e i loading. Nella tabella le Variable Range = Foglio1!$C$4:$K$9
Principal components calculated from the correlation matrix
COMPONENTI sono già ordinate in Components extracted with eigenvalues > 1
funzione della variabilità complessiva Descriptive Statistics
Variable
Mean
Std Dev.
Std Err
N
spiegata da ognuna.
1587
33374221,549
19985195,959 8937651,342
5
Tabella 3. Output numerico (statistiXL)
derivante da PCA su dataset di gel 2D
17338323,749
4088543,007
12987612,594
6175016,067
6465152,152
7524422,836
25011941,297
16233549,559
2233859,300
497522,701
2660117,767
1577144,973
1543167,802
1951258,401
2047510,266
3429618,726
999012,249
222498,916
1189640,831
705320,674
690125,621
872629,285
915674,428
1533772,122
5
5
5
5
5
5
5
5
Correlation Matrix
Fig.9 Scree plot
1587
1587
1272
430
1072
1343
912
1269
1401
1757
Scree Plot
9
8
7
Eigenvalue
1272
430
1072
1343
912
1269
1401
1757
6
1272
1,000
0,987
0,957
0,972
0,933
0,955
0,947
0,871
-0,923
0,957
0,950
1,000
0,891
0,957
0,983
0,968
0,940
-0,798
1072
0,972
0,985
0,891
1,000
0,823
0,923
0,912
0,786
-0,944
1343
0,933
0,881
0,957
0,823
1,000
0,898
0,889
0,894
-0,776
912
0,987
1,000
0,950
0,985
0,881
0,975
0,968
0,878
-0,926
430
0,955
0,975
0,983
0,923
0,898
1,000
0,994
0,946
-0,843
1269
0,947
0,968
0,968
0,912
0,889
0,994
1,000
0,966
-0,866
1401
0,871
0,878
0,940
0,786
0,894
0,946
0,966
1,000
-0,770
1757
-0,923
-0,926
-0,798
-0,944
-0,776
-0,843
-0,866
-0,770
1,000
0,416
4,617
96,982
PC 3
0,164
1,817
98,800
PC 4
0,108
1,200
100,000
PC 5
0,000
0,000
100,000
PC 6
0,000
0,000
100,000
PC 7
0,000
0,000
100,000
PC 8
0,000
0,000
100,000
PC 9
0,000
0,000
100,000
5
Explained Variance (Eigenvalues)
Value
PC 1
Eigenvalue
8,313
% of Var.
92,365
Cum. %
92,365
4
3
2
1
0
1
2
3
4
5
6
7
8
9
Component Number
Fig.10 score plot delle prime due
componenti principali dell’esempio.
PC 2
Component Loadings
(correlations between initial variables and principal components)
Variable
PC 1
1587
0,988
1272
0,989
430
0,977
1072
0,953
1343
0,931
912
0,985
1269
0,984
1401
0,931
1757
-0,907
Se decidiamo di seguire il criterio della VARIABILITA’
COMPLESSIVA SPIEGATA allora vediamo che per superare
abbondantemente la soglia dell’80% basterebbe la prima
componente.
Anche secondo la regola di KAISER bisognerebbe prendere la 1°
componente, perché al di sotto di questa tutte le altre hanno
autovalori <1 e quindi andrebbero scartate.
L’ultimo criterio che ci rimane da saggiare è quello dello SCREE
PLOT. In questo caso il punto di gomito più netto si ha alla 2°
componente. Quindi tre su tre consigliano una COMPONENTE (la
prima), tuttavia decidiamo di prenderne 2 per ottenere anche lo
score plot (anche se la seconda non è significativa).
In ultima analisi quindi è bene analizzare mediante PCA i dati
utilizzando il dataset completo e non sulle proteine che appaiono
significativamente differenti da analisi univariate. Le statistiche
multivariate hanno un valore aggiunto essendo capaci di
differenziare i differenti gruppi sperimentali in termini di espressione
correlata più che espressione assoluta. Eseguire l’analisi iniziale solo sulle proteine statisticamente significative potrebbe escludere
informazioni utili. Quindi si può iniziare l’analisi utilizzando la PCA su tutte le variabili disponibili e comparando successivamente i dati
con l’analisi univariata applicata alle singole variabili (le proteine).
Analisi bioinformatica dei network di interazione proteina-proteina.
Negli ultimi anni, le scoperte sulla funzione di geni e proteine su larga scala per una migliore comprensione del funzionamento
cellulare e dello sviluppo degli organismi, hanno stimolato la ricerca di nuovi approcci analitici. In questo senso, i metodi bioinformatici
31
Quaderni di Bioinformatica
si sono evoluti di pari passo alla decifrazione delle funzioni di geni e proteine. Questo è sottolineato dal fatto che lo sviluppo di nuovi
metodi computazionali,permettendo la decodifica delle succitate funzioni su larga scala,ha non solo aperto questo campo di
investigazione, ma anche creato una nuova visione delle interazioni tra geni e proteine.
Gli “interattomi” sono nuove entità biologiche che corrispondono,idealmente e formalmente, al completo set di interazioni esistente tra
tutte le macromolecole di un organismo. Ad oggi, gli interattomi disponibili sono essenzialmente formati da network di interazione
proteina-proteina (PPI) nei quali le interazioni sono state sperimentalmente ottenute su larga scala dal sistema dei due ibridi (yeast
two-hybrids), o da differenti tipi di esperimenti su scala ridotta. Tuttavia gli interattomi sono ancora lontani dall’essere completi dal
momento che esiste uno sconosciuto numero di interazioni che devono essere ancora scoperte. Le mappe PPI (di lievito,
caenorabdtidis, drosophila e umane) formano complicati network che contribuiscono solo in parte ad una rinnovata visione della
cellula come un sistema integrato e dinamico. Contemporaneamente alla decodifica degli interattomi, vengono sviluppati i metodi
bioinformatica che permettono la loro analisi. Al momento i network d’interazione sono rappresentati da grafici complessi nei quali i
nodi corrispondono alle proteine e i connettori (di varia forma) alle loro interazioni (fig 10).
Fig.10 Network d’interazione ottenuto da dati proteomici sperimentali elaborati mediante software dedicato (Ingenuity Pathway
Analysis).
Pathway Database.
Le informazioni riguardanti i pathway sono disponibili attraverso un gran numero di database che spaziano da quelli di elevata qualità
curati manualmente e quelli massivi, che coprono un elevato numero di pathway teorici, creati attraverso l’utilizzo di sistemi
automatici per l’immissione dei dati. A causa di queste differenz e nelle dimensioni e nella qualità è necessario utilizzare il giusto
database adatto alle proprie esigenze.
KEGG.
KEGG (Kyoto Encyclopedia of Genes and Genomes) (http://www.kegg.jp/) è una serie di database sviluppati dal centro di
bioinformatica dell’università di Kyoto e dal centro del genoma umano dell’università di Tokio. KEGG risulta essere una vera e propria
enciclopedia, la sezione pathway consiste principalmente di network metabolici, la licenza è libera per uso non commerciale. KEGG è
unico per la sua copertura su lievito, topo e pathway metabolici umani. Tutto viene creato da curatori che leggono la letteratura e la
integrano nei database. Le informazioni sono disponibili via browser e i pathway mostrati come immagini GIF, in questo modo l’utente
non può gestire in maniera semplice le informazioni fornitegli.
BioCyc
32
Quaderni di Bioinformatica
E’ un pathway database fornito dalla SRI International (http://www.biocyc.org/), è di elevata qualità ed è focalizzato principalmente su
network metabolici. Oltre a BioCyc ci sono EcoCyc (E.coli), MetaCyc e HumanCyc database, le licenze sono libere per qualsiasi
utilizzo.
Ingenuity Pathways Knowledge Base
E’ il database creato dalla Ingenuity Systems Inc. (http://www.ingenuity.com/) , tutte le licenze sono a pagamento. Consiste
principalmente di network genici e di signalling. I database sono curati manualmente e contegono informazioni su specie umana, topo
e ratto. I database possono essere fruiti attraverso l’utilizzo di un software proprietario chiamato Ingenuity Pathway Analysis (IPA) che
permette contrariamente agli altri database di ottenere dei database personalizzati inserendo i propri dati di espressione genica o
proteomica, tutti gli output possono essere esportati in molteplici formati elettronici.
TRANSPATH
TRANSPATH è una serie di database creati da BIOBASE (http://www.biobase-international.com/). La versione più recente dei dati
richiede un accesso a pagamento. Tuttavia, alcune parti di vecchi dati sono fornite agli utenti accademici come versione di prova
(http://www.gene-regulation.com/). Oltre che TRANSPATH, BIOBASE offre il database TRANSFAC dei fattori della trascrizione e il
database PROTEOME per le proteina. Inoltre fornisce il software ExPlain per la consultazione di questi database.
ResNet
ResNet (http://www.ariadnegenomics.com/) è il database generato da Ariadne Genomics. Le autorizzazioni accademiche e
commerciali richiedono una tassa. I pathway di ResNet consistono principalmente nelle vie di segnalazione e nei network genici.
Diverso da altre banche dati, ResNet è costruito con analisi computerizzata. Cioè le vie e le reti sono generate con l'elaborazione del
linguaggio naturale della letteratura relativa. MedScan è usato per questa procedura di elaborazione del linguaggio naturale. La
banca dati è costruita pricipalmente dagli estratti in PubMed, ma alcune entry usano il testo integrale. In più, ci sono un piccolo
numero di entry generate dai curatori.
Signal Transduction Knowledge Environment (STKE): Database of Cell Signaling
STKE (http://stke.sciencemag.org/), è un servizio online fornito da Science. E’ una banca dati di alta qualità delle vie di segnalazione
generata ed effettuata dai curatori. Il database può essere raggiunto abbonandosi al servizio online di Science. Tuttavia, l'utente non
può specificare una lista dei geni (proteine) e generare una rete su quella selezione.
Reactome
Reactome è una banca dati di vie metaboliche e di segnalazione (http://www. reactome. org/). Cold Spring Harbor LaboratoryEuropean Bioinformatics Institute, and Gene Ontology Consortium ono gli sviluppatori principali del progetto. Anche se gli esseri
umani sono l'organismo principale catalogato, ha altre 22 specie catalogate tra le quali topo e ratto. Le informazioni sono estratte dai
curatori. Le vie e le reazioni del Reactome possono essere osservate ma non modificate con un web browser, tuttavia la gestione dei
dati risulta di semplice utilizzo.
Metabolome.jp
Metabolome.jp (http://metabolome.jp/) è una banca dati metabolica generata da alcuni laboratori di ricerca dell’università di Tokyo.
Utilizzando un applet denominato ARM, le vie possono essere osservate e pubblicate attraverso un browser. Le vie sono generate
dai curatori. Ogni prodotto metabolico è indicato con una formula strutturale. Diverso da KEGG, è possibile seguire il movimento degli
atomi nelle reazioni metaboliche.
Software per l’interattomica.
Ingenuity Pathway Analysis (IPA)
Ingenuity Pathway Analysis è il software usato per visualizzare i dati dell’Ingenuity Pathway Knowledge Base della Ingenuity Systems
Inc. Per un insieme dato di geni (o proteine), IPA genera automaticamente le vie che sono collegate con quei geni (o proteine). Ciò
significa, per esempio, che se si trova un insieme di macromolecole con elevata varianza di espressione dopo analisi di microarray o
proteomica, IPA genera automaticamente la via che coinvolge quei geni. La via è generata partendo dell'essere umano, dal topo e
dei dati del ratto. Di conseguenza, è necessario ricordare che anche se IPA genera una certa via è possibile che non risulti realmente
in quell’organismo ma sia solamente frutto degli algoritmi utilizzati.
Esistono altri software proprietari come MetaCore, Pathway Builder e Pathway Studio e open source come Cytoscape, IntAct e
Copasi.
BIBLIOGRAFIA ESSENZIALE
ANALISI D’IMMAGINE E STATISTICA MULTIVARIATA
Alban, A., Currie, I., Lewis, S., Stone, T., & Sweet, A. C. (2002) Mol. Biol. Cell 13, 407A–408A.
Alban, A., David, S. O., Bjorkesten, L., Andersson, C., Sloge, E., Lewis, S., & Currie, I. (2003) Proteomics 3, 36–44.
Bjellqvist, B., Ek, K., Righetti, P. G., Gianazza, E., Gorg, A., Westermeier, R., & Postel, W. (1982) J. Biochem. Biophys. Methods 6,
317–339.
Carpentier, S. C., Witters, E., Laukens, K., Deckers, P., Swennen, R., & Panis, B.(2005) Proteomics 5, 2497–2507.
Gustafsson, J. S., Ceasar, R., Glasbey, C. A., Blomberg, A., & Rudemo, M. (2004) Proteomics 4, 3791–3799.
Hotelling, H. (1933) J. Educ. Psychol. 24, 417–441.
Jackson, J. E. (2003) A User’s Guide to Principal Components. Wiley, New York.
Karp, N. A. & Lilley, K. S. (2005) Proteomics 5, 3105–3115.
33
Quaderni di Bioinformatica
Karp, N. A., Spencer, M., Lindsay, H., O’dell, K., & Lilley, K. S. (2005) J.Proteome Res. 4, 1867–1871.
Patton, W. F. (2000) Electrophoresis 21, 1123–1144.
Pearson, K. (1901) Phil. Mag. Ser. B. 2, 559–572.
Rabilloud, T. (2000) Proteome research: two dimensional gel electrophoresis and identification methods. Springer, Heidelberg.
Rabilloud, T., Vuillard, L., Gilly, C., & Lawrence, J. (1994) Cellular and Molecular Biology 40, 57–75.
Sharma, S. Applied Multivariate Techniques. Wiley, Hoboken, NJ.
Siegel, S. C. N. J. (1988) Non Parametric Statistics for Behavioral Sciences. McGraw-Hill Book Company
Switzer, R. C., Merril, C. R., & Shifrin, S. (1979) Anal. Biochem. 98, 231–237.
Tarroux, P. (1983) Electrophoresis 4, 63–70.
Tonge, R., Shaw, J., Middleton, B., Rowlinson, R., Rayner, S., Young, J., Pognan, F., Hawkins, E., Currie, I. et al. (2001) Proteomics
1, 377–396.
Unlu, M., Morgan, M. E., & Minden, J. S. (1997) Electrophoresis 18, 2071–2077.
Urfer, W., Grzegorczyk, M., & Jung, K. (2006) Proteomics S2, 48–55.
Westermeier, R. & Naven, T. (2002) Proteomics in Practice. Wiley-VCH,Weinheim.
Westermeier, R. (2001) Electrophoresis in Practice. Wiley-VCH, Weinheim.
Westermeier, R. (2006) Proteomics S2 61–64.
INTERATTOMICA
Aittokallio T, Schwikowski B (2006) Graph-based methods for analysing networks in cell biology. Brief Bioinform 7: 243¬255.
Baudot A, Jacq B, Brun C (2004) A scale of functional divergence for yeast duplicated genes revealed from analysis of the proteinprotein interaction network. Genome Biol 5: R76.
Baudot A, Martin D, Mouren P, Chevenet F, Guenoche A, et al. (2006) PRODISTIN Web Site: a tool for the functional classification of
proteins from interaction networks. Bioinformatics 22: 248¬250.
Brun C, Baudot A, Guénoche A, Jacq B (2004) The use of protein-protein interaction networks for genome wide protein function
comparisons and predictions. In: Kamp RM, Calvete JJ, Choli¬Papadopoulou T, editors. Methods in Proteome and Protein
Analysis. Berlin Heidelberg: Springer-Verlag. pp. 103¬124.
Brun C, Chevenet F, Martin D, Wojcik J, Guénoche A, et al. (2003) Functional classification of proteins for the prediction of cellular
function from a protein¬protein interaction network. Genome Biol 5: R6.
Formstecher E, Aresta S, Collura V, Hamburger A, Meil A, et al. (2005) Protein interaction mapping: a Drosophila case study.
Genome Res 15: 376¬384.
Giot L, Bader JS, Brouwer C, Chaudhuri A, Kuang B, et al. (2003) A protein interaction map of Drosophila melanogaster. Science
302: 1727-1736.
Ito T, Chiba T, Ozawa R, Yoshida M, Hattori M, et al. (2001) A comprehensive two hybrid analysis to explore the yeast protein
interactome. Proc Natl Acad Sci U S A 98: 4569¬4574.
Li S, Armstrong CM, Bertin N, Ge H, Milstein S, et al. (2004) A map of the interactome network of the metazoan C. elegans. Science
303: 540¬543.
Rual JF, Venkatesan K, Hao T, Hirozane-Kishikawa T, Dricot A, et al. (2005) Towards a proteome¬scale map of the human
protein¬protein interaction network. Nature 437: 1173¬1178.
Sanchez C, Lachaize C, Janody F, Bellon B, Roder L, et al. (1999) Grasping at molecular interactions and genetic networks in
Drosophila melanogaster using FlyNets, an Internet database. Nucleic Acids Res 27: 89¬94.
Sharan R, Ulitsky I, Shamir R (2007) Network-based prediction of protein function. Mol Syst Biol 3: 88.
Stelzl U, Worm U, Lalowski M, Haenig C, Brembeck FH, et al. (2005) A human protein¬protein interaction network: a resource for
annotating the proteome. Cell 122: 957¬968.
Uetz P, Giot L, Cagney G, Mansfield TA, Judson RS, et al. (2000) A comprehensive analysis of protein¬protein interactions in
Saccharomyces cerevisiae. Nature 403: 623¬627.
34