Quaderni di Bioinformatica QUADERNI DI BIOINFORMATICA Edizione a cura di S. Mura e G.F. Greppi 1 Quaderni di Bioinformatica SCUOLA ESTIVA DI BIOINFORMATICA II EDIZIONE (25 maggio -29 maggio 2009) Biotecnologie agrarie e ambientali Il corso si propone di fornire le conoscenze e gli strumenti statistici fondamentali per l’analisi dei dati ottenuti da esperimenti condotti con microarray. La piattaforma microarray di riferimento sarà quella dei cDNA microarray, ma tutte le analisi svolte saranno comunque estendibili anche alle altre piattaforme. Il software statistico di riferimento sarà il principalmente il SAS in quanto consente, a differenza dei software dedicati, di sviluppare l’analisi dei dati scrivendo ogni singola procedura parallelamente ai concetti teorici necessari all’interpretazione dei dati. Il corso si svilupperà in tre fasi. La prima riguarderà la progettazione di un esperimento con i microarray e i meccanismi di genetica molecolare di base su cui si fonda la tecnologia microarray. Il corso è orientato alle piattaforme Affymetrix ed Illumina. La seconda, detta fase di training, riguarderà l’analisi di dati provenienti da un esperimento simulato. Sarà ipotizzato un disegno sperimentale semplice e i geni differentemente espressi saranno conosciuti a priori. Questo consentirà di motivare le scelte fatte tra le numerose tecniche di analisi statistica riscontrabili in letteratura oltre che da un punto di vista sia teorico che strettamente biologico, anche in termini di efficienza nella individuazione di geni differentemente espressi. La terza fase, individuata come fase applicativa, riguarderà l’analisi di dati reali ricavati da un esperimento complesso con i microarray. Docenti: Prof. Adriano Aguzzi, Prof Luigi Bonizzi, Prof. Corrado Dimauro, Dott. Andrea Galli, Prof. Gian Franco Greppi, Prof. Nicolò Maciotta, Dott. Paolo Menesatti, Prof. Alessio Valentini, La macro aree trattate: -Basi molecolari della tecnologia microarray -Generazione di microarray da banche dati di sequenze con annotazione automatica -Disegno sperimentale con microarray -Controllo di qualità degli spot -Normalizzazione dei dati -Statistica di base per l'analisi dei microarray -Analisi delle fonti di variabilità dei dati preprocessing (normalizzazione dei dati ed approntamento del data-set finale). - Image analysis in combinazione con la modellistica multivariata -Dai dati prodotti dal software di analisi delle immagini, all’espressione differenziale dei geni e al data-summary. -Introduzione all'uso dei linguaggi -L’analisi statistica della espressione dei geni -Modelli statistici per l’individuazione dei geni diversamente espressi -Pattern e clusters di geni -Esercitazioni con dati simulati Le esercitazioni avverranno utilizzando i Prodotti Software di SAS Institute e manuali messi gentilmente a disposizione. Questa dispensa contiene alcuni testi di supporto didattico alle lezioni del corso, la stampa ed il materiale fornito nel CD è stato realizzato grazie al contributo della Fondazione Iniziative Zooprofilattiche di Brescia. 2 Quaderni di Bioinformatica ARRAY E MICROARRAY QUALUNQUE TECNOLOGIA SUFFICIENTEMENTE AVANZATA E' INDISTINGUIBILE DALLA MAGIA Gian Franco Greppi Stefania Mura CNBS (Centro NanoBiotecnologie Sardegna) Dipartimento di Scienze Zootecniche, Università di Sassari Via De Nicola 9, 07100 Sassari INTRODUZIONE Storicamente le ricerche in genetica sono state focalizzate sullo studio di uno o pochi geni alla volta. Negli ultimi anni l'identificazione di un enorme numero di geni ha portato alla necessità di sviluppare nuove tecniche più adeguate ad un'analisi su larga scala. Due sono state le innovazioni sperimentali che hanno permesso l'analisi simultanea di decine di migliaia di geni. Una è l'utilizzo di supporti rigidi non porosi come il vetro, molto più adatti alla miniaturizzazione ed all'utilizzo di marcatori fluorescenti. L'altra è la sintesi ad alta densità spaziale di oligonucleotidi su vetrini sottilissimi con tecniche fotolitografiche. Si è giunti alla nascita di una nuova tecnologia di analisi comunemente chiamata microarray o DNA chip dopo un percorso che è partito negli anni ’90 e di seguito brevemente richiamato. La conoscenza di varianti genetiche è da tempo un elemento nella diagnostica e nella la cura di pazienti in biomedicina. Per esempio, varianti genetiche portano ad incompatibilità tra tessuti ed organi inficiando il successo di un trapianto. Ma variazioni nella sequenza genomica portano anche ad una diversa suscettibilità verso tutti i tipi di patologie, ad una differente età nella insorgenza e di gravità di molte malattie genetiche, e causano anche una diversa efficacia nella cura. Gli studi di associazione non coinvolgono l'analisi di genealogie di grandi famiglie ma confrontano la prevalenza di un particolare marcatore genetico, o di un gruppo di marcatori, in soggetti affetti e non affetti dalla patologia. Una prevalenza di un marcatore nel gruppo di pazienti affetti viene considerata evidenza di una associazione tra la malattia ed il marcatore. L'associazione non è un fenomeno specificatamente genetico; è una deduzione statistica di coesistenza di alleli e/o fenotipi. L'allele A è associato con la patologia P se i soggetti che presentano P hanno anche una frequenza dell'allele A significativamente maggiore di quella prevista dalle frequenze individuali di A e P nella popolazione. Marcatori molecolari Con il termine di marcatore molecolare si intende un qualsiasi carattere polimorfico mendeliano che può essere impiegato per seguire l'ereditarietà di un segmento cromosomico attraverso un albero genealogico. Per le analisi di associazione è necessaria la presenza di meiosi informative, ovvero casi in cui è definibile quando un gamete è o meno ricombinante. Per la maggior parte degli scopi l'eterozigosità media di un marcatore (la probabilità di un soggetto scelto a caso di essere eterozigote) è utilizzata come misura di informatività del marcatore stesso. I polimorfismi genetici sono variazioni nelle sequenze di DNA presenti in una popolazione con una frequenza maggiore dell'1% e costituiscono strumenti fondamentali per gli studi di genetica. Nei primi anni ottanta i polimorfismi genetici hanno formato, per la prima volta, un gruppo di marcatori sufficientemente numeroso ed adeguatamente distribuito lungo tutto il genoma da permettere ricerche di associazione in tutto il DNA genomico. I primi marcatori molecolari ad essere studiati furono gli RFLP, Restriction Fragment Length Polymorphisms (polimorfismi della lunghezza dei frammenti di restrizione). Si tratta di una metodica complessa che può avere come scopo la formulazione di un consiglio genetico. Permette di studiare la trasmissione di un gene in seno a una famiglia quando non è nota la sua sequenza ma solo la sua localizzazione su di un cromosoma. La metodica si serve dell’analisi delle sequenze non codificanti di DNA contigue al gene in esame e le utilizza come suoi markers indiretti. Prevede numerosi passaggi tra cui la digestione dell’acido nucleico da parte di enzimi di restrizione, dell’elettroforesi per la separazione dei frammenti così ottenuti e del southern blotting per il loro trasferimento su di un filtro di nitrocellulosa. Per potere individuare i siti di restrizione, la regione del genoma di interesse viene amplificata tramite PCR ed i prodotti vengono incubati con l'enzima. Eseguendo quindi un'elettroforesi su gel di agarosio si è in grado di determinare se il frammento amplificato è stato tagliato o meno, ovvero se la sequenza specifica riconosciuta dall'enzima è presente inalterata oppure no. Uno svantaggio di questo tipo di marcatori è dato dalla loro bassa informatività. Infatti gli RFLP presentano solo due alleli possibili: il sito di restrizione può essere intatto oppure no. L'impiego di questi marcatori per eseguire la mappa genetica di patologie è però poco attuabile in quanto troppo spesso delle meiosi chiave in una famiglia risultano non informative. 3 Quaderni di Bioinformatica Un'altra categoria di marcatori comprende i minisatelliti VNTR (Variable Number of Tandem Repeat), detti anche ripetizioni a tandem a numero variabile. Hanno sequenze ripetute lunghe una decina di nucleotidi. Tali marcatori sono multiallelici e presentano un alto grado di eterozigosità. La maggior parte delle meiosi risulta informativa ma i VNTR presentano delle difficoltà relative alla genotipizzazione in quanto vista la loro lunghezza tali marcatori vengono amplificati con difficoltà in una reazione di PCR. Inoltre non sono uniformemente distribuiti lungo tutto il genoma. Un ulteriore tipo di marcatori sono i microsatelliti, detti anche ripetizioni a tandem semplici. Sono ripetizioni lunghe da due a quattro nucleotidi. L'impiego di sequenze tri- o tetranucleotidiche sta gradualmente soppiantando l'utilizzo di quelle dinucleotidiche, troppo soggette ad uno slittamento della lettura dell'enzima durante la PCR. Come i precedenti, anche questi marcatori sono multiallelici dal momento che il numero di ripetizioni per ogni allele può variare. Tra i marcatori molecolari più utilizzati vi sono gli SNP. Come suggerisce il nome, i Single Nucleotide Polymorphisms (polimorfismi a singolo nucleotide) sono singole variazioni puntiformi del genoma. Tali polimorfismi includono i classici RFLP, ma anche altre variazioni di sequenza che non creano o sopprimono siti di restrizione. Può sembrare paradossale tornare all'impiego di polimorfismi biallelici dopo avere individuato dei marcatori pluriallelici, ma il grande vantaggio nell'utilizzare degli SNP è dato dall'elevato numero di polimorfismi che possono essere genotipizzati e dalla loro elevata densità lungo tutto il genoma. A giugno del 2004 nell'uomo è stata stimata una frequenza per gli SNP pari ad uno ogni 700pb. Un’elevata densità rende possibile individuare uno o più marcatori in ogni gene e nelle sue immediate vicinanze. Per quanto concerne i cambi di base relativi agli SNP, si è osservato che le transizioni, ovvero cambi purina-purina (A vs G) o pirimidina-pirimidina (C vs T), si ritrovano con frequenza maggiore delle trasversioni, ovvero cambi purina-pirimidina e pirimidina-purina. Oltre all'elevato numero di SNP conosciuti, il fatto più importante è che oggi si ha una conoscenza precisa di dove sono situati all'interno del genoma. Il principale impiego di una mappa di SNP umana è dato dalla possibilità di discernere i contributi di diversi geni in patologie multigeniche complesse. Dato che siti di SNP sono presenti in tutto il genoma, confrontando lo schema e le frequenze di tali polimorfismi presenti in pazienti affetti con quelli di soggetti sani di controllo, è possibile identificare quali SNP sono associati a quali malattie. Gli studi relativi all'associazione tra SNP e malattie saranno più fruttuosi quando verranno risolti alcuni problemi ancora esistenti. Primo, sono poco conosciute le distribuzioni degli SNP all'interno di diverse popolazioni. Altro fattore importante è che non tutti gli SNP sono eguali, e sarà essenziale scoprire il più possibile riguardo al loro effetto da analisi computazionali prima di eseguire uno studio relativo al loro coinvolgimento eventuale in una patologia. Per esempio, ogni SNP può essere classificato in base alla sua presenza in una zona codificante o non. A loro volta quelli siti in zone codificanti possono essere divisi in base alla loro capacità di alterare o meno la proteina prodotta dal gene alterato. Alterazioni alla proteina poi possono essere suddivise in base alla loro capacità di modificare la struttura secondaria e terziara della proteina stessa. Gli SNP situati in zone non codificanti possono poi trovarsi in zone regolatrici. Molte patologie complesse possono essere causate da variazioni nella quantità, più che nella qualità del prodotto genico coinvolto. Vi sono numerosi approcci per l'identificazione di SNP, tra questi alcuni vengono anche impiegati per la genotipizzazione. I principali sono basati sul confronto di sequenze relative ad un determinato locus, provenienti da diversi cromosomi. Tra questi, il più semplice consiste nell'eseguire il sequenziamento diretto dei prodotti di PCR di regioni genomiche contenenti il gene di interesse in individui diversi. Su larga scala però tale approccio è molto costoso richiedendo lo studio di primer specifici; inoltre limitato a regioni di cui è nota la sequenza e, quando si presentano doppi picchi, come atteso negli eterozigoti, non è sempre facile discernere tra artefatti dovuti al sequenziamento e polimorfismi reali. Diversi approcci basati sul confronto di sequenze ottenute da frammenti clonati possono essere considerati per ottenere una mappa di SNP in un genoma. In questo caso qualsiasi picco doppio viene considerato artefatto. Il confronto tra dati di sequenze prodotte in diversi progetti di EST, specialmente se le librerie costruite sono state ottenute prelevando campioni da diversi individui, possono essere una buona fonte di SNP. Ad ogni modo il numero di SNP individuabili con questo approccio è limitato dalla pressione selettiva subita dalle sequenze codificanti del genoma. Inoltre, in rari casi, gli SNP individuati in questo modo potrebbero essere in realtà dovuti a modificazioni post-trascrizionali. Un approccio simile può essere applicato per i genomi in fase di sequenziamento completo. In questo caso il confronto tra cloni BAC sovrapponibili è una buona fonte di SNP. Lo svantaggio di tale approccio è dato dal fatto che l'individuazione degli SNP dipende dal numero di cloni BAC sovrapponibili presenti nella genoteca e provenienti da cromosomi diversi. Recentemente un nuovo approccio chiamato Reduced Representation Shot-gun (RRS) viene utilizzato per ottenere un elevato numero di SNP nell'uomo. In questo metodo, il DNA proveniente da diversi individui è mescolato e vengono prodotte delle librerie plasmidiche composte da sottoinsiemi di frammenti di restrizione purificati tramite elettroforesi su gel. Viene quindi realizzato un sequenziamento di tipo shotgun su tali librerie e le sequenze che risultano sovrapponibili vengono allineate andando ad evidenziare i polimorfismi. Quest'ultima fase ha beneficiato grandemente dello sviluppo di programmi come PHRED atti a stimare la qualità con cui viene definita una base ed altri programmi come POLYPHRED o POLYBAYES che impiegano questo indice di qualità per il rilevamento di polimorfismi. Il termine Microarray, definito anche biochips" (comunemente conosciuto come gene chip, DNA chip, o biochip) è un insieme di piccoli elementi, detti anche spots, sistemati su file orizzontali e colonne verticali; il termine è composto da "micro", che in greco significa "piccolo" e dal francese "arayer", che significa "sistemare”, ed è sostanzialmente costituito da una collezione di microscopiche sonde di DNA attaccate ad una superficie solida come vetro, plastica, o chip di silicio formanti quindi un array. Come definito da Schena ed altri (Scienze 270, 467-470, 1995), un DNA microarray è "un allineamento ordinato degli acidi nucleici, di 4 Quaderni di Bioinformatica piccole molecole, che permette l'analisi parallela dei campioni biochimici complessi". Con il completamento del progetto genoma siamo entrati in possesso di un prezioso e ricco dizionario, con molti vocaboli ma pochissime definizioni. L’obiettivo della postgenomica è stato quello di trovare le definizioni mancanti, utilizzare le informazioni di genomica strutturale per spiegare e analizzare i processi biologici su scala genomica, e assegnare la corretta funzione ai diversi geni. Gli array vengono utilizzati per esaminare il profilo d’espressione di un gene o per identificare la presenza di un gene o di una breve sequenza in miscela di migliaia (spesso anche tutto il patrimonio genetico di un individuo umano o non). Un microarray è rappresentato da elementi microscopici su una superficie piana su cui è possibile immobilizzare sia acidi nucleici che proteine capaci quindi di riconoscere e legarsi con molecole complementari. La tecnologia permette di realizzare, pertanto, sia reazioni di ibridazione, quando si tratti di acidi nucleici, o reazioni immunitarie, quando si tratti di antigeni o anticorpi. Un microarray può essere considerato un potente mezzo diagnostico se presenta quattro caratteristiche standard ossia essere ordinato, microscopico, planare e specifico. Ordinato, significa che gli elementi analitici, detti anche molecole probe o chip o spot, devono essere disposti in modo ordinato e preciso lungo file orizzontali diritte ed incolonnati anche su file verticali perfettamente perpendicolari. I vari elementi devono essere, ovviamente, di grandezza uniforme e separati da spazi uniformi. E' assolutamente necessario che tali elementi siano disposti in maniera ordinata, sia su linnee orizzontali che verticali, perché questo ne facilita la produzione in automazione e, quindi a costi contenuti, ma, ancora più importante, ne facilita e accelera l'esame e l'interpretazione dei risultati. Ogni elemento deve essere uniforme per non rendere ambigua la lettura. Non è ammissibile la se pur minima sbavatura che rischierebbe di contaminare la lettura dell'elemento vicino. Elementi di forma diversa o di diversa densità, anche se contenenti lo stesso numero di molecole, darebbero luogo ad un segnale di diversa intensità, compromettendo la precisione del risultato. Inoltre, ovviamente ogni elemento deve avere una collocazione ben precisa, in base alle sequenze desiderate, di modo che, automaticamente, si sappia che il dato che la macchina legge corrisponda ad un unico e ben preciso probe o spot. La necessità d'assegnare una funzione a ciascuna delle migliaia di geni identificati grazie alla genomica ha reso indispensabile tecniche che permettano l'analisi simultanea di moltissimi campioni. I macro- e micro-array rispondono a questa esigenza. Le due tecnologie, identiche nel principio, differiscono nel numero di geni simultaneamente analizzabili (da qualche centinaia a qualche migliaia per i macro-array; da diverse migliaia a interi genomi per i micro-array) e nel tipo di supporto utilizzato (classiche membrane di nitrocellulosa o nylon per i macro-array; supporti o "chip" in vetro o altro materiale inerte per i micro-array). Corti frammenti di acidi nucleici ("oligonucleotidi" della lunghezza compresa fra poche decine e qualche centinaia di paia di basi) corrispondenti ad un particolare tratto della sequenza dei geni presenti in un particolare tipo di cellula vengono immobilizzati in maniera ordinata e sistematica in punti precisi (o "spot") del supporto prescelto. Il numero di geni rappresentati è quindi funzione della densità degli "spot" genici sul supporto come riportato nella immagine. La tecnologia dei microarray rappresenta un nuovo potente strumento di ricerca. Il suo sviluppo è stato possibile solo grazie all’integrazione di diverse discipline, quali la biologia molecolare, la genetica, più moderne nanotecnologie, la chimica degli acidi nucleici, i nuovi software, la robotica e l’automazione. Esistono infiniti campi di applicazione per questa nuova tecnologia che spaziano dall’analisi dell’espressione genica, DNA RNA microarray, all’analisi delle differenti proteine presenti in differenti tipi di campioni, protein microarray, fino ad arrivare alle applicazioni citologiche ed immunoistochimiche dei Tissue microarray. le ed Classificandoli in base alla metodologia costruttiva, esistono tre tipi principali di microarray: microarray di cloni di DNA: microarray per uso specifico composti di oligonucleotidi oppure di cDNA (ovvero DNA complementare a singola catena ottenuto per clonazione da un campione di mRNA precedentemente isolato); microarray di oligonucleotidi prefabbricati: il posizionamento degli oligonucleotidi è fatto sfruttando l’attrazione elettrostatica esercitata su di loro da parte di microelettrodi; microarray di oligonucleotidi sintetizzati in situ: microarray ad alta densità contenenti oligonucleotidi sintetizzati usando tecniche fotolitografiche o di tipo“ink-jet”. I microarray di cloni sono i più usati e possono analizzare RNA proveniente da due diversi campioni su un singolo chip; le limitazioni derivano dalla disponibilità di cloni e dalla qualità dei campioni di mRNA. Le altre due classi sono anche note come array microindirizzabili e permettono l’analisi dell’espressione di un gran numero di geni contemporaneamente ma possono analizzare un solo campione per chip, con costi considerevoli. 5 Quaderni di Bioinformatica È possibile classificare i microarray, in base all’uso che ne viene fatto, in tre categorie: 1. cDNA microarray: per permettere l’analisi su larga scala di un gran quantitativo di mRNA come un indicatore dell’espressione genetica; 2. microarray SNP (“Single Nucleotide Polymorphism”) e array di mutazione: per rilevare polimorfismi o mutazioni in una popolazione usando array SNP o array progettati per rilevare mutazioni conosciute. 3. microarray CHG (“Comparative Hybridization Genomic”): per osservare perdite o guadagni genomici, o un cambiamento nel numero di copie di un gene particolare coinvolto in una malattia. Per quanto riguarda il campo della genomica funzionale i DNA microarray consentono il monitoraggio simultaneo dell’espressione di migliaia di geni, fornendo un preziosissimo ed innovativo strumento ai ricercatori. Prima di analizzare in dettaglio è opportuno ritornare al lavoro di Schena e Davis che nel 1999 hanno tracciato una serie di 12 regole che devono sempre essere tenute presenti, quando si opera con i microarray per ottenere risultati corretti ed apprezzabili. Le riportiamo in sintesi: 1. Le analisi dei geni devono essere sempre eseguite in parallelo. La valutazione dell'attività dei geni non può essere mai fatta correttamente su supporti solidi ma non paralleli quali il nylon o la nitrocellulosa, che non hanno una superficie piana. Occorre poter operare su una superficie perfettamente piana come quella del vetro o di altro materiale che abbia le stesse caratteristiche. Infatti solo su una superficie perfettamente piana si possono allineare gli spots senza che si creino inaccettabili convergenze che renderebbero impossibile la lettura in automazione o comunque altererebbero i risultati. 2. Le tecnologie di preparazione devono sempre rendere possibile la miniaturizzazione e l'automazione. Tutti i metodi di produzione dei microarray, compresa la fotolitografia o le procedure a getto d'inchiostro, devono tendere a realizzare un prodotto che, comunque, rientri in questi canoni, affinché possa soddisfare la clientela. 3. Ciascun ciclo di analisi dei geni ha cinque fasi evolutive. Come i cicli della vita si ripetono in un divenire sempre identico per cui si ha prima la nascita, poi lo sviluppo, la crescita per finire con la morte, cosi, per l'analisi dei geni si deve procedere attraverso cinque tappe: impostare il quesito biologico, preparare il campione, eseguire la reazione biochimica, raccogliere i risultati, analizzarli per arrivare alla risposta finale. 4. La manipolazione del sistema biologico deve aderire esattamente al quesito biologico. Qualsiasi problema si affronti, sia che riguardi batteri, lieviti, organismi geneticamente modificati, piante, animali bisogna sempre stare molto attenti alle influenze dell'ambiente, alla temperatura, ai trattamenti che si fanno e quindi a tutte le tecnologie che si applicano per evitare che si creino artefatti. Per esempio quando si lavora con le piante bisogna tener presente non solo che la temperatura sia quella giusta, ma anche l'influenza dell'intensità luminosa e la concentrazione del CO2. Con qualsiasi tipo di cellula in coltura, il terreno di crescita, il volume o il tipo di recipiente, l'agitazione e tanti altri fattori possono influenzare l'espressione genica in modo anomalo compromettendo così il risultato finale dell'esperimento. 5. Il campione biochimico deve riflettere esattamente l'esemplare biologico. Bisogna fare in modo che l'isolamento, la purificazione l'amplificazione, la marcatura e qualsiasi altro metodo o tecnologia si applichi non alterino il campione che si desidera analizzare. Tener presente che, specialmente le molecole di RNA, sono suscettibili a rapidi cambiamenti fino alla totale denaturazione da parte di ribonucleasi frequentemente presenti in alcuni ambienti. Anche la marcatura è una fase che può creare problemi se non si sceglie un tipo di tecnica che sicuramente poi dia la esatta misura del campione. 6. Una presentazione parallela deve sempre essere associata a campioni precisi e correttamente dosati. Quindi non solo i probes vanno disposti in piano e su linee parallele per rendere possibile la corretta misurazione dei targets, ma anche essere omogenei e correttamente legati al substrato, altrimenti non vanno usati. 7. Il sistema di lettura deve poter acquisire dati precisi dal posizionamento dei campioni in parallelo. Sia che si tratti di scanners che di imagers la lettura degli spots divenuti fluorescenti si deve poter svolgere in maniera corretta. Quindi bisogna scegliere apparecchi con una buona sorgente luminosa, un 'ottica senza difetti e così per tutti i componenti del sistema di lettura che deve essere in grado di ridurre al minimo sia il rumore di fondo che tutte le eventuali interferenze che possano alterare in qualche modo il segnale. 8. I dati che provengono dal sistema di lettura devono essere manipolati ed elaborati con precise modalità. Occorre poter operare con un potente apparecchio di bioinformatica, completato da un ottimo software, per arrivare a risultati che siano lo specchio del campione biologico sotto esame. Devono essere apparecchi in grado di fornire non solo una serie di numeri corrispondenti all'intensità della fluorescenza dei singoli spots ma anche un'immagine grafica dell'insieme. Solo così si riesce ad avere un quadro completo dell'identità dei targets e delle sequenze depositate ed interpretare correttamente il valore anche di segnali molto deboli. 9. La comparazione dei risultati di due o più esperimenti deve essere sempre soggetta alle limitazioni del caso. Almeno fino a quando non si potrà disporre di standard di riferimento, certamente i dati di analisi genica che si riescono a raccogliere sul singolo vetrino sono certamente più attendibili. I dati ottenibili su vetrini di diversa fabbricazione o l'uso di colori fluorescenti diversi o tecniche diverse possono dare risultati che talvolta non sono facilmente comparabili. 10. Le conclusioni concernenti le relazioni fra i geni (spesso si tratta di grandi numeri) possono essere tratte solo se in un singolo esperimento si prendono in esame tutte le variabili e si arrivi ad una elaborazione statistica adeguata dei risultati. 6 Quaderni di Bioinformatica Questo significa che conclusioni riguardanti un determinato processo e concernenti un certo organismo o sistema possono essere significative solo se, nello stesso esperimento, o meglio con un unico vetrino, si prendono in esame contemporaneamente tutti i geni di quel genoma che concernono quel processo. Quindi anche un microarray con 10.000 geni, pur fornendo un enorme quantità di dati, può risultare insufficiente se si vuole approfondire un sistema alla cui attuazione concorrono circa 15.000 geni. 11. L'impostazione analitica deve sempre comprendere tutti gli elementi e le variabili intrinseche ed estrinseche del sistema. Le analisi eseguite con i microarray non devono mai restare in un contesto interpretativo isolato, ma vanno sempre inquadrate in una visione globale del sistema che deve comprendere anche i dati molecolari, biochimici, chimici, fisici, enzimatici nonché le proprietà strutturali sia del gene che i suoi prodotti. Quindi per ogni organismo che interessi, le valutazioni con i microarray possono essere valutate meglio in un contesto globale di altre informazioni che comprendano anche i rapporti gene-gene e proteine-proteine derivate. 12. L'analisi parallela di un organismo si può considerare completa solo quando in un contesto quadridimensionale sono assemblate tutte le variabili del sistema. Un quadro completo dell'espressione genica di un determinato organismo, si può dire di averlo solo se si conoscono tutte le variabili di ogni gene, in ogni cellula, in ogni fase della vita. Questo significa che l'attività genica cambia continuamente e quindi va sempre studiata come un film in movimento. Applicazioni della tecnologia microarray La tecnologia dei DNA microarray è ancora agli esordi, e sta tutt’oggi crescendo. Le applicazioni di tale tecnologia sono comunque molteplici, dallo studio dei geni coinvolti nell’insorgenza del cancro e di numerose patologie, alla caratterizzazione di pattern metabolici. Gli array sono un importante strumento anche per l’identificazione e la caratterizzazione di nuovi geni. I DNA chips sono stati utilizzati nella diagnosi e nella prognosi delle malattie e nel design di nuovi farmaci [21, 22]. Le applicazioni in campo umano sono innumerevoli soprattutto grazie al fatto che l’intero genoma è stato sequenziato. Una grande limitazione di questa tecnologia, oltre al costo ancora troppo elevato, è infatti la necessità di disporre di sequenze geniche conosciute. Questo pone un enorme freno all’utilizzo e all’applicazione di tali tecnologie in campo veterinario ed alimentare. Infatti il genoma degli animali di interesse zootecnico è ancora per lo più sconosciuto. Campi di utilizzo dei DNA microarray nella ricerca di base e applicata [19]. A differenza degli array oligonucleotidici ad alta densità, il RICERCA APPLICATA FUNZIONE DEI GENI pathway metabolici analisi di mutazioni RICERCA DI NUOVI FARMACI identificazione e validazione del target ottimizzazione dell'efficacia meccanismo d'azione DIAGNOSI DI PATOLOGIE prognosi e diagnosi classificazione dellle patologie strategie di trattamento CARATTERIZZAZIONE DI SISTEMI COMPLESSI organi e patologie specifiche risposta allo stress invecchiamento VALUTAZIONE DELLA TOSSICITA' tossici e farmaci cibo ambiente basso costo e l’alta flessibilità degli gli array a cDNA rendono tale tecnologia molto più adatta alle istituzioni accademiche e alle applicazioni pratiche della tecnologia. È infatti possibile produrre array home made contenenti un limitato numero di geni di interesse al fine di effettuare studi molto mirati ed approfonditi, eliminando anche tutti gli irrisolti problemi di gestione dei dati degli array ad alta densità. Conclusione: Le analisi con i microarray impiegano una miriade di tecnologie e metodi diversi ma sempre bisogna capire bene di che cosa si tratti (What), del perché (Why) e come (How) l'obiettivo possa essere raggiunto nel modo migliore . Storia dei DNA microarray La prima intuizione di tale nuovo metodo di analisi si deve a Mark Schena dell’Università di Stanford, che ne ha fatto cenno ad Amsterdam nel 1994 nel corso del quarto Congresso Internazionale di Biologia Molecolare delle Piante, ma la prima pubblicazione riguardante questa nuova tecnica è dell'anno seguente (Schena et al. 1995). Presso l'Università di Stanford, che ha una lunga tradizione negli studi sugli acidi nucleici, e presso i contigui Laboratori dell’Università di Davis, sono state infatti affrontate le prime problematiche su come fissare sui vetrini microscopiche linee di sequenze di geni delle piante e su come studiarne l'espressione utilizzando campioni di mRNA isolati dalle cellule e coniugati ad un enzima per poter evidenziare poi l'avvenuta reazione con la comparsa di fluorescenza di intensità variabile e quindi misurabile. Quindi i microarray, come i microprocessori, sono nati nella Silicon Valley. Parallelismo, miniaturizzazione ed automazione sono tre aspetti che mettono in luce una certa similarità fra le due tecnologie. In realtà possiamo iniziare la storia dei microarray con il primo semplice esempio di array, denominato “dot blot” per arrivare allo sviluppo dei microarray ad alta densità [1]. L'origine di tale nuova tecnologia va fatta risalire agli esperimenti di Southern che, nel 7 Quaderni di Bioinformatica 1975, dimostrò come fosse possibile fissare il DNA ad un supporto solido ed attrarre, in modo specifico, una catena complementare sempre di DNA. Tale processo, poi largamente utilizzato per scopi diagnostici, è noto come “Southern blotting". Le tecniche standard di laboratorio per il rilevamento di specifiche sequenze nucleotidiche utilizzano una sonda (probe) di DNA, costituita da un piccolo frammento di acido nucleico marcato con un isotopo radioattivo o una sostanza fluorescente. La sonda, rappresentante la sequenza complementare a quella del gene da individuare, viene posta in contatto con un supporto solido (ad esempio, un gel od un filtro poroso) sulla cui superficie sono ancorati acidi nucleici provenienti da un dato genoma. Grazie alla peculiarità degli acidi nucleici di riconoscere le sequenze ad essi complementari, la sonda può legarsi in maniera selettiva al frammento ancorato ad essa complementare così che, semplicemente misurando la presenza e la quantità di marcatore legato al supporto solido, è possibile quantificare se e quanto è stato espresso un determinato gene (Southern et al, 1975). I principi fondamentali dei test di ligazione miniaturizzati di spot paralleli erano già stati descritti da più di un decennio. Roger Ekins e colleghi avevano descritto le ragioni per cui i saggi effettuati utilizzando i microspot erano più sensibili di qualsiasi altro test di ligazione [2-4]. Inizialmente l’elevata sensibilità e l’enorme potenziale delle tecnologie basate sui microspot sono stati dimostrati utilizzando sistemi miniaturizzati per i test immunologici. Tuttavia l’interesse della tecnologia degli “spot” si è presto concentrata sulla creazione dei “DNA chips”. La possibilità di eseguire centinaia di reazioni di ligazione in parallelo in un unico esperimento corrisponde, infatti, alla necessità nella ricerca biologica di un approccio a livello genomico più ampio. Il sogno della sequenza completa del DNA umano (o genoma) nacque praticamente il giorno seguente al quale Sanger scoprì come leggere il DNA. Fu poi Fodor, che nel 1991, fabbricò i primi microarray, combinando il metodo fotolitografico, usato per i semiconduttori, per realizzarne i primi fissando degli oligonucleotidi su superfici di vetro. Avendo intuito l'importanza commerciale che tale tecnologia avrebbe potuto avere, fondò l'Affymetrix che ha avuto il merito di mettere sul mercato i GeneChip, che sono stati i primi vetrini con DNA utilizzabili per tests genetici. Nel 2002 questo sogno divenne parzialmente realtà. Il genoma umano fu dichiarato completamente letto fra squilli di tromba e grandi clamori. Più in piccolo, sotto i titoli, si leggeva che, in fin dei conti, ci si era limitati a leggere il 98% della sequenza eucromatinica, ma tanto bastava. Tutte le regioni del DNA altamente ripetitive, quali per esempio i telomeri (le code dei cromosomi) e i contromeri (il nodo centrale dei cromosomi), non erano assolutamente stati letti. Ciò era dovuto a difficoltà tecniche, queste regioni sono infatti composte essenzialmente da un’infinità di ripetizioni di una piccola sequenza di DNA e contengono pochissimi geni. Spesa totale, circa due miliardi di euro. Molto a prima vista ma, in fin dei conti, con quei soldi oggigiorno ci si comprano un paio di aerei da caccia militari ultimo modello, o un decimo di traforo alpino per i treni ad alta velocità. Soldi ben spesi dopo tutto. Non si sa se gabbati dalle loro stesse parole o semplicemente naif, i ricercatori erano attesi al varco da una brutta sorpresa. Leggere il DNA significa ottenere la sequenza, non riuscire a capirci qualcosa. Ciò che portò un professore dell’onorevolissimo MIT a commentare “abbiamo speso due miliardi per un libro che non sappiamo leggere”. Si fece quindi un serio sforzo per cercare di interpretare quell’immensa massa di dati (quasi 3,2 miliardi di lettere) che era stata generata dal sequenziamento del genoma umano. Oggigiorno questo sforzo è ben lungi dall’essere terminato ma importantissimi passi avanti furono celermente compiuti. Alla fine del 2002 si conosceva in effetti la sequenza di qualche gene. Un’analisi di tutte queste sequenze permise allora di identificare quelli che potevano essere considerati come i caratteri comuni a tutti, o almeno molti, geni. Identificati questi caratteri, furono creati dei programmi informatici (chiamati ab initio) capaci di passare in rassegna l’intero DNA alla ricerca di altri geni. Iniziò allora il valzer delle cifre. Il genoma umano contiene… le ultime stime dicono meno di 25′000 geni. Si era cominciato con più di 150′000… molti altri geni furono in seguito identificati grazie al sequenziamento di RNA. Infine, quando altri genomi furono sequenziati, un confronto fra questi e quello umano permise l’identificazione di numerose regioni del DNA che erano rimaste invariate nonostante il lungo tempo evolutivo che le separava. Molte di queste regioni corrispondevano a geni. Una prima breccia nella comprensione del DNA era stata aperta. Badate bene, si era unicamente riusciti ad identificare i geni. La funzione di questi ultimi restava (e in parte resta ancora oggigiorno) ancora un mistero. Une seconda breccia sarebbe potuta essere aperta se l’espressione temporale e spaziale dei geni fosse stata conosciuta. Per esempio un gene che si esprime a livello del cervello embrionale, probabilmente avrà un ruolo nella formazione di quest’organo durante lo sviluppo precoce. Fu allora che qualcuno ebbe un’idea geniale. Un gene, per essere utilizzato dalla cellula, deve essere fotocopiato in RNA, il quale sarà in seguito tradotto in proteine. Questa tecnica permette di misurare unicamente l’espressione di un gene alla volta, senza garantire per altro una quantificazione precisa dell’espressione del gene studiato (analisi unicamente qualitativa). Riuscire a misurare la quantità di RNA significava riuscire a quantificare l’utilizzo di un dato gene. Una tale tecnica già esisteva con il nome di Northern 8 Quaderni di Bioinformatica Blot. Questa tecnica applicata per la prima volta da Ed Southern nel 1975, ha aperto di fatto la strada alla possibilità di analizzare i profili di espressione genica di un intero organismo. Tuttavia, l’applicazione su larga scala di questa metodologia si è avuta solo di recente grazie all’utilizzo di supporti solidi non porosi, come il vetro, e alla messa a punto di tecniche fotolitografiche per la sintesi di frammenti oligonucleotidici ad alta densità spaziale. In particolare, i protocolli sviluppati dal gruppo di Pat Brown a Stanford, hanno permesso di ancorare automaticamente migliaia di catene di cDNA su vetrini da microscopio e, grazie alla loro ibridazione con campioni di mRNA marcati selettivamente con molecole fluorescenti, di studiare il profilo di espressione di colture cellulari in stati fisiologici diversi (Brown e Botstein, 1999). Parallelamente, sono state messe a punto tecniche di mascheramento fotolitografico, normalmente utilizzate nell’industria dei semiconduttori, per la produzione di microarray capaci di 400.000 sonde oligonucleotidiche su una superficie di un pollice quadrato (Lipshutz et al, 1999). L’idea geniale fu di cercare misurare in un sol colpo l’espressione di tutti i geni conosciuti. Si sapeva da mezzo secolo che il DNA è una doppia elica. Le due eliche, se separate si riassociano spontaneamente riformando sempre le coppie A-T, G-C. Le due eliche, se separate anche molte volte, si riassociano sempre nella stessa posizione. Quest’associazione necessità la presenza delle coppie sopracitate (A-T. G-C) e, nelle giuste condizioni di temperatura, avverrà solo se le due sequenze sono perfettamente complementari. Una corta sequenza di DNA, può dunque essere utilizzata come “sonda” capace di cercare sequenze a lei complementari. Sebbene non si riuscisse a sintetizzare lunghe catene di DNA senza una matrice (una copia già fatta) era possibile sintetizzare brevi sequenze unicamente per via chimica. L’idea fu dunque questa. Sintetizzare migliaia di copie di un frammento di un gene su uno spazio piccolissimo, poi immediatamente a fianco di queste sintetizzare migliaia di copie di un altro gene, fino a produrre un fascio di sonde per ogni gene dell’organismo. Se la sequenza è abbastanza lunga (20-25 lettere) la probabilità che un altro frammento di DNA sia identico è abbastanza bassa. Ad esempio se utilizzassi “nel mezzo del cammin di nostra” (25 lettere spazi esclusi) ognuno di voi saprebbe di che opera letteraria stiamo parlando, senza necessariamente doverla citare per intero. Tornando all’RNA simili sonde furono sintetizzate in griglie finissime. In ogni quadratino della griglia fu inserita una diversa sonda capace di catturare tutti i frammenti di DNA corrispondenti a un dato gene. L’insieme della griglia (contenente circa 25′000 posizioni) è quindi capace di leggere, in un sol colpo, l’intera espressione genica delle cellule studiate. Come detto l’espressione dei geni necessita la trascrizione dei geni in RNA. Avrete magari notato che, quando si parlava delle proprietà di riassociazione delle due eliche, si faceva riferimento al DNA. Perché il sistema sopra proposto funzioni, vi è dunque la necessità di trasformare tutto l’RNA di una cellula in DNA. Come al solito la biologia, quando messa alle strette, si permise un piccolo furto. Esisteva in effetti una proteina virale in grado di copiare l’RNA in DNA. Siccome normalmente accade il contrario (il DNA è fotocopiato in RNA) si battezzò questo meccanismo retrocopia. I virus che possiedono questa proteina sono detti retrovirus, il cui rappresentante più celebre è senz’altro il virus dell’HIV. Riassumiamo quindi la situazione: il sequenziamento del DNA umano aveva messo a disposizioni immense quantità di dati non interpretabili. Le sequenze geniche furono trovate grazie a programmi informatici (lavoro ancora in corso). Misurare l’espressione di tutti i geni poneva però un serio problema. - I geni sono molti. Problema risolto grazie alla griglia finissima. Le sonde capaci di leggere oltre 25′000 geni possono ora raccolte in un centimetro quadrato. - L’RNA pone dei problemi di manipolazione sperimentale. Problema aggirato grazie alla retrocopia dell’RNA in DNA. Restava da aggirare il problema della quantificazione dell’RNA retrocopiato. Ci si risolse a marcare con dei prodotti fluorescenti il DNA retrocopiato. Ecco dunque la procedura sperimentale. Produrre il microarray (il vetrino contenente le sonde). Allo stesso tempo estrarre l’RNA dalle cellule studiate (ad esempio le cellule muscolari). Retrocopiare l’RNA estratto in DNA, approfittare del passaggio per marcare il DNA così prodotto con dei prodotti fluorescenti. Porre l’estratto di RNA retrocopiato sul microarray e portare il tutto alle giuste condizioni di temperatura. Ogni RNA si assocerà quindi alla sua sonda (e se tutto va bene solo alla sua sonda). Misurare la fluorescenza in ogni quadratino della griglia. La quantità di fluorescenza è proporzionale al numero di RNA che si sono associati alle sonde. Confrontare i dati così prodotti con quelli di altri esperimenti per determinare i geni specifici di ogni tessuto. Si noti che la quantificazione della fluorescenza è estremamente precisa, un valore numerico può quindi essere associato ad ogni quantità di fluorescenza (misura quantitativa). Abbiamo detto che la totalità dell’informazione genetica è chiamata genoma. Per analogia, la totalità dell’informazione della trascrizione dei geni (RNA in un dato momento, in un dato tessuto) fu chiamata trascrittoma. Questa è dunque la definizione finale di microarray: Una tecnica capace di misurare in un sol colpo l’intero trascrittoma. 9 Quaderni di Bioinformatica Non sempre le migliori idee le hanno le università, non fu il caso dei microarray. Fu un’industria privata, Affymetrix, ad avere per prima l’idea e, logicamente, a ricoprirla di brevetti. La piccola cronaca poi ci rivela che una sbadataggine aziendale fece in modo che i brevetti sui microarray non fossero mai depositati in Islanda, paese in cui nacque Nimblegen, unica ditta oggi in grado di portare un po’ di concorrenza sul mercato. I microarray trovarono immediatamente numerosissime applicazioni. Oggigiorno sono utilizzati non solo per lo studio dell’espressione dei geni nei differenti tessuti ma anche per analizzare la risposta a diversi tipi di stress o la malignità di un tumore (il sistema che permette la migliore valutazione della probabilità di metastasi). Una seconda serie di applicazioni derivò da una peculiarità della tecnologia. Come detto la sonda (nelle buone condizioni) è capace di associarsi alla sequenza complementare solo se la complementarietà è perfetta. Ora esistono numerose differenze genetiche fra individui (gemelli esclusi) è quindi verosimile che alcune lettere del DNA (nucleotidi) siano differenti fra due individui. In questo caso nessuna fluorescenza dovrebbe essere osservabile nel quadratino della griglia portante le sonde per un dato gene, anche se questo gene è trascritto (a causa della mutazione). Visto che questi cambiamenti affliggono generalmente solo una lettera (nucleotide) vengono detti Sigle Nucleotide Polymorphsm o SNP. L’idea fu la seguente: fabbricare per ogni posizione del DNA quattro sonde identiche in tutto, tranne che per la posizione studiata in cui rispettivamente si inseriscono le quattro lettere del DNA (A, T, G, C). Questo procedimento viene ripetuto per ogni posizione del DNA (3,2 miliardi in totale!). Se questa volta, al posto dell’RNA, associamo alle sonde del DNA precedentemente frammentato e marcato con i colori fluorescenti, ci aspetteremo di osservare per ogni gruppo di quattro sonde un segnale fluorescente proveniente da una o al massimo due sonde. Se l’intero procedimento viene fatto sull’intero genoma è possibile “risequenziare” l’intero DNA di un individuo semplicemente leggendo quale sonda (per gruppi di quattro) offre’ il miglior segnale. Il sistema non è ovviamente perfetto. Gli SNP microarray (single nucleotide polymorphisms SNPs) sono particolari DNA microarray che sono usati per identificare i così detti tratti ipervariabili, ovvero quelle sequenze che variano da individuo ad individuo nell’ambito della stessa specie o in sotto popolazioni isolate geograficamente o socialmente Arrays di oligonucleotide corti sono usati per identificare il polimorfismo di un singolo oligo nucleotide, che si pensano responsabili della variazione genetica e della suscettibilità individuale a manifestare determinate malattie. Se per esempio una regione è estremamente variabile non si osserverà alcun segnale per nessuna della quattro sonde (perché altri SNP sono troppo vicini). Inoltre il metodo non è perfetto, una cospicua percentuale della SNP non è visibile con questo approccio. Infine il DNA si è rivelato più plastico del previsto con larghe regioni del genoma che possono essere duplicate o perse. Queste variazioni del DNA di larga scala non sono ovviamente visibili con questo tipo di microarray (altri microarray sono per altro stati prodotti per mettere in evidenza queste variazioni). Anno Evento 1987 Assegnato brevetto su sequenziamento tramite ibridizzazione (SBH) R.Drmanac, Università di Belgrado Argonne National Laboratory HySeq 1988-1991 Diversi gruppi pubblicano reports sull’SBH E.Southern, Oxford University (Oxford Gene Technolgy) A.Mirzabekov, Engelhard Institute, Mosca Argonne National Laboratory S.Fodor, Affymetrix W.Bains, Bath University 1989 Assegnato brevetto europeo a Southern “Oligonucleotidi arrays as a testing platform” 1993 Assegnato brevetto negli US sull’SHB alla HySeq 1997-1998 HySeq accusa Affimetrix per una violazione del brevetto “non stiamo sequenziando, ma cercando mutazioni” 1998 Procedimenti legali tra Southern e diverse compagnie produttrici di chip. (Affimetrix, HySeq, Hoffman-La Roche, Abbot, etc.) 1998 Brevetto US alla Incyte (Synteni) sulla tecnologia di printing di Microarray con densità superiore a 100 polinucleotidi per centimetro quadrato 1998-1999 Affimetrix ed Incute (ed altri) si accusano a vicenda di violazione di brevetti 2000-2004 Genoma umano intero su uno microarray La battaglia dei brevetti sui gene chip [5] Attualmente sono disponibili dei microarray per il genoma umano e quello dei principali organismi modello, animali e vegetali. Moltissime tecniche derivate hanno a loro volta visto la luce (whole genome tiling path array, CHIP on Chip, ecc.). L’uso di microarray per lo studio del profilo d’espressione genetica è stato pubblicato per la prima volta nel 1995 (Science) e il primo genoma eucariotico completato con analisi di microarray fu quello del Saccharomyces cerevisiae nel 1997 (Science). I primi articoli riguardanti la nuova tecnologia denominata DNA-microarray, in grado di consentire il monitoraggio quantitativo dell’espressione di centinaia di geni simultaneamente, furono pubblicati a metà degli anni novanta da un team di studiosi di diverse discipline della Stanford University [6]. La biologia molecolare, che fino ad allora aveva adottato un approccio riduzionista, ricomincia 10 Quaderni di Bioinformatica ora a considerare ogni singolo gene come parte di un sistema più complesso di espressione, che grazie alla nuova tecnologia può essere valutato nella sua interezza. Il rapido progresso nel sequenziamento dell’intero genoma [7, 8], e l’aumentata importanza degli studi d’espressione, accoppiati alle nuove tecnologie di sintesi in vitro di oligonucleotidi, hanno permesso di generare con elevata efficienza migliaia di sonde oligonucleotidiche. TITOLARI Università della California Governo degli Stati Uniti Sanofi Aventis GlaxoSmithKlein Incyte Bayer Chiron Genentech Amgen Human Genome Sciences Wyeth Merck Applera Università del Texas Novartis Johns Hopkins University Pfizer Massachussetts General Hospital Novo Nordisk Harvard University Stanford University Lilly Affymetrix Cornell University Salk Institute Columbia University University del Wisconsin Massachussetts Institute of technology NUMERO DI BREVETTI 1018 926 587 580 517 426 420 401 396 388 371 365 360 358 347 331 289 287 257 255 231 217 207 202 192 186 185 184 Le nuove tendenze tecnologiche nel campo della microfluidica e delle nanotecnologie, i nuovi sistemi di rilevamento e il perfezionamento nella tecnologia dei computer e nella bioinformatica, sono state rapidamente integrate nella tecnologia dei sistemi basati sulla tecnologia microarray. Tutto questo ha portato negli ultimi anni ad un enorme potenziamento di tutte le tecnologie basate sugli array. L’industria elettronica, in cui i microchip in silicio sono stati il soggetto ideale per la miniaturizzazione, ha negli ultimi anni ideato strumenti micro fabbricati che possono realizzare un insieme di funzioni come per esempio preparazione del campione, purificazione, separazioni…La necessità di manipolare fluidi che si muovono in canali stretti (microfluidica) ha aperto nuove aree di ricerca, ha sviluppato nuovi metodi di fabbricazione per i sistemi fluidici, ha portato alla costruzione di complessi sistemi microfluidici e allo studio del moto di fluidi in canali di piccole dimensioni. Inoltre l’introduzione di tecniche fotolitografiche per la fabbricazione di microsistemi chimici e biochimici, ha incrementato esponenzialmente il numero di applicazioni in tale settore. Particolarmente interessante è la tecnologia MEMS (la sigla MEMS sta per Micro ElectroMechanical Systems) che applica sullo stesso wafer tecniche di lavorazione usate nella fabbricazione di circuiti integrati per costruire strumenti microscopici elettro-meccanici, come per esempio sensori. Progetto “Lab-on-chip” monolitico della STMicroelectronics. La tecnologia MEMS permette di applicare la stessa economia dovuta all’integrazione su piccola scala della lavorazione dei wafer di silicio alla fabbricazione di strumenti meccanici. Per esempio i sensori prodotti usando le tecnologie convenzionali sono costruiti uno per volta, mentre usando la tecnologia MEMS, lo stesso sensore è realizzato in centinaia o migliaia di copie, con prestazioni costanti e basso costo unitario. Una delle applicazioni della tecnologia MEMS con fluidi in movimento è stata la realizzazione di uno strumento in grado di realizzare la “Polymerase Chain Reaction” (PCR) ottenendo uno strumento contenente canali in silicio per i reagenti e il campione, elementi riscaldanti per modificare le temperature durante il ciclo di amplificazione e sensori per il controllo della temperatura. Le piccole dimensioni dei canali permettono l’uso di un minor quantitativo di reagenti e la bassa capacità termica del silicio riduce il tempo necessario per la stabilizzazione delle temperature. Il risultato è che il tempo richiesto per realizzare l’amplificazione del campione con la PCR è ridotto da ore a minuti. L’inconveniente è che, non essendo possibile pulire lo strumento, esso è monouso. Inoltre sono in fase di studio progetti monolitici che consentono, oltre all’amplificazione, anche il riconoscimento delle sequenze di DNA. Una più recente tecnica, che potrebbe rivelarsi assai promettente, adotta un approccio del tutto diverso per identificare le singole basi che compongono la molecola di DNA. Questa metodica, chiamata “sequenziamento mediante nanopori”, sfrutta le differenze fisiche esistenti fra le quattro basi che compongono il DNA, per produrre un segnale diverso. Come l’elettroforesi, questa tecnica trascina le molecole di DNA verso una carica positiva. Per raggiungerla, le molecole devono attraversare una membrana transitando per un poro con un diametro 11 Quaderni di Bioinformatica inferiore a 1,5 nanometri, per cui riescono a passare solo le molecole di DNA a filamento singolo. Quando il filamento transita attraverso il poro, i nucleotidi bloccano temporaneamente il passaggio, alterando la conduttanza elettrica della membrana misurata in picoampere. Le differenze fisiche fra le quattro basi generano blocchi di durata e grado diversi. Questa tecnologia dovrebbe portare ad una notevole riduzione dei costi e a leggere un intero genoma umano in non più di 20 ore. Negli ultimi anni, la tecnologia dei microarray, messa a punto per studiare gli acidi nucleici, si è andata espandendo per analizzare meglio il proteoma delle cellule e le interazioni che avvengono fra le diverse proteine e fra queste e l'ambiente esterno, che sono molto importanti nel determinismo delle malattie e le cui conoscenze certamente faciliteranno la messa a punto di nuovi farmaci. Le proteine sono considerate le più importanti strutture cellulari per il continuo ed intenso lavoro che svolgono sia in stato di benessere che in corso di malattia. Abbiamo visto che, fino a qualche anno fa si credeva che ogni gene codificasse un solo tipo di mRNA e quindi, almeno teoricamente, una sola proteina ed attraverso di essa, impartisse istruzioni alle strutture cellulari e quindi al metabolismo. Oggi sappiamo invece che la realtà è molto più complessa perché ogni gene, con le varianti, può codificare fra 3 e 20 proteine. Quindi per capire come i geni funzionano bisogna arrivare alle proteine che essi esprimono e capire anche come le varie proteine interagiscono fra di loro. Ne deriva che se è stato molto importante studiare a fondo il genoma è ancora più importante studiare il proteoma, ossia lo sconfinato mondo delle proteine che è molto più complesso, anche perché non statico ma continuamente mutevole in un contesto di reti dinamiche per la continua serie di interazioni che avvengono fra di loro per effetto sia dei processi metabolici sia come risposta agli stimoli ambientali. A differenza del genoma che è costituito da un numero fisso di geni, il livello a cui le proteine cellulari operano è molto dinamico perché le proteine, direttamente sottoposte a tutti gli stimoli dell'ambiente vanno incontro a continue variazioni di adattamento e risposta. Ecco perché è molto difficile determinarne accuratamente l'esatto numero o le quantità presenti nelle cellule viventi. Inoltre le varie famiglie di proteine sono estremamente diverse fra loro sia per le dimensioni delle molecole, sia per la struttura, che per le caratteristiche chimiche e le funzioni. Comunque i microarray con proteine, oltre che in campo terapeutico, possono trovare sempre più ampia applicazione in campo diagnostico specialmente per le malattie infettive di origine virale. Infatti attualmente i metodi più largamente usati per individuare agenti patogeni virali in campioni biologici, sono quelli che si basano sull'immunoenzimatica eseguita in piastrine o su la PCR. Ma i primi hanno una sensibilità che oscilla fra il 70 e 90% ed i secondi hanno un costo elevato che ne limita la diffusione su larga scala specialmente in nazioni del terzo mondo che poi sarebbero quelle che ne avrebbero più necessità. Per la preparazione di microarray dedicati specificamente, le proteine da usare come probe, che qualcuno preferisce chiamare " protein chip " o semplicemente " chip ", possono essere derivate da estratti cellulari oppure sintetizzate mettendo insieme dei peptidi sintetici. Le proteine possono anche essere prodotte in colture di batteri, lieviti, cellule ingegnerizzate di insetti. Tali proteine ricombinanti, sono poi purificate con tecniche diverse e possono diventare un ottimo materiale da immobilizzare sui vetrini come molecole di cattura. I metodi per fissare le proteine sui supporti sono fondamentalmente simili a quelli utilizzati per gli acidi nucleici. Come vedremo, però, produrre microarray con le proteine offre qualche difficoltà in più. Infatti, come primo inconveniente c'è il problema che le proteine sono molto meno stabili degli acidi nucleici perché vanno incontro spesso a processi di ossidazione e di denaturazione. Poi le proteine, quando sono rimosse dal loro ambiente naturale, modificano la loro struttura nativa e quindi anche la forma, talvolta esponendo all'esterno aminoacidi diversi da quelli della forma nativa. Ne deriva che, quando le si va a far reagire, questi aminoacidi esterni, che costituiscono gli epitopi più esposti, possono pregiudicare il risultato della reazione. Sono stati studiati diversi tipi di microarray per le proteine che Dev Kambhampati, nella sua monografia (2004), suddivide così: Array con anticorpi: Sono stati utilizzati sia anticorpi policlonali che monoclonali per titolare proteine specifiche in campioni biologici. Si possono considerare dei test immunologici in miniatura. Array con antigeni: E' l'inverso del precedente, perché in questo caso è fissato un antigene sul supporto per titolare il corrispondente anticorpo presente nel campione biologico. Array funzionali: Proteine purificate sono fissate sul supporto per legare altre proteine o DNA o interagire con altre piccole molecole. Array di cattura: Molecole non proteiche ma capaci di legarsi alle proteine sono ancorate alla fase solida. Esempio il Ciphergen Protein Chip. Array in sospensione: E’ un caso particolare che utilizza come fase solida delle microparticelle fornite di qualcosa di simile ad un codice a barre. La tecnologia dei DNA microarray Un tipico esperimento che utilizzi i microarray comprende cinque fasi principali: 1-deposizione degli oligonucleotidi sonda sul supporto rigido; 2-preparazione del materiale genetico da analizzare (compresa la marcatura con molecole fluorescenti); 3- ibridazione dei campioni fluorescenti sul microarray; 12 Quaderni di Bioinformatica 4. lettura dei valori di fluorescenza, effettuata tramite apposito scanner; 5. analisi statistica ed elaborazione dei dati ricavati dalle immagini prodotte. I microarray rappresentano un sistema di analisi in parallelo, che velocizza considerevolmente l'esplorazione genomica: permettono, infatti, di esaminare contemporaneamente l'espressione di migliaia di geni o un ampio numero di polimorfismi genetici. Un altro vantaggio è dato dai costi relativamente contenuti se rapportati al numero di geni o polimorfismi analizzabili per esperimento. I microarray a DNA possono essere definiti come un insieme miniaturizzato e ordinato di frammenti di acidi nucleici derivati da singoli geni e fissati in posizioni prestabilite su un supporto solido, rendendo possibile l’analisi simultanea tramite ibridazione specifica di centinaia di geni [9]. In questi esperimenti, la complementarità delle sequenze porta alla ibridizzazione di due molecole di acidi nucleici a singolo filamento, una delle quali è immobilizzata su una matrice solida [10]. La scelta di quali geni debbano essere rappresentati può variare dalla totalità (interi genomi su un unico vetrino) allo specifico (particolari pathway metabolici, etc.). Esistono di fatto due tecnologie per la produzione di microarrays: la prima denominata a spotting e la seconda detta in situ. Nella tecnologia spotting, le sonde da ancorare al supporto solido, normalmente un vetrino da microscopia, sono sintetizzate a parte e quindi depositate sul supporto. Tali sonde possono essere costituite da molecole di cDNA lunghe alcune migliaia di paia di basi le cui sequenze possono essere ricavate da banche dati genomiche (GenBank, dbEST o UniGene) o da librerie proprietarie costituite da cDNA non ancora completamente sequenziato. Nello studio dell’espressione di organismi eucarioti, le sequenze delle sonde sono normalmente ricavate dalle cosiddette Express Sequence Tags (EST), ovvero dalle porzioni codificanti identificate dai singoli progetti genoma. Tali banche dati contengono, assieme alle sequenze, anche tutta una serie di informazioni bibliografiche necessarie, oltre che per la scelta delle porzioni di DNA da depositare sulla matrice, anche per la successiva valutazione dei profili di espressione. Nel caso dei lieviti o di organismi procarioti le sonde sono generate per amplificazione diretta, con primers specifici, del DNA genomico. Selezionate le sequenze da studiare, il cDNA relativo viene prodotto mediante PCR ottenendo così sonde della dimensione da 600 a 2400 bps. Più recentemente, le sonde che vengono depositate sono rappresentate non tanto da frammenti di materiale genomico ottenuto via PCR, quanto piuttosto da sequenze sintetiche di oligonucleotidi lunghe 50-70 paia di basi. Una volta prodotte, le sonde vengono depositate sul supporto solido, in genere costituito da un vetrino. La deposizione è effettuata da sistemi robotizzati che mediante l’utilizzo di pennini prelevano le sonde direttamente dalle piastre utilizzate per la PCR e le depositano sul vetrino formando spots di circa 100-150 µm di diametro, distanziati l’uno dall’altro 200-250 µm. Durante la deposizione, il sistema di controllo del robot registra automaticamente tutte le informazioni necessarie alla caratterizzazione ed alla completa identificazione di ciascun punto della matrice (identità del cDNA, coordinate sul supporto, ecc.). Una volta sul vetrino, il probe viene legato covalentemente ai gruppi amminici del supporto attraverso una reazione innescata dall’irraggiamento con luce ultravioletta, mentre il cDNA in eccesso viene rimosso con semplici lavaggi dell’array. Infine, il cDNA sul supporto viene reso a catena singola attraverso una denaturazione termica o chimica. L’altra tecnica utilizzata per la produzione di microarrays è quella detta in situ che, sviluppata da Affimetrix, è frutto dell’interazione di due tecnologie particolari, la fotolitografia e la sintesi diretta in fase solida di oligonucleotidi. La sintesi delle sonde avviene direttamente sulla superficie del supporto solido. In particolare, il supporto costituito da un wafer di silicio viene funzionalizzato con piccole sequenze di oligonucleotidi (oligo-starter). Questi oligo hanno la caratteristica di avere il gruppo reattivo protetto da gruppi fotosensibili e quindi, grazie ad una maschera fotolitografica, è possibile indirizzare la luce in specifiche posizioni dell’array e liberare i siti necessari per la sintesi della sequenza. Una volta deprotetti selettivamente i siti reattivi, è sufficiente incubare la superficie con desossiribonucleotidi protetti per allungare la catena in fase di sintesi. Ripetendo il ciclo di deprotezione grazie all’applicazione di maschere fotolitografiche diverse e di incubazione è quindi possibile aggiungere nucleotidi diversi in posizioni diverse e sintetizzare tutte le sonde necessarie per l’analisi di un dato genoma. 13 Quaderni di Bioinformatica Sono state sviluppate due differenti tecnologie per effettuare l’analisi dell’espressione genica [6, 11]: gli array a oligonucleotidi e gli array a cDNA. Negli array a cDNA, i frammenti di acido nucleico sono spottati con un sistema automatizzato, utilizzando un protocollo messo a punto inizialmente da un team dell’Università di Stanford (http://cmgm.stanford.edu/pbrown/mguide/). Il protocollo per produrre questo tipo di microarray è stato inizialmente sviluppato dal Prof. Pat Brown e colleghi dell'Università di Stanford. La costruzione di questo tipo di microarray consiste nel depositare determinati cloni di DNA o oligonucleotidi in precise zone della superficie di un vetrino per microscopia secondo una griglia prestabilita. Il cDNA utilizzato per lo spot è generalmente derivato da un amplificazione tramite PCR di librerie a cDNA. La tecnologia degli oligo-microarray consiste invece nel sintetizzare direttamente i nucleotidi sulla superficie del vetrino [12]. Esistono due differenti tecnologie per la sintesi degli oligonucleotidi, la tecnologia fotolitografica, che consente la sintesi di corti nucleotidi di 20-25 basi (Affimetrix, www.affimetrix.com) [13] e la tecnologia inkjet (Agilent Technologies, [email protected]) che consente la sintesi di oligonucleotidi più lunghi, 60 basi [14]. Entrambe queste tecnologie sono state inizialmente sviluppate per l’industria dei computer e in seguito adattate alla fabbricazione dei microarray. Esiste inoltre un terzo tipo di array, costituito dallo spot di oligonucleotidi presintetizzati, solitamente tali frammenti sono più lunghi, circa 70 nucleotidi [15]. La lunghezza ottimale della sonda oligonucleotidica fissata al vetrino è tutt’oggi oggetto di dibattito. È importante considerare che all’aumentare della lunghezza della sonda aumenta la specificità della reazione, mentre al suo diminuire aumenta la sensibilità. È necessario effettuare diverse prove ad ogni esperimento al fine di determinare il giusto equilibrio tra le due variabili. In entrambe le tipologie di array gli acidi nucleici sono disposti ordinatamente utilizzando un sistema automatizzato x-y-z estremamente preciso, in migliaia di spot dal diametro di circa vantaggio di array così densi, consiste nella richiesta di piccolissimi volumi per l’ibridazione e quindi di pochissimo materiale di partenza per l’analisi. I primi array contenevano meno di un centinaio di geni [6], ma si è presto passati ad array con migliaia di geni [16, 17]. Oggi Affimetrix è in grado di posizionare su un singolo array un numero di sonde pari o superiore al numero totale di geni presenti nel genoma umano e si propone entro pochi anni di creare array con circa 500.000 spot (il genoma umano è costituito da circa 30.000 geni!)[13] Rappresentazione schematica delle due differenti tecnologie. microarray, a cDNA e oligonucleotidiche. [Gibson, 2002 #17] Lo studio dell’espressione genica tramite microarray è basata sul principio dell’ibridazione competitiva di popolazioni di cDNA differentemente marcate. Marcatori fluorescenti, solitamente Cy3 e Cy5, sono utilizzati per distinguere pool di DNA retrotrascritti da differenti campioni. Tali sonde sono posate sui microarray e sono quindi sottoposte ad una reazioni di ligazione secondo i protocolli utilizzati per i Southern Blot. I microarray sfruttano una tecnica di ibridazione inversa, che consiste nel fissare tutti i probe su un supporto e nel marcare invece l'acido nucleico target. È una tecnica che è stata sviluppata negli anni '90, oggi permette l'analisi dell'espressione genica monitorando in una sola volta gli RNA prodotti da migliaia di geni. Per studiare gli mRNA, essi vengono prima estratti dalle cellule, convertiti in cDNA, con l’uso di un enzima chiamato transcriptasi inversa e allo stesso momento marcati con una sonda fluorescente. Quando si fa avvenire l'ibridazione fra la sonda presente sulla matrice e il cDNA target, quest'ultimo rimarrà legato alla sonda e può essere identificato semplicemente rilevando la posizione dove è rimasto legato. Il segmento di DNA legato al supporto solido è noto come probe. Migliaia di probe sono usati contemporaneamente in un array. Questa tecnologia è nata da una tecnica più semplice nota come Southern blotting, dove frammenti di DNA attaccati ad un substrato sono testati da sonde geniche aventi sequenze conosciute. I microarray possono essere fabbricati usando diverse tecnologie, come la stampa di micro solchi, con un particolare microspillo appuntito su una lastrina di vetro dove verrà attaccata covalentemente la sonda (probe) di materiale genetico ottenuta per clonazione sfruttando la tecnica PCR; usando maschere preformate da ditte specializzate come ad esempio da Greiner Bio-One. 14 Quaderni di Bioinformatica La sintesi in situ di oligonucleotidi presenta un certo numero di vantaggi rispetto a quella precedentemente vista. I prodotti di questa sintesi hanno caratteristiche di omogeneità e alta qualità su tutte le celle che compongono l’array su cui vengono sintetizzati, con varie metodologie, oligonucleotidi diversi. Esistono differenti metodi di posizionamento delle sonde sulla superficie dell’array. Il metodo più conosciuto combina tecniche fotolitografiche usate nell’industria dei semiconduttori a tecniche di sintesi in fase solida, per ibridare direttamente su un wafer di quarzo le sonde oligonucleotidiche di lunghezza desiderata (di solito 25 nucleotidi). Questo tipo di tecnologia è derivata direttamente dagli studi fatti da Foder che ha usato tecniche di fotolitografia per la sintesi chimica in situ di materiale biochimico direttamente su silicio. La fabbricazione ad esempio del Gene Chip Affimetrix parte da un wafer di quarzo di pochi centimetri quadrati. Poiché il quarzo è un materiale idrossilato naturalmente, esso fornisce un eccellente substrato per l’attacco di elementi chimici. Su di esso sono quindi posizionate molecole di collegamento sintetiche (molecole “linker”) modificate con gruppi di protezione rimovibili fotochimicamente che serviranno successivamente per posizionare le sonde sull’array. La distanza fra queste molecole “linker” determina la densità di riempimento delle sonde. Con questo metodo è possibile costruire array con più di 500 mila locazioni (o celle) per le sonde contenute in 1.28 cm2. Ciascuna di queste locazioni contiene milioni di molecole identiche di DNA (diverse per ciascuna locazione). La parte critica di questo processo è la fase di allineamento della maschera con il wafer prima di ciascun passo di sintesi. Per assicurare che questo passo sia accuratamente completato, le tracce di cromo presenti sul wafer e sulla maschera devono essere perfettamente allineate. Una volta che le locazioni sono state attivate, una soluzione contenente un singolo tipo di desossinucleotidi è gettata sulla superficie del wafer e i nucleotidi si attaccano ai “linker” attivati con un accoppiamento chimico, dando inizio al processo di sintesi. Il processo è efficiente anche se talvolta l’aggancio non è perfetto. In tal caso le sonde con il nucleotide mancante vengono opportunamente “incappucciate” per bloccarne la crescita. Nel passo successivo di sintesi, un’altra maschera è posizionata sopra il wafer per permettere un ulteriore ciclo di deprotezione e accoppiamento. Il processo è ripetuto fino a che le sonde non raggiungono la lunghezza voluta. Sono stati creati opportuni algoritmi che permettono di minimizzare il numero di maschere utilizzate coordinando la crescita delle sonde nelle diverse locazioni, individuando situazioni in cui più maschere possono essere utilizzate nello stesso tempo. Una volta completata la sintesi, i wafer sono tagliati; in funzione del numero di locazioni delle sonde per array, da un singolo wafer, è possibile produrre tra 49 e 400 array. I risultanti singoli array sono quindi inseriti in apposite cartucce in cui può circolare la matrice biologica da analizzare, opportunamente marcata, si tratta sostanzialmente di un sistema chiuso. Esistono anche strategie non proprietarie che consentono il posizionamento del clone nell'esatta locazione sul vetrino da un robot. Il supporto dell’array, che inizialmente era costituito da membrane di nylon o nitrocellulosa, è realizzato quasi esclusivamente con vetrini da microscopio. L’utilizzo del vetro presenta i seguenti vantaggi: - i campioni di DNA possono essere legati covalentemente sulla sua superficie opportunamente trattata (con poly-L-lisina); -è un materiale duraturo che sopporta alte temperature; -è un materiale non poroso e quindi il volume di ibridazione può essere minimizzato consentendo un miglior ancoraggio delle sonde e una minore diffusione del DNA depositato; -come conseguenza della sua bassa fluorescenza intrinseca, esso non da contributi significativi al rumore di fondo durante la rivelazione. CHIMICA DELLE SUPERFICI I primi tentativi di fissare biomolecole su membrane di nylon o cellulosa, eseguiti nel trascorso decennio, puntando all'adsorbimento elettrostatico, hanno portato a risultati molto scadenti. Lo stesso è successo utilizzando superfici a base di poliacrilamide. I primi risultati accettabili si sono avuti ricoprendo le superfici con del destrano carbossilmodificato, trattamenti chimici delle superfici più usati per gli acidi nucleici sono a base di organosilani: sono composti che contengono atomi di silicio che si sono dimostrati molto validi per legare molecole organiche a superfici di vetro. Le molecole utilizzate per fissare alle superfici gli acidi nucleici sono state utilizzate con discreto successo anche per le proteine. La qualità delle superfici ha un' importanza enorme nella produzione di microarray che possano essere usati per eseguire delle analisi ed ottenere risultati riproducibili. Infatti le superfici dei vetrini che si adoperano giocano un ruolo importantissimo nel determinare non solo come le molecole probe ci si attaccano ma anche per far si che le reazioni che ci si svolgono, possano evolvere senza problemi o inconvenienti. Riteniamo pertanto utile elencare le qualità essenziali che microarray ideali dovrebbero avere per poter operare bene: Dimensione. L'ampiezza delle superfici operative dipendono ovviamente dalle dimensioni del supporto. Come già abbiamo accennato, ora si preferisce operare su vetrini porta oggetto le cui dimensioni ottimali sono in larghezza, lunghezza e spessore 25-76-0,94 mm. Tale dimensione standard facilita sia l'automazione della produzione che tutte le fasi operative di utilizzazione che si concludono con la lettura dei risultati. 15 Quaderni di Bioinformatica Liscia. La superficie di lettura deve essere omogenea e liscia. Non sono accettabili irregolarità in eccesso o in difetto superiori ai 10 micron. Infatti se la superficie non è omogenea il diametro e la fissazione dei probes o spots non può risultare uniforme né si riesce ad ottener una regolarità delle distanze fra un probe e quelli vicini. Irregolarità della superficie possono creare problemi anche in fase di lettura perché alcuni lettori hanno una profondità focale che non supera i 20-30 micron Planare. Tutta la superficie di 25-76 mm deve essere assolutamente in piano. Dislivelli superiori a 10 micron, per le stesse ragioni riferite in precedenza compromettono sia la produzione che la corretta utilizzazione dei microarray. A riguardo bisogna anche curare il confezionamento degli stessi facendo in modo che vengano evitate manovre che possano determinare alterazioni da torsione. Occorre rendersi conto che lo stesso numero di molecole se disposte su un vetrino che non sia perfettamente in piano o non sia liscio producono un segnale di intensità variabile. Uniforme. L'uniformità dipende dalla regolarità sia atomica che molecolare del trattamento utilizzato per rendere la superficie reattiva. Una superficie si può considerare uniforme se le eventuali variazioni di densità dello strato reattivo non risultino superiori o inferiori del 25% Lo strato. reattivo è costituito da un monostrato, di solito di organosilani, che sono molecole che stabiliscono un legame covalente con il supporto che, in genere è vetro. Su questo strato poi va creato un film di acrilamide, polilisina, o nitrocellulosa che sono molecole capaci di legare i singoli elementi analitici. Nel complesso, quindi, l'uniformità della superficie è molto importante per poter avere microarray affidabili perché capaci di generare segnali che non varino d'intensità per ragioni che nulla hanno a che fare con la specificità della reazione. Stabile. La produzione va curata in modo da ottenere prodotti che, nel periodo di validità che, secondo i tipi può essere variabile, decadano meno del 10%. Devono essere prodotti molto stabili, considerando anche che le tecniche di utilizzazione possono essere diversissime e che alcune utilizzano anche temperature elevate. Inerte. Premesso che il tipo di vetro che si sceglie deve essere perfettamente trasparente, anche i trattamenti a cui lo si sottopone per poterci fissare poi sopra le molecole dello spot, non devono compromettere tale trasparenza più di un certo livello standard. Inoltre il tutto non deve presentare fluorescenza anomala né avere effetto deviante sulla luce. Efficiente. La capacità di legame, che va misurata empiricamente da caso a caso, deve essere tale da rendere possibile la più bassa concentrazione possibile dei reagenti sia perché sono, di solito, molto cari sia perché così si ottiene la massima efficienza. Per esempio vediamo che, quando si adoperano oligonucleotidi quali molecole spot, la concentrazione ottimale è di 30 µM, e da tale concentrazione non è consigliabile derogare, in eccesso o in difetto, più del 30%. È evidente che questa tecnica richiede apparecchiature robotiche molto sofisticate. Il nucleo dell'apparecchiatura è costituito da una "gruppo scrivente" che preleva uno o più campioni di cDNA mediante l'utilizzo di pennini e li trasferisce su vetrini per microscopio, il movimento è ovviamente controllato da un computer. Durante la deposizione il sistema di controllo del robot registra automaticamente tutte le informazioni necessarie alla caratterizzazione ed alla completa identificazione di ciascun punto della matrice. Una volta che la sonda è sul vetrino si effettua il processing, il passaggio cioè in cui la sonda viene legata covalentemente al supporto attraverso una reazione innescata dall'irraggiamento con luce ultravioletta o incubando il vetrino a 80 °C per 2 h. Infine il cDNA viene reso a singola catena attraverso una denaturazione termica o chimica. Con questa tecnica però era possibile creare solo microarray a bassa densità (ovvero con poche sonde per mm quadrati). I DNA microarray possono essere usati per rivelare RNA che può essere o non essere tradotto in proteine. Questa analisi viene denominata "analisi dell’espressione" o profilo d'espressione. Con la tecnologia dei microarray si possono avere decine di migliaia di risultati in pochissimo tempo. Per questo motivo questa tecnologia ha permesso notevoli accelerazioni in diversi campi di investigazione biochimico e biotecnologico. In questo caso gli oligonucleotidi sono sintetizzati in sito, questa tecnica è stata utilizzata per la prima volta dall'Affymetrix, che ne detiene il brevetto. La tecnica per la produzione di questi chip è detta fotolitografia, con la quale è possibile sintetizzare molte migliaia di differenti oligonucleotidi sulla superficie di un vetrino. Anche se questa tecnica di sintesi è molto accurata, la massima lunghezza degli oligonucleotidi che è possibile raggiungere è di 25 nucleotidi, ma oligonucleotidi di queste dimensioni non sono sufficienti a dare specificità al microarray, per questo servono almeno 3 oligonucleotidi che legano un gene, e altri 3 oligonucleotidi che presentano un mismatch che serviranno da controllo negativo. Per cui le analisi di un singolo gene richiedono lo studio di sei spot che devono avere come risultato: i tre oligonucleotidi corretti, positivi, mentre i tre oligonucleotidi con il mismatch, negativi. Inoltre ogni volta bisogna fare un chip per il controllo e uno del soggetto da analizzare, perché non si può effettuare un'ibridazione per competizione. Sui microarray a bassa densità solitamente si usavano marcatori radioattivi, questo tipo di marcatori però non permettono una risoluzione sufficientemente elevata per i chip ad alta densità, con i quali è necessario utilizzare marcatori fluorescenti. La distribuzione degli spots è indubbiamente una delle fasi più delicate della produzione dei microarray per cui il controllo di qualità è una fase molto importante del processo. Le varie compagnie commerciali hanno risolto i problemi in vario modo, sfruttando l’esperienza accumulata negli ultimi anni. Ma, malgrado l’uso di robot, sempre più sofisticati, si ha un coefficiente di variabilità degli spots che oscilla fra lo 0 ed il 22% ed un C.V. medio del 6,8%. Quando si esegue un esperimento con microarray, e più esattamente, quando si utilizzano le macchine che fanno lo “spots printing”, ovvero si depositano sui vetrini le goccioline o spots dei probes, possono sorgere diversi 16 Quaderni di Bioinformatica problemi. Occasionalmente la morfologia degli spots può risultare decisamente alterata nel senso che si verificano delle sbavature perché il gocciolatore o pin è difettoso e lo si può constatare osservandolo al microscopio. Molti ricercatori hanno osservato una alterata morfologia degli spots per disturbi di tensione che si possono verificare sulle superfici dei vetrini specialmente quando si adoperano tamponi a base di fosfati. Se si fa uso di tamponi a base di SSC, tali inconvenienti non si verificano. Altro aspetto della tecnologia che bisogna curare per avere degli spots omogenei, è un adeguato volume di campione presente nei pozzetti in cui il pin va a pescare prima di depositare sui vetrini le goccioline o spots. Un altro inconveniente che, talvolta si può verificare è che il DNA non si fissi bene sul vetrino per cui durante la fase di ibridazione, venga lavato via. Dopo aver eseguito la distribuzione degli spots, un controllo molto semplice lo si può fare alitando sul vetrino in modo da formare sulla superficie un sottile strato di vapore. Gli spots dove il DNA si è legato appaiono più chiari. Altri preferiscono controllare il vetrino sotto il microscopio. Ma un metodo tecnicamente più corretto per valutare il lavoro fatto, che è da molti adottato, è quello di colorare qualche vetrino con un colore fluorescente. Il più usato per tale genere di controllo è il SybrGold della Molecular Probes. Dopo il lavaggio si fa il controllo con uno scanner al laser che permette di valutare sia la morfologia che la quantità di DNA degli spots. Il vantaggio di usare il SybrGold è dato dal fatto che, essendo un colorante non molto invasivo, i vetrini si possono riusare. Cameretta di ibridazione per vetrini di microarray. Quando si deve valutare l’attività dei geni, si possono, a tal fine, inserire più geni per ogni singolo spot e poi, decodificando l’espressione con metodi matematici, capire se il processo di distribuzione è stato realizzato con una variabilità accettabile (Khan et al. 2003). Una volta che il microarray è stato costruito o comprato e il campione di acidi nucleici da analizzare è stato isolato si fa avvenire la reazione di ibridazione, che permette la formazione degli eteroduplex. Per ottenere dei buoni microarray è essenziale difenderli dall'umidità (se l'ambiente è secco la soluzione evapora, se invece è umido si deposita dell'acqua) e dalla polvere (ogni spot è grande circa 50 micron, un granello di polvere e più grande di 50 micron, per cui può coprire vari spot), per questo motivo esistono delle camere apposite per l'ibridazione dei microarray che vengono sigillate. Dopo l'ibridazione il microarray viene lavato per rimuovere il cDNA che non si è legato. Generalmente il Dna fluorescente dei campioni sperimentali è mescolato con un Dna di un soggetto di controllo marcato con un colorante fluorescente diverso. Per i microarray si usano solitamente Cy3 (che emette una lunghezza d'onda nel campo del rosso) e Cy5 (che emette nel campo del verde). In questo modo se la quantità di RNA espressa da un gene nelle cellule di interesse è aumentata (up regolata) rispetto a quella del campione di riferimento, lo spot che ne risulta sarà del colore del primo fluorescente. Viceversa se l'espressione del gene è diminuita (down regolata) rispetto al campione di riferimento lo spot sarà colorato dal secondo fluorescente. La fluorescenza è rilevata poi grazie ad uno scanner a laser, grazie al quale si acquisisce un'immagine per ogni fluoroforo. Poi vengono usati dei software appositi per convertire i segnali in una gamma di colori dipendente dalla loro intensità. Il segnale rilevato dallo scanner viene poi sottoposto ad altri algoritmi di filtrazione e di pulizia e convertito in valori numerici. Il principale problema dei microarray e la mancanza di standardizzazione, che causa difficoltà nel confronto di dati; inoltre, se oggi con questa tecnica è possibile analizzare i livelli di espressione di un singolo gene ottenendo degli ottimi risultati, la combinazione dello studio di molte migliaia di geni risulta molto complicato e può portare spesso a dei falsi positivi, questo accade anche a causa del fatto che alcuni cDNA possono cross-ibridare altre sonde (che avrebbero dovuto rilevare altri geni). Un altro problema è presentato dai fluorofori, che nonostante siano molto simili fra loro presentano delle differenze problematiche. Esiste una diversa efficienza di fluorescenza tra Cy3 e Cy5 che deve essere standardizzata dai software di rilevazione, inoltre poiché Cy3 è più piccolo di Cy5, c'è un diverso livello di incorporazione del due fluorofori, in quanto la polimerasi presenta più difficoltà a inserire il nucleotide marcato con Cy5 a causa dell'ingombro sterico; come se non bastasse Cy5 si presenta più labile di Cy3, quindi una prima scansione di Cy3 con il laser potrebbe ridurre la fluorescenza di Cy5. Per ovviare a tutte questa problematiche e per creare un minimo di standardizzazione si effettua il dye swap: consiste nel effettuare un secondo microarray scambiando l'uso dei fluorofori. Se nel primo microarray Cy3 è stato usato per marcare il cDNA sperimentale, nel secondo microarray si userà Cy3 per marcare il cDNA del soggetto di controllo, e viceversa per Cy5. 17 Quaderni di Bioinformatica I vetrini sono quindi lavati per eliminare le ibridazioni aspecifiche e sono letti con uno scanner laser confocale, in grado di rivelare entrambi i segnali fluorescenti, differenziandoli, producendo un’immagine a 16-bit TIFF per ogni canale. Processori di analisi dell’immagine sono quindi utilizzati per evidenziare ed analizzare i diversi spot. Gli esperimenti effettuati con la tecnologia microarray generano un’enorme quantità di dati, tale da richiedere lo sviluppo di appositi software per l’acquisizione, lo studio e la valutazione dei dati. Nella figura (a) si possono osservare alcuni esempi, cerchiati in azzurro, di riconoscimento grossolanamente scorretto. Nella figura (b) tali errori sono stati corretti manualmente (il cerchio con barra verticale indica che il software considera lo spot assente). Di seguito vengono riportati alcuni esempi, volti alla comprensione delle difficoltà che possono presentarsi nell’ambito della lettura delle immagini. Una volta completata l’ibridazione il microchip viene levato e successivamente eccitato con un laser affinché i marcatori fluorescenti emettano un segnale luminoso. Uno scanner legge l’array illuminando ciascuno spot e misurando la fluorescenza emessa per ciascun colore separatamente, in modo da fornire una misura della quantità relativa di mRNA prodotto da ciascun gene nei due tipi di cellula. L’intensità degli spot verdi misura la quantità di cDNA contrassegnato con Cy3, mentre quella degli spot rossi misura la quantità relativa di cDNA contrassegnato con Cy5. Queste misure forniscono informazioni sul livello relativo d’espressione di ciascun gene nelle due cellule. Le due immagini monocromatiche (rossa e verde) vengono poi sovrapposte in modo da fornire una visione d’insieme, Così il rosso corrisponde ad un gene molto attivo nella cellula malata e inattivo in quella sana, il nero ad un gene inattivo in entrambe le cellule, il giallo ad un gene ugualmente attivo nei due tipi di cellula, ed infine il verde ad un gene attivo nella cellula sana e inattivo in quella malata. E’ necessario che queste misure vengano aggiustate per considerare un disturbo di fondo causato ad esempio dall’alta concentrazione di sale e detergente durante l’ibridazione o la contaminazione del target o da altri problemi che si possono presentare nell’esecuzione dell’esperimento. L’ibridazione del target alle sonde determina una reazione chimica che viene catturata in un’immagine digitale da uno scanner laser. Il passo successivo è quello di tradurre l’intensità del segnale luminoso emesso da ciascun gene, in un coefficiente numerico. S’intuisce pertanto l’importanza della qualità dell’immagine ai fini di un’accurata interpretazione dei dati. I passi principali delle immagini prodotte sono: grigliatura (gridding) estrazione di intensità segmentazione La grigliatura ritrova nell’immagine la posizione degli spot che corrispondono alle sonde. Essendo nota la posizione degli spot nel microarray, questa operazione non risulta particolarmente complessa, sebbene si renda necessaria la stima di alcuni parametri per tener conto ad esempio di shift (o rotazioni) del microarray nell’immagine o di piccole traslazioni degli spot. L’estrazione di intensità calcola invece l’intensità della fluorescenza rossa e verde, l’intensità del beckground ed alcune misure di qualità. La segmentazione consiste infine nel separare il segnale emesso dai marcatori fluorescenti (foreground) rispetto al disturbo di fondo (background), in modo da isolare le quantità di interesse. Può succedere che questa correzione abbia l’effetto indesiderato di introdurre valori negativi (ciò accade quando l’intensità del background è più forte rispetto a quella di foreground). In tal caso questi spot vengono trascurati oppure il loro segnale è sostituito con un valore arbitrariamente piccolo e positivo. L’enorme numero di geni analizzati dai microarray è il punto più forte, ma anche più debole della metodica. Infatti sono possibili moltissimi errori (importanza di avere campioni replicati), e il trattamento dell’informazione non è banale! Si pensi ad esempio alle 18 Quaderni di Bioinformatica sorgenti di variazione dell’espressione genica. Alcune variazioni osservate sono dovute alla risposta differente a condizioni genetiche e ambientali differenti (es. cellule malate vs cellule sane): variazione questa che possiamo considerare interessante. Al fine di rendere comparabili i risultati ottenuti su array diversi o anche all’interno dello stesso array, è necessaria la rimozione di alcune distorsioni sistematiche introdotte nella fase di preparazione dell’array stesso, di esecuzione dell’esperimento, nonché nel processo d ibridizzazione e nella scansione con il laser. La procedura di normalizzazione si riferisce proprio al trattamento statistico dei dati finalizzato alla rimozione di tali effetti distorsivi e i più noti sono: dye-effect (o effetto colore); print-tip (o deposito irregolare); array-effect (o effetto intensità). Ad esempio, un diffuso problema nell’interpretazione dei dati derivanti da microarray, noto come dye-effect, è la diversa intensità di fluorescenza dei due marcatori Cy3 (verde) e Cy5 (rosso), cosicché l’emissione di fluorescenza del verde è sistematicamente meno intensa di quella del rosso. Il modo più immediato per rimuovere questo tipo di distorsione, sarebbe quello di ripetere due volte l’esperimento scambiando l’assegnazione dei marcatori tra i due target, cosa che però renderebbe la tecnica ancora più dispendiosa. Un’altra fonte di distorsione, nota come print-tip, è dovuta alla diversa quantità di materiale genetico (probe) depositata sul vetrino a causa delle microscopiche differenze della conformazione delle puntine del robot che stampa l’array. Infine, il terzo tipo di alterazione, l’array-effect può derivare da differenze di intensità tra un array e l’altro legate a diverse condizioni di preparazione (usura delle puntine, qualità di conservazione e quantità dei reagenti), estrazione (differenti quantità di mRNA usate per creare il target o quantità di marcatore fluorescente), ibridizzazione (cross-ibridation) e scansione (bilanciamenti dei laser, diversi parametri di scansione). Ai problemi sopra esposti si cerca di dare soluzione mediante il processo di normalizzazione. La normalizzazione prevede che si calcolino fattori di standardizzazione per ciascuno dei tre effetti sopra menzionati. Si tratta di sottrarre al segnale una (i) media generale di array, la (ii) differenza tra le medie degli spot stampati da ciascun print-tip e la media generale, ed infine la (iii) differenza tra la media delle intensità con fluorescenza rossa e verde. Altre variazioni sono introdotte per errore durante la preparazione dei campioni, la realizzazione degli array, il processamento degli array (labeling, ibridizzazione, scannerizzazione) trattasi quindi una variazione oscura che deve essere eliminata attraverso il processo di normalizzazione “Soluzione”: trovare un insieme di geni invarianti cioè tali che: 1) i loro valori di espressione rimangano costanti su tutti gli array 2) i loro valori di espressioni ricoprano l’intero spettro di intensità del segnale osservato. (NB: Il fattore di normalizzazione necessario per aggiustare le intensità basse non necessariamente è uguale a quello utilizzato ad intensità elevate). 3) i rapporti di normalizzazione tra questi geni siano rappresentativi dei rapporti di normalizzazione per tutti i geni. Geni di controllo: geni sintetici a concentrazioni note (3?) Geni housekeeping: geni che sono assunti (in partenza) essere invarianti tra array differenti (1? e 2?) Geni osservati: geni che vengono osservati, secondo qualche metrica, come poco variabili lungo gli array. Tutti i geni: è ragionevole aspettarsi che siano molto pochi i geni che variano a causa di una diversa risposta a condizioni di interesse differenti (più è piccolo il numero di geni che varia, e maggiormente siamo soddisfatti). Quasi tutti i geni dell’array possono essere utilizzati per la normalizzazione quando si può ragionevolmente assumere che solo una piccola porzione di essi vari significativamente la propria espressione da un campione all’altro, oppure che esista simmetria nei livelli di espressione dei geni sovra e sotto espressi. In pratica è però molto difficile trovare un gruppo di spot con un segnale costante su cui trarre un fattore di correzione. Si preferisce quindi, quando il numero di geni differenzialmente espressi è limitato rispetto al numero totale dei geni indagati, usare tutti gli spot dell’array nel processo di normalizzazione dei dati. Il secondo approccio si basa sull’assunto che da proporzione di geni differenzialmente espressi sia un’altra e quindi suggerisce l’uso della restante porzione (housekeeping genes) che si crede abbia un livello di espressione costante nelle due condizioni. Questa piccola porzione di geni però, oltre ad essere difficilmente identificabile, spesso risulta poco rappresentativa rispetto ai geni di interesse essendo costituita per lo più da geni con alto livello di espressione. Il terzo approccio necessita dell’appoggio del laboratorio e prevede di realizzare un microarray per un solo campione di mRNA (prelevato da un’unica cellula) diviso in due porzioni uguali, ciascuna marcata con colori differenti. Trattandosi dello stesso campione di materiale genetico, in seguito all’ibridizzazione si dovrebbe avere la stessa intensità degli spot per il rosso e per il verde: eventuali differenze possono essere usate come fattore di normalizzazione. Un altro trattamento dei dati preliminare all’analisi è la cosiddetta filtrazione. Essa è finalizzata alla riduzione della variabilità e della dimensionalità dei dati Il primo obiettivo viene raggiunto rimuovendo quei geni le cui misure non sono sufficientemente accurate, il secondo con l’imitazione dei geni che prevedono un livello di espressione molto piccolo o negativo (prima o dopo la normalizzazione). 19 Quaderni di Bioinformatica In pratica, tutti gli spot la cui differenza tra l’intensità di foreground e quella di background non supera un valore soglia di 1.4 fold (una misura dell’intensità luminosa) vengono eliminati o sostituiti con un valore piccolo arbitrario. Questa procedura è giustificata dall’evidenza empirica che livelli di espressione più piccoli di 1.4 fold sono solitamente frutto di errori di misura. Si noti che qualsiasi operazione di filtrazione introduce arbitrarietà nella scelta delle soglie che determinano se un valore è troppo grande o troppo piccolo oppure se la variabilità delle misure è troppo elevata. L’acquisizione dei dati è solo la parte iniziale della procedura. La parte più complicata è l’elaborazione della enorme quantità di dati generati da questi esperimenti, necessaria per rispondere ai quesiti biologici di partenza. I dati più significativi devono essere poi verificati con altri sistemi (Northern, real time RT-PCR). Selezione dei geni target. Un potenziale problema per la tecnologia dei cDNA microarray è la cross reattività legata ad omologie di sequenza, in particolar modo quando si analizzano famiglie geniche. Generalmente le regioni non tradotte in 3’ rappresentano un target ideale per due principali ragioni: (1) tali regioni sono sottoposte ad una minor pressione selettiva e presentano generalmente una maggiore variabilità, e (2) l’ibridizzazione risente meno dei fenomeni di terminazione precoce della retro trascrizione. Un'altra possibilità consiste nell’aggiungere alla soluzione di ibridazione piccoli oligonucleotidi che rappresentano sequenze altamente ripetute al fine di bloccare le potenziali regioni di crossibridizzazione. Concentrazione del DNA. La concentrazione del DNA varia nei singoli esperimenti e dipende in parte dal livello di espressione del Vetrini e printing. Sono presenti in commercio diversi tipi di vetrino. Per alcune ragioni esiste una corrispondenza tra tipo di vetrino e protocollo per microarray. Durante la deposizione, l’evaporazione dei campioni di DNA può causare seri problemi a causa della Una possibile soluzione consiste nell’utilizzare per il printing un buffer composto al 50% da dimetil sulfossido (DMSO). La concentrazione del DNA, il buffer per il printing e il tipo di vetrino devono essere ottimizzati prima di procedere con la deposizione. Materiale di partenza. L’integrità e la purezza dell’RNA sono due dei fattori che maggiormente determinano la riproducibilità dell’esperimento. Spesso un RNA di scarsa qualità è dato da un errato trattamento del materiale di partenza. In generale è importante mantenere sempre i campioni in ghiaccio, congelarli appena possibile in azoto liquido e non scongelarli fino al momento dell’uso. Campioni con acidi nucleici La preparazione dei campioni con acidi nucleici utilizza procedure diverse, che variano secondo i casi. Sono tutte abbastanza complesse per cui preferiamo tabularle cosi come sono riferite da Schena (2002). Criteri Tipo indiretta Template -DNA Trascrizione Inversa Diretta RNA RNA Polimerasi diret. o indiretto DNA doppia elica e promotore Procedura Eberwine diretta indiretta DNA doppia elica e promotore Prodotto oligonucleotide Reattivo oligonucleotide fluorescente modificato Interazione T3 o T7 nucleotide T7 RNA polim nucleotide modificato o anticorpo coniugato TSA Ibridazione o piccolo anticorpo Amplificazione Tipo di amplificazione Nessuna Nulla Colore fluorescente BIODIP Processo Cianina Alexa Nulla Modificato Ibridazione TSA Dendrimeri RNA o DNA in dendrimeri nucleotide RNA o DNA con piccola molecola di legame nucleotide modificato modificato modificato o dendrimero Ibridazione piccolo anticorpo Ibridazione nulla, enzim o passiva 100-1.000.000 passiva aumento quantità RNA 100 enzimatica 10-350 passiva Cianina qualsiasi Cianina fino a 3 ore nulla ma l'amplificazione del RNA diversi giorni 3 ore Cianina Alexa 3 ore nucleotide Riteniamo utile completare quanto riferito nella su esposta tabella con qualche altro dato che può risultare utile per interpretarla: Trascrizione inversa. E' stato il metodo utilizzato nei primi esperimenti con i microarray. Da questo metodo base sono poi derivate numerose varianti. usando sia RNA cellulari, che sono molto più facili da ottenere, che mRNA. Sono state anche utilizzati diversi tipi 20 Quaderni di Bioinformatica di trascriptasi inverse e diversi metodi di purificazione dei campioni. Il principale vantaggio di questo metodo è dato dalla coniugazione diretta che elimina i trattamenti da fare dopo l'ibridazione, che sono sempre ardui e richiedono molto tempo per essere espletati. Lo svantaggio maggiore è data dal fatto che si ottiene un segnale molto meno evidente di quello che si ha con l'approccio indiretto che si giova dell' effetto dell' amplificazione. La trascriptasi inversa è usata per incorporare la biotina o il dinitrofenolo al cDNA, che poi viene ibridizzato su un microarray ed incubato con un anticorpo coniugato alla perossidasi. Il chip, così composto, è trattato con acqua ossigenata per cui la perossidasi ossida il segnale fluorescente della tiramide. Ne deriva un segnale fluorescente molto intenso, fino a 100 volte. E' un segnale, però, che ha un'emivita molto breve. RNA polimerasi. Questo, oltre alle trascriptasi inverse è un altro gruppo di enzimi largamente usati per preparare campioni per microarray. Si tratta di una famiglia di enzimi estratti da virus batterici (T3 e T7), che catalizzano la sintesi del RNA partendo da un DNA a doppia elica, grazie all'azione di promotori specifici. Si tratta di un processo robusto e ad alta resa che da la possibilità di produrre quantità notevoli di RNA, che poi può essere diviso facilmente in piccoli frammenti a livello di oligonucleotidi con possibilità di amplificazione del segnale anche di 100 volte. Bisogna solo stare molto attenti ad evitare l'azione delle ribonucleasi che attaccano facilmente le molecole di RNA. Si consiglia quindi di operare in stanze molto ben pulite, utilizzare guanti di gomma sintetica e, ovviamente, essere certi che reattivi e tamponi siano assolutamente privi di ribonucleasi. Procedura Eberwine. Si tratta di un metodo molto ingegnoso che si basa sull'uso della RNA polimerasi da T7, che converte mRNA in cDNA con amplificazione, che per ogni procedura è di circa 100 volte e che, alla fine, può arrivare fino a 1.000.000 volte rispetto al materiale di partenza. Pertanto questo è il metodo preferito quando si devono risolvere particolari problemi biologici che non si possono risolvere con altri metodi. Lo svantaggio di questo metodo è che è piuttosto arduo e lungo. Infatti occorrono 2-3 giorni per completarlo e poi si attua attraverso manipolazioni durante le quali non si riesce a seguire cosa stia succedendo, per cui, se ci sono interferenze da reagenti inattivi o da contaminazioni da ribonucleasi, lo si capisce solo alla fine, di fronte a risultati inattesi. TARGET targets sono i campioni da fare interagire. Anche questi devono essere in qualche modo preparati. Per quanto riguarda gli acidi nucleici, spesso occorre fare in modo che il segnale venga amplificato. In tutti i casi, sia per gli acidi nucleici come per le proteine poi è necessario legarli ad una molecola rivelatrice che, per lo più, finora è stato un colore fluorescente. Amplificazione del segnale da tiramide (TSA) La tiramide, in questa procedura, ha la funzione di potenziare il segnale di varie sostanze fluorescenti, come la fluoresceina, la cianina 3 o la cianina 5, per cui si possono realizzare reazioni che portano alla formazione di colori diversi. Dendrimeri. Il termine dendrimero deriva dalle parole greche “dendron” e “meros” che significano rispettivamente “albero” e “parte”. Infatti sono costituiti da ordinati grovigli di monomeri di oligonucleotidi che ricordano la chioma di alberi e che si formano, per processi di sintesi progressivi, anellandosi gli uni agli altri attraverso cicli progressivi che possono arrivare a formare anche molecole di DNA aventi un PM di 12000 e contenenti 36000 basi. Le singole molecole fluorescenti attaccate alle numerose estremità sporgenti o braccia del polimero determinano la comparsa di un segnale fluorescente molto intenso. Un polimero con 300 molecole di colore produce un segnale 300 volte più intenso. Ne deriva che polimeri aventi un diametro di 0,2 micron si vedono anche ad occhio nudo. Nel complesso è una tecnica che, anche se non facile da eseguire, presenta molti vantaggi. Metodi di marcatura. La marcatura fluorescente degli acidi nucleici è un’altra variabile che influenza la riproducibilità. Vernon et. al. hanno testato la riproducibilità di tre diversi metodi di marcatura e hanno evidenziato come i risultati più riproducibili erano ottenuti effettuando un RT[18]. Sviluppo di un protocollo di ibridizzazione. Le procedure di ibridizzazione sono legate alla riproducibilità del metodo, è quindi importante ottimizzare tutti i parametri di ibridizzazione, tra cui la concentrazione del campione, forza ionica, temperatura. Non è possibile fornire un protocollo universale, ma è necessario procedere all’ottimizzazione di tutti i parametri per ogni singolo esperimento. Scanning dei vetrini. Dopo il lavaggio finale i vetrini devono essere immediatamente scannerizzati per il canale Cy5 e poi per il Cy3 (Cy5 è più sensibile alla fotodegradazione), inoltre è importante effettuare una calibrazione dello scanner per il fuoco e il segnale. Riferimenti 1. Heller, M.J., DNA microarray technology: Devices, Systems and Applications. Annual Reviews of Biomedics Engeneering, 2002. 4: p. 129-53. 2. Ekins, R.P., Multi-analyte immunoassay. J.Pharm.Biomed. Anal., 1989. 7: p. 155-168. 3. Ekins, R.P. and et.al., Multispot, multianalyte,immunoassay. Ann.Biol.Clin., 1990. 48: p. 655-666. 21 Quaderni di Bioinformatica 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. Ekins, R.P. and F. Chu, Multianalyte microspot immunoassay. The microanalytical "compact disk "of the future. Ann.Biol.Clin., 1992. 50: p. 337-353. Gabig, M. and W. Grzegorz, An introduction to DNA chips: principles, technology, applications and analysis. Acta Biochimica Polonica, 2001. 48(3): p. 615-622. Schena, M., et al., Quantitative monitoring of gene expression patterns with complementary DNA microarray. Science, 1995. 270: p. 476-470. Lander, E.S. and et.al., Initial sequencing and analysis of the human genome. Nature, 2001. 409: p. 860-921. Venter, J.C. and et.al., The sequence of the human genome. Science, 2001. 291: p. 1304-1351. Arcellana-Panlilio, M. and S.M. Robbins, Cutting edge tecnology. Global gene expression profiling using DNA microarrays. Am.J.Physiol.Gastrointest.Liver Physiol., 2002. 282: p. 397-402. Southern, E., K. Mir, and M. Shchepinov, Molecular interactions on microarrays. Nature Genetics, 1999. 21: p. 5-9. Lockart, D.J., et al., Expression monitoring by hybridization to high-density oligonucleotide arrays. Nature Biotechnology, 1996. 14: p. 1675-1680. Lipshutz, R.J., et al., High density syntetic oligonucleotide arrays. Nature Genetics, 1999. 21: p. 20-24. Haase, B. Applications of affimetrix microarrays in cancer and genotyping. in Understanding the genome: Scientific progress in microarray technology. 2002. Genova, Italy. Cifuentes, F. Characterization and properties of oligonucleotide microarrays produced using inkjet technology. in Understanding the genome: Scientific progress in microarray technology. 2002. Genova, Italy. Schubler, P. New platforms for DNA microarrays: 70mer oligonucleotide probes offer excellent sensitivity and specificity. in Understanding the genome: Scientific progress in microarray technology. 2002. Genova, Italy. DeRisi, J., et al., Use of a cDNA microarray to analyse gene expression patterns in human cancer. Nature Genetics, 1996. 14: p. 457-460. Schena, M., et al., Parallel human genome analysis: microarray-based monitoring of 1000 genes. Proc. Natl. Acad. Sci. USA, 1996. 93: p. 10614-10619. Vernon, S.D., et al., Reproducibility of alternative probe synthesis approaches for gene expression profilig with arrays. J. Mol.Diag., 2000. 2: p. 124-127. Li, X., et al., DNA microarrays: their use and misuse. Microcirculation, 2002. 9: p. 13-22. Firestein, G.S. and D.S. Pisetsky, DNA microarray: Boundless technology or bound by technology? Guidelines for studies using microarray technology. Arthritis & Rheumatology, 2002. 46(4): p. 859-861. Afshari, C.A., E.F. Nuwaysir, and J.C. Barret, Application of complementary DNA microarray technology to carcinogen identification, toxicology, and drug safety evaluation. Cancer Research, 1999. 59: p. 4759-60. Ulrich, R. and S.H. Friend, Toxicogenomics and drug discovery: will new technologies help us produce better drugs? Nature Rev. Drug. Disc., 2002. 1: p. 84-88 Allen J. F. Bioinformatics and discovery: Induction beckons again. Bioassays 23- 104- 2001 22 Quaderni di Bioinformatica ANALISI D’IMMAGINE E PATTERN RECOGNITION Alessio Soggiu Paola Roncada Gian Franco Greppi Istituto l.L. Spallanzani Milano CNBS (Centro NanoBiotecnologie Sardegna) ll riconoscimento automatico di oggetti (pattern) e la loro descrizione, classificazione e raggruppamento (clustering) sono temi importanti per una grossa varietà di problemi sia nell’area ingegneristica che scientifica, quali: la biologia, la psicologia, la medicina, il marketing, la visione artificiale, l’intelligenza artificiale fino alla fusione di dati (meglio conosciuta come data fusion). La domanda che sorge spontanea nel descrivere la pattern recognition, è: cos’è esattamente un pattern? Watanabe descrive un pattern come “l’opposto del caos; ovvero un’entità, generalmente definita a cui si può dare un nome”. Per esempio, un pattern può essere l’immagine di una impronta digitale, una parola scritta in corsivo, l’immagine di un volto, o un segnale acustico. Dato un pattern, il suo riconoscimento (detto anche classificazione) può essere principalmente effettuato in due modi; supervisionato, in cui il pattern in input viene identificato come membro di una classe tra quelle predefinite, ovvero viene classificato in maniera supervisionata avendo l’utente o il progettista definito a priori le classi di interesse; non supervisionato, in cui il pattern in input viene assegnato ad una classe sconosciuta a priori, ovvero i pattern vengono raggruppati nei cosiddetti cluster (tecniche di clustering). Il problema della pattern recognition quindi viene posto nella forma di classificazione o identificazione delle categorie di appartenenza, dove le classi o categorie possono essere sia definite dal progettista del sistema (nei metodi supervisionati), sia apprese dalle similarità tra i pattern (nei metodi non supervisionati). I sistemi di pattern recognition creano, chiaramente, nuovi scenari applicativi sia a livello accademico che industriale. Si pensi, per esempio, ai vantaggi per un processo industriale che, impiegando il riconoscimento automatico di oggetti, può beneficiare di un controllo qualità automatizzato. Sempre nell’ambito industriale, l’impiego di algoritmi di riconoscimento automatico, porta ad arricchire le funzionalità dei robot impiegati, come ad esempio la possibilità di muoversi in determinati ambienti riconoscendo automaticamente gli ostacoli. Altre applicazioni di interesse, soprattutto ai giorni nostri, sono quelle di video sorveglianza automatizzata. Pensiamo, ad esempio, ad una stazione ferroviaria o ad un aeroporto ed a come, vista la mole di persone in transito, un riconoscimento automatico di oggetti incustoditi possa essere cruciale per le funzionalità di sorveglianza. Il riconoscimento di volti, è un’altra area di applicazione che consente di aumentare notevolmente la sicurezza sia in ambito pubblico che aziendale. Un ulteriore scenario, molto interessante, riguarda la cosiddetta “Realtà Aumentata” dove informazioni reali percepite da utenti umani vengono arricchite da informazioni sull’ambiente estratte automaticamente da un sistema automatizzato. Un esempio tipico è quello militare con la possibilità di avere visori che includono tracciamento automatico dei soggetti individuati e stima della distanza dall’osservatore. Già da questi primi esempi è chiaro come l’uso di tecniche di riconoscimento automatico possa notevolmente migliorare le attuali applicazioni tecnologiche in diversi campi, dal settore scientifico a quello sociale ed industriale. Le principali aree di applicazione della Pattern Recognition sono: Automazione dei processi industriali. •Riconoscimento di oggetti, ispezioni visuali, controlli di qualità. •Navigazione e coordinazione di robot.Sorveglianza e tracking. •Traffico, sicurezza. Interazione uomo-computer. •Rilevamento e riconoscimento di volti. •Assistenza ai disabili. Realtà virtuale e visualizzazione. •Ricostruzione di scene e modelli 3D. •Fotometria. Applicazioni spaziali e militari. 23 Quaderni di Bioinformatica Tra i campi più innovativi nell’applicazione del riconoscimento di pattern, c’è ad esempio l’affective computing, identificato da Picard, che introduce la possibilità da parte del sistema di riconoscere e esprimere emozioni, al fine di rispondere in maniera intelligente alle espressioni umane. In genere, un sistema di pattern recognition, riceve in ingresso la descrizione di un oggetto, ovvero un insieme di misure che lo caratterizzano (feature) e sulla base di queste “decide” a quale classe l’oggetto appartiene. La decisione della classe di appartenenza ha un costo associato all’assegnazione dell’oggetto alla classe sbagliata e l’obiettivo con cui realizzare un buon sistema di pattern recognition è quello di minimizzare il costo di classificazione. Comunque, la caratteristica comune a tutti questi sistemi e domini applicativi è che le misure caratteristiche (feature) non sono suggerite o identificate dagli esperti di dominio, ma vengono estratte ed ottimizzate da procedure che elaborano dati; questo avviene perché in genere abbiamo migliaia di misure possibili anche per un singolo pattern. La crescente disponibilità di risorse per il calcolo automatico non solo consente di elaborare contemporaneamente grosse moli di dati, ma permette anche l’analisi e la classificazione di grandi insiemi di pattern. Allo stesso tempo, la domanda di applicazioni di pattern recognition cresce continuamente grazie alla disponibilità di grosse basi di dati e del calo dei costi dei supporti di memorizzazione. La progettazione di un sistema di pattern recognition richiede essenzialmente di affrontare i seguenti aspetti: 1. Acquisizione e pre-elaborazione (e normalizzazione) dei dati. 2. Rappresentazione e classificazione dei dati o pattern. 3. Decisione e classificazione. Il dominio di applicazione, in pratica, influenza enormemente la scelta dei sensori (nel senso generale del termine), delle tecniche di pre-elaborazione e di normalizzazione dei dati, della rappresentazione degli stessi e del modello decisionale di classificazione. È noto che per i problemi di riconoscimento ben definiti e quindi condizionati opportunamente (esempio: piccole variazioni nei valori appartenenti alla stessa classe e grosse variazioni in quelli appartenenti a classi diverse) esistono soluzioni efficienti e buone strategie decisionali di classificazione. Per esempio, usare approcci orientati all’apprendimento, basandosi su un insieme di dati per l’addestramento automatico del sistema (training set) consente la necessaria flessibilità del sistema, che addestrato con dati diversi, può reagire a situazioni diverse con un margine di errore controllabile. I quattro principali approcci alla pattern recognition sono: 1. approcci basati su modello (Template Matching); 2. approcci con classificazione statistica (Statistical Classification); 3. approcci sintattici o strutturali (Syntactic or Structural Matching); 4. approcci basati su reti neurali (Neural Networks). Questi approcci non sono necessariamente separati ed indipendenti, infatti a volte lo stesso metodo può essere usato nei diversi approcci con diverse interpretazioni. Esistono anche tentativi di progettazione e realizzazione di sistemi ibridi che introducono e integrano più modelli all’interno dello stesso sistema. Lo sviluppo di metodi nuovi ed effettivi per l’identificazione delle differenze tra gruppi di mappe 2D rappresenta una delle frontiere nel campo della proteomica, soprattutto per lo sviluppo di strumenti diagnostico-prognostici affidabili e relativamente poco costosi. Il riconoscimento automatico di oggetti e di immagini (pattern) e la loro descrizione, classificazione e raggruppamento (clustering) sono temi importanti in una grossa varietà di problemi sia nell’area ingegneristica che scientifica, quali: la biologia, la psicologia, la medicina, la visione artificiale, l’intelligenza artificiale fino alla fusione di dati (meglio conosciuta come data fusion). La domanda che sorge spontanea nel descrivere la pattern recognition, è: cos’è esattamente un pattern? Per esempio, un pattern può essere l’immagine digitale di una mappa proteomica, una parola scritta in corsivo, l’immagine di un volto, o un segnale acustico. Dato un pattern, il suo riconoscimento (detto anche classificazione) può essere principalmente effettuato in due modi: supervisionato, in cui il pattern in input viene identificato come membro di una classe tra quelle predefinite, ovvero viene classificato in maniera supervisionata avendo l’utente o il progettista definito a priori le classi di interesse; oppure non supervisionato, in cui il pattern in input viene assegnato ad una classe sconosciuta a priori, ovvero i pattern vengono raggruppati nei cosiddetti cluster (tecniche di clustering). Il problema della pattern recognition quindi viene posto nella forma di classificazione o identificazione delle categorie di appartenenza, dove le classi o categorie possono essere sia definite dal ricercatore (nei metodi supervisionati), sia apprese dalle esperienze di addestramento. In genere, un sistema di pattern recognition, riceve in ingresso la descrizione di un oggetto, ovvero un insieme di misure che lo caratterizzano (feature) e sulla base di queste “decide” a quale classe l’oggetto appartiene. La decisione della classe di appartenenza ha un costo associato all’assegnazione dell’oggetto alla classe sbagliata e l’obiettivo con cui realizzare un buon sistema di pattern recognition è quello di minimizzare il costo di classificazione. Comunque, la caratteristica comune a tutti questi sistemi e domini applicativi è che le misure caratteristiche (feature) non sono suggerite o identificate dagli esperti di dominio, ma vengono estratte ed ottimizzate da procedure che elaborano dati; questo avviene perché in genere abbiamo migliaia di misure possibili anche per un singolo pattern. La crescente disponibilità di risorse per il calcolo automatico non solo consente di elaborare contemporaneamente grosse moli di dati, ma permette anche l’analisi e la classificazione di grandi insiemi di pattern. Allo stesso tempo, la domanda di applicazioni di pattern recognition cresce continuamente grazie alla disponibilità di grosse basi di dati e del calo dei costi dei supporti di memorizzazione. In molte delle applicazioni di pattern recognition risulta evidente che non esista un approccio “ottimale” e “generale” alla classificazione e che la scelta di integrare diversi metodi e approcci è la migliore da perseguire. 24 Quaderni di Bioinformatica La progettazione di un sistema di pattern recognition richiede essenzialmente di affrontare i seguenti aspetti: -Acquisizione e pre-elaborazione (e normalizzazione) dei dati. -Rappresentazione e classificazione dei dati o pattern. - Decisione e classificazione. Con il termine classificazione si intende una procedura statistica che permette di associare ciascun oggetto (che sia un’immagine, un pattern, un dato numerico. . . ), appartenente a un generico spazio multidimensionale, a una o più etichette, corrispondenti alle possibili classi di cui può far parte un oggetto; si parla di classificazione esclusiva quando ciascun oggetto appartiene a una sola classe, o di classificazione continua o fuzzy se un oggetto può appartenere, con un certo grado di probabilità, a più classi. Per ottenere una classificazione si usano le informazioni riguardanti alcuni tratti salienti (feature, caratteristiche) degli oggetti in esame, e li si confronta, in un apposito spazio multidimensionale, con quelli di un training set: se questo training set è etichettato, e quindi le possibili classi sono note e ogni campione nel set è già associato alla classe di appartenenza, si parla di apprendimento supervisionato; in caso contrario, cioè quando le possibili classi vanno direttamente ricavate dai dati stessi, abbiamo a che fare con apprendimento non supervisionato. Uno dei primi e più semplici degli approcci alla pattern recognition è quello basato sul modello, il cosiddetto template matching. I sistemi di pattern recognition basati sul modello utilizzano la cosiddetta tecnica del “matching”; il matching è definito come l’operazione che viene usata per determinare la similarità tra due entità dello stesso tipo: punti, curve o forme ad esempio. Nell’approccio basato su modello, quest’ultimo (il modello) è tipicamente un prototipo del pattern od oggetto da riconoscere e classificare, tipicamente una forma bidimensionale. L’oggetto da riconoscere (il pattern) viene confrontato con tutti i modelli memorizzati nel sistema considerando i cambiamenti di scala e le possibili invarianze per rotazione o traslazione. Naturalmente ci saranno casi in cui sarà utile l’invarianza di scala, cioè ci interessa riconoscere l’oggetto semplicemente dalla forma, mentre in altri casi sarà necessario distinguere non solo rispetto alla forma ma anche rispetto alla dimensione. La misura di similarità utilizzata nei sistemi basati su modello, è solitamente una correlazione statistica e può essere ottimizzata apprendendo i parametri dal training set, ovvero da un insieme di esempi di oggetti forniti in input al sistema. Il confronto di gruppi di mappe 2D non è come potrebbe sembrare a prima vista un problema di poco conto, questo dovuto anche al fatto che alcuni limiti sperimentali influenzano la tecnica dell’elettroforesi 2D. Pur essendo infatti una tecnica estremamente potente per la separazione ad alta risoluzione di proteine derivanti da diverse matrici biologiche, l’elettroforesi 2D è caratterizzata da una riproducibilità a volte bassa. Questo limite dipende da 2 fattori principali: dal campione che si intende studiare e dalle procedure strumentali e sperimentali che vengono impiegate. Spesso infatti i campioni da analizzare sono rappresentati da popolazioni eterogenee di proteine con differenti proprietà fisico-chimiche che portano inevitabilmente all’aumento della complessità e alla diminuzione della riproducibilità nell’esperimento. La seconda causa che porta ad una diminuzione della riproducibilità è da ricercarsi nelle tecniche strumentali, dalla preparazione del campione alla acquisizione dell’immagine. Effettivamente la tecnica della 2DE presenta molteplici step (purificazione, estrazione, matrici utilizzate, condizioni di corsa, colorazioni ecc) che possono introdurre ciascuno della variabilità influenzando, a volte pesantemente, il risultato finale della riproducibilità della posizione e dell’intensità dei singoli spot sulla mappa 2D. A questo punto è possibile comprendere come l’elevatissimo numero di proteine teoricamente separabili in una mappa 2D (fino a 10.000) e le difficoltà tecnico/biologiche ad essa associate complichino abbastanza seriamente il raggiungimento di una classificazione chiara dei campioni e l’utilizzo di questa tecnica per studi di qualsiasi natura. Tuttavia con il controllo scrupoloso dei vari parametri sperimentali e l’utilizzo della bioinformatica (analisi d’immagine e statistica) si può ovviare alla maggior parte delle problematiche pocanzi descritte riuscendo ad ottenere risultati di elevato livello. L’analisi d’immagine effettuata con software dedicati, rappresenta un passaggio cruciale nell’interpretazione biologica dei dati derivanti da esperimenti di elettroforesi bidimensionale. Gli importanti progressi fatti per quel che riguarda l’acquisizione delle immagini ad alta risoluzione, combinato con il miglioramento della capacità di calcolo dei computer, permette di effettuare analisi di routine di un gran numero di esperimenti contemporaneamente, ma sono ancora tanti i limiti dei software per l’estrapolazione dei dati significativi dalle immagini acquisite. L’analisi d’immagine comprende quei processi di elaborazione che vengono effettuati sulle immagini, a partire dalla individuazione del numero e delle caratteristiche degli spot (detection), al matching, alla quantificazione dei volumi, fino alla creazione dei profili di espressione, seguita dall’analisi statistica dei dati. Questo tipo di analisi è fondamentale, in quanto permette la digitalizzazione dei segnali a partire da un campione biologico e quindi una accurata analisi statistica. I problemi che si incontrano sono diversi e rappresentano i limiti della maggior parte dei software attualmente in commercio: attualmente non esiste un software completamente automatizzato che sia in grado di effettuare una analisi completa e precisa senza ritocchi o interventi manuali da parte dell’operatore. Il primo passaggio fondamentale è quello dell’image filtering, che consente di eliminare il background e distinguerlo dagli spot proteici. Il rumore di fondo in una mappa bidimensionale può essere di natura diversa e dipendere da granuli di polvere, microbolle o altre imperfezioni del gel che potrebbero avere forma o dimensioni simili a quelle di uno spot proteico ed essere confusi con esso. E’ importantissimo quindi mettere a punto algoritmi che siano in grado di distinguere gli spot e sapere filtrare accuratamente il rumore come saprebbe fare l’occhio dell’operatore. Il secondo passaggio fondamentale è invece rappresentato dalla spot detection, che permette l’identificazione degli spot e l’attribuzione di tutta una serie di caratteristiche per descriverlo: area, volume coordinate x/y etc. Questi processi possono essere effettuati manualmente o automaticamente. Nel primo caso l’operatore può intervenire per correggere eventuali errori del software e il rischio è rappresentato dal fatto che la manipolazione delle immagini può aumentare l’errore statistico, nel secondo caso invece il software lavora automaticamente, ma 25 Quaderni di Bioinformatica senza la conoscenza dell’operatore e con il rischio di avere una analisi imprecisa. Lo scopo è quello di effettuare miglioramenti sull’automatizzazione dell’analisi riducendo al limite gli interventi manuali dell’operatore. L’analisi dell’immagine è quindi un concetto ampio che potremo suddividere in due step principali: acquisizione e processamento delle immagini analisi delle immagini via software il primo step di acquisizione e processamento è cruciale per i successivi step analitici. Acquisizione delle immagini. Digitalizzazione. La digitalizzazione dell’immagine è il primo step di un’analisi quantitativa. I gel possono essere acquisiti utilizzando uno scanner (laser o luce bianca) oppure una CCD camera. Qualunque sia il sistema di acquisizione verranno acquisiti dei valori di trasmissione. Il valore di trasmissione è il rapporto tra l’intensità del segnale ricevuto dal detector in presenza del gel e l’intensità ricevuta in assenza del gel (I/I0). Qualunque sia la strumentazione utilizzata nessuna delle funzioni di aumento del contrasto (es. correzione gamma) deve essere utilizzata in quanto distorcerebbe il reale valore di trasmissione. I valori di trasmissione (da 0 a 1) sono generalmente codificati in 8, 12 o 16 bit (a seconda dello strumento utilizzato e delle sue caratteristiche tecniche) e convertiti in 256(28), 4096(212) o 65536(216) scale di grigio. In questo modo l’immagine che si ottiene è una matrice di valori (pixel) tra 0 e 65536. Le immagini a questo punto sono descritte da dei pixel; ciascun pixel è caratterizzato da una coppia di coordinate x e y che ne indicano la posizione dello spazio 2D e un valore Z che corrisponde all’intensità del pixel (fig 1). Ciascuna mappa è quindi costituita da una serie di pixel (la matrice) descritti dalla loro densità ottica (OD). Solitamente viene utilizzato il formato TIFF (tagged image file format) in scala di grigi, formati (es. JPEG ) che implicano l’utilizzo di algoritmi di compressione non devono essere utilizzati. Fig 1. Visone 3D di mappa bidimensionale. Parametri associati ad uno spot. Risoluzione dell’immagine. Più alta la risoluzione (pixel per unità di lunghezza), migliore sarà il riconoscimento e la quantificazione degli spot. La risoluzione è inoltre un fattore limitante per la discriminazione di gruppi di spot che si sovrappongono. La maggioranza dei software per l’analisi d’immagine non rilevano spot multipli in un gruppo se non ci sono delle variazioni tra i picchi d’intensità (fig. 1). Così l’accuratezza del riconoscimento degli spot dipende dall’abilità di discriminare anche differenze minime che dipende a sua volta dalla risoluzione. Fig.2 interfaccia per la calibrazione mediante step tablet Solitamente per gel 24x20 cm la risoluziutilizzata è di 100micron/pixel che corrisponde circa a 300 dpi (84.7micron/pixel). Questo valore è un compromesso tra 2 fattori: 1) velocità di acquisizione dell’immagine, in quanto il tempo richiesto per fare la scansione di un gel può diventare limitante nel caso in cui sia necessario acquisire diversi gel ; 2) dimensione dell’immagine: gel 24x20 acquisiti a 100micron/pixel e 16 bit occupano dai 10 ai 15 MB, ovviamente maggiore sarà la dimensione dei file e la loro numerosità più lungo sarà il tempo per analizzarli utilizzando dei software dedicati. Dinamica dell’immagine 26 Quaderni di Bioinformatica Durante l’acquisizione dell’immagine sarebbe bene utilizzare sempre tutti i bit disponibili in quanto la precisione della quantificazione dipende dal numero dei livelli di grigio utilizzati. I dati di trasmittanza solitamente vengono convertiti automaticamente in densità ottica (OD) (questo non si applica nel caso di colorazioni fluorescenti) in quanto la concentrazione proteica è linearmente correlata con la densità ottica e non con la trasmittanza (fig 1). Facendo questa trasformazione si rende lineare la relazione tra volume degli spot e quantità di proteina. Tutte queste operazioni solitamente vanno fatte dopo la calibrazione dello scanner mediante step tablet (fig.2) e la sottrazione del background. Software dedicati Per l’analisi delle mappe 2D solitamente vengono utilizzati dei pacchetti software specifici (tabella 1). Software Company Platforms Images supported Delta 2-D 4.0 Melanie 7.0 PD Quest 8 Advanced Xpedition Image Master 2D Platinum 7 HT Analyzer Progenesis SameSpot 3.33 Redfin 2D DECODON PC (Windows XP, Vista) http://www.decodon.com Mac OS X Geneva Bioinformatics PC (Windows XP, Vista) http://www.genebio.com Bio-Rad Laboratories PC (Windows XP, Vista) http://www.biorad.com Alpha Innotech Corporation PC (Windows XP, Vista) http://alphainnotech.com GE Healthcare PC (Windows XP, Vista) http://www4.gelifesciences.com Genomic Solutions http:// PC (Windows XP, Vista) www.genomicsolutions.com Nonlinear Dynamics PC (Windows XP, Vista) http://www.nonlinear.com Ludesi PC (Windows XP, Vista) http://www.ludesi.com/ Tabella 1. Software per l’analisi d’immagine TIFF (8, 12 and 16 bit), JPEG, BMP, GIF, PNG. TIFF (8, 16 bit), GIF, TIFF (8, 16 bit) Biorad Scan TIFF (8,12 and 16 bit) TIFF (8,12 and 16 bit) TIFF (8, 12 and 16 bit) TIFF (8, 12 and 16 bit) TIFF (8, 12 and 16 bit) Sebbene l’ordine degli step possa differire tra un software e l’altro possiamo comunque suddividere l’analisi in diversi step comuni a tutti i software: spot detection image warping spot matching background subtraction normalization spot quantification differential analysis statistical analysis Spot detection. La spot detection è uno degli step più importanti dell’analisi dei gel 2D in quanto è alla base di altri fondamentali passaggi quali matching e quantification. Una mappa 2D contiene potenzialmente migliaia di spot e ciascuno di essi corrisponde idealmente a una proteina e quindi è necessariol’utilizzo di algoritmi di calcolo che permettano di riconoscere gli spot automaticamente distinguendoli dal rumore di fondo. Esistono 2 tipi principali di algoritmi implementati nella maggioranza dei software: spot-based e pixel-based, in entrambi i casi però questi non riescono a rilevare tutti gli spot correttamente ed è necessario un intervento manuale dell’operatore. Alcuni dei problemi più comuni causa di un inaccurato riconoscimento includono: rumore di fondo, problemi di acquisizione dei gel, forma degli spot irregolare, sovrapposizione degli spot (fig.3). Tuttavia è buona norma limitare l’editing dell’operatore ad un livello basso in modo da non indurre troppa soggettività nell’analisi. 27 Quaderni di Bioinformatica Fig.3 Immagini di gel 2D e problematiche ricorrenti, vista 2D (sx) e 3D (dx). a) rumore di fondo (pixel singoli scuri); b) focalizzazione incompleta e strisciate; c) sovrapposizione di spot. Spot matching La fase di maching o “registrazione” consiste nell’allineamento di 2 o più immagini in modo da compensare per la diversa posizione degli stessi spot nei diversi gel. Quindi questa fase serve per determinare quali spot sono la stessa proteina nelle diverse mappe del nostro esperimento. Questa fase è importante per il successivo passaggio di quantificazione degli spot e quindi delle differenze di espressione delle proteine tra i nostri gruppi sperimentali. Solitamente il software di analisi d’immagine ci propone un matching di tipo automatico ma nella maggioranza dei casi bisogna ricorrere ad un laborioso intervento manuale. Nei software di ultima generazione al matching automatico viene associato il cosiddetto “image warping” che consiste nella deformazione dell’immagine in modo da supplire alle differenze di allineamento dei vari gel. Inoltre è possibile individuare manualmente dei punti di riferimento (Landmark o seeds) per il software (fig. 4 a 1-5), ad esempio la stessa proteina in diversi gel in modo da facilitare il compito degli algoritmi. a Fig.4 3 2DE Image matching . a) scelta dei Landmark o seeds; b) allineamento manuale di uno spot tra 2 mappe e creazione del vettore di spostamento (1-3) Normalizzazione Tutte le immagini che noi utilizziamo per l’analisi contengono in proporzioni variabili del rumore di fondo (background noise) dovuto alle procedure sperimentali utilizzate (separazione, colorazione acquisizione e la stessa analisi). Questo rumore di fondo va sottratto dal valore reale di OD di ciascun spot per ottenere delle misurazioni accurate per la successiva fase di quantificazione delle differenze. Il principale scopo della normalizzazione è quindi quello di compensare le variazioni (tecniche e software) tra i gel. Il metodo standard nella maggioranza dei software consiste nel dividere il valore di OD di ciascuno spot per la somma di tutti gli spot presenti nella mappa ottenendo così una “quantità relativa”o un “volume relativo”. b 1 2 3 Quantificazione e analisi differenziale Questo step ci permette di analizzare differenti gruppi di mappe (es. controllomalato), e all’interno di ciascun gruppo ottenere dei valori medi per tutti gli spot identificati. Una volta che i gruppi quindi sono stati creati è possibile cercare le proteine differenzialmente espresse. Solitamente spot che mostrano una variazione di almeno 2 volte vengono indicati come significativamente differenti, tuttavia è indispensabile applicare dei metodi statistici per ottenere informazioni realmente significanti. Fig.5 output di analisi differenziale Analisi statistica. I volumi relativi dei singoli spot ottenuti alla fine dell’analisi d’immagine rappresentano il punto di partenza per le analisi statistiche. Solitamente è possibile ritrovare nei pacchetti software dei moduli di statistica che gestiscono questi dati. Il tipo di analisi alla quale vengono sottoposti solitamente è un’analisi di tipo uni variato (ANOVA o t di Student) tuttavia il basso numero di replicati e le elevate variabili in gioco (gli spot) introducono un elevato rischio di generare errori di I tipo (falsi positivi). E’ quindi di notevole importanza l’utilizzo di metodi multivariati che ben si adattano alle migliaia di variabili contemporaneamente presenti in un esperimento di proteomica. L’analisi dei componenti principali (PCA) è uno dei principali strumenti di analisi multivariata che è stato inserito ultimamente in alcuni dei più sofisticati software (fig.6) per l’analisi d’immagine. La sinergia fornita dall’utilizzo combinato di tecniche statistiche uni e multivariate è di grande aiuto nell’evidenziare le differenze significative nell’espressione proteica. Fig. 6 Implementazione software (Progenesis SameSpot) dell’analisi statistica univariata (ANOVA) e multivariata (PCA). 28 Quaderni di Bioinformatica Analisi multivariata di dataset derivanti da mappe 2D I dati di volume di ciascuno spot ottenuti mediante quantificazione e analisi differenziale sono un’ottima base di partenza per l’analisi multivariata; questo è dovuto principalmente alla loro larga dimensionalità (elevato numero di spot presenti in ciascuna mappa) e alla difficoltà nell’identificare le piccole differenze esistenti nel caso dell’analisi di migliaia di spot contemporaneamente. Con l’analisi multivariata è quindi possibile considerare tutte le variabili contemporaneamente, producendo risultati chiari e robusti. Tra le tecniche statistiche che sono state applicate con successo a dataset di spot possiamo ricordare: Metodi di riconoscimento di pattern Analisi dei componenti principali (PCA) Cluster Analysis Metodi di classificazione Analisi Discriminante (LDA) Soft indipendent Model of Class Analogy (SIMCA) Metodi di regressione Analisi discriminante-regressione parziale dei minimi quadrati (DA-PLS) I dati da utilizzare per l’analisi multivariata sono solitamente convertiti in matrici di dimensioni n x p, dove n è il numero di campioni (uno per riga) e p il numero delle variabili (una per ciascuna colonna della matrice). Nella tabella 2 sono riportati i principali software per la statistica multivariata Software Company SPSS 17 SPSS Inc. http://www.spss.it SAS SAS institute inc http://www.sas.com The Unscrambler 9.8 CAMO http://www.camo.com Minitab 15 Minitab inc http://www.minitab.com Stata 10 StataCorp LP http://www.stata.com SYSTAT 12 Cranes Software International Ltd www.systat.com STATISTICA 8 STATSOFT inc http://www.statsoft.com statistiXL 1.8 StatistiXL http://www.statistixl.com/ Tabella 2 . Software per la statistica multivariata Analisi dei componenti principali (PCA) La PCA è una metodica che rappresenta gli oggetti, descritti dalle variabili originali, in un nuovo sistema di riferimento caratterizzato da nuove variabili chiamate componenti principali (PC). Ogni PC ha la proprietà di descrivere la maggiore quantità possibile di varianza residua contenuta nel dataset originale: la prima PC solitamente spiega la massima quantità di varianza contenuta nel dataset intero, mentre la seconda descrive la massima varianza rimanente. Le PC sono quindi calcolate in maniera tale che il rumore sperimentale e le variazioni casuali siano contenute nelle ultime componenti. Le PC mantengono una stretta relazione con il sistema di riferimento originario dal momento che sono calcolate come combinazioni 29 Platforms PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) Quaderni di Bioinformatica lineari delle variabili originali e sono ortogonali (non correlate) rispetto alle altre, così da contenere fonti indipendenti di informazione (fig .7) Fig.7 Costruzione delle PC Il calcolo delle PC viene operato in maniera gerarchica (ordine decrescente di varianza), questo fa si che risultino utili per ottenere una riduzione della dimensionalità nel dataset originale: infatti il grande numero di variabili originarie (gli spot) vengono sostituite da un piccolo numero di PC significative che contengono a loro volta una rilevante quantità di informazione. La PCA fornisce due strumenti principali per l’analisi dei dati: gli score e i loading. Gli score (gli oggetti) rappresentano le coordinate dei campioni nel nuovo sistema di riferimento, mentre i loading (le variabili) rappresentano i coefficienti delle combinazioni lineari che descrivono ciascuna PC (es. il peso delle variabili originali su ciascuna PC). La rappresentazione grafica degli score nello spazio delle PC ci permette l’identificazione di gruppi di campioni che mostrano un comportamento simile (campioni molto vicini nel grafico) o caratteristiche differenti (campioni distanti tra loro nel plot). Osservando il loading plot è possibile identificare le variabili che sono responsabili delle analogie o delle differenze rilevate tra i campioni nello score plot. Fig.8 esempio di loading e score plot. Nella figura 8 è rappresentato un esempio di loading e score plot. In questo caso è possibile discriminare i 2 gruppi presenti. La prima componente è efficace nel discriminare i campioni 4, 5 e 6 (score negativo) dai campioni 2 e 3 (score positivo). Dal punto di vista dell’identificazione di gruppi di campioni e variabili esistenti in un dataset, la PCA è uno strumento estremamente potente in quanto permette la rappresentazione di dati multivariati attraverso l’utilizzo di poche PC significative. Esistono anche come rappresentazione grafica i cosidetti biplot che riportano in forma grafica contemporaneamente score (oggetti) e loading (variabili) (fig.9). Fig.9 Esempio di biplot. Numeri in rosso rappresentano i loading e numeri in nero gli score. Un ultimo problema viene sempre incontro durante l’utilizzo di questa tecnica e cioè: quante PC bisogna tenere per ciascuna analisi? La risposta a questa domanda non è mai definitiva ma bisogna valutare caso per caso. Tuttavia esistono almeno 3 criteri (euristici) per la scelta del numero di componenti: 1. prendere solo quelle componenti che spiegano il 70-80% della variabilità complessiva 2. seguire la regola di Kaiser: prendere solo quelle componenti che hanno un autovalore (eigenvalue) >=1 o che equivalentemente con varianza > varianza media 30 Quaderni di Bioinformatica 3. la scelta del n° di componenti (sufficienti a riprodurre con una buona approssimazione i dati di partenza) può essere fatta attraverso il grafico degli autovalori o scree plot (fig.9). all’interno del grafico si sceglie il numero di componenti corrispondente al punto di “gomito” della spezzata. Nell’esempio che segue I risultati prodotti dall’ANALISI COMPONENTI PRINCIPALI sono i seguenti: Queste tabelle contengono la statistica descrittiva della matrice, le componenti trovate con il rispettivo auto valore (eigenvalue) , la varianza spiegata, la varianza cumulata Principal Component Results for: e i loading. Nella tabella le Variable Range = Foglio1!$C$4:$K$9 Principal components calculated from the correlation matrix COMPONENTI sono già ordinate in Components extracted with eigenvalues > 1 funzione della variabilità complessiva Descriptive Statistics Variable Mean Std Dev. Std Err N spiegata da ognuna. 1587 33374221,549 19985195,959 8937651,342 5 Tabella 3. Output numerico (statistiXL) derivante da PCA su dataset di gel 2D 17338323,749 4088543,007 12987612,594 6175016,067 6465152,152 7524422,836 25011941,297 16233549,559 2233859,300 497522,701 2660117,767 1577144,973 1543167,802 1951258,401 2047510,266 3429618,726 999012,249 222498,916 1189640,831 705320,674 690125,621 872629,285 915674,428 1533772,122 5 5 5 5 5 5 5 5 Correlation Matrix Fig.9 Scree plot 1587 1587 1272 430 1072 1343 912 1269 1401 1757 Scree Plot 9 8 7 Eigenvalue 1272 430 1072 1343 912 1269 1401 1757 6 1272 1,000 0,987 0,957 0,972 0,933 0,955 0,947 0,871 -0,923 0,957 0,950 1,000 0,891 0,957 0,983 0,968 0,940 -0,798 1072 0,972 0,985 0,891 1,000 0,823 0,923 0,912 0,786 -0,944 1343 0,933 0,881 0,957 0,823 1,000 0,898 0,889 0,894 -0,776 912 0,987 1,000 0,950 0,985 0,881 0,975 0,968 0,878 -0,926 430 0,955 0,975 0,983 0,923 0,898 1,000 0,994 0,946 -0,843 1269 0,947 0,968 0,968 0,912 0,889 0,994 1,000 0,966 -0,866 1401 0,871 0,878 0,940 0,786 0,894 0,946 0,966 1,000 -0,770 1757 -0,923 -0,926 -0,798 -0,944 -0,776 -0,843 -0,866 -0,770 1,000 0,416 4,617 96,982 PC 3 0,164 1,817 98,800 PC 4 0,108 1,200 100,000 PC 5 0,000 0,000 100,000 PC 6 0,000 0,000 100,000 PC 7 0,000 0,000 100,000 PC 8 0,000 0,000 100,000 PC 9 0,000 0,000 100,000 5 Explained Variance (Eigenvalues) Value PC 1 Eigenvalue 8,313 % of Var. 92,365 Cum. % 92,365 4 3 2 1 0 1 2 3 4 5 6 7 8 9 Component Number Fig.10 score plot delle prime due componenti principali dell’esempio. PC 2 Component Loadings (correlations between initial variables and principal components) Variable PC 1 1587 0,988 1272 0,989 430 0,977 1072 0,953 1343 0,931 912 0,985 1269 0,984 1401 0,931 1757 -0,907 Se decidiamo di seguire il criterio della VARIABILITA’ COMPLESSIVA SPIEGATA allora vediamo che per superare abbondantemente la soglia dell’80% basterebbe la prima componente. Anche secondo la regola di KAISER bisognerebbe prendere la 1° componente, perché al di sotto di questa tutte le altre hanno autovalori <1 e quindi andrebbero scartate. L’ultimo criterio che ci rimane da saggiare è quello dello SCREE PLOT. In questo caso il punto di gomito più netto si ha alla 2° componente. Quindi tre su tre consigliano una COMPONENTE (la prima), tuttavia decidiamo di prenderne 2 per ottenere anche lo score plot (anche se la seconda non è significativa). In ultima analisi quindi è bene analizzare mediante PCA i dati utilizzando il dataset completo e non sulle proteine che appaiono significativamente differenti da analisi univariate. Le statistiche multivariate hanno un valore aggiunto essendo capaci di differenziare i differenti gruppi sperimentali in termini di espressione correlata più che espressione assoluta. Eseguire l’analisi iniziale solo sulle proteine statisticamente significative potrebbe escludere informazioni utili. Quindi si può iniziare l’analisi utilizzando la PCA su tutte le variabili disponibili e comparando successivamente i dati con l’analisi univariata applicata alle singole variabili (le proteine). Analisi bioinformatica dei network di interazione proteina-proteina. Negli ultimi anni, le scoperte sulla funzione di geni e proteine su larga scala per una migliore comprensione del funzionamento cellulare e dello sviluppo degli organismi, hanno stimolato la ricerca di nuovi approcci analitici. In questo senso, i metodi bioinformatici 31 Quaderni di Bioinformatica si sono evoluti di pari passo alla decifrazione delle funzioni di geni e proteine. Questo è sottolineato dal fatto che lo sviluppo di nuovi metodi computazionali,permettendo la decodifica delle succitate funzioni su larga scala,ha non solo aperto questo campo di investigazione, ma anche creato una nuova visione delle interazioni tra geni e proteine. Gli “interattomi” sono nuove entità biologiche che corrispondono,idealmente e formalmente, al completo set di interazioni esistente tra tutte le macromolecole di un organismo. Ad oggi, gli interattomi disponibili sono essenzialmente formati da network di interazione proteina-proteina (PPI) nei quali le interazioni sono state sperimentalmente ottenute su larga scala dal sistema dei due ibridi (yeast two-hybrids), o da differenti tipi di esperimenti su scala ridotta. Tuttavia gli interattomi sono ancora lontani dall’essere completi dal momento che esiste uno sconosciuto numero di interazioni che devono essere ancora scoperte. Le mappe PPI (di lievito, caenorabdtidis, drosophila e umane) formano complicati network che contribuiscono solo in parte ad una rinnovata visione della cellula come un sistema integrato e dinamico. Contemporaneamente alla decodifica degli interattomi, vengono sviluppati i metodi bioinformatica che permettono la loro analisi. Al momento i network d’interazione sono rappresentati da grafici complessi nei quali i nodi corrispondono alle proteine e i connettori (di varia forma) alle loro interazioni (fig 10). Fig.10 Network d’interazione ottenuto da dati proteomici sperimentali elaborati mediante software dedicato (Ingenuity Pathway Analysis). Pathway Database. Le informazioni riguardanti i pathway sono disponibili attraverso un gran numero di database che spaziano da quelli di elevata qualità curati manualmente e quelli massivi, che coprono un elevato numero di pathway teorici, creati attraverso l’utilizzo di sistemi automatici per l’immissione dei dati. A causa di queste differenz e nelle dimensioni e nella qualità è necessario utilizzare il giusto database adatto alle proprie esigenze. KEGG. KEGG (Kyoto Encyclopedia of Genes and Genomes) (http://www.kegg.jp/) è una serie di database sviluppati dal centro di bioinformatica dell’università di Kyoto e dal centro del genoma umano dell’università di Tokio. KEGG risulta essere una vera e propria enciclopedia, la sezione pathway consiste principalmente di network metabolici, la licenza è libera per uso non commerciale. KEGG è unico per la sua copertura su lievito, topo e pathway metabolici umani. Tutto viene creato da curatori che leggono la letteratura e la integrano nei database. Le informazioni sono disponibili via browser e i pathway mostrati come immagini GIF, in questo modo l’utente non può gestire in maniera semplice le informazioni fornitegli. BioCyc 32 Quaderni di Bioinformatica E’ un pathway database fornito dalla SRI International (http://www.biocyc.org/), è di elevata qualità ed è focalizzato principalmente su network metabolici. Oltre a BioCyc ci sono EcoCyc (E.coli), MetaCyc e HumanCyc database, le licenze sono libere per qualsiasi utilizzo. Ingenuity Pathways Knowledge Base E’ il database creato dalla Ingenuity Systems Inc. (http://www.ingenuity.com/) , tutte le licenze sono a pagamento. Consiste principalmente di network genici e di signalling. I database sono curati manualmente e contegono informazioni su specie umana, topo e ratto. I database possono essere fruiti attraverso l’utilizzo di un software proprietario chiamato Ingenuity Pathway Analysis (IPA) che permette contrariamente agli altri database di ottenere dei database personalizzati inserendo i propri dati di espressione genica o proteomica, tutti gli output possono essere esportati in molteplici formati elettronici. TRANSPATH TRANSPATH è una serie di database creati da BIOBASE (http://www.biobase-international.com/). La versione più recente dei dati richiede un accesso a pagamento. Tuttavia, alcune parti di vecchi dati sono fornite agli utenti accademici come versione di prova (http://www.gene-regulation.com/). Oltre che TRANSPATH, BIOBASE offre il database TRANSFAC dei fattori della trascrizione e il database PROTEOME per le proteina. Inoltre fornisce il software ExPlain per la consultazione di questi database. ResNet ResNet (http://www.ariadnegenomics.com/) è il database generato da Ariadne Genomics. Le autorizzazioni accademiche e commerciali richiedono una tassa. I pathway di ResNet consistono principalmente nelle vie di segnalazione e nei network genici. Diverso da altre banche dati, ResNet è costruito con analisi computerizzata. Cioè le vie e le reti sono generate con l'elaborazione del linguaggio naturale della letteratura relativa. MedScan è usato per questa procedura di elaborazione del linguaggio naturale. La banca dati è costruita pricipalmente dagli estratti in PubMed, ma alcune entry usano il testo integrale. In più, ci sono un piccolo numero di entry generate dai curatori. Signal Transduction Knowledge Environment (STKE): Database of Cell Signaling STKE (http://stke.sciencemag.org/), è un servizio online fornito da Science. E’ una banca dati di alta qualità delle vie di segnalazione generata ed effettuata dai curatori. Il database può essere raggiunto abbonandosi al servizio online di Science. Tuttavia, l'utente non può specificare una lista dei geni (proteine) e generare una rete su quella selezione. Reactome Reactome è una banca dati di vie metaboliche e di segnalazione (http://www. reactome. org/). Cold Spring Harbor LaboratoryEuropean Bioinformatics Institute, and Gene Ontology Consortium ono gli sviluppatori principali del progetto. Anche se gli esseri umani sono l'organismo principale catalogato, ha altre 22 specie catalogate tra le quali topo e ratto. Le informazioni sono estratte dai curatori. Le vie e le reazioni del Reactome possono essere osservate ma non modificate con un web browser, tuttavia la gestione dei dati risulta di semplice utilizzo. Metabolome.jp Metabolome.jp (http://metabolome.jp/) è una banca dati metabolica generata da alcuni laboratori di ricerca dell’università di Tokyo. Utilizzando un applet denominato ARM, le vie possono essere osservate e pubblicate attraverso un browser. Le vie sono generate dai curatori. Ogni prodotto metabolico è indicato con una formula strutturale. Diverso da KEGG, è possibile seguire il movimento degli atomi nelle reazioni metaboliche. Software per l’interattomica. Ingenuity Pathway Analysis (IPA) Ingenuity Pathway Analysis è il software usato per visualizzare i dati dell’Ingenuity Pathway Knowledge Base della Ingenuity Systems Inc. Per un insieme dato di geni (o proteine), IPA genera automaticamente le vie che sono collegate con quei geni (o proteine). Ciò significa, per esempio, che se si trova un insieme di macromolecole con elevata varianza di espressione dopo analisi di microarray o proteomica, IPA genera automaticamente la via che coinvolge quei geni. La via è generata partendo dell'essere umano, dal topo e dei dati del ratto. Di conseguenza, è necessario ricordare che anche se IPA genera una certa via è possibile che non risulti realmente in quell’organismo ma sia solamente frutto degli algoritmi utilizzati. Esistono altri software proprietari come MetaCore, Pathway Builder e Pathway Studio e open source come Cytoscape, IntAct e Copasi. BIBLIOGRAFIA ESSENZIALE ANALISI D’IMMAGINE E STATISTICA MULTIVARIATA Alban, A., Currie, I., Lewis, S., Stone, T., & Sweet, A. C. (2002) Mol. Biol. Cell 13, 407A–408A. Alban, A., David, S. O., Bjorkesten, L., Andersson, C., Sloge, E., Lewis, S., & Currie, I. (2003) Proteomics 3, 36–44. Bjellqvist, B., Ek, K., Righetti, P. G., Gianazza, E., Gorg, A., Westermeier, R., & Postel, W. (1982) J. Biochem. Biophys. Methods 6, 317–339. Carpentier, S. C., Witters, E., Laukens, K., Deckers, P., Swennen, R., & Panis, B.(2005) Proteomics 5, 2497–2507. Gustafsson, J. S., Ceasar, R., Glasbey, C. A., Blomberg, A., & Rudemo, M. (2004) Proteomics 4, 3791–3799. Hotelling, H. (1933) J. Educ. Psychol. 24, 417–441. Jackson, J. E. (2003) A User’s Guide to Principal Components. Wiley, New York. Karp, N. A. & Lilley, K. S. (2005) Proteomics 5, 3105–3115. 33 Quaderni di Bioinformatica Karp, N. A., Spencer, M., Lindsay, H., O’dell, K., & Lilley, K. S. (2005) J.Proteome Res. 4, 1867–1871. Patton, W. F. (2000) Electrophoresis 21, 1123–1144. Pearson, K. (1901) Phil. Mag. Ser. B. 2, 559–572. Rabilloud, T. (2000) Proteome research: two dimensional gel electrophoresis and identification methods. Springer, Heidelberg. Rabilloud, T., Vuillard, L., Gilly, C., & Lawrence, J. (1994) Cellular and Molecular Biology 40, 57–75. Sharma, S. Applied Multivariate Techniques. Wiley, Hoboken, NJ. Siegel, S. C. N. J. (1988) Non Parametric Statistics for Behavioral Sciences. McGraw-Hill Book Company Switzer, R. C., Merril, C. R., & Shifrin, S. (1979) Anal. Biochem. 98, 231–237. Tarroux, P. (1983) Electrophoresis 4, 63–70. Tonge, R., Shaw, J., Middleton, B., Rowlinson, R., Rayner, S., Young, J., Pognan, F., Hawkins, E., Currie, I. et al. (2001) Proteomics 1, 377–396. Unlu, M., Morgan, M. E., & Minden, J. S. (1997) Electrophoresis 18, 2071–2077. Urfer, W., Grzegorczyk, M., & Jung, K. (2006) Proteomics S2, 48–55. Westermeier, R. & Naven, T. (2002) Proteomics in Practice. Wiley-VCH,Weinheim. Westermeier, R. (2001) Electrophoresis in Practice. Wiley-VCH, Weinheim. Westermeier, R. (2006) Proteomics S2 61–64. INTERATTOMICA Aittokallio T, Schwikowski B (2006) Graph-based methods for analysing networks in cell biology. Brief Bioinform 7: 243¬255. Baudot A, Jacq B, Brun C (2004) A scale of functional divergence for yeast duplicated genes revealed from analysis of the proteinprotein interaction network. Genome Biol 5: R76. Baudot A, Martin D, Mouren P, Chevenet F, Guenoche A, et al. (2006) PRODISTIN Web Site: a tool for the functional classification of proteins from interaction networks. Bioinformatics 22: 248¬250. Brun C, Baudot A, Guénoche A, Jacq B (2004) The use of protein-protein interaction networks for genome wide protein function comparisons and predictions. In: Kamp RM, Calvete JJ, Choli¬Papadopoulou T, editors. Methods in Proteome and Protein Analysis. Berlin Heidelberg: Springer-Verlag. pp. 103¬124. Brun C, Chevenet F, Martin D, Wojcik J, Guénoche A, et al. (2003) Functional classification of proteins for the prediction of cellular function from a protein¬protein interaction network. Genome Biol 5: R6. Formstecher E, Aresta S, Collura V, Hamburger A, Meil A, et al. (2005) Protein interaction mapping: a Drosophila case study. Genome Res 15: 376¬384. Giot L, Bader JS, Brouwer C, Chaudhuri A, Kuang B, et al. (2003) A protein interaction map of Drosophila melanogaster. Science 302: 1727-1736. Ito T, Chiba T, Ozawa R, Yoshida M, Hattori M, et al. (2001) A comprehensive two hybrid analysis to explore the yeast protein interactome. Proc Natl Acad Sci U S A 98: 4569¬4574. Li S, Armstrong CM, Bertin N, Ge H, Milstein S, et al. (2004) A map of the interactome network of the metazoan C. elegans. Science 303: 540¬543. Rual JF, Venkatesan K, Hao T, Hirozane-Kishikawa T, Dricot A, et al. (2005) Towards a proteome¬scale map of the human protein¬protein interaction network. Nature 437: 1173¬1178. Sanchez C, Lachaize C, Janody F, Bellon B, Roder L, et al. (1999) Grasping at molecular interactions and genetic networks in Drosophila melanogaster using FlyNets, an Internet database. Nucleic Acids Res 27: 89¬94. Sharan R, Ulitsky I, Shamir R (2007) Network-based prediction of protein function. Mol Syst Biol 3: 88. Stelzl U, Worm U, Lalowski M, Haenig C, Brembeck FH, et al. (2005) A human protein¬protein interaction network: a resource for annotating the proteome. Cell 122: 957¬968. Uetz P, Giot L, Cagney G, Mansfield TA, Judson RS, et al. (2000) A comprehensive analysis of protein¬protein interactions in Saccharomyces cerevisiae. Nature 403: 623¬627. 34