Quaderni di Bioinformatica ARRAY E MICROARRAY QUALUNQUE TECNOLOGIA SUFFICIENTEMENTE AVANZATA E' INDISTINGUIBILE DALLA MAGIA Gian Franco Greppi Stefania Mura CNBS (Centro NanoBiotecnologie Sardegna) Laboratorio di bionanotecnologie Dipartimento di Scienze Zootecniche, Università di Sassari Storicamente le ricerche in genetica sono state focalizzate sullo studio di uno o pochi geni alla volta. Negli ultimi anni l'identificazione di un enorme numero di geni ha portato alla necessità di sviluppare nuove tecniche più adeguate ad un'analisi su larga scala. Due sono state le innovazioni sperimentali che hanno permesso l'analisi simultanea di decine di migliaia di geni. Una è l'utilizzo di supporti rigidi non porosi come il vetro, molto più adatti alla miniaturizzazione ed all'utilizzo di marcatori fluorescenti. L'altra è la sintesi ad alta densità spaziale di oligonucleotidi su vetrini sottilissimi con tecniche fotolitografiche. Si è giunti quindi, alla nascita di una nuova tecnologia di analisi comunemente chiamata microarray o DNA chip dopo un percorso che è partito negli anni ’90 e di seguito brevemente richiamato. La conoscenza di varianti genetiche è da tempo un elemento nella diagnostica e nella la cura di pazienti in biomedicina. Per esempio, alcune varianti genetiche portano ad incompatibilità tra tessuti ed organi inficiando il successo di un trapianto. Ma variazioni nella sequenza genomica portano anche ad una diversa suscettibilità verso tutti i tipi di patologie, ad una differente età nella insorgenza e di gravità di molte malattie genetiche, e causano anche una diversa efficacia nella cura. Gli studi di associazione non coinvolgono l'analisi di genealogie di grandi famiglie ma confrontano la prevalenza di un particolare marcatore genetico, o di un gruppo di marcatori, in soggetti affetti e non affetti dalla patologia. Una prevalenza di un marcatore nel gruppo di pazienti affetti viene considerata evidenza di una associazione tra la malattia ed il marcatore. L'associazione non è un fenomeno specificatamente genetico; è una deduzione statistica di coesistenza di alleli e/o fenotipi. L'allele A è associato con la patologia P se i soggetti che presentano P hanno anche una frequenza dell'allele A significativamente maggiore di quella prevista dalle frequenze individuali di A e P nella popolazione. Marcatori molecolari Con il termine di marcatore molecolare si intende un qualsiasi carattere polimorfico mendeliano che può essere impiegato per seguire l'ereditarietà di un segmento cromosomico attraverso un albero genealogico. Per le analisi di associazione è necessaria la presenza di meiosi informative, ovvero casi in cui è definibile quando un gamete è o meno ricombinante. Per la maggior parte degli scopi l'eterozigosità media di un marcatore (la probabilità di un soggetto scelto a caso di essere eterozigote) è utilizzata come misura di informatività del marcatore stesso. I polimorfismi genetici sono variazioni nelle sequenze di DNA presenti in una popolazione con una frequenza maggiore dell'1% e costituiscono strumenti fondamentali per gli studi di genetica. Nei primi anni ottanta i polimorfismi genetici hanno formato, per la prima volta, un gruppo di marcatori sufficientemente numeroso ed adeguatamente distribuito lungo tutto il genoma da permettere ricerche di associazione in tutto il DNA genomico. I primi marcatori molecolari ad essere studiati furono gli RFLP, Restriction Fragment Length Polymorphisms (polimorfismi della lunghezza dei frammenti di restrizione). Si tratta di una metodica complessa che può avere come scopo la formulazione di un consiglio genetico. Permette di studiare la trasmissione di un gene in seno a una famiglia quando non è nota la sua sequenza ma solo la sua localizzazione su di un cromosoma. La metodica si serve dell’analisi delle sequenze non codificanti di DNA contigue al gene in esame e le utilizza come suoi markers indiretti. Prevede numerosi passaggi tra cui la digestione dell’acido nucleico da parte di enzimi di restrizione, dell’elettroforesi per la separazione dei frammenti così ottenuti e del southern blotting per il loro trasferimento su di un filtro di nitrocellulosa. Per potere individuare i siti di restrizione, la regione del genoma di interesse viene amplificata tramite PCR ed i prodotti vengono incubati con l'enzima. Eseguendo quindi un'elettroforesi su gel di agarosio si è in grado di determinare se il frammento amplificato è stato tagliato o meno, ovvero se la sequenza specifica riconosciuta dall'enzima è presente inalterata oppure no. Uno svantaggio di questo tipo di marcatori è dato dalla loro bassa informatività. Infatti gli RFLP presentano solo due alleli possibili: il sito di restrizione può essere intatto oppure no. L'impiego di questi marcatori per eseguire la mappa genetica di patologie è però poco attuabile in quanto troppo spesso delle meiosi chiave in una famiglia risultano non informative. Un'altra categoria di marcatori comprende i minisatelliti VNTR (Variable Number of Tandem Repeat), detti anche ripetizioni a tandem a numero variabile. Hanno sequenze ripetute lunghe una decina di nucleotidi. Tali marcatori sono multiallelici e presentano un alto grado di eterozigosità. La maggior parte delle meiosi risulta informativa ma i VNTR presentano delle difficoltà relative alla genotipizzazione in quanto vista la loro lunghezza tali marcatori vengono amplificati con difficoltà in una reazione di PCR. Inoltre non sono uniformemente distribuiti lungo tutto il genoma. Un ulteriore tipo di marcatori sono i microsatelliti, detti anche ripetizioni a tandem 1 Quaderni di Bioinformatica semplici. Sono ripetizioni lunghe da due a quattro nucleotidi. L'impiego di sequenze tri- o tetranucleotidiche sta gradualmente soppiantando l'utilizzo di quelle dinucleotidiche, troppo soggette ad uno slittamento della lettura dell'enzima durante la PCR. Come i precedenti, anche questi marcatori sono multiallelici dal momento che il numero di ripetizioni per ogni allele può variare. Tra i marcatori molecolari più utilizzati vi sono gli SNP. Come suggerisce il nome, i Single Nucleotide Polymorphisms (polimorfismi a singolo nucleotide) sono singole variazioni puntiformi del genoma. Tali polimorfismi includono i classici RFLP, ma anche altre variazioni di sequenza che non creano o sopprimono siti di restrizione. Può sembrare paradossale tornare all'impiego di polimorfismi biallelici dopo avere individuato dei marcatori pluriallelici, ma il grande vantaggio nell'utilizzare degli SNP è dato dall'elevato numero di polimorfismi che possono essere genotipizzati e dalla loro elevata densità lungo tutto il genoma. A giugno del 2004 nell'uomo è stata stimata una frequenza per gli SNP pari ad uno ogni 700pb. Un’elevata densità rende possibile individuare uno o più marcatori in ogni gene e nelle sue immediate vicinanze. Per quanto concerne i cambi di base relativi agli SNP, si è osservato che le transizioni, ovvero cambi purina-purina (A vs G) o pirimidina-pirimidina (C vs T), si ritrovano con frequenza maggiore delle trasversioni, ovvero cambi purina-pirimidina e pirimidina-purina. Oltre all'elevato numero di SNP conosciuti, il fatto più importante è che oggi si ha una conoscenza precisa di dove sono situati all'interno del genoma. Il principale impiego di una mappa di SNP umana è dato dalla possibilità di discernere i contributi di diversi geni in patologie multigeniche complesse. Dato che siti di SNP sono presenti in tutto il genoma, confrontando lo schema e le frequenze di tali polimorfismi presenti in pazienti affetti con quelli di soggetti sani di controllo, è possibile identificare quali SNP sono associati a quali malattie. Gli studi relativi all'associazione tra SNP e malattie saranno più fruttuosi quando verranno risolti alcuni problemi ancora esistenti. Primo, sono poco conosciute le distribuzioni degli SNP all'interno di diverse popolazioni. Altro fattore importante è che non tutti gli SNP sono eguali, e sarà essenziale scoprire il più possibile riguardo al loro effetto da analisi computazionali prima di eseguire uno studio relativo al loro coinvolgimento eventuale in una patologia. Per esempio, ogni SNP può essere classificato in base alla sua presenza in una zona codificante o non. A loro volta quelli siti in zone codificanti possono essere divisi in base alla loro capacità di alterare o meno la proteina prodotta dal gene alterato. Alterazioni alla proteina poi possono essere suddivise in base alla loro capacità di modificare la struttura secondaria e terziara della proteina stessa. Gli SNP situati in zone non codificanti possono poi trovarsi in zone regolatrici. Molte patologie complesse possono essere causate da variazioni nella quantità, più che nella qualità del prodotto genico coinvolto. Vi sono numerosi approcci per l'identificazione di SNP, tra questi alcuni vengono anche impiegati per la genotipizzazione. I principali sono basati sul confronto di sequenze relative ad un determinato locus, provenienti da diversi cromosomi. Tra questi, il più semplice consiste nell'eseguire il sequenziamento diretto dei prodotti di PCR di regioni genomiche contenenti il gene di interesse in individui diversi. Su larga scala però tale approccio è molto costoso richiedendo lo studio di primer specifici; inoltre limitato a regioni di cui è nota la sequenza e, quando si presentano doppi picchi, come atteso negli eterozigoti, non è sempre facile discernere tra artefatti dovuti al sequenziamento e polimorfismi reali. Diversi approcci basati sul confronto di sequenze ottenute da frammenti clonati possono essere considerati per ottenere una mappa di SNP in un genoma. In questo caso qualsiasi picco doppio viene considerato artefatto. Il confronto tra dati di sequenze prodotte in diversi progetti di EST, specialmente se le librerie costruite sono state ottenute prelevando campioni da diversi individui, possono essere una buona fonte di SNP. Ad ogni modo il numero di SNP individuabili con questo approccio è limitato dalla pressione selettiva subita dalle sequenze codificanti del genoma. Inoltre, in rari casi, gli SNP individuati in questo modo potrebbero essere in realtà dovuti a modificazioni post-trascrizionali. Un approccio simile può essere applicato per i genomi in fase di sequenziamento completo. In questo caso il confronto tra cloni BAC sovrapponibili è una buona fonte di SNP. Lo svantaggio di tale approccio è dato dal fatto che l'individuazione degli SNP dipende dal numero di cloni BAC sovrapponibili presenti nella genoteca e provenienti da cromosomi diversi. Recentemente un nuovo approccio chiamato Reduced Representation Shot-gun (RRS) viene utilizzato per ottenere un elevato numero di SNP nell'uomo. In questo metodo, il DNA proveniente da diversi individui è mescolato e vengono prodotte delle librerie plasmidiche composte da sottoinsiemi di frammenti di restrizione purificati tramite elettroforesi su gel. Viene quindi realizzato un sequenziamento di tipo shotgun su tali librerie e le sequenze che risultano sovrapponibili vengono allineate andando ad evidenziare i polimorfismi. Quest'ultima fase ha beneficiato grandemente dello sviluppo di programmi come PHRED atti a stimare la qualità con cui viene definita una base ed altri programmi come POLYPHRED o POLYBAYES che impiegano questo indice di qualità per il rilevamento di polimorfismi. Il termine Microarray, definito anche biochips" (comunemente conosciuto come gene chip, DNA chip, o biochip) è un insieme di piccoli elementi, detti anche spots, sistemati su file orizzontali e colonne verticali; il termine è composto da " micro ", che in greco significa " piccolo " e dal francese " arayer ", che significa " sistemare”, ed è sostanzialmente costituito da una collezione di microscopiche sonde di DNA attaccate ad una superficie solida come vetro, plastica, o chip di silicio formanti quindi un array. Come definito da Schena ed altri (Scienze 270, 467-470, 1995), un DNA microarray è "un allineamento ordinato degli acidi nucleici, di piccole molecole, che permette l'analisi parallela dei campioni biochimici complessi". Con il completamento del progetto genoma siamo entrati in possesso di un prezioso e ricco dizionario, con molti vocaboli ma pochissime definizioni. L’obiettivo della postgenomica è stato quello di trovare le definizioni mancanti, utilizzare le informazioni di genomica strutturale per spiegare e analizzare i processi biologici su scala genomica, e assegnare la corretta funzione ai diversi geni. Gli array vengono utilizzati per esaminare il profilo d’espressione di un gene o per identificare la presenza di un gene o di una breve sequenza in miscela di migliaia (spesso anche tutto il patrimonio genetico di un individuo umano o non). Un microarray è rappresentato da elementi microscopici su una superficie piana su cui è possibile immobilizzare sia acidi nucleici che proteine capaci quindi di riconoscere e legarsi con 2 Quaderni di Bioinformatica molecole complementari. La tecnologia permette di realizzare, pertanto, sia reazioni di ibridazione, quando si tratti di acidi nucleici, o reazioni immunitarie, quando si tratti di antigeni o anticorpi. Un microarray può essere considerato un potente mezzo diagnostico se presenta quattro caratteristiche standard ossia essere ordinato, microscopico, planare e specifico. Ordinato, significa che gli elementi analitici, detti anche molecole probe o chip o spot, devono essere disposti in modo ordinato e preciso lungo file orizzontali diritte ed incolonnati anche su file verticali perfettamente perpendicolari. I vari elementi devono essere, ovviamente, di grandezza uniforme e separati da spazi uniformi. E' assolutamente necessario che tali elementi siano disposti in maniera ordinata, sia su linnee orizzontali che verticali, perché questo ne facilita la produzione in automazione e, quindi a costi contenuti, ma, ancora più importante, ne facilita e accelera l'esame e l'interpretazione dei risultati. Ogni elemento deve essere uniforme per non rendere ambigua la lettura. Non è ammissibile la se pur minima sbavatura che rischierebbe di contaminare la lettura dell'elemento vicino. Elementi di forma diversa o di diversa densità, anche se contenenti lo stesso numero di molecole, darebbero luogo ad un segnale di diversa intensità, compromettendo la precisione del risultato. Inoltre, ovviamente ogni elemento deve avere una collocazione ben precisa, in base alle sequenze desiderate, di modo che, automaticamente, si sappia che il dato che la macchina legge corrisponda ad un unico e ben preciso probe o spot. La necessità d'assegnare una funzione a ciascuna delle migliaia di geni identificati grazie alla genomica ha reso indispensabile tecniche che permettano l'analisi simultanea di moltissimi campioni. I macro- e micro-array rispondono a questa esigenza. Le due tecnologie, identiche nel principio, differiscono nel numero di geni simultaneamente analizzabili (da qualche centinaia a qualche migliaia per i macro-array; da diverse migliaia a interi genomi per i micro-array) e nel tipo di supporto utilizzato (classiche membrane di nitrocellulosa o nylon per i macro-array; supporti o "chip" in vetro o altro materiale inerte per i micro-array). Corti frammenti di acidi nucleici ("oligonucleotidi" della lunghezza compresa fra poche decine e qualche centinaia di paia di basi) corrispondenti ad un particolare tratto della sequenza dei geni presenti in un particolare tipo di cellula vengono immobilizzati in maniera ordinata e sistematica in punti precisi (o "spot") del supporto prescelto. Il numero di geni rappresentati è quindi funzione della densità degli "spot" genici sul supporto come riportato nella immagine. La tecnologia dei microarray rappresenta un nuovo potente strumento di ricerca. Il suo sviluppo è stato possibile solo grazie all’integrazione di diverse discipline, quali la biologia molecolare, la genetica, le più moderne nanotecnologie, la chimica degli acidi nucleici, i nuovi software, la robotica e l’automazione. Esistono infiniti campi di applicazione per questa nuova tecnologia che spaziano dall’analisi dell’espressione genica, DNA ed RNA microarray, all’analisi delle differenti proteine presenti in differenti tipi di campioni, protein microarray, fino ad arrivare alle applicazioni citologiche ed immunoistochimiche dei Tissue microarray. Classificandoli in base alla metodologia costruttiva, esistono tre tipi principali di microarray: microarray di cloni di DNA: microarray per uso specifico composti di oligonucleotidi oppure di cDNA (ovvero DNA complementare a singola catena ottenuto per clonazione da un campione di mRNA precedentemente isolato); microarray di oligonucleotidi prefabbricati: il posizionamento degli oligonucleotidi è fatto sfruttando l’attrazione elettrostatica esercitata su di loro da parte di microelettrodi; microarray di oligonucleotidi sintetizzati in situ: microarray ad alta densità contenenti oligonucleotidi sintetizzati usando tecniche fotolitografiche o di tipo“ink-jet”. I microarray di cloni sono i più usati e possono analizzare RNA proveniente da due diversi campioni su un singolo chip; le limitazioni derivano dalla disponibilità di cloni e dalla qualità dei campioni di mRNA. Le altre due classi sono anche note come array microindirizzabili e permettono l’analisi dell’espressione di un gran numero di geni contemporaneamente ma possono analizzare un solo campione per chip, con costi considerevoli. È possibile classificare i microarray, in base all’uso che ne viene fatto, in tre categorie: 1. cDNA microarray: per permettere l’analisi su larga scala di un gran quantitativo di mRNA come un indicatore dell’espressione genetica; 2. microarray SNP (“Single Nucleotide Polymorphism”) e array di mutazione: per rilevare polimorfismi o mutazioni in una popolazione usando array SNP o array progettati per rilevare mutazioni conosciute. 3. microarray CHG (“Comparative Hybridization Genomic”): per osservare perdite o guadagni genomici, o un cambiamento nel numero di copie di un gene particolare coinvolto in una malattia. Per quanto riguarda il campo della genomica funzionale i DNA microarray consentono il monitoraggio simultaneo dell’espressione di migliaia di geni, fornendo un preziosissimo ed innovativo strumento ai ricercatori. Prima di analizzare in dettaglio è opportuno 3 Quaderni di Bioinformatica ritornare al lavoro di Schena e Davis che nel 1999 hanno tracciato una serie di 12 regole che devono sempre essere tenute presenti, quando si opera con i microarray per ottenere risultati corretti ed apprezzabili. Le riportiamo in sintesi: 1. Le analisi dei geni devono essere sempre eseguite in parallelo. La valutazione dell'attività dei geni non può essere mai fatta correttamente su supporti solidi ma non paralleli quali il nylon o la nitrocellulosa, che non hanno una superficie piana. Occorre poter operare su una superficie perfettamente piana come quella del vetro o di altro materiale che abbia le stesse caratteristiche. Infatti solo su una superficie perfettamente piana si possono allineare gli spots senza che si creino inaccettabili convergenze che renderebbero impossibile la lettura in automazione o comunque altererebbero i risultati. 2. Le tecnologie di preparazione devono sempre rendere possibile la miniaturizzazione e l'automazione. Tutti i metodi di produzione dei microarray, compresa la fotolitografia o le procedure a getto d'inchiostro, devono tendere a realizzare un prodotto che, comunque, rientri in questi canoni, affinché possa soddisfare la clientela. 3. Ciascun ciclo di analisi dei geni ha cinque fasi evolutive. Come i cicli della vita si ripetono in un divenire sempre identico per cui si ha prima la nascita, poi lo sviluppo, la crescita per finire con la morte, cosi, per l'analisi dei geni si deve procedere attraverso cinque tappe: impostare il quesito biologico, preparare il campione, eseguire la reazione biochimica, raccogliere i risultati, analizzarli per arrivare alla risposta finale. 4. La manipolazione del sistema biologico deve aderire esattamente al quesito biologico. Qualsiasi problema si affronti, sia che riguardi batteri, lieviti, organismi geneticamente modificati, piante, animali bisogna sempre stare molto attenti alle influenze dell'ambiente, alla temperatura, ai trattamenti che si fanno e quindi a tutte le tecnologie che si applicano per evitare che si creino artefatti. Per esempio quando si lavora con le piante bisogna tener presente non solo che la temperatura sia quella giusta, ma anche l'influenza dell'intensità luminosa e la concentrazione del CO2. Con qualsiasi tipo di cellula in coltura, il terreno di crescita, il volume o il tipo di recipiente, l'agitazione e tanti altri fattori possono influenzare l'espressione genica in modo anomalo compromettendo così il risultato finale dell'esperimento. 5. Il campione biochimico deve riflettere esattamente l'esemplare biologico. Bisogna fare in modo che l'isolamento, la purificazione l'amplificazione, la marcatura e qualsiasi altro metodo o tecnologia si applichi non alterino il campione che si desidera analizzare. Tener presente che, specialmente le molecole di RNA, sono suscettibili a rapidi cambiamenti fino alla totale denaturazione da parte di ribonucleasi frequentemente presenti in alcuni ambienti. Anche la marcatura è una fase che può creare problemi se non si sceglie un tipo di tecnica che sicuramente poi dia la esatta misura del campione. 6. Una presentazione parallela deve sempre essere associata a campioni precisi e correttamente dosati. Quindi non solo i probes vanno disposti in piano e su linee parallele per rendere possibile la corretta misurazione dei targets, ma anche essere omogenei e correttamente legati al substrato, altrimenti non vanno usati. 7. Il sistema di lettura deve poter acquisire dati precisi dal posizionamento dei campioni in parallelo. Sia che si tratti di scanners che di imagers la lettura degli spots divenuti fluorescenti si deve poter svolgere in maniera corretta. Quindi bisogna scegliere apparecchi con una buona sorgente luminosa, un 'ottica senza difetti e così per tutti i componenti del sistema di lettura che deve essere in grado di ridurre al minimo sia il rumore di fondo che tutte le eventuali interferenze che possano alterare in qualche modo il segnale. 8. I dati che provengono dal sistema di lettura devono essere manipolati ed elaborati con precise modalità. Occorre poter operare con un potente apparecchio di bioinformatica, completato da un ottimo software, per arrivare a risultati che siano lo specchio del campione biologico sotto esame. Devono essere apparecchi in grado di fornire non solo una serie di numeri corrispondenti all'intensità della fluorescenza dei singoli spots ma anche un'immagine grafica dell'insieme. Solo così si riesce ad avere un quadro completo dell'identità dei targets e delle sequenze depositate ed interpretare correttamente il valore anche di segnali molto deboli. 9. La comparazione dei risultati di due o più esperimenti deve essere sempre soggetta alle limitazioni del caso. Almeno fino a quando non si potrà disporre di standard di riferimento, certamente i dati di analisi genica che si riescono a raccogliere sul singolo vetrino sono certamente più attendibili. I dati ottenibili su vetrini di diversa fabbricazione o l'uso di colori fluorescenti diversi o tecniche diverse possono dare risultati che talvolta non sono facilmente comparabili. 10. Le conclusioni concernenti le relazioni fra i geni (spesso si tratta di grandi numeri) possono essere tratte solo se in un singolo esperimento si prendono in esame tutte le variabili e si arrivi ad una elaborazione statistica adeguata dei risultati. Questo significa che conclusioni riguardanti un determinato processo e concernenti un certo organismo o sistema possono essere significative solo se, nello stesso esperimento, o meglio con un unico vetrino, si prendono in esame contemporaneamente tutti i geni di quel genoma che concernono quel processo. Quindi anche un microarray con 10.000 geni, pur fornendo un enorme quantità di dati, può risultare insufficiente se si vuole approfondire un sistema alla cui attuazione concorrono circa 15.000 geni. 11. L'impostazione analitica deve sempre comprendere tutti gli elementi e le variabili intrinseche ed estrinseche del sistema. Le analisi eseguite con i microarray non devono mai restare in un contesto interpretativo isolato, ma vanno sempre inquadrate in una visione globale del sistema che deve comprendere anche i dati molecolari, biochimici, chimici, fisici, enzimatici nonché le proprietà strutturali sia del gene che i suoi prodotti. Quindi per ogni organismo che interessi, le valutazioni con i microarray possono essere valutate meglio in un contesto globale di altre informazioni che comprendano anche i rapporti gene-gene e proteine-proteine derivate. 4 Quaderni di Bioinformatica 12. L'analisi parallela di un organismo si può considerare completa solo quando in un contesto quadridimensionale sono assemblate tutte le variabili del sistema. Un quadro completo dell'espressione genica di un determinato organismo, si può dire di averlo solo se si conoscono tutte le variabili di ogni gene, in ogni cellula, in ogni fase della vita. Questo significa che l'attività genica cambia continuamente e quindi va sempre studiata come un film in movimento. Applicazioni della tecnologia microarray La tecnologia dei DNA microarray è ancora agli esordi, e sta tutt’oggi crescendo. Le applicazioni di tale tecnologia sono comunque molteplici, dallo studio dei geni coinvolti nell’insorgenza del cancro e di numerose patologie, alla caratterizzazione di pattern metabolici. Gli array sono un importante strumento anche per l’identificazione e la caratterizzazione di nuovi geni. I DNA chips sono stati utilizzati nella diagnosi e nella prognosi delle malattie e nel design di nuovi farmaci [21, 22]. Le applicazioni in campo umano sono innumerevoli soprattutto grazie al fatto che l’intero genoma è stato sequenziato. Una grande limitazione di questa tecnologia, oltre al costo ancora troppo elevato, è infatti la necessità di disporre di sequenze geniche conosciute. Questo pone un enorme freno all’utilizzo e all’applicazione di tali tecnologie in campo veterinario ed alimentare. Infatti il genoma degli animali di interesse zootecnico è ancora per lo più sconosciuto. Campi di utilizzo dei DNA microarray nella ricerca di base e applicata [19]. RICERCA APPLICATA FUNZIONE DEI GENI pathway metabolici analisi di mutazioni RICERCA DI NUOVI FARMACI identificazione e validazione del target ottimizzazione dell'efficacia meccanismo d'azione DIAGNOSI DI PATOLOGIE prognosi e diagnosi classificazione dellle patologie strategie di trattamento CARATTERIZZAZIONE DI SISTEMI COMPLESSI organi e patologie specifiche risposta allo stress invecchiamento VALUTAZIONE DELLA TOSSICITA' tossici e farmaci cibo ambiente A differenza degli array oligonucleotidici ad alta densità, il basso costo e l’alta flessibilità degli gli array a cDNA rendono tale tecnologia molto più adatta alle istituzioni accademiche e alle applicazioni pratiche della tecnologia. È infatti possibile produrre array home made contenenti un limitato numero di geni di interesse al fine di effettuare studi molto mirati ed approfonditi, eliminando anche tutti gli irrisolti problemi di gestione dei dati degli array ad alta densità. Conclusione: Le analisi con i microarray impiegano una miriade di tecnologie e metodi diversi ma sempre bisogna capire bene di che cosa si tratti (What), del perché (Why) e come (How) l'obiettivo possa essere raggiunto nel modo migliore. Storia dei DNA microarray La prima intuizione di tale nuovo metodo di analisi si deve a Mark Schena dell’Università di Stanford, che ne ha fatto cenno ad Amsterdam nel 1994 nel corso del quarto Congresso Internazionale di Biologia Molecolare delle Piante, ma la prima pubblicazione riguardante questa nuova tecnica è dell'anno seguente (Schena et al. 1995). Presso l'Università di Stanford, che ha una lunga tradizione negli studi sugli acidi nucleici, e presso i contigui Laboratori dell’Università di Davis, sono state infatti affrontate le prime problematiche su come fissare sui vetrini microscopiche linee di sequenze di geni delle piante e su come studiarne l'espressione utilizzando campioni di mRNA isolati dalle cellule e coniugati ad un enzima per poter evidenziare poi l'avvenuta reazione con la comparsa di fluorescenza di intensità variabile e quindi misurabile. Quindi i microarray, come i microprocessori, sono nati nella Silicon Valley. Parallelismo, miniaturizzazione ed automazione sono tre aspetti che mettono in luce una certa similarità fra le due tecnologie. In realtà possiamo iniziare la storia dei microarray con il primo semplice esempio di array, denominato “dot blot” per arrivare allo sviluppo dei microarray ad alta densità [1]. L'origine di tale nuova tecnologia va fatta risalire agli esperimenti di Southern che, nel 1975, dimostrò come fosse possibile fissare il DNA ad un supporto solido ed attrarre, in modo specifico, una catena complementare sempre di DNA. Tale processo, poi largamente utilizzato per scopi diagnostici, è noto come “Southern blotting". Le tecniche standard di laboratorio per il rilevamento di specifiche sequenze nucleotidiche utilizzano una sonda (probe) di DNA, costituita da un piccolo frammento di acido nucleico marcato con un isotopo radioattivo o una sostanza fluorescente. La sonda, rappresentante la sequenza complementare a quella del gene da individuare, viene posta in contatto con un supporto solido (ad esempio, un gel od un filtro poroso) sulla cui superficie sono ancorati acidi nucleici provenienti da un dato genoma. Grazie alla peculiarità degli acidi nucleici di riconoscere le sequenze ad essi complementari, la sonda può legarsi in maniera selettiva al frammento ancorato ad essa complementare così che, semplicemente misurando la presenza e la quantità di marcatore legato al supporto solido, è possibile quantificare se e quanto è stato espresso un determinato gene (Southern et al, 1975). 5 Quaderni di Bioinformatica I principi fondamentali dei test di ligazione miniaturizzati di spot paralleli erano già stati descritti da più di un decennio. Roger Ekins e colleghi avevano descritto le ragioni per cui i saggi effettuati utilizzando i microspot erano più sensibili di qualsiasi altro test di ligazione [2-4]. Inizialmente l’elevata sensibilità e l’enorme potenziale delle tecnologie basate sui microspot sono stati dimostrati utilizzando sistemi miniaturizzati per i test immunologici. Tuttavia l’interesse della tecnologia degli “spot” si è presto concentrata sulla creazione dei “DNA chips”. La possibilità di eseguire centinaia di reazioni di ligazione in parallelo in un unico esperimento corrisponde, infatti, alla necessità nella ricerca biologica di un approccio a livello genomico più ampio. Il sogno della sequenza completa del DNA umano (o genoma) nacque praticamente il giorno seguente al quale Sanger scoprì come leggere il DNA. Fu poi Fodor, che nel 1991, fabbricò i primi microarray, combinando il metodo fotolitografico, usato per i semiconduttori, per realizzarne i primi fissando degli oligonucleotidi su superfici di vetro. Avendo intuito l'importanza commerciale che tale tecnologia avrebbe potuto avere, fondò l'Affymetrix che ha avuto il merito di mettere sul mercato i GeneChip, che sono stati i primi vetrini con DNA utilizzabili per tests genetici. Nel 2002 questo sogno divenne parzialmente realtà. Il genoma umano fu dichiarato completamente letto fra squilli di tromba e grandi clamori. Più in piccolo, sotto i titoli, si leggeva che, in fin dei conti, ci si era limitati a leggere il 98% della sequenza eucromatinica, ma tanto bastava. Tutte le regioni del DNA altamente ripetitive, quali per esempio i telomeri (le code dei cromosomi) e i contromeri (il nodo centrale dei cromosomi), non erano assolutamente stati letti. Ciò era dovuto a difficoltà tecniche, queste regioni sono infatti composte essenzialmente da un’infinità di ripetizioni di una piccola sequenza di DNA e contengono pochissimi geni. Spesa totale, circa due miliardi di euro. Molto a prima vista ma, in fin dei conti, con quei soldi oggigiorno ci si comprano un paio di aerei da caccia militari ultimo modello, o un decimo di traforo alpino per i treni ad alta velocità. Soldi ben spesi dopo tutto. Non si sa se gabbati dalle loro stesse parole o semplicemente naif, i ricercatori erano attesi al varco da una brutta sorpresa. Leggere il DNA significa ottenere la sequenza, non riuscire a capirci qualcosa. Ciò che portò un professore dell’onorevolissimo MIT a commentare “abbiamo speso due miliardi per un libro che non sappiamo leggere”. Si fece quindi un serio sforzo per cercare di interpretare quell’immensa massa di dati (quasi 3,2 miliardi di lettere) che era stata generata dal sequenziamento del genoma umano. Oggigiorno questo sforzo è ben lungi dall’essere terminato ma importantissimi passi avanti furono celermente compiuti. Alla fine del 2002 si conosceva in effetti la sequenza di qualche gene. Un’analisi di tutte queste sequenze permise allora di identificare quelli che potevano essere considerati come i caratteri comuni a tutti, o almeno molti, geni. Identificati questi caratteri, furono creati dei programmi informatici (chiamati ab initio) capaci di passare in rassegna l’intero DNA alla ricerca di altri geni. Iniziò allora il valzer delle cifre. Il genoma umano contiene… le ultime stime dicono meno di 25′000 geni. Si era cominciato con più di 150′000… molti altri geni furono in seguito identificati grazie al sequenziamento di RNA. Infine, quando altri genomi furono sequenziati, un confronto fra questi e quello umano permise l’identificazione di numerose regioni del DNA che erano rimaste invariate nonostante il lungo tempo evolutivo che le separava. Molte di queste regioni corrispondevano a geni. Una prima breccia nella comprensione del DNA era stata aperta. Badate bene, si era unicamente riusciti ad identificare i geni. La funzione di questi ultimi restava (e in parte resta ancora oggigiorno) ancora un mistero. Une seconda breccia sarebbe potuta essere aperta se l’espressione temporale e spaziale dei geni fosse stata conosciuta. Per esempio un gene che si esprime a livello del cervello embrionale, probabilmente avrà un ruolo nella formazione di quest’organo durante lo sviluppo precoce. Fu allora che qualcuno ebbe un’idea geniale. Un gene, per essere utilizzato dalla cellula, deve essere fotocopiato in RNA, il quale sarà in seguito tradotto in proteine. Questa tecnica permette di misurare unicamente l’espressione di un gene alla volta, senza garantire per altro una quantificazione precisa dell’espressione del gene studiato (analisi unicamente qualitativa). Riuscire a misurare la quantità di RNA significava riuscire a quantificare l’utilizzo di un dato gene. Una tale tecnica già esisteva con il nome di Northern Blot. Questa tecnica applicata per la prima volta da Ed Southern nel 1975, ha aperto di fatto la strada alla possibilità di analizzare i profili di espressione genica di un intero organismo. Tuttavia, l’applicazione su larga scala di questa metodologia si è avuta solo di recente grazie all’utilizzo di supporti solidi non porosi, come il vetro, e alla messa a punto di tecniche fotolitografiche per la sintesi di frammenti oligonucleotidici ad alta densità spaziale. In particolare, i protocolli sviluppati dal gruppo di Pat Brown a Stanford, hanno permesso di ancorare automaticamente migliaia di catene di cDNA su vetrini da microscopio e, grazie alla loro ibridazione con campioni di mRNA marcati selettivamente con molecole fluorescenti, di studiare il profilo di espressione di colture cellulari in stati fisiologici diversi (Brown e Botstein, 1999). Parallelamente, sono state messe a punto tecniche di mascheramento fotolitografico, normalmente utilizzate nell’industria dei semiconduttori, per la produzione di microarray capaci di 400.000 sonde oligonucleotidiche su una superficie di un pollice quadrato (Lipshutz et al, 1999). 6 Quaderni di Bioinformatica L’idea geniale fu di cercare misurare in un sol colpo l’espressione di tutti i geni conosciuti. Si sapeva da mezzo secolo che il DNA è una doppia elica. Le due eliche, se separate si riassociano spontaneamente riformando sempre le coppie A-T, G-C. Le due eliche, se separate anche molte volte, si riassociano sempre nella stessa posizione. Quest’associazione necessità la presenza delle coppie sopracitate (A-T. G-C) e, nelle giuste condizioni di temperatura, avverrà solo se le due sequenze sono perfettamente complementari. Una corta sequenza di DNA, può dunque essere utilizzata come “sonda” capace di cercare sequenze a lei complementari. Sebbene non si riuscisse a sintetizzare lunghe catene di DNA senza una matrice (una copia già fatta) era possibile sintetizzare brevi sequenze unicamente per via chimica. L’idea fu dunque questa. Sintetizzare migliaia di copie di un frammento di un gene su uno spazio piccolissimo, poi immediatamente a fianco di queste sintetizzare migliaia di copie di un altro gene, fino a produrre un fascio di sonde per ogni gene dell’organismo. Se la sequenza è abbastanza lunga (20-25 lettere) la probabilità che un altro frammento di DNA sia identico è abbastanza bassa. Ad esempio se utilizzassi “nel mezzo del cammin di nostra” (25 lettere spazi esclusi) ognuno di voi saprebbe di che opera letteraria stiamo parlando, senza necessariamente doverla citare per intero. Tornando all’RNA simili sonde furono sintetizzate in griglie finissime. In ogni quadratino della griglia fu inserita una diversa sonda capace di catturare tutti i frammenti di DNA corrispondenti a un dato gene. L’insieme della griglia (contenente circa 25′000 posizioni) è quindi capace di leggere, in un sol colpo, l’intera espressione genica delle cellule studiate. Come detto l’espressione dei geni necessita la trascrizione dei geni in RNA. Avrete magari notato che, quando si parlava delle proprietà di riassociazione delle due eliche, si faceva riferimento al DNA. Perché il sistema sopra proposto funzioni, vi è dunque la necessità di trasformare tutto l’RNA di una cellula in DNA. Come al solito la biologia, quando messa alle strette, si permise un piccolo furto. Esisteva in effetti una proteina virale in grado di copiare l’RNA in DNA. Siccome normalmente accade il contrario (il DNA è fotocopiato in RNA) si battezzò questo meccanismo retrocopia. I virus che possiedono questa proteina sono detti retrovirus, il cui rappresentante più celebre è senz’altro il virus dell’HIV. Riassumiamo quindi la situazione: il sequenziamento del DNA umano aveva messo a disposizioni immense quantità di dati non interpretabili. Le sequenze geniche furono trovate grazie a programmi informatici (lavoro ancora in corso). Misurare l’espressione di tutti i geni poneva però un serio problema. - I geni sono molti. Problema risolto grazie alla griglia finissima. Le sonde capaci di leggere oltre 25′000 geni possono ora raccolte in un centimetro quadrato. - L’RNA pone dei problemi di manipolazione sperimentale. Problema aggirato grazie alla retrocopia dell’RNA in DNA. Restava da aggirare il problema della quantificazione dell’RNA retrocopiato. Ci si risolse a marcare con dei prodotti fluorescenti il DNA retrocopiato. Ecco dunque la procedura sperimentale. Produrre il microarray (il vetrino contenente le sonde). Allo stesso tempo estrarre l’RNA dalle cellule studiate (ad esempio le cellule muscolari). Retrocopiare l’RNA estratto in DNA, approfittare del passaggio per marcare il DNA così prodotto con dei prodotti fluorescenti. Porre l’estratto di RNA retrocopiato sul microarray e portare il tutto alle giuste condizioni di temperatura. Ogni RNA si assocerà quindi alla sua sonda (e se tutto va bene solo alla sua sonda). Misurare la fluorescenza in ogni quadratino della griglia. La quantità di fluorescenza è proporzionale al numero di RNA che si sono associati alle sonde. Confrontare i dati così prodotti con quelli di altri esperimenti per determinare i geni specifici di ogni tessuto. Si noti che la quantificazione della fluorescenza è estremamente precisa, un valore numerico può quindi essere associato ad ogni quantità di fluorescenza (misura quantitativa). Abbiamo detto che la totalità dell’informazione genetica è chiamata genoma. Per analogia, la totalità dell’informazione della trascrizione dei geni (RNA in un dato momento, in un dato tessuto) fu chiamata trascrittoma. Questa è dunque la definizione finale di microarray: Una tecnica capace di misurare in un sol colpo l’intero trascrittoma. Non sempre le migliori idee le hanno le università, non fu il caso dei microarray. Fu un’industria privata, Affymetrix, ad avere per prima l’idea e, logicamente, a ricoprirla di brevetti. La piccola cronaca poi ci rivela che una sbadataggine aziendale fece in modo che i brevetti sui microarray non fossero mai depositati in Islanda, paese in cui nacque Nimblegen, unica ditta oggi in grado di portare un po’ di concorrenza sul mercato. I microarray trovarono immediatamente numerosissime applicazioni. Oggigiorno sono utilizzati non solo per lo studio dell’espressione dei geni nei differenti tessuti ma anche per analizzare la risposta a diversi tipi di stress o la malignità di un tumore (il sistema che permette la migliore valutazione della probabilità di metastasi). Una seconda serie di applicazioni derivò da una peculiarità della tecnologia. Come detto la sonda (nelle buone condizioni) è capace di associarsi alla sequenza complementare solo se la complementarietà è perfetta. Ora esistono numerose differenze genetiche fra 7 Quaderni di Bioinformatica individui (gemelli esclusi) è quindi verosimile che alcune lettere del DNA (nucleotidi) siano differenti fra due individui. In questo caso nessuna fluorescenza dovrebbe essere osservabile nel quadratino della griglia portante le sonde per un dato gene, anche se questo gene è trascritto (a causa della mutazione). Visto che questi cambiamenti affliggono generalmente solo una lettera (nucleotide) vengono detti Sigle Nucleotide Polymorphsm o SNP. L’idea fu la seguente: fabbricare per ogni posizione del DNA quattro sonde identiche in tutto, tranne che per la posizione studiata in cui rispettivamente si inseriscono le quattro lettere del DNA (A, T, G, C). Questo procedimento viene ripetuto per ogni posizione del DNA (3,2 miliardi in totale!). Se questa volta, al posto dell’RNA, associamo alle sonde del DNA precedentemente frammentato e marcato con i colori fluorescenti, ci aspetteremo di osservare per ogni gruppo di quattro sonde un segnale fluorescente proveniente da una o al massimo due sonde. Se l’intero procedimento viene fatto sull’intero genoma è possibile “risequenziare” l’intero DNA di un individuo semplicemente leggendo quale sonda (per gruppi di quattro) offre’ il miglior segnale. Il sistema non è ovviamente perfetto. Gli SNP microarray (single nucleotide polymorphisms SNPs) sono particolari DNA microarray che sono usati per identificare i così detti tratti ipervariabili, ovvero quelle sequenze che variano da individuo ad individuo nell’ambito della stessa specie o in sotto popolazioni isolate geograficamente o socialmente Arrays di oligonucleotide corti sono usati per identificare il polimorfismo di un singolo oligo nucleotide, che si pensano responsabili della variazione genetica e della suscettibilità individuale a manifestare determinate malattie. Se per esempio una regione è estremamente variabile non si osserverà alcun segnale per nessuna della quattro sonde (perché altri SNP sono troppo vicini). Inoltre il metodo non è perfetto, una cospicua percentuale della SNP non è visibile con questo approccio. Infine il DNA si è rivelato più plastico del previsto con larghe regioni del genoma che possono essere duplicate o perse. Queste variazioni del DNA di larga scala non sono ovviamente visibili con questo tipo di microarray (altri microarray sono per altro stati prodotti per mettere in evidenza queste variazioni). Anno Evento 1987 Assegnato brevetto su sequenziamento tramite ibridizzazione (SBH) R.Drmanac, Università di Belgrado Argonne National Laboratory HySeq 1988-1991 Diversi gruppi pubblicano reports sull’SBH E.Southern, Oxford University (Oxford Gene Technolgy) A.Mirzabekov, Engelhard Institute, Mosca Argonne National Laboratory S.Fodor, Affymetrix W.Bains, Bath University 1989 Assegnato brevetto europeo a Southern “Oligonucleotidi arrays as a testing platform” 1993 Assegnato brevetto negli US sull’SHB alla HySeq 1997-1998 HySeq accusa Affimetrix per una violazione del brevetto “non stiamo sequenziando, ma cercando mutazioni” 1998 Procedimenti legali tra Southern e diverse compagnie produttrici di chip. (Affimetrix, HySeq, Hoffman-La Roche, Abbot, etc.) 1998 Brevetto US alla Incyte (Synteni) sulla tecnologia di printing di Microarray con densità superiore a 100 polinucleotidi per centimetro quadrato 1998-1999 Affimetrix ed Incute (ed altri) si accusano a vicenda di violazione di brevetti 2000-2004 Genoma umano intero su uno microarray La battaglia dei brevetti sui gene chip [5] Attualmente sono disponibili dei microarray per il genoma umano e quello dei principali organismi modello, animali e vegetali. Moltissime tecniche derivate hanno a loro volta visto la luce (whole genome tiling path array, CHIP on Chip, ecc.). L’uso di microarray per lo studio del profilo d’espressione genetica è stato pubblicato per la prima volta nel 1995 (Science) e il primo genoma eucariotico completato con analisi di microarray fu quello del Saccharomyces cerevisiae nel 1997 (Science). I primi articoli riguardanti la nuova tecnologia denominata DNA-microarray, in grado di consentire il monitoraggio quantitativo dell’espressione di centinaia di geni simultaneamente, furono pubblicati a metà degli anni novanta da un team di studiosi di diverse discipline della Stanford University [6]. La biologia molecolare, che fino ad allora aveva adottato un approccio riduzionista, ricomincia ora a considerare ogni singolo gene come parte di un sistema più complesso di espressione, che grazie alla nuova tecnologia può essere valutato nella sua interezza. Il rapido progresso nel sequenziamento dell’intero genoma [7, 8], e l’aumentata importanza degli studi d’espressione, accoppiati alle nuove tecnologie di sintesi in vitro di oligonucleotidi, hanno permesso di generare con elevata efficienza migliaia di sonde oligonucleotidiche. Le nuove tendenze tecnologiche nel campo della microfluidica e delle nanotecnologie, i nuovi sistemi di rilevamento e il perfezionamento nella tecnologia dei computer e nella bioinformatica, sono state rapidamente integrate nella tecnologia dei sistemi basati sulla tecnologia microarray. Tutto questo ha portato negli ultimi anni ad un enorme potenziamento di tutte le tecnologie basate sugli array. L’industria elettronica, in cui i microchip in silicio sono stati il soggetto ideale per la miniaturizzazione, ha negli ultimi anni ideato strumenti micro fabbricati che possono realizzare un insieme di funzioni come per esempio preparazione del campione, purificazione, separazioni… 8 Quaderni di Bioinformatica TITOLARI Università della California Governo degli Stati Uniti Sanofi Aventis GlaxoSmithKlein Incyte Bayer Chiron Genentech Amgen Human Genome Sciences Wyeth Merck Applera Università del Texas Novartis Johns Hopkins University Pfizer Massachussetts General Hospital Novo Nordisk Harvard University Stanford University Lilly Affymetrix Cornell University Salk Institute Columbia University University del Wisconsin Massachussetts Institute of technology NUMERO DI BREVETTI 1018 926 587 580 517 426 420 401 396 388 371 365 360 358 347 331 289 287 257 255 231 217 207 202 192 186 185 184 La necessità di manipolare fluidi che si muovono in canali stretti (microfluidica) ha aperto nuove aree di ricerca, ha sviluppato nuovi metodi di fabbricazione per i sistemi fluidici, ha portato alla costruzione di complessi sistemi microfluidici e allo studio del moto di fluidi in canali di piccole dimensioni. Inoltre l’introduzione di tecniche fotolitografiche per la fabbricazione di microsistemi chimici e biochimici, ha incrementato esponenzialmente il numero di applicazioni in tale settore. Particolarmente interessante è la tecnologia MEMS (la sigla MEMS sta per Micro Electro-Mechanical Systems) che applica sullo stesso wafer tecniche di lavorazione usate nella fabbricazione di circuiti integrati per costruire strumenti microscopici elettro-meccanici, come per esempio sensori. La tecnologia MEMS permette di applicare la stessa economia dovuta all’integrazione su piccola scala della lavorazione dei wafer di silicio alla fabbricazione di strumenti meccanici. Per esempio i sensori prodotti usando le tecnologie convenzionali sono costruiti uno per volta, mentre usando la tecnologia MEMS, lo stesso sensore è realizzato in centinaia o migliaia di copie, con prestazioni costanti e basso costo unitario. Una delle applicazioni della tecnologia MEMS con fluidi in movimento è stata la realizzazione di uno strumento in grado di realizzare la “Polymerase Chain Reaction” (PCR) ottenendo uno strumento contenente canali in silicio per i reagenti e il campione, elementi riscaldanti per modificare le temperature durante il ciclo di amplificazione e sensori per il controllo della temperatura. Le piccole dimensioni dei canali permettono l’uso di un minor quantitativo di reagenti e la bassa capacità termica del silicio riduce il tempo necessario per la stabilizzazione delle temperature. Il risultato è che il tempo richiesto per realizzare l’amplificazione del campione con la PCR è ridotto da ore a minuti. L’inconveniente è che, non essendo possibile pulire lo strumento, esso è monouso. Progetto “Lab-on-chip” monolitico della STMicroelectronics. Inoltre sono in fase di studio progetti monolitici che consentono, oltre all’amplificazione, anche il riconoscimento delle sequenze di DNA. Una più recente tecnica, che potrebbe rivelarsi assai promettente, adotta un approccio del tutto diverso per identificare le singole basi che compongono la molecola di DNA. Questa metodica, chiamata “sequenziamento mediante nanopori”, sfrutta le differenze fisiche esistenti fra le quattro basi che compongono il DNA, per produrre un segnale diverso. Come l’elettroforesi, questa tecnica trascina le molecole di DNA verso una carica positiva. Per raggiungerla, le molecole devono attraversare una membrana transitando per un poro con un diametro inferiore a 1,5 nanometri, per cui riescono a passare solo le molecole di DNA a filamento singolo. Quando il filamento transita attraverso il poro, i nucleotidi bloccano temporaneamente il passaggio, alterando la conduttanza elettrica della membrana misurata in picoampere. Le differenze fisiche fra le quattro basi generano blocchi di durata e grado diversi. Questa tecnologia dovrebbe portare ad una notevole riduzione dei costi e a leggere un intero genoma umano in non più di 20 ore. Negli ultimi anni, la tecnologia dei microarray, messa a punto per studiare gli acidi nucleici, si è andata espandendo per analizzare meglio il proteoma delle cellule e le interazioni che avvengono fra le diverse proteine e fra queste e l'ambiente esterno, che sono molto importanti nel determinismo delle malattie e le cui conoscenze certamente faciliteranno la messa a punto di nuovi farmaci. Le proteine sono considerate le più importanti strutture cellulari per il continuo ed intenso lavoro che svolgono sia in stato di benessere che in corso di malattia. Abbiamo visto che, fino a qualche anno fa si credeva che ogni gene codificasse un solo tipo di mRNA e quindi, almeno teoricamente, una sola proteina ed attraverso di essa, impartisse istruzioni alle strutture cellulari e quindi al metabolismo. Oggi sappiamo invece che la realtà è molto più complessa perché ogni gene, con le varianti, può codificare fra 3 e 20 proteine. Quindi per capire come i geni funzionano bisogna arrivare alle proteine che essi esprimono e capire anche come le varie 9 Quaderni di Bioinformatica proteine interagiscono fra di loro. Ne deriva che se è stato molto importante studiare a fondo il genoma è ancora più importante studiare il proteoma, ossia lo sconfinato mondo delle proteine che è molto più complesso, anche perché non statico ma continuamente mutevole in un contesto di reti dinamiche per la continua serie di interazioni che avvengono fra di loro per effetto sia dei processi metabolici sia come risposta agli stimoli ambientali. A differenza del genoma che è costituito da un numero fisso di geni, il livello a cui le proteine cellulari operano è molto dinamico perché le proteine, direttamente sottoposte a tutti gli stimoli dell'ambiente vanno incontro a continue variazioni di adattamento e risposta. Ecco perché è molto difficile determinarne accuratamente l'esatto numero o le quantità presenti nelle cellule viventi. Inoltre le varie famiglie di proteine sono estremamente diverse fra loro sia per le dimensioni delle molecole, sia per la struttura, che per le caratteristiche chimiche e le funzioni. Comunque i microarray con proteine, oltre che in campo terapeutico, possono trovare sempre più ampia applicazione in campo diagnostico specialmente per le malattie infettive di origine virale. Infatti attualmente i metodi più largamente usati per individuare agenti patogeni virali in campioni biologici, sono quelli che si basano sull'immunoenzimatica eseguita in piastrine o su la PCR. Ma i primi hanno una sensibilità che oscilla fra il 70 e 90% ed i secondi hanno un costo elevato che ne limita la diffusione su larga scala specialmente in nazioni del terzo mondo che poi sarebbero quelle che ne avrebbero più necessità. Per la preparazione di microarray dedicati specificamente, le proteine da usare come probe, che qualcuno preferisce chiamare " protein chip " o semplicemente " chip ", possono essere derivate da estratti cellulari oppure sintetizzate mettendo insieme dei peptidi sintetici. Le proteine possono anche essere prodotte in colture di batteri, lieviti, cellule ingegnerizzate di insetti. Tali proteine ricombinanti, sono poi purificate con tecniche diverse e possono diventare un ottimo materiale da immobilizzare sui vetrini come molecole di cattura. I metodi per fissare le proteine sui supporti sono fondamentalmente simili a quelli utilizzati per gli acidi nucleici. Come vedremo, però, produrre microarray con le proteine offre qualche difficoltà in più. Infatti, come primo inconveniente c'è il problema che le proteine sono molto meno stabili degli acidi nucleici perché vanno incontro spesso a processi di ossidazione e di denaturazione. Poi le proteine, quando sono rimosse dal loro ambiente naturale, modificano la loro struttura nativa e quindi anche la forma, talvolta esponendo all'esterno aminoacidi diversi da quelli della forma nativa. Ne deriva che, quando le si va a far reagire, questi aminoacidi esterni, che costituiscono gli epitopi più esposti, possono pregiudicare il risultato della reazione. Sono stati studiati diversi tipi di microarray per le proteine che Dev Kambhampati, nella sua monografia (2004), suddivide così: • • • • • Array con anticorpi: Sono stati utilizzati sia anticorpi policlonali che monoclonali per titolare proteine specifiche in campioni biologici. Si possono considerare dei test immunologici in miniatura. Array con antigeni: E' l'inverso del precedente, perché in questo caso è fissato un antigene sul supporto per titolare il corrispondente anticorpo presente nel campione biologico. Array funzionali: Proteine purificate sono fissate sul supporto per legare altre proteine o DNA o interagire con altre piccole molecole. Array di cattura: Molecole non proteiche ma capaci di legarsi alle proteine sono ancorate alla fase solida. Esempio il Ciphergen Protein Chip. Array in sospensione: E’ un caso particolare che utilizza come fase solida delle microparticelle fornite di qualcosa di simile ad un codice a barre. La tecnologia dei DNA microarray Un tipico esperimento che utilizzi i microarray comprende cinque fasi principali: 1-deposizione degli oligonucleotidi sonda sul supporto rigido; 2-preparazione del materiale genetico da analizzare (compresa la marcatura con molecole fluorescenti); 3- ibridazione dei campioni fluorescenti sul microarray; 4. lettura dei valori di fluorescenza, effettuata tramite apposito scanner; 5. analisi statistica ed elaborazione dei dati ricavati dalle immagini prodotte. I microarray rappresentano un sistema di analisi in parallelo, che velocizza considerevolmente l'esplorazione genomica: permettono, infatti, di esaminare contemporaneamente l'espressione di migliaia di geni o un ampio numero di polimorfismi genetici. Un altro vantaggio è dato dai costi relativamente contenuti se rapportati al numero di geni o polimorfismi analizzabili per esperimento. 10 Quaderni di Bioinformatica I microarray a DNA possono essere definiti come un insieme miniaturizzato e ordinato di frammenti di acidi nucleici derivati da singoli geni e fissati in posizioni prestabilite su un supporto solido, rendendo possibile l’analisi simultanea tramite ibridazione specifica di centinaia di geni [9]. In questi esperimenti, la complementarità delle sequenze porta alla ibridizzazione di due molecole di acidi nucleici a singolo filamento, una delle quali è immobilizzata su una matrice solida [10]. La scelta di quali geni debbano essere rappresentati può variare dalla totalità (interi genomi su un unico vetrino) allo specifico (particolari pathway metabolici, etc.). Esistono di fatto due tecnologie per la produzione di microarrays: la prima denominata a spotting e la seconda detta in situ. Nella tecnologia spotting, le sonde da ancorare al supporto solido, normalmente un vetrino da microscopia, sono sintetizzate a parte e quindi depositate sul supporto. Tali sonde possono essere costituite da molecole di cDNA lunghe alcune migliaia di paia di basi le cui sequenze possono essere ricavate da banche dati genomiche (GenBank, dbEST o UniGene) o da librerie proprietarie costituite da cDNA non ancora completamente sequenziato. Nello studio dell’espressione di organismi eucarioti, le sequenze delle sonde sono normalmente ricavate dalle cosiddette Express Sequence Tags (EST), ovvero dalle porzioni codificanti identificate dai singoli progetti genoma. Tali banche dati contengono, assieme alle sequenze, anche tutta una serie di informazioni bibliografiche necessarie, oltre che per la scelta delle porzioni di DNA da depositare sulla matrice, anche per la successiva valutazione dei profili di espressione. Nel caso dei lieviti o di organismi procarioti le sonde sono generate per amplificazione diretta, con primers specifici, del DNA genomico. Selezionate le sequenze da studiare, il cDNA relativo viene prodotto mediante PCR ottenendo così sonde della dimensione da 600 a 2400 bps. Più recentemente, le sonde che vengono depositate sono rappresentate non tanto da frammenti di materiale genomico ottenuto via PCR, quanto piuttosto da sequenze sintetiche di oligonucleotidi lunghe 5070 paia di basi. Una volta prodotte, le sonde vengono depositate sul supporto solido, in genere costituito da un vetrino. La deposizione è effettuata da sistemi robotizzati che mediante l’utilizzo di pennini prelevano le sonde direttamente dalle piastre utilizzate per la PCR e le depositano sul vetrino formando spots di circa 100-150 µm di diametro, distanziati l’uno dall’altro 200-250 µm. Durante la deposizione, il sistema di controllo del robot registra automaticamente tutte le informazioni necessarie alla caratterizzazione ed alla completa identificazione di ciascun punto della matrice (identità del cDNA, coordinate sul supporto, ecc.). Una volta sul vetrino, il probe viene legato covalentemente ai gruppi amminici del supporto attraverso una reazione innescata dall’irraggiamento con luce ultravioletta, mentre il cDNA in eccesso viene rimosso con semplici lavaggi dell’array. Infine, il cDNA sul supporto viene reso a catena singola attraverso una denaturazione termica o chimica. L’altra tecnica utilizzata per la produzione di microarrays è quella detta in situ che, sviluppata da Affimetrix, è frutto dell’interazione di due tecnologie particolari, la fotolitografia e la sintesi diretta in fase solida di oligonucleotidi. La sintesi delle sonde avviene direttamente sulla superficie del supporto solido. In particolare, il supporto costituito da un wafer di silicio viene funzionalizzato con piccole sequenze di oligonucleotidi (oligo-starter). Questi oligo hanno la caratteristica di avere il gruppo reattivo protetto da gruppi fotosensibili e quindi, grazie ad una maschera fotolitografica, è possibile indirizzare la luce in specifiche posizioni dell’array e liberare i siti necessari per la sintesi della sequenza. Una volta deprotetti selettivamente i siti reattivi, è sufficiente incubare la superficie con desossiribonucleotidi protetti per allungare la catena in fase di sintesi. Ripetendo il ciclo di deprotezione grazie all’applicazione di maschere fotolitografiche diverse e di incubazione è quindi possibile aggiungere nucleotidi diversi in posizioni diverse e sintetizzare tutte le sonde necessarie per l’analisi di un dato genoma. Sono state sviluppate due differenti tecnologie per effettuare l’analisi dell’espressione genica [6, 11]: gli array a oligonucleotidi e gli array a cDNA. Negli array a cDNA, i frammenti di acido nucleico sono spottati con un sistema automatizzato, utilizzando un protocollo messo a punto inizialmente da un team dell’Università di Stanford (http://cmgm.stanford.edu/pbrown/mguide/). Il protocollo per produrre questo tipo di microarray è stato inizialmente sviluppato dal Prof. Pat Brown e colleghi dell'Università di Stanford. La costruzione di questo tipo di microarray consiste nel depositare determinati cloni di DNA o oligonucleotidi in precise zone della superficie di un vetrino per microscopia secondo una griglia prestabilita. Il cDNA utilizzato per lo spot è generalmente derivato da un amplificazione tramite PCR di librerie a cDNA. La tecnologia degli oligo-microarray consiste invece nel sintetizzare direttamente i nucleotidi sulla superficie del vetrino [12]. Esistono due differenti tecnologie per la sintesi degli oligonucleotidi, la tecnologia fotolitografica, che consente la sintesi di corti nucleotidi di 20-25 basi (Affimetrix, www.affimetrix.com) [13] e la tecnologia inkjet (Agilent Technologies, [email protected]) che consente la sintesi di oligonucleotidi più lunghi, 60 basi [14]. Entrambe queste tecnologie sono state inizialmente sviluppate per l’industria dei computer e in seguito adattate alla fabbricazione dei microarray. Esiste inoltre un terzo tipo di array, costituito dallo spot di oligonucleotidi presintetizzati, solitamente tali frammenti sono più lunghi, circa 70 nucleotidi [15]. La lunghezza ottimale della sonda oligonucleotidica fissata al vetrino è tutt’oggi oggetto di dibattito. È importante considerare che all’aumentare della lunghezza della sonda aumenta la specificità della reazione, mentre al suo 11 Quaderni di Bioinformatica diminuire aumenta la sensibilità. È necessario effettuare diverse prove ad ogni esperimento al fine di determinare il giusto equilibrio tra le due variabili. In entrambe le tipologie di array gli acidi nucleici sono disposti ordinatamente utilizzando un sistema automatizzato x-y-z estremamente preciso, in migliaia di spot dal diametro di circa 100 m in un area di pochi centimetri quadrati. Il maggior vantaggio di array così densi, consiste nella richiesta di piccolissimi volumi per l’ibridazione e quindi di pochissimo materiale di partenza per l’analisi. I primi array contenevano meno di un centinaio di geni [6], ma si è presto passati ad array con migliaia di geni [16, 17]. Oggi Affimetrix è in grado di posizionare su un singolo array un numero di sonde pari o superiore al numero totale di geni presenti nel genoma umano e si propone entro pochi anni di creare array con circa 500.000 spot (il genoma umano è costituito da circa 30.000 geni!)[13] Rappresentazione schematica delle due differenti tecnologie. microarray, a cDNA e oligonucleotidiche. [Gibson, 2002 #17] Lo studio dell’espressione genica tramite microarray è basata sul principio dell’ibridazione competitiva di popolazioni di cDNA differentemente marcate. Marcatori fluorescenti, solitamente Cy3 e Cy5, sono utilizzati per distinguere pool di DNA retrotrascritti da differenti campioni. Tali sonde sono posate sui microarray e sono quindi sottoposte ad una reazioni di ligazione secondo i protocolli utilizzati per i Southern Blot. I microarray sfruttano una tecnica di ibridazione inversa, consiste cioè nel fissare tutti i probe su un supporto e nel marcare invece l'acido nucleico target. È una tecnica che è stata sviluppata negli anni '90, oggi permette l'analisi dell'espressione genica monitorando in una sola volta gli RNA prodotti da migliaia di geni. Per studiare gli mRNA, essi vengono prima estratti dalle cellule, convertiti in cDNA, con l’uso di un enzima chiamato transcriptasi inversa e allo stesso momento marcati con una sonda fluorescente. Quando si fa avvenire l'ibridazione fra la sonda presente sulla matrice e il cDNA target, quest'ultimo rimarrà legato alla sonda e può essere identificato semplicemente rilevando la posizione dove è rimasto legato. Il segmento di DNA legato al supporto solido è noto come probe. Migliaia di probe sono usati contemporaneamente in un array. Questa tecnologia è nata da una tecnica più semplice nota come Southern blotting, dove frammenti di DNA attaccati ad un substrato sono testati da sonde geniche aventi sequenze conosciute. I microarray possono essere fabbricati usando diverse tecnologie, come la stampa di micro solchi, con un particolare microspillo appuntito su una lastrina di vetro dove verrà attaccata covalentemente la sonda (probe) di materiale genetico ottenuta per clonazione sfruttando la tecnica PCR; usando maschere preformate da ditte specializzate come ad esempio da Greiner Bio-One. La sintesi in situ di oligonucleotidi presenta un certo numero di vantaggi rispetto a quella precedentemente vista. I prodotti di questa sintesi hanno caratteristiche di omogeneità e alta qualità su tutte le celle che compongono l’array su cui vengono sintetizzati, con varie metodologie, oligonucleotidi diversi. Esistono differenti metodi di posizionamento delle sonde sulla superficie dell’array. Il metodo più conosciuto combina tecniche fotolitografiche usate nell’industria dei semiconduttori a tecniche di sintesi in fase solida, per ibridare direttamente su un wafer di quarzo le sonde oligonucleotidiche di lunghezza desiderata (di solito 25 nucleotidi). Questo tipo di tecnologia è derivata direttamente dagli studi fatti da Foder che ha usato tecniche di fotolitografia per la sintesi chimica in situ di materiale biochimico direttamente su silicio. La fabbricazione ad esempio del Gene Chip Affimetrix parte da un wafer di quarzo di pochi centimetri quadrati. Poiché il quarzo è un materiale idrossilato naturalmente, esso fornisce un eccellente substrato per l’attacco di elementi chimici. Su di esso sono quindi posizionate molecole di collegamento sintetiche (molecole “linker”) modificate con gruppi di protezione rimovibili fotochimicamente che serviranno successivamente per posizionare le sonde sull’array. La distanza fra queste molecole “linker” determina la densità di riempimento delle sonde. Con questo metodo è possibile costruire array con più di 500 mila locazioni (o celle) per le sonde contenute in 1.28 cm2. Ciascuna di queste locazioni contiene milioni di molecole identiche di DNA (diverse per ciascuna locazione). La parte critica di questo processo è il processo di allineamento della maschera con il wafer prima di ciascun passo di sintesi. Per assicurare che questo passo sia accuratamente completato, le tracce di cromo presenti sul wafer e sulla maschera devono essere 12 Quaderni di Bioinformatica perfettamente allineate. Una volta che le locazioni sono state attivate, una soluzione contenente un singolo tipo di desossinucleotidi è gettata sulla superficie del wafer e i nucleotidi si attaccano ai “linker” attivati con un accoppiamento chimico, dando inizio al processo di sintesi. Il processo è efficiente anche se talvolta l’aggancio non è perfetto. In tal caso le sonde con il nucleotide mancante vengono opportunamente “incappucciate” per bloccarne la crescita. Nel passo successivo di sintesi, un’altra maschera è posizionata sopra il wafer per permettere un ulteriore ciclo di deprotezione e accoppiamento. Il processo è ripetuto fino a che le sonde non raggiungono la lunghezza voluta. Sono stati creati opportuni algoritmi che permettono di minimizzare il numero di maschere utilizzate coordinando la crescita delle sonde nelle diverse locazioni, individuando situazioni in cui più maschere possono essere utilizzate nello stesso tempo. Una volta completata la sintesi, i wafer sono tagliati; in funzione del numero di locazioni delle sonde per array, da un singolo wafer, è possibile produrre tra 49 e 400 array. I risultanti singoli array sono quindi inseriti in apposite cartucce in cui può circolare la matrice biologica da analizzare, opportunamente marcata, si tratta sostanzialmente di un sistema chiuso. Esistono anche strategie non proprietarie che consentono il posizionamento del clone nell'esatta locazione sul vetrino da un robot. Il supporto dell’array, che inizialmente era costituito da membrane di nylon o nitrocellulosa, è realizzato quasi esclusivamente con vetrini da microscopio. L’utilizzo del vetro presenta i seguenti vantaggi: - i campioni di DNA possono essere legati covalentemente sulla sua superficie opportunamente trattata (con poly-L-lisina); -è un materiale duraturo che sopporta alte temperature; -è un materiale non poroso e quindi il volume di ibridazione può essere minimizzato consentendo un miglior ancoraggio delle sonde e una minore diffusione del DNA depositato; -come conseguenza della sua bassa fluorescenza intrinseca, esso non da contributi significativi al rumore di fondo durante la rivelazione. CHIMICA DELLE SUPERFICI I primi tentativi di fissare biomolecole su membrane di nylon o cellulosa, eseguiti nel trascorso decennio, puntando all'adsorbimento elettrostatico, hanno portato a risultati molto scadenti. Lo stesso è successo utilizzando superfici a base di poliacrilamide. I primi risultati accettabili si sono avuti ricoprendo le superfici con del destrano carbossilmodificato, trattamenti chimici delle superfici più usati per gli acidi nucleici sono a base di organosilani: sono composti che contengono atomi di silicio che si sono dimostrati molto validi per legare molecole organiche a superfici di vetro. Le molecole utilizzate per fissare alle superfici gli acidi nucleici sono state utilizzate con discreto successo anche per le proteine. La qualità delle superfici ha un' importanza enorme nella produzione di microarray che possano essere usati per eseguire delle analisi ed ottenere risultati riproducibili. Infatti le superfici dei vetrini che si adoperano giocano un ruolo importantissimo nel determinare non solo come le molecole probe ci si attaccano ma anche per far si che le reazioni che ci si svolgono, possano evolvere senza problemi o inconvenienti. Riteniamo pertanto utile elencare le qualità essenziali che microarray ideali dovrebbero avere per poter operare bene: Dimensione. L'ampiezza delle superfici operative dipendono ovviamente dalle dimensioni del supporto. Come già abbiamo accennato, ora si preferisce operare su vetrini porta oggetto le cui dimensioni ottimali sono in larghezza, lunghezza e spessore 25-76-0,94 mm. Tale dimensione standard facilita sia l'automazione della produzione che tutte le fasi operative di utilizzazione che si concludono con la lettura dei risultati. Liscia. La superficie di lettura deve essere omogenea e liscia. Non sono accettabili irregolarità in eccesso o in difetto superiori ai 10 micron. Infatti se la superficie non è omogenea il diametro e la fissazione dei probes o spots non può risultare uniforme né si riesce ad ottener una regolarità delle distanze fra un probe e quelli vicini. Irregolarità della superficie possono creare problemi anche in fase di lettura perché alcuni lettori hanno una profondità focale che non supera i 20-30 micron Planare. Tutta la superficie di 25-76 mm deve essere assolutamente in piano. Dislivelli superiori a 10 micron, per le stesse ragioni riferite in precedenza compromettono sia la produzione che la corretta utilizzazione dei microarray. A riguardo bisogna anche curare il confezionamento degli stessi facendo in modo che vengano evitate manovre che possano determinare alterazioni da torsione. Occorre rendersi conto che lo stesso numero di molecole se disposte su un vetrino che non sia perfettamente in piano o non sia liscio producono un segnale di intensità variabile. Uniforme. L'uniformità dipende dalla regolarità sia atomica che molecolare del trattamento utilizzato per rendere la superficie reattiva. Una superficie si può considerare uniforme se le eventuali variazioni di densità dello strato reattivo non risultino superiori o inferiori del 25% Lo strato. reattivo è costituito da un monostrato, di solito di organosilani, che sono molecole che stabiliscono un legame covalente con il supporto che, in genere è vetro. Su questo strato poi va creato un film di acrilamide, polilisina, o nitrocellulosa che sono molecole capaci di legare i singoli elementi analitici. Nel complesso, quindi, l'uniformità della superficie è molto importante per poter avere microarray affidabili perché capaci di generare segnali che non varino d'intensità per ragioni che nulla hanno a che fare con la specificità della reazione. Stabile. La produzione va curata in modo da ottenere prodotti che, nel periodo di validità che, secondo i tipi può essere variabile, decadano meno del 10%. Devono essere prodotti molto stabili, considerando anche che le tecniche di utilizzazione possono essere diversissime e che alcune utilizzano anche temperature elevate. 13 Quaderni di Bioinformatica Inerte. Premesso che il tipo di vetro che si sceglie deve essere perfettamente trasparente, anche i trattamenti a cui lo si sottopone per poterci fissare poi sopra le molecole dello spot, non devono compromettere tale trasparenza più di un certo livello standard. Inoltre il tutto non deve presentare fluorescenza anomala né avere effetto deviante sulla luce. Efficiente. La capacità di legame, che va misurata empiricamente da caso a caso, deve essere tale da rendere possibile la più bassa concentrazione possibile dei reagenti sia perché sono, di solito, molto cari sia perché così si ottiene la massima efficienza. Per esempio vediamo che, quando si adoperano oligonucleotidi quali molecole spot, la concentrazione ottimale è di 30 µM, e da tale concentrazione non è consigliabile derogare, in eccesso o in difetto, più del 30%. È evidente che questa tecnica richiede apparecchiature robotiche molto sofisticate. Il nucleo dell'apparecchiatura è costituito da una "gruppo scrivente" che preleva uno o più campioni di cDNA mediante l'utilizzo di pennini e li trasferisce su vetrini per microscopio, il movimento è ovviamente controllato da un computer. Durante la deposizione il sistema di controllo del robot registra automaticamente tutte le informazioni necessarie alla caratterizzazione ed alla completa identificazione di ciascun punto della matrice. Una volta che la sonda è sul vetrino si effettua il processing, il passaggio cioè in cui la sonda viene legata covalentemente al supporto attraverso una reazione innescata dall'irraggiamento con luce ultravioletta o incubando il vetrino a 80 °C per 2 h. Infine il cDNA viene reso a singola catena attraverso una denaturazione termica o chimica. Con questa tecnica però era possibile creare solo microarray a bassa densità (ovvero con poche sonde per mm quadrati). I DNA microarray possono essere usati per rivelare RNA che può essere o non essere tradotto in proteine. Questa analisi viene denominata "analisi dell’espressione" o profilo d'espressione. Con la tecnologia dei microarray si possono avere decine di migliaia di risultati in pochissimo tempo. Per questo motivo questa tecnologia ha permesso notevoli accelerazioni in diversi campi di investigazione biochimico e biotecnologico. In questo caso gli oligonucleotidi sono sintetizzati in sito, questa tecnica è stata utilizzata per la prima volta dall'Affymetrix, che ne detiene il brevetto. La tecnica per la produzione di questi chip è detta fotolitografia, con la quale è possibile sintetizzare molte migliaia di differenti oligonucleotidi sulla superficie di un vetrino. Anche se questa tecnica di sintesi è molto accurata, la massima lunghezza degli oligonucleotidi che è possibile raggiungere è di 25 nucleotidi, ma oligonucleotidi di queste dimensioni non sono sufficienti a dare specificità al microarray, per questo servono almeno 3 oligonucleotidi che legano un gene, e altri 3 oligonucleotidi che presentano un mismatch che serviranno da controllo negativo. Per cui le analisi di un singolo gene richiedono lo studio di sei spot che devono avere come risultato: i tre oligonucleotidi corretti, positivi, mentre i tre oligonucleotidi con il mismatch, negativi. Inoltre ogni volta bisogna fare un chip per il controllo e uno del soggetto da analizzare, perché non si può effettuare un'ibridazione per competizione. Sui microarray a bassa densità solitamente si usavano marcatori radioattivi, questo tipo di marcatori però non permettono una risoluzione sufficientemente elevata per i chip ad alta densità, con i quali è necessario utilizzare marcatori fluorescenti. La distribuzione degli spots è indubbiamente una delle fasi più delicate della produzione dei microarray per cui il controllo di qualità è una fase molto importante del processo. Le varie compagnie commerciali hanno risolto i problemi in vario modo, sfruttando l’esperienza accumulata negli ultimi anni. Ma, malgrado l’uso di robot, sempre più sofisticati, si ha un coefficiente di variabilità degli spots che oscilla fra lo 0 ed il 22% ed un C.V. medio del 6,8%. Quando si esegue un esperimento con microarray, e più esattamente, quando si utilizzano le macchine che fanno lo “spots printing”, ovvero si depositano sui vetrini le goccioline o spots dei probes, possono sorgere diversi problemi. Occasionalmente la morfologia degli spots può risultare decisamente alterata nel senso che si verificano delle sbavature perché il gocciolatore o pin è difettoso e lo si può constatare osservandolo al microscopio. Molti ricercatori hanno osservato una alterata morfologia degli spots per disturbi di tensione che si possono verificare sulle superfici dei vetrini specialmente quando si adoperano tamponi a base di fosfati. Se si fa uso di tamponi a base di SSC, tali inconvenienti non si verificano. Altro aspetto della tecnologia che bisogna curare per avere degli spots omogenei, è un adeguato volume di campione presente nei pozzetti in cui il pin va a pescare prima di depositare sui vetrini le goccioline o spots. Un altro inconveniente che, talvolta si può verificare è che il DNA non si fissi bene sul vetrino per cui durante la fase di ibridazione, venga lavato via. Dopo aver eseguito la distribuzione degli spots, un controllo molto semplice lo si può fare alitando sul vetrino in modo da formare sulla superficie un sottile strato di vapore. Gli spots dove il DNA si è legato appaiono più chiari. Altri preferiscono controllare il vetrino sotto il microscopio. Ma un metodo tecnicamente più corretto per valutare il lavoro fatto, che è da molti adottato, è quello di colorare qualche vetrino con un colore fluorescente. Il più usato per tale genere di controllo è il SybrGold della Molecular Probes. Dopo il lavaggio si fa il controllo con uno scanner al laser che permette di valutare sia la morfologia che la quantità di DNA degli spots. Il vantaggio di usare il SybrGold è dato dal fatto che, essendo un colorante non molto invasivo, i vetrini si possono riusare. Cameretta di ibridazione per vetrini di microarray. 14 Quaderni di Bioinformatica Quando si deve valutare l’attività dei geni, si possono, a tal fine, inserire più geni per ogni singolo spot e poi, decodificando l’espressione con metodi matematici, capire se il processo di distribuzione è stato realizzato con una variabilità accettabile (Khan et al. 2003). Una volta che il microarray è stato costruito o comprato e il campione di acidi nucleici da analizzare è stato isolato si fa avvenire la reazione di ibridazione, che permette la formazione degli eteroduplex. Per ottenere dei buoni microarray è essenziale difenderli dall'umidità (se l'ambiente è secco la soluzione evapora, se invece è umido si deposita dell'acqua) e dalla polvere (ogni spot è grande circa 50 micron, un granello di polvere e più grande di 50 micron, per cui può coprire vari spot), per questo motivo esistono delle camere apposite per l'ibridazione dei microarray che vengono sigillate. Dopo l'ibridazione il microarray viene lavato per rimuovere il cDNA che non si è legato. Generalmente il Dna fluorescente dei campioni sperimentali è mescolato con un Dna di un soggetto di controllo marcato con un colorante fluorescente diverso. Per i microarray si usano solitamente Cy3 (che emette una lunghezza d'onda nel campo del rosso) e Cy5 (che emette nel campo del verde). In questo modo se la quantità di RNA espressa da un gene nelle cellule di interesse è aumentata (up regolata) rispetto a quella del campione di riferimento, lo spot che ne risulta sarà del colore del primo fluorescente. Viceversa se l'espressione del gene è diminuita (down regolata) rispetto al campione di riferimento lo spot sarà colorato dal secondo fluorescente. La fluorescenza è rilevata poi grazie ad uno scanner a laser, grazie al quale si acquisisce un'immagine per ogni fluoroforo. Poi vengono usati dei software appositi per convertire i segnali in una gamma di colori dipendente dalla loro intensità. Il segnale rilevato dallo scanner viene poi sottoposto ad altri algoritmi di filtrazione e di pulizia e convertito in valori numerici. Il principale problema dei microarray e la mancanza di standardizzazione, che causa difficoltà nel confronto di dati; inoltre, se oggi con questa tecnica è possibile analizzare i livelli di espressione di un singolo gene ottenendo degli ottimi risultati, la combinazione dello studio di molte migliaia di geni risulta molto complicato e può portare spesso a dei falsi positivi, questo accade anche a causa del fatto che alcuni cDNA possono cross-ibridare altre sonde (che avrebbero dovuto rilevare altri geni). Un altro problema è presentato dai fluorofori, che nonostante siano molto simili fra loro presentano delle differenze problematiche. Esiste una diversa efficienza di fluorescenza tra Cy3 e Cy5 che deve essere standardizzata dai software di rilevazione, inoltre poiché Cy3 è più piccolo di Cy5, c'è un diverso livello di incorporazione del due fluorofori, in quanto la polimerasi presenta più difficoltà a inserire il nucleotide marcato con Cy5 a causa dell'ingombro sterico; come se non bastasse Cy5 si presenta più labile di Cy3, quindi una prima scansione di Cy3 con il laser potrebbe ridurre la fluorescenza di Cy5. Per ovviare a tutte questa problematiche e per creare un minimo di standardizzazione si effettua il dye swap: consiste nel effettuare un secondo microarray scambiando l'uso dei fluorofori. Se nel primo microarray Cy3 è stato usato per marcare il cDNA sperimentale, nel secondo microarray si userà Cy3 per marcare il cDNA del soggetto di controllo, e viceversa per Cy5. I vetrini sono quindi lavati per eliminare le ibridazioni aspecifiche e sono letti con uno scanner laser confocale, in grado di rivelare entrambi i segnali fluorescenti, differenziandoli, producendo un’immagine a 16-bit TIFF per ogni canale. Processori di analisi dell’immagine sono quindi utilizzati per evidenziare ed analizzare i diversi spot. Gli esperimenti effettuati con la tecnologia microarray generano un’enorme quantità di dati, tale da richiedere lo sviluppo di appositi software per l’acquisizione, lo studio e la valutazione dei dati. Nella figura (a) si possono osservare alcuni esempi, cerchiati in azzurro, di riconoscimento grossolanamente scorretto. Nella figura (b) tali errori sono stati corretti manualmente (il cerchio con barra verticale indica che il software considera lo spot assente). Di seguito vengono riportati alcuni esempi, volti alla comprensione delle difficoltà che possono presentarsi nell’ambito della lettura delle immagini. Una volta completata l’ibridazione il microchip viene levato e successivamente eccitato con un laser affinché i marcatori fluorescenti emettano un segnale luminoso. Uno scanner legge l’array illuminando ciascuno spot e misurando la fluorescenza emessa per ciascun colore separatamente, in modo da fornire una misura della quantità relativa di mRNA prodotto da ciascun gene nei due tipi di cellula. L’intensità degli spot verdi misura la quantità di cDNA contrassegnato con Cy3, mentre quella degli spot rossi misura la quantità relativa di cDNA contrassegnato con Cy5. 15 Quaderni di Bioinformatica Queste misure forniscono informazioni sul livello relativo d’espressione di ciascun gene nelle due cellule. Le due immagini monocromatiche (rossa e verde) vengono poi sovrapposte in modo da fornire una visione d’insieme, Così il rosso corrisponde ad un gene molto attivo nella cellula malata e inattivo in quella sana, il nero ad un gene inattivo in entrambe le cellule, il giallo ad un gene ugualmente attivo nei due tipi di cellula, ed infine il verde ad un gene attivo nella cellula sana e inattivo in quella malata. E’ necessario che queste misure vengano aggiustate per considerare un disturbo di fondo causato ad esempio dall’alta concentrazione di sale e detergente durante l’ibridazione o la contaminazione del target o da altri problemi che si possono presentare nell’esecuzione dell’esperimento. L’ibridazione del target alle sonde determina una reazione chimica che viene catturata in un’immagine digitale da uno scanner laser. Il passo successivo è quello di tradurre l’intensità del segnale luminoso emesso da ciascun gene, in un coefficiente numerico. S’intuisce pertanto l’importanza della qualità dell’immagine ai fini di un’accurata interpretazione dei dati. I passi principali delle immagini prodotte sono: grigliatura (gridding) estrazione di intensità segmentazione La grigliatura ritrova nell’immagine la posizione degli spot che corrispondono alle sonde. Essendo nota la posizione degli spot nel microarray, questa operazione non risulta particolarmente complessa, sebbene si renda necessaria la stima di alcuni parametri per tener conto ad esempio di shift (o rotazioni) del microarray nell’immagine o di piccole traslazioni degli spot. L’estrazione di intensità calcola invece l’intensità della fluorescenza rossa e verde, l’intensità del beckground ed alcune misure di qualità. La segmentazione consiste infine nel separare il segnale emesso dai marcatori fluorescenti (foreground) rispetto al disturbo di fondo (background), in modo da isolare le quantità di interesse. Può succedere che questa correzione abbia l’effetto indesiderato di introdurre valori negativi (ciò accade quando l’intensità del background è più forte rispetto a quella di foreground). In tal caso questi spot vengono trascurati oppure il loro segnale è sostituito con un valore arbitrariamente piccolo e positivo. L’enorme numero di geni analizzati dai microarray è il punto più forte, ma anche più debole della metodica. Infatti sono possibili moltissimi errori (importanza di avere campioni replicati), e il trattamento dell’informazione non è banale! Si pensi ad esempio alle sorgenti di variazione dell’espressione genica. Alcune variazioni osservate sono dovute alla risposta differente a condizioni genetiche e ambientali differenti (es. cellule malate vs cellule sane): variazione questa che possiamo considerare interessante. Al fine di rendere comparabili i risultati ottenuti su array diversi o anche all’interno dello stesso array, è necessaria la rimozione di alcune distorsioni sistematiche introdotte nella fase di preparazione dell’array stesso, di esecuzione dell’esperimento, nonché nel processo d ibridizzazione e nella scansione con il laser. La procedura di normalizzazione si riferisce proprio al trattamento statistico dei dati finalizzato alla rimozione di tali effetti distorsivi e i più noti sono: dye-effect (o effetto colore); print-tip (o deposito irregolare); array-effect (o effetto intensità). Ad esempio, un diffuso problema nell’interpretazione dei dati derivanti da microarray, noto come dye-effect, è la diversa intensità di fluorescenza dei due marcatori Cy3 (verde) e Cy5 (rosso), cosicché l’emissione di fluorescenza del verde è sistematicamente meno intensa di quella del rosso. Il modo più immediato per rimuovere questo tipo di distorsione, sarebbe quello di ripetere due volte l’esperimento scambiando l’assegnazione dei marcatori tra i due target, cosa che però renderebbe la tecnica ancora più dispendiosa. Un’altra fonte di distorsione, nota come print-tip, è dovuta alla diversa quantità di materiale genetico (probe) depositata sul vetrino a causa delle microscopiche differenze della conformazione delle puntine del robot che stampa l’array. Infine, il terzo tipo di alterazione, l’array-effect può derivare da differenze di intensità tra un array e l’altro legate a diverse condizioni di preparazione (usura delle puntine, qualità di conservazione e quantità dei reagenti), estrazione (differenti quantità di mRNA usate per creare il target o quantità di marcatore fluorescente), ibridizzazione (cross-ibridation) e scansione (bilanciamenti dei laser, diversi parametri di scansione). 16 Quaderni di Bioinformatica Ai problemi sopra esposti si cerca di dare soluzione mediante il processo di normalizzazione. La normalizzazione prevede che si calcolino fattori di standardizzazione per ciascuno dei tre effetti sopra menzionati. Si tratta di sottrarre al segnale una (i) media generale di array, la (ii) differenza tra le medie degli spot stampati da ciascun print-tip e la media generale, ed infine la (iii) differenza tra la media delle intensità con fluorescenza rossa e verde. Altre variazioni sono introdotte per errore durante la preparazione dei campioni, la realizzazione degli array, il processamento degli array (labeling, ibridizzazione, scannerizzazione) trattasi quindi una variazione oscura che deve essere eliminata attraverso il processo di normalizzazione “Soluzione”: trovare un insieme di geni invarianti cioè tali che: 1) i loro valori di espressione rimangano costanti su tutti gli array 2) i loro valori di espressioni ricoprano l’intero spettro di intensità del segnale osservato. (NB: Il fattore di normalizzazione necessario per aggiustare le intensità basse non necessariamente è uguale a quello utilizzato ad intensità elevate). 3) i rapporti di normalizzazione tra questi geni siano rappresentativi dei rapporti di normalizzazione per tutti i geni. Geni di controllo: geni sintetici a concentrazioni note (3?) Geni housekeeping: geni che sono assunti (in partenza) essere invarianti tra array differenti (1? e 2?) Geni osservati: geni che vengono osservati, secondo qualche metrica, come poco variabili lungo gli array. Tutti i geni: è ragionevole aspettarsi che siano molto pochi i geni che variano a causa di una diversa risposta a condizioni di interesse differenti (più è piccolo il numero di geni che varia, e maggiormente siamo soddisfatti). Quasi tutti i geni dell’array possono essere utilizzati per la normalizzazione quando si può ragionevolmente assumere che solo una piccola porzione di essi vari significativamente la propria espressione da un campione all’altro, oppure che esista simmetria nei livelli di espressione dei geni sovra e sotto espressi. In pratica è però molto difficile trovare un gruppo di spot con un segnale costante su cui trarre un fattore di correzione. Si preferisce quindi, quando il numero di geni differenzialmente espressi è limitato rispetto al numero totale dei geni indagati, usare tutti gli spot dell’array nel processo di normalizzazione dei dati. Il secondo approccio si basa sull’assunto che da proporzione di geni differenzialmente espressi sia un’altra e quindi suggerisce l’uso della restante porzione (housekeeping genes) che si crede abbia un livello di espressione costante nelle due condizioni. Questa piccola porzione di geni però, oltre ad essere difficilmente identificabile, spesso risulta poco rappresentativa rispetto ai geni di interesse essendo costituita per lo più da geni con alto livello di espressione. Il terzo approccio necessita dell’appoggio del laboratorio e prevede di realizzare un microarray per un solo campione di mRNA (prelevato da un’unica cellula) diviso in due porzioni uguali, ciascuna marcata con colori differenti. Trattandosi dello stesso campione di materiale genetico, in seguito all’ibridizzazione si dovrebbe avere la stessa intensità degli spot per il rosso e per il verde: eventuali differenze possono essere usate come fattore di normalizzazione. Un altro trattamento dei dati preliminare all’analisi è la cosiddetta filtrazione. Essa è finalizzata alla riduzione della variabilità e della dimensionalità dei dati Il primo obiettivo viene raggiunto rimuovendo quei geni le cui misure non sono sufficientemente accurate, il secondo con l’imitazione dei geni che prevedono un livello di espressione molto piccolo o negativo (prima o dopo la normalizzazione). In pratica, tutti gli spot la cui differenza tra l’intensità di foreground e quella di background non supera un valore soglia di 1.4 fold (una misura dell’intensità luminosa) vengono eliminati o sostituiti con un valore piccolo arbitrario. Questa procedura è giustificata dall’evidenza empirica che livelli di espressione più piccoli di 1.4 fold sono solitamente frutto di errori di misura. Si noti che qualsiasi operazione di filtrazione introduce arbitrarietà nella scelta delle soglie che determinano se un valore è troppo grande o troppo piccolo oppure se la variabilità delle misure è troppo elevata. L’acquisizione dei dati è solo la parte iniziale della procedura. La parte più complicata è l’elaborazione della enorme quantità di dati generati da questi esperimenti, necessaria per rispondere ai quesiti biologici di partenza. I dati più significativi devono essere poi verificati con altri sistemi (Northern, real time RT-PCR). Selezione dei geni target. Un potenziale problema per la tecnologia dei cDNA microarray è la cross reattività legata ad omologie di sequenza, in particolar modo quando si analizzano famiglie geniche. Generalmente le regioni non tradotte in 3’ rappresentano un target ideale per due principali ragioni: (1) tali regioni sono sottoposte ad una minor pressione selettiva e presentano generalmente una maggiore variabilità, e (2) l’ibridizzazione risente meno dei fenomeni di terminazione precoce della retro trascrizione. Un'altra possibilità consiste nell’aggiungere alla soluzione di ibridazione piccoli oligonucleotidi che rappresentano sequenze altamente ripetute al fine di bloccare le potenziali regioni di crossibridizzazione. Concentrazione del DNA. La concentrazione del DNA varia nei singoli esperimenti e dipende in parte dal livello di espressione del gene target. La concentrazione ottimale generalmente varia tra 0.1 e 0.5 g/l. Vetrini e printing. Sono presenti in commercio diversi tipi di vetrino. Per alcune ragioni esiste una corrispondenza tra tipo di vetrino e protocollo per microarray. Durante la deposizione, l’evaporazione dei campioni di DNA può causare seri problemi a causa della variazione della quantità di DNA, soprattutto se si utilizzano piccoli volumi (20l). Una possibile soluzione consiste nell’utilizzare per il printing un buffer composto al 50% da dimetil sulfossido (DMSO). La concentrazione del DNA, il buffer per il printing e il tipo di vetrino devono essere ottimizzati prima di procedere con la deposizione. 17 Quaderni di Bioinformatica Materiale di partenza. L’integrità e la purezza dell’RNA sono due dei fattori che maggiormente determinano la riproducibilità dell’esperimento. Spesso un RNA di scarsa qualità è dato da un errato trattamento del materiale di partenza. In generale è importante mantenere sempre i campioni in ghiaccio, congelarli appena possibile in azoto liquido e non scongelarli fino al momento dell’uso. Campioni con acidi nucleici La preparazione dei campioni con acidi nucleici utilizza procedure diverse, che variano secondo i casi. Sono tutte abbastanza complesse per cui preferiamo tabularle cosi come sono riferite da Schena (2002). Criteri Tipo indiretta Template -DNA Trascrizione Inversa Diretta RNA RNA Polimerasi diret. o indiretto DNA doppia elica e promotore Procedura Eberwine diretta indiretta DNA doppia elica e promotore Prodotto oligonucleotide Reattivo oligonucleotide fluorescente modificato Interazione T3 o T7 nucleotide T7 RNA polim nucleotide modificato o anticorpo coniugato TSA Ibridazione Ibridazione o piccolo anticorpo Amplificazione Tipo di amplificazione Nessuna Nulla Colore fluorescente BIODIP Processo Cianina Alexa Nulla Modificato TSA Dendrimeri RNA o DNA in dendrimeri nucleotide RNA o DNA con piccola molecola di legame nucleotide modificato modificato modificato o dendrimero Ibridazione piccolo anticorpo Ibridazione nulla, enzim o passiva 100-1.000.000 passiva aumento quantità RNA 100 enzimatica 10-350 passiva Cianina qualsiasi Cianina fino a 3 ore nulla ma l'amplificazione del RNA diversi giorni 3 ore Cianina Alexa 3 ore nucleotide Metodi di marcatura. La marcatura fluorescente degli acidi nucleici è un’altra variabile che influenza la riproducibilità. Vernon et. al. hanno testato la riproducibilità di tre diversi metodi di marcatura e hanno evidenziato come i risultati più riproducibili erano ottenuti effettuando un RT-PCR con 1 g di mRNA utilizzando il sistema SMART (Clontech Laboratories) [18]. Sviluppo di un protocollo di ibridizzazione. Le procedure di ibridizzazione sono legate alla riproducibilità del metodo, è quindi importante ottimizzare tutti i parametri di ibridizzazione, tra cui la concentrazione del campione, forza ionica, temperatura. Non è possibile fornire un protocollo universale, ma è necessario procedere all’ottimizzazione di tutti i parametri per ogni singolo esperimento. Scanning dei vetrini. Dopo il lavaggio finale i vetrini devono essere immediatamente scannerizzati per il canale Cy5 e poi per il Cy3 (Cy5 è più sensibile alla fotodegradazione), inoltre è importante effettuare una calibrazione dello scanner per il fuoco e il segnale. Riteniamo utile completare quanto riferito nella su esposta tabella con qualche altro dato che può risultare utile per interpretarl Trascrizione inversa. E' stato il metodo utilizzato nei primi esperimenti con i microarray. Da questo metodo base sono poi derivate numerose varianti. usando sia RNA cellulari, che sono molto più facili da ottenere, che mRNA. Sono state anche utilizzati diversi tipi di trascriptasi inverse e diversi metodi di purificazione dei campioni. Il principale vantaggio di questo metodo è dato dalla coniugazione diretta che elimina i trattamenti da fare dopo l'ibridazione, che sono sempre ardui e richiedono molto tempo per essere espletati. Lo svantaggio maggiore è data dal fatto che si ottiene un segnale molto meno evidente di quello che si ha con l'approccio indiretto che si giova dell' effetto dell' amplificazione. La trascriptasi inversa è usata per incorporare la biotina o il dinitrofenolo al cDNA, che poi viene ibridizzato su un microarray ed incubato con un anticorpo coniugato alla perossidasi. Il chip, così composto, è trattato con acqua ossigenata per cui la perossidasi ossida il segnale fluorescente della tiramide. Ne deriva un segnale fluorescente molto intenso, fino a 100 volte. E' un segnale, però, che ha un'emivita molto breve. RNA polimerasi. Questo, oltre alle trascriptasi inverse è un altro gruppo di enzimi largamente usati per preparare campioni per microarray. Si tratta di una famiglia di enzimi estratti da virus batterici (T3 e T7), che catalizzano la sintesi del RNA partendo da un DNA a doppia elica, grazie all'azione di promotori specifici. Si tratta di un processo robusto e ad alta resa che da la possibilità di produrre quantità notevoli di RNA, che poi può essere diviso facilmente in piccoli frammenti a livello di oligonucleotidi con possibilità di amplificazione del segnale anche di 100 volte. Bisogna solo stare molto attenti ad evitare l'azione delle ribonucleasi che attaccano facilmente le molecole di RNA. Si consiglia quindi di operare in stanze molto ben pulite, utilizzare guanti di gomma sintetica e, ovviamente, essere certi che reattivi e tamponi siano assolutamente privi di ribonucleasi. 18 Quaderni di Bioinformatica Procedura Eberwine. Si tratta di un metodo molto ingegnoso che si basa sull'uso della RNA polimerasi da T7, che converte mRNA in cDNA con amplificazione, che per ogni procedura è di circa 100 volte e che, alla fine, può arrivare fino a 1.000.000 volte rispetto al materiale di partenza. Pertanto questo è il metodo preferito quando si devono risolvere particolari problemi biologici che non si possono risolvere con altri metodi. Lo svantaggio di questo metodo è che è piuttosto arduo e lungo. Infatti occorrono 2-3 giorni per completarlo e poi si attua attraverso manipolazioni durante le quali non si riesce a seguire cosa stia succedendo, per cui, se ci sono interferenze da reagenti inattivi o da contaminazioni da ribonucleasi, lo si capisce solo alla fine, di fronte a risultati inattesi. TARGET targets sono i campioni da fare interagire. Anche questi devono essere in qualche modo preparati. Per quanto riguarda gli acidi nucleici, spesso occorre fare in modo che il segnale venga amplificato. In tutti i casi, sia per gli acidi nucleici come per le proteine poi è necessario legarli ad una molecola rivelatrice che, per lo più, finora è stato un colore fluorescente. Amplificazione del segnale da tiramide (TSA) La tiramide, in questa procedura, ha la funzione di potenziare il segnale di varie sostanze fluorescenti, come la fluoresceina, la cianina 3 o la cianina 5, per cui si possono realizzare reazioni che portano alla formazione di colori diversi. Dendrimeri. Il termine dendrimero deriva dalle parole greche “dendron” e “meros” che significano rispettivamente “albero” e “parte”. Infatti sono costituiti da ordinati grovigli di monomeri di oligonucleotidi che ricordano la chioma di alberi e che si formano, per processi di sintesi progressivi, anellandosi gli uni agli altri attraverso cicli progressivi che possono arrivare a formare anche molecole di DNA aventi un PM di 12000 e contenenti 36000 basi. Le singole molecole fluorescenti attaccate alle numerose estremità sporgenti o braccia del polimero determinano la comparsa di un segnale fluorescente molto intenso. Un polimero con 300 molecole di colore produce un segnale 300 volte più intenso. Ne deriva che polimeri aventi un diametro di 0,2 micron si vedono anche ad occhio nudo. Nel complesso è una tecnica che, anche se non facile da eseguire, presenta molti vantaggi. Riferimenti 1. Heller, M.J., DNA microarray technology: Devices, Systems and Applications. Annual Reviews of Biomedics Engeneering, 2002. 4: p. 129-53. 2. Ekins, R.P., Multi-analyte immunoassay. J.Pharm.Biomed. Anal., 1989. 7: p. 155-168. 3. Ekins, R.P. and et.al., Multispot, multianalyte,immunoassay. Ann.Biol.Clin., 1990. 48: p. 655-666. 4. Ekins, R.P. and F. Chu, Multianalyte microspot immunoassay. The microanalytical "compact disk "of the future. Ann.Biol.Clin., 1992. 50: p. 337-353. 5. Gabig, M. and W. Grzegorz, An introduction to DNA chips: principles, technology, applications and analysis. Acta Biochimica Polonica, 2001. 48(3): p. 615-622. 6. Schena, M., et al., Quantitative monitoring of gene expression patterns with complementary DNA microarray. Science, 1995. 270: p. 476-470. 7. Lander, E.S. and et.al., Initial sequencing and analysis of the human genome. Nature, 2001. 409: p. 860-921. 8. Venter, J.C. and et.al., The sequence of the human genome. Science, 2001. 291: p. 1304-1351. 9. Arcellana-Panlilio, M. and S.M. Robbins, Cutting edge tecnology. Global gene expression profiling using DNA microarrays. Am.J.Physiol.Gastrointest.Liver Physiol., 2002. 282: p. 397-402. 10. Southern, E., K. Mir, and M. Shchepinov, Molecular interactions on microarrays. Nature Genetics, 1999. 21: p. 5-9. 11. Lockart, D.J., et al., Expression monitoring by hybridization to high-density oligonucleotide arrays. Nature Biotechnology, 1996. 14: p. 1675-1680. 12. Lipshutz, R.J., et al., High density syntetic oligonucleotide arrays. Nature Genetics, 1999. 21: p. 20-24. 13. Haase, B. Applications of affimetrix microarrays in cancer and genotyping. in Understanding the genome: Scientific progress in microarray technology. 2002. Genova, Italy. 14. Cifuentes, F. Characterization and properties of oligonucleotide microarrays produced using inkjet technology. in Understanding the genome: Scientific progress in microarray technology. 2002. Genova, Italy. 15. Schubler, P. New platforms for DNA microarrays: 70mer oligonucleotide probes offer excellent sensitivity and specificity. in Understanding the genome: Scientific progress in microarray technology. 2002. Genova, Italy. 16. DeRisi, J., et al., Use of a cDNA microarray to analyse gene expression patterns in human cancer. Nature Genetics, 1996. 14: p. 457-460. 17. Schena, M., et al., Parallel human genome analysis: microarray-based monitoring of 1000 genes. Proc. Natl. Acad. Sci. USA, 1996. 93: p. 10614-10619. 18. Vernon, S.D., et al., Reproducibility of alternative probe synthesis approaches for gene expression profilig with arrays. J. Mol.Diag., 2000. 2: p. 124-127. 19. Li, X., et al., DNA microarrays: their use and misuse. Microcirculation, 2002. 9: p. 13-22. 20. Firestein, G.S. and D.S. Pisetsky, DNA microarray: Boundless technology or bound by technology? Guidelines for studies using microarray technology. Arthritis & Rheumatology, 2002. 46(4): p. 859-861. 19 Quaderni di Bioinformatica 21. 22. 23. Afshari, C.A., E.F. Nuwaysir, and J.C. Barret, Application of complementary DNA microarray technology to carcinogen identification, toxicology, and drug safety evaluation. Cancer Research, 1999. 59: p. 4759-60. Ulrich, R. and S.H. Friend, Toxicogenomics and drug discovery: will new technologies help us produce better drugs? Nature Rev. Drug. Disc., 2002. 1: p. 84-88 Allen J. F. Bioinformatics and discovery: Induction beckons again. Bioassays 23- 104- 2001 20 Quaderni di Bioinformatica STATISTICA E BIOINFORMATICA Gian Franco Greppi CNBS (Centro NanoBiotecnologie Sardegna) Laboratorio di bionanotecnologie Dipartimento di Scienze Zootecniche, Università di Sassari Scopo della ricerca è di ottenere dei risultati attraverso l’esecuzione di un esperimento e di trarre delle conclusioni dai risultati ottenuti. I test statistici per l’analisi statistica dei risultati si basano in generale sul calcolo di un rapporto tra la variabilità dovuta a quelli che noi chiamiamo fattori sperimentali e la variabilità incontrollata. Come si è visto il nostro scopo è di ridurre il più possibile la variabilità incontrollata, per avere l’evidenza delle differenze dovute ai fattori sperimentali. Per raggiungere questo obiettivo dobbiamo per così dire raffinare la tecnica, e migliorare la qualità del materiale sperimentale e la natura e qualità delle misure che andiamo ad effettuare su quel materiale. Ci si pone quindi l’obiettivo di incrementare l’efficienza di un esperimento, con un piano o disegno sperimentale adeguato. Un piano sperimentale consente di ridurre l’errore sperimentale, in modo che l’influenza dei fattori possa essere stimata con maggior efficienza. Dalla verifica delle ipotesi (che è un processo fortemente interattivo) scaturisce la diagnosi finale e il piano terapeutico. Per porre il problema in termini di evidence based medicine (cioè della medicina basata su prove scientifiche) è necessario focalizzare l’attenzione su alcuni aspetti di queste conoscenze. Ci sono almeno quattro ragioni per cui le conoscenze dirette, quelle che derivano da esperienze non strutturate, sono deboli in rapporto allo specifico problema della terapia: il fattore temporale, la scelta non casuale dei trattamenti, l’effetto placebo, il pregiudizio dell’osservatore. Tutti questi fattori sono "controllati" con opportuni disegni sperimentali. Il design dell’esperimento ed il processamento degli array sono i punti di partenza critici per la riproducibilità e la significatività dell’esperimento. Tali considerazioni sono importanti soprattutto per quanto riguarda la fabbricazione di array a cDNA, sottoposti a molte più variabili degli array oligonucleotidici prodotti a livello industriale. L’analisi dei dati è uno dei maggiori problemi della tecnologia. L’analisi dei dati coinvolge diversi passaggi e poiché non esistono gold standard per ogni passaggio di ogni diverso esperimento i software offrono diverse opzioni. Per processare correttamente i dati è quindi necessario che il ricercatore comprenda tutte le diverse opzioni, per poter scegliere la strategia di processamento dei dati più adatta al disegno sperimentale. La normalizzazione dei dati è il passaggio più critico. È molto importante infine, riuscire a dare un significato biologico ai dati ottenuti. Uno degli approcci più comunemente usati in questo senso è l’analisi dei cluster. È importante standardizzare le procedure di creazione dei vetrini, di ibridizzazione e di analisi dei dati, per poter dare significatività agli esperimenti [19]. Esiste una difficoltà oggettiva nell’analisi dei dati ottenuti dai microarray, per loro natura, questi studi fanno insorgere difficili questioni riguardanti i criteri per giudicare gli aspetti tecnici della ricerca, così come della sua validità scientifica. Per evitare di saltare a conclusioni affrettate e non rispondenti a reali situazioni biologiche, è necessario seguire delle linee guida nella pianificazione dell’esperimento e nell’analisi dei dati ottenuti. La descrizione di tali limiti è stata fatta da Firestein e Pisetsky [20]. L’analisi di DNA microarray propone numerosi problemi di carattere statistico, compresa la normalizzazione dei dati. I targets, ovvero gli acidi nucleici da ibridizzare alle catene di cDNA ancorate al supporto solido, sono normalmente ottenuti dalla marcatura dell’mRNA proveniente da un dato organismo per mezzo di molecole fluorescenti. Probes e targets vengono poi messi a contatto per fare avvenire la reazione di ibridazione e dopo alcuni lavaggi per rimuovere i prodotti aspecifici, l’array viene passato attraverso uno scanner per la misura dei segnali fluorescenti. L’intensità dei pixel di ciascuna immagine è proporzionale al numero di molecole di tracciante presenti sullo spot e quindi al numero di probes che hanno ibridizzato le sonde ancorate al supporto. 21 Quaderni di Bioinformatica Di fatto, livelli diversi di fluorescenza indicano livelli diversi di ibridizzazione e quindi di espressione genica. Il segnale rilevato dallo scanner viene poi sottoposto ad algoritmi di filtrazione e di pulizia del segnale e convertito in valori numerici. In generale, quindi, un esperimento di analisi dei profili di espressione fornisce come risultato una matrice di dati, in cui le righe rappresentano i geni monitorati e le colonne corrispondono alle diverse condizioni sperimentali, quali punti temporali, condizioni fisiologiche, tessuti. Ogni elemento della matrice rappresenta quindi il livello di espressione di un particolare gene in uno specifico stato fisiologico. Ciascuna colonna è data da un vettore che ha tante dimensioni quanti sono i geni o le sequenze immobilizzate sull’array. Questo numero può raggiungere valori notevoli che vanno da circa 6000 per il genoma di un organismo semplice come il lievito di birra, fino a 5 volte tanto qualora si stiano analizzando i profili di espressione di organismi complessi. L'analisi dei dati sperimentali ha, quasi all'improvviso, assunto un ruolo prominente su tutto ciò che riguarda la biosfera. Prima avevamo a che fare con un tipo di ricerca scientifica che metteva insieme un numero relativamente limitato di dati ma, negli ultimi anni, la biologia è esplosa ed è diventata una scienza che genera un'enorme quantità di dati. La gestione e l’interpretazione dell’enorme quantità di dati generata dalle matrici ad alta densità rappresentano un aspetto fondamentale di questa tecnologia. Infatti, la loro applicazione nello studio dei profili dell’espressione genica produce volumi di informazioni tali da limitare l’applicazione delle tecniche modellistiche classiche. Tali tecniche non sono generalmente applicabili in maniera soddisfacente in presenza di sistemi poco caratterizzati e descritti da quantità grandissime di dati. È necessario, quindi, avere a disposizione tutta una serie di tecniche computazionali capaci di gestire ed interpretare questi enormi database nonché di interfacciarsi con gli strumenti bioinformatici per l’analisi funzionale (database mining). Si definiscono tecniche di database mining tutta una serie di strumenti informatici per l’esplorazione e l’analisi di grandi quantità di dati al fine di estrarre motivi caratteristici e persistenti (patterns) e regole. Gli algoritmi che costituiscono il database mining derivano da campi quali la statistica, la pattern recognition, l’intelligenza artificiale e l’analisi dei segnali; essi sfruttano le informazioni ricavate direttamente dai dati per creare dei modelli empirici in grado di descrivere il comportamento di un sistema complesso. Nel caso dei profili di espressione genica, le tecniche di database mining rappresentano un utile strumento per identificare ed isolare particolari pattern di espressione che di fatto rappresentano delle vere e proprie impronte digitali genetiche di un determinato stato fisiologico. L’analisi dei dati degli array di cDNA è normalmente basata sull’uso sinergico di test di ipotesi (hypothesis testing) e di sistemi per l’estrazione della conoscenza (knowledge discovery). I metodi di hypothesis testing sono sostanzialmente degli approcci di tipo topdown con i quali si ricercano nei dati le conferme sperimentali ad ipotesi precedentemente formulate. La knowledge discovery può essere intesa invece come un approccio bottom-up nel quale sono i dati stessi che forniscono le indicazioni necessarie alla formulazione di nuove ipotesi. Un aspetto cruciale dell’applicazione di queste procedure è l’identificazione di tutti quei geni che manifestano un’elevata attività in un determinato stato fisiologico. Questi geni attivi, e le loro relazioni, possono essere identificati attraverso tecniche quali Mean Hypothesis Testing (MHT), Cluster Analysis (CA), Principal Component Analysis (PCA) e Decision Tree (DT). Riproducibilità del metodo. La scelta arbitraria delle soglie di “differenza significativa” spesso non è supportata da informazioni scientifiche adeguate. La variabilità di ogni singolo gene dovrebbe essere calcolata, consentendo appropriati aggiustamenti per evitare di aumentare i tassi di falsi positivi. Se non verranno applicate precise correzioni statistiche, il tasso di falsi positivi, anche utilizzando soglie molto elevate, potrà variare tra il 60 e l’80 % dei geni identificati. Con l’uso di un algoritmo statistico ben definito, basato sulla variabilità interesperimento, questo tasso potrà essere ridotto di circa il 10%. An investigation design graph representing a two-channel experiment with extract pooling and reference RNA. Rayner et al. BMC Bioinformatics 2006 7:489 doi:10.1186/1471-2105-7-489 La mancanza di standardizzazione negli arrays presenta un problema interoperativo nella bioinformatica, che non può far prescindere dallo scambio di dati ottenuti con tale tecnica. Diversi progetti open-source si prefiggono di facilitare l’interscambio di dati ottenuti da arrays. Il "Minimum Information About a Microarray Experiment" (MIAME) XML standard base per la descrizione di esperimenti di 22 Quaderni di Bioinformatica microarray è stato adottato da molte riviste come standard richiesto per l’accettazione di lavori che contengono risultati ottenuti attraverso analisi di microarray. Analisi statistica. La validazione statistica è assolutamente necessaria per affermare con sicurezza che gli aumenti e le diminuzioni di espressione osservati sono realmente significativi. Questo rigore richiede esperimenti multipli e analisi dei dati tramite strumenti statistici standard. Prima di cominciare ad analizzare i dati di un microarray riguardate un DNA, siccome non esiste un metodo statistico in grado di analizzare dati bruti, specialmente se molto complessi, bisogna capire se la distribuzione di tali dati è sufficientemente pulita e per capirlo bisogna cominciare con il porsi due domande: 1-Le variazioni che si apprezzano rappresentano variazioni effettive o sono contaminate da differenze che sono collegabili alla variabilità sperimentale? 2-Ai fini del metodo statistico che si deve utilizzare hanno i dati un andamento approssimativamente accettabile? Se le risposte a queste due premesse non sono positive, tutta l’analisi statistica ne può venire distorta e ne possono derivare risultati non validi. Fortunatamente sono disponibili una varietà di tecniche statistiche che vengono in aiuto che si basano sulla “ normalizzazione” e la “ trasformazione” dei dati (Kalocsal e Shams 2001). La normalizzazione è una speciale forma di standardizzazione che ci aiuta a separare le variazioni vere dalle differenze dovute alla variabilità sperimentale. Infatti è molto probabile che in un processo operativo così complesso, variazioni derivanti dall’evoluzione tecnica di qualcuna delle fasi contamini il risultato finale. Il tipo di vetrino, il metodo di spottaggio, la quantità di DNA, le caratteristiche del colore, il tipo di scanner le caratteristiche del software sono solo alcuni degli aspetti che vanno normalizzati al fine di rimuovere o almeno ridurre quelle differenze che potrebbero contaminare il risultato finale. Uno degli accorgimenti più utilizzati a tal fine è quello di spottare in parallelo per ogni campione il rispettivo controllo, utilizzando anche colori diversi. Per quanto riguarda la trasformazione dei dati la procedura più comunemente utilizzata è quella di utilizzare i logaritmi delle espressioni per equalizzare le oscillazioni sia verso l’alto che verso il basso. Sono operazioni molto complesse che ovviamente oggi si possono affrontare con l'ausilio dei computer e di particolari software. Esistono due tipi di programmi specializzati, che corrispondono alle due fasi dell'analisi. I programmi del tipo EDA (Esploratory Data Analysis) e quelli del tipo CDA (Confirmatory Data Analysis). Comunque questi programmi sono appena sufficienti per essere di ausilio ed integrarsi per la elaborazione dei dati di esperimenti piuttosto comuni. Per casi molto particolari bisogna disporre di programmi opportunamente dedicati che vanno specificamente elaborati, se si vogliono raggiungere risultati ottimali. Per potersi orientare consigliamo di prendere visione dei suggerimenti riferiti nella esauriente monografia di Amaratunga e Cabrera (2004). Ogni studio che utilizzi la tecnologia dei microarray dovrebbe comprendere un numero sufficiente di esperimenti indipendenti per consentire l’analisi dei risultati tramite metodi simili a quelli utilizzati per ogni altro tipo di esperimento. È necessario applicare le opportune correzioni statistiche per considerare confronti multipli. Per esempio, analizzando microarray con 30.000 spot, si otterranno sicuramente almeno un centinaio di geni con differenze significative nei livelli di espressione. Correzioni eseguite tenendo conto di misurazioni multiple sono essenziali per evitare passi falsi nell’assegnare significatività a dati che non ne hanno. Eterogeneità del campione. I rischi nell’interpretazione dei dati ottenuti tramite microarray sono enormemente amplificati quando la tecnologia è applicata a popolazioni cellulari eterogenee. Anche con una popolazione cellulare uniforme può essere difficile utilizzare questa tecnica per validare la significatività di aumenti o diminuzioni dell’espressione genica. Comunque la sfida di analizzare tessuti eterogenei è enorme, se non insormontabile. Cosa impariamo quando l’espressione di un particolare gene aumenta in questo particolare tipo di campione? Questo aumento dei livelli di espressione è dovuto soltanto a differenze nella composizione della popolazione cellulare o è legato a eventi cellulari fondamentali nella patogenesi della malattia? Analizzando il metodo dei microarray pare evidente che, il grande numero di geni presenti in un singolo array pone lo sperimentatore davanti ad un problema di test multiplo: anche se è estremamente raro e casuale ogni gene può dare un risultato falso positivo, un test effettuato su più geni è più sicuro che mostri un andamento scientificamente più probante. Una differenza fondamentale tra i microarray e gli altri metodi di analisi biomedici tradizionali sta nella dimensione dei dati. Studi che contengono 100 analisi per paziente per 1000 pazienti possono essere considerati vasti studi clinici. Uno studio microarray di media vastità comprende diversi migliaia dati per campione su centinaia di campioni diversi. La relazione tra probe e mRNA è molto semplice ma nello stesso tempo complessa. Il probe ha alta affinità con una singola sequenza (quella complementare), ma può legare altre sequenze non prettamente complementari. Ciò potrebbe portare a dati errati. Conferma indipendente dei dati. A causa dei problemi statistici insorti con l’uso dei microarray, è molto importante che le scoperte fatte vengano confermate utilizzando un metodo indipendente, possibilmente con campioni diversi rispetto a quelli utilizzati per i microarray. Però a causa della quantità dei dati ottenuti con i microarray è praticamente impossibile verificare tutti i dati. È comunque fondamentale riverificare un numero adeguato di geni. 23 Quaderni di Bioinformatica IL DISEGNO SPERIMENTALE: CAMPIONAMENTO, PROGRAMMAZIONE DELL’ESPERIMENTO. Nel 1908, presentando la distribuzione t, Student scriveva: “Ogni esperimento può essere visto come un caso di una popolazione di esperimenti, condotti nelle stesse condizioni. Una serie di esperimenti è un campione estratto da questa popolazione”. In questa definizione la popolazione è teorica, come nel modello dell’inferenza statistica, essendo composta da un numero infinito di misure. E’ anche il caso dell’esperienza di Gosset (Student), che effettuava analisi chimiche nella birreria in cui era il responsabile del “controllo di qualità”: ogni campione formato da un gruppo di misure del prodotto poteva essere visto come un caso estratto casualmente da una popolazione teoricamente infinita. Le conoscenze che si richiedono al ricercatore riguardano la pianificazione e la gestione dell’esperimento: 1 - il campionamento, cioè come scegliere le unità dalla popolazione per formare il campione; 2 - il disegno sperimentale, che consiste nello scegliere - (a) i fattori sperimentali che si ritengono più importanti, i cosiddetti trattamenti, la cui analisi rappresenta l’oggetto principale della ricerca, - (b) i fattori sub-sperimentali che in genere rappresentano le condizioni in cui avviene l’esperimento e che possono interagire con quelli sperimentali, - (c) i fattori casuali, che formeranno la varianza d’errore; 3 - la stima della potenza del test, per valutare - (a) quanti dati è utile raccogliere, - (b) quale è la probabilità che, con l’esperimento effettuato, il test prescelto possa alla fine risultare statisticamente significativo. Questi tre campi di conoscenza sono ugualmente necessari. Sono diversi, implicano metodi e concetti statistici differenti, ma sono tra loro strettamente collegati e spesso dipendono l’uno dall’altro. In alcuni testi di statistica applicata si illustrano questi concetti affermando che sono tra loro paralleli. Ma in varie situazioni ambientali e biologiche, la popolazione è concreta e delimitata; pertanto, il problema consiste nel ricavare da essa l’informazione desiderata. Per comprendere più compiutamente le cause e le modalità del disegno sperimentale, (in inglese experimental design, tradotto in modo più efficace con programmazione dell’esperimento), è utile riprendere alcuni concetti, che rappresentano i punti fondamentali dei numerosi argomenti di statistica. Sono anche i punti indispensabili per utilizzare correttamente queste metodologie necessarie per impostare correttamente una verifica statistica e comprenderne la logica scientifica. Il motivo principale del ricorso all’analisi statistica deriva dalla variabilità. A causa di essa, la stima delle statistiche del campione, per conoscere i parametri di una popolazione e per l'inferenza, richiedono l’uso di misure ripetute. Se non esistesse alcuna differenza tra le singole osservazioni, raccolte in natura nelle medesime condizioni oppure sottoposte in laboratorio al medesimo trattamento, basterebbe un solo dato per ottenere indicazioni precise. Invece, con la media, è sempre necessario fornire la misura della variabilità; spesso è la misura più importante. Di conseguenza, servono sempre almeno due dati per ogni situazione sperimentale, se si intende sia ottenere una descrizione che comprenda anche la variabilità, sia attuare confronti con altre medie. Quasi sempre, due dati sono insufficienti. L'esistenza della variabilità impone l'estensione dell'analisi al numero maggiore possibile di oggetti, poiché l'errore nella stima dei parametri è inversamente proporzionale al numero di repliche raccolte. Nell’altro estremo, se si volesse ottenere la misura esatta della media e della variabilità, senza errore statistico, si dovrebbero rilevare tutti gli individui che formano la popolazione. In molte discipline è un comportamento impossibile e quasi sempre non è conveniente: il bilancio tra costi e benefici diventa negativo, con un aumento eccessivo di dati. Come e quanti dati raccogliere è un problema statistico fondamentale, sia nella pratica che nella teoria. Un buon disegno sperimentale e un buon campionamento richiedono scelte razionali, fondate - sia sulla elencazione completa degli obiettivi dell’analisi statistica, che quindi devono essere dichiarati in modo esplicito prima ancora della raccolta dei dati, - sia sulla conoscenza tecnica delle metodologie richieste, che a loro volta dovrebbero essere scelte in questa fase, non a posteriori, dopo la raccolta dei dati. Per essere condotta in modo corretto, una ricerca quantitativa deve raggiungere i tre obiettivi essenziali dell’analisi statistica: - le descrizioni e le inferenze tratte dallo studio di un numero limitato di casi devono essere precise, - estensibili a tutta la popolazione, - con risultati che devono essere pertinenti al problema. Per la loro realizzazione, si deve rispondere a tre quesiti essenziali: - come scegliere gli individui per l’esperimento, - quanti dati raccogliere, - come distribuire le repliche, tra i fattori da analizzare. Nelle differenti discipline e in ogni indagine, la statistica applicata risponde a queste domande in modo diverso, a causa dei seguenti cinque fattori che sono sempre presenti in ogni ricerca: 1 - la differente variabilità del materiale utilizzato, 2 - la specificità delle domande, 3 - la precisione con la quale si desiderano i risultati, 4 - il costo di ogni singolo dato, 24 Quaderni di Bioinformatica 5 - il tempo richiesto dalla loro raccolta. Tuttavia esistono alcuni criteri fondamentali, che è conveniente avere presente nella programmazione e nella conduzione dell’esperimento. Disegno sperimentale e campionamento non sono sinonimi, anche se spesso sono utilizzati come tali. Il disegno sperimentale parte dagli obiettivi della ricerca. Con esso si programma la raccolta dei dati, in funzione dei confronti da effettuare. Per condurre con efficienza, è utile ricordare alcuni principi generali (per questo chiamati decalogo) che andrebbero seguiti in un’indagine statistica, proposti da Roger Green nel suo testo del 1979 (Sampling Design and Statistical Methods for Environmental Biologist, John Wiley & Sons, New York). Queste indicazioni hanno sollevato critiche tra i colleghi, con la motivazione che nella ampia varietà di situazioni presenti in natura non esiste una schema generale e che ogni statistico esperto sa adattare le regole generali alla situazione sperimentale effettiva al suo contesto. Ma queste “regole” sono utili a un ricercatore alle prime armi, che richiede schemi condivisi per gestire la sua ricerca. Soprattutto tali regole possono essere utili agli studenti alla fine del corso di statistica, poiché permettono di comprenderne più compiutamente le logiche e le procedure illustrate, alla luce delle loro applicazioni. Seppure con variazioni non banali che richiedono competenze specifiche, sono generalmente applicabili a quasi tutte le discipline biologiche e a molte ricerche mediche o farmacologiche. 1. Formulare in modo conciso e corretto la domanda alla quale si vuole rispondere. La relazione che si deve presentare sulla ricerca condotta è sempre rivolta ad altri; pertanto, i risultati devono essere comprensibili e coerenti con la domanda. 2. Raccogliere repliche dei campioni entro ogni combinazione di tempo, luogo e ogni altro fattore controllato, poiché nella successiva analisi la significatività delle differenze tra i vari livelli dello stesso fattore dipenderà dalla “varianza entro”. Le repliche devono essere mantenute distinte per tutti i fattori, poiché un loro raggruppamento comporta sempre una perdita di informazioni e rende difficile, a volte addirittura impossibile, il ritorno successivo a una loro distinzione e quindi a un uso corretto, tecnicamente e economicamente redditizio, dei dati raccolti. Può essere produttivo raggruppare i dati. Tuttavia, tale operazione deve avvenire solo dopo la realizzazione delle analisi statistiche programmate a priori. Il raggruppamento dei dati è vantaggioso, quando si vuole estendere il confronto a un’area più ampia o a un livello superiore, allo studio di alcune interazioni, evitando la raccolta di altri dati e quindi un equivalente. 3. E’ conveniente che il numero di repliche, con scelta casuale delle osservazioni entro ogni combinazione delle variabili controllate, sia uguale in ogni sottogruppo. Costruire campioni bilanciati è un accorgimento che permette di ridurre al minimo le varianze d’errore, a parità del numero di dati raccolti. Inoltre è importante la tecnica di rilevazione o la scelta delle osservazioni: scegliere solo campioni ritenuti “rappresentativi” o “tipici” non permette un campionamento casuale e comporta gravi distorsioni nelle conclusioni. L’assunzione di normalità della distribuzione e quella di indipendenza degli errori possono essere violate non solo dalle caratteristiche del fenomeno, ma anche da un campionamento falsamente casuale dei dati. Ma mentre l’allontanamento dalla normalità può essere sanato con una trasformazione che ricostruisca la condizione di validità del test parametrico, il secondo effetto della scelta non casuale, cioè la non indipendenza degli errori che può essere determinata da un campione non rappresentativo della popolazione, genera una situazione che non può più essere corretta. L’unica possibilità è una nuova raccolta di dati. 4. E’ possibile valutare l’effetto di un trattamento solo mediante il confronto con un controllo; soprattutto nelle ricerche di tossicologia o nell’analisi di fattori che operano in condizioni non naturali. Per verificare se una condizione particolare determina effetti differenti, occorre raccogliere campioni sia in casi in cui la condizione analizzata è presente sia in altri in cui essa è assente, a parità di tutti gli altri fattori (ceteris paribus).. 5. Effettuare campionamenti e analisi preliminari, che forniscano le informazioni di base sulle caratteristiche dei dati, per la scelta del disegno sperimentale e dei test statistici da utilizzare. In studi o in ricerche che non siano già ampiamente descritte in letteratura, l’importanza del campionamento preliminare è sovente sottostimata. Spesso le ricerche sono condotte in tempi ristretti ed è psicologicamente difficile spenderne una parte nel campionamento, in operazioni che potrebbero non fornire dati utili per il rapporto finale. Secondo Green, la situazione è simile a quella dello scultore che inizia un’opera senza avere di fronte un modello di riferimento: è alto il rischio di errori non facilmente riparabili e il tempo impiegato diventa in complesso maggiore. 6. Verificare che le dimensioni dell’unità di campionamento siano appropriate al numero di individui, alla densità e alla distribuzione spaziale dei vari organismi che si vogliono analizzare. Il numero di repliche è una funzione della precisione desiderata nelle stime. A tale scopo è importante definire sia l’unità di campionamento che l’elemento del campionamento. Se l’analisi dei dati mostra che la distribuzione degli errori non è omogenea, non è normalmente distribuita o che dipende dalla media, è indispensabile ricorrere alla loro trasformazione o all’uso di test non parametrici; per il tipo di campionamento e la verifica dell’ipotesi nulla, è utile ricorrere ad analisi sequenziali o a dati simulati. Se sono stati scelti il campionamento e i test statistici più adatti per verificare le ipotesi formulate, occorre accettarne i risultati. Un risultato inatteso o non desiderato non è un motivo valido, per rifiutare il metodo seguito e ricercarne uno “migliore”. Ogni indagine statistica porta a una conclusione, che può contenere notizie “buone o cattive”: in altri termini, che possono essere in accordo o in disaccordo con quanto atteso. Ma, se non emerge che sono stati commessi errori gravi, tentare di cambiare la conclusione, con ripetizioni dell’esperimento fino ad ottenere la conclusione desiderata, non modifica la realtà e rappresenta un’alterazione della probabilità calcolata. E’ un errore grave sotto l’aspetto statistico, come evidenzia il principio di Bonferroni nei confronti multipli. 25 Quaderni di Bioinformatica Analisi dei gruppi Partendo da un collettivo multidimensionale, l’analisi dei gruppi mira ad assegnarne le unità a categorie non definite a priori, formando dei gruppi di osservazioni omogenei al loro interno ed eterogenei tra loro. L’obiettivo ultimo è dunque lo stesso dell’analisi discriminante, ma in questo caso non vi sono informazioni sul numero e le caratteristiche dei gruppi nella popolazione. Mentre nell’ambito delle scienze sperimentali i raggruppamenti sono generalmente preesistenti al processo di classificazione e vengono individuati semplicemente assegnando le osservazioni (analisi discriminante), nelle scienze sociali questi sono spesso il prodotto stesso del procedimento di classificazione. L’individuazione delle strutture di raggruppamento insite nei dati corrisponde all’esigenza di agevolare l’interpretazione della realtà fenomenica (momento essenziale del procedimento scientifico). Dal punto di vista applicativo le motivazioni per la definizione di gruppi omogenei all’interno di un collettivo sono molteplici: • Ricerca tipologica o individuazione di gruppi di unità con caratteristiche distintive; • Stratificazione di popolazioni da sottoporre a campionamento; • Definizione di sistemi di classificazione o tassonomie; • Ricostruzione di valori mancanti tramite le informazioni desunte dal gruppo di appartenenza individuato tramite i dati disponibili; • Sintesi delle osservazioni. Fu K. Pearson che affrontò per primo lo studio della classificazione dal punto di vista statistico, sul finire del secolo XIX. Da allora ai giorni nostri gli algoritmi di clustering si sono moltiplicati e differenziati nei diversi ambiti applicativi. In particolare dalla seconda metà degli anni ’50 alcune delle tecniche di raggruppamento hanno ricevuto una più ampia trattazione teorico-metodologica grazie alla corrispondenza con la teoria dei grafi. Successivamente, di pari passo agli sviluppi delle tecnologie di calcolo, si è posta maggiore attenzione agli aspetti algoritmici delle tecniche di raggruppamento. Attualmente disponiamo di molteplici soluzioni alternative per l’analisi dei gruppi. Quasi tutte le tecniche considerano una matrice di dissomiglianza che contiene le informazioni riguardanti il grado di dissomiglianza tra le diverse unità statistiche. La matrice di dissomiglianza può risultare da considerazioni soggettive sulle differenze tra le unità, come da calcoli effettuati sulla matrice dati. In questo secondo caso vi sono diversi criteri a seconda che le variabili rilevate siano, quantitative, qualitative binarie o miste. Esistono molti ambiti di indagine in cui si possono presentare problemi di tipo multivariato, nella genetica (le relazioni filogenetiche tra diverse razze possono essere indagate prendendo in esame le frequenze geniche in determinati loci), nell'alimentazione (l'effetto di una dieta, per esempio, può essere valutato impiegando numerosi parametri fisiologici, fisici e chimici), nella biochimica clinica un soggetto può essere “valutato” attraverso un set di parametri metabolici molto ampio. Nel campo delle scienze veterinarie, ad esempio, le variabili che possono essere rilevate su animali che presentano una determinata patologia sono numerose, ma non tutte sono necessariamente utili per descrivere e diagnosticare correttamente. In tutti i casi in cui le variabili sono numerose e talvolta anche correlate tra loro, l'utilizzo dei metodi multivariati può aiutare a fornire una visione globale del problema, evidenziando le relazioni tra le variabili considerate e l'importanza relativa di ciascuna di esse, e può inoltre mettere in evidenza le relazioni tra i campioni in base alla loro distribuzione nello spazio multi-dimensionale descritto dall'insieme delle variabili. Questi metodi trovano un vasto impiego per la soluzione di numerosi problemi, quali: • esplorazione iniziale dei dati; • evidenziazione dell'esistenza di gruppi omogenei di campioni non classificati a priori (cluster analysis); • formulazione di modelli matematici per la predizione di risposte quantitative (regressione); • formulazione di modelli matematici per la predizione di risposte qualitative (classificazione). Queste tecniche di analisi, pur essendo conosciute da molti anni, non hanno potuto essere impiegate subito su larga scala a causa della complessità dei calcoli che richiedono. Oggi questo problema è stato risolto dal progresso tecnologico, che permette l'utilizzo di numerosi software come SAS, SPSS e SYSTAT consentono di analizzare dati multivariati e sui comuni personal computer forniscono i risultati in tempi ragionevoli. Le procedure multivariate consentono di riassumere in forma sintetica dati complessi e di difficile valutazione o interpretazione. Per comprendere le analisi multivariate è necessario avere una buona conoscenza delle matrici (si rimanda per approfondimenti all’allegato sul calcolo matriciale). Una matrice è rappresentata da una semplice tabella con un certo numero di righe e di colonne; nell’analisi dei dati le righe della matrice sono detti casi od osservazioni, e le colonne sono dette variabili o descrittori. Di seguito è riportata una tipica struttura dati in forma matriciale. Casi ID 1 ID 2 …. ID n Età 38 45 Peso 75 85 Sesso 0 1 Altezza 1.85 1.74 Glicemia 3.12 2.85 AST 45 89 ALT 25 74 CK 85 111 AP 25 42 GGT 15 25 52 71 1 1.65 3.12 100 36 85 19 24 26 Quaderni di Bioinformatica La matrice dei dati può essere analizzata secondo due diverse prospettive, se analizziamo le variabili e le relazioni tra le variabili avremo una analisi di tipo R, mentre se siamo maggiormente interessati alle relazioni tra gli oggetti allora avremo un’analisi di tipo Q o anche definita come di tipo agglomerativo. La maggior parte dei metodi richiede quindi che venga effettuato un pretrattamento dei dati per eliminare l'effetto delle diverse unità di misura e dare a ciascuna variabile lo stesso peso a priori. In assenza di tale trattamento,le variabili espresse da numeri più grandi o che assumono valori in grandi intervalli avrebbero un peso maggiore (ad esempio, maggiore varianza) di variabili espresse da numeri piccoli o definiti in un intervallo di valori limitato. Per evitare che ciò si verifichi, è necessario trasformare tutte le variabili in modo da uniformarne le unità di misura. Il più comune metodo di scalatura è "l’autoscaling", che trasforma tutte le variabili in modo che ciascuna di esse abbia una media uguale a zero e una varianza unitaria. Altri metodi comunemente usati sono la centratura, in cui ciascuna variabile viene centrata intorno al proprio valor medio, e la scalatura di intervallo, in cui ogni variabile viene riscalata tra zero e uno. ANALISI DISCRIMINANTE. L'analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra di loro correlate. I gruppi sono già definiti al momento dell'analisi, pertanto l'interesse è rivolto a definire un modello che consenta di assegnare un nuovo caso ad un gruppo predefinito, in funzione di un certo numero di variabili. Questa analisi è impiegata in medicina, come nel caso di in una serie di pazienti, colpiti da una stessa sindrome morbosa, studiati attraverso una serie di parametri chimico-clinici ai quali vengano accuratamente associati i principali sintomi clinici ed il decorso della patologia. Si suddivide quindi il campione di pazienti studiati in due gruppi: il gruppo di quelli guariti senza postumi e quello dei soggetti che presentano postumi più o meno gravi, una volta guariti. Con l'analisi discriminante è possibile definire un modello matematico che ci consenta di collocare un eventuale nuovo paziente, una volta misurati i parametri clinici, in uno dei due gruppi (con o senza postumi), in modo tale da ottimizzare la terapia proprio in funzione (anche) della prevenzione dei postumi. L’analisi discriminante effettua la comparazione tra gruppi sulla base di un gran numero di variabili e mettendo in luce quelle che rivestono un ruolo nella separazione dei gruppi. Le variabili possono essere anche misurate con unità non omogenee (vedi matrice dei dati precedente), in questo caso le varabili che presentano valori assoluti maggiori possono pesare maggiormente nell’analisi discriminante, pertanto è preferibile ricorrere alla standardizzazione delle stesse utilizzando una notazione come la seguente: Zi = Xi − X d.s. Dove Zi rappresenta la deviazione standardizzata, e d.s. rappresenta la deviazione standard relativamente alla i-ma variabile. Se l’analisi discriminante viene effettuata sulla base delle variabili standardizzate si hanno funzioni discriminanti, se al contrario utilizziamo i valori delle variabili originali si parla di funzioni di identificazione. Le funzioni di identificazione vengono solitamente impiegate nell’ambito degli studi biometrici per distinguere ad esempio sulla base del sesso o per classificare soggetti appartenenti a specie morfologicamente molto simili. Per distinguere tra n gruppi si possono calcolare un certo numero di funzioni (n-1) con una procedura dovuta a Fisher (1936) chiamata linear discriminant analysis. Nell'analisi discriminate si trova una combinazione lineare di variabili che consente di calcolare il coefficiente di discriminazione (D) o funzione discriminante. D = bo +b1x1 +….. bnxn Dove D rappresenta un coefficiente discriminante, bo una costante, xn = n-ma variabile indipendente e bn =n-mo coefficiente della funzione discriminante. Per semplicità considereremo solo il caso della discriminazione fra due gruppi, ma le considerazioni fatte sono estendibili alla discriminazione fra più gruppi. Le funzioni discriminanti sono numerate (1,…., n-1) in base all’ammontare di varianza tra gruppi che viene spiegata. Il metodo di calcolo impiegato per la funzione discriminante è quello dei minimi quadrati, analogo a quello studiato per la regressione lineare multipla, che consente di ottenere, per i valori di D, una variabilità minima all'interno dei gruppi e massima fra i gruppi. Per due gruppi (A, B) essendo k=2 esisterà una sola funzione discriminante i cui coefficienti sono dati dalla risoluzione della seguente equazione: b=X . W dove b o b = b1 . b n 27 Quaderni di Bioinformatica X 1A ∆x = X 2 A X nA − − − X 1B X 2B X nB Dove W = matrice di dispersione, XnA = media della n-ma variabile del gruppo A, XnB = media della n-ma variabile del gruppo B. I valori medi dei coefficienti di discriminazione per i due gruppi sono calcolabili nel seguente modo: DA = b0 + b1 x1A + ..... + bn x n A DB = b0 + b1 x1B + ..... + bn x nB con xnA = media della n-ma variabile indipendente del gruppo A, con xnB = media della n-ma variabile indipendente del gruppo B. Le varianze del coefficiente di discriminazione per i due gruppi sono così calcolabili: S 2 D A = bX A' X A b S 2 D B = bX B' X B b ' X rappresenta la matrice di dispersione del gruppo B. dove X A' X A rappresenta la matrice di dispersione del gruppo A, mentre XB B ASSE DISCRIMINANTE Funzione discriminante. La soglia discriminante deve essere tanto più vicina ad una delle due medie tanto minore è la deviazione standard del gruppo corrispondente, pertanto viene calcolata nel seguente modo: D0 = D A S DB + D B S DA S DA + S DB Pertanto un nuovo elemento (ad esempio un nuovo paziente) viene assegnato al gruppo in funzione della soglia discriminante: se il valore di D è superiore alla soglia viene assegnato al gruppo con la media di D più alta, viceversa se il valore è più piccolo. L'assegnazione di un elemento ad un gruppo può essere effettuata sulla base di una probabilità, in funzione del valore dello scarto standardizzato fra il valore della media di gruppo ed il valore della soglia discriminante, come visto per gli scarti standardizzati della distribuzione di frequenza campionaria normale: per il gruppo A: Z A = D0 − D A S DA per il gruppo B: Z B = 28 D0 − D B S DB Quaderni di Bioinformatica L’insieme degli oggetti appartenenti al medesimo gruppo forma una nuvola di punti che possono essere rappresentati graficamente nello spazio delle funzioni discriminanti. Una misura sintetica per rappresentare il gruppo è quella di determinare la posizione del centroide, che risulta come centro di massa degli oggetti del gruppo: dopo avere calcolato il valore delle funzioni discriminanti per ciascuna delle RK osservazioni che rappresentano il K gruppo, le coordinate del centroide rispetto alla funzione discriminante 1 K D= ∑ Di RK i =1 Dove Di è il punteggio della funzione discriminate calcolato per l’i-esimo caso calcolato. La verifica della posizione dei centroidi dei gruppi studiati può essere valutata con il test lambda di Wilks. Siano date due serie di osservazioni relative a due gruppi di individui, il gruppo A di 5 individui sani ed il gruppo B di 5 individui con iperglicemia. Le variabili misurate sono due la statura ed il peso. GRUPPO A GRUPPO B casi statura (x1A) peso (x1a) statura (x1B) peso (x1b) 1 160 62 155 63 2 170 67 160 70 3 180 71 170 81 4 165 61 150 68 5 175 64 165 75 GRUPPO A GRUPPO B Media statura 170 160 Media peso 65 71.4 dev(x1) 250 250 dev(x2) 66 189.2 codev(x1x2) 105 190 Le statistiche rilevanti per il calcolo della funzione sono: X 1 A − X 1B = 10.0 X 2 A − X 2 B = −6.4 S12 = 62500 S 22 = 31900 S1− 2 = 36875 Sviluppando in forma matriciale avremo: b1 10.0 62500 36875 = b2 − 6.4 36875 31900 b1 0.875 = b2 − 1.213 pertanto la funzione discriminante sarà: D = 0.875 b1 − 1.213 b2 29 Quaderni di Bioinformatica Utilizzando la funzione discriminante è possibile calcolare la statistica descrittiva di D per ciascun gruppo. Così facendo avremo: GRUPPO A GRUPPO B media 69.90 53.39 varianza 16.41 16.61 dev. std 4.05 4.08 Utilizzando la formula per calcolare la soglia discriminante avremo: D0 = D A S DB + D B S DA (69.90 ⋅ 4.08) + (53.39 ⋅ 4.05) = = 61.68 = S DA + S DB 4.08 + 4.05 Calcolando lo scarto standardizzato fra la media di D per il gruppo A o il gruppo B e la soglia discriminante è possibile calcolare la probabilità di una assegnazione errata di un nuovo caso rispettivamente al gruppo A o al gruppo B, pertanto: Z D0 = D0 − D A 69.90 − 61.68 = = 2.03 == S DA 4.05 la probabilità di ottenere un valore pari o superiore a 2.03 è reperibile sulle tavole della distribuzione z ed è pari a 0.021 (2.1%), pertanto sufficientemente bassa e tale da definire la funzione discriminante adeguata. La selezione delle variabili da inserire nella funzione discriminante è effettuabile con metodi analoghi a quelli della regressione lineare multipla. Come nel caso della regressione lineare multipla, il metodo più utilizzato è quello stepwise. L'indice, da minimizzare, con tali metodi, è il lambda di Wilks ( ), definito come: SQ ( entro) λ= SQ (totale) Pertanto il valore di è analogo a R², per quanto concerne la selezione delle variabili in un modello regressivo lineare multiplo. Il cambiamento del valore di F (Fc) dopo l'entrata dell'i-ma variabile viene calcolato nel seguente modo: 1 − λ p +1 n − g − p λp Fc = − g 1 λ p +1 λp dove n = numero dei casi, g = numero dei gruppi, p = numero delle variabili, λp = λ prima della aggiunta della i-ma variabile, λ p+1 = dopo l’aggiunta della i-ma variabile. Una misura della bontà della funzione discriminante trovata è data dal rapporto SQ(tra) che deve essere il più grande possibile. SQ(entro) Usando D è possibile discriminare fra i gruppi, ovvero assegnare un caso nuovo ad uno dei gruppi, tramite la regola di Bayes: P (Gi | D ) = P (Gi | D ) P (Gi ) ∑ P (D | Gi ) P(Gi ) dove: P(Gi) = (probabilità a priori) probabilità che un caso cada nell'i-mo gruppo quando non è utilizzabile alcuna informazione. P(D|Gi) = (probabilità condizionale) probabilità che un caso, con un dato D, possa appartenere all'i-mo gruppo. 30 Quaderni di Bioinformatica P(Gi|D) = (probabilità a posteriori) probabilità che un caso cada nell'i-mo gruppo, considerando tutta l'informazione disponibile. Tale probabilità deve essere la più grande possibile! Nell'ambito dell'analisi discriminante è possibile calcolare anche la correlazione canonica che misura il livello di associazione fra D ed i gruppi ed è data da: SQ (tra ) SQ (totale) Usando il pacchetto statistico SYSTAT, e considerando il classico esempio di Fisher del 1936 dove si hanno i dati relativi a 150 fiori che possono essere classificati come appartenenti alle specie Setosa, Versicolor e Virginia (in questo caso le variabili sono state codificate come 1, 2, 3); la finalità dell’analisi statistica è quella di trovare una combinazione lineare per le quattro misure che consentano di classificare correttamente le tipologie dei fiori su cui sono state realizzate le misure della lunghezza e della larghezza dei sepali e dei petali. I principali passaggi dell’analisi discriminante sono sintetizzabili nei seguenti punti: 1-Calcolo dei coefficienti delle funzioni discriminanti (utilizzabili per la caratterizzazione dei Gruppi 1, 2 e 3 tramite le seguenti variabili: SEPALI lunghezza, SEPALi larghezza, PETALI lunghezza, PETALI larghezza). 2-Calcolo dei coefficienti di correlazione fra le singole variabili e le funzioni discriminanti (maggiore è il coefficiente, maggiore è il peso di una data variabile nell'ambito della funzione). 3-Calcolo dei coefficienti delle funzioni classificanti. Applicando i seguenti coefficienti alle varie osservazioni è possibile ottenere delle funzioni classificanti che servono per attribuire il caso ad un dato gruppo in funzione del valore maggiore calcolato. Plot della matrice dei dati di iris. Nel primo riquadro vengono riportate le frequenze riscontrate relativamente a ciascun gruppo. Se in alcuni gruppi il codice della specie è assente i dati delle frequenze non vengono calcolati per quel dato campione. Frequenze osservate Setosa Versicolor Virginica 50 50 50 Per ogni coppia di variabili viene calcolato il valore del test F di Fischer: questi valori sono proporzionali alle misure della distanza e vengono calcolati sulla base del valore di D2 di Mahalanobis. 31 Quaderni di Bioinformatica Valori medi Variabile Setosa Versicolor Virginica Sepali Lunghezza 5.006 5.936 6.588 Sepali Larghezza 3.428 2.770 2.974 Petali Lunghezza 1.462 4.260 5.552 Petali Larghezza 0.246 1.326 2.026 Variabile Setosa Versicolor Virginica Sepali Lunghezza 5.006 5.936 6.588 Sepali Larghezza 3.428 2.770 2.974 Petali Lunghezza 1.462 4.260 5.552 Petali Larghezza 0.246 1.326 2.026 Si osserva ad esempio che le specie Versicolor e Virginia sono vicine (105.3), mentre le specie di Setosa e Virginia sono relativamente distanti tra di loro (1098.3). Variabile Setosa Versicolor Virginica Setosa 0.0 Versicolor 550.189 0.000 Virginica 1098.274 105.313 0.000 Wilks' lambda Lambda =0.0234 G.L.=4,147,Approx. F=199.1454 G.L.= 8,288 prob =0.00. Nel confronto di coppie non è consigliabile l’utilizzo del valore di F poiché esistono problemi legati alle simultanee interferenze. (Matrice F tra gruppi G.L.=4, 144) Variabile Sepali Lunghezza Sepali Larghezza Petali Lunghezza Petali Larghezza G.L. 2 3 4 5 F-to-remove 4.72 21.94 35.59 24.90 Tolleranza 0.347993 0.608859 0.365126 0.649314 L’impiego del valore di F to remove consente di determinare l’importanza relativa della variabile inclusa nel modello. I gradi di libertà per ogni F rappresentano il numero dei gruppi meno 1 e al denominatore sono dati dal totale degli oggetti –il numero dei gruppi – numero delle variabili nel modello +1. Nel nostro caso 3-1, e 150 - 3 –4 +1, quindi 2 e 144. Funzioni di Classificazione CONSTANTE Setosa -86.308 Versicolor -72.853 Virginica -104.368 Variabile Setosa Versicolor Virginica Sepali Lunghezza 23.544 15.698 12.446 Sepali Larghezza 23.588 7.073 3.685 Petali Lunghezza -16.431 5.211 12.767 Petali Larghezza -17.398 6.434 21.079 Matrice di classificazione (casi nelle righe classificati nelle colonne). Variabile Setosa Versicolor Virginica % corretti Setosa 50 0 0 100 Versicolor 0 48 2 96 Virginica 0 1 49 98 Totali 50 49 51 98 Al termine del processo di classificazione, il risultato da noi ottenuto può essere valutato dall'analisi di una tabella, detta "matrice di confusione" o "matrice di classificazione", nella quale sono visibili gli oggetti realmente appartenenti a ciascuna classe (classe vera) e gli oggetti assegnati a ciascuna classe dal modello (classe assegnata). Nelle tabelle di classificazione, ogni caso viene classificato sulla base delle funzioni di classificazione sopra riportate. Per esempio per la specie Versicolor vengono classificati 48 fiori correttamente, mentre 2 fiori non sono classificati in questa specie. I risultati che appaiono in questa tabella sono considerati ottimisti in quanto gli stessi casi vengono utilizzati per classificare e per calcolare le funzioni discriminanti. Un rimedio è possibile utilizzando la matrice di Jackknifed che utilizza una funzione ricavata da tutti i dati con esclusione dei dati del caso da classificare. Questo sistema rappresenta una cross-validation. Matrice di classificazione di Jackknifed 32 Quaderni di Bioinformatica Variabile Setosa Versicolor Virginica % corretti Setosa 50 0 0 100 Versicolor 0 48 2 96 Virginica 0 1 49 98 Totali 50 49 51 98 I parametri di valutazione dei modelli di classificazione sopra descritti si riferiscono solo all'insieme di oggetti esaminati e sono una misura della capacità descrittiva del modello. Nell'analisi di classificazione è invece importante valutare anche l'affidabilità del modello per fini predittivi. Per conoscere le capacità predittive del modello si può utilizzare il metodo della validazione incrociata (crossvalidation), che ripercorre tutte le tappe precedenti ricalcolando il modello con l'esclusione di un oggetto alla volta (metodo leave-oneout) o di un oggetto ogni k oggetti (leave-more-out), predicendo i valori della risposta per tutti gli oggetti esclusi dal modello. La prima variabile canonica è una combinazione lineare tra le variabili che meglio discrimina i gruppi, la seconda è ortogonale alla prima e rappresenta la migliore combinazione tra le variabili. Dai nostri dati osserviamo il valore di 32.192 che risulta molto elevato relativamente al secondo ed indica come la prima variabile possa assorbire le differenze tra i gruppi. Se osserviamo la dispersione cumulativa, la variabile canonica spiega circa il 99%. Le correlazioni canoniche tra la prima variabile canonica e il set delle variabili definite dummy è molto elevata (Il numero delle variabili dummy è dato dal numero dei gruppi meno 1). Eigenvalues Correlazioni Canoniche Dispersione cumulativa 32.192 0.985 0.991 0.285 0.471 1.000 Wilks' lambda=0.023 Approx. F=199.145 G.L.= 8,288. p-tail= 0.0000, Pillai's trace=1.192 Approx. F=53.466 G.L.= 8,290. p-tail= 0.0000, Lawley-Hotelling (traccia) = 32.477 Score canonico Variabile 1 2 Setosa 7.608 0.215 Versicolor -1.825 -0.728 Virginica -5.783 0.513 Le variabili canoniche sono alla fine valutate a livello di media di gruppo, a livello operativo rappresentano le coordinate x e y necessarie a costruire il grafico dello Score. In tale grafico vengono riportate le singole osservazioni, e un elisse di confidenza viene costruito con centro sul centroide del gruppo. Canonical Scores Plot 10 5 FACTOR(2) VERSICOLOR 0 VIRGINICA -5 -10 -10 SETOSA -5 0 FACTOR(1) 5 10 Rappresentazione grafica di analisi discriminante. VIRGINICA 50 49 SETOSA VERSICOLOR 48 -10 -5 0 5 10 FATTORE 1 Distribuzione dei gruppi rispetto al primo fattore. I metodi per la visualizzazione dei risultati dell’analisi discriminante sono diversi e possono offrire elementi utili per la comprensione della complessità del data set. 33 Quaderni di Bioinformatica Un sistema per calcolare i coefficienti della funzione discriminante, considerando quale esempio il caso di due gruppi e tre variabili discriminati, è il seguente: 1.si definiscono le matrici di devianza-codevianza (matrici di dispersione) per ogni gruppo, in maniera analoga a quanto fatto con il metodo semplificato di calcolo dei coefficienti di regressione lineare multipla: per il gruppo A: per il gruppo B: x1 A x2 A x3 A x1 A dev(x1A) cod(x1Ax2 A) cod(x1Ax3A) x2 A cod(x2Ax1A) dev(x2A) cod(x2Ax3A) x3 A cod(x3Ax1A) cod(x3Ax2A) dev(x3A) x1 B x2 B x3 B x1 B dev(x1B) cod(x1Bx2 B) cod(x1Bx3B) x2 B cod(x2Bx1B) dev(x2B) cod(x2Bx3B) x3 B cod(x3Bx1B) cod(x3Bx2B) dev(x3B) dev(x1) cod(x1x2 ) cod(x1x3) cod(x2x1) dev(x2) cod(x2x3) cod(x3x1) cod(x3x2) dev(x3) 2) viene creata la matrice delle medie aritmetiche di ogni elemento delle precedenti matrici: 3) viene calcolata la differenza fra le medie delle variabili fra i due gruppi: X 1 = X 1A − X 1B X 2 = X 2 A − X 2B X 3 = X 3A − X 3B 4) viene definito il sottostante sistema di equazioni lineari, la cui risoluzione con la regola di Cramer consente di ottenere i coefficienti cercati: dev(x1) cod(x1x2 ) cod(x1x3) = x1 cod(x2x1) dev(x2) cod(x2x3) = x2 cod(x3x1) cod(x3x2) dev(x3) = x3 5) sostituendo alle variabili il loro valore medio è possibile calcolare i valori medi di D per i vari gruppi: D A = bo + b1 X 1 A + b2 X 2A D B = bo + b1 X 1B + b2 X 2B 6) viene quindi calcolata la soglia discriminate fra i due gruppi: D AS B + D B S A S A + SB Sono necessarie alcune raccomandazioni necessarie per l’impiego corretto dei metodi multivariati, per primo dobbiamo considerare che l’analisi multivariata si basa su due assunti relativamente alla struttura dei dati. Il primo assunto prevede che i dati siano tratti da variabili che presentano una distribuzione multivariata normale, secondo assunto è quello relativo alle covarianza che devono esser uguali in tutti i gruppi. Per quanto attiene la normalità questa viene testata separatamente per ogni variabile. Per la verifica della uguaglianza della covarianza si impiega il test di M Box. Una ulteriore precauzione deve essere presa nell’analisi della matrice di correlazione entro gruppi delle variabili per verificare l’esistenza di relazioni di indipendenza tra le stesse; se la correlazione tra variabili è molto alta, allora alcune possono esser spiegate da una combinazione lineare delle stesse. Una misura del grado di D0 = 34 Quaderni di Bioinformatica associazione lineare delle variabili è rappresentata dal grado di tolleranza, dove minore è la tolleranza maggiore è il grado di dipendenza. CLUSTER ANALYSIS. Come l'analisi discriminante la Cluster Analysis classifica i casi in categorie. Comunque mentre l'analisi discriminante richiede la conoscenza preventiva della classificazione in modo tale da derivarne una regola classificativa, la Cluster Analysis consente di classificare i casi in categorie non precedentemente conosciute. Lo scopo dell’analisi di agglomerazione è quello di suddividere un campione multivariato in gruppi di casi omogenei, si tratta solitamente di mettere ordine ai dati; per questo motivo esistono diversi metodi per mettere in ordine una serie di dati e molte volte è richiesta una certa dose di soggettività. Si consideri ad esempio che il programma cluster di Systat prevede tre procedure di clustering ognuna delle quali prevede una numerosa serie di opzioni. Esistono poi i metodi di overlapping che prevedono che un oggetto possa essere presente in più di un clustering o se si adotta un sistema esclusivo il cluster compare una sola volta. La letteratura sui cluster è ampia e molte volte induce in errore poiché contiene definizioni diverse per termini che sono dei sinonimi. CLUSTER GERACHICO- Mc Quitty 1960. SINGLE LINKAGE CLUSTERING– Sokal et Sneath 1963. JOINING CLUSTER– Hartigan 1975. Il metodo maggiormente utilizzato nella rappresentazione è il cluster di tipo gerarchico ed ha rappresentazione ad albero dove la lunghezza dei rami rappresenta la similarità tra gli oggetti. Per questa analisi è molto importante scegliere accuratamente le variabili da considerare, poiché l'esclusione di variabili importanti potrebbe comportare l'assoluta inesattezza dei risultati analitici. I metodi di cluster analysis presuppongono quindi che non esistano classi stabilite a priori ma, al contrario, hanno come obiettivo quello di ricercare l'eventuale esistenza di raggruppamenti "naturali". L'esistenza dei gruppi viene valutata in base alle caratteristiche degli oggetti di ciascun cluster. Il livello di similarità tra n oggetti distribuiti in uno spazio p-dimensionale (dove p è il numero delle variabili) viene valutato in base alla loro distanza: si assume cioè che due campioni siano tra loro simili se la loro distanza è piccola, e che siano dissimili se la loro distanza è grande. É quindi possibile calcolare le distanze tra i diversi campioni utilizzando una tra le numerose misure di distanza disponibili (distanza Euclidea, di Mahalanobis, di Manhattan, di Minkowski, ecc.) e trasformare una misura di distanza in una misura di similarità (sempre compresa tra zero e uno) con delle semplici trasformazioni. L'analisi si basa sui concetti di similarità e di distanza, concetti analoghi anche se opposti: la distanza è minore per una maggiore similarità. Oggetti simili appariranno sullo stesso cluster mentre oggetti diversi saranno posizionati su cluster distanti tra loro. La produzione di una matrice di correlazione può esser utilizzata nella analisi dei cluster ma si hanno implicazioni diverse. In generale le misure di correlazione (Pearson, Sperman, Tau..) non subiscono le influenze della scala di misura degli oggetti. Esiste comunque la necessità di standardizzare i dati per evitare che una variabile possa influenzare eccessivamente la dissimilarità. Oggetti A B C D X1 10 11 12 13 X2 2 3 4 1 X3 11 15 12 13 X4 900 895 760 874 Nel nostro caso la variabile X4 presenta valori estremamente elevati che consigliano di standardizzare in base alla media. Il metodo maggiormente usato per misurare la distanza fra i casi è la distanza Euclidea al quadrato definita come la sommatoria delle distanze al quadrato fra tutte le variabili di due differenti gruppi: distanza = ( X , Y ) = ∑ ( X i − Yi ) 2 i Per evitare che l'unità di misura delle variabili influisca sulla loro distanza, le variabili vengono standardizzate (divise per la deviazione standard) prima dell'analisi, in sostanza si lavora con gli scarti standardizzati (z). Quando vengono raggruppate le variabili al posto dei casi, una misura di similarità spesso usata è quella del valore assoluto del coefficiente di correlazione. Un esempio ormai classico per illustrare il metodo di clustering gerarchico è quello di considerare le caratteristiche di alcuni veicoli. Accelerazione 5.0 5.3 5.8 7.0 Freni 245 242 243 267 Slalom 61.3 61.9 62.6 57.8 Tempo 0-100 17.0 12.0 19.0 14.5 Velocità max 253 281 254 245 35 Modello Porsche 911T Testarossa Corvette Mercedes 560 Quaderni di Bioinformatica 7.6 7.9 8.5 8.7 9.3 10.8 13.0 271 259 263 287 258 287 253 59.8 61.7 59.9 64.2 64.1 60.8 62.3 21.0 19.0 17.5 35.0 24.5 25.0 27.0 224 230 231 215 229 200 195 Saab 9000 Toyota Supra BMW 635 Civic CRX Acura Legend VW Fox GL Chevy Nova Cluster basato sulle colonne Esistono un gran numero di tecniche di agglomerazione, soffermeremo la nostra attenzione solo su alcuni aspetti rimandando per approfondimenti ai testi specialistici. Il criterio più usato per formare i cluster è quello di tipo Clustering sulle celle gerarchico, che prevede di non dividere più il cluster una volta formato. Nell'ambito della modalità gerarchica esistono due tipi di raggruppamenti: quello agglomerativo, che riunisce gli elementi più vicini fino a formare un unico grande cluster, e quello divisivo, che parte da un unico grande cluster fino a formare un cluster per ogni singolo caso. I casi ed i cluster si riuniscono in base a criteri che vengono adottati in ogni passo della aggregazione e si basano sulla matrice delle distanze o delle somiglianze fra i casi. Il modello più semplice è quello del collegamento singolo: i primi casi ad essere uniti in cluster sono quelli che hanno le distanze più piccole. In questo caso la distanza fra un cluster ed un caso singolo viene calcolata come la più piccola distanza fra il caso ed uno dei casi del cluster, mentre la distanza tra due casi non uniti in cluster rimane invece sempre la stessa. Alcuni metodi, come quelli del collegamento singolo e completo e quelli del collegamento medio fra ed entro i gruppi possono usare sia le misure di distanza che di similarità. Altri metodi, come quello di Ward, della mediana e del centroide devono usare comunque sempre il quadrato della distanza Euclidea. Quando vengono usate le misure di similarità, i criteri per la combinazione dei cluster vengono invertiti, rispetto a quanto sopraesposto. Nel metodo Ward la dispersione all’interno del j-esimo gruppo è calcolata come 1 Nj Qj = ∑ d i2 n i =1 2 dove d rappresenta la distanza di ciascun punto dal centroide del gruppo. L’uso pertanto della distanza euclidea è raccomandato per il metodo che prevede il centroide. Esistono varie modalità grafiche per valutare l'aggregazione in cluster, ma la più usata è il dendogramma che consente non solo di evidenziare i vari cluster, ma anche di mostrarne la distanza. Valutando il dendogramma è molto semplice verificare quale sia la migliore soluzione dell'analisi in corso, infatti se il nostro obiettivo è quello di aggregare i casi in modo tale da rendere minima la distanza dei casi all'interno di ogni singolo cluster e massima la distanza fra i cluster, ne segue che la soluzione migliore è quella che contempla il numero di cluster tali per cui la distanza fra di essi incomincia ad essere sufficientemente grande (il sufficientemente 36 Quaderni di Bioinformatica grande è relativo alla distanza all'interno dei singoli cluster fra i vari casi!). I risultati dell’analisi dipendono dal metodo utilizzato e l’interpretazione dei dati richiede una buona conoscenza dei metodi di agglomerazione. Analisi delle Componenti Principali. Rappresenta un sistema di analisi in grado di mettere ordine in modo semplificato ad un archivio di dati; il metodo comunemente utilizzato prende il nome di analisi delle componenti principali (PCA, Principal Component Analysis) anche se a volte compare il termine di Factor Analysis per significare i metodi che impiegano tecniche di ordinamento in uno spazio di parametri ridotto. L'analisi fattoriale consente di riassumere l'informazione con un numero ridotto di variabili ortogonali (fattori), rispetto a quelle originali. Dal punto di vista geometrico, PCA consiste in un processo di rotazione dei dati originali, effettuato in modo che il primo nuovo asse (che costituirà la prima componente principale) sia orientato nella direzione di massima varianza dei dati, il secondo sia perpendicolare al primo e sia nella direzione della successiva massima varianza dei dati, e così di seguito per tutti i p nuovi assi. Il numero di questi nuovi assi (le componenti principali, PC) sarà quindi pari al numero di variabili originali. Le loro direzioni rispetto alle direzioni degli assi originali (le variabili originali) vengono determinate dagli "autovettori", che sono i versori del nuovo spazio, espressi da coefficienti (loadings) compresi tra ± 1. I fattori non sono conosciuti a priori e la variabilità di ogni variabile viene espressa come combinazione dei vari fattori, con l’esclusione di una quota di variabilità che risulta essere unica. Si tratta di metodi che utilizzano la scomposizione di una matrice di correlazione o di covarianza utilizzando differenti modelli matematici. L’analisi dei fattori viene solitamente utilizzata nella esplorazione preliminare dei dati. I presupposti possono essere: • • • Correlazione di un numero elevato di variabili raggruppando le variabili stesse in fattori in modo tale che la variabile sia maggiormente correlata con un fattore piuttosto che con un altro fattore. Interpretazione del fattore in funzione del significato della variabile. Molte variabili possono esser rappresentate da pochi fattori. Gli score per i fattori possono essere utilizzati come dati per il test t, la regressione, l’ANOVA, le analisi discriminanti. Si consideri a titolo di esempio di aver rilevato in 25 studenti un punteggio relativo alle prove orali e prove scritte da loro sostenute. Il punteggio rilevato in 25 studenti nelle prove orali effettuate nel corso di un semestre e il punteggio realizzato nelle prove scritte, è riportato nella tabella sottostante ed ha permesso di definire le rette di regressione che mettono in relazione tra loro le variabili. Sulla base dei dati riportati in tabella calcolare una regressione lineare per prevedere il punteggio dell’orale sulla base del punteggio conseguito nello scritto, ma possiamo nello stesso modo prevedere il punteggio dell’orale conoscendo il punteggio dello scritto. Osserviamo che possiamo predire una variabile sulla base dell’altra, ma se volessimo prevedere utilizzando congiuntamente le due variabili, dovremmo ricorrere alle componenti principali sviluppate da Karl Pearson nel 1901. Riassumendo le linee di regressione indicano la predizione mentre le componenti indicano la migliore associazione. Studente ID 1 ID 2 ID 3 ID 4 …. ID 25 Punteggio Orale 590 620 640 650 …. 600 Punteggio Scritto 530 620 620 550 …. 640 REGRESSIONE: SCRITTO = 241.653 +0.613 ORALE REGRESSIONE: ORALE = 321.114 +0.488 SCRITTO Dal punto di vista matematico se considero le due rette di regressione posso immaginare di avere una nuova variabile che mi sintetizza le informazioni relativamente al punteggio conseguito nell’orale e nello scritto. Avremo pertanto la nuova variabile che chiameremo voto finale che risulta: VOTO = ORALE + SCRITTO 37 SCRITTO Quaderni di Bioinformatica ORALE Regressioni lineari. La nuova variabile quindi somma le informazioni delle due precedenti variabili, nel nostro caso avremo che la nuova linea si approssima ad uno avendo le variabili scritto ed orale la stessa scala di valori. L’obiettivo quindi dell’analisi delle componenti principali è quello di riassumere i dati multivariati nel modo più accurato possibile in una serie di poche componenti. Come vedremo poi successivamente possiamo trasformare la relazione sopra riportato in nella prima componente principale sulla base del calcolo della matrice di covarianza. Pertanto avremo VOTO = 0.008 ORALE+0.01 SCRITTO Le due variabili hanno dei coefficienti assai simili, ed i valori sono inferiori ad 1 in quanto le componenti principali sono scalate per conservare la varianza. Molti ricercatori si chiedono come valutare la relazione tra le variabili originali e le componenti. In alcuni casi molte componenti sono identiche alla variabile originale, in altre parole molti coefficienti sono vicini allo 0 per tutte le variabili ad esclusione di una. In altri casi le componenti sono una amalgama delle variabili originali. Nell’analisi statistica si parla di component loading come la covarianza delle variabili originali. Component loadings 1 2 ORALE 51.085 33.646 SCRITTO 62.880 -27.334 Come si può osservare questi coefficienti sono tra loro proporzionali ma risultano scalati in maniera differente rispetto a quanto è stato riportato nella relazione con la matrice di covarianza. Se poi effettuiamo la radice quadrata di ogni loadings e la sommiamo separatamente per ogni componente, otteniamo la varianza spiegata da ogni componente. Si è visto come il metodo delle componenti principali è un metodo che consente di valutare la varianza in uno spazio ridotto. L’equazione utilizzata per calcolare la prima componente era VOTO = 0.008 ORALE +0.01 SCRITTO Questa componente è lineare nella forma COMPONENTE = combinazione lineare di {VARIABILI OSSERVATE} Che viene trasformata in VARIABILI OSSERVATE = combinazione lineare di {FATTORI} + errore Questo rappresenta il modello proposto da Spearman, dove è importante sottolineare come il modello prenda in considerazione delle variabili osservate in funzione di fattori non osservati. L’analisi dei fattori è meno interessata alla predizione quanto alla scomposizione della matrice di covarianza; per questo motivo l’equazione fondamentale nell’analisi non è il modello lineare, ma quello in forma quadrata. COVARIANZA OSSERVATA = COVARIANZA FATTORI + COVARIANZA ERRORI La covarianza viene espressa in forma matriciale e questa viene sostanzialmente scomposta in due matrici di covarianza, una dipendente dai fattori e l’altra come dipendente dagli errori. Le diagonali di queste due matrici sono definite come communality (comunalità della varianza) e specifities. In pratica viene espressa la variabilità tra i fattori e la variabilità random degli errori. La stima dei fattori. Esistono diverse fasi da seguire che possono esser di seguito riassunte: 1-Calcolo della matrice di correlazione o di covarianza. Per poter condurre questa analisi le variabili devono essere fra di loro associate e pertanto una delle prime operazioni da compiere é la valutazione della matrice di correlazione fra di esse e la stima che questa non sia una matrice identità, ovvero con i valori in diagonale uguale ad 1 e gli altri uguale allo zero (evidente indicazione di assoluta mancanza di correlazione fra le variabili), tramite il test di sfericità di Bartlett, che deve presentare un valore di P minore di 0.05. L'adeguatezza del data-set viene invece verificata con il test di Kaiser-Meyer-Olkin, che deve presentare dei valori maggiori di 0.60. Se i valori sono intorno a 0.50 si definiscono come miseri, se ancora più bassi si definiscono inaccettabili. 2-Stima dei fattori, in questa fase si calcola il fattore iniziale di estrazione. Il principale metodo di estrazione dei fattori si basa sull'estrazione delle componenti principali. Le componenti principali sono delle combinazioni lineari fra le variabili: la prima componente principale è quella che raccoglie la quota principale della varianza, la seconda (non correlata con la prima) è quella che 38 Quaderni di Bioinformatica raccoglie la quota principale della varianza rimanente e così via... L'analisi delle componenti principali è a sua volta un'analisi fattoriale, infatti essa produce un insieme di componenti principali che possono essere considerate nuove variabili. Per scegliere il numero di fattori adeguato si può fare riferimento alla percentuale di varianza spiegata da ogni fattore o, meglio, all'autovalore (radice latente) (eigenvalue) dei singoli fattori, che deve essere superiore all'unità. 3-Rotazione dei fattori per rendere più facile l’interpretazione dei fattori. Spesso la matrice dei pesi fattoriali é di difficile interpretazione poiché i vari pesi possono avere dei valori simili. Si ricorre allora alla rotazione dei fattori. Il metodo più utilizzato è quello Varimax. In tal modo si ottiene una matrice di facile interpretazione poiché aumentano i valori dei pesi più elevati, mentre diminuiscono i valori dei pesi più bassi. Risulta pertanto facile associare le variabili interessate ad una singola componente principale ottenendo il risultato voluto: spiegare la maggior quota di variabilità possibile tramite un numero minore di variabili (fattori principali). L'analisi delle componenti principali ci fornisce una soluzione algebrica che ci consente anche rappresentazioni grafiche molto efficaci sia dei soli oggetti (scores plot) sia delle sole variabili (loadings plot) sia di oggetti e variabili contemporaneamente (biplot). A titolo di esempio viene l’analisi effettuata su campione di 28 alimenti in cui si sono registrati i valori delle variabili grassi, proteine, vitamine, calcio, ferro, calorie costo. Per prima cosa considerando che le unità di misura differiscono analizziamo la matrice di correlazione. GRASSI PROTEINE VITAMINE CALCIO FERRO COSTO CALORIE GRASSI 1.000 PROTEINE 0.279 1.000 VITAMINE 0.174 0.162 1.000 CALCIO 0.259 -0.185 0.225 1.000 FERRO 0.304 0.416 -0.021 -0.104 1.000 COSTO -0.132 0.420 0.009 -0.416 0.112 1.000 CALORIE 0.758 0.550 0.230 0.132 0.276 0.099 1.000 La matrice dei "loadings" (L): in questa matrice le colonne rappresentano gli autovettori e le righe rappresentano le variabili originali: ciò significa che, selezionato un autovettore, in ciascuna riga si trovano i coefficienti numerici che rappresentano l'importanza di ciascuna variabile originale in quell'autovettore. Component loadings 1 2 3 CALORIE 0.883 0.172 -0.011 GRASSI 0.767 0.415 -0.218 PROTEINE 0.756 -0.406 0.121 VITAMINE 0.325 0.303 0.785 CALCIO 0.062 0.815 0.074 FERRO 0.565 -0.228 -0.456 COSTO 0.241 -0.759 0.344 Per esempio, nella matrice dei loadings qui rappresentata si nota che la prima variabile (Calorie) manifesta maggiormente la sua importanza sulla componente 1, con un valore di 0.883, e sulla seconda componente 0.172. I loadings sono coefficienti lineari standardizzati, cioè, in PCA, la somma dei quadrati dei loadings di un autovettore è uguale a 1. La varianza spiegata per ogni componente è l’eigenvalue per quel fattore e viene espressa anche in termini di percentuale sulla varianza totale. 1 2 3 Variance Explained by Components 2.426 1.751 1.011 Percent of Total Variance Explained 34.654 25.016 14.440 Noi sappiamo che circa il 60% della varianza è spiegato dai due fattori (34.6+25.0). Dal grafico risulta che le variabili grassi e calorie, sono strettamente correlate tra loro in modo diretto, in quanto sono proiettate nella stessa direzione e con lo stesso verso; le variabili calcio e costo sono al contrario inversamente correlate tra loro e rappresentano un'informazione indipendente dalle altre tre variabili. Relativamente ai sistemi di rotazione le scelte che possono essere fatte dal ricercatore sono assai ampie: Varimax: rappresenta un metodo di rotazione che minimizza il numero delle variabili per avere il valore di loading più elevato per ogni fattore, questo tende a semplificare la possibile interpretazione dei fattori. Quartimax: rappresenta un metodo di rotazione che minimizza il numero dei fattori necessari per spiegare ogni variabile. Con questo approccio si ha una semplificazione nell’interpretazione delle variabili. Equamax: un metodo di rotazione che combina i precedenti, in pratica vengono aumentate le variabili e minimizzati i fattori. 39 Quaderni di Bioinformatica Oblimin: rappresenta una famiglia di rotazioni non ortogonali, il valore di gamma esplicita il numero della famiglia, con gamma = 0 per una bassa correlazione, valori positivi per correlazioni elevate. Uno degli obiettivi della fase di estrazione è quello di ridurre il numero dei fattori, per rimanere con pochi fattori definiti forti. L’estrazione dei fattori e la rotazione dei fattori rappresentano la maggiore difficoltà che si incontra nell’analisi dei dati, in quanto si possono avere moltissime risposte. Il numero dei fattori da mantenere per le successive fasi è una decisione delle più importanti che competono ad un analista che vuole evitare delle distorsioni. Il test che viene oggi maggiormente utilizzato è il test dell’eigenvalue uno o criterio di Kaiser. Ricordiamo che ogni fattore produce un eigenvalue e conseguentemente questo rappresenta la variabilità spiegata da quel fattore. Factor Loadings Plot 1.0 COSTO PROTEINE 0.5 FACTOR(2) FERRO CALORIE 0.0 GRASSI VITAMINE -0.5 CALCIO -1.0 -1.0 -0.5 0.0 0.5 FACTOR(1) 1.0 Plot delle componenti principali senza rotazione Consideriamo di aver ottenuto per 15 variabili la seguente tabella . FATTORE Eigenvalue Varianza % Percentuale cumulativa 1 5.06 37.4 37.4 2 2.02 13.5 50.9 3 1.55 10.3 61.2 4 0.89 6.0 67.2 5 0.79 5.3 72.4 ----15 0.15 1.1 100 Il primo fattore esprime il massimo della variabilità, il secondo la seconda e così di seguito; nell’analisi delle componenti principali tutte le variabili vengono trasformate in punteggi z, cioè ogni variabile ha media zero e la varianza di 1. Questo implica che la varianza totale è uguale al numero delle variabili. Se sommiamo gli eigenvalue otteniamo 15 che corrisponde al numero delle variabili. Quindi un fattore con un valore inferiore a 1 spiega meno variabilità di quella generata da una sola variabile; quindi non si ha un guadagno nel mantenere nell’analisi fattori con eigenvalue inferiori ad uno. Il criterio di Kaiser porta spesso a mantenere troppi fattori quando l’analisi proviene da 50 variabili, mentre ne mantiene poche 6.0 quando il numero delle variabili è inferiore a 20. Il test di 5.0 Lawley utilizza un altro criterio considerando la significatività dei fattori, ma questo test risulta influenzato dalla 4.0 dimensione campionaria. Un test che viene considerato 3.0 migliore è il test di Cattel o Scree Test che valuta le zone di 2.0 frattura nella linea che collega tutti gli eigenvalue. 1.0 Si tratta di un test definito come il test del brecciolino, ed è 1 2 3 4 5 6 considerato come un test ad occhio, cioè si basa Scree plot per i primi 6 fattori sull’osservazione visiva, nel nostro caso ad esempio il brecciolino, inizia solo dopo la terza frattura. Matrice dei Fattori: Rappresenta la fase successiva dell’analisi statistica che utilizza i fattori estratti. La matrice viene denominata in vari modi: • Matrice dei Fattori. • Matrice dei Pesi Fattoriali. • Matrice della Struttura Fattoriale. • Matrice del Pattern Fattoriale. Se i fattori rimangono ortogonali tra di loro, le matrici si possono dire identiche. Ma quando eliminiamo questa restrizione, le matrici diventano divergenti. Variabile Fattore 1 Fattore 2 Fattore 3 A 0.626 0.285 0.346 B 0.426 0.283 0.351 C 0.460 0.517 0.338 D 0.519 0.521 0.539 ----Z 0.123 -0.425 0.191 40 Quaderni di Bioinformatica Dall’analisi della tabella possiamo dire che la variabile A pesa 0.626 sul fattore 1 (intendendo con questo che esiste una correlazione di 0.626 con il primo fattore), il valore assoluto più elevato indica l’esistenza di una relazione maggiore tra la variabile e il fattore. Nell’analisi fattoriale, la variabile dipendente è la variabile in considerazione e i fattori sono le variabili indipendenti. Fintantoché i fattori sono ortogonali, i coefficienti di correlazione sono identici ai coefficienti di regressione. Il principio della comunanza di una variabile si può derivare esattamente come somma dei quadrati della variabile. Ad esempio per la variabile A, avremo: (0.626)2+(0.285)2+(0.346)2=R2 = 0.594. I fattori sono quindi in grado di spiegare la variabilità, e non necessariamente il primo fattore è quello che ricerchiamo. Per questo operiamo una rotazione che ha come finalità quella di spiegare i fattori. Per l’interpretazione dei fattori devono essere soddisfatte quattro condizioni: • La variabilità spiegata deve essere ben distribuita. Nel nostro caso gli eigenvalue dei primi tre fattori rappresentano come somma 9.17 e spiegano il 61% della varianza totale. Se analizziamo in dettaglio il primo fattore è responsabile per i primi tre fattori del 61%, il secondo fattore 22% ed il terzo del 19%. Il primo fattore contiene una proporzione molto elevata della varianza spiegata dai primi tre fattori, e questo può dipendere dal fatto che le variabili sono altamente correlate con il primo fattore. In pratica il fattore 1 cattura quello che generalmente è definito fattore generale. • Ogni variabile deve pesare su un singolo fattore. Si indica nel caso in cui una variabile ha un peso forte su due o più fattori, la variabile D ad esempio pesa su tutti e tre i fattori. La complessità fattoriale rende più difficile l’interpretazione del ruolo della variabile poiché possiamo spiegarla sia come dipendente dal fattore 1 che dal fattore 2 e 3. • I pesi fattoriali devono esser prossimi a 0 o a 1. Deriva dalla considerazione che se un fattore pesa molto su un fattore, gli altri devono pesare conseguentemente di meno per il principio della comunanza richiamato precedentemente. • I fattori devono essere unipolari (devono avere lo stesso segno). Se i pesi sono positivi e altri negativi, significa che un valore alto del fattore indica un aumento per alcune variabili, mentre un valore basso indica una riduzione nella variabile latente. 41 Quaderni di Bioinformatica 42 Quaderni di Bioinformatica L’ANALISI STATISTICA DEI DAI DATI DI MICROARRAY: APPLICAZIONI CON IL SOFTWARE SAS-STAT Corrado Dimauro, Nicolò Pietro Paolo Macciotta Dipartimento di Scienze Zootecniche, Università di Sassari Via De Nicola 9, 07100 Sassari E-mail: [email protected]; [email protected] INTRODUZIONE Tradizionalmente, la ricerca nel campo della genetica funzionale ha rivolto la propria attenzione allo studio intensivo di uno o pochi geni alla volta utilizzando tecnologie come la Northern Blots (Alwine et al., 1977), la S1 Nuclease Protection (Berk and Sharp, 1977), la Differential Display (Liang and Pardee, 1992) e la Serial Analysis of Gene Expression (SAGE) (Velculescu et al., 1995). Queste tecnologie forniscono risultati attendibili e ripetibili sull’espressione dei singoli geni senza la necessità dell’uso di particolari analisi statistiche, ma diventano poco pratiche nel momento in cui si vuole studiare il profilo di espressione di gruppi di geni, visti i tempi lunghi di risposta. Il rapido diffondersi, in tutto il mondo, di progetti di ricerca rivolti al mappaggio del genoma sia umano che animale ha portato all’identificazione di un enorme numero di geni richiedendo quindi lo sviluppo di nuove tecnologie in grado di studiare l’espressione dei geni su vasta scala. A questo proposito, nel 1995 fu messa a punto la tecnologia dei microarray a cDNA (Schena, et al., 1995, Lockhart et al., 1996) che consente di analizzare contemporaneamente, nello stesso esperimento, l’attività di decine di migliaia di geni. L’impatto sulla comunità scientifica di tale tecnologia è stato enorme, e molti sono i laboratori che si sono attrezzati per svolgere esperimenti con i microarray. Ciò ha consentito, nel corso degli anni, di affinare sempre più sia le procedure per la conduzione degli esperimenti, sia le tecnologie usate per la costruzione degli array. Nella sua forma più diffusa, un microarray è costruito con lo scopo di analizzare i pattern di espressione di migliaia di geni simultaneamente. Il risultato dell’esperimento è costituito, di conseguenza, da un data set enorme con dati affetti, però, da errori sia sistematici che casuali, che richiedono la manipolazione matematica e l’uso della statistica per poter estrarre informazioni utili. Occorre, allora, per condurre correttamente un esperimento con microarray, l’apporto di competenze molto diverse tra di loro come, in particolare, quelle di ricercatori che lavorano nell’ambito dell’analisi statistica dei dati e quella di ricercatori che si occupano di biologia molecolare. Nella pratica, però, biologi e statistici spesso operano in separata sede: gli esperimenti sono materialmente condotti dai biologi nei loro laboratori e i risultati sono poi inviati agli statistici per l’analisi e per l’estrazione dei geni differentemente espressi. Poiché un esperimento con i microarray spesso si sviluppa attraverso passi successivi, sarebbe utile analizzare i dati non appena essi sono prodotti, in modo da apportare, quando è il caso, correzioni all’esperimento in corso d’pera e di rendersi comunque conto di ciò che via via si sta ottenendo. Scopo di questo lavoro è fornire gli strumenti di base, sia teorici che pratici, per analizzare i dati prodotti da esperimenti con i microarray. La piattaforma tecnologica di riferimento è quella dei microarray a cDNA, ma tutte le tecniche di analisi dei dati che saranno proposte potranno facilmente essere estese anche ad altre piattaforme. Sarà condotta una analisi completa, dai dati grezzi ai geni diversamente espressi, di due data set. Il primo, costituito da dati simulati, sarà utilizzato come data set di training per testare le procedure di analisi che saranno poi applicate al secondo data set estratto da un esperimento reale condotto su DNA bovino. Tutti i calcoli saranno svolti usando il software SAS-STAT. 1. BASI BIOLOGICHE DEI MICROARRAYS A cDNA Le istruzioni necessarie per lo sviluppo e il funzionamento di tutti gli organismi viventi conosciuti, compresi alcuni tipi di virus, sono contenute nella regione nucleare delle cellule sotto forma di DNA (acido deossiribonucleico). Dal punto di vista chimico, il DNA consiste di due lunghi polimeri organici costituiti da monomeri che si ripetono, chiamati nucleotidi. I nucleotidi, a loro volta, sono formati da tre componenti: un gruppo fosfato, uno zucchero a cinque atomi di carbonio (deossiribosio) e una base azotata che si lega al deossiribosio. Le basi azotate utilizzate nella formazione dei nucleotidi sono classificate in due tipi: pirimidine (C e T) e purine (A e G). Nel costituire l’acido nucleico la pirimidina di un filamento si potrà appaiare solo con una purina dell’altro filamento stabilendo così una delle principali caratteristiche del DNA, la complementarietà delle basi. Negli organismi viventi il DNA si presenta quindi come una coppia di filamenti antiparalleli, associati da legami idrogeno e che si intrecciano a formare una struttura definita doppia elica (figura 1). La sequenza delle quattro basi azotate lungo il filamento di DNA contiene l’informazione genetica che in alcune regioni viene letta attraverso un codice, detto appunto codice genetico, che specifica la sequenza degli aminoacidi che compongono le proteine. I segmenti di DNA che portano l’informazione genetica sono chiamati geni e sono composti da regioni trascritte e tradotte, dette esoni, e da regioni trascritte ma non tradotte, dette introni. L’insieme di esoni ed introni contengono le istruzioni necessarie alla biosintesi di RNA e di proteine. 43 Quaderni di Bioinformatica Figura 1: A sinistra la molecola del DNA composta da una doppia elica. A destra la doppia elica allungata e in dettaglio lo scheletro costituito dal gruppo fosfato legato al deossiribosio e la complementarietà delle basi azotate (Nguyen et al., 2002). L’espressione dell’informazione genetica contenuta nel DNA di un gene avviene attraverso due processi distinti e successivi: (i) la trascrizione, e la (ii) traduzione. La trascrizione consiste nella produzione di un acido ribonucleico (RNA) copiato sulla base della sequenza nucleotidica del DNA. L’RNA differisce dal DNA per alcune caratteristiche particolari: è formato da un singolo filamento, il deossiribosio è sostituito dal ribosio e la base azotata timina è sostituita con l’uracile (U). Affinchè la trascrizione possa cominciare, la doppia elica di DNA deve svolgersi parzialmente e separarsi nelle due eliche che la compongono (denaturazione). Soltanto una delle due eliche viene trascritta in RNA (elica stampo) mentre quella che non viene copiata (elica senso) risulta identica alla sequenza in basi dell’RNA. L’RNA ottenuto viene poi modificato attraverso un processo di maturazione degli RNA chiamato splicing durante il quale gli introni che sono stati trascritti insieme agli esoni vengono tagliati via dalla molecola di acido ribonucleico formando un filamento di RNA messaggero (mRNA) pronto per essere tradotto in polipeptide dai ribosomi citoplasmatici. La figura 2 mostra uno schema esemplificativo del processo di trascrizione. Figura 2: processo di trascrizione e splicing (http://www.summagallicana.it/Volume2/B.III.06.2.htm) La traduzione è il processo successivo alla trascrizione e consiste nella conversione dell’informazione genetica portata dai vari mRNA sotto forma di sequenza nucleotidica in sequenza aminoacidica e quindi in proteine. Si stima che il genoma umano e quello dei grandi mammiferi in generale, contenga intorno ai 30.000 geni e che il DNA codificante è circa il 1,5% del totale. I geni attivi variano a seconda del tipo di cellula e, nella stessa cellula, cambiano a seconda della situazione. In un organismo vivente le caratteristiche ed il ruolo di una cellula dipendono da quali geni sono in essa “accesi” o “spenti”. I microarray a cDNA e a oligonucleotidi sono le tecnologie che attualmente vengono più utilizzate per lo studio dell’espressione genica, in quanto consentono di analizzare, in parallelo, migliaia di geni nello stesso esperimento e forniscono informazioni sia di tipo statico (in quale tessuto il gene si è espresso) che di tipo dinamico (relazione tra il profilo di espressione di un gene rispetto agli altri). Il principio su cui si basa la tecnica dei microarray sfrutta la complementarietà delle basi azotate nella formazione degli RNA durante il processo della trascrizione. 1.1 La fabbricazione dei microarrays a cDNA La tecnica dei microarray deriva da una evoluzione del Southern Blotting dove frammenti di DNA denaturato vengono trasferiti su un supporto solido e successivamente ibridizzati con altri frammenti di DNA sempre a singolo filamento. Esistono diverse tecniche per realizzare gli arrays a DNA con costi ed accuratezza differenti, ed ognuna può essere utilizzata per scopi diversi come ad esempio lo studio comparativo dei genomi, la determinazione di polimorfismi dei singoli nucleotidi (SNPs), oppure l’analisi del profilo di espressione genico e il rilevamento di fenomeni di splicing alternativo. In questa sede analizzaremo la tecnica dei cDNA microarrays nello studio dei profili di espressione. Scopo della tecnologia dei microarrays a cDNA è quello di studiare simultaneamente le interazioni tra migliaia di geni, determinare il livello di espressione tra di essi ed evidenziare le differenze che possono essere eventualmente presenti in risposta a determinati trattamenti, patologie o stadi di sviluppo. Un microarray è essenzialmente formato da un supporto solido su cui sono ancorati, con una disposizione tipo matrice, un grande numero di frammenti denaturati (cioè a singola elica) di DNA detti sonde (probes). Queste sonde sono sottoposte a processi di ibridazione con campioni di cDNA o RNA detti bersagli (targets) marcati con dei fluorofori e la fluorescenza emessa evidenzia gli ibridi formati. L’esperimento con i microarray più semplice che si possa progettare consiste nel confrontare l’espressione dei geni in un determinato tessuto trattato (test), con quella dello stesso tessuto non trattato che funge da controllo (riferimento). In questo caso, le procedure sperimentali che si devono attuare sono: 1) costruzione dell’array con le sequenze di cDNA da considerare; 44 Quaderni di Bioinformatica 2) 3) 4) 5) preparazione dei campioni biologici da analizzare ed estrazione dell’ RNA totale; sintesi dei cDNA ed etichettatura del test e del riferimento con fluorofori di colore diverso; ibridazione dei campioni biologici etichettati sull’array; identificazione dei geni espressi e quantificazione dell’espressione genica nei tessuti esaminati (test e riferimento). Per la costruzione dell’array è necessario selezionare le sequenze di DNA (sonde) da ancorare sul supporto solido (lamina di vetro, plastica o di silicone) scegliendole ad esempio tra oligonucleotidi, cDNA o piccoli frammenti prodotti tramite PCR (reazione a catena della polimerasi). La sonda scelta viene depositata sul vetrino utilizzando un sistema robotizzato con micro aghi (stampa robotica). Le sonde depositate sul vetrino sono normalmente DNA a doppia elica. Dato che i microarray funzionano secondo il principio dell’ibridizzazione in cui un filamento di DNA si legherà ad un filamento complementare per formare la doppia elica, l’array è riscaldato in modo da separare i due filamenti di DNA (denaturazione), per cui alla fine del processo, il vetrino conterrà migliaia di sonde con un singolo filamento di DNA. Ogni sonda sul vetrino rappresenta un gene, una porzione di gene o una particolare sequenza di DNA detta anche EST (espressed sequence tags). Dal momento che la costruzione di un microarray è un processo costoso che necessita di personale altamente qualificato e di strumenti molto sofisticati, diverse compagnie si sono specializzate nella produzione, su ordinazione, di microarray. I vari laboratori di ricerca quindi progettano l’esperimento e successivamente comprano i microarray necessari dalle compagnie che li sviluppano. Per questa ragione la parte puramente sperimentale inizia dalla produzione del DNA target. Dai campioni biologici sia del test (ad esempio dal tessuto tumorale) che del riferimento (tessuto normale) viene estratto l’mRNA. Una aliquota dei due mRNA viene sottoposta ad un processo in vitro detto trascrizione inversa che consente di produrre un filamento di DNA a partire da uno di mRNA. Il DNA così ottenuto si definisce DNA complementare o cDNA. Durante la trascrizione in vitro i cDNA test e di riferimento vengono etichettati con dei fluorofori di colore diverso (ad esempio rosso per il test e verde per il riferimento). Successivamente i cDNA vengono miscelati e posti sull’array per l’ibridizzazione. Consideriamo una specifica sonda sul microarray: essa contiene singoli filamenti di DNA che rappresentano uno specifico gene. Se nella miscela bersaglio ci sono filamenti complementari alla sonda, si legheranno ad essa per formare la doppia elica. Dopo l’ibridizzazione il microarray è sottoposto a numerosi lavaggi per eliminare il materiale residuo non legato e fissare bene il materiale genetico del bersaglio sulla sonda (spots). Il microarry viene quindi posto in uno scanner dove i singoli spots vengono eccitati con due lampade a raggio laser nelle lunghezze d’onda dei due coloranti fluorescenti usati. A questo punto diverse sono le possibilità: 1) se il gene si esprime sia nel tessuto test che in quello di riferimento lo spot si colora di giallo; 2) se il gene si esprime solo nel tessuto test allora lo spot si colora di rosso, 3) se il gene si esprime solo nel tessuto di riferimento si colora di verde. I materiali fluorescenti infatti assorbono la luce e la riemettono proporzionalmente all’espressione del gene, cioè tanto più sarà espresso il gene nei due campioni, maggiore sarà l’intensità luminosa emessa dal fluorocromo. Questa luce viene catturata da uno scanner, elaborata da un software e trasformata in numeri che rappresentano l’intensità luminosa. L’output finale di un esperimento con Eccitazione Cloni di DNA RNA test RNA riferimento microarrays, a seconda del software di acquisizione utilizzato, Laser 1 Laser 2 consiste in un set di dati fatto da migliaia di righe, ognuna delle quali rappresenta uno spot, e da un certo numero di colonne che Trascrizione Inversa (cDNA) riportano la posizione dello spot sul vetrino, il nome del gene, le Emissione intensità luminose e semplici elaborazioni. La figura 3 riporta in Amplificazione mediante PCR Etichettatura maniera schematica le procedure sperimentali necessarie alla conduzione di un esperimento di cDNA microarray con sonde Stampa robotica ottenute mediante amplificazione per PCR e targets prodotti mediante trascrizione in vitro. Mediante quindi analisi comparative tra i dati relativi al campione test ed al riferimento si potà risalire al profilo trascrizionale dei due tessuti e trarre le Elaborazione Dell’immagine Ibridizzazione adeguate conclusioni. Figura 3: procedure sperimentali per la conduzione di un esperimento con microarray 2. L’ANALISI DEI DATI DI MICROARRAY L’analisi dei dati prodotti da microarray presenta numerose e complesse problematiche che devono essere affrontate e risolte prima di ottenere risultati attendibili. Come accade in qualsiasi esperimento, è innanzi tutto indispensabile valutare e controllare gli errori casuali che sempre si determinano, con la particolarità, in questo caso, che si ha a che fare con migliaia di migliaia di dati. Inoltre, come risulta evidente da quanto visto nel par. 1, un esperimento con microarray comprende un complesso sistema di passaggi successivi che, passo dopo passo, possono determinare l’introduzione di errori sistematici che si rifletteranno poi nei risultati finali. È quindi necessaria una prima fase di filtraggio dei dati in modo da eliminare o, quanto meno, controllare tali errori. Successivamente, i dati sono poi analizzati mediante modelli statistici che consentono di individuare i geni che si esprimono diversamente nelle varie condizioni sperimentali. Una volta stilata una lista di geni diversamente espressi, l’analisi statistica multivariata consente di raggruppare i geni in base al loro pattern di espressione con lo scopo di individuare cluster di geni che si esprimono allo stesso modo rispetto alle condizioni sperimentali. 45 Quaderni di Bioinformatica 2.1 Controllo di qualità degli spot Il controllo di qualità degli spot è un aspetto molto importante negli esperimenti con i microarray, avendo un impatto potenzialmente grande sulle successive analisi. Nella fase di ibridazione, alcune sonde possono non incorporare bene il target, per cui la successiva quantificazione della radiazione emessa può essere fortemente distorta. Il controllo di qualità consente di individuare e di rimuovere dalle successive analisi gli spot mal riusciti. La maggior parte dei software utilizzati per l’elaborazione e l’interpretazione delle immagini scannerizzate dei microarray, fornisce tutta una serie di informazioni sulla qualità dei singoli spot basati sulle loro caratteristiche fisiche (Yang et al., 2002a). Molti scienziati, comunque, invece di affidarsi esclusivamente ad un software, preferiscono l’ispezione visuale dei singoli spot mediante la quale, utilizzando delle griglie di sovrapposizione, sono in grado di discernere tra uno spot di alta e uno di bassa qualità (Leung e Cavalieri, 2003). Questa strada praticata principalmente nei primi anni in cui furono utilizzati i microarry risulta, attualmente, essere difficilmente percorribile in quanto, utilizzando microarray con 20.000 e più spots, questa procedura richiederebbe molto tempo e, sicuramente, molta pazienza. È preferibile allora usare per il controllo di qualità, un approccio detto “data-based”, cioè basato sulla analisi dei dati grezzi. In questo tutorial sarà usata la tecnica proposta da Tran et al. (2002) che utilizza la correlazione esistente tra le intensità media e mediana dei singoli spot per selezionare gli spot. 2.2 Normalizzazione dei dati I dati, depurati da segnali anomali, sono quindi sottoposti a normalizzazione il cui scopo fondamentale è la correzione degli errori sistematici introdotti durante la fase sperimentale cercando di mantenere, nello stesso tempo, gli effetti sull’espressione dei geni dovuti al trattamento preso in considerazione. La correzione riguarda le eventuali differenze nell’etichettatura dei campioni con i materiali fluorescenti, nella diversa quantità di materiale genetico incorporato dai singoli spot, nella differente risposta, in termini di fluorescenza, alle diverse intensità di fluorescenza (Quackenbush, 2002). Generalmente, prima di effettuare qualsiasi tipo di intervento, i dati di fluorescenza sono algebricamente trasformati applicando il logaritmo in base 2. Il motivo principale di questa trasformazione risiede nel fatto che i dati di espressione genica consistono di un gran numero di geni a bassa intensità e pochi ad alta, con una distribuzione che presenta una forte asimmetria (skewness) rispetto alla distribuzione normale. Nonostante i modelli statistici utilizzati per le ulteriori analisi siano abbastanza robusti anche in presenza di dati non perfettamente normali, la trasformazione logaritmica migliora le performances dell’analisi nel suo complesso (Quackenbush, 2002). Dopo la trasformazione logaritmica, la normalizzazione dei dati grezzi prodotti da un esperimento con i microarray può avvenire secondo due modalità. La prima riguarda l’uso di un set di sequenze di DNA, dette housekeeping che, in teoria, dovrebbero esprimersi allo stesso modo in situazioni anche molto diverse tra di loro. In pratica, però, questo non accade sempre (Lee et al., 2002; Peppel et al., 2003) per cui si preferisce una seconda modalità che permette di controllare gli errori sistematici mediante la manipolazione matematica dei dati e l’applicazione di opportuni modelli statistici. Sono state proposte diverse tecniche per la normalizzazione dei dati, ma non c’è ancora, in seno alla comunità scientifica, pieno accordo su quali siano le più efficienti e con quale ordine applicarle (Fujita et al., 2006; Dimauro et al., 2007). In questo lavoro saranno usate due tra le tecniche che hanno raccolto maggiore consenso: la LOWESS, che consiste in una regressione pesata localmente e consente di correggere i dati dalla dipendenza sistematica della intensità di fluorescenza, e i modelli ANOVA che correggono i dati per l’effetto dell’array e del colore. Queste due tecniche saranno ampiamente chiarite nei capitoli successivi. 2.3 Strategie per l’individuazione dei geni differentemente espressi Ottenuti i dati correttamente normalizzati, la scelta della tecnica statistica più adatta per l’individuazione dei geni che si esprimono diversamente dipende strettamente dal disegno sperimentale adottato. Generalmente per confrontare l’espressione di un determinato gene nel tessuto trattato e non viene usato il test t corretto (Dudoit et al., 2002), oppure i modelli lineari di analisi di varianza con effetti sia fissi che casuali (Wolfinger et al., 2001). Questi modelli sono applicati gene per gene ma, chiaramente, trattando con migliaia di geni, nascono grossi problemi nel fissare la significatività statistica dei test. Numerosi sono, infatti, i test statistici che devono essere svolti e, per ogni test, esiste una certa probabilità che sia fatta una inferenza non corretta (Storey et al., 2003). Questo problema è conosciuto come multiple testing error rate e, in letteratura, sono stati proposti diversi metodi per la sua risoluzione (per una review completa consultare Pounds, 2006). In questo lavoro, sarà usato un modello lineare misto applicato gene per gene e il multiple testing error rate sarà controllato per mezzo del permutation test. 2.4 Clusterizzazione dei geni differentemente espressi Una volta selezionati i geni che si esprimono diversamente, è importante esplorare le correlazioni tra i pattern di espressione di questi geni. La scoperta di similarità nell’espressione di gruppi di geni gioca un ruolo fondamentale nella genomica funzionale. Molte delle caratteristiche degli individui, infatti, sono difficilmente controllate da singoli geni, ma spesso concorrono gruppi di geni nella formazione del carattere. È stato, ad esempio, ampiamente dimostrato che i caratteri produttivi degli animali di interesse zootecnico sono controllati da pool di geni molto numerosi, ognuno dei quali contribuisce all’espressione del caratere quasi in 46 Quaderni di Bioinformatica maniera infinitesima. Le metodologie statistiche più usate per il raggruppamento dei geni rientrano nell’ambito di una branca della statistica multivariata conosciuta con il nome di cluster analysis. Diverse sono le possibilità di approccio, dai metodi gerarchici a quelli non gerarchici, dai metodi di raggruppamento statico a quelli così detti time course (Sebastiani et al., 2003; Rudolph et al., 2003; Shaanon et al., 2003; Zeng e Garcia-Frias, 2006; Chi et al., 2007). In questo tutorial, sarà usato il metodo di raggruppamento statico attraverso l’algoritmo gerarchico che raggruppa i geni attraverso aggregazioni successive, partendo da un numero di clusters coincidente con quello dei geni fino a finire in un unico cluster contenente tutti i geni. Questo processo si può rappresentare mediante un diagramma ad albero bidimensionale detto dendrogramma che illustra le successive fusioni dei clusters in base al loro grado di similarità. 3. ANALISI DI UN DATA SET SIMULATO I dati utilizzati per l’analisi provengono dal workshop EADGENE tenuto ad Upsala nel 2007 (De Koning et al., 2007). In breve, i dati sono stati generati immaginando un confronto diretto tra due situazioni diverse A e B (ad esempio, il confronto tra DNA estratto da un tessuto tumorale e non). È stata simulata la produzione di 10 microarray, ognuno con 2400 geni in spot duplicati. Sono stati quindi prodotti 10 comma separed (csv) data set (slide1, …, slide10) ognuno con 13 colonne: ‘genename’ che contiene gli identificativi dei geni; ‘index’ che mediante numerazione identifica lo spot nell’array; ‘row’, ‘col’ e ‘grid’ che contengono gli identificativi delle righe, delle colonne e dei blocchi in cui l’array è suddiviso; ‘rowabs’ e ‘colabs’ che indicano le coordinate di riga (da 1 a 120) e di colonna (da 1 a 40) di ogni spot nell’array; ‘bgA’ e ‘bgB’ sono le intensità di background nei due canali relativi alle due situazioni, A e B, confrontate; ‘rawA’ e ‘rawB’ sono le intensità di foreground per i due canali A e B; ‘netA’ e ‘netB’ sono le intensità nette (rawA-bgA e rawB-bgB) di ogni spot dopo aver sottratto dall’intensità di foreground quella di background nei due canali A e B. I dati sono stati generati in modo da rappresentare un esperimento reale con molte fonti di errore sia casuale che sistematico. Dopo aver importato in SAS i 10 file, ad ognuno di essi è aggiunta una nuova colonna chiamata ‘array’ in modo da identificare univocamente l’array: data slide1; set slide1; array=1; run; ………….. data slide10; set slide10; array=10; run; I 10 data set sono quindi “appesi” l’uno sotto l’altro in modo da formare un unico file: proc append base= slide1 data=slide2; run; ………………………………………………………………………………………… proc append base= slide1 data=slide10; run; Al file slide1, che contiene tutti e 10 i files di partenza, viene assegnato il nome complete e poi è ordinato secondo la colonna genename: data complete; set slide1; run; proc sort data=complete; by genename; run; È anche disponibile un file di excel, chiamato workshop_results_sim, in cui sono elencati, tra l’altro, i geni che si esprimono diversamente. Importiamo, in SAS, il foglio di lavoro con i geni espressi assegnandogli il nome espressed, selezioniamo solo le variabili importanti (genename e regulated), ordiniamolo per genename e uniamolo al file complete: data expressed; 47 Quaderni di Bioinformatica set expressed; keep genename regulated; run; proc sort data=expressed; by genename; run; data complete; merge complete expressed; by genename; run; Il data set complete contiene adesso una colonna (regulated) con i geni che si esprimono diversamente nelle due situazioni A e B. Questa informazione sarà utile alla fine di tutta la procedura perché consentirà di confrontare i risultati ottenuti con quelli veri. Selezioniamo adesso (comando keep) le variabili di interesse e rinominiamo le colonne rawa e rawb come G (il canale green) e R (il canale red). Il nuovo data set sarà chiamato work: data work; set complete; keep genename regulated array rawa rawb; run; data work; set work; rename rawa=G rawb=R; run; Lavorando con dati simulati, nessun controllo di qualità per gli spot è possibile. Soltanto gli spots con intensità zero sono eliminati e non sarà effettuata nessuna correzione per il background: data work; set work; if G=0 then delete; if R=0 then delete; run; 3.1 Normalizzazione dei dati Come precedentemente accennato, le intensità R e G sono prima di tutto sottoposte a trasformazione logaritmica (in base 2) in modo da ottenere una distribuzione dei dati approssimativamente normale. La figura 1 mostra, ad esempio, la distribuzione dei dati di intensità per l’array numero 1 prima (figura 1a) e dopo la trasformazione logaritmica (figura 2b). I dati non trasformati presentano una distribuzione fortemente asimmetrica, mentre dopo la trasformazione la distribuzione è molto vicina alla normalità. Array1 2400 a Frequency Frequecy 1800 1200 1200 600 0 Array1 b 800 400 0 2000 8000 14000 20000 26000 >30000 4 Raw A 7 10 13 Lograw A Figura 1: (a) distribuzione dei dati per l’array 1 (a) prima e (b) dopo la trasformazione logaritmica in base 2. 48 16 19 Quaderni di Bioinformatica I seguenti passi di data permettono di effettuare la trasformazione logaritmica delle intensità G e R : data work; set work; logG=log2(G); logR=log2(R); run; Gli istogrammi in figura 2 possono essere ottenuti usando la procedura uni variate del SAS che, oltre agli istogrammi, fornisce le statistiche di base relativamente alla variabile considerata: proc univariate data=work; var G logG R logR; histogram; run; Le intensità log-trasformate dovrebbero riflettere l’abbondanza dell’espressione di ogni singolo gene contenuto nel campione. Questa relazione, comunque, non segue sempre una semplice relazione di proporzionalità, ma è spesso osservata una dipendenza sistematica nei dati rispetto alla intensità di fluorescenza (Yang et al., 2002b). Questo effetto dell’intensità può essere visualizzato M = log R / G contro l’intensità media A = log RG . La lettera M simboleggia la sottrazione “minus”, in quanto M = log R / G = log R − log G , mentre A simboleggia l’addizione “add”, in plottando il logaritmo del rapporto tra le intensità quanto A = log RG = 12 (log R + log G ) . La figura 2a mostra i grafici M-A dei primi quattro arrays in cui è evidente il forte sbilanciamento tra la fluorescenza nel verde e quella nel rosso: alle basse intensità, i geni che si esprimono nel rosso sono maggiori di quelli del verde, mentre accade il contrario alle alte intensità. Per ottenere i grafici nelle figure 2a, occorre innanzi tutto creare le variabili M e A: data work; set work; M=logR-logG; A=(logG+logR)/2; run; I grafici, per ogni array, possono essere ottenuti usando la procedura “gplot”. Prima, però, il data set work deve essere ordinato per array: proc sort data=work; by array; run; proc gplot data=work; plot M*A; by array; run; quit; 49 Quaderni di Bioinformatica A rray1 A rray1 3 8 4 1 0 -4 -1 -8 -12 -3 4 6 8 10 12 14 16 4 A 6 8 10 A A rray2 8 12 14 16 A rray2 5 3 4 1 0 -1 -4 -3 -8 -5 4 6 8 10 12 14 16 4 6 8 10 A A rray3 16 12 14 16 A A rray3 4 8 0 2 -8 0 -16 -2 -24 -4 -32 4 6 8 10 12 14 16 5 A 7 9 Array4 24 A 11 13 15 A rray4 4 16 2 8 0 0 -2 -8 -16 -4 4 6 8 10 12 14 16 5 7 9 A 11 13 15 A a b Figura 2: grafici M-A per i primi 4 array (a) prima e (b) dopo la normalizzazione lowess Per risolvere il problema dello sbilanciamento tra i due canali sono state proposte diverse tecniche (Chatterjee et al., 1991; Chen et al., 1997; Tseng et al., 2001), ma la maggior parte degli autori ritiene che il modo migliore sia utilizzare una tecnica basata sull’intensità dei singoli geni e sulla loro distribuzione spaziale (Quackenbush, 2002; Yang et al., 2002b). Questo approccio è conosciuto con il nome LOWESS (Cleveland, 1979) acronimo di LOcally WEighted Scatterplot Smoothing regression e presenta alcuni vantaggi tra cui quello che non è sensibile ad eventuali dati anomali (outliers) e che le curve previste non sono eccessivamente sinuose (non “inseguono i dati”). La tecnica LOWESS fitta semplicemente una linea (retta o curva) su intervalli di dati successivi e poi, iterativamente, la riadatta in modo da creare una curva continua abbastanza piana. In questo lavoro, la regressione LOWESS per normalizzare i dati è stata applicata secondo il metodo proposto da Yang et al. (2002b). I valori previsti M’ di M = logR/G su A = log RG stimano l’effetto sui dati del fattore intensità di fluorescenza. La differenza M*=M-M’ è il valore normalizzato (corretto cioè per l’intensità). Poiché per i due colori, e A= 1 2 (log 2 M * = log 2 R * − log 2 G * , dove log 2 R * e log 2 G * sono le fluorescenze logaritmiche ) R * + log 2 G * , le intensità logaritmiche normalizzate si possono ottenere nel seguente modo: log G = A + M * 2 and * log* R = A − M * 2 La normalizzazione lowess è stata ottenuta mediante la procedura loess del SAS: (1) proc loess data=work; 50 Quaderni di Bioinformatica (2) ods output outputstatistics=out; (3) model M=A; (4) by array; run; data out; set out; (5) Mstar=depvar-pred; run; data out; set out; (6) logstarG=A+Mstar/2; logstarR=A-Mstar/2; run; Con la riga (1) è invocata la procedura loess del SAS, mentre (2) consente di ottenere un data set di output (out) che contiene i valori previsti (M’=pred); la riga (3) specifica il modello di regressione e (4) il comando by impone al SAS di sviluppare la regressione loess per ogni array. Con i comandi della linea (5) si calcola M* (Mstar) sottraendo M a M’ (depvar e pred, rispettivamente, nel data set out) * * e, infine, in (6) sono calcolati i valori normalizzati log G e log R . La figura 2b mostra i grafici M-A dopo la normalizzazione lowess dei primi quattro array. Confrontando le figure 2a e 2b è chiaro che lo sbilanciamento tra i due canali è stato corretto. Per ottenere i grafici nelle figure 2b, si può usare il seguente programma SAS: data out; set out; M1=logstarR-logstarG; A1=(logstarG+logstarR)/2; run; proc gplot data=out; plot M1*A1; by array; run; quit; Dopo aver selezionato solo le variabili utili (array, logstarG and logstarR), il file out è unito al file work ottenendo il data set norm che contiene i dati corretti con la regressione lowess (logstarG and logstarR) e tutte le altre variabili utili: data out; set out; keep array logstarG logstarR; run; data norm; merge work out; by array; run; I dai normalizzati con la lowess possono ancora essere affetti da errori sistematici dovuti al colore e all’array. Tali fonti di variabilità possono essere introdotte durante lo svolgimento dell’esperimento e tengono conto la prima della diversa efficienza nell’incorporamento dei due colori da parte del DNA, la seconda delle possibili differenze nel processo di ibridizzazione di ciascun array. Nel nostro esperimento simulato, l’effetto del colore è controllato utilizzando un disegno sperimentale dye-swap. Questo disegno usa due array per confrontare gli stessi campioni. Sul primo, alla situazione A è assegnato il colore verde e alla situazione B il colore rosso. Sul secondo array i colori sono invertiti. Questa disposizione è stata ripetuta fino ad ottenere un totale di 10 array, in modo da migliorare le performances dell’esperimento. Nonostante questo accorgimento riguardante il disegno sperimentale, è sempre buona cosa inserire nel modello di correzione finale anche il cdolore oltre all’array. Queste due sorgenti di variabilità sono 51 Quaderni di Bioinformatica generalmente controllate utilizzando i modelli lineari di analisi di varianza. Sia yijk l’intensità corretta con la lowess per il gene i (i=1,…..,2400), etichettato con il colore j (j=1 per R e j=2 per G) nell’array k (k = 1,……,10). Il modello di normalizzazione è: yijk = µ + D j + Ak + ( AD) jk + ε ijk dove µ è il valore medio globale, D è l’effetto fisso del colore, A l’effetto fisso dell’array e AD l’effetto dell’interazione array per colore. Questa correzione riguarda effetti che non sono specifici del singolo gene. I dati finalmente normalizzati saranno i residui del modello lineare. Per poter applicare questo modello, il data set norm deve subire alcune manipolazioni. Esso è innanzi tutto splittato in due data set G and R che contengono le intensità di foreground verdi e rosse: data G; set norm; keep genename array logstarG regulated; run; data R; set norm; keep genename array logstarR regulated; run; Ad ogni data set è aggiunta una ulteriore colonna con il colore appropriato e le intensità di foreground (logstarG and logstarR) sono rinominate: data G; set G; dye='G'; rename logstarG=intensity; run; data R; set R; dye='R'; rename logstarR=intensity; run; Conformemente al piano sperimentale, ai data set G ed R è aggiunta una nuova variabile trattamento (treatment) con due livelli A e B che riflettono le due situazioni sperimentali e, alla fine, il data set R è appeso a G ottenendo il file micro: data G; set G; if array=1 then treatment='A'; if array=2 then treatment='B'; if array=3 then treatment='A'; if array=4 then treatment='B'; if array=5 then treatment='A'; if array=6 then treatment='B'; if array=7 then treatment='A'; if array=8 then treatment='B'; if array=9 then treatment='A'; if array=10 then treatment='B'; run; data R; set R; if array=1 then treatment='B'; if array=2 then treatment='A'; if array=3 then treatment='B'; if array=4 then treatment='A'; if array=5 then treatment='B'; if array=6 then treatment='A'; if array=7 then treatment='B'; if array=8 then treatment='A'; 52 Quaderni di Bioinformatica if array=9 then treatment='B'; if array=10 then treatment='A'; run; proc append base=G data=R; run; data micro; set G; run; l’analisi di varianza, applicata al data set micro, può essere svolta utilizzando il seguente programma SAS: (1) proc glm data=micro; (2) class array dye; (3) model intensity=dye array array*dye; (4) output out=rfi r=res; run; quit; Con la riga (1) è invocata la procedura glm (general linear model) che richiede (2) nel comando class la dichiarazione delle variabili di classificazione che in questo caso sono array e colore (array e dye) mentre (3) il commando model fitta i valori di intensità (intensity), corretti con la loess, in funzione colore (dye), dell’array e della loro interazione. Con la riga (4) è creato un file di output (rfi) che contiene tutte le variabili del data set micro più i residui del modello (res) che costituiscono i dati finali corretti e normalizzati. In questo studio, per inciso, solo l’effetto dell’array è significativo. 3.2 Individuazione dei geni diversamente espressi Per stabilire la significatività statistica e l’intensità dell’effetto trattamento (situazione A e B) è utilizzato un modello lineare di analisi di varianza, applicato ad ogni singolo gene (Wolfinger et al., 2001): res ij = µ i + S j + γ ij dove, resij sono le intensità di fluorescenza normalizzate del i-esimo gene per il j-esimo trattamento; µi è la media globale, Sj l’effetto fisso del trattamento (j=A e B) e γij è l’errore casuale. Fissato il modello generale di analisi, il problema più rilevante da risolvere è come stabilire la significatività statistica delle differenze nell’espressione dei geni. Come accennato nelle pagine precedenti, studiando simultaneamente 2400 geni, bisogna fare i conti con il tasso di errore dovuto ai test multipli (multiple testing error rate). Tra le varie tecniche proposte per il controllo di questo tipo di errore, in questa guida è stato scelto il test di permutazione che usa i dati osservati per derivare la distribuzione di probabilità per l’ipotesi nulla del test. Nel caso semplice del confronto secco tra due gruppi, i dati di fluorescenza sono assegnati casualmente ai due gruppi dopo di che viene condotto il test statistico e il valore del test (ad esempio il valore di t o di F) viene confrontato con quello calcolato sui dati originali. Usando, ad esempio, la procedura mixed del SAS si può annotare il F-value su 1000 permutazioni e, per ogni gene, calcolare il p-value come segue: p − value = numero di F - value > F - value del data set originale 1000 Per sviluppare il test di permutazione è stato utilizzato il linguaggio macro del SAS mediante il quale è stata costruita una apposita macro che permette di ripetere automaticamente la procedura mixed 1000 volte per ogni gene. Siccome la procedura sarà ripetuta centinaia di migliaia di volte, alla macro è bene anteporre i seguenti passi di data che evitano la saturazione della finestra di output e del log del SAS, che condurrebbe al blocco dei calcoli: (1) ods exclude all; (1) ods noresults; (2) proc printto log="c:\sas.log" print="C:\log.out"; run; Le righe (1) evitano che il programma scriva nella finestra di output, mentre la riga (2) forza il SAS a scrivere il log in un file esterno (log.out) che verrà salvato sul disco C. La macro usata per effettuare il test di permutazione è la macro %ArrayPerm (Pei et al., 2004) espressamente costruita per lo sviluppo di test di permutazione con dati estratti da esperimenti di microarray. La macro consente di utilizzare varie procedure di analisi dei dati. Nel caso semplice in esame in questo studio, pur non essendo indispensabile vista l’assenza di effetti casuali, è stata 53 Quaderni di Bioinformatica comunque implementata la procedura mixed che darà gli stessi risultati che potrebbero essere ottenuti con la procedura glm. Si è preferito usare la procedura mixed perché in questo modo la macro sarà facilmente applicabile a casi più complessi di analisi di dati in cui è necessario introdurre effetti casuali. %macro arrayperm(dataset=, seed=, nperm=, odstable=, teststat=, pvalue=); Data old (keep=array dye treatment res genename) New (keep=genename res); Set &dataset; output old; Output new; Proc sort data=old; by genename; run; ods listing close; run; proc mixed data=old; by genename; class treatment; model res=treatment; Ods output &odstable=outold; Run; Ods listing; Run; Data count1 (keep=stold op count); Set outold; Stold=&teststat; Op=&pvalue; Count=0; Output; Data dseed; nextseed=&seed; %do i=1 %to &nperm; data dperm (drop=nextseed) dseed (keep=nextseed); retain seed1; set dseed (in=inseed) new (in=indxa) end=last; if inseed then seed1=nextseed; if indxa then do; call ranuni (seed1, rnd); output dperm; end; if last then do; nextseed=seed1; output dseed; end; run; quit; proc sort data=dperm; by genename rnd; run; quit; data permdata; merge old dperm; by genename; run; quit; Proc sort data=permdata; 54 Quaderni di Bioinformatica by genename; run; ods listing close; run; proc mixed data=permdata; by genename; class treatment; model res=treatment; Ods output &odstable=outperm; Run; Ods listing; Run; Data outperm; set outperm; stperm=&teststat; output; Data count1 (keep=stold op count genename); Merge count1 outperm; If stperm>=stold then count=count+1; Run; quit; %end; Data fin; Set count1; Pvalue=(count)/(&nperm); Run; quit; %mend arrayperm; Una volta sottomessa la macro, occorre lanciare il seguente programma di SAS che rappresenta l’interfaccia della macro con l’utente: (1) %arrayperm (2) (dataset=rfi, (3) seed=436, (4) nperm=1000, (5) odstable=tests3, (6) teststat=fvalue, (7) pvalue=probf); La riga (1) richiama la macro, mentre le altre rappresentano gli imputs della macro. La riga (2) individua il file su cui lavorare; la riga (3) indica il seme per la generazione dei numeri casuali, mentre la riga (4) fissa il numero di permutazioni da effettuare; le righe (5) (6) e (7) indicano quale file di output (tests3) debba essere generato dalla procedura mixed e le relative variabili di interesse Fvalue (fvalue) e p-value (probf). Output della macro è un data set (fin) che contiene alcune variabili non utili: solo le colonne pvalue e genename saranno ritenute. Il file è quindi ordinato per genename e unito al file expressed che contiene i geni espressi conosciuti a priori. Questo nuovo file è chiamato finalperm: data fin; set fin; keep genename pvalue; run; proc sort data=fin; by genename; run; data finalperm; merge expressed fin; by genename; 55 Quaderni di Bioinformatica run; Per individuare i geni espressi basta ora ordinare il data set per p-value e ritenere solo i geni che hanno un p-value <0.05: proc sort data=finalperm; by pvalue; run; data finalperm; set finalperm; if pvalue>=0.05 then delete; run; proc sort data=finalperm; by regulated; run; I geni realmente espressi sono 624 mentre noi ne otteniamo 654, con solo 3 falsi negativi. 4. ANALISI DI UN SET DI DATI REALI I dati usati in questa sezione provengono da un esperimento condotto negli USA presso il Dipartimento di Scienze Animali e Veterinarie della Idaho State University. In questo esperimento furono coinvolte 4 vacche di razza Holstein (indicate con le lettere A, B, C e D) in lattazione a cui fu somministrata, a livello mammario, una dose di somatotropina (bST). È ampiamente provato che la somministrazione di questo ormone a vacche in Piano1 lattazione provoca un aumento della produzione di Rosso Verde latte di circa il 10-15%, se viene ripetuta con Array Vacca Giorno Vacca Giorno regolarità. La produzione di latte aumenta già il 1 A -5 vs. B -2 giorno successivo alla somministrazione e 2 A -2 vs. C -5 raggiunge il massimo nel giro di una settimana. 3 D -5 vs. A 6 Mentre a livello fisiologico e metabolico gli effetti 4 D 6 vs. B -5 della somministrazione di bST sono stati 5 C -2 vs. A 1 ampiamente studiati, si sa poco e nulla su quali 6 C 1 vs. D -2 siano i meccanismi che regolano l’azione della bST 7 B 1 vs. C 6 a livello genetico. Scopo dell’esperimento è studiare 8 B 6 vs. D 1 il profilo di espressione dei geni nel tessuto Piano 2 mammario prima e dopo la somministrazione di bST. A tale scopo sono stati usati 16 microarrays ad 9 D -5 vs. C -2 alta densità prodotti dal National Bovine Functional 10 D -2 vs. A -5 Genomics Consortium (Suchyta et al., 2003).. 11 B -5 vs. D 6 12 B 6 vs. C -5 Tabella 1: disegno sperimentale dell’esperimento 13 A -2 vs. D 1 con la bST che utilizza 16 microarry e 4 vacche 14 A 1 vs. B -2 15 C 1 vs. A 6 16 C 6 vs. B 1 Nella seconda fase furono prodotti altri 8 array secondo il piano 2 della tabella 1. Il disegno sperimentale appartiene alla famiglia dei disegni a loop chiuso con dye-swap, come riassunto in figura 3 che illustra la prima fase dell’esperimento. Furono raccolti, mediante biopsia in vivo, campioni di tessuto mammario in 4 tempi diversi (time points): cinque (-5) e due (-2) giorni prima della somministrazione della bST, uno (1) e sei (6) giorni dopo. In una prima fase dell’esperimento, furono prodotti 8 array in ognuno dei quali fu confrontato l’RNA di due vacche secondo il piano 1 della tabella 1, Gli array furono scannerizzati mediante uno scanner a due laser (Model GenePix 400, Axon Instruments, Union City, CA, USA) e per l’acquisizione e l’elaborazione delle immagini fu usato il software GenePix Pro 3.0. L’output finale dell’esperimento consiste in una grande quantità di informazioni che si riferiscono alla posizione degli spot sull’array, alle intensità di fluorescenza dei singoli spot, alle caratteristiche degli spot. 56 Quaderni di Bioinformatica Le variabili utili per l’analisi statistica, rinominate in accordo con la nomenclatura usata nella prima parte di questa guida, sono: genename, che rappresenta l’identificativo del gene; rawmeanA, rawmeanB, rawmedianA and rawmedianB che sono le intensità media e mediana dei singoli spot (detta anche intensità di foreground) nei canali A e B. Il data set di base, su cui saranno effettuate le analisi statistiche è costituito da 16 file di testo (con estensione txt) chiamati slide1, ……., slide16 disponibili, a richiesta, dagli autori. -5 D Figure 3: loop experimental design of bST experiment that used the cDNA bovine microarray (arrows in the graph) to detect changes in gene expression caused by bST treatment in mammary gland tissue. -5, -2, 1 and 6 are the days before (negatives) and after (positives) bST administration; A, B, C and D are the cows involved in the experiment. C B A A A B 6 D -2 C B C B D Come nella prima parte di questa guida, dopo aver importato i file slide1, ……., slide16, ad ognuno di essi è aggiunta una colonna ‘array’ con il numero identificativo dell’array (1,….,16). I file sono poi appesi uno sotto l’altro fino ad ottenere un unico data set denominato complete che contiene 292208 righe (18263 spot per 16 array) e 10 colonne. D A 1 C 4.1 Controllo di qualità degli spot Il controllo di qualità degli spot è effettuato utilizzando la tecnica proposta da Tran et al. (2002). Il ragionamento su cui si basa questo metodo è frutto di lunghe osservazioni degli spot da cui è emerso che le intensità medie e mediane di fluorescenza sono praticamente le stesse se lo spot è di buona qualità, mentre spot irregolari producono falsi segnali che si traducono in forti differenze tra le due intensità. Questa proprietà suggerisce che la correlazione tra le intensità medie e mediane possa essere usata come un indice della presenza di spot di scarsa qualità, senza andare direttamente a vedere la forma del singolo spot. Per fare ciò si può usare il seguente programma di SAS: (1) proc corr data=complete; var rawmedianA rawmeanA rawmedianB rawmeanB; run; (2) data graphbefore; set complete; if rawmedianA>3000 then delete; if rawmedianB>3000 then delete; if rawmeanA>3000 then delete; if rawmeanB>3000 then delete; run; (3) proc gplot data=graphbefore; plot rawmedianA*rawmeanA rawmedianB*rawmeanB; run; quit; (4) data complete; set complete; if rawmedianA>rawmeanA then ratioA=rawmeanA/rawmedianA; else ratioA=rawmedianA/rawmeanA; if rawmedianB>rawmeanB then ratioB=rawmeanB/rawmedianB; else ratioB=rawmedianB/rawmeanB run; (5) data complete; 57 Quaderni di Bioinformatica set complete; if ratioA <0.80 then delete; if ratioB <0.80 then delete; run; (1a) proc corr data=complete; var rawmedianA rawmeanA rawmedianB rawmeanB; run; (2a) data graphafter; set complete; if rawmedianA>3000 then delete; if rawmedianB>3000 then delete; if rawmeanA>3000 then delete; if rawmeanB>3000 then delete; run; (3a) proc gplot data=graphafter; plot rawmedianA*rawmeanA rawmedianB*rawmeanB; run; quit; Il controllo di qualità è effettuato calcolando, (1) mediante la procedura corr, le correlazioni fra le intensità media e mediana prima di applicare il metodo di correzione (tabella 2). Poi, (2) è generato il data set graphbefore su cui verranno fatti i grafici. Per evitare che i grafici siano troppo schiacciati, gli spot con intensità maggiore di 3000 sono eliminati e (3) sono generati i grafici di figura 4a. Come si vede dalla tabella 2, le correlazioni sono minori del 95% e i dati presentano una forte dispersione (figura 4a). Il metodo di Tran et al. si sviluppa (4) calcolando il rapporto, in ogni spot, tra le intensità medie e mediane in entrambi i canali. Tali rapporti sono effettuati mettendo al numeratore l’intensità minore tra quella media e quella mediana. Gli spot (5) che presentano un valore di tale rapporto minore di 0,8 sono eliminati. Dopo la correzione, le correlazioni (1a) sono ricalcolate (tabella 2) e vengono rifatti (2a) (3a) i grafici (figura 4b). Alla fine della procedura, rimangono 235.054 spot con segnale di buona qualità e con un coefficiente di correlazione tra le intensità di fluorescenza medie e mediane del 99,6%. In definitiva, il metodo di Tran et al. etichetta come spot di bassa qualità circa il 20% degli spot. Tabella 2. Correlazioni tra l’intensità media e mediana degli spot, per I canali A e B, prima e dopo la correzione con il metodo di Tran et al., Prima Dopo rawmeanA rawmeanB rawmeanA rawmeanB rawmedianA 85.3 % 99.6 % rawmedianB 94.5 % 99.6 % 58 Quaderni di Bioinformatica a a b b Figura 4: intensità di fluorescenza media vs. intensità di fluorescenza mediana per l’array 1 a) prima e b) dopo il controllo di qualità. 4.2 La normalizzazione dei dati Il file complete contiene sia le intensità di fluorescenza media che quella mediana di ogni singolo spot in entrambi i canali. Queste informazioni non sono ridondanti ma, anzi, consentono di ottenere risultati più affidabili. Le analisi successive saranno infatti condotte, separatamente, per l’intensità media e per quella mediana e, alla fine, i risultati ottenuti saranno confrontati. Per ottimizzare i calcoli, l’analisi statistica sarà prima condotta per l’intensità mediana, poi, con alcuni semplici passi di data, l’analisi sarà condotta per l’intensità media, come indicato nel programma SAS seguente: (I) data complete; set complete; n+1; run; (II) data work; set complete; keep n array genename rawmedianA rawmedianB; run; (I) Innanzi tutto al file complete è aggiunta una nuova colonna in modo da etichettare ogni riga con un numero; (II) vengono poi selezionate, in un nuovo data set chiamato work, le variabili che saranno usate durante la procedura. Nella prima fase, le variabili selezionate saranno quelle relative all’intensità mediana. Dopo aver svolto tutte le analisi che seguiranno, la procedura potrà essere ripetuta per l’intensità media semplicemente sostituendo il passo di data (II) con i seguenti: (III) data work; set complete; keep n array genename rawmeanA rawmeanB; run; (IV) data work; set work; 59 Quaderni di Bioinformatica rename rawmeanA=rawmedianA; rename rawmeanB=rawmedianB; run; Con i comandi (III) sono selezionate le variabili che riguardano l’intensità media, mentre con i comandi (IV) le intensità medie sono rinominate come mediane. Allora, nel primo round di calcoli saranno utilizzati (I) e (II) a cui seguiranno i seguenti passi di data : (1)data work; set work; rename rawmedianA=G rawmedianB=R; run; (2) data work; set work; logG=log2(G); logR=log2(R); run; (3) data work; set work; M=logR-logG; A=(logG+logR)/2; run; proc sort data=work; by array; run; (4) proc gplot data=work; plot M*A; by array; run; quit; Come fatto nella sezione 3.1 di questa guida, (1) le intensità di foreground sono rinominate G (verde) e R (rosso) e (2) trasformate mediante trasformazione logaritmica in base 2. Poi, (3) vengono create le variabili M ed A e i grafici (4) M vs. A. Nella figura 5a sono mostrati i grafici M-A per i primi due array. Figura 5: grafici M-A per gli array 1 e 2 (a) prima e (b) dopo la normalizzazione lowess Dall’osservazione dei grafici risulta evidente il forte sbilanciamento tra i canali R e G. Nell’array 1 alle basse intensità, il logaritmo del rapporto R/G è completamente spostato verso il canale G, mentre alle alte intensità prevale il canale R. Nell’array 2 il logaritmo del rapporto è invertito. Questo effetto viene corretto mediante la regressione lowess: (1) proc loess data=work; ods output outputstatistics=out; model M=A /select=aicc; by array; run; quit; Array 1 a M 3 M 1 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 Array 1 b ar ray=1 ar ray=1 -3 6 7 8 9 10 11 12 6 13 7 8 9 Array 2 a M 5 10 11 12 13 10 11 12 13 A1 A Array 2 b ar r ay=2 M 1 4 4 3 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 ar ray=2 -4 -4 -5 6 7 8 9 10 A (2) data out; set out; 60 11 12 13 6 7 8 9 A1 Quaderni di Bioinformatica Mstar=depvar-pred; run; data out; set out; logstarG=A+Mstar/2; logstarR=A-Mstar/2; run; (3) data out; set out; M1=logstarR-logstarG; A1=(logstarG+logstarR)/2; run; (4) proc gplot data=out; plot M1*A1; by array; run; quit; In (1) è invocata la procedura loess che consente di sviluppare la regressione lowess, di M su A, che produce il file out da cui (2) sono estratte le intensità corrette (logstarR and logstarG). Poi, con i passi di data (3) e (4) sono disegnati i grafici M-A (figura 5b) usando le intensità corrette. Confrontando le figure 5a e 5b risulta evidente l’efficacia della correzione lowess: rispetto alla linea orizzontale, che rappresenta logaritmo del rapporto uguale a zero (che equivale a R/G=1, intensità uguale nei due canali), gli spot sono abbastanza simmetricamente distribuiti sopra e sotto. I data set out e work sono adesso uniti in modo da ottenere un unico file, norm, da cui sono ritenute solo le variabili che rivestono un interesse per i calcoli successivi: data out; set out; keep array logstarG logstarR; run; data norm; merge work out; by array; run; A questo punto, i dati devono essere corretti per l’effetto del colore e dell’array per cui il file norm è manipolato in modo tale che possa essere applicato il modello ANOVA di correzione. A tale scopo verranno utilizzati gli stessi passi di data illustrati nella prima parte di questa guida riguardante i dati simulati: data G; set norm; keep genename array logstarG; run; data R; set norm; keep genename array logstarR; run; data G; set G; dye='G'; rename logstarG=intensity; run; data R; set R; dye='R'; rename logstarR=intensity; run; 61 Quaderni di Bioinformatica data G; set G; if array=1 then treatment=-2; if array=2 then treatment=-5; if array=3 then treatment=6; if array=4 then treatment=-5; if array=5 then treatment=1; if array=6 then treatment=-2; if array=7 then treatment=6; if array=8 then treatment=1; if array=9 then treatment=-2; if array=10 then treatment=-5; if array=11 then treatment=6; if array=12 then treatment=-5; if array=13 then treatment=1; if array=14 then treatment=-2; if array=15 then treatment=6; if array=16 then treatment=1; run; data R; set R; if array=1 then treatment=-5; if array=2 then treatment=-2; if array=3 then treatment=-5; if array=4 then treatment=6; if array=5 then treatment=-2; if array=6 then treatment=1; if array=7 then treatment=1; if array=8 then treatment=6; if array=9 then treatment=-5; if array=10 then treatment=-2; if array=11 then treatment=-5; if array=12 then treatment=6; if array=13 then treatment=-2; if array=14 then treatment=1; if array=15 then treatment=1; if array=16 then treatment=6; run; proc append base=G data=R; run; data micro; set G; run; La correzione per il colore e l’array è ottenuta utilizzando la procedura glm proc glm data=micro; class array dye; model intensity=dye array array*dye; output out=rfimedian r=res; run; quit; proc sort data=rfimedian; by genename; 62 Quaderni di Bioinformatica run; data rfimedian; set rfimedian; keep genename array treatment dye res; run; Il file rfimedian contiene i residui del modello lineare. Questi residui costituiscono i dati finali, completamente normalizzati. Siccome questi ultimi calcoli richiedono un tempo macchina non indifferente, è meglio salvare il file rfimedian esportandolo come file di SAS in una cartella median results precedentemente creata sul desktop all’interno di un’altra chiamata somatotropin: data 'C:\Documents and Settings\somatotropin\median results\rfimedian.sas7bdat'; set rfimedian; run; 4.3 Individuazione dei geni diversamente espressi L’esperimento considerato si sviluppa attraverso quattro time points: due prima (-5 e -2 giorni) e due dopo (1 e 6 giorni) la somministrazione della bST. Scopo dell’esperimento è l’individuazione dei geni che si esprimono diversamente a breve termine, 1 giorno dopo la somministrazione, e a lungo termine, 6 giorni dopo. L’analisi statistica dovrà quindi confrontare nel primo caso i time points -5 e 1, mentre nel secondo caso, i time points -5 e 6. I due time points prima della somministrazione della bST (-5 e -2) saranno utilizzati per selezionare i geni che si esprimono diversamente a prescindere dall’effetto della bST. Questi geni saranno eliminati dalle successive elaborazioni perché considerati falsi positivi. Analogamente a quanto fatto nella prima parte di questa guida, i geni diversamente espressi sono individuati utilizzando un modello lineare applicato ad ogni singolo gene che, in questo caso, contiene oltre che effetti fissi, anche effetti casuali: rijk = µ + Ti + D j + A k + γ ijk dove rijk sono le intensità di fluorescenza normalizzate (res) contenute nel file rfimedian, µ è la media globale, Ti è l’effetto fisso del tempo (-5, -2, 1 e 6), Dj è l’effetto fisso del colore, Ak è l’effetto casuale dell’array. Il colore è stato inserito nel modello per tenere conto del fatto che i due colori (R e G) potrebbero essere incorporati dal singolo gene con una efficienza diversa, mentre il termine array controlla la variabilità tra i 16 microarray. Poiché sono studiati più di 18000 geni contemporaneamente, le significatività degli effetti devono essere fissate tenendo conto degli errori che si commettono quando sono svolti così tanti test statistici contemporaneamente (multiple testing error rate). Come nella prima parte di questa guida, la probabilità di errore è controllata utilizzando un test di permutazioni implementato nella macro arrayperm che è parzialmente modificata per tenere conto che il fattore da analizzare è a più livelli (i 4 time points). In particolare, il file di output, tests3, della proc mixed è sostituito con il file diff che consente di elencare tutti i contrasti tra i singoli time points. Di seguito è riportata la macro utilizzata: ods exclude all; ods noresults; proc printto log="c:\sas.log" print="C:\log.out"; run; %macro arrayperm(dataset=, seed=, nperm=, odstable=, teststat=, pvalue=); Data old (keep=array dye treatment res genename) New (keep=genename res); Set &dataset; output old; Output new; Proc sort data=old; by genename; run; ods listing close; run; proc mixed data=old; by genename; class treatment dye array; model res=treatment dye; random array; 63 Quaderni di Bioinformatica lsmeans treatment/pdiff; Ods output &odstable=outold; Run; Ods listing; Run; Data count1 (keep=stold op count treat treatt); Set outold; Stold=&teststat; Op=&pvalue; Count=0; treat=treatment; treatt=_treatment; Output; Data dseed; nextseed=&seed; %do i=1 %to &nperm; data dperm (drop=nextseed) dseed (keep=nextseed); retain seed1; set dseed (in=inseed) new (in=indxa) end=last; if inseed then seed1=nextseed; if indxa then do; call ranuni (seed1, rnd); output dperm; end; if last then do; nextseed=seed1; output dseed; end; run; quit; proc sort data=dperm; by genename rnd; run; quit; data permdata; merge old dperm; by genename; run; quit; Proc sort data=permdata; by genename; run; ods listing close; run; proc mixed data=permdata; by genename; class dye treatment array; model res=dye treatment; random array; lsmeans treatment/pdiff; Ods output &odstable=outperm; Run; Ods listing; Run; Data outperm; set outperm; stperm=&teststat; output; Data count1 (keep=stold op count genename treat treatt); Merge count1 outperm; If stperm>=stold then count=count+1; 64 Quaderni di Bioinformatica Run; quit; %end; Data perm; Set count1; Pvalue=(count)/(&nperm); Run; quit; %mend arrayperm; L’interfaccia utente della macro è: %arrayperm (dataset=rfimedian, seed=642, nperm=1000, odstable=diffs, teststat=tvalue, pvalue=probt); Il data set di output (perm) contiene diverse colonne inutili per cui solo le variabili genename, pvalue, treat e treatt sono ritenute: data perm; set perm; keep genename pvalue treat treatt; run; Le colonne treat e treatt contengono i contrasti tra i quattro livelli del fattore tempo. I passi di data che seguono permettono di ottenere tre file, uno per ogni contrasto a cui siamo interessati: data fin52; set perm; if treat=-5 and treatt=1 then delete; if treat=-5 and treatt=6 then delete; if treat=-2 and treatt=1 then delete; if treat=-2 and treatt=6 then delete; if treat=1 and treatt=6 then delete; run; data fin51; set perm; if treat=-5 and treatt=-2 then delete; if treat=-5 and treatt=6 then delete; if treat=-2 and treatt=1 then delete; if treat=-2 and treatt=6 then delete; if treat=1 and treatt=6 then delete; run; data fin56; set perm; if treat=-5 and treatt=-2 then delete; if treat=-5 and treatt=1 then delete; if treat=-2 and treatt=1 then delete; if treat=-2 and treatt=6 then delete; if treat=1 and treatt=6 then delete; run; Il file fin52 contiene le differenze di espressione dei geni prima della somministrazione della bST (-5 vs. -2). I geni che hanno un p-value<0.05 sono considerati falsi positivi e sono eliminati dai file fin51 e fin56 in modo da ottenere, alla fine, solo i geni che effettivamente si esprimono diversamente a breve e a lungo temine rispetto alla somministrazione di bST: 65 Quaderni di Bioinformatica (1) data fin52; set fin52; keep genename pvalue; run; (2) data fin52; set fin52; if pvalue='.' then delete; if pvalue>=0.05 then delete; run; (3) data fin52; set fin52; rename pvalue=pvalue52; run; (4) proc sort data=fin52; by genename; run; (1) data fin51; set fin51; keep genename pvalue; run; (2) data fin51; set fin51; if pvalue='.' then delete; if pvalue>=0.05 then delete; run; (3) data fin51; set fin51; rename pvalue=pvalue51; run; (4) proc sort data=fin51; by genename; run; (5) data expres51; merge fin51 fin52; by genename; run; (6) data expres51; set expres51; if pvalue51='.' then delete; if pvalue52>=0 then delete; run; (7) data expres51; set expres51; drop pvalue52; run; (8) proc sort data=expres51; by genename; run; (1) data fin56; set fin56; keep genename pvalue; run; (2) data fin56; set fin56; 66 Quaderni di Bioinformatica if pvalue='.' then delete; if pvalue>=0.05 then delete; run; (3) data fin56; set fin56; rename pvalue=pvalue56; run; (4) proc sort data=fin56; by genename; run; (5) data expres56; merge fin56 fin52; by genename; run; (6) data expres56; set expres56; if pvalue56='.' then delete; if pvalue52>=0 then delete; run; (7) data expres56; set expres56; drop pvalue52; run; (8) proc sort data=expres56; by genename; run; (9) data medianexpres51; set expres51; run; data medianexpres56; set expres56; run; Con i passi di data (1) nei file considerati vengono ritenute solo le variabili utili e (2) sono poi selezionati i geni che si esprimono diversamente (p-value<0.05). Quindi, (3) la colonna pvalue è rinomnata e (4) i file sono ordinati per genename. (5) Il file fin52 è unito sia al file fin51 che al file fin56 in modo da ottenere i file expres51 e express56, rispettivamente. (6) I geni che si esprimevano nel file fin52 sono sottratti, (7) le colonne inutili eliminate, (8) i file expres51 e expres56 sono ordinati per genename e (9) rinominati medianexpres51 e medianexpres56. Siccome i calcoli per ottenere questi due file richiedono molto tempo macchina, è utile salvare i file medianexpres51 e medianexpres56 come file di SAS in modo da poter essere richiamati facilmente: data 'C:\Documents and Settings\somatotropin\median results\medianexpres51.sas7bdat'; set medianexpres51; run; data 'C:\Documents and Settings\somatotropin\median results\medianexpres56.sas7bdat'; set medianexpres56; run; Salvare quindi il “program editor” di SAS con il nome “median” e chiudere il programma. A questo punto tutti i calcoli fin qui effettuati saranno svolti nuovamente utilizzando l’intensità media. Questo sarà fatto semplicemente aprendo il program editor median e ripetendo tutti i passi di data considerando però l’intensità media come descritto all’inizio della sezione 4.1. Alla fine della procedura, i file rfimedian, expres51 e expres56 saranno rinominati rfimean, meanexpres51 e meanexpres56 e salvati in una cartella chiamata mean results: data 'C:\Documents and Settings\somatotropin\mean results\rfimean.sas7bdat'; set rfi; run; 67 Quaderni di Bioinformatica data 'C:\Documents and Settings\somatotropin\mean results\meanexpres51.sas7bdat'; set meanexpres51; run; data 'C:\Documents and Settings\somatotropin\mean results\meanexpres56.sas7bdat'; set meanexpres56; run; Salvare quindi il program editor con il nome “mean” e chiudere il SAS. Aprire poi una nuova sessione del SAS e importare i data set che contengono i geni diversamente espressi ordinandoli per genename: data meanexpres51; set 'C:\Documents and Settings\somatotropin\meanexpres51.sas7bdat'; run; data meanexpres56; set 'C:\Documents and Settings\ somatotropin\meanexpres56.sas7bdat'; run; data medianexpres51; set 'C:\Documents and Settings\ somatotropin\medianexpres51.sas7bdat'; run; data medianexpres56; set 'C:\Documents and Settings\ somatotropin\medianexpres56.sas7bdat'; run; proc sort data=meanexpres51; by genename; run; proc sort data=meanexpres56; by genename; run; proc sort data=medianexpres51; by genename; run; proc sort data=medianexpres56; by genename; run; Definiamo “top fra i geni espressi” i geni che si esprimono sia per l’intensità mediana che per l’intensità media. Questi geni sono quelli che hanno la maggiore probabilità di non essere dei falsi positive. Per selezionarli possono essere utilizzati i seguenti passi di data: (1) data meanexpres51; set meanxpres51; rename pvalue51=meanpvalue51; run; (2) data fin51; merge meanexpres51 medianexresp51; by genename; run; (3) data fin51; set fin51; if meanpvalue51='.' then delete; if pvalue51='.' then delete; run; (1) data medianexpres56; set medianexpres56; rename pvalue56=meanpvalue56; 68 Quaderni di Bioinformatica run; (2) data fin56; merge meanexpres56 medianexpres56; by genename; run; (3) data fin56; (1) La colonna pvalue51 (pvalue56) è rinominata meanpvalue51 (meanpvalue56) e (2) i file con le intensità media e mediana sono fusi per ottenere il file fin51 (fin56) e, alla fine, (3) sono selezionati i geni che si ritrovano sia per l’intensità media che per quella mediana. La tabella 3 mostra il numero di geni che si esprimono sia per l’intensità media che per quella mediana nei confronti -5 vs. 1 e -5 vs. 6. Questi geni sono i “top fra i geni espressi” in relazione alla somministrazione di bST e saranno i soli ad essere usati nelle successive analisi. set fin56; if meanpvalue56='.' then delete; if pvalue56='.' then delete; run; Tabella 3. numero di geni che si esprimono per l’intensità media e per quella mediana nei confronti -5 vs. 1 e -5 vs. 6 e numero di geni che si esprimono simultaneamente nelle due intensità. Confronti Geni diversamente espressi Intensità mediana Intensità media Intensità media e mediana (geni top espressi) -5 vs. 1 496 464 129 -5 vs. 6 968 979 282 I seguenti passi di data, consentono di identificare i geni che si esprimono solamente nel confronto -5 vs. 1, solo in -5 vs. 6 e, infine, i geni che si esprimono in entrambi i confronti: (1) data fin51; set fin51; keep genename pvalue51; run; data fin56; set fin56; keep genename pvalue56; run; data fin5156; merge fin51 fin56; by genename; run; (2) data only51; set fin5156; if pvalue56>=0 then delete; run; (3) data only56; set fin5156; if pvalue51>=0 then delete; run; (4) data both5156; set fin5156; if pvalue51='.' then delete; if pvalue56='.' then delete; run; 69 Quaderni di Bioinformatica (1) è generato un file, chiamato fin5156, che contiene i geni che si esprimono in entrambi i confronti. Con i passi (2) e (3) sono ottenuti due file, only51 e only56, che contengono i geni che si esprimono solo nei confronti -5 vs. 1 e -5 vs. 6, rispettivamente. Poi, (4) è generato il file both5156 che contiene i geni che si esprimono sia in -5 vs. 1 che in -5 vs. 6. Il risultato è che 85 geni si esprimono solo a breve termine, 238 a lungo termine (-5 vs. 6) e 44 sia a breve che a lungo termine. 4.4 Clusterizzazione dei geni che si esprimono diversamente Una volta individuati i geni che si esprimono diversamente, il passo successivo è quello di tentare di raggrupparli a seconda del loro profilo di espressione. Questo consente di individuare pool di geni che si esprimono allo stesso modo e che quindi contribuiscono alla determinazione del fenomeno in esame. In questa guida, a tale scopo, è usato il metodo di clusterizzazione statico sviluppato per via gerarchica. Per poter effettuare la clusterizzazione, il software SAS richiede che il data set sia sistemato come in tabella 4. Per ottenere ciò, è necessario effettuare tutta una serie di passaggi. Tabella 4: sistemazione finale del data set affinchè possa essere applicata la procedura di clusterizzazione. Nome gene Giorni Giorni Giorni Giorni NBFGC -5 -2 1 6 AW355130 -1.66 -2.47 0.03 -0.15 AW428151 -0.56 -1.24 -0.69 0.28 AW656367 -2.76 -1.03 -2.73 -2.75 AW669466 1.48 1.01 0.73 2.35 BE481095 2.63 5.69 0.53 0.41 BE481675 0.37 0.47 -0.71 -1.50 BE484690 4.13 3.00 4.18 1.54 BG691610 5.08 3.65 4.88 2.50 BG691611 2.49 2.07 3.38 4.26 L’analisi dei cluster sarà sviluppata usando l’intensità di fluorescenza mediana. A tale scopo, in una nuova sessione del SAS, è richiamato il file rfimedian che contiene i le intensità mediane normalizzate: data rfimedian; set 'C:\Documents and Settings\somatotropin\mean results\rfimean.sas7bdat'; run; Usando la procedura mixed, sono calcolate le intensità medie di ogni gene in ognuno dei momenti considerati. Alla fine viene creato un file di output chiamato means: ods exclude all; ods noresults; proc mixed data=rfi; by genename; class array dye treatment; model res=treatment dye; random array; lsmeans treatment/ pdiff; ods output lsmeans=means; run; Nel file means sono ritenute solo le variabili utili: data means; set means; keep genename treatment estimate; run; 70 Quaderni di Bioinformatica Per ottenere il data set come illustrato nella tabella 4, il file the means è trasposto secondo genename usando la procedura transpose del SAS e il file trasposto è chiamato cluster: proc transpose data=means out=cluster; by genename; run; I passi di data che seguono consentono di rinominare le colonne che contengono le intensità e di ritenere solo le variabili utili: data cluster; set cluster; if _name_='treatment' then delete; rename col1=treat5; rename col2=treat2; rename col3=treat1; rename col4=treat6; run; data cluster; set cluster; drop _name_ ; run; Poi, viene creato un nuovo data set chiamato cluster51 unendo assieme il file cluster e fin51: data cluster51; merge cluster fin51; by genename; run; Il file cluster51 contiene la colonna pvalue51 con valori solo in corrispondenza dei geni diversamente espressi nel confronto 5 vs. 1. Con passi di data che seguono vengono ritenuti solo i geni espressi diversamente: data cluster51; set cluster51; if pvalue51='.' then delete; run; data cluster51; set cluster51; drop pvalue51; run; Per ottenere risultati più facilmente interpretabili, è aggiunta una nuova colonna n (rinominata genes51), che assegna un numero a ogni gene: data cluster51; set cluster51; n+1; rename n=genes51; run; La procedura cluster permette di raggruppare i geni (per maggiori dettagli vedere: http://support.sas.com/documentation/cdl/en/statug/59654/HTML/default/cluster_toc.htm): proc cluster data=cluster51 OUTTREE=tree method=average standard; var treat5 treat1 treat6; id genes51; 71 Quaderni di Bioinformatica run; 2. 5 la procedure tree consente di ottenere il dendrogramma finale (figura 6). Un dendrogramma simile può essere creato per il contrasto -5 vs. 6. proc tree data=tree ; id genes51; run; Figure 6: dendrogramma relativo clusterizzazione dei geni nel confronto -5 vs. 1 A v e r a g 2. 0 e D i s t a n 1. 5 c e B e t w 1. 0 e e n alla C l u 0. 5 s t e r s 0. 0 132589197383556817118165419111991111341274277123683811819739681161341613691275587614511621568459915114134248277111121311972445612 72084298 20829177117217902011571220170 31159284505312408 9 8612 0200666201611 44855320529793316044529343657061012918003208 6324 1 3 4 7 107 1398 2 27 4 92 6 5 6 5 3 6940 8 05 8 genes51 5. CONCLUSIONI L’analisi dei dati di microarray è un processo che si sviluppa attraverso passi successivi in cui sono applicate sia tecniche di analisi statistica sia di manipolazione matematica dei dati. Ad ogni step sono disponibili diversi approcci e metodologie e la scelta delle più appropriate dipende sia dal disegno sperimentale che dal tipo di dati. Nella prima parte di questa guida sono stati analizzati dati provenienti da un esperimento simulato, con un disegno sperimentale basato sul semplice confronto tra due diverse situazioni. Essendo, in questo caso, i geni diversamente espressi conosciuti a priori, è stato possibile per gli autori testare alcune tra le tecniche disponibili in letteratura e proporre in questa guida quelle che consentono di ottenere i risultati migliori in termini di geni espressi correttamente individuati. Questa prima parte è anche servita per familiarizzare con il software SAS che, essendo un software puramente statistico, necessita che sia appresa la logica e la tecnica di programmazione. Nella seconda parte di questa guida è stata affrontata l’analisi dei dati provenienti da un esperimento reale applicando le strategie di analisi scelte e testate nella prima parte della guida. L’esperimento reale si basa su un disegno molto più complesso del precedente, per cui le tecniche di analisi sono state adeguatamente adattate e il programma SAS opportunamente modificato. L’analisi si è conclusa con l’individuazione dei geni che si esprimono diversamente secondo i vari livelli del fattore tempo, ed è stato proposto un abbozzo di clusterizzazione. A questo punto il lavoro dello statistico può ritenersi finito e subentra quello dei biologi molecolari per l’interpretazione dei risultati. Questa breve guida è stata prodotta sperando che sia di aiuto a coloro i quali, pur non essendo statistici di mestiere, sentono comunque il bisogno di analizzare i dati non appena sono stati prodotti dai loro esperimenti. Questo può consentire da un lato di soddisfare l’ovvia curiosità riguardo l’esito dell’esperimento, dall’altro di testare le procedure sperimentali seguite e, nel caso, apportare le opportune correzioni. RINGRAZIAMENTI Questo lavoro è stato svolto con fondi del Ministero della Salute, Ricerca Finalizzata- Programma Straordinario 2006. Gli Autori desiderano ringraziare la dr.ssa Silvia Sorbolini per la revisione di tutte le parti riguardanti la biologia molecolare. Bibliografia citata Alvine, J.C., Kemp, D.J., Stark, G.R., 1977. Method for detection of specific RNAs in agarose gels by transfer to diazobenzyloxymethyl-paper and hybridization with DNA probes. Proc. Natl. Acad. Sci. Usa 74, 5350-5354. Berk, A.J., Sharp, P.A., 1977. Sizing and mapping of early adenovirus mRNAs by gel electrophoresis of S1 endonuclease-digested hybrids. Cell 12, 721-732 Chatterjee S and Price B. Regression Analysis by Example. Wiley New York (2nd ed.) 1991. Chen Y, Dougherty ER, Bittner ML. 1997. Ratio-based decisions and the quantitative analysis of cDNA microarray images. J Biomed Optics 1997; 2: 364-374. Chi YY, Ibrahim JG, Bissahoyo A, Threadgill DW. Bayesian hierarchical modeling for time course microarray experiments. Biometrics 2007; 63: 496–504 Cleveland ES. Robust locally weighted regression and smoothing scatterplots. J Amer Stat Assoc 1979; 74: 829-836. De Koning DJ, Jaffrezic F, Lund MS, et al. The EADGENE microarray data analysis workshop. Genet Sel Evol 2007; 39: 621-631 Dimauro C, Bacciu N, Macciotta NPP. Effect of normalization on detection of differentially expressed genes in cDNA microarray data analysis. Ital J Anim Sci 2007; 6: 122-124 Dudoit S, Yang YH, Callow MJ, Speed TP. Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments. Statistica Sinica 2002; 12: 111-139 Duggan, D.J., Bittner, M., Chen, Y., Meltzer, P., and Trent, J.M., 1999. Expression profiling using cDNA microarrays. Nature Genetics 21, 20-14. Fujita A, Sato JR, de Oliveira Rodrigues L, et al. Evaluating different methods of microarray data normalization. BMC Bioinformatics 2006; 7: 469 72 Quaderni di Bioinformatica Leung YF and Cavalieri D. Fundamentals of cDNA microarray data analysis. Trends Genet 2003; 19: 645-659 Lee PD, Sladek R, Greenwood CM, Hudson TJ. 2002. Control genes and variability: absence of ubiquitous reference transcripts in diverse mammalian expression studies. Genome Res 2002; 12: 292-297 Liang, P., Pardee, A.B., 1992. Differential display of eukaryotic messenger RNA by means of the polymerase chain reaction. Science 257, 967-961 Lockhart, D.J. et al., 1996. Expression monitoring by hybridization to high-density oligonucleotide arrays. Nature Genetics 21, 20-24 Phang TL, Neville MC, Rudolph M, Hunter L. Trajectory clustering: a non-parametric method for grouping gene expression time courses with applications to mammary development. Pac Symp Biocomput 2993; 8: 351-362 Pei D, Liu W, Cheng C. %ArrayPerm: A SASff Macro for Permutation Analysis of Microarray Data. Paper CC06 2004 available at http://www.lexjansen.com/pharmasug/2004/coderscorner/cc06.pdf Peppel J, Kemmeren P, Bakel H, et al. Monitoring global messenger RNA changes in externally controlled microarray experiments. EMBO Rep 2003; 4: 387-393 Pounds SB. Estimation and control of multiple testing error rates for microarray studies. Brief Bioinform 2006; 7: 25-36 Quackenbush J. Microarray data normalization and transformation. Nat Genet Suppl 2002; 32: 496-501 Rudolph CM, MacManaman JL, Hunter L, et al. Functional development of the mammary gland: use of expression profiling and trajectory clustering to reveal changes in gene expression during pregnancy, lactation, and involution. J Mammary Gland Biol Neoplasia 2003; 8 (2): 287- 307 Sebastiani P, Gussoni E, Kohane IS, Ramoni MF. Statistical challenges in functional genomics. Statistical Science 2003; 18 (1): 3370 Shannon W, Culverhouse R, Duncan J. Analyzing microarray data using cluster analysis. Pharmacogenomics 2003; 4(1): 41-51 Schena, M., Shalon, D., Davis, R. W., Brown, P.O., 1995. Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science 270, 467-470. Storey JD, Tibshirani R. Statistical significance for genomewide studies. Proc Nat Acad Sci USA 2003; 100: 9440-9445 Suchyta, S.P., Sipkovsky, S., Kruska, R., et al., 2003. Development and testing of a high-density cDNA microarray resource for cattle. Physiol Genomics 15, 158-164 Tran PH, Peiffer DA, Shin Y, et al. Microarray optimizations: increasing spot accuracy and automated identification of true microarray signals. Nucleic Acids Res 2002; 30, 12 e54. Tseng GC, Oh MK, Rohlin L, et al. Issues in cDNA microarray analysis: quality filtering, channel normalization, models of variations and assessment of gene effects. Nucleic Acids Res 2001; 29: 2549-2557. Velculescu, V.E., Zhang, L., Vogelstein, B., Kinzler, K.W., 1995. Serial analysis of gene expression. Science 270, 484-487 Watson M, Perez-Alegre M, Baron MD, et al. Analysis of simulated microarray dataset: comparison of methods for data normalization and detection of differential expression. Genet Sel Evol 2007; 39: 669-683 Wolfinger RD, Gibson G, Wolfinger ED, et al. Assessing gene significance from cDNA microarray expression data via mixed models. J Comput Biol 2001; 8: 625-637 Yang YH, Buckley MJ, Dudoit S, Speed TP. Comparison of Methods for Image Analysis on cDNA Microarray Data. J Comput Graph Stat 2002 a; 11: 108-136 Yang YH, Dudoit S, Luu P, et al. Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation. Nucleic Acids Res 2002 b; 30: No 4 e 15 Zeng Y and Garcia-Frias J. A novel HMM-based clustering algorithm for the analysis of gene expression time-course data. Computat Stat Data Anal 2006; 50: 2472 – 2494. 73 Quaderni di Bioinformatica 74 Quaderni di Bioinformatica CHEMOINFORMATICS: INTRODUCTION TO DATABASES AND TOOLS Patricia Rodriguez-Tomè Center for Advanced Studies, Research and Development in Sardinia Pula Cagliari What is Chemoinformatics? The International chemometrics Society (ICS) gives the following definition: "Chemometrics is the science of relating the measurements made on a system or a chemical process system state through the application of mathematical or statistical." This is chemiometry then a science that is based on using mathematical and statistical methods for solving multivariate problems. Other definitions "chemometrics is the use of mathematical and statistical methods for handling, interpreting, and Predicting chemical date." Malinowski, É.R. (1991) Factor Analysis in Chemistry, Second Edition. "The entire process whereby data (eg, numbers in a table) are Transformed into information used for decision making." Beebe, K.R., Pell R.J., and M.B. Seasholtz. (1998) chemometrics: A Practical Guide. "That chemometrics is disciplines in chemical uses mathematics, statistics and formal logic (a) to design or select optimal experimental Procedures (b) to Provide maximum relevant chemical information by analyzing chemical data, and (c) to Obtain knowledge about chemical systems. " Massart, D.L., et al. (1 997) Data Handling in Science and Technology 20A: Handbook of chemometrics Qualimetrics andr Part A. "The Science of chemometrics Relating measurement is made on a chemical system or Process to the state of the system via application of mathematical or statistical methods." “Chemoinformatics is the mixing of those information resources to transform data into information and information into knowledge for the intended purpose of making better and faster decisions in the area of drug lead identification and optimisation.” (from F.K. Brown Chapter 35. Chemioinformatics: What is it and How does it Impact Drug Discovery. Annual Reports in Med. Chem., Ed. James A. Bristol, 1998, Vol. 33, pp. 375.) Which can be described as “ chemoinformatics is the application of informatics methods to solve chemical problems”. Although these methods were originally developed for data analysis in chemistry, they are now numerous employment opportunities in other sectors of different nature. In the field of animal sciences, for example, variables that can be detected in animals that have a given disease are numerous but not all are necessarily useful to describe the problem in question. There are many other fields of inquiry that fall within the powers which may present problems of a multivariate, such as nutrition (the effect of a diet, for example, can be evaluated by several physiological parameters, physical and chemical) or genetic (phylogenetic relationships between different races can be investigated by examining the gene frequencies at certain loci). In all cases in which the variables are numerous and sometimes correlated, the use of chemometric methods can help to provide an overview of the problem, highlighting the relationship between the variables considered and the relative importance of each in 'context of a given problem, and may also highlight the relationship between samples (in our case between animals) according to their distribution in multi-dimensional space described by all the variables. These methods are widely used to solve numerous problems, such as: -initial exploration of data; -highlighting the existence of homogeneous groups of samples classified a priori (cluster analysis); -formulation of mathematical models for quantitative prediction of responses (regression); -formulation of mathematical models for the prediction of qualitative responses (classification). What can informatics do for chemistry? for example, predict in silico the properties (physical, chemical and biological) of an unknown chemical compound or ensemble of compounds, without doing the actual experiments. Informatics will assist by creating the tools and data management systems. Data will be collected an organised. Tools will allow complex searches in these data. They will provide the means to gather information and extract the knowledge. Chemoinformatics and Bioinformatics? What is the difference between chemoinformatics and bioinformatics ? A bioinformatician is mainly interested in genes and proteins. But genes, DNA, RNA or proteins are chemical compounds, and chemists have had a long time interest in those compounds. HAve a look at the Nobel Prices for chemistry - like "for the discovery and development of the green fluorescent protein, GFP" in 2008. The frontier between bioinformatics and chemoinformatics is a fuzzy one. Data and databases Chemical Nomenclature: Let’s take the example of the aspirin. It can be called by different names like: 75 Quaderni di Bioinformatica IUPAC Name 2-acetyloxybenzoic acid Canonical SMILES CC(=O)OC1=CC=CC=C1C(=O)O InChI InChIKey InChI=1S/C9H8O4/c1-6(10)13-8-5-3-2-4-7(8)9(11)12/h2-5H,1H3,(H,11,12) BSYNRYMUTXBXSQ-UHFFFAOYSA-N IUPAC Name The IUPAC nomenclature of organic chemistry is a systematic method of naming organic chemical compounds as recommended by the International Union of Pure and Applied Chemistry (IUPAC) [1]. The purpose is to reduce ambiguity - by having a one-to-one relationship between name and structural formula. Ideally, every organic compound should have one and only one name from which one (and only one) structural formula can be drawn. This purpose requires a system of principles and rules - implemented in the IUPAC nomenclature. SMILES SMILES (Simplified Molecular Input Line Entry System) is a character notation for entering and representing molecules and reactions [2]. SMILES is a language with a simple vocabulary (atom and bond symbols) and only a few grammar rules. While there can be many SMILES representing the same molecule - for example, CCO, OCC and C(O)C all specify the structure of ethanol depending on the order of the atoms- there are algorithms that will provide a unique representation of the molecule, regardless of the atoms ordering (see Daylight Chemical Information Systems at http://www.daylight.com/, OpenEye Scientific Software at http://www.eyesopen.com/ and Chemical Computing Group at http://www.chemcomp.com/). These unique SMILES called canonical SMILES are commonly used for indexing and ensuring uniqueness of molecules in a database. Other Example of SMILES : Ethanol CCO Acetic acid CC(=O)O Aspirin CC(=O)Oc1ccccc1C(O)=O We will describe in the tools section, software and web services that calculate a SMILES from a molecular structure, or design the structure from a SMILES representation. INCHI and INCHI key The IUPAC International Chemical Identifier (InChI) [3] is a non-proprietary and textual identifier for chemical substances. It has been designed to provide a standard an human readable way to encode molecular information and to facilitate the search for such information. InChIs identifiers express more information on the molecule than the simpler SMILES. Each structure has a unique InChI string, which is very important for the searches in databases. The InChIKey, is a fixed length (25 character) condensed digital representation of the InChI that facilitate web searches for chemical compounds, searches that can be difficult in some web pages with very long InChi names. Databases PubChem PubChem [4] provides information on the biological activities of small molecules. It is a component of NIH's Molecular Libraries Roadmap Initiative. PubChem includes substance information, compound structures, and BioActivity data in three primary databases, Pcsubstance, Pccompound, and PCBioAssay, respectively. Pcsubstance contains more than 62 million records. Pccompound contains more than 26 million unique structures. PCBioAssay contains more than 2000 BioAssays. Biological Assays [5] are a type of scientific experiment used in drug developments, and conducted to measure the effects of a substance on a living organism. A bioassay will represent the qualitative or quantitative results of an experiment involving a great number of molecules being tested for activity/toxicity against a given target, such as a protein, or a cancer cell. The Substance/Compound database, where possible, provides links to BioAssay description, literature, references, and assay data points. The BioAssay database also includes links back to the Substance/Compound database. PubChem is integrated with Entrez, 76 Quaderni di Bioinformatica NCBI's primary search engine, and also provides compound neighboring, sub/superstructure, similarity structure, BioActivity data, and other searching features.PubChem contains BioAssay information from a multitude of depositors (taken from the PubChem web site. URL: http://pubchem.ncbi.nlm.nih.gov/ ). Pubchem main page: enter the name of the compound (here aspirin), and click GO. The result page lists all entries with the name “aspirin” listed as name or synonym. Click on one of them to go to the specific page, shown in the following to figures. 77 Quaderni di Bioinformatica The Bioassay results sections lists the bioassays where the compound has been tested. Protein structures with links to the protein database corresponding entries are also listed. ChemSpider ChemSpider is a chemistry search engine. It has been built with the intention of aggregating and indexing chemical structures and their associated information into a single searchable repository and make it available to everybody, at no charge. The database is built up from an aggregate of data from a series of publicly available data sources and from ChemSpider collaborators data (URL: http://www.chemspider.com/) Enter a name, SMILES and click on the search button. There are also advanced search. The result page links to many other sites and related information options. chEBI Chemical Entities of Biological Interest (ChEBI) [7] is a freely available dictionary of molecular entities focused on small chemical compounds. ChEBI incorporates an ontological classification, which specifies the relationships between molecular entities and their 78 Quaderni di Bioinformatica parents and/or children. ChEBI release 67 (April 8, 2010) contains 548,850 entities.(URL: http://www.ebi.ac.uk/chebi/init.do). ChEBI links to many databases. chEMBL ChEMBL [8] is a database of bioactive drug-like small molecules, it contains 2-Dstructures, calculated properties (e.g. logP, Molecular Weight, Lipinski Parameters, etc.) and abstracted bioactivities (e.g. binding constants, pharmacology and ADMET data). We attempt to normalize the bioactivities into a uniform set of end-points and units where possible, and also to tag the links between a molecular target and a published assay with a set of varying confidence levels. The data is abstracted and curated from the primary scientific literature, and cover a significant fraction of the SAR and discovery of modern drugs. (URL: http://www.ebi.ac.uk/chembldb/index.php) Example of statistics of CHEMBL_03 from April 18, 2010. Protein targets 4,436 Cell-line targets 1,198 Other targets(organisms, etc) 1696 Total targets 7,330 Total activities 2,490,742 Total compounds 640,809 Total publications 34,982 79 Quaderni di Bioinformatica ChEMBL also uses the JME applet to draw a picture to use for the query. The first result page lists all the molecules found in the database. Clicking on one of them will take you to the full results page. Bioactivity data is also present in ChEMBL. DrugBank The DrugBank database [9] is a bioinformatics and chemoinformatics resource that combines detailed drug (i.e. chemical, pharmacological and pharmaceutical) data withcomprehensive drug target (i.e. sequence, structure, and pathway) information. The 80 Quaderni di Bioinformatica database contains nearly 4800 drug entries including >1,350 FDA-approved small molecule drugs, 123 FDA-approved biotech (protein/peptide) drugs, 71 nutraceuticals and >3,243 experimental drugs. Additionally, more than 2,500 non-redundant protein (i.e. drug target) sequences are linked to these FDA approved drug entries. (URL: http:// www.drugbank.ca/). MMSINC: a database for virtual screening MMsINC [10] is a database of compounds built for virtual screening and chemioinformatics applications. The database has been developed in a collaboration between the University of Padova and CRS4 (Pula). MMsINC is a non-redundant and manually curated database, integrated with other chemical and structural public databases (URL: http://mms.dsfarm.unipd.it/MMsINC/search/). The interface uses the JME applet [11] to allow the user to draw the chemical structure.The SMILE can also be entered directly. Different query types are available, with multiple options. Clicking the search button will start the database search. The following figure shows the result of a substructure search. 81 Quaderni di Bioinformatica Click on one entry, to retrieve the specific page. MMsINC is cross-referenced to PDB, the Protein Data Bank, maintained by the RSCB at Rutgers University, USA. Similarities to PDB ligand have been pre-calculated and inserted into MMsINC. The user can also search the ligands either by similarity, or by PDB ID. Tools Molecular editors A molecular editor is a graphic program to create and modify the chemical structures representations. There are standalone programs (commercial or open source) that can be installed on the personal computer of the user, and web applications. 82 Quaderni di Bioinformatica Standalone: Avogadro http://avogadro.openmolecules.net/wiki/Main_Page ChemDraw http://www.cambridgesoft.com/software/ChemDraw/ Chemtool http://ruby.chemie.uni-freiburg.de/~martin/chemtool/ SymyxDraw http://www.symyx.com/micro/draw31/index.html JChemPaint http://sourceforge.net/apps/mediawiki/cdk/index.php?title=JChemPaint Web: Jmol http://jmol.sourceforge.net/ JME http://www.molinspiration.com/jme/index.html used by databases like MMsINC SketchEl http://sketchel.sourceforge.net/ Pubchem http://pubchem.ncbi.nlm.nih.gov/edit/index.html used by PubChem, is written in Javascript [12] The next two Web applications allow you to insert a SMILE and obtain the chemical structure. They both have the same functionality: enter a SMILE, and press the Submit button. DEPICT URL: http://www.daylight.com/daycgi/depict The text field for entering a SMILE shows only 50 characters, but the application has no limit to the number of characters that can be entered. MOLPAINT URL: http://mms.dsfarm.unipd.it/MMsINC/molpaint/index.php Molpaint is similar to depict with one difference. You can enter multiple smiles, separated by a space: it will then design all the molecules. You can select also the size of the image and its background color. File exchange formats 83 Quaderni di Bioinformatica There are many file formats to exchange molecular structure information. The table below describes the most commonly used formats, and provides the link to the corresponding web site. suffix file format URL description .mol molfile the most used connection table format www.symyx.com .sdf SDfile Structure-Data file: extension of molfile, may contain more than one compound www.symyx.com .smi SMILES the most used linear code www.daylight.com .pdb PDB file Protein Data BAnk file format http://www.rcsb.org/ .cif CIF Crystallographic Information File format, for 3D structure information http://www.iucr.org/resources/ cif .cml CML Chemical Markup Language, chemistry specialized extension of XML cml.sourceforge.net We will describe below the two most commonly used formats : MOL file, and SDF file. MDL Mol file MDL Mol file of the “aspirin” compound. A Molfile describes a single molecular structure. Here is the structure of the aspirin C9H8O4: Header Block 1 2 3 CDK 10/7/09,10:42 4 13 13 0 c o n n e c t i o n t a b l 1.6338 2.4591 2.8717 2.4591 3.6970 4.1097 3.6970 2.8717 1.2211 1.2211 2.8717 2.4591 3.6970 0 0 0 0 -10.1304 -10.1304 -9.4161 -8.7017 -9.4161 -10.1304 -10.8448 -10.8448 -9.4161 -10.8448 -7.9873 -7.2729 -7.9873 0 0 0999 V2000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 C C C O C C C C O O C O C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Counts line 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 84 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Atom Block Quaderni di Bioinformatica e C t a b 1 2 3 3 5 6 7 2 1 1 11 11 4 M 2 3 4 5 6 7 8 8 9 10 12 13 11 1 1 1 2 1 2 1 2 2 1 2 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Bond Block END Properties Block The format of the first line of the header block is free (empty in this case). The second line has a strict format and contains the user name (empty here) the name of the program that has generated the MOL file (CDK) and the date of creation. The third line of the header block is for comments (empty here). The next lines form the Connection table or Ctab, and contains the description of the atoms which constitute the compound described. Line number 4 - the counts line, specifies how many atoms constitute the molecule described in the file, how many bonds are within the molecule, if it is chiral or not etc... The last set of characters, here V2000 indicates which format of Ctab is being used. For a more detailed description of a molfile, go to the SYMYX web site (http:// www.symyx.com/ solutions/white_papers /ctfile_ formats.jsp). SDF file This is the SDF file of the “aspirin” compound, taken from DrugBank. An SDF file may contain structure and properties information for any number of molecules. SDF is used to handle large datasets of molecules, for example for data transfer between databases or analysis tools. 945 21 21 0 3.7321 6.3301 4.5981 2.8660 4.5981 5.4641 4.5981 6.3301 5.4641 6.3301 5.4641 2.8660 2.0000 4.0611 6.8671 5.4641 6.8671 2.3100 1.4631 1.6900 6.3301 1 5 1 1 12 1 2 11 1 2 21 1 3 11 2 4 12 2 5 6 1 5 7 2 6 8 2 6 11 1 7 9 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0999 V2000 -0.0600 0.0000 O 0 0 1.4400 0.0000 O 0 0 1.4400 0.0000 O 0 0 -1.5600 0.0000 O 0 0 -0.5600 0.0000 C 0 0 -0.0600 0.0000 C 0 0 -1.5600 0.0000 C 0 0 -0.5600 0.0000 C 0 0 -2.0600 0.0000 C 0 0 -1.5600 0.0000 C 0 0 0.9400 0.0000 C 0 0 -0.5600 0.0000 C 0 0 -0.0600 0.0000 C 0 0 -1.8700 0.0000 H 0 0 -0.2500 0.0000 H 0 0 -2.6800 0.0000 H 0 0 -1.8700 0.0000 H 0 0 0.4769 0.0000 H 0 0 0.2500 0.0000 H 0 0 -0.5969 0.0000 H 0 0 2.0600 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 85 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Quaderni di Bioinformatica 7 14 1 0 0 0 0 8 10 1 0 0 0 0 8 15 1 0 0 0 0 9 10 2 0 0 0 0 9 16 1 0 0 0 0 10 17 1 0 0 0 0 12 13 1 0 0 0 0 13 18 1 0 0 0 0 13 19 1 0 0 0 0 13 20 1 0 0 0 0 M END > <DRUGBANK_ID> DB00945 > <DRUGBANK_GENERIC_NAME> Aspirin > <DRUGBANK_MOLECULAR_FORMULA> C9H8O4 > <DRUGBANK_MOLECULAR_WEIGHT> 180.1574 > <DRUGBANK_EXACT_MASS> 180.042258744 > <DRUGBANK_IUPAC_NAME> 2-acetyloxybenzoic acid > <DRUGBANK_INCHI> InChI=1/C9H8O4/c1-6(10)13-8-5-3-2-4-7(8)9(11)12/h2-5H,1H3,(H,11,12)/f/h11H > <DRUGBANK_INCHI_KEY> InChIKey=BSYNRYMUTXBXSQ-WXRBYKJCCW > <DRUGBANK_CANONICAL_SMILES> CC(=O)OC1=CC=CC=C1C(O)=O > <DRUGBANK_ISOMERIC_SMILES> CC(=O)OC1=CC=CC=C1C(O)=O $$$$ The first part of an SDF file is composed by the Molfile (here taken from a different database than before). Additional data items are provided in an XML like format. They describe the non-structural properties (molecular formula, molecular weight, INCHI, SMILES, mass ...). An SDF file might contain information for more than one molecule. Multiple compounds are separated by a delimiter, a line of four dollar signs ($$$$). References 1 - IUPAC: International Union of Pure and Applied Chemistry, Organic Chemistry Division, Commission on Nomenclature of Organic Chemistry, Nomenclature of Organic Chemistry, Section A, B, C, D, E, F, and H, 1979 Edition, J. Rigaudy and S. Klesney, eds, Pergamon Press, Oxford, 1979, 559 pp. 2 - SMILES: http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html 3 - INCHI: http://www.iupac.org/inchi/ 4 - PubChem: PubChem: a public information system for analyzing bioactivities of small molecules Yanli Wang, Jewen Xiao, Tugba O. Suzek, Jian Zhang, Jiyao Wang, and Stephen H. Bryant Nucleic Acids Res. 2009 July 1; 37(Web Server issue): W623– W633. Published online 2009 July 1. doi: 10.1093/nar/gkp456. 5- BioAssays: An overview of the PubChem BioAssay resource Yanli Wang, Evan Bolton, Svetlana Dracheva, Karen Karapetyan, Benjamin A. Shoemaker, Tugba O. Suzek, Jiyao Wang, Jewen Xiao, Jian Zhang, and Stephen H. Bryant Nucleic Acids Res. 2010 January; 38(Database issue): D255–D266. Published online 2010 January. doi: 10.1093/nar/gkp965. 6 - ChemSpider: http://www.chemspider.com/News.aspx 7 - chEBI: Chemical Entities of Biological Interest: an update Paula de Matos, Rafael Alcántara, Adriano Dekker, Marcus Ennis, Janna Hastings, Kenneth Haug, Inmaculada Spiteri, Steve Turner, and Christoph Steinbeck Nucleic Acids Res. 2010 January; 38(Database issue): D249–D254. Published online 2010 January. doi: 10.1093/nar/gkp886. 8 - chEMBL: The European Bioinformatics Institute’s data resources Catherine Brooksbank, Graham Cameron, and Janet Thornton Nucleic Acids Res. 2010 January; 38(Database issue): D17–D25. Published online 2010 January. doi: 10.1093/nar/gkp986. 9 - DrugBank: DrugBank: a knowledgebase for drugs, drug actions and drug targets David S. Wishart, Craig Knox, An Chi Guo, Dean Cheng, Savita Shrivastava, Dan Tzur, Bijaya Gautam, and Murtaza Hassanali Nucleic Acids Res. 2008 January; 36 (Database issue): D901–D906. Published online 2008 January. doi: 10.1093/nar/gkm958. 10 - MMsINC: MMsINC: a large-scale chemoinformatics database Joel Masciocchi, Gianfranco Frau, Marco Fanton, Mattia Sturlese, Matteo Floris, Luca Pireddu, Piergiorgio Palla, Fabian Cedrati, Patricia Rodriguez-Tomé, and Stefano Moro Nucleic Acids Res. 2009 January; 37(Database issue): D284–D290. Published online 2009 January. doi: 10.1093/nar/gkn727. 11 - JME: Molecular structure input on the web Peter Ertl J Cheminform. 2010; 2: 1. Published online 2010 February 2. doi: 10.1186/1758-2946-2-1. 86 Quaderni di Bioinformatica 12 - The PubChem chemical structure sketcher Wolf D Ihlenfeldt, Evan E Bolton, and Stephen H Bryant J Cheminform. 2009; 1: 20. Published online 2009 December 17. doi: 10.1186/1758-2946-1-20. 13 - Chemoinformatics - a textbook. edited by Johann Gasteiger and Thomas Engel. Published by Wiley-VCH. 87 Quaderni di Bioinformatica 88 Quaderni di Bioinformatica ANALISI D’IMMAGINE E PATTERN RECOGNITION Alessio Soggiu Paola Roncada Gian Franco Greppi* Istituto Sperimentale Italiano Lazzaro Spallanzani Milano *CNBS (Centro NanoBiotecnologie Sardegna) Laboratorio di bionanotecnologie Dipartimento di Scienze Zootecniche, Università di Sassari ll riconoscimento automatico di oggetti (pattern) e la loro descrizione, classificazione e raggruppamento (clustering) sono argomenti importanti in una grossa varietà di problemi sia nell’area ingegneristica che scientifica, quali: la biologia, la psicologia, la medicina, il marketing, la visione artificiale, l’intelligenza artificiale fino alla fusione di dati (meglio conosciuta come data fusion). La domanda che sorge spontanea nel descrivere la pattern recognition, è: cos’è esattamente un pattern? Watanabe descrive un pattern come “l’opposto del caos; ovvero un’entità, generalmente definita a cui si può dare un nome”. Per esempio, un pattern può essere l’immagine di una impronta digitale, una parola scritta in corsivo, l’immagine di un volto, o un segnale acustico. Dato un pattern, il suo riconoscimento (detto anche classificazione) può essere principalmente effettuato in due modi; supervisionato, in cui il pattern in input viene identificato come membro di una classe tra quelle predefinite, ovvero viene classificato in maniera supervisionata avendo l’utente o il progettista definito a priori le classi di interesse; non supervisionato, in cui il pattern in input viene assegnato ad una classe sconosciuta a priori, ovvero i pattern vengono raggruppati nei cosiddetti cluster (tecniche di clustering). Il problema della pattern recognition quindi viene posto nella forma di classificazione o identificazione delle categorie di appartenenza, dove le classi o categorie possono essere sia definite dal progettista del sistema (nei metodi supervisionati), sia apprese dalle similarità tra i pattern (nei metodi non supervisionati). I sistemi di pattern recognition creano, chiaramente, nuovi scenari applicativi sia a livello accademico che industriale. Si pensi, per esempio, ai vantaggi per un processo industriale che, impiegando il riconoscimento automatico di oggetti, può beneficiare di un controllo qualità automatizzato. Sempre nell’ambito industriale, l’impiego di algoritmi di riconoscimento automatico, porta ad arricchire le funzionalità dei robot impiegati, come ad esempio la possibilità di muoversi in determinati ambienti riconoscendo automaticamente gli ostacoli. Altre applicazioni di interesse, soprattutto ai giorni nostri, sono quelle di video sorveglianza automatizzata. Pensiamo, ad esempio, ad una stazione ferroviaria o ad un aeroporto ed a come, vista la mole di persone in transito, un riconoscimento automatico di oggetti incustoditi possa essere cruciale per le funzionalità di sorveglianza. Il riconoscimento di volti, è un’altra area di applicazione che consente di aumentare notevolmente la sicurezza sia in ambito pubblico che aziendale. Un ulteriore scenario, molto interessante, riguarda la cosiddetta “Realtà Aumentata” dove informazioni reali percepite da utenti umani vengono arricchite da informazioni sull’ambiente estratte automaticamente da un sistema automatizzato. Un esempio tipico è quello militare con la possibilità di avere visori che includono tracciamento automatico dei soggetti individuati e stima della distanza dall’osservatore. Già da questi primi esempi è chiaro come l’uso di tecniche di riconoscimento automatico possa notevolmente migliorare le attuali applicazioni tecnologiche in diversi campi, dal settore scientifico a quello sociale ed industriale. Le principali aree di applicazione della Pattern Recognition sono: Automazione dei processi industriali. •Riconoscimento di oggetti, ispezioni visuali, controlli di qualità. •Navigazione e coordinazione di robot.Sorveglianza e tracking. •Traffico, sicurezza. Interazione uomo-computer. •Rilevamento e riconoscimento di volti. •Assistenza ai disabili. Realtà virtuale e visualizzazione. •Ricostruzione di scene e modelli 3D. •Fotometria. Applicazioni spaziali e militari. 89 Quaderni di Bioinformatica Tra i campi più innovativi nell’applicazione del riconoscimento di pattern, c’è ad esempio l’affective computing, identificato da Picard, che introduce la possibilità da parte del sistema di riconoscere e esprimere emozioni, al fine di rispondere in maniera intelligente alle espressioni umane. In genere, un sistema di pattern recognition, riceve in ingresso la descrizione di un oggetto, ovvero un insieme di misure che lo caratterizzano (feature) e sulla base di queste “decide” a quale classe l’oggetto appartiene. La decisione della classe di appartenenza ha un costo associato all’assegnazione dell’oggetto alla classe sbagliata e l’obiettivo con cui realizzare un buon sistema di pattern recognition è quello di minimizzare il costo di classificazione. Comunque, la caratteristica comune a tutti questi sistemi e domini applicativi è che le misure caratteristiche (feature) non sono suggerite o identificate dagli esperti di dominio, ma vengono estratte ed ottimizzate da procedure che elaborano dati; questo avviene perché in genere abbiamo migliaia di misure possibili anche per un singolo pattern. La crescente disponibilità di risorse per il calcolo automatico non solo consente di elaborare contemporaneamente grosse moli di dati, ma permette anche l’analisi e la classificazione di grandi insiemi di pattern. Allo stesso tempo, la domanda di applicazioni di pattern recognition cresce continuamente grazie alla disponibilità di grosse basi di dati e del calo dei costi dei supporti di memorizzazione. La progettazione di un sistema di pattern recognition richiede essenzialmente di affrontare i seguenti aspetti: 1. Acquisizione e pre-elaborazione (e normalizzazione) dei dati. 2. Rappresentazione e classificazione dei dati o pattern. 3. Decisione e classificazione. Il dominio di applicazione, in pratica, influenza enormemente la scelta dei sensori (nel senso generale del termine), delle tecniche di pre-elaborazione e di normalizzazione dei dati, della rappresentazione degli stessi e del modello decisionale di classificazione. È noto che per i problemi di riconoscimento ben definiti e quindi condizionati opportunamente (esempio: piccole variazioni nei valori appartenenti alla stessa classe e grosse variazioni in quelli appartenenti a classi diverse) esistono soluzioni efficienti e buone strategie decisionali di classificazione. Per esempio, usare approcci orientati all’apprendimento, basandosi su un insieme di dati per l’addestramento automatico del sistema (training set) consente la necessaria flessibilità del sistema, che addestrato con dati diversi, può reagire a situazioni diverse con un margine di errore controllabile. I quattro principali approcci alla pattern recognition sono: 1. approcci basati su modello (Template Matching); 2. approcci con classificazione statistica (Statistical Classification); 3. approcci sintattici o strutturali (Syntactic or Structural Matching); 4. approcci basati su reti neurali (Neural Networks). Questi approcci non sono necessariamente separati ed indipendenti, infatti a volte lo stesso metodo può essere usato nei diversi approcci con diverse interpretazioni. Esistono anche tentativi di progettazione e realizzazione di sistemi ibridi che introducono e integrano più modelli all’interno dello stesso sistema. Lo sviluppo di metodi nuovi ed effettivi per l’identificazione delle differenze tra gruppi di mappe 2D rappresenta una delle frontiere nel campo della proteomica, soprattutto per lo sviluppo di strumenti diagnostico-prognostici affidabili e relativamente poco costosi. Il riconoscimento automatico di oggetti e di immagini (pattern) e la loro descrizione, classificazione e raggruppamento (clustering) sono temi importanti in una grossa varietà di problemi sia nell’area ingegneristica che scientifica, quali: la biologia, la psicologia, la medicina, la visione artificiale, l’intelligenza artificiale fino alla fusione di dati (meglio conosciuta come data fusion). La domanda che sorge spontanea nel descrivere la pattern recognition, è: cos’è esattamente un pattern? Per esempio, un pattern può essere l’immagine digitale di una mappa proteomica, una parola scritta in corsivo, l’immagine di un volto, o un segnale acustico. Dato un pattern, il suo riconoscimento (detto anche classificazione) può essere principalmente effettuato in due modi: supervisionato, in cui il pattern in input viene identificato come membro di una classe tra quelle predefinite, ovvero viene classificato in maniera supervisionata avendo l’utente o il progettista definito a priori le classi di interesse; oppure non supervisionato, in cui il pattern in input viene assegnato ad una classe sconosciuta a priori, ovvero i pattern vengono raggruppati nei cosiddetti cluster (tecniche di clustering). Il problema della pattern recognition quindi viene posto nella forma di classificazione o identificazione delle categorie di appartenenza, dove le classi o categorie possono essere sia definite dal ricercatore (nei metodi supervisionati), sia apprese dalle esperienze di addestramento. In genere, un sistema di pattern recognition, riceve in ingresso la descrizione di un oggetto, ovvero un insieme di misure che lo caratterizzano (feature) e sulla base di queste “decide” a quale classe l’oggetto appartiene. La decisione della classe di appartenenza ha un costo associato all’assegnazione dell’oggetto alla classe sbagliata e l’obiettivo con cui realizzare un buon sistema di pattern recognition è quello di minimizzare il costo di classificazione. Comunque, la caratteristica comune a tutti questi sistemi e domini applicativi è che le misure caratteristiche (feature) non sono suggerite o identificate dagli esperti di dominio, ma vengono estratte ed ottimizzate da procedure che elaborano dati; questo avviene perché in genere abbiamo migliaia di misure possibili anche per un singolo pattern. La crescente disponibilità di risorse per il calcolo automatico non solo consente di elaborare contemporaneamente grosse moli di dati, ma permette anche l’analisi e la classificazione di grandi insiemi di pattern. Allo stesso tempo, la domanda di applicazioni di pattern recognition cresce continuamente grazie alla disponibilità di grosse basi di dati e del calo dei costi dei supporti di memorizzazione. In molte delle applicazioni di pattern recognition risulta evidente che non esista un approccio “ottimale” e “generale” alla classificazione e che la scelta di integrare diversi metodi e approcci è la migliore da perseguire. La progettazione di un sistema di pattern recognition richiede essenzialmente di affrontare i seguenti aspetti: 90 Quaderni di Bioinformatica -Acquisizione e pre-elaborazione (e normalizzazione) dei dati. -Rappresentazione e classificazione dei dati o pattern. -Decisione e classificazione. Con il termine classificazione si intende una procedura statistica che permette di associare ciascun oggetto (che sia un’immagine, un pattern, un dato numerico. . . ), appartenente a un generico spazio multidimensionale, a una o più etichette, corrispondenti alle possibili classi di cui può far parte un oggetto; si parla di classificazione esclusiva quando ciascun oggetto appartiene a una sola classe, o di classificazione continua o fuzzy se un oggetto può appartenere, con un certo grado di probabilità, a più classi. Per ottenere una classificazione si usano le informazioni riguardanti alcuni tratti salienti (feature, caratteristiche) degli oggetti in esame, e li si confronta, in un apposito spazio multidimensionale, con quelli di un training set: se questo training set è etichettato, e quindi le possibili classi sono note e ogni campione nel set è già associato alla classe di appartenenza, si parla di apprendimento supervisionato; in caso contrario, cioè quando le possibili classi vanno direttamente ricavate dai dati stessi, abbiamo a che fare con apprendimento non supervisionato. Uno dei primi e più semplici degli approcci alla pattern recognition è quello basato sul modello, il cosiddetto template matching. I sistemi di pattern recognition basati sul modello utilizzano la cosiddetta tecnica del “matching”; il matching è definito come l’operazione che viene usata per determinare la similarità tra due entità dello stesso tipo: punti, curve o forme ad esempio. Nell’approccio basato su modello, quest’ultimo (il modello) è tipicamente un prototipo del pattern od oggetto da riconoscere e classificare, tipicamente una forma bidimensionale. L’oggetto da riconoscere (il pattern) viene confrontato con tutti i modelli memorizzati nel sistema considerando i cambiamenti di scala e le possibili invarianze per rotazione o traslazione. Naturalmente ci saranno casi in cui sarà utile l’invarianza di scala, cioè ci interessa riconoscere l’oggetto semplicemente dalla forma, mentre in altri casi sarà necessario distinguere non solo rispetto alla forma ma anche rispetto alla dimensione. La misura di similarità utilizzata nei sistemi basati su modello, è solitamente una correlazione statistica e può essere ottimizzata apprendendo i parametri dal training set, ovvero da un insieme di esempi di oggetti forniti in input al sistema. Il confronto di gruppi di mappe 2D non è come potrebbe sembrare a prima vista un problema di poco conto, questo dovuto anche al fatto che alcuni limiti sperimentali influenzano la tecnica dell’elettroforesi 2D. Pur essendo infatti una tecnica estremamente potente per la separazione ad alta risoluzione di proteine derivanti da diverse matrici biologiche, l’elettroforesi 2D è caratterizzata da una riproducibilità a volte bassa. Questo limite dipende da 2 fattori principali: dal campione che si intende studiare e dalle procedure strumentali e sperimentali che vengono impiegate. Spesso infatti i campioni da analizzare sono rappresentati da popolazioni eterogenee di proteine con differenti proprietà fisico-chimiche che portano inevitabilmente all’aumento della complessità e alla diminuzione della riproducibilità nell’esperimento. La seconda causa che porta ad una diminuzione della riproducibilità è da ricercarsi nelle tecniche strumentali, dalla preparazione del campione alla acquisizione dell’immagine. Effettivamente la tecnica della 2DE presenta molteplici step (purificazione, estrazione, matrici utilizzate, condizioni di corsa, colorazioni ecc) che possono introdurre ciascuno della variabilità influenzando, a volte pesantemente, il risultato finale della riproducibilità della posizione e dell’intensità dei singoli spot sulla mappa 2D. A questo punto è possibile comprendere come l’elevatissimo numero di proteine teoricamente separabili in una mappa 2D (fino a 10.000) e le difficoltà tecnico/biologiche ad essa associate complichino abbastanza seriamente il raggiungimento di una classificazione chiara dei campioni e l’utilizzo di questa tecnica per studi di qualsiasi natura. Tuttavia con il controllo scrupoloso dei vari parametri sperimentali e l’utilizzo della bioinformatica (analisi d’immagine e statistica) si può ovviare alla maggior parte delle problematiche pocanzi descritte riuscendo ad ottenere risultati di elevato livello. L’analisi d’immagine effettuata con software dedicati, rappresenta un passaggio cruciale nell’interpretazione biologica dei dati derivanti da esperimenti di elettroforesi bidimensionale. Gli importanti progressi fatti per quel che riguarda l’acquisizione delle immagini ad alta risoluzione, combinato con il miglioramento della capacità di calcolo dei computer, permette di effettuare analisi di routine di un gran numero di esperimenti contemporaneamente, ma sono ancora tanti i limiti dei software per l’estrapolazione dei dati significativi dalle immagini acquisite. L’analisi d’immagine comprende quei processi di elaborazione che vengono effettuati sulle immagini, a partire dalla individuazione del numero e delle caratteristiche degli spot (detection), al matching, alla quantificazione dei volumi, fino alla creazione dei profili di espressione, seguita dall’analisi statistica dei dati. Questo tipo di analisi è fondamentale, in quanto permette la digitalizzazione dei segnali a partire da un campione biologico e quindi una accurata analisi statistica. I problemi che si incontrano sono diversi e rappresentano i limiti della maggior parte dei software attualmente in commercio: attualmente non esiste un software completamente automatizzato che sia in grado di effettuare una analisi completa e precisa senza ritocchi o interventi manuali da parte dell’operatore. Il primo passaggio fondamentale è quello dell’image filtering, che consente di eliminare il background e distinguerlo dagli spot proteici. Il rumore di fondo in una mappa bidimensionale può essere di natura diversa e dipendere da granuli di polvere, microbolle o altre imperfezioni del gel che potrebbero avere forma o dimensioni simili a quelle di uno spot proteico ed essere confusi con esso. E’ importantissimo quindi mettere a punto algoritmi che siano in grado di distinguere gli spot e sapere filtrare accuratamente il rumore come saprebbe fare l’occhio dell’operatore. Il secondo passaggio fondamentale è invece rappresentato dalla spot detection, che permette l’identificazione degli spot e l’attribuzione di tutta una serie di caratteristiche per descriverlo: area, volume coordinate x/y etc. Questi processi possono essere effettuati manualmente o automaticamente. Nel primo caso l’operatore può intervenire per correggere eventuali errori del software e il rischio è rappresentato dal fatto che la manipolazione delle immagini può aumentare l’errore statistico, nel secondo caso invece il software lavora automaticamente, ma senza la conoscenza dell’operatore e con il rischio di avere una analisi imprecisa. Lo scopo è quello di effettuare miglioramenti sull’automatizzazione dell’analisi riducendo al limite gli interventi manuali dell’operatore. L’analisi dell’immagine è quindi un concetto ampio che potremo suddividere in due step principali: 91 Quaderni di Bioinformatica • • acquisizione e processamento delle immagini analisi delle immagini via software il primo step di acquisizione e processamento è cruciale per i successivi step analitici. Acquisizione delle immagini. Digitalizzazione. La digitalizzazione dell’immagine è il primo momento di un’analisi quantitativa. I gel possono essere acquisiti utilizzando uno scanner (laser o luce bianca) oppure una CCD camera. Qualunque sia il sistema di acquisizione verranno acquisiti dei valori di trasmissione. Il valore di trasmissione è il rapporto tra l’intensità del segnale ricevuto dal detector in presenza del gel e l’intensità ricevuta in assenza del gel (I/I0). Qualunque sia la strumentazione utilizzata nessuna delle funzioni di aumento del contrasto (es. correzione gamma) deve essere utilizzata in quanto distorcerebbe il reale valore di trasmissione. I valori di trasmissione (da 0 a 1) sono generalmente codificati in 8, 12 o 16 bit (a seconda dello strumento utilizzato e delle sue caratteristiche tecniche) e convertiti in 256(28), 4096(212) o 65536(216) scale di grigio. In questo modo l’immagine che si ottiene è una matrice di valori (pixel) tra 0 e 65536. Le immagini a questo punto sono descritte da dei pixel; ciascun pixel è caratterizzato da una coppia di coordinate x e y che ne indicano la posizione dello spazio 2D e un valore Z che corrisponde all’intensità del pixel (fig 1). Ciascuna mappa è quindi costituita da una serie di pixel (la matrice) descritti dalla loro densità ottica (OD). Solitamente viene utilizzato il formato TIFF (tagged image file format) in scala di grigi, formati (es. JPEG ) che implicano l’utilizzo di algoritmi di compressione non devono essere utilizzati. Fig 1. Visone 3D di mappa bidimensionale. Parametri associati ad uno spot. Risoluzione dell’immagine. Più alta la risoluzione (pixel per unità di lunghezza), migliore sarà il riconoscimento e la quantificazione degli spot. La risoluzione è inoltre un fattore limitante per la discriminazione di gruppi di spot che si sovrappongono. La maggioranza dei software per l’analisi d’immagine non rilevano spot multipli in un gruppo se non ci sono delle variazioni tra i picchi d’intensità (fig. 1). Così l’accuratezza del riconoscimento degli spot dipende dall’abilità di discriminare anche differenze minime che dipende a sua volta dalla risoluzione. Fig.2 interfaccia per la calibrazione mediante step tablet Solitamente per gel 24x20 cm la risoluziutilizzata è di 100micron/pixel che corrisponde circa a 300 dpi (84.7micron/pixel). Questo valore è un compromesso tra 2 fattori: 1) velocità di acquisizione dell’immagine, in quanto il tempo richiesto per fare la scansione di un gel può diventare limitante nel caso in cui sia necessario acquisire diversi gel ; 2) dimensione dell’immagine: gel 24x20 acquisiti a 100micron/pixel e 16 bit occupano dai 10 ai 15 MB, ovviamente maggiore sarà la dimensione dei file e la loro numerosità più lungo sarà il tempo per analizzarli utilizzando dei software dedicati. Dinamica dell’immagine Durante l’acquisizione dell’immagine sarebbe bene utilizzare sempre tutti i bit disponibili in quanto la precisione della quantificazione dipende dal numero dei livelli di grigio utilizzati. I dati di trasmittanza solitamente vengono convertiti automaticamente in densità ottica (OD) (questo non si applica nel caso di colorazioni fluorescenti) in quanto la concentrazione proteica è linearmente correlata con la densità ottica e non con la trasmittanza (fig 1). Facendo questa trasformazione si rende lineare la relazione tra volume degli spot e 92 Quaderni di Bioinformatica quantità di proteina. Tutte queste operazioni solitamente vanno fatte dopo la calibrazione dello scanner mediante step tablet (fig.2) e la sottrazione del background. Software dedicati Per l’analisi delle mappe 2D solitamente vengono utilizzati dei pacchetti software specifici (tabella 1). Software Company Platforms Images supported Delta 2-D 4.0 Melanie 7.0 PD Quest 8 Advanced Xpedition Image Master 2D Platinum 7 HT Analyzer Progenesis SameSpot 3.33 Redfin 2D DECODON PC (Windows XP, Vista) http://www.decodon.com Mac OS X Geneva Bioinformatics PC (Windows XP, Vista) http://www.genebio.com Bio-Rad Laboratories PC (Windows XP, Vista) http://www.biorad.com Alpha Innotech Corporation PC (Windows XP, Vista) http://alphainnotech.com GE Healthcare PC (Windows XP, Vista) http://www4.gelifesciences.com Genomic Solutions http:// PC (Windows XP, Vista) www.genomicsolutions.com Nonlinear Dynamics PC (Windows XP, Vista) http://www.nonlinear.com Ludesi PC (Windows XP, Vista) http://www.ludesi.com/ Tabella 1. Software per l’analisi d’immagine TIFF (8, 12 and 16 bit), JPEG, BMP, GIF, PNG. TIFF (8, 16 bit), GIF, TIFF (8, 16 bit) Biorad Scan TIFF (8,12 and 16 bit) TIFF (8,12 and 16 bit) TIFF (8, 12 and 16 bit) TIFF (8, 12 and 16 bit) TIFF (8, 12 and 16 bit) Sebbene l’ordine degli step possa differire tra un software e l’altro possiamo comunque suddividere l’analisi in diversi step comuni a tutti i software: • • • • • • • • spot detection image warping spot matching background subtraction normalization spot quantification differential analysis statistical analysis Spot detection. La spot detection è uno degli step più importanti dell’analisi dei gel 2D in quanto è alla base di altri fondamentali passaggi quali matching e quantification. Una mappa 2D contiene potenzialmente migliaia di spot e ciascuno di essi corrisponde idealmente a una proteina e quindi è necessariol’utilizzo di algoritmi di calcolo che permettano di riconoscere gli spot automaticamente distinguendoli dal rumore di fondo. Esistono 2 tipi principali di algoritmi implementati nella maggioranza dei software: spot-based e pixel-based, in entrambi i casi però questi non riescono a rilevare tutti gli spot correttamente ed è necessario un intervento manuale dell’operatore. Alcuni dei problemi più comuni causa di un inaccurato riconoscimento includono: rumore di fondo, problemi di acquisizione dei gel, forma degli spot irregolare, sovrapposizione degli spot (fig.3). Tuttavia è buona norma limitare l’editing dell’operatore ad un livello basso in modo da non indurre troppa soggettività nell’analisi. Fig.3 Immagini di gel 2D e problematiche ricorrenti, vista 2D (sx) e 3D (dx). a) rumore di fondo (pixel singoli scuri); b) focalizzazione incompleta e strisciate; c) sovrapposizione di spot. Spot matching 93 Quaderni di Bioinformatica La fase di maching o “registrazione” consiste nell’allineamento di 2 o più immagini in modo da compensare per la diversa posizione degli stessi spot nei diversi gel. Quindi questa fase serve per determinare quali spot sono la stessa proteina nelle diverse mappe del nostro esperimento. Questa fase è importante per il successivo passaggio di quantificazione degli spot e quindi delle differenze di espressione delle proteine tra i nostri gruppi sperimentali. Solitamente il software di analisi d’immagine ci propone un matching di tipo automatico ma nella maggioranza dei casi bisogna ricorrere ad un laborioso intervento manuale. Nei software di ultima generazione al matching automatico viene associato il cosiddetto “image warping” che consiste nella deformazione dell’immagine in modo da supplire alle differenze di allineamento dei vari gel. Inoltre è possibile individuare manualmente dei punti di riferimento (Landmark o seeds) per il software (fig. 4 a 1-5), ad esempio la stessa proteina in diversi gel in modo da facilitare il compito degli algoritmi. Fig.4 3 2DE Image matching . a) scelta dei Landmark o seeds; b) allineamento manuale di uno spot tra 2 mappe e creazione del vettore di spostamento (1-3) a Normalizzazione Tutte le immagini che noi utilizziamo per l’analisi contengono in proporzioni variabili del rumore di fondo (background noise) dovuto alle procedure sperimentali utilizzate (separazione, colorazione acquisizione e la stessa analisi). Questo rumore di fondo va sottratto dal valore reale di OD di ciascun spot per ottenere delle misurazioni accurate per la successiva fase di quantificazione delle differenze. Il principale scopo della normalizzazione è quindi quello di compensare le variazioni (tecniche e software) tra i gel. Il metodo standard nella maggioranza dei software consiste nel dividere il valore di OD di ciascuno spot per la somma di tutti gli spot presenti nella mappa ottenendo così una “quantità relativa”o un “volume relativo”. b 1 2 3 Quantificazione e analisi differenziale Questo step ci permette di analizzare differenti gruppi di mappe (es. controllo-malato), e all’interno di ciascun gruppo ottenere dei valori medi per tutti gli spot identificati. Una volta che i gruppi quindi sono stati creati è possibile cercare le proteine differenzialmente espresse. Solitamente spot che mostrano una variazione di almeno 2 volte vengono indicati come significativamente differenti, tuttavia è indispensabile applicare dei metodi statistici per ottenere informazioni realmente significanti. Fig.5 output di analisi differenziale Analisi statistica. I volumi relativi dei singoli spot ottenuti alla fine dell’analisi d’immagine rappresentano il punto di partenza per le analisi statistiche. Solitamente è possibile ritrovare nei pacchetti software dei moduli di statistica che gestiscono questi dati. Il tipo di analisi alla quale vengono sottoposti solitamente è un’analisi di tipo uni variato (ANOVA o t di Student) tuttavia il basso numero di replicati e le elevate variabili in gioco (gli spot) introducono un elevato rischio di generare errori di I tipo (falsi positivi). E’ quindi di notevole importanza l’utilizzo di metodi multivariati che ben si adattano alle migliaia di variabili contemporaneamente presenti in un esperimento di proteomica. L’analisi dei componenti principali (PCA) è uno dei principali strumenti di analisi multivariata che è stato inserito ultimamente in alcuni dei più sofisticati software (fig.6) per l’analisi d’immagine. La sinergia fornita dall’utilizzo combinato di tecniche statistiche uni e multivariate è di grande aiuto nell’evidenziare le differenze significative nell’espressione proteica. Fig. 6 Implementazione software (Progenesis SameSpot) dell’analisi statistica univariata (ANOVA) e multivariata (PCA). Analisi multivariata di dataset derivanti da mappe 2D 94 Quaderni di Bioinformatica I dati di volume di ciascuno spot ottenuti mediante quantificazione e analisi differenziale sono un’ottima base di partenza per l’analisi multivariata; questo è dovuto principalmente alla loro larga dimensionalità (elevato numero di spot presenti in ciascuna mappa) e alla difficoltà nell’identificare le piccole differenze esistenti nel caso dell’analisi di migliaia di spot contemporaneamente. Con l’analisi multivariata è quindi possibile considerare tutte le variabili contemporaneamente, producendo risultati chiari e robusti. Tra le tecniche statistiche che sono state applicate con successo a dataset di spot possiamo ricordare: Metodi di riconoscimento di pattern • Analisi dei componenti principali (PCA) • Cluster Analysis Metodi di classificazione • Analisi Discriminante (LDA) • Soft indipendent Model of Class Analogy (SIMCA) Metodi di regressione • Analisi discriminante-regressione parziale dei minimi quadrati (DA-PLS) I dati da utilizzare per l’analisi multivariata sono solitamente convertiti in matrici di dimensioni n x p, dove n è il numero di campioni (uno per riga) e p il numero delle variabili (una per ciascuna colonna della matrice). Nella tabella 2 sono riportati i principali software per la statistica multivariata Software Company SPSS 17 SPSS Inc. http://www.spss.it SAS SAS institute inc http://www.sas.com The Unscrambler 9.8 CAMO http://www.camo.com Minitab 15 Minitab inc http://www.minitab.com Stata 10 StataCorp LP http://www.stata.com SYSTAT 12 Cranes Software International Ltd www.systat.com STATISTICA 8 STATSOFT inc http://www.statsoft.com statistiXL 1.8 StatistiXL http://www.statistixl.com/ Tabella 2 . Software per la statistica multivariata Platforms PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) PC (Windows XP, Vista) Analisi dei componenti principali (PCA) La PCA è una metodica che rappresenta gli oggetti, descritti dalle variabili originali, in un nuovo sistema di riferimento caratterizzato da nuove variabili chiamate componenti principali (PC). Ogni PC ha la proprietà di descrivere la maggiore quantità possibile di varianza residua contenuta nel dataset originale: la prima PC solitamente spiega la massima quantità di varianza contenuta nel dataset intero, mentre la seconda descrive la massima varianza rimanente. Le PC sono quindi calcolate in maniera tale che il rumore sperimentale e le variazioni casuali siano contenute nelle ultime componenti. Le PC mantengono una stretta relazione con il sistema di riferimento originario dal momento che sono calcolate come combinazioni lineari delle variabili originali e sono ortogonali (non correlate) rispetto alle altre, così da contenere fonti indipendenti di informazione (fig .7) Fig.7 Costruzione delle P 95 Quaderni di Bioinformatica Il calcolo delle PC viene operato in maniera gerarchica (ordine decrescente di varianza), questo fa si che risultino utili per ottenere una riduzione della dimensionalità nel dataset originale: infatti il grande numero di variabili originarie (gli spot) vengono sostituite da un piccolo numero di PC significative che contengono a loro volta una rilevante quantità di informazione. La PCA fornisce due strumenti principali per l’analisi dei dati: gli score e i loading. Gli score (gli oggetti) rappresentano le coordinate dei campioni nel nuovo sistema di riferimento, mentre i loading (le variabili) rappresentano i coefficienti delle combinazioni lineari che descrivono ciascuna PC (es. il peso delle variabili originali su ciascuna PC). La rappresentazione grafica degli score nello spazio delle PC ci permette l’identificazione di gruppi di campioni che mostrano un comportamento simile (campioni molto vicini nel grafico) o caratteristiche differenti (campioni distanti tra loro nel plot). Osservando il loading plot è possibile identificare le variabili che sono responsabili delle analogie o delle differenze rilevate tra i campioni nello score plot. Fig.8 esempio di loading e score plot. Nella figura 8 è rappresentato un esempio di loading e score plot. In questo caso è possibile discriminare i 2 gruppi presenti. La prima componente è efficace nel discriminare i campioni 4, 5 e 6 (score negativo) dai campioni 2 e 3 (score positivo). Dal punto di vista dell’identificazione di gruppi di campioni e variabili esistenti in un dataset, la PCA è uno strumento estremamente potente in quanto permette la rappresentazione di dati multivariati attraverso l’utilizzo di poche PC significative. Esistono anche come rappresentazione grafica i cosidetti biplot che riportano in forma grafica contemporaneamente score (oggetti) e loading (variabili) (fig.9). Fig.9 Esempio di biplot. Numeri in rosso rappresentano i loading e numeri in nero gli score. Un ultimo problema viene sempre incontro durante l’utilizzo di questa tecnica e cioè: quante PC bisogna tenere per ciascuna analisi? La risposta a questa domanda non è mai definitiva ma bisogna valutare caso per caso. Tuttavia esistono almeno 3 criteri (euristici) per la scelta del numero di componenti: 1. prendere solo quelle componenti che spiegano il 70-80% della variabilità complessiva 2. seguire la regola di Kaiser: prendere solo quelle componenti che hanno un autovalore (eigenvalue) >=1 o che equivalentemente con varianza > varianza media 3. la scelta del n° di componenti (sufficienti a riprodurre con una buona approssimazione i dati di partenza) può essere fatta attraverso il grafico degli autovalori o scree plot (fig.9). all’interno del grafico si sceglie il numero di componenti corrispondente al punto di “gomito” della spezzata. 96 Quaderni di Bioinformatica Nell’esempio che segue I risultati prodotti dall’ANALISI COMPONENTI PRINCIPALI sono i seguenti: Queste tabelle contengono la statistica descrittiva della matrice, le componenti trovate con il rispettivo auto valore (eigenvalue) , la varianza spiegata, la varianza cumulata Principal Component Results for: e i loading. Nella tabella le Variable Range = Foglio1!$C$4:$K$9 Principal components calculated from the correlation matrix COMPONENTI sono già ordinate in Components extracted with eigenvalues > 1 funzione della variabilità complessiva Descriptive Statistics Variable Mean Std Dev. Std Err N spiegata da ognuna. 1587 33374221,549 19985195,959 8937651,342 5 Tabella 3. Output numerico (statistiXL) derivante da PCA su dataset di gel 2D 17338323,749 4088543,007 12987612,594 6175016,067 6465152,152 7524422,836 25011941,297 16233549,559 2233859,300 497522,701 2660117,767 1577144,973 1543167,802 1951258,401 2047510,266 3429618,726 999012,249 222498,916 1189640,831 705320,674 690125,621 872629,285 915674,428 1533772,122 5 5 5 5 5 5 5 5 Correlation Matrix Fig.9 Scree plot 1587 1587 1272 430 1072 1343 912 1269 1401 1757 Scree Plot 9 8 7 Eigenvalue 1272 430 1072 1343 912 1269 1401 1757 6 1272 1,000 0,987 0,957 0,972 0,933 0,955 0,947 0,871 -0,923 0,957 0,950 1,000 0,891 0,957 0,983 0,968 0,940 -0,798 1072 0,972 0,985 0,891 1,000 0,823 0,923 0,912 0,786 -0,944 1343 0,933 0,881 0,957 0,823 1,000 0,898 0,889 0,894 -0,776 912 0,987 1,000 0,950 0,985 0,881 0,975 0,968 0,878 -0,926 430 0,955 0,975 0,983 0,923 0,898 1,000 0,994 0,946 -0,843 1269 0,947 0,968 0,968 0,912 0,889 0,994 1,000 0,966 -0,866 1401 0,871 0,878 0,940 0,786 0,894 0,946 0,966 1,000 -0,770 1757 -0,923 -0,926 -0,798 -0,944 -0,776 -0,843 -0,866 -0,770 1,000 PC 3 0,164 1,817 98,800 PC 4 0,108 1,200 100,000 PC 5 0,000 0,000 100,000 PC 6 0,000 0,000 100,000 PC 7 0,000 0,000 100,000 PC 8 0,000 0,000 100,000 PC 9 0,416 4,617 96,982 5 Explained Variance (Eigenvalues) Value PC 1 Eigenvalue 8,313 % of Var. 92,365 Cum. % 92,365 4 3 2 1 PC 2 0,000 0,000 100,000 0 1 2 3 4 5 6 7 8 9 Component Number Fig.10 score plot delle prime due componenti principali dell’esempio. Component Loadings (correlations between initial variables and principal components) Variable PC 1 1587 0,988 1272 0,989 430 0,977 1072 0,953 1343 0,931 912 0,985 1269 0,984 1401 0,931 1757 -0,907 Se decidiamo di seguire il criterio della VARIABILITA’ COMPLESSIVA SPIEGATA allora vediamo che per superare abbondantemente la soglia dell’80% basterebbe la prima componente. Anche secondo la regola di KAISER bisognerebbe prendere la 1° componente, perché al di sotto di questa tutte le altre hanno autovalori <1 e quindi andrebbero scartate. L’ultimo criterio che ci rimane da saggiare è quello dello SCREE PLOT. In questo caso il punto di gomito più netto si ha alla 2° componente. Quindi tre su tre consigliano una COMPONENTE (la prima), tuttavia decidiamo di prenderne 2 per ottenere anche lo score plot (anche se la seconda non è significativa). In ultima analisi quindi è bene analizzare mediante PCA i dati utilizzando il dataset completo e non sulle proteine che appaiono significativamente differenti da analisi univariate. Le statistiche multivariate hanno un valore aggiunto essendo capaci di differenziare i differenti gruppi sperimentali in termini di espressione correlata più che espressione assoluta. Eseguire l’analisi iniziale solo sulle proteine statisticamente significative potrebbe escludere informazioni utili. Quindi si può iniziare l’analisi utilizzando la PCA su tutte le variabili disponibili e comparando successivamente i dati con l’analisi univariata applicata alle singole variabili (le proteine). Analisi bioinformatica dei network di interazione proteina-proteina. Negli ultimi anni, le scoperte sulla funzione di geni e proteine su larga scala per una migliore comprensione del funzionamento cellulare e dello sviluppo degli organismi, hanno stimolato la ricerca di nuovi approcci analitici. In questo senso, i metodi bioinformatici si sono evoluti di pari passo alla decifrazione delle funzioni di geni e proteine. Questo è sottolineato dal fatto che lo sviluppo di nuovi metodi computazionali,permettendo la decodifica delle succitate funzioni su larga scala,ha non solo aperto questo campo di investigazione, ma anche creato una nuova visione delle interazioni tra geni e proteine. Gli “interattomi” sono nuove entità biologiche che corrispondono,idealmente e formalmente, al completo set di interazioni esistente tra tutte le macromolecole di un organismo. Ad oggi, gli interattomi disponibili sono essenzialmente formati da network di interazione 97 Quaderni di Bioinformatica proteina-proteina (PPI) nei quali le interazioni sono state sperimentalmente ottenute su larga scala dal sistema dei due ibridi (yeast two-hybrids), o da differenti tipi di esperimenti su scala ridotta. Tuttavia gli interattomi sono ancora lontani dall’essere completi dal momento che esiste uno sconosciuto numero di interazioni che devono essere ancora scoperte. Le mappe PPI (di lievito, caenorabdtidis, drosophila e umane) formano complicati network che contribuiscono solo in parte ad una rinnovata visione della cellula come un sistema integrato e dinamico. Contemporaneamente alla decodifica degli interattomi, vengono sviluppati i metodi bioinformatica che permettono la loro analisi. Al momento i network d’interazione sono rappresentati da grafici complessi nei quali i nodi corrispondono alle proteine e i connettori (di varia forma) alle loro interazioni (fig 10). Fig.10 Network d’interazione ottenuto da dati proteomici sperimentali elaborati mediante software dedicato (Ingenuity Pathway Analysis). Pathway Database. Le informazioni riguardanti i pathway sono disponibili attraverso un gran numero di database che spaziano da quelli di elevata qualità curati manualmente e quelli massivi, che coprono un elevato numero di pathway teorici, creati attraverso l’utilizzo di sistemi 98 Quaderni di Bioinformatica automatici per l’immissione dei dati. A causa di queste differenze nelle dimensioni e nella qualità è necessario utilizzare il giusto database adatto alle proprie esigenze. KEGG. KEGG (Kyoto Encyclopedia of Genes and Genomes) (http://www.kegg.jp/) è una serie di database sviluppati dal centro di bioinformatica dell’università di Kyoto e dal centro del genoma umano dell’università di Tokio. KEGG risulta essere una vera e propria enciclopedia, la sezione pathway consiste principalmente di network metabolici, la licenza è libera per uso non commerciale. KEGG è unico per la sua copertura su lievito, topo e pathway metabolici umani. Tutto viene creato da curatori che leggono la letteratura e la integrano nei database. Le informazioni sono disponibili via browser e i pathway mostrati come immagini GIF, in questo modo l’utente non può gestire in maniera semplice le informazioni fornitegli. BioCyc E’ un pathway database fornito dalla SRI International (http://www.biocyc.org/), è di elevata qualità ed è focalizzato principalmente su network metabolici. Oltre a BioCyc ci sono EcoCyc (E.coli), MetaCyc e HumanCyc database, le licenze sono libere per qualsiasi utilizzo. Ingenuity Pathways Knowledge Base E’ il database creato dalla Ingenuity Systems Inc. (http://www.ingenuity.com/) , tutte le licenze sono a pagamento. Consiste principalmente di network genici e di signalling. I database sono curati manualmente e contegono informazioni su specie umana, topo e ratto. I database possono essere fruiti attraverso l’utilizzo di un software proprietario chiamato Ingenuity Pathway Analysis (IPA) che permette contrariamente agli altri database di ottenere dei database personalizzati inserendo i propri dati di espressione genica o proteomica, tutti gli output possono essere esportati in molteplici formati elettronici. TRANSPATH TRANSPATH è una serie di database creati da BIOBASE (http://www.biobase-international.com/). La versione più recente dei dati richiede un accesso a pagamento. Tuttavia, alcune parti di vecchi dati sono fornite agli utenti accademici come versione di prova (http://www.gene-regulation.com/). Oltre che TRANSPATH, BIOBASE offre il database TRANSFAC dei fattori della trascrizione e il database PROTEOME per le proteina. Inoltre fornisce il software ExPlain per la consultazione di questi database. ResNet ResNet (http://www.ariadnegenomics.com/) è il database generato da Ariadne Genomics. Le autorizzazioni accademiche e commerciali richiedono una tassa. I pathway di ResNet consistono principalmente nelle vie di segnalazione e nei network genici. Diverso da altre banche dati, ResNet è costruito con analisi computerizzata. Cioè le vie e le reti sono generate con l'elaborazione del linguaggio naturale della letteratura relativa. MedScan è usato per questa procedura di elaborazione del linguaggio naturale. La banca dati è costruita pricipalmente dagli estratti in PubMed, ma alcune entry usano il testo integrale. In più, ci sono un piccolo numero di entry generate dai curatori. Signal Transduction Knowledge Environment (STKE): Database of Cell Signaling STKE (http://stke.sciencemag.org/), è un servizio online fornito da Science. E’ una banca dati di alta qualità delle vie di segnalazione generata ed effettuata dai curatori. Il database può essere raggiunto abbonandosi al servizio online di Science. Tuttavia, l'utente non può specificare una lista dei geni (proteine) e generare una rete su quella selezione. Reactome Reactome è una banca dati di vie metaboliche e di segnalazione (http://www. reactome. org/). Cold Spring Harbor LaboratoryEuropean Bioinformatics Institute, and Gene Ontology Consortium ono gli sviluppatori principali del progetto. Anche se gli esseri umani sono l'organismo principale catalogato, ha altre 22 specie catalogate tra le quali topo e ratto. Le informazioni sono estratte dai curatori. Le vie e le reazioni del Reactome possono essere osservate ma non modificate con un web browser, tuttavia la gestione dei dati risulta di semplice utilizzo. Metabolome.jp Metabolome.jp (http://metabolome.jp/) è una banca dati metabolica generata da alcuni laboratori di ricerca dell’università di Tokyo. Utilizzando un applet denominato ARM, le vie possono essere osservate e pubblicate attraverso un browser. Le vie sono generate dai curatori. Ogni prodotto metabolico è indicato con una formula strutturale. Diverso da KEGG, è possibile seguire il movimento degli atomi nelle reazioni metaboliche. Software per l’interattomica. Ingenuity Pathway Analysis (IPA) Ingenuity Pathway Analysis è il software usato per visualizzare i dati dell’Ingenuity Pathway Knowledge Base della Ingenuity Systems Inc. Per un insieme dato di geni (o proteine), IPA genera automaticamente le vie che sono collegate con quei geni (o proteine). Ciò significa, per esempio, che se si trova un insieme di macromolecole con elevata varianza di espressione dopo analisi di microarray o proteomica, IPA genera automaticamente la via che coinvolge quei geni. La via è generata partendo dell'essere umano, dal topo e dei dati del ratto. Di conseguenza, è necessario ricordare che anche se IPA genera una certa via è possibile che non risulti realmente in quell’organismo ma sia solamente frutto degli algoritmi utilizzati. Esistono altri software proprietari come MetaCore, Pathway Builder e Pathway Studio e open source come Cytoscape, IntAct e Copasi. 99 Quaderni di Bioinformatica BIBLIOGRAFIA ESSENZIALE ANALISI D’IMMAGINE E STATISTICA MULTIVARIATA Alban, A., Currie, I., Lewis, S., Stone, T., & Sweet, A. C. (2002) Mol. Biol. Cell 13, 407A–408A. Alban, A., David, S. O., Bjorkesten, L., Andersson, C., Sloge, E., Lewis, S., & Currie, I. (2003) Proteomics 3, 36–44. Bjellqvist, B., Ek, K., Righetti, P. G., Gianazza, E., Gorg, A., Westermeier, R., & Postel, W. (1982) J. Biochem. Biophys. Methods 6, 317–339. Carpentier, S. C., Witters, E., Laukens, K., Deckers, P., Swennen, R., & Panis, B.(2005) Proteomics 5, 2497–2507. Gustafsson, J. S., Ceasar, R., Glasbey, C. A., Blomberg, A., & Rudemo, M. (2004) Proteomics 4, 3791–3799. Hotelling, H. (1933) J. Educ. Psychol. 24, 417–441. Jackson, J. E. (2003) A User’s Guide to Principal Components. Wiley, New York. Karp, N. A. & Lilley, K. S. (2005) Proteomics 5, 3105–3115. Karp, N. A., Spencer, M., Lindsay, H., O’dell, K., & Lilley, K. S. (2005) J.Proteome Res. 4, 1867–1871. Patton, W. F. (2000) Electrophoresis 21, 1123–1144. Pearson, K. (1901) Phil. Mag. Ser. B. 2, 559–572. Rabilloud, T. (2000) Proteome research: two dimensional gel electrophoresis and identification methods. Springer, Heidelberg. Rabilloud, T., Vuillard, L., Gilly, C., & Lawrence, J. (1994) Cellular and Molecular Biology 40, 57–75. Sharma, S. Applied Multivariate Techniques. Wiley, Hoboken, NJ. Siegel, S. C. N. J. (1988) Non Parametric Statistics for Behavioral Sciences. McGraw-Hill Book Company Switzer, R. C., Merril, C. R., & Shifrin, S. (1979) Anal. Biochem. 98, 231–237. Tarroux, P. (1983) Electrophoresis 4, 63–70. Tonge, R., Shaw, J., Middleton, B., Rowlinson, R., Rayner, S., Young, J., Pognan, F., Hawkins, E., Currie, I. et al. (2001) Proteomics 1, 377–396. Unlu, M., Morgan, M. E., & Minden, J. S. (1997) Electrophoresis 18, 2071–2077. Urfer, W., Grzegorczyk, M., & Jung, K. (2006) Proteomics S2, 48–55. Westermeier, R. & Naven, T. (2002) Proteomics in Practice. Wiley-VCH,Weinheim. Westermeier, R. (2001) Electrophoresis in Practice. Wiley-VCH, Weinheim. Westermeier, R. (2006) Proteomics S2 61–64. INTERATTOMICA Aittokallio T, Schwikowski B (2006) Graph-based methods for analysing networks in cell biology. Brief Bioinform 7: 243¬255. Baudot A, Jacq B, Brun C (2004) A scale of functional divergence for yeast duplicated genes revealed from analysis of the proteinprotein interaction network. Genome Biol 5: R76. Baudot A, Martin D, Mouren P, Chevenet F, Guenoche A, et al. (2006) PRODISTIN Web Site: a tool for the functional classification of proteins from interaction networks. Bioinformatics 22: 248¬250. Brun C, Baudot A, Guénoche A, Jacq B (2004) The use of protein-protein interaction networks for genome wide protein function comparisons and predictions. In: Kamp RM, Calvete JJ, Choli¬Papadopoulou T, editors. Methods in Proteome and Protein Analysis. Berlin Heidelberg: Springer-Verlag. pp. 103-124. Brun C, Chevenet F, Martin D, Wojcik J, Guénoche A, et al. (2003) Functional classification of proteins for the prediction of cellular function from a protein¬protein interaction network. Genome Biol 5: R6. Formstecher E, Aresta S, Collura V, Hamburger A, Meil A, et al. (2005) Protein interaction mapping: a Drosophila case study. Genome Res 15: 376¬384. Giot L, Bader JS, Brouwer C, Chaudhuri A, Kuang B, et al. (2003) A protein interaction map of Drosophila melanogaster. Science 302: 1727-1736. Ito T, Chiba T, Ozawa R, Yoshida M, Hattori M, et al. (2001) A comprehensive two hybrid analysis to explore the yeast protein interactome. Proc Natl Acad Sci U S A 98: 4569¬4574. Li S, Armstrong CM, Bertin N, Ge H, Milstein S, et al. (2004) A map of the interactome network of the metazoan C. elegans. Science 303: 540¬543. Rual JF, Venkatesan K, Hao T, Hirozane-Kishikawa T, Dricot A, et al. (2005) Towards a proteome¬scale map of the human protein¬protein interaction network. Nature 437: 1173¬1178. Sanchez C, Lachaize C, Janody F, Bellon B, Roder L, et al. (1999) Grasping at molecular interactions and genetic networks in Drosophila melanogaster using FlyNets, an Internet database. Nucleic Acids Res 27: 89¬94. Sharan R, Ulitsky I, Shamir R (2007) Network-based prediction of protein function. Mol Syst Biol 3: 88. Stelzl U, Worm U, Lalowski M, Haenig C, Brembeck FH, et al. (2005) A human protein¬protein interaction network: a resource for annotating the proteome. Cell 122: 957¬968. Uetz P, Giot L, Cagney G, Mansfield TA, Judson RS, et al. (2000) A comprehensive analysis of protein¬protein interactions in Saccharomyces cerevisiae. Nature 403: 623¬627. 100 Quaderni di Bioinformatica INTRODUZIONE ALL’ANALISI D’IMMAGINE CON ELEMENTI DI R Andrea Galli Istituto Sperimentale Italiano Lazzaro Spallanzani, Rivolta d’Adda (CR) Premessa Gran parte dei fenomeni dell’esistenza umana si manifestano sotto forma di pattern: i simboli della scrittura, gli elementi costitutivi del parlato, disegni e immagini, i volti delle persone conosciute, ...L’importanza del riconoscimento (Pattern Recognition) è legata non solo alla percezione, ma anche alla conoscenza: gli esseri umani valutano le situazioni in termini di pattern e agiscono in base alla loro valutazione di tali pattern.. L’estensione al computer di capacità di riconoscimento di pattern può renderlo in grado di svolgere compiti percettivi e cognitivi. Obiettivo ultimo del PR: costruire macchine che possiedano le nostre stesse capacità di riconoscimento di pattern. L’uomo esegue il riconoscimento mediante una classificazione dei pattern. Il mapping è “opaco”, i dettagli del processo sono inaccessibili agli osservatori e quasi sempre anche alla persona stessa. L’implementazione su computer di un metodo di PR richiede che il mapping opaco sia sostituito da uno “trasparente”, di cui sia possibile dare una descrizione precisa sotto forma di algoritmo. Prima di procedere in modo dettagliato alla descrizione di alcune problematiche relativa all’analisi delle immagini creiamo una suddivisione metodologica del dominio di interesse anche se sappiamo che i confini fra le diverse aree sono assai labili Image Processing (IP) o anche AI (Analisi Immagine). Studia tecniche e algoritmi per trattare immagini digitali: il riconoscimento quindi delle immagine attinge da tale disciplina metodi di pre-processing e feature extraction per le immagini, Computer Vision (CV) Descrive l’insieme di processi che mirano a costruire una descrizione del mondo esterno a partire da immagini. Emulare gli effetti della visione umana attraverso acquisizione, elaborazione e comprensione delle immagini è la finalità principale. Tutta la parte di PR che lavora su immagini è strettamente legata alla computer visionComputer Graphics (CG) Si occupa di risolvere il problema inverso: nel PR (pattern Recognition), dato un pattern (es. un’immagine), l’obiettivo è estrarre e classificare gli elementi di interesse presenti (oggetti) in CG, dato un oggetto (costituito da una serie di primitive), si vuole generare una rappresentazione realistica (immagine) di tale oggetto. L’analisi d’immagine è una disciplina che consente di prendere delle decisioni da delle immagini, precedentemente acquisite. Scopo principale è sia l’aumento delle informazioni delle immagini, rispetto a quanto percepibile dall’occhio umano, che la gestione interattiva di macchinari. I domini d’interesse sono svariati, quali la medicina, la biologia, la geografia, la meteorologia, la fisica, l’astronomia e l’industria. In particolare per la medicina e la biologia esiste un settore della diagnostica e della ricerca particolarmente attivo, caratterizzato dall’uso dei microarray che nell’analisi d’immagine trova la sua stessa ragione d’esistere. Il mondo dei microarray è infatti caratterizzato da una componente prettamente genetico-molecolare che prevede l’utilizzo dei microchip e la generazione di immagini complesse dove solo tecniche avanzate ed ottimizzate di analisi d’immagine consentono di estrapolare le informazioni d’interesse. Nella presente introduzione all’analisi d’immagine verranno presentate, da un punto di vista concettuale, le tecniche di base e le loro modalità di utilizzo, quindi verranno introdotte le potenzialità operative del software statistico (o meglio ambiente operativo) Open Source R. I momenti caratterizzanti l’analisi d’immagine sono i seguenti: Acquisizione Segmentazione Riconoscimento degli oggetti Misura Analisi statistica Tecniche di elaborazioni d’immagine possono essere applicati a diversi momenti operativi. Fase Acquisizione Segmentazione Operazioni Digitalizzazione dell’immagine e sua memorizzazione Identificazione delle regioni Immagine binaria Riconoscimento degli oggetti Identificazione degli oggetti Descrittori degli oggetti Misura Esecuzione di misure sugli oggetti (perimetro, area, …) Analisi statistica eseguita sulle misure o direttamente sugli oggetti Dataset Analisi statistica 101 Risultati Memorizzazione in file Statistica descrittiva delle classificazione degli oggetti misure, Quaderni di Bioinformatica Acquisizione La fase di acquisizione prevede la conversione dell’immagine in un segnale elettronico adeguato per l’elaborazione digitale e la memorizzazione. Avviene essenzialmente tramite telecamera o scanner e deve essere supportata da una adeguata illuminazione degli oggetti. A tal fine sono utilizzabili differenti sorgenti luminose, quali i led ed i laser, molto utilizzati attualmente. L’immagine acquisita è definibile come una distribuzione 2-D di energia, tipicamente nel visibile, e formalmente è rappresentabile come una funzione: f(x,y) che descrive l’intensità (luminosità) della immagine in ogni punto (x,y). Poiché f(x,y) è ccaratterizzata da 2 componenti: l’illuminazione i(x,y) e la riflettanza r(x,y), avremo allora: f(x,y) = i(x,y) r(x,y) con 0 < i(x,y) < ∞ e 0 < r(x,y) < 1 L’intensità di una immagine monocromatica f(x,y) è rappresentata dal livello di grigio (l) di ogni punto dell’immagine (x,y): Lmin ≤ l ≤ Lmax con Lmin= imin.rmin se Lmax= imax.rmax pertanto [Lmin ,Lmax] rappresenta il livello di grigio. In pratica, in una scala di grigi da 0 ad L [0,L], l = 0 rappresenta il nero e l = L rappresenta il bianco. Per le immagini a colori (quali quelle acquisite nell’analisi dei microaray) si utilizza un insieme di tre funzioni, una per ogni colore fondamentale (red, green, blue), pertanto f(x.y) diventa: r ( x, y ) f ( x , y ) = g ( x , y ) b( x, y ) Le immagini presentano una variazione continua di energia che deve essere quantificata, per poter essere adeguatamente gestita. La quantificazione avviene a livello spaziale tramite suddivisione dell’immagine in pixel e a livello tonale tramite conversione dei colori in livelli di grigio: si ottiene in tal modo una immagine digitale. Il livello di risoluzione dipende dal numero di bit utilizzati, come riportato nella seguente tabella. Numero di Bit 1 4 8 12 16 24 Risoluzione 21 24 28 212 216 224 Numero di colori / livelli di grigio 2 32 256 4096 65.536 16.777.216 Per applicazioni quali l’analisi d’immagine applicata allo studio del movimento cellulare si utilizzano immagini monocromatiche ad 8 bit, mentre per analisi dei microarray si utilizzano immagini a colori a 16 bit. Ci sono vari formati di file utilizzabili per memorizzare l’immagine digitale e la maggior parte dei quali è proprietaria per un determinato software. Di seguito si riporta una lista di formati utilizzabili. Formato BMP EPS GIF JPEG TIFF Descrizione Bitmap di Windows Encapsulated Postscript,questo formato è utile per le informazioni basate su vettori rispetto a quelle basate su pixel. Graphics Exchange Format, presenta la limitazione di una palette di 256 e non è utilizzabile per la maggior parte di immagini scientifiche Joint Photographic Experts Group, supporta colori a 24-bit, usa una tecnica di compressione (discrete cosine function), spesso usata sulle pagine web, non è utilizzabile per la maggior parte di immagini scientifiche. Tagged Image File Format, supporta immagini fino a 16 bit livelli di grigio a 16 bit e a colori a 24 bit. È il formato più comunemente usato . Per una immagine f(x,y) organizzata in forma di matrice di dimensioni N x M otterremo una immagine digitalizzata nella seguente forma: f ( x, y ) = f (0,0) f (0,1) ... f (0, M − 1) f (1,0) f (1,1) ... f (1, M − 1) ... ... ... ... f ( N − 1,0) f ( N − 1,1) ... 102 f ( N − 1, M − 1) Quaderni di Bioinformatica L’insieme dei pixel connessi rappresentanti una particolare caratteristica o proprietà degli oggetti è chiamata regione di una immagine. Una immagine può contenere diverse regioni che rappresentano una particolare proprietà di un singolo oggetto complesso oppure proprietà associate ai vari oggetti della scena. Elaborazione delle immagini L’elaborazione dell’immagine avviene attraverso l’utilizzo di operatori e metodi e può essere effettuata in diversi momenti dell’analisi di immagini. Si reputa pertanto opportuno inserire un richiamo a questo fondamentale aspetto subito dopo l’acquisizione delle immagini dal momento che può essere utilizzato già in questa fase. L’elaborazioni delle immagini consente di trasformare l’immagine originale f(x,y) in una nuova immagine g(x,y) nella quale i pixel sono trasformati secondo un dato algoritmo. Quale risultato è possibile eliminare i disturbi, esaltare i particolari ed estrarre le informazioni. Possono essere eseguite operazioni sui pixel, come sull’intera immagine (filtraggi). Operazioni sui pixel Data una immagine f(x,y), i pixel p e q ed il sottoinsieme S di pixels di f(x,y), un pixel p di coordinate (x,y) ha: N4(p) 4 pixel limitrofi orizzontali e verticali: (x+1,y) (x-1,y) (x, y+1) (x, y-1) N4(p) 4 pixel limitrofi diagonali: (x+1,y+1) (x+1,y-1) (x-1,y+1) (x-1,y-1) In totale esistono N8(p) 8 pixel limitrofi. 3 2 1 4 p 0 5 6 7 Il pixel p è adiacente al pixel q se questi sono connessi. Due sottoinsiemi S1 e S2 dell’immagine sono adiacenti se almeno un pixel di S1 è adiacente ad uno di S2. Un percorso dal pixel p (x,y) al pixel q (s,t) è una sequenza di pixel distinti con coordinate: (x0,y0), (x1,y1), ......, (xn,yn) (x0,y0)= (x,y) e (xn,yn)= (s,t) (xi,yi) è adiacente (xi-1,yi-1), con 0 ≤ i ≤ n. Dove n = lunghezza del percorso fra p e q. Se p e q sono pixel di un sottoinsieme S dell’immagine allora p è connesso a q in S se c’è un percorso fra p e q all’interno di S. Per i pixel p, q e z di coordinate (x,y), (s,t) e (u,v) D è la funzione distanza se: D(p,q) ≥ 0 e D(p,q)=0 se p=q D(p,q) = D(q,p) D(p,z) ≤ D(p,q) + D(q,z) Di seguito sono rappresentate le principali distanze. D2 - Distanza Euclidea D4 - Distanza (city block D) D2(p,q) = [(x-s)2+(y-t)2]1/2 D4(p+q) = |x-s|+|y-t| D4≤2 per (x,y) Operazioni Aritmetiche fra due pixel p e q Addizione (p+q) Sottrazione (p-q) Moltiplicazione (p*q; pq; p×q) Divisione (p÷q) D8 - Distanza (chessboard D) D8(p,q) = max(|x-s|,|y-t|) D8≤2 per (x,y) Operazioni Logiche AND (p AND q; p⋅q) OR (p OR q; p+q) COMPLEMENTO (NOT p; ~p) I filtraggi sono operazioni sui pixel per modificarne i valori con tecniche puntuali, locali e globali. Quelli maggiormente usati sono quelli con tecniche locali, con i quali i pixel vengono modificati non solo in base al loro valore, ma anche in base a quelli dei pixel che li circondano. Questi filtri possano essere di vario tipo (di smoothing, a media mobile, gaussiano, mediano, di sharpening). A titolo di esempio usando un filtro di tipo puntuale binario i pixel di una immagine monocromatica vengono trasformati con la seguente regola: i pixel tra 0 e x1 = 0 (nero) i pixel tra x1 e x2 = a xmax i pixel tra x2 e xmax = xmax (bianco). x1 103 x2 Quaderni di Bioinformatica Segmentazione La segmentazione rappresenta la separazione delle regioni d’interesse all’interno dell’immagine rispetto al fondo, può essere pertanto definita come un processo di raggruppamento di pixel omogenei e l’immagine da livelli di grigio viene convertita in binaria. La segmentazione non implica un processo di classificazione. L’algoritmo di segmentazione partiziona solamente l’immagine in regioni omogenee e non viene fornita nessuna informazione per riconoscere gli oggetti associati. Esistono diversi algoritmi, molti dei quali non sono esaustivi e sono basati su un approccio euristico utilizzando metodi ad hoc per varie applicazioni. Processo di segmentazione Formalmente viene eseguito tramite un metodo che partiziona una immagine f(x,y) in regioni R1, R2, …, Rn che soddisfano le seguenti condizioni: n UR i = f ( x, y ) i =1 Ogni regione Ri soddisfa un criterio di omogeneità P(Ri); ossia P(Ri) = vero per ∀ i = 1,n. Ogni Regione Ri è spazialmente connessa. Considerando due regioni confinanti (Ri e Rj), {Ri} è una partizione esclusiva, ossia Ri ∩ Rj = ∅ con i ≠ j, se i pixel appartenenti a regioni confinanti Ri ed Rj, quando considerati congiuntamente, non soddisfano il predicato: P(Ri ∪ Rj) = Falso per ∀ i,j delle n regioni. La segmentazione può essere eseguita per soglia (thresholding), per bordo (edge finding) e per regione (region growing). Segmentazione per soglia Questa modalità di segmentazione rappresenta il metodo più semplice di segmentazione, ma forse quello maggiormente utilizzato. Nella segmentazione per soglia tutti i toni sotto un livello selezionato sono trattati come zona d’interesse, quelli sopra come fondo. In questo tipo di segmentazione è fondamentale che l’illuminazione sia omogenea rispetto l’intera scena. Formalmente i livelli di grigio dell’immagine f(x,y) sono convertiti in immagine binaria g(x,y): 1 se g ( x, y ) = 0 se f ( x, y ) ≥ S f ( x, y ) < S 1 se g ( x, y ) = 0 se f ( x, y ) ≤ S f ( x, y ) > S per oggetti chiari per oggetti scuri dove S è la soglia dei livelli di grigio con: g(x,y) = 1 per i pixel appartenenti agli oggetti g(x,y) = 0 per i pixel appartenenti allo sfondo Se l’intervallo dei livelli di grigio [S1, S2] associato agli oggetti è noto, l’immagine binaria è ottenuta nel seguente modo: 1 se S1 ≤ f ( x, y ) ≤ S 2 g ( x, y ) = altrimenti 0 In alcune applicazioni, risulta efficace analizzare l’istogramma dei livelli di grigio di una immagine, per calcolare soglie appropriate, allo scopo di identificare intervalli di livello di grigio che identificano con buona approssimazione lo sfondo (scuro o chiaro) e gli oggetti della scena Questo metodo può essere generalizzato per n oggetti con distribuzione Gaussiana dei livelli di grigio (µ1,σ1),.....,(µn, ,σn) e con lo sfondo (µS,σS). Se l’istogramma non presenta un andamento perfettamente bimodale qualunque scelta della soglia S individua pixel che possono appartenere all’oggetto ed allo sfondo. Per minimizzare questo inconveniente, si può modificare l’istogramma dell’immagine non considerando i pixel ad alto gradiente. Per applicazioni dove non si ha una conoscenza dell’immagine, la soglia di segmentazione S si calcola valutando parametri statistici della distribuzione dei livelli di grigio dei pixel dell’oggetto e dello sfondo. Il metodo si basa sull’approssimazione dell’istogramma dell’immagine usando la media pesata di due densità di probabilità con distribuzione normale. Dall’istogramma dell’immagine (ad 8 bit) H(l) si deriva l’istogramma normalizzato dato da: 104 Quaderni di Bioinformatica p( l ) = H (l ) 255 ∑ H (i ) i =0 Nelle applicazioni dove l’immagine è acquisita in condizioni di luce non uniforme, le soglie selezionate con i metodi precedenti non producono una buona segmentazione. In tale contesto, può essere utile dividere l’immagine in sottoimmagini quadrate e per queste ultime la soglia è calcolata utilizzando i metodi precedenti. La segmentazione dell’immagine completa è ottenuta considerando come soglia di ciascun pixel il valore di soglia interpolato tra due sottoimmagini Segmentazione per bordo Consente l’identificazione delle regioni dove è presente la maggior frequenza di cambiamento dei livelli di grigio e queste regioni rappresentano i bordi dell’oggetto. Si basa sul raggruppamento di pixel con massimo valore del gradiente che soddisfano percorsi con 4-vicinanza oppure con 8vicinanza e sulla base della direzione più probabile di continuazione del contorno. Un aspetto limitante dell’approccio è dato dalle notevoli esigenza di calcolo necessario per l’individuazione di piccoli dettagli. Viene utilizzata per scene con variazioni d’intensità luminosa nello spazio e/o nel tempo. La segmentazione mediante soglia può essere utilizzata anche per l’estrazione dei bordi corrispondenti agli oggetti della scena. Nell’ipotesi che tali oggetti sono scuri rispetto ad uno sfondo più chiaro, si può ipotizzare che un intervallo di livelli di grigio può comprendere solo livelli che posti tra lo sfondo ed i confini di ciascun oggetto Se si indica con ∆S l’intervallo che include solo i livelli di grigio dei contorni degli oggetti, si ottiene la seguente immagine segmentata: 1 se g ( x, y ) = 0 f ( x, y ) ∈ ∆S altrimenti Segmentazione per regioni La segmentazione per accrescimento di regioni consente di acquisire informazioni relative ai pixel limitrofi al nucleo della regione in accrescimento. Viene eseguito il merge dei pixel già aggregati con i pixel limitrofi di pari caratteristiche. Questa tecnica è utile per l’analisi di sequenze di immagini di scene in movimento, nelle quali le immagini successive presentano forti relazioni con quelle precedenti. Riconoscimento degli oggetti Quale risultato della fase di segmentazione nella quale ogni pixel può avere solo due stati (di interesse o di fondo) si ottiene una immagine binaria. A questo punto si può procedere con il riconoscimento dell’oggetto. Per oggetto s’intende ogni regione d’interesse all’interno della scena, in tal modo si ottiene una drastica riduzione dei dati poiché ed una volta identificati gli oggetti, questi vengono memorizzati tramite una limitata serie di descrittori per le successive misure. Misure Le misurazione avviene partendo dalla definizione dei contorni dell’oggetto, dal momento che le misure lineari vengono definite tra punti del contorno. Da un punto di vista strettamente operativo le misure, rappresentate da una serie di coordinate cartesiane, che possono essere memorizzate in file, utilizzando procedure scritte tipicamente in C/C++. Vengono quindi calcolati i centroidi, l’area ed il perimetro di ogni oggetto “contornato” utilizzando diversi metodi. Metodo 1 (outside borders) Perimetro - Il calcolo viene eseguito tramite un loop: per ciascun pixel (pixel bianchi), vengono analizzati i 4 pixel limitrofi, quindi ogni pixel limitrofo fuori dalla figura aggiunge la sua superficie L al calcolo, dando come risultato il perimetro totale alla fine del loop. Area - Viene calcolata come somma della superficie al quadrato L2 delle aree corrispondenti ai pixel all’interno del perimetro. Metodo 2 (boundary chain coding) Perimetro - Il calcolo viene eseguito tramite le linee di connessione tracciate fra i centroidi dei pixel vicino al bordo: si analizza ciascun pixel ed i suoi limitrofi quindi si determina il contorno dell’oggetto muovendo verso destra o a 45°. Area – La superficie L del pixel che è completamente all’interno dell’oggetto viene aggiunta come L2, mentre viene aggiunta come L2/2 se la linea di connessione relativa al centroide del pixel presenta un angolo di 45°. Analisi statistica L’analisi statistica oltre ad intervenire durante le fase precedenti caratterizza specificatamente la fase successiva alla misurazione, in quanto è necessario “convertire” i dati in informazioni. 105 Quaderni di Bioinformatica Metodo statistico fondamentale è l’analisi dei cluster eseguibile con metodo k-mean e con metodo gerarchico. Con il primo si perviene ad un raggruppamento in cluster e nel secondo alla costruzione di un dendogramma. Per un campione di dimensione n descritto da uno spazio di d dimensioni il clustering è la procedura che divide lo spazio di d dimensioni in k gruppi disgiunti, dove i punti all’interno di ogni gruppo sono più simili rispetto ai punti contenuti in altri gruppi. Una misura di similarità è la distanza e la distanza comunemente usata è quella Euclidea. Si rammenta che la distanza euclidea d12, fra 2 punti, (g11 , g21) e (g12, g22) è data da: d12 = (g11 − g12 )2 + (g 21 − g 22 )2 Per ogni processo di clustering è necessario stabilire il numero (k) di cluster (gruppi) desiderato, quindi si procede al clustering. L’algoritmo k-mean parte attribuendo i dati ai k cluster arbitrari, quindi viene calcolata la distanza euclidea di ogni punto rispetto ai centroidi dei cluster ed il punto viene riassegnato al cluster più “vicino”. Il processo si blocca quando non è più possibile riassegnare i punti. L’algoritmo per il clustering gerarchico parte con n nodi ed ad ogni step i due nodi più simili vengono uniti insieme in un nuovo nodo, fino al raggiungimento del numero di cluster desiderato. Elaborazione delle immagini Analisi d’immagine e microarray L’analisi di immagine viene applicata correntemente ai microarray, dal momento che le immagini a colori ottenute dallo scanner laser rappresentano una matrice di spot. Innanzitutto è necessario scegliere la risoluzione e la profondità di colore con cui effettuare la lettura. Per ottenere dei dati attendibili si richiede che il diametro di uno spot sia di almeno 10 pixel, mentre per apprezzare le differenze tra le intensità dei vari pixel si impiegano si utilizzano immagini digitali a 16 bit (pari a 65535 colori), che possono essere memorizzate in formato TIF. L’analisi di immagine si compone dei seguenti momenti principali. individuazione degli spot; isolamento dei pixel; calcolo del valore rappresentativo del livello del segnale e sua valutazione qualitativa. Individuazione degli spot - L’individuazione degli spot avviene definendo un cerchio attorno ad ognuno di essi, essenzialmente con metodo semi–automatico (definendo una griglia da sovrapporre all’immagine ed un software identifica le posizioni degli spot) o automatico (tramite appositi algoritmi). Isolamento dei pixel negli spot - Una volta individuati gli spot, occorre decidere quali pixel formano lo spot, utilizzando un metodo di segmentazione. Con il metodo pure spatial–based signal segmentation i pixel che cadono all’interno del cerchio fanno parte del segnale, mentre quelli al di fuori del cerchio fanno parte del fondo. Con il metodo intensity based segmentation si assume che i pixel del segnale siano più chiari del fondo. Si possono caratterizzare i pixel per il valore d’intensità e considerare l’ultimo frazione di essi come facente parte del segnale. Il metodo funziona bene se gli spot hanno intensità elevata rispetto al fondo, ma sorgono problemi nel caso l’array è sporco o rumoroso. Un semplice approccio statistico per l’individuazione dei pixel facenti parte dello spot è quello che prevede l’utilizzo del test non parametrico di Mann–Whitney. I diversi approcci possono essere fusi insieme a cascata. Calcolo del valore del segnale - Una volta isolati i pixel del segnale il valore che definisce il livello di espressione del gene associato può essere calcolato come media dei valori dei pixel nella regione del segnale. Si utilizzano poi appositi algoritmi per valutare la qualità del segnale. 106 Quaderni di Bioinformatica L’analisi di immagine tramite R La gestione e l’elaborazione dei dati rappresentano delle fondamentali esigenze nell’ambito della ricerca di base ed applicata, esigenze che possono essere compiutamente supportate da adeguati strumenti informatici. Attualmente gli strumenti di tipo open source (proposti con licenza GNU GPL) stanno diventando dei veri e propri standard di riferimento. Basti pensare a sistemi operativi come Linux, a sistemi per l’office automation quali OpenOffice o a strumenti per l’analisi statistica quali R. In particolare R è un ambiente per l’analisi statistica dei dati che si compone di diversi moduli caricabili ed è scaricabile dal sito www.r-project.org. Il sito web contiene una serie completa di riferimenti bibliografici di supporto ed approfondimento all’uso del software. Riferimenti bibliografici recenti, in lingua italiana, sono riportati in bibliografia. R è stato sviluppato inizialmente da Chambers e colleghi presso i Bell Laboratories ed il suo sviluppo deriva del linguaggio S (di tipo F-OOP function oriented), proposto a suo tempo da Gentleman & Ihaka. I moduli disponibili sono distribuito con licenza GPL e sono organizzati in un sito chiamato CRAN (Comprehensive R Archive Network). Tramite questi moduli è possibile estendere le funzionalità del software potendo affrontare innumerevoli problematiche anche non strettamente connesse all’analisi statistica dei dati. Ad esempio è possibile la comunicazione con database o con sistemi GIS. L’interfaccia nativa con R è a linea di comando, con il caratteristico carattere di prompt “>”. 107 Quaderni di Bioinformatica Sono comunque disponibili, sempre sottoforma di moduli, delle interfaccie GUI, quali Rcmdr. I moduli vengono caricati con il commando library(). Ad esempio Rcmdr viene caricata tramite: library(Rcmdr). Le manipolazioni e le analisi dei dati avvengono tramite una serie di passaggi con risultati intermedi immagazzinati in oggetti o entità. Le tipologie di dati disponibili sono: Character (stringhe alfanumeriche), Numeric (numeri reali in doppia precisione), Integer (numeri interi con segno), Logical (valori booleani), Complex (numeri complessi). Oltre ai comandi in linea (sviluppati tramite funzioni) possono essere sviluppati ed utilizzati degli script, come file di testo, contenenti comandi. Lo script può essere poi mandato in esecuzione tramite il comando: source(<nome del file>). I comandi sono rappresentati da espressioni o assegnazioni, contenenti tipicamente l’operatore di assegnazione “<-“ e delle funzioni quali: x <- mean(…). I comandi sono case sensitive e sono separati dal carattere “;” o da un ritorno a capo. Se il comando continua in più linee, ogni nuova linea deve incominciare con il carattere “+”. Le funzioni possono essere definite dall’utente tramite la funzione function( <parametri> ) e sono definite tramite funzioni elementari, assegnazioni, cicli, test. Nel seguente esempio viene definita la funzione “Somma”, che può ricevere due parametri che verranno poi sommati fra di loro. > Somma <- function(a,b) a+b Quindi la funzione viene richiamata con gli opportuni parametri… > somma(1,2) … e si ottiene il risultato. >3 Di seguito si riporta una definizione “evoluta” della funzione “Somma” dove si prevede una verifica dei parametri di lancio, tramite if(…). > Somma <- function(a,b) { > + if((a>0) & (b>0)) > + a+b > + else > + -1 >+} I vettori vengono creati tramite la funzione c(…): x <- c(10,3,4). Oppure tramite la funzione assign(): 108 Quaderni di Bioinformatica assign(“x”, c(10,3,4)) I vettori possono essere utilizzati in espressioni numeriche con operazioni eseguite elemento per elemento, possono contenere ogni tipo di dati, mentre i dati mancanti sono definiti Not Available (NA). Altri oggetti presenti in R sono: gli array, le liste ed i data frames. Gli array sono rappresentano delle generalizzazioni multidimensionali di vettori. Vengono creati tramite la funzione array(…). Con il seguente esempio viene generato l’array x di dimensione 4 x 4 con gli elementi con valori da 1 a 16… x <- array(1:16, c(4,4)) … ottenendo la seguente matrice: 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 Sono disponibili una serie di funzioni per il calcolo matriciale, quali: diag(), eigen(). Le liste rappresentano dei vettore con elementi di tipo diverso. I data frames sono delle strutture tipo array le cui colonne possono essere di tipo differente. Vengono gestiti da una apposita classe (data.frame) e possono essere composti da: vettori, array, liste, altri data frame. I vettori devono avere la stessa lunghezza, gli array devono avere la stessa ampiezza di riga. I dati presenti in un file possono essere letti, e caricati in memoria, tramite la funzione: Read.table(<nome del file>, header=TRUE/FALSE) L’analisi di immagine con R in pratica R dispone di diversi moduli usabili per l’analisi d’immagine, applicabile alla gestione dei microaaray come a diverse altre situazioni analitiche (ad esempio istologia quantitativa). Un ottimo modulo di utilizzo generale è EBImage, che richiede la preventiva installazione dei tool grafici ImageMagick e GTK+. EBImage è scaricabile dal sito del progetto Bioconductor, insieme ad una completa documentazione (http://www.bioconductor.org/packages/release/bioc/html/EBImage.html). EBImage viene caricato, dall’ambiente R, tramite: library("EBImage") Importazione dell’immagine Se l’immagine (memorizzata in formato TIF) è composta da differenti frame questi possono essere letti e caricati insieme in memoria in uno stack, quindi l’immagine e lo stack vengono memorizzati in una Classe “immagine”. I comandi che implementano il tutto sono i seguenti: imgdir = file.path(system.file(package="EBImage"),"images") fG = dir(imgdir, pattern="_G.tif", full.names=TRUE) iG = readImage(fG[1], Grayscale) class(iG) Elaborazione delle immagini Gli istogrammi delle intensità per ogni frame nello stack può essere ottenuto con: for(i in 1:4) + hist(iR[,,i], breaks=20, xlim=c(0,1)) Quindi si può ottenere la normalizzazione delle intensità delle immagini tramite: iGn = normalize(iG, separate=TRUE) Segmentazione La segmentazione può essere effettuata tramite un valore soglia: mask = thresh(iGn,15,15,0.002) È quindi possibile eseguire elaborazione d’immagine (erosione, closing,…) tramite apposite funzioni: Mask = dilate( erode( closing(mask, mk5), mk3), mk5) Sono quindi possibili una serie completa di funzioni adeguate per operare esaustive identificazioni di oggetti, misure e statistiche, come riportato nella bibliografia presente nel sito. 109 Quaderni di Bioinformatica R e la genomica R ha una sezione apposita per l’analisi statistica dei dati genomici relativa al sito del progetto Bioconductor. Il sito web è www.bioconductor.org. Il sito rappresenta una vera e propria miniera di procedure e documentazione utili per gli specialistici del settore. Bibliografia essenziale AAVV (1985) Image Analysis Principles & Practice. Published by Joyce Loebl Ltd. Bankman I. and I.N. Bankman (2000) eds Handbook of Medical Imaging: Processing and Analiysis, Academic Press. Espa G., Micciolo R. (2008) Problemi ed esperimenti di statistica con R. Apogeo, Milano. Fox J (2005) The R Commander: A Basic-Statistics Graphical User Interface to R Journal of Statistical Software, 14 (9). Gonzalez R.C. and R.E. Woods (2002) Digital Image Processing (2d ed.), Prentice-Hall. Iacus S.M., Masarotto G (2003) Laboratorio di statistica con R. McGraw-Hill, Milano. Notes on R: A Programming Environment for Data Analysis and Graphics Version 2.11.0 (2010-04-22). Pau G., Fuchs F., Sklyar O., Boutros M. and Huber W. (2010) EBImage an R package for image processing with applications to cellular phenotypes. Bioinformatics applications note, 26(7), 979–981. R Development Core Team (2008). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org. Sklyar O., W. Huber (2008) Introduction to EBImage, an image processing and analysis toolkit for R. Stefanini M.F. (2007) Introduzione alla statistica applicata con esempi in R. Paravia Bruno Mondadori Editori, Milano. Venables W. N., D. M. Smith and the R Development Core Team (2010) An Introduction to R Yang, Y. H., Buckley, M. J. and Speed, T. P. (2001) Analysis of cDNA microarray images. Briefings in bioinformatics, 2 (4), 341-349. 110