bioinformatica scuola estiva 2 - Laboratorio di Bionanotecnologie

Quaderni di Bioinformatica
ARRAY E MICROARRAY
QUALUNQUE TECNOLOGIA
SUFFICIENTEMENTE AVANZATA E'
INDISTINGUIBILE DALLA MAGIA
Gian Franco Greppi
Stefania Mura
CNBS (Centro NanoBiotecnologie Sardegna)
Laboratorio di bionanotecnologie
Dipartimento di Scienze Zootecniche,
Università di Sassari
Storicamente le ricerche in genetica sono state focalizzate sullo studio di uno o pochi geni alla volta. Negli ultimi anni l'identificazione
di un enorme numero di geni ha portato alla necessità di sviluppare nuove tecniche più adeguate ad un'analisi su larga scala. Due
sono state le innovazioni sperimentali che hanno permesso l'analisi simultanea di decine di migliaia di geni. Una è l'utilizzo di supporti
rigidi non porosi come il vetro, molto più adatti alla miniaturizzazione ed all'utilizzo di marcatori fluorescenti. L'altra è la sintesi ad alta
densità spaziale di oligonucleotidi su vetrini sottilissimi con tecniche fotolitografiche. Si è giunti quindi, alla nascita di una nuova
tecnologia di analisi comunemente chiamata microarray o DNA chip dopo un percorso che è partito negli anni ’90 e di seguito
brevemente richiamato. La conoscenza di varianti genetiche è da tempo un elemento nella diagnostica e nella la cura di pazienti in
biomedicina. Per esempio, alcune varianti genetiche portano ad incompatibilità tra tessuti ed organi inficiando il successo di un
trapianto. Ma variazioni nella sequenza genomica portano anche ad una diversa suscettibilità verso tutti i tipi di patologie, ad una
differente età nella insorgenza e di gravità di molte malattie genetiche, e causano anche una diversa efficacia nella cura. Gli studi di
associazione non coinvolgono l'analisi di genealogie di grandi famiglie ma confrontano la prevalenza di un particolare marcatore
genetico, o di un gruppo di marcatori, in soggetti affetti e non affetti dalla patologia. Una prevalenza di un marcatore nel gruppo di
pazienti affetti viene considerata evidenza di una associazione tra la malattia ed il marcatore. L'associazione non è un fenomeno
specificatamente genetico; è una deduzione statistica di coesistenza di alleli e/o fenotipi. L'allele A è associato con la patologia P se i
soggetti che presentano P hanno anche una frequenza dell'allele A significativamente maggiore di quella prevista dalle frequenze
individuali di A e P nella popolazione.
Marcatori molecolari
Con il termine di marcatore molecolare si intende un qualsiasi carattere polimorfico mendeliano che può essere impiegato per seguire
l'ereditarietà di un segmento cromosomico attraverso un albero genealogico.
Per le analisi di associazione è necessaria la presenza di meiosi informative, ovvero casi in cui è definibile quando un gamete è o
meno ricombinante. Per la maggior parte degli scopi l'eterozigosità media di un marcatore (la probabilità di un soggetto scelto a caso
di essere eterozigote) è utilizzata come misura di informatività del marcatore stesso.
I polimorfismi genetici sono variazioni nelle sequenze di DNA presenti in una popolazione con una frequenza maggiore dell'1% e
costituiscono strumenti fondamentali per gli studi di genetica.
Nei primi anni ottanta i polimorfismi genetici hanno formato, per la prima volta, un gruppo di marcatori sufficientemente numeroso ed
adeguatamente distribuito lungo tutto il genoma da permettere ricerche di associazione in tutto il DNA genomico.
I primi marcatori molecolari ad essere studiati furono gli RFLP, Restriction Fragment Length Polymorphisms (polimorfismi della
lunghezza dei frammenti di restrizione). Si tratta di una metodica complessa che può avere come scopo la formulazione di un
consiglio genetico. Permette di studiare la trasmissione di un gene in seno a una famiglia quando non è nota la sua sequenza ma
solo la sua localizzazione su di un cromosoma. La metodica si serve dell’analisi delle sequenze non codificanti di DNA contigue
al gene in esame e le utilizza come suoi markers indiretti. Prevede numerosi passaggi tra cui la digestione dell’acido nucleico da
parte di enzimi di restrizione, dell’elettroforesi per la separazione dei frammenti così ottenuti e del southern blotting per il loro
trasferimento su di un filtro di nitrocellulosa. Per potere individuare i siti di restrizione, la regione del genoma di interesse viene
amplificata tramite PCR ed i prodotti vengono incubati con l'enzima. Eseguendo quindi un'elettroforesi su gel di agarosio si è in
grado di determinare se il frammento amplificato è stato tagliato o meno, ovvero se la sequenza specifica riconosciuta dall'enzima è
presente inalterata oppure no. Uno svantaggio di questo tipo di marcatori è dato dalla loro bassa informatività. Infatti gli RFLP
presentano solo due alleli possibili: il sito di restrizione può essere intatto oppure no. L'impiego di questi marcatori per eseguire la
mappa genetica di patologie è però poco attuabile in quanto troppo spesso delle meiosi chiave in una famiglia risultano non
informative.
Un'altra categoria di marcatori comprende i minisatelliti VNTR (Variable Number of Tandem Repeat), detti anche ripetizioni a tandem
a numero variabile. Hanno sequenze ripetute lunghe una decina di nucleotidi. Tali marcatori sono multiallelici e presentano un alto
grado di eterozigosità. La maggior parte delle meiosi risulta informativa ma i VNTR presentano delle difficoltà relative alla
genotipizzazione in quanto vista la loro lunghezza tali marcatori vengono amplificati con difficoltà in una reazione di PCR. Inoltre non
sono uniformemente distribuiti lungo tutto il genoma. Un ulteriore tipo di marcatori sono i microsatelliti, detti anche ripetizioni a tandem
1
Quaderni di Bioinformatica
semplici. Sono ripetizioni lunghe da due a quattro nucleotidi. L'impiego di sequenze tri- o tetranucleotidiche sta gradualmente
soppiantando l'utilizzo di quelle dinucleotidiche, troppo soggette ad uno slittamento della lettura dell'enzima durante la PCR. Come i
precedenti, anche questi marcatori sono multiallelici dal momento che il numero di ripetizioni per ogni allele può variare. Tra i
marcatori molecolari più utilizzati vi sono gli SNP. Come suggerisce il nome, i Single Nucleotide Polymorphisms (polimorfismi a
singolo nucleotide) sono singole variazioni puntiformi del genoma. Tali polimorfismi includono i classici RFLP, ma anche altre
variazioni di sequenza che non creano o sopprimono siti di restrizione. Può sembrare paradossale tornare all'impiego di polimorfismi
biallelici dopo avere individuato dei marcatori pluriallelici, ma il grande vantaggio nell'utilizzare degli SNP è dato dall'elevato numero di
polimorfismi che possono essere genotipizzati e dalla loro elevata densità lungo tutto il genoma. A giugno del 2004 nell'uomo è stata
stimata una frequenza per gli SNP pari ad uno ogni 700pb. Un’elevata densità rende possibile individuare uno o più marcatori in ogni
gene e nelle sue immediate vicinanze. Per quanto concerne i cambi di base relativi agli SNP, si è osservato che le transizioni, ovvero
cambi purina-purina (A vs G) o pirimidina-pirimidina (C vs T), si ritrovano con frequenza maggiore delle trasversioni, ovvero cambi
purina-pirimidina e pirimidina-purina.
Oltre all'elevato numero di SNP conosciuti, il fatto più importante è che oggi si ha una conoscenza precisa di dove sono situati
all'interno del genoma. Il principale impiego di una mappa di SNP umana è dato dalla possibilità di discernere i contributi di diversi
geni in patologie multigeniche complesse.
Dato che siti di SNP sono presenti in tutto il genoma, confrontando lo schema e le frequenze di tali polimorfismi presenti in pazienti
affetti con quelli di soggetti sani di controllo, è possibile identificare quali SNP sono associati a quali malattie. Gli studi relativi
all'associazione tra SNP e malattie saranno più fruttuosi quando verranno risolti alcuni problemi ancora esistenti. Primo, sono poco
conosciute le distribuzioni degli SNP all'interno di diverse popolazioni. Altro fattore importante è che non tutti gli SNP sono eguali, e
sarà essenziale scoprire il più possibile riguardo al loro effetto da analisi computazionali prima di eseguire uno studio relativo al loro
coinvolgimento eventuale in una patologia. Per esempio, ogni SNP può essere classificato in base alla sua presenza in una zona
codificante o non. A loro volta quelli siti in zone codificanti possono essere divisi in base alla loro capacità di alterare o meno la
proteina prodotta dal gene alterato. Alterazioni alla proteina poi possono essere suddivise in base alla loro capacità di modificare la
struttura secondaria e terziara della proteina stessa. Gli SNP situati in zone non codificanti possono poi trovarsi in zone regolatrici.
Molte patologie complesse possono essere causate da variazioni nella quantità, più che nella qualità del prodotto genico coinvolto.
Vi sono numerosi approcci per l'identificazione di SNP, tra questi alcuni vengono anche impiegati per la genotipizzazione. I principali
sono basati sul confronto di sequenze relative ad un determinato locus, provenienti da diversi cromosomi. Tra questi, il più semplice
consiste nell'eseguire il sequenziamento diretto dei prodotti di PCR di regioni genomiche contenenti il gene di interesse in individui
diversi. Su larga scala però tale approccio è molto costoso richiedendo lo studio di primer specifici; inoltre limitato a regioni di cui è
nota la sequenza e, quando si presentano doppi picchi, come atteso negli eterozigoti, non è sempre facile discernere tra artefatti
dovuti al sequenziamento e polimorfismi reali. Diversi approcci basati sul confronto di sequenze ottenute da frammenti clonati
possono essere considerati per ottenere una mappa di SNP in un genoma. In questo caso qualsiasi picco doppio viene considerato
artefatto. Il confronto tra dati di sequenze prodotte in diversi progetti di EST, specialmente se le librerie costruite sono state ottenute
prelevando campioni da diversi individui, possono essere una buona fonte di SNP. Ad ogni modo il numero di SNP individuabili con
questo approccio è limitato dalla pressione selettiva subita dalle sequenze codificanti del genoma. Inoltre, in rari casi, gli SNP
individuati in questo modo potrebbero essere in realtà dovuti a modificazioni post-trascrizionali. Un approccio simile può essere
applicato per i genomi in fase di sequenziamento completo. In questo caso il confronto tra cloni BAC sovrapponibili è una buona fonte
di SNP. Lo svantaggio di tale approccio è dato dal fatto che l'individuazione degli SNP dipende dal numero di cloni BAC
sovrapponibili presenti nella genoteca e provenienti da cromosomi diversi. Recentemente un nuovo approccio chiamato Reduced
Representation Shot-gun (RRS) viene utilizzato per ottenere un elevato numero di SNP nell'uomo. In questo metodo, il DNA
proveniente da diversi individui è mescolato e vengono prodotte delle librerie plasmidiche composte da sottoinsiemi di frammenti di
restrizione purificati tramite elettroforesi su gel.
Viene quindi realizzato un sequenziamento di tipo shotgun su tali librerie e le sequenze che risultano sovrapponibili vengono allineate
andando ad evidenziare i polimorfismi. Quest'ultima fase ha beneficiato grandemente dello sviluppo di programmi come PHRED atti a
stimare la qualità con cui viene definita una base ed altri programmi come POLYPHRED o POLYBAYES che impiegano questo indice
di qualità per il rilevamento di polimorfismi.
Il termine Microarray, definito anche biochips" (comunemente conosciuto come gene chip, DNA chip, o biochip) è un insieme di
piccoli elementi, detti anche spots, sistemati su file orizzontali e colonne verticali; il termine è composto da " micro ", che in greco
significa " piccolo " e dal francese " arayer ", che significa " sistemare”, ed è sostanzialmente costituito da una collezione di
microscopiche sonde di DNA attaccate ad una superficie solida come vetro, plastica, o chip di silicio formanti quindi un array. Come
definito da Schena ed altri (Scienze 270, 467-470, 1995), un DNA microarray è "un allineamento ordinato degli acidi nucleici, di
piccole molecole, che permette l'analisi parallela dei campioni biochimici complessi". Con il completamento del progetto genoma
siamo entrati in possesso di un prezioso e ricco dizionario, con molti vocaboli ma pochissime definizioni. L’obiettivo della
postgenomica è stato quello di trovare le definizioni mancanti, utilizzare le informazioni di genomica strutturale per spiegare e
analizzare i processi biologici su scala genomica, e assegnare la corretta funzione ai diversi geni. Gli array vengono utilizzati per
esaminare il profilo d’espressione di un gene o per identificare la presenza di un gene o di una breve sequenza in miscela di migliaia
(spesso anche tutto il patrimonio genetico di un individuo umano o non). Un microarray è rappresentato da elementi microscopici su
una superficie piana su cui è possibile immobilizzare sia acidi nucleici che proteine capaci quindi di riconoscere e legarsi con
2
Quaderni di Bioinformatica
molecole complementari. La tecnologia permette di realizzare, pertanto, sia reazioni di ibridazione, quando si tratti di acidi nucleici, o
reazioni immunitarie, quando si tratti di antigeni o anticorpi. Un microarray può essere considerato un potente mezzo diagnostico se
presenta quattro caratteristiche standard ossia essere ordinato, microscopico, planare e specifico. Ordinato, significa che gli elementi
analitici, detti anche molecole probe o chip o spot, devono essere disposti in modo ordinato e preciso lungo file orizzontali diritte ed
incolonnati anche su file verticali perfettamente perpendicolari. I vari elementi devono essere, ovviamente, di grandezza uniforme e
separati da spazi uniformi. E' assolutamente necessario che tali elementi siano disposti in maniera ordinata, sia su linnee orizzontali
che verticali, perché questo ne facilita la produzione in automazione e, quindi a costi contenuti, ma, ancora più importante, ne facilita
e accelera l'esame e l'interpretazione dei risultati. Ogni elemento deve essere uniforme per non rendere ambigua la lettura. Non è
ammissibile la se pur minima sbavatura che rischierebbe di contaminare la lettura dell'elemento vicino. Elementi di forma diversa o di
diversa densità, anche se contenenti lo stesso numero di molecole, darebbero luogo ad un segnale di diversa intensità,
compromettendo la precisione del risultato. Inoltre, ovviamente ogni elemento deve avere una collocazione ben precisa, in base alle
sequenze desiderate, di modo che, automaticamente, si sappia che il dato che la macchina legge corrisponda ad un unico e ben
preciso probe o spot.
La necessità d'assegnare una funzione a ciascuna delle migliaia di geni identificati grazie alla genomica ha reso indispensabile
tecniche che permettano l'analisi simultanea di moltissimi campioni. I macro- e micro-array rispondono a questa esigenza. Le due
tecnologie, identiche nel principio, differiscono nel numero di geni simultaneamente analizzabili (da qualche centinaia a qualche
migliaia per i macro-array; da diverse migliaia a interi genomi per i micro-array) e nel tipo di supporto utilizzato (classiche membrane
di nitrocellulosa o nylon per i macro-array; supporti o "chip" in vetro o altro materiale inerte per i micro-array). Corti frammenti di acidi
nucleici ("oligonucleotidi" della lunghezza compresa fra poche decine e qualche centinaia di paia di basi) corrispondenti ad un
particolare tratto della sequenza dei geni presenti in un particolare tipo di cellula vengono immobilizzati in maniera ordinata e
sistematica in punti precisi (o "spot") del supporto prescelto. Il numero di geni rappresentati è quindi funzione della densità degli
"spot" genici sul supporto come riportato nella immagine.
La tecnologia dei microarray rappresenta un nuovo
potente strumento di ricerca. Il suo sviluppo è stato
possibile solo grazie all’integrazione di diverse
discipline, quali la biologia molecolare, la genetica, le
più moderne nanotecnologie, la chimica degli acidi
nucleici, i nuovi software, la robotica e l’automazione.
Esistono infiniti campi di applicazione per questa nuova
tecnologia che spaziano dall’analisi dell’espressione
genica, DNA ed RNA microarray, all’analisi delle
differenti proteine presenti in differenti tipi di campioni,
protein microarray, fino ad arrivare alle applicazioni citologiche ed immunoistochimiche dei Tissue microarray.
Classificandoli in base alla metodologia costruttiva, esistono tre tipi principali di microarray:
microarray di cloni di DNA: microarray per uso specifico composti di oligonucleotidi oppure di cDNA (ovvero DNA complementare a
singola catena ottenuto per clonazione da un campione di mRNA precedentemente isolato);
microarray di oligonucleotidi prefabbricati: il posizionamento degli oligonucleotidi è fatto sfruttando l’attrazione elettrostatica
esercitata su di loro da parte di microelettrodi;
microarray di oligonucleotidi sintetizzati in situ: microarray ad alta densità contenenti oligonucleotidi sintetizzati usando tecniche
fotolitografiche o di tipo“ink-jet”.
I microarray di cloni sono i più usati e possono analizzare RNA proveniente da due diversi campioni su un singolo chip; le limitazioni
derivano dalla disponibilità di cloni e dalla qualità dei campioni di mRNA. Le altre due classi sono anche note come array
microindirizzabili e permettono l’analisi dell’espressione di un gran numero di geni contemporaneamente ma possono analizzare un
solo campione per chip, con costi considerevoli.
È possibile classificare i microarray, in base all’uso che ne viene fatto, in tre categorie:
1. cDNA microarray: per permettere l’analisi su larga scala di un gran quantitativo di mRNA come un indicatore
dell’espressione genetica;
2. microarray SNP (“Single Nucleotide Polymorphism”) e array di mutazione: per rilevare polimorfismi o mutazioni in una
popolazione usando array SNP o array progettati per rilevare mutazioni conosciute.
3. microarray CHG (“Comparative Hybridization Genomic”): per osservare perdite o guadagni genomici, o un cambiamento
nel numero di copie di un gene particolare coinvolto in una malattia.
Per quanto riguarda il campo della genomica funzionale i DNA microarray consentono il monitoraggio simultaneo dell’espressione di
migliaia di geni, fornendo un preziosissimo ed innovativo strumento ai ricercatori. Prima di analizzare in dettaglio è opportuno
3
Quaderni di Bioinformatica
ritornare al lavoro di Schena e Davis che nel 1999 hanno tracciato una serie di 12 regole che devono sempre essere tenute presenti,
quando si opera con i microarray per ottenere risultati corretti ed apprezzabili. Le riportiamo in sintesi:
1.
Le analisi dei geni devono essere sempre eseguite in parallelo. La valutazione dell'attività dei geni non può essere mai fatta
correttamente su supporti solidi ma non paralleli quali il nylon o la nitrocellulosa, che non hanno una superficie piana.
Occorre poter operare su una superficie perfettamente piana come quella del vetro o di altro materiale che abbia le stesse
caratteristiche. Infatti solo su una superficie perfettamente piana si possono allineare gli spots senza che si creino
inaccettabili convergenze che renderebbero impossibile la lettura in automazione o comunque altererebbero i risultati.
2. Le tecnologie di preparazione devono sempre rendere possibile la miniaturizzazione e l'automazione. Tutti i metodi di
produzione dei microarray, compresa la fotolitografia o le procedure a getto d'inchiostro, devono tendere a realizzare un
prodotto che, comunque, rientri in questi canoni, affinché possa soddisfare la clientela.
3. Ciascun ciclo di analisi dei geni ha cinque fasi evolutive. Come i cicli della vita si ripetono in un divenire sempre identico per
cui si ha prima la nascita, poi lo sviluppo, la crescita per finire con la morte, cosi, per l'analisi dei geni si deve procedere
attraverso cinque tappe: impostare il quesito biologico, preparare il campione, eseguire la reazione biochimica, raccogliere i
risultati, analizzarli per arrivare alla risposta finale.
4. La manipolazione del sistema biologico deve aderire esattamente al quesito biologico. Qualsiasi problema si affronti, sia
che riguardi batteri, lieviti, organismi geneticamente modificati, piante, animali bisogna sempre stare molto attenti alle
influenze dell'ambiente, alla temperatura, ai trattamenti che si fanno e quindi a tutte le tecnologie che si applicano per
evitare che si creino artefatti. Per esempio quando si lavora con le piante bisogna tener presente non solo che la
temperatura sia quella giusta, ma anche l'influenza dell'intensità luminosa e la concentrazione del CO2. Con qualsiasi tipo di
cellula in coltura, il terreno di crescita, il volume o il tipo di recipiente, l'agitazione e tanti altri fattori possono influenzare
l'espressione genica in modo anomalo compromettendo così il risultato finale dell'esperimento.
5. Il campione biochimico deve riflettere esattamente l'esemplare biologico. Bisogna fare in modo che l'isolamento, la
purificazione l'amplificazione, la marcatura e qualsiasi altro metodo o tecnologia si applichi non alterino il campione che si
desidera analizzare. Tener presente che, specialmente le molecole di RNA, sono suscettibili a rapidi cambiamenti fino alla
totale denaturazione da parte di ribonucleasi frequentemente presenti in alcuni ambienti. Anche la marcatura è una fase
che può creare problemi se non si sceglie un tipo di tecnica che sicuramente poi dia la esatta misura del campione.
6. Una presentazione parallela deve sempre essere associata a campioni precisi e correttamente dosati. Quindi non solo i
probes vanno disposti in piano e su linee parallele per rendere possibile la corretta misurazione dei targets, ma anche
essere omogenei e correttamente legati al substrato, altrimenti non vanno usati.
7. Il sistema di lettura deve poter acquisire dati precisi dal posizionamento dei campioni in parallelo. Sia che si tratti di
scanners che di imagers la lettura degli spots divenuti fluorescenti si deve poter svolgere in maniera corretta. Quindi
bisogna scegliere apparecchi con una buona sorgente luminosa, un 'ottica senza difetti e così per tutti i componenti del
sistema di lettura che deve essere in grado di ridurre al minimo sia il rumore di fondo che tutte le eventuali interferenze che
possano alterare in qualche modo il segnale.
8. I dati che provengono dal sistema di lettura devono essere manipolati ed elaborati con precise modalità. Occorre poter
operare con un potente apparecchio di bioinformatica, completato da un ottimo software, per arrivare a risultati che siano lo
specchio del campione biologico sotto esame. Devono essere apparecchi in grado di fornire non solo una serie di numeri
corrispondenti all'intensità della fluorescenza dei singoli spots ma anche un'immagine grafica dell'insieme. Solo così si
riesce ad avere un quadro completo dell'identità dei targets e delle sequenze depositate ed interpretare correttamente il
valore anche di segnali molto deboli.
9. La comparazione dei risultati di due o più esperimenti deve essere sempre soggetta alle limitazioni del caso. Almeno fino a
quando non si potrà disporre di standard di riferimento, certamente i dati di analisi genica che si riescono a raccogliere sul
singolo vetrino sono certamente più attendibili. I dati ottenibili su vetrini di diversa fabbricazione o l'uso di colori fluorescenti
diversi o tecniche diverse possono dare risultati che talvolta non sono facilmente comparabili.
10. Le conclusioni concernenti le relazioni fra i geni (spesso si tratta di grandi numeri) possono essere tratte solo se in un
singolo esperimento si prendono in esame tutte le variabili e si arrivi ad una elaborazione statistica adeguata dei risultati.
Questo significa che conclusioni riguardanti un determinato processo e concernenti un certo organismo o sistema possono
essere significative solo se, nello stesso esperimento, o meglio con un unico vetrino, si prendono in esame
contemporaneamente tutti i geni di quel genoma che concernono quel processo. Quindi anche un microarray con 10.000
geni, pur fornendo un enorme quantità di dati, può risultare insufficiente se si vuole approfondire un sistema alla cui
attuazione concorrono circa 15.000 geni.
11. L'impostazione analitica deve sempre comprendere tutti gli elementi e le variabili intrinseche ed estrinseche del sistema. Le
analisi eseguite con i microarray non devono mai restare in un contesto interpretativo isolato, ma vanno sempre inquadrate
in una visione globale del sistema che deve comprendere anche i dati molecolari, biochimici, chimici, fisici, enzimatici
nonché le proprietà strutturali sia del gene che i suoi prodotti. Quindi per ogni organismo che interessi, le valutazioni con i
microarray possono essere valutate meglio in un contesto globale di altre informazioni che comprendano anche i rapporti
gene-gene e proteine-proteine derivate.
4
Quaderni di Bioinformatica
12. L'analisi parallela di un organismo si può considerare completa solo quando in un contesto quadridimensionale sono
assemblate tutte le variabili del sistema. Un quadro completo dell'espressione genica di un determinato organismo, si può
dire di averlo solo se si conoscono tutte le variabili di ogni gene, in ogni cellula, in ogni fase della vita. Questo significa che
l'attività genica cambia continuamente e quindi va sempre studiata come un film in movimento.
Applicazioni della tecnologia microarray
La tecnologia dei DNA microarray è ancora agli esordi, e sta tutt’oggi crescendo. Le applicazioni di tale tecnologia sono comunque
molteplici, dallo studio dei geni coinvolti nell’insorgenza del cancro e di numerose patologie, alla caratterizzazione di pattern
metabolici.
Gli array sono un importante strumento anche per l’identificazione e la caratterizzazione di nuovi geni. I DNA chips sono stati utilizzati
nella diagnosi e nella prognosi delle malattie e nel design di nuovi farmaci [21, 22]. Le applicazioni in campo umano sono
innumerevoli soprattutto grazie al fatto che l’intero genoma è stato sequenziato. Una grande limitazione di questa tecnologia, oltre al
costo ancora troppo elevato, è infatti la necessità di disporre di sequenze geniche conosciute. Questo pone un enorme freno
all’utilizzo e all’applicazione di tali tecnologie in campo veterinario ed alimentare. Infatti il genoma degli animali di interesse zootecnico
è ancora per lo più sconosciuto.
Campi di utilizzo dei DNA microarray nella ricerca di base e applicata [19].
RICERCA APPLICATA
FUNZIONE DEI GENI
pathway metabolici
analisi di mutazioni
RICERCA DI NUOVI FARMACI
identificazione e validazione del target
ottimizzazione dell'efficacia
meccanismo d'azione
DIAGNOSI DI PATOLOGIE
prognosi e diagnosi
classificazione dellle patologie
strategie di trattamento
CARATTERIZZAZIONE DI SISTEMI COMPLESSI
organi e patologie specifiche
risposta allo stress
invecchiamento
VALUTAZIONE DELLA TOSSICITA'
tossici e farmaci
cibo
ambiente
A differenza degli array oligonucleotidici ad alta densità, il basso costo e l’alta flessibilità degli gli array a cDNA rendono tale
tecnologia molto più adatta alle istituzioni accademiche e alle applicazioni pratiche della tecnologia. È infatti possibile produrre array
home made contenenti un limitato numero di geni di interesse al fine di effettuare studi molto mirati ed approfonditi, eliminando anche
tutti gli irrisolti problemi di gestione dei dati degli array ad alta densità. Conclusione: Le analisi con i microarray impiegano una miriade
di tecnologie e metodi diversi ma sempre bisogna capire bene di che cosa si tratti (What), del perché (Why) e come (How) l'obiettivo
possa essere raggiunto nel modo migliore.
Storia dei DNA microarray
La prima intuizione di tale nuovo metodo di analisi si deve a Mark Schena dell’Università di Stanford, che ne ha fatto cenno ad
Amsterdam nel 1994 nel corso del quarto Congresso Internazionale di Biologia Molecolare delle Piante, ma la prima pubblicazione
riguardante questa nuova tecnica è dell'anno seguente (Schena et al. 1995). Presso l'Università di Stanford, che ha una lunga
tradizione negli studi sugli acidi nucleici, e presso i contigui Laboratori dell’Università di Davis, sono state infatti affrontate le prime
problematiche su come fissare sui vetrini microscopiche linee di sequenze di geni delle piante e su come studiarne l'espressione
utilizzando campioni di mRNA isolati dalle cellule e coniugati ad un enzima per poter evidenziare poi l'avvenuta reazione con la
comparsa di fluorescenza di intensità variabile e quindi misurabile. Quindi i microarray, come i microprocessori, sono nati nella Silicon
Valley. Parallelismo, miniaturizzazione ed automazione sono tre aspetti che mettono in luce una certa similarità fra le due tecnologie.
In realtà possiamo iniziare la storia dei microarray con il primo semplice esempio di array, denominato “dot blot” per arrivare allo
sviluppo dei microarray ad alta densità [1]. L'origine di tale nuova tecnologia va fatta risalire agli esperimenti di Southern che, nel
1975, dimostrò come fosse possibile fissare il DNA ad un supporto solido ed attrarre, in modo specifico, una catena complementare
sempre di DNA. Tale processo, poi largamente utilizzato per scopi diagnostici, è noto come “Southern blotting". Le tecniche standard
di laboratorio per il rilevamento di specifiche sequenze nucleotidiche utilizzano una sonda (probe) di DNA, costituita da un piccolo
frammento di acido nucleico marcato con un isotopo radioattivo o una sostanza fluorescente. La sonda, rappresentante la sequenza
complementare a quella del gene da individuare, viene posta in contatto con un supporto solido (ad esempio, un gel od un filtro
poroso) sulla cui superficie sono ancorati acidi nucleici provenienti da un dato genoma. Grazie alla peculiarità degli acidi nucleici di
riconoscere le sequenze ad essi complementari, la sonda può legarsi in maniera selettiva al frammento ancorato ad essa
complementare così che, semplicemente misurando la presenza e la quantità di marcatore legato al supporto solido, è possibile
quantificare se e quanto è stato espresso un determinato gene (Southern et al, 1975).
5
Quaderni di Bioinformatica
I principi fondamentali dei test di ligazione miniaturizzati di spot paralleli erano già stati descritti da più di un decennio. Roger Ekins e
colleghi avevano descritto le ragioni per cui i saggi effettuati utilizzando i microspot erano più sensibili di qualsiasi altro test di
ligazione [2-4]. Inizialmente l’elevata sensibilità e l’enorme potenziale delle tecnologie basate sui microspot sono stati dimostrati
utilizzando sistemi miniaturizzati per i test immunologici. Tuttavia l’interesse della tecnologia degli “spot” si è presto concentrata sulla
creazione dei “DNA chips”. La possibilità di eseguire centinaia di reazioni di ligazione in parallelo in un unico esperimento
corrisponde, infatti, alla necessità nella ricerca biologica di un approccio a livello genomico più ampio. Il sogno della sequenza
completa del DNA umano (o genoma) nacque praticamente il giorno seguente al quale Sanger scoprì come leggere il DNA. Fu poi
Fodor, che nel 1991, fabbricò i primi microarray, combinando il metodo fotolitografico, usato per i semiconduttori, per realizzarne i
primi fissando degli oligonucleotidi su superfici di vetro.
Avendo intuito l'importanza commerciale che tale
tecnologia avrebbe potuto avere, fondò l'Affymetrix che ha
avuto il merito di mettere sul mercato i GeneChip, che
sono stati i primi vetrini con DNA utilizzabili per tests
genetici. Nel 2002 questo sogno divenne parzialmente
realtà. Il genoma umano fu dichiarato completamente letto
fra squilli di tromba e grandi clamori. Più in piccolo, sotto i
titoli, si leggeva che, in fin dei conti, ci si era limitati a
leggere il 98% della sequenza eucromatinica, ma tanto
bastava. Tutte le regioni del DNA altamente ripetitive, quali
per esempio i telomeri (le code dei cromosomi) e i
contromeri (il nodo centrale dei cromosomi), non erano
assolutamente stati letti. Ciò era dovuto a difficoltà
tecniche, queste regioni sono infatti composte
essenzialmente da un’infinità di ripetizioni di una piccola
sequenza di DNA e contengono pochissimi geni. Spesa totale, circa due miliardi di euro. Molto a prima vista ma, in fin dei conti, con
quei soldi oggigiorno ci si comprano un paio di aerei da caccia militari ultimo modello, o un decimo di traforo alpino per i treni ad alta
velocità. Soldi ben spesi dopo tutto. Non si sa se gabbati dalle loro stesse parole o semplicemente naif, i ricercatori erano attesi al
varco da una brutta sorpresa. Leggere il DNA significa ottenere la sequenza, non riuscire a capirci qualcosa. Ciò che portò un
professore dell’onorevolissimo MIT a commentare “abbiamo speso due miliardi per un libro che non sappiamo leggere”. Si fece quindi
un serio sforzo per cercare di interpretare quell’immensa massa di dati (quasi 3,2 miliardi di lettere) che era stata generata dal
sequenziamento del genoma umano. Oggigiorno questo sforzo è ben lungi dall’essere terminato ma importantissimi passi avanti
furono celermente compiuti. Alla fine del 2002 si conosceva in effetti la sequenza di qualche gene. Un’analisi di tutte queste sequenze
permise allora di identificare quelli che potevano essere considerati come i caratteri comuni a tutti, o almeno molti, geni. Identificati
questi caratteri, furono creati dei programmi informatici (chiamati ab initio) capaci di passare in rassegna l’intero DNA alla ricerca di
altri geni. Iniziò allora il valzer delle cifre. Il genoma umano contiene… le ultime stime dicono meno di 25′000 geni. Si era cominciato
con più di 150′000… molti altri geni furono in seguito identificati grazie al sequenziamento di RNA. Infine, quando altri genomi furono
sequenziati, un confronto fra questi e quello umano permise l’identificazione di numerose regioni del DNA che erano rimaste invariate
nonostante il lungo tempo evolutivo che le separava. Molte di queste regioni corrispondevano a geni. Una prima breccia nella
comprensione del DNA era stata aperta. Badate bene, si era unicamente riusciti ad identificare i geni. La funzione di questi ultimi
restava (e in parte resta ancora oggigiorno) ancora un mistero. Une seconda breccia sarebbe potuta essere aperta se l’espressione
temporale e spaziale dei geni fosse stata conosciuta. Per esempio un gene che si esprime a livello del cervello embrionale,
probabilmente avrà un ruolo nella formazione di quest’organo durante lo sviluppo precoce.
Fu allora che qualcuno ebbe un’idea geniale. Un gene, per essere utilizzato dalla cellula, deve essere fotocopiato in RNA, il quale
sarà in seguito tradotto in proteine. Questa tecnica permette di misurare unicamente l’espressione di un gene alla volta, senza
garantire per altro una quantificazione precisa dell’espressione del gene studiato (analisi unicamente qualitativa). Riuscire a misurare
la quantità di RNA significava riuscire a quantificare l’utilizzo di un dato gene. Una tale tecnica già esisteva con il nome di Northern
Blot. Questa tecnica applicata per la prima volta da Ed Southern nel 1975, ha aperto di fatto la strada alla possibilità di analizzare i
profili di espressione genica di un intero organismo. Tuttavia, l’applicazione su larga scala di questa metodologia si è avuta solo di
recente grazie all’utilizzo di supporti solidi non porosi, come il vetro, e alla messa a punto di tecniche fotolitografiche per la sintesi di
frammenti oligonucleotidici ad alta densità spaziale. In particolare, i protocolli sviluppati dal gruppo di Pat Brown a Stanford, hanno
permesso di ancorare automaticamente migliaia di catene di cDNA su vetrini da microscopio e, grazie alla loro ibridazione con
campioni di mRNA marcati selettivamente con molecole fluorescenti, di studiare il profilo di espressione di colture cellulari in stati
fisiologici diversi (Brown e Botstein, 1999). Parallelamente, sono state messe a punto tecniche di mascheramento fotolitografico,
normalmente utilizzate nell’industria dei semiconduttori, per la produzione di microarray capaci di 400.000 sonde oligonucleotidiche
su una superficie di un pollice quadrato (Lipshutz et al, 1999).
6
Quaderni di Bioinformatica
L’idea geniale fu di cercare misurare in un sol colpo l’espressione di tutti i geni conosciuti. Si sapeva da mezzo secolo che il DNA è
una doppia elica. Le due eliche, se separate si riassociano spontaneamente riformando sempre le coppie A-T, G-C. Le due eliche, se
separate anche molte volte, si riassociano sempre nella stessa posizione. Quest’associazione necessità la presenza delle coppie
sopracitate (A-T. G-C) e, nelle giuste condizioni di temperatura, avverrà solo se le
due sequenze sono perfettamente complementari. Una corta sequenza di DNA, può
dunque essere utilizzata come “sonda” capace di cercare sequenze a lei
complementari. Sebbene non si riuscisse a sintetizzare lunghe catene di DNA senza
una matrice (una copia già fatta) era possibile sintetizzare brevi sequenze
unicamente per via chimica. L’idea fu dunque questa. Sintetizzare migliaia di copie
di un frammento di un gene su uno spazio piccolissimo, poi immediatamente a
fianco di queste sintetizzare migliaia di copie di un altro gene, fino a produrre un
fascio di sonde per ogni gene dell’organismo. Se la sequenza è abbastanza lunga
(20-25 lettere) la probabilità che un altro frammento di DNA sia identico è
abbastanza bassa.
Ad esempio se utilizzassi “nel mezzo del cammin di nostra” (25 lettere spazi esclusi)
ognuno di voi saprebbe di che opera letteraria stiamo parlando, senza
necessariamente doverla citare per intero.
Tornando all’RNA simili sonde furono sintetizzate in griglie finissime. In ogni
quadratino della griglia fu inserita una diversa sonda capace di catturare tutti i
frammenti di DNA corrispondenti a un dato gene. L’insieme della griglia (contenente circa 25′000 posizioni) è quindi capace di
leggere, in un sol colpo, l’intera espressione genica delle cellule studiate.
Come detto l’espressione dei geni necessita la trascrizione dei geni in RNA. Avrete magari notato che, quando si parlava delle
proprietà di riassociazione delle due eliche, si faceva riferimento al DNA. Perché il sistema sopra proposto funzioni, vi è dunque la
necessità di trasformare tutto l’RNA di una cellula in DNA.
Come al solito la biologia, quando messa alle strette, si permise un piccolo furto. Esisteva in effetti una proteina virale in grado di
copiare l’RNA in DNA. Siccome normalmente accade il contrario (il DNA è fotocopiato in RNA) si battezzò questo meccanismo
retrocopia. I virus che possiedono questa proteina sono detti retrovirus, il cui rappresentante più celebre è senz’altro il virus dell’HIV.
Riassumiamo quindi la situazione: il sequenziamento del DNA umano aveva messo a disposizioni immense quantità di dati non
interpretabili. Le sequenze geniche furono trovate grazie a programmi informatici (lavoro ancora in corso).
Misurare l’espressione di tutti i geni poneva però un serio problema.
- I geni sono molti. Problema risolto grazie alla griglia finissima. Le sonde capaci di leggere oltre 25′000 geni possono ora raccolte in
un centimetro quadrato.
- L’RNA pone dei problemi di manipolazione sperimentale. Problema aggirato grazie alla retrocopia dell’RNA in DNA.
Restava da aggirare il problema della quantificazione dell’RNA retrocopiato. Ci si risolse a marcare con dei prodotti fluorescenti il
DNA retrocopiato.
Ecco dunque la procedura sperimentale. Produrre il microarray (il vetrino contenente le sonde). Allo stesso tempo estrarre l’RNA dalle
cellule studiate (ad esempio le cellule muscolari). Retrocopiare l’RNA estratto in DNA, approfittare del passaggio per marcare il DNA
così prodotto con dei prodotti fluorescenti. Porre l’estratto di RNA retrocopiato sul microarray e portare il tutto alle giuste condizioni di
temperatura. Ogni RNA si assocerà quindi alla sua sonda (e se tutto va bene solo alla sua sonda). Misurare la fluorescenza in ogni
quadratino della griglia. La quantità di fluorescenza è proporzionale al numero di RNA che si sono associati alle sonde. Confrontare i
dati così prodotti con quelli di altri esperimenti per determinare i geni specifici di ogni tessuto. Si noti che la quantificazione della
fluorescenza è estremamente precisa, un valore numerico può quindi essere associato ad ogni quantità di fluorescenza (misura
quantitativa).
Abbiamo detto che la totalità dell’informazione genetica è chiamata genoma. Per analogia, la totalità dell’informazione della
trascrizione dei geni (RNA in un dato momento, in un dato tessuto) fu chiamata trascrittoma. Questa è dunque la definizione finale di
microarray: Una tecnica capace di misurare in un sol colpo l’intero trascrittoma.
Non sempre le migliori idee le hanno le università, non fu il caso dei microarray. Fu
un’industria privata, Affymetrix, ad avere per prima l’idea e, logicamente, a ricoprirla di
brevetti. La piccola cronaca poi ci rivela che una sbadataggine aziendale fece in modo che i
brevetti sui microarray non fossero mai depositati in Islanda, paese in cui nacque
Nimblegen, unica ditta oggi in grado di portare un po’ di concorrenza sul mercato. I
microarray trovarono immediatamente numerosissime applicazioni. Oggigiorno sono
utilizzati non solo per lo studio dell’espressione dei geni nei differenti tessuti ma anche per
analizzare la risposta a diversi tipi di stress o la malignità di un tumore (il sistema che
permette la migliore valutazione della probabilità di metastasi).
Una seconda serie di applicazioni derivò da una peculiarità della tecnologia. Come detto la sonda (nelle buone condizioni) è capace
di associarsi alla sequenza complementare solo se la complementarietà è perfetta. Ora esistono numerose differenze genetiche fra
7
Quaderni di Bioinformatica
individui (gemelli esclusi) è quindi verosimile che alcune lettere del DNA (nucleotidi) siano differenti fra due individui. In questo caso
nessuna fluorescenza dovrebbe essere osservabile nel quadratino della griglia portante le sonde per un dato gene, anche se questo
gene è trascritto (a causa della mutazione). Visto che questi cambiamenti affliggono generalmente solo una lettera (nucleotide)
vengono detti Sigle Nucleotide Polymorphsm o SNP. L’idea fu la seguente: fabbricare per ogni posizione del DNA quattro sonde
identiche in tutto, tranne che per la posizione studiata in cui rispettivamente si inseriscono le quattro lettere del DNA (A, T, G, C).
Questo procedimento viene ripetuto per ogni posizione del DNA (3,2 miliardi in totale!).
Se questa volta, al posto dell’RNA, associamo alle sonde del DNA precedentemente frammentato e marcato con i colori fluorescenti,
ci aspetteremo di osservare per ogni gruppo di quattro sonde un segnale fluorescente proveniente da una o al massimo due sonde.
Se l’intero procedimento viene fatto sull’intero genoma è possibile “risequenziare” l’intero DNA di un individuo semplicemente
leggendo quale sonda (per gruppi di quattro) offre’ il miglior segnale. Il sistema non è ovviamente perfetto. Gli SNP microarray
(single nucleotide polymorphisms SNPs) sono particolari DNA microarray che sono usati per identificare i così detti tratti ipervariabili,
ovvero quelle sequenze che variano da individuo ad individuo nell’ambito della stessa specie o in sotto popolazioni isolate
geograficamente o socialmente Arrays di oligonucleotide corti sono usati per identificare il polimorfismo di un singolo oligo nucleotide,
che si pensano responsabili della variazione genetica e della suscettibilità individuale a manifestare determinate malattie. Se per
esempio una regione è estremamente variabile non si osserverà alcun segnale per nessuna della quattro sonde (perché altri SNP
sono troppo vicini). Inoltre il metodo non è perfetto, una cospicua percentuale della SNP non è visibile con questo approccio. Infine il
DNA si è rivelato più plastico del previsto con larghe regioni del genoma che possono essere duplicate o perse. Queste variazioni del
DNA di larga scala non sono ovviamente visibili con questo tipo di microarray (altri microarray sono per altro stati prodotti per mettere
in evidenza queste variazioni).
Anno
Evento
1987
Assegnato brevetto su sequenziamento tramite ibridizzazione (SBH)
R.Drmanac, Università di Belgrado Argonne National Laboratory HySeq
1988-1991
Diversi gruppi pubblicano reports sull’SBH
E.Southern, Oxford University (Oxford Gene Technolgy)
A.Mirzabekov, Engelhard Institute, Mosca Argonne National Laboratory
S.Fodor, Affymetrix
W.Bains, Bath University
1989
Assegnato brevetto europeo a Southern
“Oligonucleotidi arrays as a testing platform”
1993
Assegnato brevetto negli US sull’SHB alla HySeq
1997-1998
HySeq accusa Affimetrix per una violazione del brevetto
“non stiamo sequenziando, ma cercando mutazioni”
1998
Procedimenti legali tra Southern e diverse compagnie produttrici di chip.
(Affimetrix, HySeq, Hoffman-La Roche, Abbot, etc.)
1998
Brevetto US alla Incyte (Synteni) sulla tecnologia di printing di Microarray con densità superiore a
100 polinucleotidi per centimetro quadrato
1998-1999
Affimetrix ed Incute (ed altri) si accusano a vicenda di violazione di brevetti
2000-2004
Genoma umano intero su uno microarray
La battaglia dei brevetti sui gene chip [5]
Attualmente sono disponibili dei microarray per il genoma umano e quello dei principali organismi modello, animali e vegetali.
Moltissime tecniche derivate hanno a loro volta visto la luce (whole genome tiling path array, CHIP on Chip, ecc.). L’uso di microarray
per lo studio del profilo d’espressione genetica è stato pubblicato per la prima volta nel 1995 (Science) e il primo genoma eucariotico
completato con analisi di microarray fu quello del Saccharomyces cerevisiae nel 1997 (Science).
I primi articoli riguardanti la nuova tecnologia denominata DNA-microarray, in grado di consentire il monitoraggio quantitativo
dell’espressione di centinaia di geni simultaneamente, furono pubblicati a metà degli anni novanta da un team di studiosi di diverse
discipline della Stanford University [6]. La biologia molecolare, che fino ad allora aveva adottato un approccio riduzionista, ricomincia
ora a considerare ogni singolo gene come parte di un sistema più complesso di espressione, che grazie alla nuova tecnologia può
essere valutato nella sua interezza. Il rapido progresso nel sequenziamento dell’intero genoma [7, 8], e l’aumentata importanza degli
studi d’espressione, accoppiati alle nuove tecnologie di sintesi in vitro di oligonucleotidi, hanno permesso di generare con elevata
efficienza migliaia di sonde oligonucleotidiche. Le nuove tendenze tecnologiche nel campo della microfluidica e delle nanotecnologie,
i nuovi sistemi di rilevamento e il perfezionamento nella tecnologia dei computer e nella bioinformatica, sono state rapidamente
integrate nella tecnologia dei sistemi basati sulla tecnologia microarray. Tutto questo ha portato negli ultimi anni ad un enorme
potenziamento di tutte le tecnologie basate sugli array. L’industria elettronica, in cui i microchip in silicio sono stati il soggetto ideale
per la miniaturizzazione, ha negli ultimi anni ideato strumenti micro fabbricati che possono realizzare un insieme di funzioni come per
esempio preparazione del campione, purificazione, separazioni…
8
Quaderni di Bioinformatica
TITOLARI
Università della California
Governo degli Stati Uniti
Sanofi Aventis
GlaxoSmithKlein
Incyte
Bayer
Chiron
Genentech
Amgen
Human Genome Sciences
Wyeth
Merck
Applera
Università del Texas
Novartis
Johns Hopkins University
Pfizer
Massachussetts General Hospital
Novo Nordisk
Harvard University
Stanford University
Lilly
Affymetrix
Cornell University
Salk Institute
Columbia University
University del Wisconsin
Massachussetts Institute of technology
NUMERO DI BREVETTI
1018
926
587
580
517
426
420
401
396
388
371
365
360
358
347
331
289
287
257
255
231
217
207
202
192
186
185
184
La necessità di manipolare fluidi che si muovono in
canali stretti (microfluidica) ha aperto nuove aree di
ricerca, ha sviluppato nuovi metodi di fabbricazione per i
sistemi fluidici, ha portato alla costruzione di complessi
sistemi microfluidici e allo studio del moto di fluidi in
canali di piccole dimensioni. Inoltre l’introduzione di
tecniche fotolitografiche per la fabbricazione di
microsistemi chimici e biochimici, ha incrementato
esponenzialmente il numero di applicazioni in tale
settore. Particolarmente interessante è la tecnologia
MEMS (la sigla MEMS sta per Micro Electro-Mechanical
Systems) che applica sullo stesso wafer tecniche di
lavorazione usate nella fabbricazione di circuiti integrati
per costruire strumenti microscopici elettro-meccanici,
come per esempio sensori. La tecnologia MEMS
permette di applicare la stessa economia dovuta
all’integrazione su piccola scala della lavorazione dei
wafer di silicio alla fabbricazione di strumenti meccanici.
Per esempio i sensori prodotti usando le tecnologie
convenzionali sono costruiti uno per volta, mentre
usando la tecnologia MEMS, lo stesso sensore è
realizzato in centinaia o migliaia di copie, con prestazioni
costanti e basso costo unitario. Una delle applicazioni
della tecnologia MEMS con fluidi in movimento è stata la
realizzazione di uno strumento in grado di realizzare la
“Polymerase Chain Reaction” (PCR) ottenendo uno
strumento contenente canali in silicio per i reagenti e il
campione, elementi riscaldanti per modificare le
temperature durante il ciclo di amplificazione e sensori
per il controllo della temperatura. Le piccole dimensioni
dei canali
permettono l’uso di un minor quantitativo di reagenti e la bassa capacità termica del
silicio riduce il tempo necessario per la stabilizzazione delle temperature. Il risultato è
che il tempo richiesto per realizzare l’amplificazione del campione con la PCR è ridotto
da ore a minuti. L’inconveniente è che, non essendo possibile pulire lo strumento, esso
è monouso.
Progetto “Lab-on-chip” monolitico della STMicroelectronics.
Inoltre sono in fase di studio progetti monolitici che consentono, oltre all’amplificazione, anche il riconoscimento delle sequenze di
DNA. Una più recente tecnica, che potrebbe rivelarsi assai promettente, adotta un approccio del tutto diverso per identificare le
singole basi che compongono la molecola di DNA. Questa metodica, chiamata “sequenziamento mediante nanopori”, sfrutta le
differenze fisiche esistenti fra le quattro basi che compongono il DNA, per produrre un segnale diverso. Come l’elettroforesi, questa
tecnica trascina le molecole di DNA verso una carica positiva. Per raggiungerla, le molecole devono attraversare una membrana
transitando per un poro con un diametro inferiore a 1,5 nanometri, per cui riescono a passare solo le molecole di DNA a filamento
singolo. Quando il filamento transita attraverso il poro, i nucleotidi bloccano temporaneamente il passaggio, alterando la conduttanza
elettrica della membrana misurata in picoampere. Le differenze fisiche fra le quattro basi generano blocchi di durata e grado diversi.
Questa tecnologia dovrebbe portare ad una notevole riduzione dei costi e a leggere un intero genoma umano in non più di 20 ore.
Negli ultimi anni, la tecnologia dei microarray, messa a punto per studiare gli acidi nucleici, si è andata espandendo per analizzare
meglio il proteoma delle cellule e le interazioni che avvengono fra le diverse proteine e fra queste e l'ambiente esterno, che sono
molto importanti nel determinismo delle malattie e le cui conoscenze certamente faciliteranno la messa a punto di nuovi farmaci. Le
proteine sono considerate le più importanti strutture cellulari per il continuo ed intenso lavoro che svolgono sia in stato di benessere
che in corso di malattia. Abbiamo visto che, fino a qualche anno fa si credeva che ogni gene codificasse un solo tipo di mRNA e
quindi, almeno teoricamente, una sola proteina ed attraverso di essa, impartisse istruzioni alle strutture cellulari e quindi al
metabolismo. Oggi sappiamo invece che la realtà è molto più complessa perché ogni gene, con le varianti, può codificare fra 3 e 20
proteine. Quindi per capire come i geni funzionano bisogna arrivare alle proteine che essi esprimono e capire anche come le varie
9
Quaderni di Bioinformatica
proteine interagiscono fra di loro. Ne deriva che se è stato molto importante studiare a fondo il genoma è ancora più importante
studiare il proteoma, ossia lo sconfinato mondo delle proteine che è molto più complesso, anche perché non statico ma
continuamente mutevole in un contesto di reti dinamiche per la continua serie di interazioni che avvengono fra di loro per effetto sia
dei processi metabolici sia come risposta agli stimoli ambientali. A differenza del genoma che è costituito da un numero fisso di geni,
il livello a cui le proteine cellulari operano è molto dinamico perché le proteine, direttamente sottoposte a tutti gli stimoli dell'ambiente
vanno incontro a continue variazioni di adattamento e risposta. Ecco perché è molto difficile determinarne accuratamente l'esatto
numero o le quantità presenti nelle cellule viventi. Inoltre le varie famiglie di proteine sono estremamente diverse fra loro sia per le
dimensioni delle molecole, sia per la struttura, che per le caratteristiche chimiche e le funzioni.
Comunque i microarray con proteine, oltre che in campo terapeutico, possono trovare sempre più ampia applicazione in campo
diagnostico specialmente per le malattie infettive di origine virale. Infatti attualmente i metodi più largamente usati per individuare
agenti patogeni virali in campioni biologici, sono quelli che si basano sull'immunoenzimatica eseguita in piastrine o su la PCR. Ma i
primi hanno una sensibilità che oscilla fra il 70 e 90% ed i secondi hanno un costo elevato che ne limita la diffusione su larga scala
specialmente in nazioni del terzo mondo che poi sarebbero quelle che ne avrebbero più necessità. Per la preparazione di microarray
dedicati specificamente, le proteine da usare come probe, che qualcuno preferisce chiamare " protein chip " o semplicemente " chip ",
possono essere derivate da estratti cellulari oppure sintetizzate mettendo insieme dei peptidi sintetici. Le proteine possono anche
essere prodotte in colture di batteri, lieviti, cellule ingegnerizzate di insetti. Tali proteine ricombinanti, sono poi purificate con tecniche
diverse e possono diventare un ottimo materiale da immobilizzare sui vetrini come molecole di cattura. I metodi per fissare le proteine
sui supporti sono fondamentalmente simili a quelli utilizzati per gli acidi nucleici. Come vedremo, però, produrre microarray con le
proteine offre qualche difficoltà in più. Infatti, come primo inconveniente c'è il problema che le proteine sono molto meno stabili degli
acidi nucleici perché vanno incontro spesso a processi di ossidazione e di denaturazione. Poi le proteine, quando sono rimosse dal
loro ambiente naturale, modificano la loro struttura nativa e quindi anche la forma, talvolta esponendo all'esterno aminoacidi diversi
da quelli della forma nativa. Ne deriva che, quando le si va a far reagire, questi aminoacidi esterni, che costituiscono gli epitopi più
esposti, possono pregiudicare il risultato della reazione.
Sono stati studiati diversi tipi di microarray per le proteine che Dev Kambhampati, nella sua monografia (2004), suddivide così:
•
•
•
•
•
Array con anticorpi: Sono stati utilizzati sia anticorpi policlonali che monoclonali per titolare proteine specifiche in campioni
biologici. Si possono considerare dei test immunologici in miniatura.
Array con antigeni: E' l'inverso del precedente, perché in questo caso è fissato un antigene sul supporto per titolare il
corrispondente anticorpo presente nel campione biologico.
Array funzionali: Proteine purificate sono fissate sul supporto per legare altre proteine o DNA o interagire con altre piccole
molecole.
Array di cattura: Molecole non proteiche ma capaci di legarsi alle proteine sono ancorate alla fase solida. Esempio il
Ciphergen Protein Chip.
Array in sospensione: E’ un caso particolare che utilizza come fase solida delle microparticelle fornite di qualcosa di simile
ad un codice a barre.
La tecnologia dei DNA microarray
Un tipico esperimento che utilizzi i microarray comprende cinque fasi
principali:
1-deposizione degli oligonucleotidi sonda sul supporto rigido;
2-preparazione del materiale genetico da analizzare (compresa la
marcatura con molecole fluorescenti);
3- ibridazione dei campioni fluorescenti sul microarray;
4. lettura dei valori di fluorescenza, effettuata tramite apposito
scanner;
5. analisi statistica ed elaborazione dei dati ricavati dalle immagini
prodotte.
I microarray rappresentano un sistema di analisi in parallelo, che velocizza considerevolmente l'esplorazione genomica: permettono,
infatti, di esaminare contemporaneamente l'espressione di migliaia di geni o un ampio numero di polimorfismi genetici. Un altro
vantaggio è dato dai costi relativamente contenuti se rapportati al numero di geni o polimorfismi analizzabili per esperimento.
10
Quaderni di Bioinformatica
I microarray a DNA possono essere definiti come un insieme miniaturizzato e ordinato di frammenti di acidi nucleici derivati da singoli
geni e fissati in posizioni prestabilite su un supporto solido, rendendo possibile l’analisi simultanea tramite ibridazione specifica di
centinaia di geni [9].
In questi esperimenti, la complementarità delle sequenze porta alla ibridizzazione di due molecole di acidi nucleici a singolo filamento,
una delle quali è immobilizzata su una matrice solida [10]. La scelta di quali geni debbano essere rappresentati può variare dalla
totalità (interi genomi su un unico vetrino) allo specifico (particolari pathway metabolici, etc.). Esistono di fatto due tecnologie per la
produzione di microarrays: la prima denominata a spotting e la seconda detta in situ. Nella tecnologia spotting, le sonde da ancorare
al supporto solido, normalmente un vetrino da microscopia, sono sintetizzate a parte e quindi depositate sul supporto. Tali sonde
possono essere costituite da molecole di cDNA lunghe alcune migliaia di paia di basi le cui sequenze possono essere ricavate da
banche dati genomiche (GenBank, dbEST o UniGene) o da librerie proprietarie costituite da cDNA non ancora completamente
sequenziato. Nello studio dell’espressione di organismi eucarioti, le sequenze delle sonde sono normalmente ricavate dalle
cosiddette Express Sequence Tags (EST), ovvero dalle porzioni codificanti identificate dai singoli progetti genoma. Tali banche dati
contengono, assieme alle sequenze, anche tutta una serie di informazioni bibliografiche necessarie, oltre che per la scelta delle
porzioni di DNA da depositare sulla matrice, anche per la successiva valutazione dei profili di espressione. Nel caso dei lieviti o di
organismi procarioti le sonde sono generate per amplificazione diretta, con primers specifici, del DNA genomico. Selezionate le
sequenze da studiare, il cDNA relativo viene prodotto mediante PCR ottenendo così sonde della dimensione da 600 a 2400 bps. Più
recentemente, le sonde che vengono depositate sono rappresentate
non tanto da frammenti di materiale genomico ottenuto via PCR,
quanto piuttosto da sequenze sintetiche di oligonucleotidi lunghe 5070 paia di basi. Una volta prodotte, le sonde vengono depositate sul
supporto solido, in genere costituito da un vetrino. La deposizione è
effettuata da sistemi robotizzati che mediante l’utilizzo di pennini
prelevano le sonde direttamente dalle piastre utilizzate per la PCR e
le depositano sul vetrino formando spots di circa 100-150 µm di
diametro, distanziati l’uno dall’altro 200-250 µm. Durante la
deposizione, il sistema di controllo del robot registra
automaticamente tutte le informazioni necessarie alla
caratterizzazione ed alla completa identificazione di ciascun punto
della matrice (identità del cDNA, coordinate sul supporto, ecc.). Una volta sul vetrino, il probe viene legato covalentemente ai gruppi
amminici del supporto attraverso una reazione innescata dall’irraggiamento con luce ultravioletta, mentre il cDNA in eccesso viene
rimosso con semplici lavaggi dell’array. Infine, il cDNA sul supporto viene reso a catena singola attraverso una denaturazione termica
o chimica. L’altra tecnica utilizzata per la produzione di microarrays è quella detta in situ che, sviluppata da Affimetrix, è frutto
dell’interazione di due tecnologie particolari, la fotolitografia e la sintesi diretta in fase solida di oligonucleotidi. La sintesi delle sonde
avviene direttamente sulla superficie del supporto solido. In particolare, il supporto costituito da un wafer di silicio viene
funzionalizzato con piccole sequenze di oligonucleotidi (oligo-starter).
Questi oligo hanno la caratteristica di avere il gruppo reattivo protetto da gruppi fotosensibili e quindi, grazie ad una maschera
fotolitografica, è possibile indirizzare la luce in specifiche posizioni dell’array e liberare i siti necessari per la sintesi della sequenza.
Una volta deprotetti selettivamente i siti reattivi, è sufficiente incubare la superficie con desossiribonucleotidi protetti per allungare la
catena in fase di sintesi. Ripetendo il ciclo di deprotezione grazie all’applicazione di maschere fotolitografiche diverse e di incubazione
è quindi possibile aggiungere nucleotidi diversi in posizioni diverse e sintetizzare tutte le sonde necessarie per l’analisi di un dato
genoma.
Sono state sviluppate due differenti tecnologie per effettuare l’analisi dell’espressione genica [6, 11]: gli array a oligonucleotidi e gli
array a cDNA. Negli array a cDNA, i frammenti di acido nucleico sono spottati con un sistema automatizzato, utilizzando un protocollo
messo a punto inizialmente da un team dell’Università di Stanford (http://cmgm.stanford.edu/pbrown/mguide/). Il protocollo per
produrre questo tipo di microarray è stato inizialmente sviluppato dal Prof. Pat Brown e colleghi dell'Università di Stanford. La
costruzione di questo tipo di microarray consiste nel depositare determinati cloni di DNA o oligonucleotidi in precise zone della
superficie di un vetrino per microscopia secondo una griglia prestabilita. Il cDNA utilizzato per lo spot è generalmente derivato da un
amplificazione tramite PCR di librerie a cDNA. La tecnologia degli oligo-microarray consiste invece nel sintetizzare direttamente i
nucleotidi sulla superficie del vetrino [12]. Esistono due differenti tecnologie per la sintesi degli oligonucleotidi, la tecnologia
fotolitografica, che consente la sintesi di corti nucleotidi di 20-25 basi (Affimetrix, www.affimetrix.com) [13] e la tecnologia inkjet
(Agilent Technologies, [email protected]) che consente la sintesi di oligonucleotidi più lunghi, 60 basi [14].
Entrambe queste tecnologie sono state inizialmente sviluppate per l’industria dei computer e in seguito adattate alla fabbricazione dei
microarray. Esiste inoltre un terzo tipo di array, costituito dallo spot di oligonucleotidi presintetizzati, solitamente tali frammenti sono
più lunghi, circa 70 nucleotidi [15]. La lunghezza ottimale della sonda oligonucleotidica fissata al vetrino è tutt’oggi oggetto di dibattito.
È importante considerare che all’aumentare della lunghezza della sonda aumenta la specificità della reazione, mentre al suo
11
Quaderni di Bioinformatica
diminuire aumenta la sensibilità. È necessario effettuare diverse prove ad ogni esperimento al fine di determinare il giusto equilibrio
tra le due variabili.
In entrambe le tipologie di array gli acidi nucleici sono disposti
ordinatamente utilizzando un sistema automatizzato x-y-z
estremamente preciso, in migliaia di spot dal diametro di circa
100 m in un area di pochi centimetri quadrati. Il maggior
vantaggio di array così densi, consiste nella richiesta di
piccolissimi volumi per l’ibridazione e quindi di pochissimo
materiale di partenza per l’analisi. I primi array contenevano meno di un centinaio di geni [6], ma si è presto passati ad array con
migliaia di geni [16, 17]. Oggi Affimetrix è in grado di posizionare su un singolo array un numero di sonde pari o superiore al numero
totale di geni presenti nel genoma umano e si propone entro pochi anni di creare array con circa 500.000 spot (il genoma umano è
costituito da circa 30.000 geni!)[13]
Rappresentazione schematica delle due differenti
tecnologie. microarray, a cDNA e oligonucleotidiche.
[Gibson, 2002 #17]
Lo studio dell’espressione genica tramite microarray è basata sul principio dell’ibridazione competitiva di popolazioni di cDNA
differentemente marcate. Marcatori fluorescenti, solitamente Cy3 e Cy5, sono utilizzati per distinguere pool di DNA retrotrascritti da
differenti campioni. Tali sonde sono posate sui microarray e sono quindi sottoposte ad una reazioni di ligazione secondo i protocolli
utilizzati per i Southern Blot. I microarray sfruttano una tecnica di ibridazione inversa, consiste cioè nel fissare tutti i probe su un
supporto e nel marcare invece l'acido nucleico target. È una tecnica che è stata sviluppata negli anni '90, oggi permette l'analisi
dell'espressione genica monitorando in una sola volta gli RNA prodotti da migliaia di geni. Per studiare gli mRNA, essi vengono prima
estratti dalle cellule, convertiti in cDNA, con l’uso di un enzima chiamato transcriptasi inversa e allo stesso momento marcati con una
sonda fluorescente. Quando si fa avvenire l'ibridazione fra la sonda presente sulla matrice e il cDNA target, quest'ultimo rimarrà
legato alla sonda e può essere identificato semplicemente rilevando la posizione dove è rimasto legato. Il segmento di DNA legato al
supporto solido è noto come probe. Migliaia di probe sono usati contemporaneamente in un array. Questa tecnologia è nata da una
tecnica più semplice nota come Southern blotting, dove frammenti di DNA attaccati ad un substrato sono testati da sonde geniche
aventi sequenze conosciute. I microarray possono essere fabbricati usando diverse tecnologie, come la stampa di micro solchi, con
un particolare microspillo appuntito su una lastrina di vetro dove verrà attaccata covalentemente la sonda (probe) di materiale
genetico ottenuta per clonazione sfruttando la tecnica PCR; usando maschere preformate da ditte specializzate come ad esempio da
Greiner Bio-One.
La sintesi in situ di oligonucleotidi presenta un certo numero di vantaggi rispetto a quella precedentemente vista. I prodotti di questa
sintesi hanno caratteristiche di omogeneità e alta qualità su tutte le celle che compongono l’array su cui vengono sintetizzati, con
varie metodologie, oligonucleotidi diversi. Esistono differenti metodi di posizionamento delle sonde sulla superficie dell’array. Il
metodo più conosciuto combina tecniche fotolitografiche usate nell’industria dei semiconduttori a tecniche di sintesi in fase solida, per
ibridare direttamente su un wafer di quarzo le sonde oligonucleotidiche di lunghezza
desiderata (di solito 25 nucleotidi). Questo tipo di tecnologia è derivata direttamente
dagli studi fatti da Foder che ha usato tecniche di fotolitografia per la sintesi chimica
in situ di materiale biochimico direttamente su silicio.
La fabbricazione ad esempio del Gene Chip Affimetrix parte da un wafer di quarzo di
pochi centimetri quadrati. Poiché il quarzo è un materiale idrossilato naturalmente,
esso fornisce un eccellente substrato per l’attacco di elementi chimici. Su di esso
sono quindi posizionate molecole di collegamento sintetiche (molecole “linker”)
modificate con gruppi di protezione rimovibili fotochimicamente che serviranno
successivamente per posizionare le sonde sull’array. La distanza fra queste
molecole “linker” determina la densità di riempimento delle sonde. Con questo
metodo è possibile costruire array con più di 500 mila locazioni (o celle) per le sonde
contenute in 1.28 cm2. Ciascuna di queste locazioni contiene milioni di molecole identiche di DNA (diverse per ciascuna locazione).
La parte critica di questo processo è il processo di allineamento della maschera con il wafer prima di ciascun passo di sintesi. Per
assicurare che questo passo sia accuratamente completato, le tracce di cromo presenti sul wafer e sulla maschera devono essere
12
Quaderni di Bioinformatica
perfettamente allineate. Una volta che le locazioni sono state attivate, una soluzione contenente un singolo tipo di desossinucleotidi è
gettata sulla superficie del wafer e i nucleotidi si attaccano ai “linker” attivati con un accoppiamento chimico, dando inizio al processo
di sintesi. Il processo è efficiente anche se talvolta l’aggancio non è perfetto. In tal caso le sonde con il nucleotide mancante vengono
opportunamente “incappucciate” per bloccarne la crescita. Nel passo successivo di sintesi, un’altra maschera è posizionata sopra il
wafer per permettere un ulteriore ciclo di deprotezione e accoppiamento. Il processo è ripetuto fino a che le sonde non raggiungono la
lunghezza voluta. Sono stati creati opportuni algoritmi che permettono di minimizzare il numero di maschere utilizzate coordinando la
crescita delle sonde nelle diverse locazioni, individuando situazioni in cui più maschere possono essere utilizzate nello stesso tempo.
Una volta completata la sintesi, i wafer sono tagliati; in funzione del numero di locazioni delle sonde per array, da un singolo wafer, è
possibile produrre tra 49 e 400 array. I risultanti singoli array sono quindi inseriti in apposite cartucce in cui può circolare la matrice
biologica da analizzare, opportunamente marcata, si tratta sostanzialmente di un sistema chiuso.
Esistono anche strategie non proprietarie che consentono il posizionamento del clone nell'esatta locazione sul vetrino da un robot. Il
supporto dell’array, che inizialmente era costituito da membrane di nylon o nitrocellulosa, è realizzato quasi esclusivamente con
vetrini da microscopio. L’utilizzo del vetro presenta i seguenti vantaggi:
- i campioni di DNA possono essere legati covalentemente sulla sua superficie opportunamente trattata (con poly-L-lisina);
-è un materiale duraturo che sopporta alte temperature;
-è un materiale non poroso e quindi il volume di ibridazione può essere minimizzato consentendo un miglior ancoraggio delle sonde e
una minore diffusione del DNA depositato;
-come conseguenza della sua bassa fluorescenza intrinseca, esso non da contributi significativi al rumore di fondo durante la
rivelazione.
CHIMICA DELLE SUPERFICI
I primi tentativi di fissare biomolecole su membrane di nylon o cellulosa, eseguiti nel trascorso decennio, puntando all'adsorbimento
elettrostatico, hanno portato a risultati molto scadenti. Lo stesso è successo utilizzando superfici a base di poliacrilamide. I primi
risultati accettabili si sono avuti ricoprendo le superfici con del destrano carbossilmodificato, trattamenti chimici delle superfici più
usati per gli acidi nucleici sono a base di organosilani: sono composti che contengono atomi di silicio che si sono dimostrati molto
validi per legare molecole organiche a superfici di vetro. Le molecole utilizzate per fissare alle superfici gli acidi nucleici sono state
utilizzate con discreto successo anche per le proteine.
La qualità delle superfici ha un' importanza enorme nella produzione di microarray che possano essere usati per eseguire delle
analisi ed ottenere risultati riproducibili. Infatti le superfici dei vetrini che si adoperano giocano un ruolo importantissimo nel
determinare non solo come le molecole probe ci si attaccano ma anche per far si che le reazioni che ci si svolgono, possano evolvere
senza problemi o inconvenienti. Riteniamo pertanto utile elencare le qualità essenziali che microarray ideali dovrebbero avere per
poter operare bene:
Dimensione. L'ampiezza delle superfici operative dipendono ovviamente dalle dimensioni del supporto. Come già abbiamo
accennato, ora si preferisce operare su vetrini porta oggetto le cui dimensioni ottimali sono in larghezza, lunghezza e
spessore 25-76-0,94 mm. Tale dimensione standard facilita sia l'automazione della produzione che tutte le fasi operative di
utilizzazione che si concludono con la lettura dei risultati.
Liscia. La superficie di lettura deve essere omogenea e liscia. Non sono accettabili irregolarità in eccesso o in difetto superiori ai 10
micron. Infatti se la superficie non è omogenea il diametro e la fissazione dei probes o spots non può risultare uniforme né si
riesce ad ottener una regolarità delle distanze fra un probe e quelli vicini. Irregolarità della superficie possono creare problemi
anche in fase di lettura perché alcuni lettori hanno una profondità focale che non supera i 20-30 micron
Planare. Tutta la superficie di 25-76 mm deve essere assolutamente in piano. Dislivelli superiori a 10 micron, per le stesse ragioni
riferite in precedenza compromettono sia la produzione che la corretta utilizzazione dei microarray. A riguardo bisogna anche
curare il confezionamento degli stessi facendo in modo che vengano evitate manovre che possano determinare alterazioni da
torsione. Occorre rendersi conto che lo stesso numero di molecole se disposte su un vetrino che non sia perfettamente in
piano o non sia liscio producono un segnale di intensità variabile.
Uniforme. L'uniformità dipende dalla regolarità sia atomica che molecolare del trattamento utilizzato per rendere la superficie reattiva.
Una superficie si può considerare uniforme se le eventuali variazioni di densità dello strato reattivo non risultino superiori o
inferiori del 25% Lo strato. reattivo è costituito da un monostrato, di solito di organosilani, che sono molecole che stabiliscono
un legame covalente con il supporto che, in genere è vetro. Su questo strato poi va creato un film di acrilamide, polilisina, o
nitrocellulosa che sono molecole capaci di legare i singoli elementi analitici. Nel complesso, quindi, l'uniformità della superficie
è molto importante per poter avere microarray affidabili perché capaci di generare segnali che non varino d'intensità per
ragioni che nulla hanno a che fare con la specificità della reazione.
Stabile. La produzione va curata in modo da ottenere prodotti che, nel periodo di validità che, secondo i tipi può essere variabile,
decadano meno del 10%. Devono essere prodotti molto stabili, considerando anche che le tecniche di utilizzazione possono
essere diversissime e che alcune utilizzano anche temperature elevate.
13
Quaderni di Bioinformatica
Inerte. Premesso che il tipo di vetro che si sceglie deve essere perfettamente trasparente, anche i trattamenti a cui lo si sottopone
per poterci fissare poi sopra le molecole dello spot, non devono compromettere tale trasparenza più di un certo livello
standard. Inoltre il tutto non deve presentare fluorescenza anomala né avere effetto deviante sulla luce.
Efficiente. La capacità di legame, che va misurata empiricamente da caso a caso, deve essere tale da rendere possibile la più bassa
concentrazione possibile dei reagenti sia perché sono, di solito, molto cari sia perché così si ottiene la massima efficienza. Per
esempio vediamo che, quando si adoperano oligonucleotidi quali molecole spot, la concentrazione ottimale è di 30 µM, e da
tale concentrazione non è consigliabile derogare, in eccesso o in difetto, più del 30%.
È evidente che questa tecnica richiede apparecchiature robotiche molto sofisticate. Il nucleo dell'apparecchiatura è costituito da una
"gruppo scrivente" che preleva uno o più campioni di cDNA mediante l'utilizzo di pennini e li trasferisce su vetrini per microscopio, il
movimento è ovviamente controllato da un computer. Durante la deposizione il sistema di controllo del robot registra
automaticamente tutte le informazioni necessarie alla caratterizzazione ed alla completa identificazione di ciascun punto della
matrice.
Una volta che la sonda è sul vetrino si effettua il processing, il passaggio cioè in cui la sonda viene
legata covalentemente al supporto attraverso una reazione innescata dall'irraggiamento con luce
ultravioletta o incubando il vetrino a 80 °C per 2 h. Infine il cDNA viene reso a singola catena
attraverso una denaturazione termica o chimica. Con questa tecnica però era possibile creare solo
microarray a bassa densità (ovvero con poche sonde per mm quadrati). I DNA microarray possono
essere usati per rivelare RNA che può essere o non essere tradotto in proteine. Questa analisi viene
denominata "analisi dell’espressione" o profilo d'espressione. Con la tecnologia dei microarray si
possono avere decine di migliaia di risultati in pochissimo tempo. Per questo motivo questa
tecnologia ha permesso notevoli accelerazioni in diversi campi di investigazione biochimico e
biotecnologico. In questo caso gli oligonucleotidi sono sintetizzati in sito, questa tecnica è stata
utilizzata per la prima volta dall'Affymetrix, che ne detiene il brevetto. La tecnica per la produzione di questi chip è detta fotolitografia,
con la quale è possibile sintetizzare molte migliaia di differenti oligonucleotidi sulla superficie di un vetrino. Anche se questa tecnica di
sintesi è molto accurata, la massima lunghezza degli oligonucleotidi che è possibile raggiungere è di 25 nucleotidi, ma oligonucleotidi
di queste dimensioni non sono sufficienti a dare specificità al microarray, per questo servono almeno 3 oligonucleotidi che legano un
gene, e altri 3 oligonucleotidi che presentano un mismatch che serviranno da controllo negativo. Per cui le analisi di un singolo gene
richiedono lo studio di sei spot che devono avere come risultato: i tre oligonucleotidi corretti, positivi, mentre i tre oligonucleotidi con il
mismatch, negativi. Inoltre ogni volta bisogna fare un chip per il controllo e uno del soggetto da analizzare, perché non si può
effettuare un'ibridazione per competizione. Sui microarray a bassa densità solitamente si usavano marcatori radioattivi, questo tipo di
marcatori però non permettono una risoluzione sufficientemente elevata per i chip ad alta densità, con i quali è necessario utilizzare
marcatori fluorescenti. La distribuzione degli spots è indubbiamente una delle fasi più delicate della produzione dei microarray per cui
il controllo di qualità è una fase molto importante del processo. Le varie compagnie commerciali hanno risolto i problemi in vario
modo, sfruttando l’esperienza accumulata negli ultimi anni. Ma, malgrado l’uso di robot, sempre più sofisticati, si ha un coefficiente di
variabilità degli spots che oscilla fra lo 0 ed il 22% ed un C.V. medio del 6,8%. Quando si esegue un esperimento con microarray, e
più esattamente, quando si utilizzano le macchine che fanno lo “spots printing”, ovvero si depositano sui vetrini le goccioline o spots
dei probes, possono sorgere diversi problemi. Occasionalmente la morfologia degli spots può risultare decisamente alterata nel senso
che si verificano delle sbavature perché il gocciolatore o pin è difettoso e lo si può constatare osservandolo al microscopio. Molti
ricercatori hanno osservato una alterata morfologia degli spots per disturbi di tensione che si possono verificare sulle superfici dei
vetrini specialmente quando si adoperano tamponi a base di fosfati. Se si fa uso di tamponi a base di SSC, tali inconvenienti non si
verificano. Altro aspetto della tecnologia che bisogna curare per avere degli spots omogenei, è un adeguato volume di campione
presente nei pozzetti in cui il pin va a pescare prima di depositare sui vetrini le goccioline o spots. Un altro inconveniente che, talvolta
si può verificare è che il DNA non si fissi bene sul vetrino per cui durante la fase di ibridazione, venga lavato via. Dopo aver eseguito
la distribuzione degli spots, un controllo molto semplice lo si può fare alitando sul
vetrino in modo da formare sulla superficie un sottile strato di vapore. Gli spots dove
il DNA si è legato appaiono più chiari. Altri preferiscono controllare il vetrino sotto il
microscopio. Ma un metodo tecnicamente più corretto per valutare il lavoro fatto, che
è da molti adottato, è quello di colorare qualche vetrino con un colore fluorescente. Il
più usato per tale genere di controllo è il SybrGold della Molecular Probes. Dopo il
lavaggio si fa il controllo con uno scanner al laser che permette di valutare sia la
morfologia che la quantità di DNA degli spots. Il vantaggio di usare il SybrGold è
dato dal fatto che, essendo un colorante non molto invasivo, i vetrini si possono
riusare.
Cameretta di ibridazione per vetrini di microarray.
14
Quaderni di Bioinformatica
Quando si deve valutare l’attività dei geni, si possono, a tal fine, inserire più geni per ogni singolo spot e poi, decodificando
l’espressione con metodi matematici, capire se il processo di distribuzione è stato realizzato con una variabilità accettabile (Khan et
al. 2003). Una volta che il microarray è stato costruito o comprato e il campione di acidi nucleici da analizzare è stato isolato si fa
avvenire la reazione di ibridazione, che permette la formazione degli eteroduplex. Per
ottenere dei buoni microarray è essenziale difenderli dall'umidità (se l'ambiente è secco
la soluzione evapora, se invece è umido si deposita dell'acqua) e dalla polvere (ogni spot
è grande circa 50 micron, un granello di polvere e più grande di 50 micron, per cui può
coprire vari spot), per questo motivo esistono delle camere apposite per l'ibridazione dei
microarray che vengono sigillate.
Dopo l'ibridazione il microarray viene lavato per rimuovere il cDNA che non si è legato.
Generalmente il Dna fluorescente dei campioni sperimentali è mescolato con un Dna di
un soggetto di controllo marcato con un colorante fluorescente diverso. Per i microarray
si usano solitamente Cy3 (che emette una lunghezza d'onda nel campo del rosso) e Cy5
(che emette nel campo del verde). In questo modo se la quantità di RNA espressa da un
gene nelle cellule di interesse è aumentata (up regolata) rispetto a quella del campione di riferimento, lo spot che ne risulta sarà del
colore del primo fluorescente. Viceversa se l'espressione del gene è diminuita (down regolata) rispetto al campione di riferimento lo
spot sarà colorato dal secondo fluorescente. La fluorescenza è rilevata poi grazie ad uno scanner a laser, grazie al quale si
acquisisce un'immagine per ogni fluoroforo. Poi vengono usati dei software appositi per convertire i segnali in una gamma di colori
dipendente dalla loro intensità. Il segnale rilevato dallo scanner viene poi sottoposto ad altri algoritmi di filtrazione e di pulizia e
convertito in valori numerici. Il principale problema dei microarray e la mancanza di standardizzazione, che causa difficoltà nel
confronto di dati; inoltre, se oggi con questa tecnica è possibile analizzare i livelli di espressione di un singolo gene ottenendo degli
ottimi risultati, la combinazione dello studio di molte migliaia di geni risulta molto complicato e può portare spesso a dei falsi positivi,
questo accade anche a causa del fatto che alcuni cDNA possono cross-ibridare altre sonde (che avrebbero dovuto rilevare altri geni).
Un altro problema è presentato dai fluorofori, che nonostante siano molto simili fra loro presentano delle differenze problematiche.
Esiste una diversa efficienza di fluorescenza tra Cy3 e Cy5 che deve essere standardizzata dai software di rilevazione, inoltre poiché
Cy3 è più piccolo di Cy5, c'è un diverso livello di incorporazione del due fluorofori, in quanto la polimerasi presenta più difficoltà a
inserire il nucleotide marcato con Cy5 a causa dell'ingombro sterico; come se non bastasse Cy5 si presenta più labile di Cy3, quindi
una prima scansione di Cy3 con il laser potrebbe ridurre la fluorescenza di Cy5. Per ovviare a tutte questa problematiche e per creare
un minimo di standardizzazione si effettua il dye swap: consiste nel effettuare un secondo microarray scambiando l'uso dei fluorofori.
Se nel primo microarray Cy3 è stato usato per marcare il cDNA sperimentale, nel secondo microarray si userà Cy3 per marcare il
cDNA del soggetto di controllo, e viceversa per Cy5.
I vetrini sono quindi lavati per eliminare le ibridazioni aspecifiche e sono letti con uno scanner laser confocale, in grado di rivelare
entrambi i segnali fluorescenti, differenziandoli, producendo un’immagine a 16-bit TIFF per ogni canale. Processori di analisi
dell’immagine sono quindi utilizzati per evidenziare ed analizzare i diversi spot. Gli esperimenti effettuati con la tecnologia microarray
generano un’enorme quantità di dati, tale da richiedere lo sviluppo di appositi software per l’acquisizione, lo studio e la valutazione dei
dati.
Nella figura (a) si possono osservare alcuni esempi, cerchiati
in azzurro, di riconoscimento grossolanamente scorretto.
Nella figura (b) tali errori sono stati corretti manualmente (il
cerchio con barra verticale indica che il software considera lo
spot assente).
Di seguito vengono riportati alcuni esempi, volti alla
comprensione delle difficoltà che possono presentarsi
nell’ambito della lettura delle immagini.
Una volta completata l’ibridazione il microchip viene levato e successivamente eccitato con un laser affinché i marcatori fluorescenti
emettano un segnale luminoso. Uno scanner legge l’array illuminando ciascuno spot e misurando la fluorescenza emessa per ciascun
colore separatamente, in modo da fornire una misura della quantità relativa di mRNA prodotto da ciascun gene nei due tipi di cellula.
L’intensità degli spot verdi misura la quantità di cDNA contrassegnato con Cy3, mentre quella degli spot rossi misura la quantità
relativa di cDNA contrassegnato con Cy5.
15
Quaderni di Bioinformatica
Queste misure forniscono informazioni sul livello relativo
d’espressione di ciascun gene nelle due cellule. Le due
immagini monocromatiche (rossa e verde) vengono poi
sovrapposte in modo da fornire una visione d’insieme, Così il
rosso corrisponde ad un gene molto attivo nella cellula
malata e inattivo in quella sana, il nero ad un gene inattivo in
entrambe le cellule, il giallo ad un gene ugualmente attivo nei
due tipi di cellula, ed infine il verde ad un gene attivo nella
cellula sana e inattivo in quella malata. E’ necessario che
queste misure vengano aggiustate per considerare un
disturbo di fondo causato ad esempio dall’alta
concentrazione di sale e detergente durante l’ibridazione
o la contaminazione del target o da altri problemi che
si possono presentare nell’esecuzione dell’esperimento.
L’ibridazione del target alle sonde determina una reazione
chimica che viene catturata in un’immagine digitale da uno
scanner laser. Il passo successivo è quello di tradurre
l’intensità del segnale luminoso emesso da ciascun gene,
in un coefficiente numerico. S’intuisce pertanto l’importanza della qualità dell’immagine ai fini di un’accurata interpretazione dei
dati. I passi principali delle immagini prodotte sono:
grigliatura (gridding)
estrazione di intensità
segmentazione
La grigliatura ritrova nell’immagine la posizione degli spot che corrispondono alle sonde. Essendo nota la posizione degli spot nel
microarray, questa operazione non risulta particolarmente complessa, sebbene si renda necessaria la stima di alcuni parametri per
tener conto ad esempio di shift (o rotazioni) del microarray nell’immagine o di piccole traslazioni degli spot. L’estrazione di intensità
calcola invece l’intensità della fluorescenza rossa e verde, l’intensità del beckground ed alcune misure di qualità. La
segmentazione consiste infine nel separare il segnale emesso dai marcatori fluorescenti (foreground) rispetto al disturbo di fondo
(background), in modo da isolare le quantità di interesse. Può succedere che questa correzione abbia l’effetto indesiderato di introdurre
valori negativi (ciò accade quando l’intensità del background è più forte rispetto a quella di foreground). In tal caso questi spot
vengono trascurati oppure il loro segnale è sostituito con un valore arbitrariamente piccolo e positivo.
L’enorme numero di geni analizzati dai microarray è il punto più forte, ma anche più debole della metodica. Infatti sono possibili
moltissimi errori (importanza di avere campioni replicati), e il trattamento dell’informazione non è banale! Si pensi ad esempio alle
sorgenti di variazione dell’espressione genica. Alcune variazioni osservate sono dovute alla risposta differente a condizioni genetiche
e ambientali differenti (es. cellule malate vs cellule sane): variazione questa che possiamo considerare interessante. Al fine di rendere
comparabili i risultati ottenuti su array diversi o anche all’interno dello stesso array, è necessaria la rimozione di alcune distorsioni
sistematiche introdotte nella fase di preparazione dell’array stesso, di esecuzione dell’esperimento, nonché nel
processo d ibridizzazione e nella scansione con il laser. La procedura di normalizzazione si riferisce proprio al trattamento statistico dei
dati finalizzato alla rimozione di tali effetti distorsivi e i più noti sono:
dye-effect (o effetto colore);
print-tip (o deposito irregolare);
array-effect (o effetto intensità).
Ad esempio, un diffuso problema nell’interpretazione dei dati derivanti da microarray, noto come dye-effect, è la diversa intensità di
fluorescenza dei due marcatori Cy3 (verde) e Cy5 (rosso), cosicché l’emissione di fluorescenza del verde è sistematicamente meno
intensa di quella del rosso. Il modo più immediato per rimuovere questo tipo di distorsione, sarebbe quello di ripetere due volte
l’esperimento scambiando l’assegnazione dei marcatori tra i due target, cosa che però renderebbe la tecnica ancora più dispendiosa.
Un’altra fonte di distorsione, nota come print-tip, è dovuta alla diversa quantità di materiale genetico (probe) depositata sul vetrino a
causa delle microscopiche differenze della conformazione delle puntine del robot che stampa l’array. Infine, il terzo tipo di alterazione,
l’array-effect può derivare da differenze di intensità tra un array e l’altro legate a diverse condizioni di preparazione (usura
delle puntine, qualità di conservazione e quantità dei reagenti), estrazione (differenti quantità di mRNA usate per creare il target o
quantità di marcatore fluorescente), ibridizzazione (cross-ibridation) e scansione (bilanciamenti dei laser, diversi parametri di
scansione).
16
Quaderni di Bioinformatica
Ai problemi sopra esposti si cerca di dare soluzione mediante il processo di normalizzazione. La normalizzazione prevede che si calcolino
fattori di standardizzazione per ciascuno dei tre effetti sopra menzionati. Si tratta di sottrarre al segnale una (i) media generale di
array, la (ii) differenza tra le medie degli spot stampati da ciascun print-tip e la media generale, ed infine la (iii) differenza tra la media
delle intensità con fluorescenza rossa e verde. Altre variazioni sono introdotte per errore durante la preparazione dei campioni, la
realizzazione degli array, il processamento degli array (labeling, ibridizzazione, scannerizzazione) trattasi quindi una variazione
oscura che deve essere eliminata attraverso il processo di normalizzazione “Soluzione”: trovare un insieme di geni invarianti cioè tali
che:
1) i loro valori di espressione rimangano costanti su tutti gli array
2) i loro valori di espressioni ricoprano l’intero spettro di intensità del segnale osservato. (NB: Il fattore di normalizzazione necessario
per aggiustare le intensità basse non necessariamente è uguale a quello utilizzato ad intensità elevate).
3) i rapporti di normalizzazione tra questi geni siano rappresentativi dei rapporti di normalizzazione per tutti i geni.
Geni di controllo: geni sintetici a concentrazioni note (3?)
Geni housekeeping: geni che sono assunti (in partenza) essere invarianti tra array differenti (1? e 2?)
Geni osservati: geni che vengono osservati, secondo qualche metrica, come poco variabili lungo gli array.
Tutti i geni: è ragionevole aspettarsi che siano molto pochi i geni che variano a causa di una diversa risposta a condizioni di interesse
differenti (più è piccolo il numero di geni che varia, e maggiormente siamo soddisfatti). Quasi tutti i geni dell’array possono essere
utilizzati per la normalizzazione quando si può ragionevolmente assumere che solo una piccola porzione di essi vari significativamente
la propria espressione da un campione all’altro, oppure che esista simmetria nei livelli di espressione dei geni sovra e sotto espressi.
In pratica è però molto difficile trovare un gruppo di spot con un segnale costante su cui trarre un fattore di correzione. Si preferisce
quindi, quando il numero di geni differenzialmente espressi è limitato rispetto al numero totale dei geni indagati, usare tutti gli spot
dell’array nel processo di normalizzazione dei dati. Il secondo approccio si basa sull’assunto che da proporzione di geni
differenzialmente espressi sia un’altra e quindi suggerisce l’uso della restante porzione (housekeeping genes) che si crede abbia un
livello di espressione costante nelle due condizioni. Questa piccola porzione di geni però, oltre ad essere difficilmente identificabile, spesso
risulta poco rappresentativa rispetto ai geni di interesse essendo costituita per lo più da geni con alto livello di espressione. Il terzo
approccio necessita dell’appoggio del laboratorio e prevede di realizzare un microarray per un solo campione di mRNA (prelevato da
un’unica cellula) diviso in due porzioni uguali, ciascuna marcata con colori differenti. Trattandosi dello stesso campione di
materiale genetico, in seguito all’ibridizzazione si dovrebbe avere la stessa intensità degli spot per il rosso e per il verde: eventuali
differenze possono essere usate come fattore di normalizzazione. Un altro trattamento dei dati preliminare all’analisi è la cosiddetta
filtrazione. Essa è finalizzata alla riduzione della variabilità e della dimensionalità dei dati
Il primo obiettivo viene raggiunto rimuovendo quei geni le cui misure non sono sufficientemente accurate, il secondo con l’imitazione
dei geni che prevedono un livello di espressione molto piccolo o negativo (prima o dopo la normalizzazione).
In pratica, tutti gli spot la cui differenza tra l’intensità di foreground e quella di background non supera un valore soglia di 1.4 fold (una
misura dell’intensità luminosa) vengono eliminati o sostituiti con un valore piccolo arbitrario. Questa procedura è giustificata
dall’evidenza empirica che livelli di espressione più piccoli di 1.4 fold sono solitamente frutto di errori di misura. Si noti che qualsiasi
operazione di filtrazione introduce arbitrarietà nella scelta delle soglie che determinano se un valore è troppo grande o troppo piccolo
oppure se la variabilità delle misure è troppo elevata.
L’acquisizione dei dati è solo la parte iniziale della procedura. La parte più complicata è l’elaborazione della enorme quantità di dati
generati da questi esperimenti, necessaria per rispondere ai quesiti biologici di partenza. I dati più significativi devono essere poi
verificati con altri sistemi (Northern, real time RT-PCR).
Selezione dei geni target. Un potenziale problema per la tecnologia dei cDNA microarray è la cross reattività legata ad omologie di
sequenza, in particolar modo quando si analizzano famiglie geniche. Generalmente le regioni non tradotte in 3’ rappresentano un
target ideale per due principali ragioni: (1) tali regioni sono sottoposte ad una minor pressione selettiva e presentano generalmente
una maggiore variabilità, e (2) l’ibridizzazione risente meno dei fenomeni di terminazione precoce della retro trascrizione. Un'altra
possibilità consiste nell’aggiungere alla soluzione di ibridazione piccoli oligonucleotidi che rappresentano sequenze altamente ripetute
al fine di bloccare le potenziali regioni di crossibridizzazione.
Concentrazione del DNA. La concentrazione del DNA varia nei singoli esperimenti e dipende in parte dal livello di espressione del
gene target. La concentrazione ottimale generalmente varia tra 0.1 e 0.5 g/l.
Vetrini e printing. Sono presenti in commercio diversi tipi di vetrino. Per alcune ragioni esiste una corrispondenza tra tipo di vetrino e
protocollo per microarray. Durante la deposizione, l’evaporazione dei campioni di DNA può causare seri problemi a causa della
variazione della quantità di DNA, soprattutto se si utilizzano piccoli volumi (20l). Una possibile soluzione consiste nell’utilizzare per il
printing un buffer composto al 50% da dimetil sulfossido (DMSO). La concentrazione del DNA, il buffer per il printing e il tipo di vetrino
devono essere ottimizzati prima di procedere con la deposizione.
17
Quaderni di Bioinformatica
Materiale di partenza. L’integrità e la purezza dell’RNA sono due dei fattori che maggiormente determinano la riproducibilità
dell’esperimento. Spesso un RNA di scarsa qualità è dato da un errato trattamento del materiale di partenza. In generale è importante
mantenere sempre i campioni in ghiaccio, congelarli appena possibile in azoto liquido e non scongelarli fino al momento dell’uso.
Campioni con acidi nucleici
La preparazione dei campioni con acidi nucleici utilizza procedure diverse, che variano secondo i casi. Sono tutte abbastanza
complesse per cui preferiamo tabularle cosi come sono riferite da Schena (2002).
Criteri
Tipo indiretta
Template -DNA
Trascrizione Inversa
Diretta
RNA
RNA Polimerasi
diret. o indiretto
DNA doppia elica e
promotore
Procedura Eberwine
diretta indiretta
DNA doppia elica e
promotore
Prodotto
oligonucleotide
Reattivo
oligonucleotide
fluorescente
modificato
Interazione
T3 o T7 nucleotide
T7 RNA polim
nucleotide
modificato o anticorpo
coniugato TSA
Ibridazione
Ibridazione o piccolo
anticorpo
Amplificazione
Tipo di amplificazione
Nessuna
Nulla
Colore fluorescente
BIODIP
Processo
Cianina
Alexa
Nulla
Modificato
TSA
Dendrimeri
RNA o DNA in
dendrimeri
nucleotide
RNA o DNA con
piccola molecola di
legame
nucleotide
modificato
modificato
modificato o
dendrimero
Ibridazione
piccolo anticorpo
Ibridazione
nulla, enzim o passiva
100-1.000.000
passiva aumento
quantità RNA
100
enzimatica
10-350
passiva
Cianina
qualsiasi
Cianina
fino a 3 ore
nulla ma l'amplificazione
del RNA diversi giorni
3 ore
Cianina
Alexa
3 ore
nucleotide
Metodi di marcatura. La marcatura fluorescente degli acidi nucleici è un’altra variabile che influenza la riproducibilità. Vernon et. al.
hanno testato la riproducibilità di tre diversi metodi di marcatura e hanno evidenziato come i risultati più riproducibili erano ottenuti
effettuando un RT-PCR con 1 g di mRNA utilizzando il sistema SMART (Clontech Laboratories) [18].
Sviluppo di un protocollo di ibridizzazione. Le procedure di ibridizzazione sono legate alla riproducibilità del metodo, è quindi
importante ottimizzare tutti i parametri di ibridizzazione, tra cui la concentrazione del campione, forza ionica, temperatura. Non è
possibile fornire un protocollo universale, ma è necessario procedere all’ottimizzazione di tutti i parametri per ogni singolo
esperimento.
Scanning dei vetrini. Dopo il lavaggio finale i vetrini devono essere immediatamente scannerizzati per il canale Cy5 e poi per il Cy3
(Cy5 è più sensibile alla fotodegradazione), inoltre è importante effettuare una calibrazione dello scanner per il fuoco e il segnale.
Riteniamo utile completare quanto riferito nella su esposta tabella con qualche altro dato che può risultare utile per interpretarl
Trascrizione inversa. E' stato il metodo utilizzato nei primi esperimenti con i microarray. Da questo metodo base sono poi derivate
numerose varianti. usando sia RNA cellulari, che sono molto più facili da ottenere, che mRNA. Sono state anche utilizzati diversi tipi
di trascriptasi inverse e diversi metodi di purificazione dei campioni. Il principale vantaggio di questo metodo è dato dalla
coniugazione diretta che elimina i trattamenti da fare dopo l'ibridazione, che sono sempre ardui e richiedono molto tempo per essere
espletati. Lo svantaggio maggiore è data dal fatto che si ottiene un segnale molto meno evidente di quello che si ha con l'approccio
indiretto che si giova dell' effetto dell' amplificazione.
La trascriptasi inversa è usata per incorporare la biotina o il dinitrofenolo al cDNA, che poi viene ibridizzato su un microarray ed
incubato con un anticorpo coniugato alla perossidasi. Il chip, così composto, è trattato con acqua ossigenata per cui la perossidasi
ossida il segnale fluorescente della tiramide. Ne deriva un segnale fluorescente molto intenso, fino a 100 volte. E' un segnale, però,
che ha un'emivita molto breve.
RNA polimerasi. Questo, oltre alle trascriptasi inverse è un altro gruppo di enzimi largamente usati per preparare campioni per
microarray. Si tratta di una famiglia di enzimi estratti da virus batterici (T3 e T7), che catalizzano la sintesi del RNA partendo da un
DNA a doppia elica, grazie all'azione di promotori specifici. Si tratta di un processo robusto e ad alta resa che da la possibilità di
produrre quantità notevoli di RNA, che poi può essere diviso facilmente in piccoli frammenti a livello di oligonucleotidi con possibilità di
amplificazione del segnale anche di 100 volte. Bisogna solo stare molto attenti ad evitare l'azione delle ribonucleasi che attaccano
facilmente le molecole di RNA. Si consiglia quindi di operare in stanze molto ben pulite, utilizzare guanti di gomma sintetica e,
ovviamente, essere certi che reattivi e tamponi siano assolutamente privi di ribonucleasi.
18
Quaderni di Bioinformatica
Procedura Eberwine. Si tratta di un metodo molto ingegnoso che si basa sull'uso della RNA polimerasi da T7, che converte mRNA
in cDNA con amplificazione, che per ogni procedura è di circa 100 volte e che, alla fine, può arrivare fino a 1.000.000 volte rispetto al
materiale di partenza. Pertanto questo è il metodo preferito quando si devono risolvere particolari problemi biologici che non si
possono risolvere con altri metodi. Lo svantaggio di questo metodo è che è piuttosto arduo e lungo. Infatti occorrono 2-3 giorni per
completarlo e poi si attua attraverso manipolazioni durante le quali non si riesce a seguire cosa stia succedendo, per cui, se ci sono
interferenze da reagenti inattivi o da contaminazioni da ribonucleasi, lo si capisce solo alla fine, di fronte a risultati inattesi.
TARGET targets sono i campioni da fare interagire. Anche questi devono essere in qualche modo preparati. Per quanto riguarda gli
acidi nucleici, spesso occorre fare in modo che il segnale venga amplificato. In tutti i casi, sia per gli acidi nucleici come per le
proteine poi è necessario legarli ad una molecola rivelatrice che, per lo più, finora è stato un colore fluorescente.
Amplificazione del segnale da tiramide (TSA) La tiramide, in questa procedura, ha la funzione di potenziare il segnale di varie
sostanze fluorescenti, come la fluoresceina, la cianina 3 o la cianina 5, per cui si possono realizzare reazioni che portano alla
formazione di colori diversi.
Dendrimeri. Il termine dendrimero deriva dalle parole greche “dendron” e “meros” che significano rispettivamente “albero” e “parte”.
Infatti sono costituiti da ordinati grovigli di monomeri di oligonucleotidi che ricordano la chioma di alberi e che si formano, per processi
di sintesi progressivi, anellandosi gli uni agli altri attraverso cicli progressivi che possono arrivare a formare anche molecole di DNA
aventi un PM di 12000 e contenenti 36000 basi. Le singole molecole fluorescenti attaccate alle numerose estremità sporgenti o
braccia del polimero determinano la comparsa di un segnale fluorescente molto intenso. Un polimero con 300 molecole di colore
produce un segnale 300 volte più intenso. Ne deriva che polimeri aventi un diametro di 0,2 micron si vedono anche ad occhio nudo.
Nel complesso è una tecnica che, anche se non facile da eseguire, presenta molti vantaggi.
Riferimenti
1.
Heller, M.J., DNA microarray technology: Devices, Systems and Applications. Annual Reviews of Biomedics Engeneering,
2002. 4: p. 129-53.
2.
Ekins, R.P., Multi-analyte immunoassay. J.Pharm.Biomed. Anal., 1989. 7: p. 155-168.
3.
Ekins, R.P. and et.al., Multispot, multianalyte,immunoassay. Ann.Biol.Clin., 1990. 48: p. 655-666.
4.
Ekins, R.P. and F. Chu, Multianalyte microspot immunoassay. The microanalytical "compact disk "of the future.
Ann.Biol.Clin., 1992. 50: p. 337-353.
5.
Gabig, M. and W. Grzegorz, An introduction to DNA chips: principles, technology, applications and analysis. Acta
Biochimica Polonica, 2001. 48(3): p. 615-622.
6.
Schena, M., et al., Quantitative monitoring of gene expression patterns with complementary DNA microarray. Science,
1995. 270: p. 476-470.
7.
Lander, E.S. and et.al., Initial sequencing and analysis of the human genome. Nature, 2001. 409: p. 860-921.
8.
Venter, J.C. and et.al., The sequence of the human genome. Science, 2001. 291: p. 1304-1351.
9.
Arcellana-Panlilio, M. and S.M. Robbins, Cutting edge tecnology. Global gene expression profiling using DNA microarrays.
Am.J.Physiol.Gastrointest.Liver Physiol., 2002. 282: p. 397-402.
10.
Southern, E., K. Mir, and M. Shchepinov, Molecular interactions on microarrays. Nature Genetics, 1999. 21: p. 5-9.
11.
Lockart, D.J., et al., Expression monitoring by hybridization to high-density oligonucleotide arrays. Nature Biotechnology,
1996. 14: p. 1675-1680.
12.
Lipshutz, R.J., et al., High density syntetic oligonucleotide arrays. Nature Genetics, 1999. 21: p. 20-24.
13.
Haase, B. Applications of affimetrix microarrays in cancer and genotyping. in Understanding the genome: Scientific
progress in microarray technology. 2002. Genova, Italy.
14.
Cifuentes, F. Characterization and properties of oligonucleotide microarrays produced using inkjet technology. in
Understanding the genome: Scientific progress in microarray technology. 2002. Genova, Italy.
15.
Schubler, P. New platforms for DNA microarrays: 70mer oligonucleotide probes offer excellent sensitivity and specificity. in
Understanding the genome: Scientific progress in microarray technology. 2002. Genova, Italy.
16.
DeRisi, J., et al., Use of a cDNA microarray to analyse gene expression patterns in human cancer. Nature Genetics, 1996.
14: p. 457-460.
17.
Schena, M., et al., Parallel human genome analysis: microarray-based monitoring of 1000 genes. Proc. Natl. Acad. Sci.
USA, 1996. 93: p. 10614-10619.
18.
Vernon, S.D., et al., Reproducibility of alternative probe synthesis approaches for gene expression profilig with arrays. J.
Mol.Diag., 2000. 2: p. 124-127.
19.
Li, X., et al., DNA microarrays: their use and misuse. Microcirculation, 2002. 9: p. 13-22.
20.
Firestein, G.S. and D.S. Pisetsky, DNA microarray: Boundless technology or bound by technology? Guidelines for studies
using microarray technology. Arthritis & Rheumatology, 2002. 46(4): p. 859-861.
19
Quaderni di Bioinformatica
21.
22.
23.
Afshari, C.A., E.F. Nuwaysir, and J.C. Barret, Application of complementary DNA microarray technology to carcinogen
identification, toxicology, and drug safety evaluation. Cancer Research, 1999. 59: p. 4759-60.
Ulrich, R. and S.H. Friend, Toxicogenomics and drug discovery: will new technologies help us produce better drugs? Nature
Rev. Drug. Disc., 2002. 1: p. 84-88
Allen J. F. Bioinformatics and discovery: Induction beckons again. Bioassays 23- 104- 2001
20
Quaderni di Bioinformatica
STATISTICA E BIOINFORMATICA
Gian Franco Greppi
CNBS (Centro NanoBiotecnologie Sardegna)
Laboratorio di bionanotecnologie
Dipartimento di Scienze Zootecniche,
Università di Sassari
Scopo della ricerca è di ottenere dei risultati attraverso l’esecuzione di un esperimento e di trarre delle conclusioni dai risultati ottenuti.
I test statistici per l’analisi statistica dei risultati si basano in generale sul calcolo di un rapporto tra la variabilità dovuta a quelli che noi
chiamiamo fattori sperimentali e la variabilità incontrollata. Come si è visto il nostro scopo è di ridurre il più possibile la variabilità
incontrollata, per avere l’evidenza delle differenze dovute ai fattori sperimentali. Per raggiungere questo obiettivo dobbiamo per così
dire raffinare la tecnica, e migliorare la qualità del materiale sperimentale e la natura e qualità delle misure che andiamo ad effettuare
su quel materiale. Ci si pone quindi l’obiettivo di incrementare
l’efficienza di un esperimento, con un piano o disegno
sperimentale adeguato. Un piano sperimentale consente di ridurre
l’errore sperimentale, in modo che l’influenza dei fattori possa
essere stimata con maggior efficienza. Dalla verifica delle ipotesi
(che è un processo fortemente interattivo) scaturisce la diagnosi
finale e il piano terapeutico. Per porre il problema in termini di
evidence based medicine (cioè della medicina basata su prove
scientifiche) è necessario focalizzare l’attenzione su alcuni aspetti
di queste conoscenze. Ci sono almeno quattro ragioni per cui le
conoscenze dirette, quelle che derivano da esperienze non
strutturate, sono deboli in rapporto allo specifico problema della
terapia: il fattore temporale, la scelta non casuale dei trattamenti,
l’effetto placebo, il pregiudizio dell’osservatore. Tutti questi fattori
sono "controllati" con opportuni disegni sperimentali. Il design
dell’esperimento ed il processamento degli array sono i punti di
partenza critici per la riproducibilità e la significatività dell’esperimento. Tali considerazioni sono importanti soprattutto per quanto
riguarda la fabbricazione di array a cDNA, sottoposti a molte più variabili degli array oligonucleotidici prodotti a livello industriale.
L’analisi dei dati è uno dei maggiori problemi della tecnologia. L’analisi dei dati coinvolge diversi passaggi e poiché non esistono gold
standard per ogni passaggio di ogni diverso esperimento i software offrono diverse opzioni. Per processare correttamente i dati è
quindi necessario che il ricercatore comprenda tutte le diverse opzioni, per poter scegliere la strategia di processamento dei dati più
adatta al disegno sperimentale. La normalizzazione dei dati è il passaggio più critico. È molto importante infine, riuscire a dare un
significato biologico ai dati ottenuti. Uno degli approcci più comunemente usati in questo senso è l’analisi dei cluster. È importante
standardizzare le procedure di creazione dei vetrini, di ibridizzazione e di analisi dei dati, per poter dare significatività agli esperimenti
[19]. Esiste una difficoltà oggettiva nell’analisi dei dati ottenuti dai microarray, per loro natura, questi studi fanno insorgere difficili
questioni riguardanti i criteri per giudicare gli aspetti tecnici della ricerca, così come della sua validità scientifica. Per evitare di saltare
a conclusioni affrettate e non rispondenti a reali situazioni biologiche, è necessario seguire delle linee guida nella pianificazione
dell’esperimento e nell’analisi dei dati ottenuti. La descrizione di
tali limiti è stata fatta da Firestein e Pisetsky [20]. L’analisi di DNA
microarray propone numerosi problemi di carattere statistico,
compresa la normalizzazione dei dati. I targets, ovvero gli acidi
nucleici da ibridizzare alle catene di cDNA ancorate al supporto
solido, sono normalmente ottenuti dalla marcatura dell’mRNA
proveniente da un dato organismo per mezzo di molecole
fluorescenti. Probes e targets vengono poi messi a contatto per
fare avvenire la reazione di ibridazione e dopo alcuni lavaggi per
rimuovere i prodotti aspecifici, l’array viene passato attraverso uno
scanner per la misura dei segnali fluorescenti. L’intensità dei pixel
di ciascuna immagine è proporzionale al numero di molecole di
tracciante presenti sullo spot e quindi al numero di probes che
hanno ibridizzato le sonde ancorate al supporto.
21
Quaderni di Bioinformatica
Di fatto, livelli diversi di fluorescenza indicano livelli diversi di ibridizzazione e quindi di espressione genica. Il segnale rilevato dallo
scanner viene poi sottoposto ad algoritmi di filtrazione e di pulizia del segnale e convertito in valori numerici. In generale, quindi, un
esperimento di analisi dei profili di espressione fornisce come risultato una matrice di dati, in cui le righe rappresentano i geni
monitorati e le colonne corrispondono alle diverse condizioni sperimentali, quali punti temporali, condizioni fisiologiche, tessuti. Ogni
elemento della matrice rappresenta quindi il livello di espressione di un particolare gene in uno specifico stato fisiologico. Ciascuna
colonna è data da un vettore che ha tante dimensioni quanti sono i geni o le sequenze immobilizzate sull’array. Questo numero può
raggiungere valori notevoli che vanno da circa 6000 per il genoma di un organismo semplice come il lievito di birra, fino a 5 volte tanto
qualora si stiano analizzando i profili di espressione di organismi complessi.
L'analisi dei dati sperimentali ha, quasi all'improvviso, assunto un ruolo prominente su tutto ciò che riguarda la biosfera. Prima
avevamo a che fare con un tipo di ricerca scientifica che metteva insieme un numero relativamente limitato di dati ma, negli ultimi
anni, la biologia è esplosa ed è diventata una scienza che genera un'enorme quantità di dati. La gestione e l’interpretazione
dell’enorme quantità di dati generata dalle matrici ad alta densità rappresentano un aspetto fondamentale di questa tecnologia. Infatti,
la loro applicazione nello studio dei profili dell’espressione genica produce volumi di informazioni tali da limitare l’applicazione delle
tecniche modellistiche classiche. Tali tecniche non sono generalmente applicabili in maniera soddisfacente in presenza di sistemi
poco caratterizzati e descritti da quantità grandissime di dati. È necessario, quindi, avere a disposizione tutta una serie di tecniche
computazionali capaci di gestire ed interpretare questi enormi database nonché di interfacciarsi con gli strumenti bioinformatici per
l’analisi funzionale (database mining).
Si definiscono tecniche di database mining tutta una serie di strumenti informatici per l’esplorazione e l’analisi di grandi quantità di dati
al fine di estrarre motivi caratteristici e persistenti (patterns) e regole. Gli algoritmi che costituiscono il database mining derivano da
campi quali la statistica, la pattern recognition, l’intelligenza artificiale e l’analisi dei segnali; essi sfruttano le informazioni ricavate
direttamente dai dati per creare dei modelli empirici in grado di descrivere il comportamento di un sistema complesso. Nel caso dei
profili di espressione genica, le tecniche di database mining rappresentano un utile strumento per identificare ed isolare particolari
pattern di espressione che di fatto rappresentano delle vere e proprie impronte digitali genetiche di un determinato stato fisiologico.
L’analisi dei dati degli array di cDNA è normalmente basata sull’uso sinergico di test di ipotesi (hypothesis testing) e di sistemi per
l’estrazione della conoscenza (knowledge discovery). I metodi di hypothesis testing sono sostanzialmente degli approcci di tipo topdown con i quali si ricercano nei dati le conferme sperimentali ad ipotesi precedentemente formulate. La knowledge discovery può
essere intesa invece come un approccio bottom-up nel quale sono i dati stessi che forniscono le indicazioni necessarie alla
formulazione di nuove ipotesi. Un aspetto cruciale dell’applicazione di queste procedure è l’identificazione di tutti quei geni che
manifestano un’elevata attività in un determinato stato fisiologico. Questi geni attivi, e le loro relazioni, possono essere identificati
attraverso tecniche quali Mean Hypothesis Testing (MHT), Cluster Analysis (CA), Principal Component Analysis (PCA) e Decision
Tree (DT).
Riproducibilità del metodo. La scelta arbitraria delle soglie di
“differenza significativa” spesso non è supportata da
informazioni scientifiche adeguate. La variabilità di ogni singolo
gene dovrebbe essere calcolata, consentendo appropriati
aggiustamenti per evitare di aumentare i tassi di falsi positivi. Se
non verranno applicate precise correzioni statistiche, il tasso di
falsi positivi, anche utilizzando soglie molto elevate, potrà
variare tra il 60 e l’80 % dei geni identificati. Con l’uso di un
algoritmo statistico ben definito, basato sulla variabilità
interesperimento, questo tasso potrà essere ridotto di circa il
10%.
An investigation design graph representing a two-channel experiment with extract pooling and reference RNA. Rayner et al. BMC
Bioinformatics 2006 7:489 doi:10.1186/1471-2105-7-489
La mancanza di standardizzazione negli arrays presenta un problema interoperativo nella bioinformatica, che non può far prescindere
dallo scambio di dati ottenuti con tale tecnica. Diversi progetti open-source si prefiggono di facilitare l’interscambio di dati ottenuti da
arrays. Il "Minimum Information About a Microarray Experiment" (MIAME) XML standard base per la descrizione di esperimenti di
22
Quaderni di Bioinformatica
microarray è stato adottato da molte riviste come standard richiesto per l’accettazione di lavori che contengono risultati ottenuti
attraverso analisi di microarray.
Analisi statistica.
La validazione statistica è assolutamente necessaria per affermare con sicurezza che gli aumenti e le diminuzioni di espressione
osservati sono realmente significativi. Questo rigore richiede esperimenti multipli e analisi dei dati tramite strumenti statistici standard.
Prima di cominciare ad analizzare i dati di un microarray riguardate un DNA, siccome non esiste un metodo statistico in grado di
analizzare dati bruti, specialmente se molto complessi, bisogna capire se la distribuzione di tali dati è sufficientemente pulita e per
capirlo bisogna cominciare con il porsi due domande:
1-Le variazioni che si apprezzano rappresentano variazioni effettive o sono contaminate da differenze che sono collegabili alla
variabilità sperimentale?
2-Ai fini del metodo statistico che si deve utilizzare hanno i dati un andamento approssimativamente accettabile?
Se le risposte a queste due premesse non sono positive, tutta l’analisi statistica ne può venire distorta e ne possono derivare risultati
non validi. Fortunatamente sono disponibili una varietà di tecniche statistiche che vengono in aiuto che si basano sulla “
normalizzazione” e la “ trasformazione” dei dati (Kalocsal e Shams 2001).
La normalizzazione è una speciale forma di standardizzazione che ci aiuta a separare le variazioni vere dalle differenze dovute alla
variabilità sperimentale. Infatti è molto probabile che in un processo operativo così complesso, variazioni derivanti dall’evoluzione
tecnica di qualcuna delle fasi contamini il risultato finale. Il tipo di vetrino, il metodo di spottaggio, la quantità di DNA, le caratteristiche
del colore, il tipo di scanner le caratteristiche del software sono solo alcuni degli aspetti che vanno normalizzati al fine di rimuovere o
almeno ridurre quelle differenze che potrebbero contaminare il risultato finale. Uno degli accorgimenti più utilizzati a tal fine è quello di
spottare in parallelo per ogni campione il rispettivo controllo, utilizzando anche colori diversi. Per quanto riguarda la trasformazione
dei dati la procedura più comunemente utilizzata è quella di utilizzare i logaritmi delle espressioni per equalizzare le oscillazioni sia
verso l’alto che verso il basso. Sono operazioni molto complesse che ovviamente oggi si possono affrontare con l'ausilio dei computer
e di particolari software. Esistono due tipi di programmi specializzati, che corrispondono alle due fasi dell'analisi. I programmi del tipo
EDA (Esploratory Data Analysis) e quelli del tipo CDA (Confirmatory Data Analysis).
Comunque questi programmi sono appena sufficienti per essere di ausilio ed integrarsi per la elaborazione dei dati di esperimenti
piuttosto comuni. Per casi molto particolari bisogna disporre di programmi opportunamente dedicati che vanno specificamente
elaborati, se si vogliono raggiungere risultati ottimali. Per potersi orientare consigliamo di prendere visione dei suggerimenti riferiti
nella esauriente monografia di Amaratunga e Cabrera (2004). Ogni studio che utilizzi la tecnologia dei microarray dovrebbe
comprendere un numero sufficiente di esperimenti indipendenti per consentire l’analisi dei risultati tramite metodi simili a quelli
utilizzati per ogni altro tipo di esperimento. È necessario applicare le opportune correzioni statistiche per considerare confronti
multipli. Per esempio, analizzando microarray con 30.000 spot, si otterranno sicuramente almeno un centinaio di geni con differenze
significative nei livelli di espressione. Correzioni eseguite tenendo conto di misurazioni multiple sono essenziali per evitare passi falsi
nell’assegnare significatività a dati che non ne hanno.
Eterogeneità del campione. I rischi nell’interpretazione dei dati ottenuti tramite microarray sono enormemente amplificati quando la
tecnologia è applicata a popolazioni cellulari eterogenee. Anche con una popolazione cellulare uniforme può essere difficile utilizzare
questa tecnica per validare la significatività di aumenti o diminuzioni dell’espressione genica. Comunque la sfida di analizzare tessuti
eterogenei è enorme, se non insormontabile. Cosa impariamo quando l’espressione di un particolare gene aumenta in questo
particolare tipo di campione? Questo aumento dei livelli di espressione è dovuto soltanto a differenze nella composizione della
popolazione cellulare o è legato a eventi cellulari fondamentali nella patogenesi della malattia? Analizzando il metodo dei microarray
pare evidente che, il grande numero di geni presenti in un singolo array pone lo sperimentatore davanti ad un problema di test
multiplo: anche se è estremamente raro e casuale ogni gene può dare un risultato falso positivo, un test effettuato su più geni è più
sicuro che mostri un andamento scientificamente più probante. Una differenza fondamentale tra i microarray e gli altri metodi di
analisi biomedici tradizionali sta nella dimensione dei dati. Studi che contengono 100 analisi per paziente per 1000 pazienti possono
essere considerati vasti studi clinici. Uno studio microarray di media vastità comprende diversi migliaia dati per campione su centinaia
di campioni diversi. La relazione tra probe e mRNA è molto semplice ma nello stesso tempo complessa. Il probe ha alta affinità con
una singola sequenza (quella complementare), ma può legare altre sequenze non prettamente complementari. Ciò potrebbe portare
a dati errati.
Conferma indipendente dei dati. A causa dei problemi statistici insorti con l’uso dei microarray, è molto importante che le scoperte
fatte vengano confermate utilizzando un metodo indipendente, possibilmente con campioni diversi rispetto a quelli utilizzati per i
microarray. Però a causa della quantità dei dati ottenuti con i microarray è praticamente impossibile verificare tutti i dati. È comunque
fondamentale riverificare un numero adeguato di geni.
23
Quaderni di Bioinformatica
IL DISEGNO SPERIMENTALE: CAMPIONAMENTO, PROGRAMMAZIONE DELL’ESPERIMENTO.
Nel 1908, presentando la distribuzione t, Student scriveva: “Ogni esperimento può essere visto come un caso di una popolazione di
esperimenti, condotti nelle stesse condizioni. Una serie di esperimenti è un campione estratto da questa popolazione”. In questa
definizione la popolazione è teorica, come nel modello dell’inferenza statistica, essendo composta da un numero infinito di misure. E’
anche il caso dell’esperienza di Gosset (Student), che effettuava analisi chimiche nella birreria in cui era il responsabile del “controllo
di qualità”: ogni campione formato da un gruppo di misure del prodotto poteva essere visto come un caso estratto casualmente da
una popolazione teoricamente infinita.
Le conoscenze che si richiedono al ricercatore riguardano la pianificazione e la gestione dell’esperimento:
1 - il campionamento, cioè come scegliere le unità dalla popolazione per formare il campione;
2 - il disegno sperimentale, che consiste nello scegliere
- (a) i fattori sperimentali che si ritengono più importanti, i cosiddetti trattamenti, la cui analisi rappresenta l’oggetto principale della
ricerca,
- (b) i fattori sub-sperimentali che in genere rappresentano le condizioni in cui avviene l’esperimento e che possono interagire con
quelli sperimentali,
- (c) i fattori casuali, che formeranno la varianza d’errore;
3 - la stima della potenza del test, per valutare
- (a) quanti dati è utile raccogliere,
- (b) quale è la probabilità che, con l’esperimento effettuato, il test prescelto possa alla fine risultare statisticamente significativo.
Questi tre campi di conoscenza sono ugualmente necessari. Sono diversi, implicano metodi e concetti statistici differenti, ma sono tra
loro strettamente collegati e spesso dipendono l’uno dall’altro. In alcuni testi di statistica applicata si illustrano questi concetti
affermando che sono tra loro paralleli.
Ma in varie situazioni ambientali e biologiche, la popolazione è concreta e delimitata; pertanto, il problema consiste nel ricavare da
essa l’informazione desiderata. Per comprendere più compiutamente le cause e le modalità del disegno sperimentale, (in inglese
experimental design, tradotto in modo più efficace con programmazione dell’esperimento), è utile riprendere alcuni concetti, che
rappresentano i punti fondamentali dei numerosi argomenti di statistica. Sono anche i punti indispensabili per utilizzare correttamente
queste metodologie necessarie per impostare correttamente una verifica statistica e comprenderne la logica scientifica.
Il motivo principale del ricorso all’analisi statistica deriva dalla variabilità. A causa di essa, la stima delle statistiche del campione, per
conoscere i parametri di una popolazione e per l'inferenza, richiedono l’uso di misure ripetute. Se non esistesse alcuna differenza tra
le singole osservazioni, raccolte in natura nelle medesime condizioni oppure sottoposte in laboratorio al medesimo trattamento,
basterebbe un solo dato per ottenere indicazioni precise. Invece, con la media, è sempre necessario fornire la misura della variabilità;
spesso è la misura più importante. Di conseguenza, servono sempre almeno due dati per ogni situazione sperimentale, se si intende
sia ottenere una descrizione che comprenda anche la variabilità, sia attuare confronti con altre medie.
Quasi sempre, due dati sono insufficienti. L'esistenza della variabilità impone l'estensione dell'analisi al numero maggiore possibile di
oggetti, poiché l'errore nella stima dei parametri è inversamente proporzionale al numero di repliche raccolte. Nell’altro estremo, se si
volesse ottenere la misura esatta della media e della variabilità, senza errore statistico, si dovrebbero rilevare tutti gli individui che
formano la popolazione. In molte discipline è un comportamento impossibile e quasi sempre non è conveniente: il bilancio tra costi e
benefici diventa negativo, con un aumento eccessivo di dati. Come e quanti dati raccogliere è un problema statistico fondamentale,
sia nella pratica che nella teoria.
Un buon disegno sperimentale e un buon campionamento richiedono scelte razionali, fondate
- sia sulla elencazione completa degli obiettivi dell’analisi statistica, che quindi devono essere dichiarati in modo esplicito prima
ancora della raccolta dei dati,
- sia sulla conoscenza tecnica delle metodologie richieste, che a loro volta dovrebbero essere scelte in questa fase, non a posteriori,
dopo la raccolta dei dati.
Per essere condotta in modo corretto, una ricerca quantitativa deve raggiungere i tre obiettivi essenziali dell’analisi statistica:
- le descrizioni e le inferenze tratte dallo studio di un numero limitato di casi devono essere precise,
- estensibili a tutta la popolazione,
- con risultati che devono essere pertinenti al problema.
Per la loro realizzazione, si deve rispondere a tre quesiti essenziali:
- come scegliere gli individui per l’esperimento,
- quanti dati raccogliere,
- come distribuire le repliche, tra i fattori da analizzare.
Nelle differenti discipline e in ogni indagine, la statistica applicata risponde a queste domande in modo diverso, a causa dei seguenti
cinque fattori che sono sempre presenti in ogni ricerca:
1 - la differente variabilità del materiale utilizzato,
2 - la specificità delle domande,
3 - la precisione con la quale si desiderano i risultati,
4 - il costo di ogni singolo dato,
24
Quaderni di Bioinformatica
5 - il tempo richiesto dalla loro raccolta.
Tuttavia esistono alcuni criteri fondamentali, che è conveniente avere presente nella programmazione e nella conduzione
dell’esperimento.
Disegno sperimentale e campionamento non sono sinonimi, anche se spesso sono utilizzati come tali. Il disegno sperimentale parte
dagli obiettivi della ricerca. Con esso si programma la raccolta dei dati, in funzione dei confronti da effettuare.
Per condurre con efficienza, è utile ricordare alcuni principi generali (per questo chiamati decalogo) che andrebbero seguiti in
un’indagine statistica, proposti da Roger Green nel suo testo del 1979 (Sampling Design and Statistical Methods for Environmental
Biologist, John Wiley & Sons, New York). Queste indicazioni hanno sollevato critiche tra i colleghi, con la motivazione che nella ampia
varietà di situazioni presenti in natura non esiste una schema generale e che ogni statistico esperto sa adattare le regole generali alla
situazione sperimentale effettiva al suo contesto. Ma queste “regole” sono utili a un ricercatore alle prime armi, che richiede schemi
condivisi per gestire la sua ricerca.
Soprattutto tali regole possono essere utili agli studenti alla fine del corso di statistica, poiché permettono di comprenderne più
compiutamente le logiche e le procedure illustrate, alla luce delle loro applicazioni. Seppure con variazioni non banali che richiedono
competenze specifiche, sono generalmente applicabili a quasi tutte le discipline biologiche e a molte ricerche mediche o
farmacologiche.
1. Formulare in modo conciso e corretto la domanda alla quale si vuole rispondere. La relazione che si deve presentare
sulla ricerca condotta è sempre rivolta ad altri; pertanto, i risultati devono essere comprensibili e coerenti con la domanda.
2. Raccogliere repliche dei campioni entro ogni combinazione di tempo, luogo e ogni altro fattore controllato, poiché
nella successiva analisi la significatività delle differenze tra i vari livelli dello stesso fattore dipenderà dalla “varianza entro”.
Le repliche devono essere mantenute distinte per tutti i fattori, poiché un loro raggruppamento comporta sempre una
perdita di informazioni e rende difficile, a volte addirittura impossibile, il ritorno successivo a una loro distinzione e quindi a
un uso corretto, tecnicamente e economicamente redditizio, dei dati raccolti. Può essere produttivo raggruppare i dati.
Tuttavia, tale operazione deve avvenire solo dopo la realizzazione delle analisi statistiche programmate a priori. Il
raggruppamento dei dati è vantaggioso, quando si vuole estendere il confronto a un’area più ampia o a un livello superiore,
allo studio di alcune interazioni, evitando la raccolta di altri dati e quindi un equivalente.
3. E’ conveniente che il numero di repliche, con scelta casuale delle osservazioni entro ogni combinazione delle variabili
controllate, sia uguale in ogni sottogruppo. Costruire campioni bilanciati è un accorgimento che permette di ridurre al
minimo le varianze d’errore, a parità del numero di dati raccolti. Inoltre è importante la tecnica di rilevazione o la scelta delle
osservazioni: scegliere solo campioni ritenuti “rappresentativi” o “tipici” non permette un campionamento casuale e
comporta gravi distorsioni nelle conclusioni. L’assunzione di normalità della distribuzione e quella di indipendenza degli
errori possono essere violate non solo dalle caratteristiche del fenomeno, ma anche da un campionamento falsamente
casuale dei dati. Ma mentre l’allontanamento dalla normalità può essere sanato con una trasformazione che ricostruisca la
condizione di validità del test parametrico, il secondo effetto della scelta non casuale, cioè la non indipendenza degli errori
che può essere determinata da un campione non rappresentativo della popolazione, genera una situazione che non può più
essere corretta. L’unica possibilità è una nuova raccolta di dati.
4. E’ possibile valutare l’effetto di un trattamento solo mediante il confronto con un controllo; soprattutto nelle ricerche di
tossicologia o nell’analisi di fattori che operano in condizioni non naturali. Per verificare se una condizione particolare
determina effetti differenti, occorre raccogliere campioni sia in casi in cui la condizione analizzata è presente sia in altri in
cui essa è assente, a parità di tutti gli altri fattori (ceteris paribus)..
5. Effettuare campionamenti e analisi preliminari, che forniscano le informazioni di base sulle caratteristiche dei dati, per la
scelta del disegno sperimentale e dei test statistici da utilizzare. In studi o in ricerche che non siano già ampiamente
descritte in letteratura, l’importanza del campionamento preliminare è sovente sottostimata. Spesso le ricerche sono
condotte in tempi ristretti ed è psicologicamente difficile spenderne una parte nel campionamento, in operazioni che
potrebbero non fornire dati utili per il rapporto finale. Secondo Green, la situazione è simile a quella dello scultore che inizia
un’opera senza avere di fronte un modello di riferimento: è alto il rischio di errori non facilmente riparabili e il tempo
impiegato diventa in complesso maggiore.
6. Verificare che le dimensioni dell’unità di campionamento siano appropriate al numero di individui, alla densità e alla
distribuzione spaziale dei vari organismi che si vogliono analizzare. Il numero di repliche è una funzione della
precisione desiderata nelle stime. A tale scopo è importante definire sia l’unità di campionamento che l’elemento del
campionamento. Se l’analisi dei dati mostra che la distribuzione degli errori non è omogenea, non è normalmente distribuita
o che dipende dalla media, è indispensabile ricorrere alla loro trasformazione o all’uso di test non parametrici; per il tipo di
campionamento e la verifica dell’ipotesi nulla, è utile ricorrere ad analisi sequenziali o a dati simulati. Se sono stati scelti il
campionamento e i test statistici più adatti per verificare le ipotesi formulate, occorre accettarne i risultati. Un risultato
inatteso o non desiderato non è un motivo valido, per rifiutare il metodo seguito e ricercarne uno “migliore”. Ogni indagine
statistica porta a una conclusione, che può contenere notizie “buone o cattive”: in altri termini, che possono essere in
accordo o in disaccordo con quanto atteso. Ma, se non emerge che sono stati commessi errori gravi, tentare di cambiare la
conclusione, con ripetizioni dell’esperimento fino ad ottenere la conclusione desiderata, non modifica la realtà e rappresenta
un’alterazione della probabilità calcolata. E’ un errore grave sotto l’aspetto statistico, come evidenzia il principio di
Bonferroni nei confronti multipli.
25
Quaderni di Bioinformatica
Analisi dei gruppi
Partendo da un collettivo multidimensionale, l’analisi dei gruppi mira ad assegnarne le unità a categorie non definite a priori, formando
dei gruppi di osservazioni omogenei al loro interno ed eterogenei tra loro. L’obiettivo ultimo è dunque lo stesso dell’analisi
discriminante, ma in questo caso non vi sono informazioni sul numero e le caratteristiche dei gruppi nella popolazione. Mentre
nell’ambito delle scienze sperimentali i raggruppamenti sono generalmente preesistenti al processo di classificazione e vengono
individuati semplicemente assegnando le osservazioni (analisi discriminante), nelle scienze sociali questi sono spesso il prodotto
stesso del procedimento di classificazione. L’individuazione delle strutture di raggruppamento insite nei dati corrisponde all’esigenza
di agevolare l’interpretazione della realtà fenomenica (momento essenziale del procedimento scientifico). Dal punto di vista
applicativo le motivazioni per la definizione di gruppi omogenei all’interno di un collettivo sono molteplici:
• Ricerca tipologica o individuazione di gruppi di unità con caratteristiche distintive;
• Stratificazione di popolazioni da sottoporre a campionamento;
• Definizione di sistemi di classificazione o tassonomie;
• Ricostruzione di valori mancanti tramite le informazioni desunte dal gruppo di appartenenza individuato tramite i dati disponibili;
• Sintesi delle osservazioni.
Fu K. Pearson che affrontò per primo lo studio della classificazione dal punto di vista statistico, sul finire del secolo XIX. Da allora ai
giorni nostri gli algoritmi di clustering si sono moltiplicati e differenziati nei diversi ambiti applicativi. In particolare dalla seconda metà
degli anni ’50 alcune delle tecniche di raggruppamento hanno ricevuto una più ampia trattazione teorico-metodologica grazie alla
corrispondenza con la teoria dei grafi. Successivamente, di pari passo agli sviluppi delle tecnologie di calcolo, si è posta maggiore
attenzione agli aspetti algoritmici delle tecniche di raggruppamento. Attualmente disponiamo di molteplici soluzioni alternative per
l’analisi dei gruppi. Quasi tutte le tecniche considerano una matrice di dissomiglianza che contiene le informazioni riguardanti il grado
di dissomiglianza tra le diverse unità statistiche. La matrice di dissomiglianza può risultare da considerazioni soggettive sulle
differenze tra le unità, come da calcoli effettuati sulla matrice dati. In questo secondo caso vi sono diversi criteri a seconda che le
variabili rilevate siano, quantitative, qualitative binarie o miste.
Esistono molti ambiti di indagine in cui si possono presentare problemi di tipo multivariato, nella genetica (le relazioni filogenetiche tra
diverse razze possono essere indagate prendendo in esame le frequenze geniche in determinati loci), nell'alimentazione (l'effetto di
una dieta, per esempio, può essere valutato impiegando numerosi parametri fisiologici, fisici e chimici), nella biochimica clinica un
soggetto può essere “valutato” attraverso un set di parametri metabolici molto ampio. Nel campo delle scienze veterinarie, ad
esempio, le variabili che possono essere rilevate su animali che presentano una determinata patologia sono numerose, ma non tutte
sono necessariamente utili per descrivere e diagnosticare correttamente. In tutti i casi in cui le variabili sono numerose e talvolta
anche correlate tra loro, l'utilizzo dei metodi multivariati può aiutare a fornire una visione globale del problema, evidenziando le
relazioni tra le variabili considerate e l'importanza relativa di ciascuna di esse, e può inoltre mettere in evidenza le relazioni tra i
campioni in base alla loro distribuzione nello spazio multi-dimensionale descritto dall'insieme delle variabili. Questi metodi trovano un
vasto impiego per la soluzione di numerosi problemi, quali:
•
esplorazione iniziale dei dati;
•
evidenziazione dell'esistenza di gruppi omogenei di campioni non classificati a priori (cluster analysis);
•
formulazione di modelli matematici per la predizione di risposte quantitative (regressione);
• formulazione di modelli matematici per la predizione di risposte qualitative (classificazione).
Queste tecniche di analisi, pur essendo conosciute da molti anni, non hanno potuto essere impiegate subito su larga scala a causa
della complessità dei calcoli che richiedono. Oggi questo problema è stato risolto dal progresso tecnologico, che permette l'utilizzo di
numerosi software come SAS, SPSS e SYSTAT consentono di analizzare dati multivariati e sui comuni personal computer forniscono
i risultati in tempi ragionevoli. Le procedure multivariate consentono di riassumere in forma sintetica dati complessi e di difficile
valutazione o interpretazione. Per comprendere le analisi multivariate è necessario avere una buona conoscenza delle matrici (si
rimanda per approfondimenti all’allegato sul calcolo matriciale). Una matrice è rappresentata da una semplice tabella con un certo
numero di righe e di colonne; nell’analisi dei dati le righe della matrice sono detti casi od osservazioni, e le colonne sono dette
variabili o descrittori.
Di seguito è riportata una tipica struttura dati in forma matriciale.
Casi
ID 1
ID 2
….
ID n
Età
38
45
Peso
75
85
Sesso
0
1
Altezza
1.85
1.74
Glicemia
3.12
2.85
AST
45
89
ALT
25
74
CK
85
111
AP
25
42
GGT
15
25
52
71
1
1.65
3.12
100
36
85
19
24
26
Quaderni di Bioinformatica
La matrice dei dati può essere analizzata secondo due diverse prospettive, se analizziamo le variabili e le relazioni tra le variabili
avremo una analisi di tipo R, mentre se siamo maggiormente interessati alle relazioni tra gli oggetti allora avremo un’analisi di tipo Q
o anche definita come di tipo agglomerativo. La maggior parte dei metodi richiede quindi che venga effettuato un pretrattamento dei
dati per eliminare l'effetto delle diverse unità di misura e dare a ciascuna variabile lo stesso peso a priori. In assenza di tale
trattamento,le variabili espresse da numeri più grandi o che assumono valori in grandi intervalli avrebbero un peso maggiore (ad
esempio, maggiore varianza) di variabili espresse da numeri piccoli o definiti in un intervallo di valori limitato. Per evitare che ciò si
verifichi, è necessario trasformare tutte le variabili in modo da uniformarne le unità di misura. Il più comune metodo di scalatura è
"l’autoscaling", che trasforma tutte le variabili in modo che ciascuna di esse abbia una media uguale a zero e una varianza unitaria.
Altri metodi comunemente usati sono la centratura, in cui ciascuna variabile viene centrata intorno al proprio valor medio, e la
scalatura di intervallo, in cui ogni variabile viene riscalata tra zero e uno.
ANALISI DISCRIMINANTE. L'analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti
gruppi, in funzione di una serie di variabili fra di loro correlate. I gruppi sono già definiti al momento dell'analisi, pertanto l'interesse è
rivolto a definire un modello che consenta di assegnare un nuovo caso ad un gruppo predefinito, in funzione di un certo numero di
variabili. Questa analisi è impiegata in medicina, come nel caso di in una serie di pazienti, colpiti da una stessa sindrome morbosa,
studiati attraverso una serie di parametri chimico-clinici ai quali vengano accuratamente associati i principali sintomi clinici ed il
decorso della patologia. Si suddivide quindi il campione di pazienti studiati in due gruppi: il gruppo di quelli guariti senza postumi e
quello dei soggetti che presentano postumi più o meno gravi, una volta guariti. Con l'analisi discriminante è possibile definire un
modello matematico che ci consenta di collocare un eventuale nuovo paziente, una volta misurati i parametri clinici, in uno dei due
gruppi (con o senza postumi), in modo tale da ottimizzare la terapia proprio in funzione (anche) della prevenzione dei postumi.
L’analisi discriminante effettua la comparazione tra gruppi sulla base di un gran numero di variabili e mettendo in luce quelle che
rivestono un ruolo nella separazione dei gruppi. Le variabili possono essere anche misurate con unità non omogenee (vedi matrice
dei dati precedente), in questo caso le varabili che presentano valori assoluti maggiori possono pesare maggiormente nell’analisi
discriminante, pertanto è preferibile ricorrere alla standardizzazione delle stesse utilizzando una notazione come la seguente:
Zi =
Xi − X
d.s.
Dove Zi rappresenta la deviazione standardizzata, e d.s. rappresenta la deviazione standard relativamente alla i-ma variabile. Se
l’analisi discriminante viene effettuata sulla base delle variabili standardizzate si hanno funzioni discriminanti, se al contrario
utilizziamo i valori delle variabili originali si parla di funzioni di identificazione. Le funzioni di identificazione vengono solitamente
impiegate nell’ambito degli studi biometrici per distinguere ad esempio sulla base del sesso o per classificare soggetti appartenenti a
specie morfologicamente molto simili. Per distinguere tra n gruppi si possono calcolare un certo numero di funzioni (n-1) con una
procedura dovuta a Fisher (1936) chiamata linear discriminant analysis.
Nell'analisi discriminate si trova una combinazione lineare di variabili che consente di calcolare il coefficiente di discriminazione (D) o
funzione discriminante.
D = bo +b1x1 +….. bnxn
Dove D rappresenta un coefficiente discriminante, bo una costante, xn = n-ma variabile indipendente e bn =n-mo coefficiente della
funzione discriminante. Per semplicità considereremo solo il caso della discriminazione fra due gruppi, ma le considerazioni fatte
sono estendibili alla discriminazione fra più gruppi. Le funzioni discriminanti sono numerate (1,…., n-1) in base all’ammontare di
varianza tra gruppi che viene spiegata. Il metodo di calcolo impiegato per la funzione discriminante è quello dei minimi quadrati,
analogo a quello studiato per la regressione lineare multipla, che consente di ottenere, per i valori di D, una variabilità minima
all'interno dei gruppi e massima fra i gruppi.
Per due gruppi (A, B) essendo k=2 esisterà una sola funzione discriminante i cui coefficienti sono dati dalla risoluzione della seguente
equazione:
b=X . W
dove
 
b 
 o
b =  b1 
 . 
 
b 
 n
27
Quaderni di Bioinformatica
 X 1A

∆x =  X 2 A

 X nA
−
−
−
X 1B 

X 2B 

X nB 
Dove W = matrice di dispersione, XnA = media della n-ma variabile del gruppo A, XnB = media della n-ma variabile del gruppo B. I
valori medi dei coefficienti di discriminazione per i due gruppi sono calcolabili nel seguente modo:
DA = b0 + b1 x1A + ..... + bn x n A
DB = b0 + b1 x1B + ..... + bn x nB
con xnA = media della n-ma variabile indipendente del gruppo A, con xnB = media della n-ma variabile indipendente del gruppo B.
Le varianze del coefficiente di discriminazione per i due gruppi sono così calcolabili:
S 2 D A = bX A' X A b
S 2 D B = bX B' X B b
' X rappresenta la matrice di dispersione del gruppo B.
dove X A' X A rappresenta la matrice di dispersione del gruppo A, mentre XB
B
ASSE DISCRIMINANTE
Funzione discriminante.
La soglia discriminante deve essere tanto più vicina ad una delle due medie tanto minore è la deviazione standard del gruppo
corrispondente, pertanto viene calcolata nel seguente modo:
D0 =
D A S DB + D B S DA
S DA + S DB
Pertanto un nuovo elemento (ad esempio un nuovo paziente) viene assegnato al gruppo in funzione della soglia discriminante: se il
valore di D è superiore alla soglia viene assegnato al gruppo con la media di D più alta, viceversa se il valore è più piccolo.
L'assegnazione di un elemento ad un gruppo può essere effettuata sulla base di una probabilità, in funzione del valore dello scarto
standardizzato fra il valore della media di gruppo ed il valore della soglia discriminante, come visto per gli scarti standardizzati della
distribuzione di frequenza campionaria normale:
per il gruppo A: Z A =
D0 − D A
S DA
per il gruppo B: Z B =
28
D0 − D B
S DB
Quaderni di Bioinformatica
L’insieme degli oggetti appartenenti al medesimo gruppo forma una nuvola di punti che possono essere rappresentati graficamente
nello spazio delle funzioni discriminanti. Una misura sintetica per rappresentare il gruppo è quella di determinare la posizione del
centroide, che risulta come centro di massa degli oggetti del gruppo: dopo avere calcolato il valore delle funzioni discriminanti per
ciascuna delle RK osservazioni che rappresentano il K gruppo, le coordinate del centroide rispetto alla funzione discriminante
1 K
D=
∑ Di
RK i =1
Dove Di è il punteggio della funzione discriminate calcolato per l’i-esimo caso calcolato. La verifica della posizione dei centroidi dei
gruppi studiati può essere valutata con il test lambda di Wilks.
Siano date due serie di osservazioni relative a due gruppi di individui, il gruppo A di 5 individui sani ed il gruppo B di 5 individui con
iperglicemia. Le variabili misurate sono due la statura ed il peso.
GRUPPO A
GRUPPO B
casi
statura (x1A)
peso (x1a)
statura (x1B)
peso (x1b)
1
160
62
155
63
2
170
67
160
70
3
180
71
170
81
4
165
61
150
68
5
175
64
165
75
GRUPPO A
GRUPPO B
Media statura
170
160
Media peso
65
71.4
dev(x1)
250
250
dev(x2)
66
189.2
codev(x1x2)
105
190
Le statistiche rilevanti per il calcolo della funzione sono:
X 1 A − X 1B = 10.0
X 2 A − X 2 B = −6.4
S12 = 62500
S 22 = 31900
S1− 2 = 36875
Sviluppando in forma matriciale avremo:
 b1   10.0  62500 36875
  = 


 b2   − 6.4  36875 31900 
 b1   0.875 
  = 

 b2   − 1.213
pertanto la funzione discriminante sarà: D = 0.875 b1 − 1.213 b2
29
Quaderni di Bioinformatica
Utilizzando la funzione discriminante è possibile calcolare la statistica descrittiva di D per ciascun gruppo. Così facendo avremo:
GRUPPO A
GRUPPO B
media
69.90
53.39
varianza
16.41
16.61
dev. std
4.05
4.08
Utilizzando la formula per calcolare la soglia discriminante avremo:
D0 =
D A S DB + D B S DA (69.90 ⋅ 4.08) + (53.39 ⋅ 4.05)
=
= 61.68 =
S DA + S DB
4.08 + 4.05
Calcolando lo scarto standardizzato fra la media di D per il gruppo A o il gruppo B e la soglia discriminante è possibile calcolare la
probabilità di una assegnazione errata di un nuovo caso rispettivamente al gruppo A o al gruppo B, pertanto:
Z D0 =
D0 − D A 69.90 − 61.68
=
= 2.03 ==
S DA
4.05
la probabilità di ottenere un valore pari o superiore a 2.03 è reperibile sulle tavole della distribuzione z ed è pari a 0.021 (2.1%),
pertanto sufficientemente bassa e tale da definire la funzione discriminante adeguata.
La selezione delle variabili da inserire nella funzione discriminante è effettuabile con metodi analoghi a quelli della regressione
lineare multipla. Come nel caso della regressione lineare multipla, il metodo più utilizzato è quello stepwise. L'indice, da
minimizzare, con tali metodi, è il lambda di Wilks ( ), definito come:
SQ ( entro)
λ=
SQ (totale)
Pertanto il valore di  è analogo a R², per quanto concerne la selezione delle variabili in un modello regressivo lineare multiplo. Il
cambiamento del valore di F (Fc) dopo l'entrata dell'i-ma variabile viene calcolato nel seguente modo:

 1 − λ p +1
 n − g − p 
λp

Fc = 
−
g
1
λ


p +1
 λp








dove n = numero dei casi, g = numero dei gruppi, p = numero delle variabili, λp = λ prima della aggiunta della i-ma variabile, λ p+1 =
dopo l’aggiunta della i-ma variabile.
Una misura della bontà della funzione discriminante trovata è data dal rapporto
SQ(tra)
che deve essere il più grande possibile.
SQ(entro)
Usando D è possibile discriminare fra i gruppi, ovvero assegnare un caso nuovo ad uno dei gruppi, tramite la regola di Bayes:
P (Gi | D ) =
P (Gi | D ) P (Gi )
∑ P (D | Gi ) P(Gi )
dove:
P(Gi) = (probabilità a priori) probabilità che un caso cada nell'i-mo gruppo quando non è utilizzabile alcuna informazione.
P(D|Gi) = (probabilità condizionale) probabilità che un caso, con un dato D, possa appartenere all'i-mo gruppo.
30
Quaderni di Bioinformatica
P(Gi|D) = (probabilità a posteriori) probabilità che un caso cada nell'i-mo gruppo, considerando tutta l'informazione disponibile. Tale
probabilità deve essere la più grande possibile!
Nell'ambito dell'analisi discriminante è possibile calcolare anche la correlazione canonica che misura il livello di associazione fra D
ed i gruppi ed è data da:
SQ (tra )
SQ (totale)
Usando il pacchetto statistico SYSTAT, e considerando il classico esempio di Fisher del 1936 dove si hanno i dati relativi a 150 fiori
che possono essere classificati come appartenenti alle specie Setosa, Versicolor e Virginia (in questo caso le variabili sono state
codificate come 1, 2, 3); la finalità dell’analisi statistica è quella di trovare una combinazione lineare per le quattro misure che
consentano di classificare correttamente le tipologie dei fiori su cui sono state realizzate le misure della lunghezza e della larghezza
dei sepali e dei petali.
I principali passaggi dell’analisi discriminante sono sintetizzabili nei seguenti punti:
1-Calcolo dei coefficienti delle funzioni discriminanti (utilizzabili per la caratterizzazione dei Gruppi 1, 2 e 3 tramite le seguenti
variabili: SEPALI lunghezza, SEPALi larghezza, PETALI lunghezza, PETALI larghezza).
2-Calcolo dei coefficienti di correlazione fra le singole variabili e le funzioni discriminanti (maggiore è il coefficiente, maggiore è
il peso di una data variabile nell'ambito della funzione).
3-Calcolo dei coefficienti delle funzioni classificanti. Applicando i seguenti coefficienti alle varie osservazioni è possibile ottenere
delle funzioni classificanti che servono per attribuire il caso ad un dato gruppo in funzione del valore maggiore calcolato.
Plot della matrice dei dati di iris.
Nel primo riquadro vengono riportate le frequenze riscontrate relativamente a ciascun gruppo. Se in alcuni gruppi il codice della
specie è assente i dati delle frequenze non vengono calcolati per quel dato campione.
Frequenze osservate
Setosa
Versicolor
Virginica
50
50
50
Per ogni coppia di variabili viene calcolato il valore del test F di Fischer: questi valori sono proporzionali alle misure della distanza e
vengono calcolati sulla base del valore di D2 di Mahalanobis.
31
Quaderni di Bioinformatica
Valori medi
Variabile
Setosa
Versicolor
Virginica
Sepali Lunghezza
5.006
5.936
6.588
Sepali Larghezza
3.428
2.770
2.974
Petali Lunghezza
1.462
4.260
5.552
Petali Larghezza
0.246
1.326
2.026
Variabile
Setosa
Versicolor
Virginica
Sepali Lunghezza
5.006
5.936
6.588
Sepali Larghezza
3.428
2.770
2.974
Petali Lunghezza
1.462
4.260
5.552
Petali Larghezza
0.246
1.326
2.026
Si osserva ad esempio che le specie Versicolor e Virginia sono vicine (105.3), mentre le specie di Setosa e Virginia sono
relativamente distanti tra di loro (1098.3).
Variabile
Setosa
Versicolor
Virginica
Setosa
0.0
Versicolor
550.189
0.000
Virginica
1098.274
105.313
0.000
Wilks' lambda Lambda =0.0234 G.L.=4,147,Approx. F=199.1454 G.L.= 8,288 prob =0.00. Nel confronto di coppie non è consigliabile
l’utilizzo del valore di F poiché esistono problemi legati alle simultanee interferenze. (Matrice F tra gruppi G.L.=4, 144)
Variabile
Sepali Lunghezza
Sepali Larghezza
Petali Lunghezza
Petali Larghezza
G.L.
2
3
4
5
F-to-remove
4.72
21.94
35.59
24.90
Tolleranza
0.347993
0.608859
0.365126
0.649314
L’impiego del valore di F to remove consente di determinare l’importanza relativa della variabile inclusa nel modello. I gradi di libertà
per ogni F rappresentano il numero dei gruppi meno 1 e al denominatore sono dati dal totale degli oggetti –il numero dei gruppi –
numero delle variabili nel modello +1. Nel nostro caso 3-1, e 150 - 3 –4 +1, quindi 2 e 144.
Funzioni di Classificazione
CONSTANTE
Setosa
-86.308
Versicolor
-72.853
Virginica
-104.368
Variabile
Setosa
Versicolor
Virginica
Sepali Lunghezza
23.544
15.698
12.446
Sepali Larghezza
23.588
7.073
3.685
Petali Lunghezza
-16.431
5.211
12.767
Petali Larghezza
-17.398
6.434
21.079
Matrice di classificazione (casi nelle righe classificati nelle colonne).
Variabile
Setosa
Versicolor
Virginica
% corretti
Setosa
50
0
0
100
Versicolor
0
48
2
96
Virginica
0
1
49
98
Totali
50
49
51
98
Al termine del processo di classificazione, il risultato da noi ottenuto può essere valutato dall'analisi di una tabella, detta "matrice di
confusione" o "matrice di classificazione", nella quale sono visibili gli oggetti realmente appartenenti a ciascuna classe (classe vera) e
gli oggetti assegnati a ciascuna classe dal modello (classe assegnata). Nelle tabelle di classificazione, ogni caso viene classificato
sulla base delle funzioni di classificazione sopra riportate. Per esempio per la specie Versicolor vengono classificati 48 fiori
correttamente, mentre 2 fiori non sono classificati in questa specie. I risultati che appaiono in questa tabella sono considerati ottimisti
in quanto gli stessi casi vengono utilizzati per classificare e per calcolare le funzioni discriminanti. Un rimedio è possibile utilizzando la
matrice di Jackknifed che utilizza una funzione ricavata da tutti i dati con esclusione dei dati del caso da classificare. Questo sistema
rappresenta una cross-validation.
Matrice di classificazione di Jackknifed
32
Quaderni di Bioinformatica
Variabile
Setosa
Versicolor
Virginica
% corretti
Setosa
50
0
0
100
Versicolor
0
48
2
96
Virginica
0
1
49
98
Totali
50
49
51
98
I parametri di valutazione dei modelli di classificazione sopra descritti si riferiscono solo all'insieme di oggetti esaminati e sono una
misura della capacità descrittiva del modello. Nell'analisi di classificazione è invece importante valutare anche l'affidabilità del modello
per fini predittivi. Per conoscere le capacità predittive del modello si può utilizzare il metodo della validazione incrociata (crossvalidation), che ripercorre tutte le tappe precedenti ricalcolando il modello con l'esclusione di un oggetto alla volta (metodo leave-oneout) o di un oggetto ogni k oggetti (leave-more-out), predicendo i valori della risposta per tutti gli oggetti esclusi dal modello. La prima
variabile canonica è una combinazione lineare tra le variabili che meglio discrimina i gruppi, la seconda è ortogonale alla prima e
rappresenta la migliore combinazione tra le variabili. Dai nostri dati osserviamo il valore di 32.192 che risulta molto elevato
relativamente al secondo ed indica come la prima variabile possa assorbire le differenze tra i gruppi. Se osserviamo la dispersione
cumulativa, la variabile canonica spiega circa il 99%. Le correlazioni canoniche tra la prima variabile canonica e il set delle variabili
definite dummy è molto elevata (Il numero delle variabili dummy è dato dal numero dei gruppi meno 1).
Eigenvalues
Correlazioni Canoniche
Dispersione cumulativa
32.192
0.985
0.991
0.285
0.471
1.000
Wilks' lambda=0.023 Approx. F=199.145 G.L.= 8,288. p-tail= 0.0000, Pillai's trace=1.192 Approx. F=53.466 G.L.= 8,290. p-tail=
0.0000, Lawley-Hotelling (traccia) = 32.477
Score canonico
Variabile
1
2
Setosa
7.608
0.215
Versicolor
-1.825
-0.728
Virginica
-5.783
0.513
Le variabili canoniche sono alla fine valutate a livello di media di gruppo, a livello operativo rappresentano le coordinate x e y
necessarie a costruire il grafico dello Score. In tale grafico vengono riportate le singole osservazioni, e un elisse di confidenza viene
costruito con centro sul centroide del gruppo.
Canonical Scores Plot
10
5
FACTOR(2)
VERSICOLOR
0
VIRGINICA
-5
-10
-10
SETOSA
-5
0
FACTOR(1)
5
10
Rappresentazione grafica di analisi discriminante.
VIRGINICA
50
49
SETOSA
VERSICOLOR
48
-10
-5
0
5
10
FATTORE 1
Distribuzione dei gruppi rispetto al primo fattore.
I metodi per la visualizzazione dei risultati dell’analisi discriminante sono diversi e possono offrire elementi utili per la comprensione
della complessità del data set.
33
Quaderni di Bioinformatica
Un sistema per calcolare i coefficienti della funzione discriminante, considerando quale esempio il caso di due gruppi e tre variabili
discriminati, è il seguente:
1.si definiscono le matrici di devianza-codevianza (matrici di dispersione) per ogni gruppo, in maniera analoga a quanto fatto con il
metodo semplificato di calcolo dei coefficienti di regressione lineare multipla:
per il gruppo A:
per il gruppo B:
x1 A
x2 A
x3 A
x1 A
dev(x1A)
cod(x1Ax2 A)
cod(x1Ax3A)
x2 A
cod(x2Ax1A)
dev(x2A)
cod(x2Ax3A)
x3 A
cod(x3Ax1A)
cod(x3Ax2A)
dev(x3A)
x1 B
x2 B
x3 B
x1 B
dev(x1B)
cod(x1Bx2 B)
cod(x1Bx3B)
x2 B
cod(x2Bx1B)
dev(x2B)
cod(x2Bx3B)
x3 B
cod(x3Bx1B)
cod(x3Bx2B)
dev(x3B)
dev(x1)
cod(x1x2 )
cod(x1x3)
cod(x2x1)
dev(x2)
cod(x2x3)
cod(x3x1)
cod(x3x2)
dev(x3)
2) viene creata la matrice delle medie aritmetiche di ogni elemento delle precedenti matrici:
3) viene calcolata la differenza fra le medie delle variabili fra i due gruppi:
X 1 = X 1A − X 1B
X 2 = X 2 A − X 2B
X 3 = X 3A − X 3B
4) viene definito il sottostante sistema di equazioni lineari, la cui risoluzione con la regola di Cramer consente di ottenere i coefficienti
cercati:
dev(x1)
cod(x1x2 )
cod(x1x3)
= x1
cod(x2x1)
dev(x2)
cod(x2x3)
= x2
cod(x3x1)
cod(x3x2)
dev(x3)
= x3
5) sostituendo alle variabili il loro valore medio è possibile calcolare i valori medi di D per i vari gruppi:
D A = bo + b1 X 1 A + b2 X 2A
D B = bo + b1 X 1B + b2 X 2B
6) viene quindi calcolata la soglia discriminate fra i due gruppi:
D AS B + D B S A
S A + SB
Sono necessarie alcune raccomandazioni necessarie per l’impiego corretto dei metodi multivariati, per primo dobbiamo considerare
che l’analisi multivariata si basa su due assunti relativamente alla struttura dei dati. Il primo assunto prevede che i dati siano tratti da
variabili che presentano una distribuzione multivariata normale, secondo assunto è quello relativo alle covarianza che devono esser
uguali in tutti i gruppi. Per quanto attiene la normalità questa viene testata separatamente per ogni variabile. Per la verifica della
uguaglianza della covarianza si impiega il test di M Box. Una ulteriore precauzione deve essere presa nell’analisi della matrice di
correlazione entro gruppi delle variabili per verificare l’esistenza di relazioni di indipendenza tra le stesse; se la correlazione tra
variabili è molto alta, allora alcune possono esser spiegate da una combinazione lineare delle stesse. Una misura del grado di
D0 =
34
Quaderni di Bioinformatica
associazione lineare delle variabili è rappresentata dal grado di tolleranza, dove minore è la tolleranza maggiore è il grado di
dipendenza.
CLUSTER ANALYSIS. Come l'analisi discriminante la Cluster Analysis classifica i casi in categorie. Comunque mentre l'analisi
discriminante richiede la conoscenza preventiva della classificazione in modo tale da derivarne una regola classificativa, la Cluster
Analysis consente di classificare i casi in categorie non precedentemente conosciute. Lo scopo dell’analisi di agglomerazione è quello
di suddividere un campione multivariato in gruppi di casi omogenei, si tratta solitamente di mettere ordine ai dati; per questo motivo
esistono diversi metodi per mettere in ordine una serie di dati e molte volte è richiesta una certa dose di soggettività. Si consideri ad
esempio che il programma cluster di Systat prevede tre procedure di clustering ognuna delle quali prevede una numerosa serie di
opzioni. Esistono poi i metodi di overlapping che prevedono che un oggetto possa essere presente in più di un clustering o se si
adotta un sistema esclusivo il cluster compare una sola volta.
La letteratura sui cluster è ampia e molte volte induce in errore poiché contiene definizioni diverse per termini che sono dei sinonimi.
CLUSTER GERACHICO- Mc Quitty 1960.
SINGLE LINKAGE CLUSTERING– Sokal et Sneath 1963.
JOINING CLUSTER– Hartigan 1975.
Il metodo maggiormente utilizzato nella rappresentazione è il cluster di tipo gerarchico ed ha rappresentazione ad albero dove la
lunghezza dei rami rappresenta la similarità tra gli oggetti. Per questa analisi è molto importante scegliere accuratamente le variabili
da considerare, poiché l'esclusione di variabili importanti potrebbe comportare l'assoluta inesattezza dei risultati analitici. I metodi di
cluster analysis presuppongono quindi che non esistano classi stabilite a priori ma, al contrario, hanno come obiettivo quello di
ricercare l'eventuale esistenza di raggruppamenti "naturali". L'esistenza dei gruppi viene valutata in base alle caratteristiche degli
oggetti di ciascun cluster. Il livello di similarità tra n oggetti distribuiti in uno spazio p-dimensionale (dove p è il numero delle variabili)
viene valutato in base alla loro distanza: si assume cioè che due campioni siano tra loro simili se la loro distanza è piccola, e che
siano dissimili se la loro distanza è grande. É quindi possibile calcolare le distanze tra i diversi campioni utilizzando una tra le
numerose misure di distanza disponibili (distanza Euclidea, di Mahalanobis, di Manhattan, di Minkowski, ecc.) e trasformare una
misura di distanza in una misura di similarità (sempre compresa tra zero e uno) con delle semplici trasformazioni.
L'analisi si basa sui concetti di similarità e di distanza, concetti analoghi anche se opposti: la distanza è minore per una maggiore
similarità. Oggetti simili appariranno sullo stesso cluster mentre oggetti diversi saranno posizionati su cluster distanti tra loro. La
produzione di una matrice di correlazione può esser utilizzata nella analisi dei cluster ma si hanno implicazioni diverse. In generale le
misure di correlazione (Pearson, Sperman, Tau..) non subiscono le influenze della scala di misura degli oggetti. Esiste comunque la
necessità di standardizzare i dati per evitare che una variabile possa influenzare eccessivamente la dissimilarità.
Oggetti
A
B
C
D
X1
10
11
12
13
X2
2
3
4
1
X3
11
15
12
13
X4
900
895
760
874
Nel nostro caso la variabile X4 presenta valori estremamente elevati che consigliano di standardizzare in base alla media. Il metodo
maggiormente usato per misurare la distanza fra i casi è la distanza Euclidea al quadrato definita come la sommatoria delle
distanze al quadrato fra tutte le variabili di due differenti gruppi:
distanza =
( X , Y ) = ∑ ( X i − Yi ) 2
i
Per evitare che l'unità di misura delle variabili influisca sulla loro distanza, le variabili vengono standardizzate (divise per la deviazione
standard) prima dell'analisi, in sostanza si lavora con gli scarti standardizzati (z).
Quando vengono raggruppate le variabili al posto dei casi, una misura di similarità spesso usata è quella del valore assoluto del
coefficiente di correlazione.
Un esempio ormai classico per illustrare il metodo di clustering gerarchico è quello di considerare le caratteristiche di alcuni veicoli.
Accelerazione
5.0
5.3
5.8
7.0
Freni
245
242
243
267
Slalom
61.3
61.9
62.6
57.8
Tempo 0-100
17.0
12.0
19.0
14.5
Velocità max
253
281
254
245
35
Modello
Porsche 911T
Testarossa
Corvette
Mercedes 560
Quaderni di Bioinformatica
7.6
7.9
8.5
8.7
9.3
10.8
13.0
271
259
263
287
258
287
253
59.8
61.7
59.9
64.2
64.1
60.8
62.3
21.0
19.0
17.5
35.0
24.5
25.0
27.0
224
230
231
215
229
200
195
Saab 9000
Toyota Supra
BMW 635
Civic CRX
Acura Legend
VW Fox GL
Chevy Nova
Cluster basato sulle colonne
Esistono un gran numero di tecniche di agglomerazione, soffermeremo la
nostra attenzione solo su alcuni aspetti rimandando per approfondimenti ai
testi specialistici. Il criterio più usato per formare i cluster è quello di tipo
Clustering sulle celle
gerarchico, che prevede di non dividere più il cluster una volta formato.
Nell'ambito della modalità gerarchica esistono due tipi di raggruppamenti: quello agglomerativo, che riunisce gli elementi più vicini
fino a formare un unico grande cluster, e quello divisivo, che parte da un unico grande cluster fino a formare un cluster per ogni
singolo caso.
I casi ed i cluster si riuniscono in base a criteri che vengono adottati in ogni passo della aggregazione e si basano sulla matrice delle
distanze o delle somiglianze fra i casi. Il modello più semplice è quello del collegamento singolo: i primi casi ad essere uniti in
cluster sono quelli che hanno le distanze più piccole. In questo caso la distanza fra un cluster ed un caso singolo viene calcolata
come la più piccola distanza fra il caso ed uno dei casi del cluster, mentre la distanza tra due casi non uniti in cluster rimane invece
sempre la stessa.
Alcuni metodi, come quelli del collegamento singolo e completo e quelli del collegamento medio fra ed entro i gruppi possono
usare sia le misure di distanza che di similarità. Altri metodi, come quello di Ward, della mediana e del centroide devono usare
comunque sempre il quadrato della distanza Euclidea. Quando vengono usate le misure di similarità, i criteri per la combinazione dei
cluster vengono invertiti, rispetto a quanto sopraesposto. Nel metodo Ward la dispersione all’interno del j-esimo gruppo è calcolata
come
1 Nj
Qj = ∑ d i2
n i =1
2
dove d rappresenta la distanza di ciascun punto dal centroide del gruppo. L’uso pertanto della distanza euclidea è raccomandato per
il metodo che prevede il centroide.
Esistono varie modalità grafiche per valutare l'aggregazione in cluster, ma la più usata è il dendogramma che consente non solo di
evidenziare i vari cluster, ma anche di mostrarne la distanza. Valutando il dendogramma è molto semplice verificare quale sia la
migliore soluzione dell'analisi in corso, infatti se il nostro obiettivo è quello di aggregare i casi in modo tale da rendere minima la
distanza dei casi all'interno di ogni singolo cluster e massima la distanza fra i cluster, ne segue che la soluzione migliore è quella che
contempla il numero di cluster tali per cui la distanza fra di essi incomincia ad essere sufficientemente grande (il sufficientemente
36
Quaderni di Bioinformatica
grande è relativo alla distanza all'interno dei singoli cluster fra i vari casi!). I risultati dell’analisi dipendono dal metodo utilizzato e
l’interpretazione dei dati richiede una buona conoscenza dei metodi di agglomerazione.
Analisi delle Componenti Principali. Rappresenta un sistema di analisi in grado di mettere ordine in modo semplificato ad un
archivio di dati; il metodo comunemente utilizzato prende il nome di analisi delle componenti principali (PCA, Principal Component
Analysis) anche se a volte compare il termine di Factor Analysis per significare i metodi che impiegano tecniche di ordinamento in
uno spazio di parametri ridotto. L'analisi fattoriale consente di riassumere l'informazione con un numero ridotto di variabili ortogonali
(fattori), rispetto a quelle originali. Dal punto di vista geometrico, PCA consiste in un processo di rotazione dei dati originali, effettuato
in modo che il primo nuovo asse (che costituirà la prima componente principale) sia orientato nella direzione di massima varianza dei
dati, il secondo sia perpendicolare al primo e sia nella direzione della successiva massima varianza dei dati, e così di seguito per tutti
i p nuovi assi. Il numero di questi nuovi assi (le componenti principali, PC) sarà quindi pari al numero di variabili originali. Le loro
direzioni rispetto alle direzioni degli assi originali (le variabili originali) vengono determinate dagli "autovettori", che sono i versori del
nuovo spazio, espressi da coefficienti (loadings) compresi tra ± 1. I fattori non sono conosciuti a priori e la variabilità di ogni variabile
viene espressa come combinazione dei vari fattori, con l’esclusione di una quota di variabilità che risulta essere unica. Si tratta di
metodi che utilizzano la scomposizione di una matrice di correlazione o di covarianza utilizzando differenti modelli matematici.
L’analisi dei fattori viene solitamente utilizzata nella esplorazione preliminare dei dati. I presupposti possono essere:
•
•
•
Correlazione di un numero elevato di variabili raggruppando le variabili stesse in fattori in modo tale che la variabile sia
maggiormente correlata con un fattore piuttosto che con un altro fattore.
Interpretazione del fattore in funzione del significato della variabile.
Molte variabili possono esser rappresentate da pochi fattori. Gli score per i fattori possono essere utilizzati come dati per il
test t, la regressione, l’ANOVA, le analisi discriminanti.
Si consideri a titolo di esempio di aver rilevato in 25 studenti un punteggio relativo alle prove orali e prove scritte da loro sostenute. Il
punteggio rilevato in 25 studenti nelle prove orali effettuate nel corso di un semestre e il punteggio realizzato nelle prove scritte, è
riportato nella tabella sottostante ed ha permesso di definire le rette di regressione che mettono in relazione tra loro le variabili. Sulla
base dei dati riportati in tabella calcolare una regressione lineare per prevedere il punteggio dell’orale sulla base del punteggio
conseguito nello scritto, ma possiamo nello stesso modo prevedere il punteggio dell’orale conoscendo il punteggio dello scritto.
Osserviamo che possiamo predire una variabile sulla base dell’altra, ma se volessimo prevedere utilizzando congiuntamente le due
variabili, dovremmo ricorrere alle componenti principali sviluppate da Karl Pearson nel 1901.
Riassumendo le linee di regressione indicano la predizione mentre le componenti indicano la migliore associazione.
Studente
ID 1
ID 2
ID 3
ID 4
….
ID 25
Punteggio Orale
590
620
640
650
….
600
Punteggio Scritto
530
620
620
550
….
640
REGRESSIONE: SCRITTO = 241.653 +0.613 ORALE
REGRESSIONE: ORALE = 321.114 +0.488 SCRITTO
Dal punto di vista matematico se considero le due rette di regressione posso immaginare di avere una nuova variabile che mi
sintetizza le informazioni relativamente al punteggio conseguito nell’orale e nello scritto. Avremo pertanto la nuova variabile che
chiameremo voto finale che risulta: VOTO = ORALE + SCRITTO
37
SCRITTO
Quaderni di Bioinformatica
ORALE
Regressioni lineari.
La nuova variabile quindi somma le informazioni delle due precedenti variabili, nel nostro caso avremo che la nuova linea si
approssima ad uno avendo le variabili scritto ed orale la stessa scala di valori. L’obiettivo quindi dell’analisi delle componenti principali
è quello di riassumere i dati multivariati nel modo più accurato possibile in una serie di poche componenti. Come vedremo poi
successivamente possiamo trasformare la relazione sopra riportato in nella prima componente principale sulla base del calcolo della
matrice di covarianza. Pertanto avremo
VOTO = 0.008 ORALE+0.01 SCRITTO
Le due variabili hanno dei coefficienti assai simili, ed i valori sono inferiori ad 1 in quanto le componenti principali sono scalate per
conservare la varianza. Molti ricercatori si chiedono come valutare la relazione tra le variabili originali e le componenti. In alcuni casi
molte componenti sono identiche alla variabile originale, in altre parole molti coefficienti sono vicini allo 0 per tutte le variabili ad
esclusione di una. In altri casi le componenti sono una amalgama delle variabili originali. Nell’analisi statistica si parla di component
loading come la covarianza delle variabili originali.
Component loadings
1
2
ORALE
51.085
33.646
SCRITTO
62.880
-27.334
Come si può osservare questi coefficienti sono tra loro proporzionali ma risultano scalati in maniera differente rispetto a quanto è
stato riportato nella relazione con la matrice di covarianza. Se poi effettuiamo la radice quadrata di ogni loadings e la sommiamo
separatamente per ogni componente, otteniamo la varianza spiegata da ogni componente.
Si è visto come il metodo delle componenti principali è un metodo che consente di valutare la varianza in uno spazio ridotto.
L’equazione utilizzata per calcolare la prima componente era
VOTO = 0.008 ORALE +0.01 SCRITTO
Questa componente è lineare nella forma
COMPONENTE = combinazione lineare di {VARIABILI OSSERVATE}
Che viene trasformata in
VARIABILI OSSERVATE = combinazione lineare di {FATTORI} + errore
Questo rappresenta il modello proposto da Spearman, dove è importante sottolineare come il modello prenda in considerazione delle
variabili osservate in funzione di fattori non osservati. L’analisi dei fattori è meno interessata alla predizione quanto alla
scomposizione della matrice di covarianza; per questo motivo l’equazione fondamentale nell’analisi non è il modello lineare, ma
quello in forma quadrata.
COVARIANZA OSSERVATA = COVARIANZA FATTORI + COVARIANZA ERRORI
La covarianza viene espressa in forma matriciale e questa viene sostanzialmente scomposta in due matrici di covarianza, una
dipendente dai fattori e l’altra come dipendente dagli errori. Le diagonali di queste due matrici sono definite come communality
(comunalità della varianza) e specifities. In pratica viene espressa la variabilità tra i fattori e la variabilità random degli errori.
La stima dei fattori. Esistono diverse fasi da seguire che possono esser di seguito riassunte:
1-Calcolo della matrice di correlazione o di covarianza. Per poter condurre questa analisi le variabili devono essere fra di loro
associate e pertanto una delle prime operazioni da compiere é la valutazione della matrice di correlazione fra di esse e la stima che
questa non sia una matrice identità, ovvero con i valori in diagonale uguale ad 1 e gli altri uguale allo zero (evidente indicazione di
assoluta mancanza di correlazione fra le variabili), tramite il test di sfericità di Bartlett, che deve presentare un valore di P minore di
0.05. L'adeguatezza del data-set viene invece verificata con il test di Kaiser-Meyer-Olkin, che deve presentare dei valori maggiori di
0.60. Se i valori sono intorno a 0.50 si definiscono come miseri, se ancora più bassi si definiscono inaccettabili.
2-Stima dei fattori, in questa fase si calcola il fattore iniziale di estrazione. Il principale metodo di estrazione dei fattori si basa
sull'estrazione delle componenti principali. Le componenti principali sono delle combinazioni lineari fra le variabili: la prima
componente principale è quella che raccoglie la quota principale della varianza, la seconda (non correlata con la prima) è quella che
38
Quaderni di Bioinformatica
raccoglie la quota principale della varianza rimanente e così via... L'analisi delle componenti principali è a sua volta un'analisi
fattoriale, infatti essa produce un insieme di componenti principali che possono essere considerate nuove variabili. Per scegliere il
numero di fattori adeguato si può fare riferimento alla percentuale di varianza spiegata da ogni fattore o, meglio, all'autovalore (radice
latente) (eigenvalue) dei singoli fattori, che deve essere superiore all'unità.
3-Rotazione dei fattori per rendere più facile l’interpretazione dei fattori. Spesso la matrice dei pesi fattoriali é di difficile
interpretazione poiché i vari pesi possono avere dei valori simili. Si ricorre allora alla rotazione dei fattori. Il metodo più utilizzato è
quello Varimax. In tal modo si ottiene una matrice di facile interpretazione poiché aumentano i valori dei pesi più elevati, mentre
diminuiscono i valori dei pesi più bassi. Risulta pertanto facile associare le variabili interessate ad una singola componente principale
ottenendo il risultato voluto: spiegare la maggior quota di variabilità possibile tramite un numero minore di variabili (fattori principali).
L'analisi delle componenti principali ci fornisce una soluzione algebrica che ci consente anche rappresentazioni grafiche molto efficaci
sia dei soli oggetti (scores plot) sia delle sole variabili (loadings plot) sia di oggetti e variabili contemporaneamente (biplot).
A titolo di esempio viene l’analisi effettuata su campione di 28 alimenti in cui si sono registrati i valori delle variabili grassi, proteine,
vitamine, calcio, ferro, calorie costo. Per prima cosa considerando che le unità di misura differiscono analizziamo la matrice di
correlazione.
GRASSI PROTEINE VITAMINE CALCIO FERRO COSTO CALORIE
GRASSI
1.000
PROTEINE
0.279
1.000
VITAMINE
0.174
0.162
1.000
CALCIO
0.259
-0.185
0.225
1.000
FERRO
0.304
0.416
-0.021
-0.104
1.000
COSTO
-0.132
0.420
0.009
-0.416
0.112
1.000
CALORIE
0.758
0.550
0.230
0.132
0.276
0.099
1.000
La matrice dei "loadings" (L): in questa matrice le colonne rappresentano gli autovettori e le righe rappresentano le variabili originali:
ciò significa che, selezionato un autovettore, in ciascuna riga si trovano i coefficienti numerici che rappresentano l'importanza di
ciascuna variabile originale in quell'autovettore.
Component loadings
1
2
3
CALORIE
0.883
0.172
-0.011
GRASSI
0.767
0.415
-0.218
PROTEINE
0.756
-0.406
0.121
VITAMINE
0.325
0.303
0.785
CALCIO
0.062
0.815
0.074
FERRO
0.565
-0.228
-0.456
COSTO
0.241
-0.759
0.344
Per esempio, nella matrice dei loadings qui rappresentata si nota che la prima variabile (Calorie) manifesta maggiormente la sua
importanza sulla componente 1, con un valore di 0.883, e sulla seconda componente 0.172. I loadings sono coefficienti lineari
standardizzati, cioè, in PCA, la somma dei quadrati dei loadings di un autovettore è uguale a 1. La varianza spiegata per ogni
componente è l’eigenvalue per quel fattore e viene espressa anche in termini di percentuale sulla varianza totale.
1
2
3
Variance Explained by Components
2.426
1.751
1.011
Percent of Total Variance Explained
34.654
25.016 14.440
Noi sappiamo che circa il 60% della varianza è spiegato dai due fattori (34.6+25.0).
Dal grafico risulta che le variabili grassi e calorie, sono strettamente correlate tra loro in modo diretto, in quanto sono proiettate nella
stessa direzione e con lo stesso verso; le variabili calcio e costo sono al contrario inversamente correlate tra loro e rappresentano
un'informazione indipendente dalle altre tre variabili.
Relativamente ai sistemi di rotazione le scelte che possono essere fatte dal ricercatore sono assai ampie:
Varimax: rappresenta un metodo di rotazione che minimizza il numero delle variabili per avere il valore di loading più elevato per ogni
fattore, questo tende a semplificare la possibile interpretazione dei fattori.
Quartimax: rappresenta un metodo di rotazione che minimizza il numero dei fattori necessari per spiegare ogni variabile. Con questo
approccio si ha una semplificazione nell’interpretazione delle variabili.
Equamax: un metodo di rotazione che combina i precedenti, in pratica vengono aumentate le variabili e minimizzati i fattori.
39
Quaderni di Bioinformatica
Oblimin: rappresenta una famiglia di rotazioni non ortogonali, il
valore di gamma esplicita il numero della famiglia, con gamma
= 0 per una bassa correlazione, valori positivi per correlazioni
elevate.
Uno degli obiettivi della fase di estrazione è quello di ridurre il
numero dei fattori, per rimanere con pochi fattori definiti forti.
L’estrazione dei fattori e la rotazione dei fattori rappresentano
la maggiore difficoltà che si incontra nell’analisi dei dati, in
quanto si possono avere moltissime risposte. Il numero dei
fattori da mantenere per le successive fasi è una decisione
delle più importanti che competono ad un analista che vuole
evitare delle distorsioni. Il test che viene oggi maggiormente
utilizzato è il test dell’eigenvalue uno o criterio di Kaiser.
Ricordiamo che ogni fattore produce un eigenvalue e
conseguentemente questo rappresenta la variabilità spiegata
da quel fattore.
Factor Loadings Plot
1.0
COSTO
PROTEINE
0.5
FACTOR(2)
FERRO
CALORIE
0.0
GRASSI
VITAMINE
-0.5
CALCIO
-1.0
-1.0
-0.5
0.0
0.5
FACTOR(1)
1.0
Plot delle componenti principali senza rotazione
Consideriamo di aver ottenuto per 15 variabili la seguente tabella
.
FATTORE
Eigenvalue
Varianza %
Percentuale cumulativa
1
5.06
37.4
37.4
2
2.02
13.5
50.9
3
1.55
10.3
61.2
4
0.89
6.0
67.2
5
0.79
5.3
72.4
----15
0.15
1.1
100
Il primo fattore esprime il massimo della
variabilità, il secondo la seconda e così di
seguito; nell’analisi delle componenti principali
tutte le variabili vengono trasformate in punteggi
z, cioè ogni variabile ha media zero e la
varianza di 1. Questo implica che la varianza
totale è uguale al numero delle variabili. Se
sommiamo gli eigenvalue otteniamo 15 che
corrisponde al numero delle variabili. Quindi un
fattore con un valore inferiore a 1 spiega meno variabilità di quella generata da una sola variabile; quindi non si ha un guadagno nel
mantenere nell’analisi fattori con eigenvalue inferiori ad uno. Il criterio di Kaiser porta spesso a mantenere troppi fattori quando
l’analisi proviene da 50 variabili, mentre ne mantiene poche
6.0
quando il numero delle variabili è inferiore a 20. Il test di
5.0
Lawley utilizza un altro criterio considerando la significatività
dei fattori, ma questo test risulta influenzato dalla
4.0
dimensione campionaria. Un test che viene considerato
3.0
migliore è il test di Cattel o Scree Test che valuta le zone di
2.0
frattura nella linea che collega tutti gli eigenvalue.
1.0
Si tratta di un test definito come il test del brecciolino, ed è
1
2
3
4
5
6
considerato come un test ad occhio, cioè si basa
Scree plot per i primi 6 fattori
sull’osservazione visiva, nel nostro caso ad esempio il
brecciolino, inizia solo dopo la terza frattura.
Matrice dei Fattori: Rappresenta la fase successiva dell’analisi statistica che utilizza i fattori estratti. La matrice viene denominata in
vari modi:
•
Matrice dei Fattori.
•
Matrice dei Pesi Fattoriali.
•
Matrice della Struttura Fattoriale.
• Matrice del Pattern Fattoriale.
Se i fattori rimangono ortogonali tra di loro, le matrici si possono dire identiche. Ma quando eliminiamo questa restrizione, le matrici
diventano divergenti.
Variabile
Fattore 1
Fattore 2
Fattore 3
A
0.626
0.285
0.346
B
0.426
0.283
0.351
C
0.460
0.517
0.338
D
0.519
0.521
0.539
----Z
0.123
-0.425
0.191
40
Quaderni di Bioinformatica
Dall’analisi della tabella possiamo dire che la variabile A pesa 0.626 sul fattore 1 (intendendo con questo che esiste una correlazione
di 0.626 con il primo fattore), il valore assoluto più elevato indica l’esistenza di una relazione maggiore tra la variabile e il fattore.
Nell’analisi fattoriale, la variabile dipendente è la variabile in considerazione e i fattori sono le variabili indipendenti. Fintantoché i
fattori sono ortogonali, i coefficienti di correlazione sono identici ai coefficienti di regressione. Il principio della comunanza di una
variabile si può derivare esattamente come somma dei quadrati della variabile. Ad esempio per la variabile A, avremo:
(0.626)2+(0.285)2+(0.346)2=R2 = 0.594.
I fattori sono quindi in grado di spiegare la variabilità, e non necessariamente il primo fattore è quello che ricerchiamo. Per questo
operiamo una rotazione che ha come finalità quella di spiegare i fattori. Per l’interpretazione dei fattori devono essere soddisfatte
quattro condizioni:
•
La variabilità spiegata deve essere ben distribuita. Nel nostro caso gli eigenvalue dei primi tre fattori rappresentano come
somma 9.17 e spiegano il 61% della varianza totale. Se analizziamo in dettaglio il primo fattore è responsabile per i primi tre
fattori del 61%, il secondo fattore 22% ed il terzo del 19%. Il primo fattore contiene una proporzione molto elevata della
varianza spiegata dai primi tre fattori, e questo può dipendere dal fatto che le variabili sono altamente correlate con il primo
fattore. In pratica il fattore 1 cattura quello che generalmente è definito fattore generale.
•
Ogni variabile deve pesare su un singolo fattore. Si indica nel caso in cui una variabile ha un peso forte su due o più fattori,
la variabile D ad esempio pesa su tutti e tre i fattori. La complessità fattoriale rende più difficile l’interpretazione del ruolo
della variabile poiché possiamo spiegarla sia come dipendente dal fattore 1 che dal fattore 2 e 3.
•
I pesi fattoriali devono esser prossimi a 0 o a 1. Deriva dalla considerazione che se un fattore pesa molto su un fattore, gli
altri devono pesare conseguentemente di meno per il principio della comunanza richiamato precedentemente.
•
I fattori devono essere unipolari (devono avere lo stesso segno). Se i pesi sono positivi e altri negativi, significa che un
valore alto del fattore indica un aumento per alcune variabili, mentre un valore basso indica una riduzione nella variabile
latente.
41
Quaderni di Bioinformatica
42
Quaderni di Bioinformatica
L’ANALISI STATISTICA DEI DAI DATI DI MICROARRAY:
APPLICAZIONI CON IL SOFTWARE SAS-STAT
Corrado Dimauro,
Nicolò Pietro Paolo Macciotta
Dipartimento di Scienze Zootecniche,
Università di Sassari
Via De Nicola 9, 07100 Sassari
E-mail: [email protected]; [email protected]
INTRODUZIONE
Tradizionalmente, la ricerca nel campo della genetica funzionale ha rivolto la propria attenzione allo studio intensivo di uno o pochi
geni alla volta utilizzando tecnologie come la Northern Blots (Alwine et al., 1977), la S1 Nuclease Protection (Berk and Sharp, 1977),
la Differential Display (Liang and Pardee, 1992) e la Serial Analysis of Gene Expression (SAGE) (Velculescu et al., 1995). Queste
tecnologie forniscono risultati attendibili e ripetibili sull’espressione dei singoli geni senza la necessità dell’uso di particolari analisi
statistiche, ma diventano poco pratiche nel momento in cui si vuole studiare il profilo di espressione di gruppi di geni, visti i tempi
lunghi di risposta. Il rapido diffondersi, in tutto il mondo, di progetti di ricerca rivolti al mappaggio del genoma sia umano che animale
ha portato all’identificazione di un enorme numero di geni richiedendo quindi lo sviluppo di nuove tecnologie in grado di studiare
l’espressione dei geni su vasta scala. A questo proposito, nel 1995 fu messa a punto la tecnologia dei microarray a cDNA (Schena, et
al., 1995, Lockhart et al., 1996) che consente di analizzare contemporaneamente, nello stesso esperimento, l’attività di decine di
migliaia di geni. L’impatto sulla comunità scientifica di tale tecnologia è stato enorme, e molti sono i laboratori che si sono attrezzati
per svolgere esperimenti con i microarray. Ciò ha consentito, nel corso degli anni, di affinare sempre più sia le procedure per la
conduzione degli esperimenti, sia le tecnologie usate per la costruzione degli array.
Nella sua forma più diffusa, un microarray è costruito con lo scopo di analizzare i pattern di espressione di migliaia di geni
simultaneamente. Il risultato dell’esperimento è costituito, di conseguenza, da un data set enorme con dati affetti, però, da errori sia
sistematici che casuali, che richiedono la manipolazione matematica e l’uso della statistica per poter estrarre informazioni utili.
Occorre, allora, per condurre correttamente un esperimento con microarray, l’apporto di competenze molto diverse tra di loro come, in
particolare, quelle di ricercatori che lavorano nell’ambito dell’analisi statistica dei dati e quella di ricercatori che si occupano di biologia
molecolare. Nella pratica, però, biologi e statistici spesso operano in separata sede: gli esperimenti sono materialmente condotti dai
biologi nei loro laboratori e i risultati sono poi inviati agli statistici per l’analisi e per l’estrazione dei geni differentemente espressi.
Poiché un esperimento con i microarray spesso si sviluppa attraverso passi successivi, sarebbe utile analizzare i dati non appena
essi sono prodotti, in modo da apportare, quando è il caso, correzioni all’esperimento in corso d’pera e di rendersi comunque conto di
ciò che via via si sta ottenendo.
Scopo di questo lavoro è fornire gli strumenti di base, sia teorici che pratici, per analizzare i dati prodotti da esperimenti con i
microarray. La piattaforma tecnologica di riferimento è quella dei microarray a cDNA, ma tutte le tecniche di analisi dei dati che
saranno proposte potranno facilmente essere estese anche ad altre piattaforme. Sarà condotta una analisi completa, dai dati grezzi ai
geni diversamente espressi, di due data set. Il primo, costituito da dati simulati, sarà utilizzato come data set di training per testare le
procedure di analisi che saranno poi applicate al secondo data set estratto da un esperimento reale condotto su DNA bovino. Tutti i
calcoli saranno svolti usando il software SAS-STAT.
1. BASI BIOLOGICHE DEI MICROARRAYS A cDNA
Le istruzioni necessarie per lo sviluppo e il funzionamento di tutti gli organismi viventi conosciuti, compresi alcuni tipi di virus,
sono contenute nella regione nucleare delle cellule sotto forma di DNA (acido deossiribonucleico). Dal punto di vista chimico, il DNA
consiste di due lunghi polimeri organici costituiti da monomeri che si ripetono, chiamati nucleotidi. I nucleotidi, a loro volta, sono
formati da tre componenti: un gruppo fosfato, uno zucchero a cinque atomi di carbonio (deossiribosio) e una base azotata che si lega
al deossiribosio. Le basi azotate utilizzate nella formazione dei nucleotidi sono classificate in due tipi: pirimidine (C e T) e purine (A e
G). Nel costituire l’acido nucleico la pirimidina di un filamento si potrà appaiare solo con una purina dell’altro filamento stabilendo così
una delle principali caratteristiche del DNA, la complementarietà delle basi. Negli organismi viventi il DNA si presenta quindi come
una coppia di filamenti antiparalleli, associati da legami idrogeno e che si intrecciano a formare una struttura definita doppia elica
(figura 1). La sequenza delle quattro basi azotate lungo il filamento di DNA contiene l’informazione genetica che in alcune regioni
viene letta attraverso un codice, detto appunto codice genetico, che specifica la sequenza degli aminoacidi che compongono le
proteine. I segmenti di DNA che portano l’informazione genetica sono chiamati geni e sono composti da regioni trascritte e tradotte,
dette esoni, e da regioni trascritte ma non tradotte, dette introni. L’insieme di esoni ed introni contengono le istruzioni necessarie alla
biosintesi di RNA e di proteine.
43
Quaderni di Bioinformatica
Figura 1: A sinistra la molecola del DNA composta da una doppia elica. A
destra la doppia elica allungata e in dettaglio lo scheletro costituito dal
gruppo fosfato legato al deossiribosio e la complementarietà delle basi
azotate (Nguyen et al., 2002).
L’espressione dell’informazione genetica contenuta nel DNA di un gene
avviene attraverso due processi distinti e successivi: (i) la trascrizione, e
la (ii) traduzione. La trascrizione consiste nella produzione di un acido
ribonucleico (RNA) copiato sulla base della sequenza nucleotidica del
DNA. L’RNA differisce dal DNA per alcune caratteristiche particolari: è
formato da un singolo filamento, il deossiribosio è sostituito dal ribosio e la
base azotata timina è sostituita con l’uracile (U). Affinchè la trascrizione
possa cominciare, la doppia elica di DNA deve svolgersi parzialmente e
separarsi nelle due eliche che la compongono (denaturazione). Soltanto
una delle due eliche viene trascritta in RNA (elica stampo) mentre quella
che non viene copiata (elica senso) risulta identica alla sequenza in basi
dell’RNA. L’RNA ottenuto viene poi modificato attraverso un processo di maturazione degli RNA chiamato splicing durante il quale gli
introni che sono stati trascritti insieme agli esoni vengono tagliati via dalla molecola di acido ribonucleico formando un filamento di
RNA messaggero (mRNA) pronto per essere tradotto in
polipeptide dai ribosomi citoplasmatici. La figura 2 mostra
uno schema esemplificativo del processo di trascrizione.
Figura 2: processo di trascrizione e splicing
(http://www.summagallicana.it/Volume2/B.III.06.2.htm)
La traduzione è il processo successivo alla trascrizione e
consiste nella conversione dell’informazione genetica portata
dai vari mRNA sotto forma di sequenza nucleotidica in
sequenza aminoacidica e quindi in proteine. Si stima che il
genoma umano e quello dei grandi mammiferi in generale,
contenga intorno ai 30.000 geni e che il DNA codificante è
circa il 1,5% del totale. I geni attivi variano a seconda del tipo
di cellula e, nella stessa cellula, cambiano a seconda della
situazione. In un organismo vivente le caratteristiche ed il ruolo di una cellula dipendono da quali geni sono in essa “accesi” o
“spenti”.
I microarray a cDNA e a oligonucleotidi sono le tecnologie che attualmente vengono più utilizzate per lo studio
dell’espressione genica, in quanto consentono di analizzare, in parallelo, migliaia di geni nello stesso esperimento e forniscono
informazioni sia di tipo statico (in quale tessuto il gene si è espresso) che di tipo dinamico (relazione tra il profilo di espressione di un
gene rispetto agli altri). Il principio su cui si basa la tecnica dei microarray sfrutta la complementarietà delle basi azotate nella
formazione degli RNA durante il processo della trascrizione.
1.1 La fabbricazione dei microarrays a cDNA
La tecnica dei microarray deriva da una evoluzione del Southern Blotting dove frammenti di DNA denaturato vengono trasferiti
su un supporto solido e successivamente ibridizzati con altri frammenti di DNA sempre a singolo filamento. Esistono diverse tecniche
per realizzare gli arrays a DNA con costi ed accuratezza differenti, ed ognuna può essere utilizzata per scopi diversi come ad
esempio lo studio comparativo dei genomi, la determinazione di polimorfismi dei singoli nucleotidi (SNPs), oppure l’analisi del profilo
di espressione genico e il rilevamento di fenomeni di splicing alternativo. In questa sede analizzaremo la tecnica dei cDNA
microarrays nello studio dei profili di espressione. Scopo della tecnologia dei microarrays a cDNA è quello di studiare
simultaneamente le interazioni tra migliaia di geni, determinare il livello di espressione tra di essi ed evidenziare le differenze che
possono essere eventualmente presenti in risposta a determinati trattamenti, patologie o stadi di sviluppo.
Un microarray è essenzialmente formato da un supporto solido su cui sono ancorati, con una disposizione tipo matrice, un
grande numero di frammenti denaturati (cioè a singola elica) di DNA detti sonde (probes). Queste sonde sono sottoposte a processi
di ibridazione con campioni di cDNA o RNA detti bersagli (targets) marcati con dei fluorofori e la fluorescenza emessa evidenzia gli
ibridi formati. L’esperimento con i microarray più semplice che si possa progettare consiste nel confrontare l’espressione dei geni in
un determinato tessuto trattato (test), con quella dello stesso tessuto non trattato che funge da controllo (riferimento). In questo caso,
le procedure sperimentali che si devono attuare sono:
1) costruzione dell’array con le sequenze di cDNA da considerare;
44
Quaderni di Bioinformatica
2)
3)
4)
5)
preparazione dei campioni biologici da analizzare ed estrazione dell’ RNA totale;
sintesi dei cDNA ed etichettatura del test e del riferimento con fluorofori di colore diverso;
ibridazione dei campioni biologici etichettati sull’array;
identificazione dei geni espressi e quantificazione dell’espressione genica nei tessuti esaminati (test e riferimento).
Per la costruzione dell’array è necessario selezionare le sequenze di DNA (sonde) da ancorare sul supporto solido (lamina di
vetro, plastica o di silicone) scegliendole ad esempio tra oligonucleotidi, cDNA o piccoli frammenti prodotti tramite PCR (reazione a
catena della polimerasi). La sonda scelta viene depositata sul vetrino utilizzando un sistema robotizzato con micro aghi (stampa
robotica). Le sonde depositate sul vetrino sono normalmente DNA a doppia elica. Dato che i microarray funzionano secondo il
principio dell’ibridizzazione in cui un filamento di DNA si legherà ad un filamento complementare per formare la doppia elica, l’array è
riscaldato in modo da separare i due filamenti di DNA (denaturazione), per cui alla fine del processo, il vetrino conterrà migliaia di
sonde con un singolo filamento di DNA. Ogni sonda sul vetrino rappresenta un gene, una porzione di gene o una particolare
sequenza di DNA detta anche EST (espressed sequence tags).
Dal momento che la costruzione di un microarray è un processo costoso che necessita di personale altamente qualificato e di
strumenti molto sofisticati, diverse compagnie si sono specializzate nella produzione, su ordinazione, di microarray. I vari laboratori di
ricerca quindi progettano l’esperimento e successivamente comprano i microarray necessari dalle compagnie che li sviluppano. Per
questa ragione la parte puramente sperimentale inizia dalla produzione del DNA target. Dai campioni biologici sia del test (ad
esempio dal tessuto tumorale) che del riferimento (tessuto normale) viene estratto l’mRNA. Una aliquota dei due mRNA viene
sottoposta ad un processo in vitro detto trascrizione inversa che consente di produrre un filamento di DNA a partire da uno di mRNA.
Il DNA così ottenuto si definisce DNA complementare o cDNA. Durante la trascrizione in vitro i cDNA test e di riferimento vengono
etichettati con dei fluorofori di colore diverso (ad esempio rosso per il test e verde per il riferimento). Successivamente i cDNA
vengono miscelati e posti sull’array per l’ibridizzazione. Consideriamo una specifica sonda sul microarray: essa contiene singoli
filamenti di DNA che rappresentano uno specifico gene. Se nella miscela bersaglio ci sono filamenti complementari alla sonda, si
legheranno ad essa per formare la doppia elica. Dopo l’ibridizzazione il microarray è sottoposto a numerosi lavaggi per eliminare il
materiale residuo non legato e fissare bene il materiale genetico del bersaglio sulla sonda (spots). Il microarry viene quindi posto in
uno scanner dove i singoli spots vengono eccitati con due lampade a raggio laser nelle lunghezze d’onda dei due coloranti
fluorescenti usati. A questo punto diverse sono le possibilità: 1) se il gene si esprime sia nel tessuto test che in quello di riferimento lo
spot si colora di giallo; 2) se il gene si esprime solo nel tessuto test allora lo spot si colora di rosso, 3) se il gene si esprime solo nel
tessuto di riferimento si colora di verde. I materiali fluorescenti infatti assorbono la luce e la riemettono proporzionalmente
all’espressione del gene, cioè tanto più sarà espresso il gene nei due campioni, maggiore sarà l’intensità luminosa emessa dal
fluorocromo. Questa luce viene catturata da uno scanner, elaborata da un software e trasformata in numeri che rappresentano
l’intensità luminosa. L’output finale di un esperimento con
Eccitazione
Cloni di DNA
RNA test
RNA riferimento
microarrays, a seconda del software di acquisizione utilizzato,
Laser 1
Laser 2
consiste in un set di dati fatto da migliaia di righe, ognuna delle
quali rappresenta uno spot, e da un certo numero di colonne che
Trascrizione
Inversa (cDNA)
riportano la posizione dello spot sul vetrino, il nome del gene, le
Emissione
intensità luminose e semplici elaborazioni. La figura 3 riporta in
Amplificazione mediante PCR
Etichettatura
maniera schematica le procedure sperimentali necessarie alla
conduzione di un esperimento di cDNA microarray con sonde
Stampa robotica
ottenute mediante amplificazione per PCR e targets prodotti
mediante trascrizione in vitro. Mediante quindi analisi
comparative tra i dati relativi al campione test ed al riferimento si
potà risalire al profilo trascrizionale dei due tessuti e trarre le
Elaborazione
Dell’immagine
Ibridizzazione
adeguate conclusioni.
Figura 3: procedure sperimentali per la conduzione di un esperimento con microarray
2. L’ANALISI DEI DATI DI MICROARRAY
L’analisi dei dati prodotti da microarray presenta numerose e complesse problematiche che devono essere affrontate e risolte
prima di ottenere risultati attendibili. Come accade in qualsiasi esperimento, è innanzi tutto indispensabile valutare e controllare gli
errori casuali che sempre si determinano, con la particolarità, in questo caso, che si ha a che fare con migliaia di migliaia di dati.
Inoltre, come risulta evidente da quanto visto nel par. 1, un esperimento con microarray comprende un complesso sistema di
passaggi successivi che, passo dopo passo, possono determinare l’introduzione di errori sistematici che si rifletteranno poi nei
risultati finali. È quindi necessaria una prima fase di filtraggio dei dati in modo da eliminare o, quanto meno, controllare tali errori.
Successivamente, i dati sono poi analizzati mediante modelli statistici che consentono di individuare i geni che si esprimono
diversamente nelle varie condizioni sperimentali. Una volta stilata una lista di geni diversamente espressi, l’analisi statistica
multivariata consente di raggruppare i geni in base al loro pattern di espressione con lo scopo di individuare cluster di geni che si
esprimono allo stesso modo rispetto alle condizioni sperimentali.
45
Quaderni di Bioinformatica
2.1 Controllo di qualità degli spot
Il controllo di qualità degli spot è un aspetto molto importante negli esperimenti con i microarray, avendo un impatto
potenzialmente grande sulle successive analisi. Nella fase di ibridazione, alcune sonde possono non incorporare bene il target, per
cui la successiva quantificazione della radiazione emessa può essere fortemente distorta. Il controllo di qualità consente di
individuare e di rimuovere dalle successive analisi gli spot mal riusciti. La maggior parte dei software utilizzati per l’elaborazione e
l’interpretazione delle immagini scannerizzate dei microarray, fornisce tutta una serie di informazioni sulla qualità dei singoli spot
basati sulle loro caratteristiche fisiche (Yang et al., 2002a). Molti scienziati, comunque, invece di affidarsi esclusivamente ad un
software, preferiscono l’ispezione visuale dei singoli spot mediante la quale, utilizzando delle griglie di sovrapposizione, sono in grado
di discernere tra uno spot di alta e uno di bassa qualità (Leung e Cavalieri, 2003). Questa strada praticata principalmente nei primi
anni in cui furono utilizzati i microarry risulta, attualmente, essere difficilmente percorribile in quanto, utilizzando microarray con
20.000 e più spots, questa procedura richiederebbe molto tempo e, sicuramente, molta pazienza. È preferibile allora usare per il
controllo di qualità, un approccio detto “data-based”, cioè basato sulla analisi dei dati grezzi. In questo tutorial sarà usata la tecnica
proposta da Tran et al. (2002) che utilizza la correlazione esistente tra le intensità media e mediana dei singoli spot per selezionare
gli spot.
2.2 Normalizzazione dei dati
I dati, depurati da segnali anomali, sono quindi sottoposti a normalizzazione il cui scopo fondamentale è la correzione degli
errori sistematici introdotti durante la fase sperimentale cercando di mantenere, nello stesso tempo, gli effetti sull’espressione dei geni
dovuti al trattamento preso in considerazione. La correzione riguarda le eventuali differenze nell’etichettatura dei campioni con i
materiali fluorescenti, nella diversa quantità di materiale genetico incorporato dai singoli spot, nella differente risposta, in termini di
fluorescenza, alle diverse intensità di fluorescenza (Quackenbush, 2002).
Generalmente, prima di effettuare qualsiasi tipo di intervento, i dati di fluorescenza sono algebricamente trasformati
applicando il logaritmo in base 2. Il motivo principale di questa trasformazione risiede nel fatto che i dati di espressione genica
consistono di un gran numero di geni a bassa intensità e pochi ad alta, con una distribuzione che presenta una forte asimmetria
(skewness) rispetto alla distribuzione normale. Nonostante i modelli statistici utilizzati per le ulteriori analisi siano abbastanza robusti
anche in presenza di dati non perfettamente normali, la trasformazione logaritmica migliora le performances dell’analisi nel suo
complesso (Quackenbush, 2002).
Dopo la trasformazione logaritmica, la normalizzazione dei dati grezzi prodotti da un esperimento con i microarray può
avvenire secondo due modalità. La prima riguarda l’uso di un set di sequenze di DNA, dette housekeeping che, in teoria, dovrebbero
esprimersi allo stesso modo in situazioni anche molto diverse tra di loro. In pratica, però, questo non accade sempre (Lee et al., 2002;
Peppel et al., 2003) per cui si preferisce una seconda modalità che permette di controllare gli errori sistematici mediante la
manipolazione matematica dei dati e l’applicazione di opportuni modelli statistici. Sono state proposte diverse tecniche per la
normalizzazione dei dati, ma non c’è ancora, in seno alla comunità scientifica, pieno accordo su quali siano le più efficienti e con
quale ordine applicarle (Fujita et al., 2006; Dimauro et al., 2007). In questo lavoro saranno usate due tra le tecniche che hanno
raccolto maggiore consenso: la LOWESS, che consiste in una regressione pesata localmente e consente di correggere i dati dalla
dipendenza sistematica della intensità di fluorescenza, e i modelli ANOVA che correggono i dati per l’effetto dell’array e del colore.
Queste due tecniche saranno ampiamente chiarite nei capitoli successivi.
2.3 Strategie per l’individuazione dei geni differentemente espressi
Ottenuti i dati correttamente normalizzati, la scelta della tecnica statistica più adatta per l’individuazione dei geni che si
esprimono diversamente dipende strettamente dal disegno sperimentale adottato. Generalmente per confrontare l’espressione di un
determinato gene nel tessuto trattato e non viene usato il test t corretto (Dudoit et al., 2002), oppure i modelli lineari di analisi di
varianza con effetti sia fissi che casuali (Wolfinger et al., 2001). Questi modelli sono applicati gene per gene ma, chiaramente,
trattando con migliaia di geni, nascono grossi problemi nel fissare la significatività statistica dei test. Numerosi sono, infatti, i test
statistici che devono essere svolti e, per ogni test, esiste una certa probabilità che sia fatta una inferenza non corretta (Storey et al.,
2003). Questo problema è conosciuto come multiple testing error rate e, in letteratura, sono stati proposti diversi metodi per la sua
risoluzione (per una review completa consultare Pounds, 2006). In questo lavoro, sarà usato un modello lineare misto applicato gene
per gene e il multiple testing error rate sarà controllato per mezzo del permutation test.
2.4 Clusterizzazione dei geni differentemente espressi
Una volta selezionati i geni che si esprimono diversamente, è importante esplorare le correlazioni tra i pattern di espressione
di questi geni. La scoperta di similarità nell’espressione di gruppi di geni gioca un ruolo fondamentale nella genomica funzionale.
Molte delle caratteristiche degli individui, infatti, sono difficilmente controllate da singoli geni, ma spesso concorrono gruppi di geni
nella formazione del carattere. È stato, ad esempio, ampiamente dimostrato che i caratteri produttivi degli animali di interesse
zootecnico sono controllati da pool di geni molto numerosi, ognuno dei quali contribuisce all’espressione del caratere quasi in
46
Quaderni di Bioinformatica
maniera infinitesima. Le metodologie statistiche più usate per il raggruppamento dei geni rientrano nell’ambito di una branca della
statistica multivariata conosciuta con il nome di cluster analysis. Diverse sono le possibilità di approccio, dai metodi gerarchici a quelli
non gerarchici, dai metodi di raggruppamento statico a quelli così detti time course (Sebastiani et al., 2003; Rudolph et al., 2003;
Shaanon et al., 2003; Zeng e Garcia-Frias, 2006; Chi et al., 2007). In questo tutorial, sarà usato il metodo di raggruppamento statico
attraverso l’algoritmo gerarchico che raggruppa i geni attraverso aggregazioni successive, partendo da un numero di clusters
coincidente con quello dei geni fino a finire in un unico cluster contenente tutti i geni. Questo processo si può rappresentare mediante
un diagramma ad albero bidimensionale detto dendrogramma che illustra le successive fusioni dei clusters in base al loro grado di
similarità.
3. ANALISI DI UN DATA SET SIMULATO
I dati utilizzati per l’analisi provengono dal workshop EADGENE tenuto ad Upsala nel 2007 (De Koning et al., 2007). In breve,
i dati sono stati generati immaginando un confronto diretto tra due situazioni diverse A e B (ad esempio, il confronto tra DNA estratto
da un tessuto tumorale e non). È stata simulata la produzione di 10 microarray, ognuno con 2400 geni in spot duplicati. Sono stati
quindi prodotti 10 comma separed (csv) data set (slide1, …, slide10) ognuno con 13 colonne: ‘genename’ che contiene gli
identificativi dei geni; ‘index’ che mediante numerazione identifica lo spot nell’array; ‘row’, ‘col’ e ‘grid’ che contengono gli identificativi
delle righe, delle colonne e dei blocchi in cui l’array è suddiviso; ‘rowabs’ e ‘colabs’ che indicano le coordinate di riga (da 1 a 120) e di
colonna (da 1 a 40) di ogni spot nell’array; ‘bgA’ e ‘bgB’ sono le intensità di background nei due canali relativi alle due situazioni, A e
B, confrontate; ‘rawA’ e ‘rawB’ sono le intensità di foreground per i due canali A e B; ‘netA’ e ‘netB’ sono le intensità nette (rawA-bgA
e rawB-bgB) di ogni spot dopo aver sottratto dall’intensità di foreground quella di background nei due canali A e B. I dati sono stati
generati in modo da rappresentare un esperimento reale con molte fonti di errore sia casuale che sistematico.
Dopo aver importato in SAS i 10 file, ad ognuno di essi è aggiunta una nuova colonna chiamata ‘array’ in modo da identificare
univocamente l’array:
data slide1;
set slide1;
array=1;
run;
…………..
data slide10;
set slide10;
array=10;
run;
I 10 data set sono quindi “appesi” l’uno sotto l’altro in modo da formare un unico file:
proc append base= slide1 data=slide2;
run;
…………………………………………………………………………………………
proc append base= slide1 data=slide10;
run;
Al file slide1, che contiene tutti e 10 i files di partenza, viene assegnato il nome complete e poi è ordinato secondo la colonna
genename:
data complete;
set slide1;
run;
proc sort data=complete;
by genename;
run;
È anche disponibile un file di excel, chiamato workshop_results_sim, in cui sono elencati, tra l’altro, i geni che si esprimono
diversamente. Importiamo, in SAS, il foglio di lavoro con i geni espressi assegnandogli il nome espressed, selezioniamo solo le
variabili importanti (genename e regulated), ordiniamolo per genename e uniamolo al file complete:
data expressed;
47
Quaderni di Bioinformatica
set expressed;
keep genename regulated;
run;
proc sort data=expressed;
by genename;
run;
data complete;
merge complete expressed;
by genename;
run;
Il data set complete contiene adesso una colonna (regulated) con i geni che si esprimono diversamente nelle due situazioni A
e B. Questa informazione sarà utile alla fine di tutta la procedura perché consentirà di confrontare i risultati ottenuti con quelli veri.
Selezioniamo adesso (comando keep) le variabili di interesse e rinominiamo le colonne rawa e rawb come G (il canale green)
e R (il canale red). Il nuovo data set sarà chiamato work:
data work;
set complete;
keep genename regulated array rawa rawb;
run;
data work;
set work;
rename rawa=G rawb=R;
run;
Lavorando con dati simulati, nessun controllo di qualità per gli spot è possibile. Soltanto gli spots con intensità zero sono
eliminati e non sarà effettuata nessuna correzione per il background:
data work;
set work;
if G=0 then delete;
if R=0 then delete;
run;
3.1 Normalizzazione dei dati
Come precedentemente accennato, le intensità R e G sono prima di tutto sottoposte a trasformazione logaritmica (in base 2)
in modo da ottenere una distribuzione dei dati approssimativamente normale. La figura 1 mostra, ad esempio, la distribuzione dei dati
di intensità per l’array numero 1 prima (figura 1a) e dopo la trasformazione logaritmica (figura 2b). I dati non trasformati presentano
una distribuzione fortemente asimmetrica, mentre dopo la trasformazione la distribuzione è molto vicina alla normalità.
Array1
2400
a
Frequency
Frequecy
1800
1200
1200
600
0
Array1
b
800
400
0
2000
8000
14000
20000
26000
>30000
4
Raw A
7
10
13
Lograw A
Figura 1: (a) distribuzione dei dati per l’array 1 (a) prima e (b) dopo la trasformazione
logaritmica in base 2.
48
16
19
Quaderni di Bioinformatica
I seguenti passi di data permettono di effettuare la trasformazione logaritmica delle intensità G e R :
data work;
set work;
logG=log2(G);
logR=log2(R);
run;
Gli istogrammi in figura 2 possono essere ottenuti usando la procedura uni variate del SAS che, oltre agli istogrammi, fornisce
le statistiche di base relativamente alla variabile considerata:
proc univariate data=work;
var G logG R logR;
histogram;
run;
Le intensità log-trasformate dovrebbero riflettere l’abbondanza dell’espressione di ogni singolo gene contenuto nel campione.
Questa relazione, comunque, non segue sempre una semplice relazione di proporzionalità, ma è spesso osservata una dipendenza
sistematica nei dati rispetto alla intensità di fluorescenza (Yang et al., 2002b). Questo effetto dell’intensità può essere visualizzato
M = log R / G contro l’intensità media A = log RG . La lettera M
simboleggia la sottrazione “minus”, in quanto M = log R / G = log R − log G , mentre A simboleggia l’addizione “add”, in
plottando il logaritmo del rapporto tra le intensità
quanto
A = log RG = 12 (log R + log G ) . La figura 2a mostra i grafici M-A dei primi quattro arrays in cui è evidente il forte
sbilanciamento tra la fluorescenza nel verde e quella nel rosso: alle basse intensità, i geni che si esprimono nel rosso sono maggiori
di quelli del verde, mentre accade il contrario alle alte intensità.
Per ottenere i grafici nelle figure 2a, occorre innanzi tutto creare le variabili M e A:
data work;
set work;
M=logR-logG;
A=(logG+logR)/2;
run;
I grafici, per ogni array, possono essere ottenuti usando la procedura “gplot”. Prima, però, il data set work deve essere
ordinato per array:
proc sort data=work;
by array;
run;
proc gplot data=work;
plot M*A;
by array;
run;
quit;
49
Quaderni di Bioinformatica
A rray1
A rray1
3
8
4
1
0
-4
-1
-8
-12
-3
4
6
8
10
12
14
16
4
A
6
8
10
A
A rray2
8
12
14
16
A rray2
5
3
4
1
0
-1
-4
-3
-8
-5
4
6
8
10
12
14
16
4
6
8
10
A
A rray3
16
12
14
16
A
A rray3
4
8
0
2
-8
0
-16
-2
-24
-4
-32
4
6
8
10
12
14
16
5
A
7
9
Array4
24
A
11
13
15
A rray4
4
16
2
8
0
0
-2
-8
-16
-4
4
6
8
10
12
14
16
5
7
9
A
11
13
15
A
a
b
Figura 2: grafici M-A per i primi 4 array (a) prima e (b) dopo la normalizzazione lowess
Per risolvere il problema dello sbilanciamento tra i due canali sono state proposte diverse tecniche (Chatterjee et al., 1991;
Chen et al., 1997; Tseng et al., 2001), ma la maggior parte degli autori ritiene che il modo migliore sia utilizzare una tecnica basata
sull’intensità dei singoli geni e sulla loro distribuzione spaziale (Quackenbush, 2002; Yang et al., 2002b). Questo approccio è
conosciuto con il nome LOWESS (Cleveland, 1979) acronimo di LOcally WEighted Scatterplot Smoothing regression e presenta
alcuni vantaggi tra cui quello che non è sensibile ad eventuali dati anomali (outliers) e che le curve previste non sono eccessivamente
sinuose (non “inseguono i dati”). La tecnica LOWESS fitta semplicemente una linea (retta o curva) su intervalli di dati successivi e poi,
iterativamente, la riadatta in modo da creare una curva continua abbastanza piana. In questo lavoro, la regressione LOWESS per
normalizzare i dati è stata applicata secondo il metodo proposto da Yang et al. (2002b). I valori previsti M’ di M = logR/G su
A = log RG stimano l’effetto sui dati del fattore intensità di fluorescenza. La differenza M*=M-M’ è il valore normalizzato
(corretto cioè per l’intensità). Poiché
per i due colori, e
A=
1
2
(log
2
M * = log 2 R * − log 2 G * , dove log 2 R * e log 2 G * sono le fluorescenze logaritmiche
)
R * + log 2 G * , le intensità logaritmiche normalizzate si possono ottenere nel seguente modo:
log G = A + M * 2 and
*
log* R = A − M * 2
La normalizzazione lowess è stata ottenuta mediante la procedura loess del SAS:
(1) proc loess data=work;
50
Quaderni di Bioinformatica
(2) ods output outputstatistics=out;
(3) model M=A;
(4) by array;
run;
data out;
set out;
(5) Mstar=depvar-pred;
run;
data out;
set out;
(6) logstarG=A+Mstar/2; logstarR=A-Mstar/2;
run;
Con la riga (1) è invocata la procedura loess del SAS, mentre (2) consente di ottenere un data set di output (out) che contiene i valori
previsti (M’=pred); la riga (3) specifica il modello di regressione e (4) il comando by impone al SAS di sviluppare la regressione loess
per ogni array. Con i comandi della linea (5) si calcola M* (Mstar) sottraendo M a M’ (depvar e pred, rispettivamente, nel data set out)
*
*
e, infine, in (6) sono calcolati i valori normalizzati log G e log R .
La figura 2b mostra i grafici M-A dopo la normalizzazione lowess dei primi quattro array. Confrontando le figure 2a e 2b è
chiaro che lo sbilanciamento tra i due canali è stato corretto.
Per ottenere i grafici nelle figure 2b, si può usare il seguente programma SAS:
data out;
set out;
M1=logstarR-logstarG;
A1=(logstarG+logstarR)/2;
run;
proc gplot data=out;
plot M1*A1;
by array;
run;
quit;
Dopo aver selezionato solo le variabili utili (array, logstarG and logstarR), il file out è unito al file work ottenendo il data set
norm che contiene i dati corretti con la regressione lowess (logstarG and logstarR) e tutte le altre variabili utili:
data out;
set out;
keep array logstarG logstarR;
run;
data norm;
merge work out;
by array;
run;
I dai normalizzati con la lowess possono ancora essere affetti da errori sistematici dovuti al colore e all’array. Tali fonti di
variabilità possono essere introdotte durante lo svolgimento dell’esperimento e tengono conto la prima della diversa efficienza
nell’incorporamento dei due colori da parte del DNA, la seconda delle possibili differenze nel processo di ibridizzazione di ciascun
array. Nel nostro esperimento simulato, l’effetto del colore è controllato utilizzando un disegno sperimentale dye-swap. Questo
disegno usa due array per confrontare gli stessi campioni. Sul primo, alla situazione A è assegnato il colore verde e alla situazione B
il colore rosso. Sul secondo array i colori sono invertiti. Questa disposizione è stata ripetuta fino ad ottenere un totale di 10 array, in
modo da migliorare le performances dell’esperimento. Nonostante questo accorgimento riguardante il disegno sperimentale, è
sempre buona cosa inserire nel modello di correzione finale anche il cdolore oltre all’array. Queste due sorgenti di variabilità sono
51
Quaderni di Bioinformatica
generalmente controllate utilizzando i modelli lineari di analisi di varianza. Sia yijk l’intensità corretta con la lowess per il gene i
(i=1,…..,2400), etichettato con il colore j (j=1 per R e j=2 per G) nell’array k (k = 1,……,10). Il modello di normalizzazione è:
yijk = µ + D j + Ak + ( AD) jk + ε ijk
dove µ è il valore medio globale, D è l’effetto fisso del colore, A l’effetto fisso dell’array e AD l’effetto dell’interazione array per
colore. Questa correzione riguarda effetti che non sono specifici del singolo gene. I dati finalmente normalizzati saranno i residui del
modello lineare.
Per poter applicare questo modello, il data set norm deve subire alcune manipolazioni. Esso è innanzi tutto splittato in due
data set G and R che contengono le intensità di foreground verdi e rosse:
data G;
set norm;
keep genename array logstarG regulated;
run;
data R;
set norm;
keep genename array logstarR regulated;
run;
Ad ogni data set è aggiunta una ulteriore colonna con il colore appropriato e le intensità di foreground (logstarG and logstarR)
sono rinominate:
data G;
set G;
dye='G';
rename logstarG=intensity;
run;
data R;
set R;
dye='R';
rename logstarR=intensity;
run;
Conformemente al piano sperimentale, ai data set G ed R è aggiunta una nuova variabile trattamento (treatment) con due
livelli A e B che riflettono le due situazioni sperimentali e, alla fine, il data set R è appeso a G ottenendo il file micro:
data G;
set G;
if array=1 then treatment='A';
if array=2 then treatment='B';
if array=3 then treatment='A';
if array=4 then treatment='B';
if array=5 then treatment='A';
if array=6 then treatment='B';
if array=7 then treatment='A';
if array=8 then treatment='B';
if array=9 then treatment='A';
if array=10 then treatment='B';
run;
data R;
set R;
if array=1 then treatment='B';
if array=2 then treatment='A';
if array=3 then treatment='B';
if array=4 then treatment='A';
if array=5 then treatment='B';
if array=6 then treatment='A';
if array=7 then treatment='B';
if array=8 then treatment='A';
52
Quaderni di Bioinformatica
if array=9 then treatment='B';
if array=10 then treatment='A';
run;
proc append base=G data=R;
run;
data micro;
set G;
run;
l’analisi di varianza, applicata al data set micro, può essere svolta utilizzando il seguente programma SAS:
(1) proc glm data=micro;
(2) class array dye;
(3) model intensity=dye array array*dye;
(4) output out=rfi r=res;
run;
quit;
Con la riga (1) è invocata la procedura glm (general linear model) che richiede (2) nel comando class la dichiarazione delle
variabili di classificazione che in questo caso sono array e colore (array e dye) mentre (3) il commando model fitta i valori di intensità
(intensity), corretti con la loess, in funzione colore (dye), dell’array e della loro interazione. Con la riga (4) è creato un file di output (rfi)
che contiene tutte le variabili del data set micro più i residui del modello (res) che costituiscono i dati finali corretti e normalizzati. In
questo studio, per inciso, solo l’effetto dell’array è significativo.
3.2 Individuazione dei geni diversamente espressi
Per stabilire la significatività statistica e l’intensità dell’effetto trattamento (situazione A e B) è utilizzato un modello lineare di
analisi di varianza, applicato ad ogni singolo gene (Wolfinger et al., 2001):
res ij = µ i + S j + γ ij
dove, resij sono le intensità di fluorescenza normalizzate del i-esimo gene per il j-esimo trattamento; µi è la media globale, Sj
l’effetto fisso del trattamento (j=A e B) e γij è l’errore casuale. Fissato il modello generale di analisi, il problema più rilevante da
risolvere è come stabilire la significatività statistica delle differenze nell’espressione dei geni. Come accennato nelle pagine
precedenti, studiando simultaneamente 2400 geni, bisogna fare i conti con il tasso di errore dovuto ai test multipli (multiple testing
error rate). Tra le varie tecniche proposte per il controllo di questo tipo di errore, in questa guida è stato scelto il test di permutazione
che usa i dati osservati per derivare la distribuzione di probabilità per l’ipotesi nulla del test. Nel caso semplice del confronto secco tra
due gruppi, i dati di fluorescenza sono assegnati casualmente ai due gruppi dopo di che viene condotto il test statistico e il valore del
test (ad esempio il valore di t o di F) viene confrontato con quello calcolato sui dati originali. Usando, ad esempio, la procedura mixed
del SAS si può annotare il F-value su 1000 permutazioni e, per ogni gene, calcolare il p-value come segue:
p − value =
numero di F - value > F - value del data set originale
1000
Per sviluppare il test di permutazione è stato utilizzato il linguaggio macro del SAS mediante il quale è stata costruita una
apposita macro che permette di ripetere automaticamente la procedura mixed 1000 volte per ogni gene. Siccome la procedura sarà
ripetuta centinaia di migliaia di volte, alla macro è bene anteporre i seguenti passi di data che evitano la saturazione della finestra di
output e del log del SAS, che condurrebbe al blocco dei calcoli:
(1) ods exclude all;
(1) ods noresults;
(2) proc printto log="c:\sas.log" print="C:\log.out";
run;
Le righe (1) evitano che il programma scriva nella finestra di output, mentre la riga (2) forza il SAS a scrivere il log in un file
esterno (log.out) che verrà salvato sul disco C.
La macro usata per effettuare il test di permutazione è la macro %ArrayPerm (Pei et al., 2004) espressamente costruita per lo
sviluppo di test di permutazione con dati estratti da esperimenti di microarray. La macro consente di utilizzare varie procedure di
analisi dei dati. Nel caso semplice in esame in questo studio, pur non essendo indispensabile vista l’assenza di effetti casuali, è stata
53
Quaderni di Bioinformatica
comunque implementata la procedura mixed che darà gli stessi risultati che potrebbero essere ottenuti con la procedura glm. Si è
preferito usare la procedura mixed perché in questo modo la macro sarà facilmente applicabile a casi più complessi di analisi di dati
in cui è necessario introdurre effetti casuali.
%macro arrayperm(dataset=,
seed=,
nperm=,
odstable=,
teststat=,
pvalue=);
Data old (keep=array dye treatment res genename) New (keep=genename
res);
Set &dataset; output old;
Output new;
Proc sort data=old;
by genename; run;
ods listing close; run;
proc mixed data=old;
by genename;
class treatment;
model res=treatment;
Ods output &odstable=outold;
Run;
Ods listing;
Run;
Data count1 (keep=stold op count);
Set outold;
Stold=&teststat;
Op=&pvalue;
Count=0;
Output;
Data dseed;
nextseed=&seed;
%do i=1 %to &nperm;
data dperm (drop=nextseed) dseed (keep=nextseed);
retain seed1;
set dseed (in=inseed) new (in=indxa) end=last;
if inseed then seed1=nextseed;
if indxa then do;
call ranuni (seed1, rnd);
output dperm;
end;
if last then do;
nextseed=seed1;
output dseed;
end;
run; quit;
proc sort data=dperm;
by genename rnd;
run; quit;
data permdata;
merge old dperm;
by genename;
run; quit;
Proc sort data=permdata;
54
Quaderni di Bioinformatica
by genename; run;
ods listing close; run;
proc mixed data=permdata;
by genename;
class treatment;
model res=treatment;
Ods output &odstable=outperm;
Run;
Ods listing;
Run;
Data outperm;
set outperm;
stperm=&teststat;
output;
Data count1 (keep=stold op count genename);
Merge count1 outperm;
If stperm>=stold then count=count+1;
Run; quit;
%end;
Data fin;
Set count1;
Pvalue=(count)/(&nperm);
Run; quit;
%mend arrayperm;
Una volta sottomessa la macro, occorre lanciare il seguente programma di SAS che rappresenta l’interfaccia della macro con
l’utente:
(1) %arrayperm
(2) (dataset=rfi,
(3) seed=436,
(4) nperm=1000,
(5) odstable=tests3,
(6) teststat=fvalue,
(7) pvalue=probf);
La riga (1) richiama la macro, mentre le altre rappresentano gli imputs della macro. La riga (2) individua il file su cui lavorare;
la riga (3) indica il seme per la generazione dei numeri casuali, mentre la riga (4) fissa il numero di permutazioni da effettuare; le righe
(5) (6) e (7) indicano quale file di output (tests3) debba essere generato dalla procedura mixed e le relative variabili di interesse Fvalue (fvalue) e p-value (probf).
Output della macro è un data set (fin) che contiene alcune variabili non utili: solo le colonne pvalue e genename saranno
ritenute. Il file è quindi ordinato per genename e unito al file expressed che contiene i geni espressi conosciuti a priori. Questo nuovo
file è chiamato finalperm:
data fin;
set fin;
keep genename pvalue;
run;
proc sort data=fin;
by genename;
run;
data finalperm;
merge expressed fin;
by genename;
55
Quaderni di Bioinformatica
run;
Per individuare i geni espressi basta ora ordinare il data set per p-value e ritenere solo i geni che hanno un p-value <0.05:
proc sort data=finalperm;
by pvalue;
run;
data finalperm;
set finalperm;
if pvalue>=0.05 then delete;
run;
proc sort data=finalperm;
by regulated;
run;
I geni realmente espressi sono 624 mentre noi ne otteniamo 654, con solo 3 falsi negativi.
4. ANALISI DI UN SET DI DATI REALI
I dati usati in questa sezione provengono da un esperimento condotto negli USA presso il Dipartimento di Scienze Animali e
Veterinarie della Idaho State University. In questo esperimento furono coinvolte 4 vacche di razza Holstein (indicate con le lettere A,
B, C e D) in lattazione a cui fu somministrata, a livello mammario, una dose di somatotropina (bST). È ampiamente provato che la
somministrazione di questo ormone a vacche in
Piano1
lattazione provoca un aumento della produzione di
Rosso
Verde
latte di circa il 10-15%, se viene ripetuta con
Array
Vacca
Giorno
Vacca
Giorno
regolarità. La produzione di latte aumenta già il
1
A
-5
vs.
B
-2
giorno successivo alla somministrazione e
2
A
-2
vs.
C
-5
raggiunge il massimo nel giro di una settimana.
3
D
-5
vs.
A
6
Mentre a livello fisiologico e metabolico gli effetti
4
D
6
vs.
B
-5
della somministrazione di bST sono stati
5
C
-2
vs.
A
1
ampiamente studiati, si sa poco e nulla su quali
6
C
1
vs.
D
-2
siano i meccanismi che regolano l’azione della bST
7
B
1
vs.
C
6
a livello genetico. Scopo dell’esperimento è studiare
8
B
6
vs.
D
1
il profilo di espressione dei geni nel tessuto
Piano 2
mammario prima e dopo la somministrazione di
bST. A tale scopo sono stati usati 16 microarrays ad
9
D
-5
vs.
C
-2
alta densità prodotti dal National Bovine Functional
10
D
-2
vs.
A
-5
Genomics Consortium (Suchyta et al., 2003)..
11
B
-5
vs.
D
6
12
B
6
vs.
C
-5
Tabella 1: disegno sperimentale dell’esperimento
13
A
-2
vs.
D
1
con la bST che utilizza 16 microarry e 4 vacche
14
A
1
vs.
B
-2
15
C
1
vs.
A
6
16
C
6
vs.
B
1
Nella seconda fase furono prodotti altri 8 array secondo il piano 2 della tabella 1. Il disegno sperimentale appartiene alla famiglia dei
disegni a loop chiuso con dye-swap, come riassunto in figura 3 che illustra la prima fase dell’esperimento.
Furono raccolti, mediante biopsia in vivo, campioni di tessuto mammario in 4 tempi diversi (time points): cinque (-5) e due (-2) giorni
prima della somministrazione della bST, uno (1) e sei (6) giorni dopo. In una prima fase dell’esperimento, furono prodotti 8 array in
ognuno dei quali fu confrontato l’RNA di due vacche secondo il piano 1 della tabella 1, Gli array furono scannerizzati mediante uno
scanner a due laser (Model GenePix 400, Axon Instruments, Union City, CA, USA) e per l’acquisizione e l’elaborazione delle
immagini fu usato il software GenePix Pro 3.0. L’output finale dell’esperimento consiste in una grande quantità di informazioni che si
riferiscono alla posizione degli spot sull’array, alle intensità di fluorescenza dei singoli spot, alle caratteristiche degli spot.
56
Quaderni di Bioinformatica
Le variabili utili per l’analisi statistica, rinominate in accordo con la nomenclatura usata nella prima parte di questa guida,
sono: genename, che rappresenta l’identificativo del gene; rawmeanA, rawmeanB, rawmedianA and rawmedianB che sono le
intensità media e mediana dei singoli spot (detta anche intensità di foreground) nei canali A e B. Il data set di base, su cui saranno
effettuate le analisi statistiche è costituito da 16 file di testo (con estensione txt) chiamati slide1, ……., slide16 disponibili, a richiesta,
dagli autori.
-5
D
Figure 3: loop experimental design of bST experiment that
used the cDNA bovine microarray (arrows in the graph) to
detect changes in gene expression caused by bST
treatment in mammary gland tissue. -5, -2, 1 and 6 are the
days before (negatives) and after (positives) bST
administration; A, B, C and D are the cows involved in the
experiment.
C
B A
A
A
B
6
D
-2
C
B
C
B
D
Come nella prima parte di questa guida, dopo aver
importato i file slide1, ……., slide16, ad ognuno di essi è
aggiunta una colonna ‘array’ con il numero identificativo
dell’array (1,….,16). I file sono poi appesi uno sotto l’altro
fino ad ottenere un unico data set denominato complete
che contiene 292208 righe (18263 spot per 16 array) e 10
colonne.
D
A
1
C
4.1 Controllo di qualità degli spot
Il controllo di qualità degli spot è effettuato utilizzando la tecnica proposta da Tran et al. (2002). Il ragionamento su cui si basa
questo metodo è frutto di lunghe osservazioni degli spot da cui è emerso che le intensità medie e mediane di fluorescenza sono
praticamente le stesse se lo spot è di buona qualità, mentre spot irregolari producono falsi segnali che si traducono in forti differenze
tra le due intensità. Questa proprietà suggerisce che la correlazione tra le intensità medie e mediane possa essere usata come un
indice della presenza di spot di scarsa qualità, senza andare direttamente a vedere la forma del singolo spot. Per fare ciò si può
usare il seguente programma di SAS:
(1) proc corr data=complete;
var rawmedianA rawmeanA rawmedianB rawmeanB;
run;
(2) data graphbefore;
set complete;
if rawmedianA>3000 then delete;
if rawmedianB>3000 then delete;
if rawmeanA>3000 then delete;
if rawmeanB>3000 then delete;
run;
(3) proc gplot data=graphbefore;
plot rawmedianA*rawmeanA rawmedianB*rawmeanB;
run;
quit;
(4) data complete;
set complete;
if rawmedianA>rawmeanA then ratioA=rawmeanA/rawmedianA;
else ratioA=rawmedianA/rawmeanA;
if rawmedianB>rawmeanB then ratioB=rawmeanB/rawmedianB;
else ratioB=rawmedianB/rawmeanB
run;
(5) data complete;
57
Quaderni di Bioinformatica
set complete;
if ratioA <0.80 then delete; if ratioB <0.80 then delete;
run;
(1a) proc corr data=complete;
var rawmedianA rawmeanA rawmedianB rawmeanB;
run;
(2a) data graphafter;
set complete;
if rawmedianA>3000 then delete;
if rawmedianB>3000 then delete;
if rawmeanA>3000 then delete;
if rawmeanB>3000 then delete;
run;
(3a) proc gplot data=graphafter;
plot rawmedianA*rawmeanA rawmedianB*rawmeanB;
run;
quit;
Il controllo di qualità è effettuato calcolando, (1) mediante la procedura corr, le correlazioni fra le intensità media e mediana
prima di applicare il metodo di correzione (tabella 2). Poi, (2) è generato il data set graphbefore su cui verranno fatti i grafici. Per
evitare che i grafici siano troppo schiacciati, gli spot con intensità maggiore di 3000 sono eliminati e (3) sono generati i grafici di figura
4a. Come si vede dalla tabella 2, le correlazioni sono minori del 95% e i dati presentano una forte dispersione (figura 4a). Il metodo di
Tran et al. si sviluppa (4) calcolando il rapporto, in ogni spot, tra le intensità medie e mediane in entrambi i canali. Tali rapporti sono
effettuati mettendo al numeratore l’intensità minore tra quella media e quella mediana. Gli spot (5) che presentano un valore di tale
rapporto minore di 0,8 sono eliminati. Dopo la correzione, le correlazioni (1a) sono ricalcolate (tabella 2) e vengono rifatti (2a) (3a) i
grafici (figura 4b). Alla fine della procedura, rimangono 235.054 spot con segnale di buona qualità e con un coefficiente di
correlazione tra le intensità di fluorescenza medie e mediane del 99,6%. In definitiva, il metodo di Tran et al. etichetta come spot di
bassa qualità circa il 20% degli spot.
Tabella 2. Correlazioni tra l’intensità media e mediana degli spot, per I canali A e B, prima e dopo la correzione con il metodo di Tran
et al.,
Prima
Dopo
rawmeanA
rawmeanB
rawmeanA
rawmeanB
rawmedianA
85.3 %
99.6 %
rawmedianB
94.5 %
99.6 %
58
Quaderni di Bioinformatica
a
a
b
b
Figura 4: intensità di fluorescenza media vs. intensità di fluorescenza mediana per l’array 1 a) prima e b) dopo il controllo di qualità.
4.2 La normalizzazione dei dati
Il file complete contiene sia le intensità di fluorescenza media che quella mediana di ogni singolo spot in entrambi i canali.
Queste informazioni non sono ridondanti ma, anzi, consentono di ottenere risultati più affidabili. Le analisi successive saranno infatti
condotte, separatamente, per l’intensità media e per quella mediana e, alla fine, i risultati ottenuti saranno confrontati. Per ottimizzare
i calcoli, l’analisi statistica sarà prima condotta per l’intensità mediana, poi, con alcuni semplici passi di data, l’analisi sarà condotta
per l’intensità media, come indicato nel programma SAS seguente:
(I) data complete;
set complete;
n+1;
run;
(II) data work;
set complete;
keep n array genename rawmedianA rawmedianB;
run;
(I) Innanzi tutto al file complete è aggiunta una nuova colonna in modo da etichettare ogni riga con un numero; (II) vengono
poi selezionate, in un nuovo data set chiamato work, le variabili che saranno usate durante la procedura. Nella prima fase, le variabili
selezionate saranno quelle relative all’intensità mediana. Dopo aver svolto tutte le analisi che seguiranno, la procedura potrà essere
ripetuta per l’intensità media semplicemente sostituendo il passo di data (II) con i seguenti:
(III) data work;
set complete;
keep n array genename rawmeanA rawmeanB;
run;
(IV) data work;
set work;
59
Quaderni di Bioinformatica
rename rawmeanA=rawmedianA;
rename rawmeanB=rawmedianB;
run;
Con i comandi (III) sono selezionate le variabili che riguardano l’intensità media, mentre con i comandi (IV) le intensità medie
sono rinominate come mediane.
Allora, nel primo round di calcoli saranno utilizzati (I) e (II) a cui seguiranno i seguenti passi di data :
(1)data work;
set work;
rename rawmedianA=G rawmedianB=R;
run;
(2) data work;
set work;
logG=log2(G);
logR=log2(R);
run;
(3) data work;
set work;
M=logR-logG;
A=(logG+logR)/2;
run;
proc sort data=work;
by array;
run;
(4) proc gplot data=work;
plot M*A;
by array;
run;
quit;
Come fatto nella sezione 3.1 di questa guida, (1) le intensità di foreground sono rinominate G (verde) e R (rosso) e (2)
trasformate mediante trasformazione logaritmica in base 2. Poi, (3) vengono create le variabili M ed A e i grafici (4) M vs. A. Nella
figura 5a sono mostrati i grafici M-A per i primi due array.
Figura 5: grafici M-A per gli array 1 e 2 (a) prima e
(b) dopo la normalizzazione lowess
Dall’osservazione dei grafici risulta evidente il forte
sbilanciamento tra i canali R e G. Nell’array 1 alle
basse intensità, il logaritmo del rapporto R/G è
completamente spostato verso il canale G, mentre
alle alte intensità prevale il canale R. Nell’array 2 il
logaritmo del rapporto è invertito. Questo effetto
viene corretto mediante la regressione lowess:
(1) proc loess data=work;
ods output outputstatistics=out;
model M=A /select=aicc;
by array;
run;
quit;
Array 1
a
M
3
M
1
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
Array 1
b
ar ray=1
ar ray=1
-3
6
7
8
9
10
11
12
6
13
7
8
9
Array 2
a
M
5
10
11
12
13
10
11
12
13
A1
A
Array 2
b
ar r ay=2
M
1
4
4
3
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
ar ray=2
-4
-4
-5
6
7
8
9
10
A
(2) data out;
set out;
60
11
12
13
6
7
8
9
A1
Quaderni di Bioinformatica
Mstar=depvar-pred;
run;
data out;
set out;
logstarG=A+Mstar/2; logstarR=A-Mstar/2;
run;
(3) data out;
set out;
M1=logstarR-logstarG;
A1=(logstarG+logstarR)/2;
run;
(4) proc gplot data=out;
plot M1*A1;
by array;
run;
quit;
In (1) è invocata la procedura loess che consente di sviluppare la regressione lowess, di M su A, che produce il file out da cui
(2) sono estratte le intensità corrette (logstarR and logstarG). Poi, con i passi di data (3) e (4) sono disegnati i grafici M-A (figura 5b)
usando le intensità corrette. Confrontando le figure 5a e 5b risulta evidente l’efficacia della correzione lowess: rispetto alla linea
orizzontale, che rappresenta logaritmo del rapporto uguale a zero (che equivale a R/G=1, intensità uguale nei due canali), gli spot
sono abbastanza simmetricamente distribuiti sopra e sotto.
I data set out e work sono adesso uniti in modo da ottenere un unico file, norm, da cui sono ritenute solo le variabili che
rivestono un interesse per i calcoli successivi:
data out;
set out;
keep array logstarG logstarR;
run;
data norm;
merge work out;
by array;
run;
A questo punto, i dati devono essere corretti per l’effetto del colore e dell’array per cui il file norm è manipolato in modo tale
che possa essere applicato il modello ANOVA di correzione. A tale scopo verranno utilizzati gli stessi passi di data illustrati nella
prima parte di questa guida riguardante i dati simulati:
data G;
set norm;
keep genename array logstarG;
run;
data R;
set norm;
keep genename array logstarR;
run;
data G;
set G;
dye='G';
rename logstarG=intensity;
run;
data R;
set R;
dye='R';
rename logstarR=intensity;
run;
61
Quaderni di Bioinformatica
data G;
set G;
if array=1 then treatment=-2;
if array=2 then treatment=-5;
if array=3 then treatment=6;
if array=4 then treatment=-5;
if array=5 then treatment=1;
if array=6 then treatment=-2;
if array=7 then treatment=6;
if array=8 then treatment=1;
if array=9 then treatment=-2;
if array=10 then treatment=-5;
if array=11 then treatment=6;
if array=12 then treatment=-5;
if array=13 then treatment=1;
if array=14 then treatment=-2;
if array=15 then treatment=6;
if array=16 then treatment=1;
run;
data R;
set R;
if array=1 then treatment=-5;
if array=2 then treatment=-2;
if array=3 then treatment=-5;
if array=4 then treatment=6;
if array=5 then treatment=-2;
if array=6 then treatment=1;
if array=7 then treatment=1;
if array=8 then treatment=6;
if array=9 then treatment=-5;
if array=10 then treatment=-2;
if array=11 then treatment=-5;
if array=12 then treatment=6;
if array=13 then treatment=-2;
if array=14 then treatment=1;
if array=15 then treatment=1;
if array=16 then treatment=6;
run;
proc append base=G data=R;
run;
data micro;
set G;
run;
La correzione per il colore e l’array è ottenuta utilizzando la procedura glm
proc glm data=micro;
class array dye;
model intensity=dye array array*dye;
output out=rfimedian r=res;
run;
quit;
proc sort data=rfimedian;
by genename;
62
Quaderni di Bioinformatica
run;
data rfimedian;
set rfimedian;
keep genename array treatment dye res;
run;
Il file rfimedian contiene i residui del modello lineare. Questi residui costituiscono i dati finali, completamente normalizzati.
Siccome questi ultimi calcoli richiedono un tempo macchina non indifferente, è meglio salvare il file rfimedian esportandolo come file
di SAS in una cartella median results precedentemente creata sul desktop all’interno di un’altra chiamata somatotropin:
data 'C:\Documents and Settings\somatotropin\median
results\rfimedian.sas7bdat';
set rfimedian;
run;
4.3 Individuazione dei geni diversamente espressi
L’esperimento considerato si sviluppa attraverso quattro time points: due prima (-5 e -2 giorni) e due dopo (1 e 6 giorni) la
somministrazione della bST. Scopo dell’esperimento è l’individuazione dei geni che si esprimono diversamente a breve termine, 1
giorno dopo la somministrazione, e a lungo termine, 6 giorni dopo. L’analisi statistica dovrà quindi confrontare nel primo caso i time
points -5 e 1, mentre nel secondo caso, i time points -5 e 6. I due time points prima della somministrazione della bST (-5 e -2)
saranno utilizzati per selezionare i geni che si esprimono diversamente a prescindere dall’effetto della bST. Questi geni saranno
eliminati dalle successive elaborazioni perché considerati falsi positivi.
Analogamente a quanto fatto nella prima parte di questa guida, i geni diversamente espressi sono individuati utilizzando un
modello lineare applicato ad ogni singolo gene che, in questo caso, contiene oltre che effetti fissi, anche effetti casuali:
rijk = µ + Ti + D j + A k + γ ijk
dove rijk sono le intensità di fluorescenza normalizzate (res) contenute nel file rfimedian, µ è la media globale, Ti è l’effetto
fisso del tempo (-5, -2, 1 e 6), Dj è l’effetto fisso del colore, Ak è l’effetto casuale dell’array. Il colore è stato inserito nel modello per
tenere conto del fatto che i due colori (R e G) potrebbero essere incorporati dal singolo gene con una efficienza diversa, mentre il
termine array controlla la variabilità tra i 16 microarray. Poiché sono studiati più di 18000 geni contemporaneamente, le significatività
degli effetti devono essere fissate tenendo conto degli errori che si commettono quando sono svolti così tanti test statistici
contemporaneamente (multiple testing error rate). Come nella prima parte di questa guida, la probabilità di errore è controllata
utilizzando un test di permutazioni implementato nella macro arrayperm che è parzialmente modificata per tenere conto che il fattore
da analizzare è a più livelli (i 4 time points). In particolare, il file di output, tests3, della proc mixed è sostituito con il file diff che
consente di elencare tutti i contrasti tra i singoli time points. Di seguito è riportata la macro utilizzata:
ods exclude all;
ods noresults;
proc printto log="c:\sas.log" print="C:\log.out";
run;
%macro arrayperm(dataset=,
seed=,
nperm=,
odstable=,
teststat=,
pvalue=);
Data old (keep=array dye treatment res genename) New (keep=genename res);
Set &dataset; output old;
Output new;
Proc sort data=old;
by genename; run;
ods listing close; run;
proc mixed data=old;
by genename;
class treatment dye array;
model res=treatment dye;
random array;
63
Quaderni di Bioinformatica
lsmeans treatment/pdiff;
Ods output &odstable=outold;
Run;
Ods listing;
Run;
Data count1 (keep=stold op count treat treatt);
Set outold;
Stold=&teststat;
Op=&pvalue;
Count=0;
treat=treatment;
treatt=_treatment;
Output;
Data dseed;
nextseed=&seed;
%do i=1 %to &nperm;
data dperm (drop=nextseed) dseed (keep=nextseed);
retain seed1;
set dseed (in=inseed) new (in=indxa) end=last;
if inseed then seed1=nextseed;
if indxa then do;
call ranuni (seed1, rnd);
output dperm;
end;
if last then do;
nextseed=seed1;
output dseed;
end;
run; quit;
proc sort data=dperm;
by genename rnd;
run; quit;
data permdata;
merge old dperm;
by genename;
run; quit;
Proc sort data=permdata;
by genename; run;
ods listing close; run;
proc mixed data=permdata;
by genename;
class dye treatment array;
model res=dye treatment;
random array;
lsmeans treatment/pdiff;
Ods output &odstable=outperm;
Run;
Ods listing;
Run;
Data outperm;
set outperm;
stperm=&teststat;
output;
Data count1 (keep=stold op count genename treat treatt);
Merge count1 outperm;
If stperm>=stold then count=count+1;
64
Quaderni di Bioinformatica
Run; quit;
%end;
Data perm;
Set count1;
Pvalue=(count)/(&nperm);
Run; quit;
%mend arrayperm;
L’interfaccia utente della macro è:
%arrayperm
(dataset=rfimedian,
seed=642,
nperm=1000,
odstable=diffs,
teststat=tvalue,
pvalue=probt);
Il data set di output (perm) contiene diverse colonne inutili per cui solo le variabili genename, pvalue, treat e treatt sono
ritenute:
data perm;
set perm;
keep genename pvalue treat treatt;
run;
Le colonne treat e treatt contengono i contrasti tra i quattro livelli del fattore tempo. I passi di data che seguono permettono di
ottenere tre file, uno per ogni contrasto a cui siamo interessati:
data fin52;
set perm;
if treat=-5 and treatt=1 then delete;
if treat=-5 and treatt=6 then delete;
if treat=-2 and treatt=1 then delete;
if treat=-2 and treatt=6 then delete;
if treat=1 and treatt=6 then delete;
run;
data fin51;
set perm;
if treat=-5 and treatt=-2 then delete;
if treat=-5 and treatt=6 then delete;
if treat=-2 and treatt=1 then delete;
if treat=-2 and treatt=6 then delete;
if treat=1 and treatt=6 then delete;
run;
data fin56;
set perm;
if treat=-5 and treatt=-2 then delete;
if treat=-5 and treatt=1 then delete;
if treat=-2 and treatt=1 then delete;
if treat=-2 and treatt=6 then delete;
if treat=1 and treatt=6 then delete;
run;
Il file fin52 contiene le differenze di espressione dei geni prima della somministrazione della bST (-5 vs. -2). I geni che hanno
un p-value<0.05 sono considerati falsi positivi e sono eliminati dai file fin51 e fin56 in modo da ottenere, alla fine, solo i geni che
effettivamente si esprimono diversamente a breve e a lungo temine rispetto alla somministrazione di bST:
65
Quaderni di Bioinformatica
(1) data fin52;
set fin52;
keep genename pvalue;
run;
(2) data fin52;
set fin52;
if pvalue='.' then delete;
if pvalue>=0.05 then delete;
run;
(3) data fin52;
set fin52;
rename pvalue=pvalue52;
run;
(4) proc sort data=fin52;
by genename;
run;
(1) data fin51;
set fin51;
keep genename pvalue;
run;
(2) data fin51;
set fin51;
if pvalue='.' then delete;
if pvalue>=0.05 then delete;
run;
(3) data fin51;
set fin51;
rename pvalue=pvalue51;
run;
(4) proc sort data=fin51;
by genename;
run;
(5) data expres51;
merge fin51 fin52;
by genename;
run;
(6) data expres51;
set expres51;
if pvalue51='.' then delete;
if pvalue52>=0 then delete;
run;
(7) data expres51;
set expres51;
drop pvalue52;
run;
(8) proc sort data=expres51;
by genename;
run;
(1) data fin56;
set fin56;
keep genename pvalue;
run;
(2) data fin56;
set fin56;
66
Quaderni di Bioinformatica
if pvalue='.' then delete;
if pvalue>=0.05 then delete;
run;
(3) data fin56;
set fin56;
rename pvalue=pvalue56;
run;
(4) proc sort data=fin56;
by genename;
run;
(5) data expres56;
merge fin56 fin52;
by genename;
run;
(6) data expres56;
set expres56;
if pvalue56='.' then delete;
if pvalue52>=0 then delete;
run;
(7) data expres56;
set expres56;
drop pvalue52;
run;
(8) proc sort data=expres56;
by genename;
run;
(9) data medianexpres51;
set expres51;
run;
data medianexpres56;
set expres56;
run;
Con i passi di data (1) nei file considerati vengono ritenute solo le variabili utili e (2) sono poi selezionati i geni che si
esprimono diversamente (p-value<0.05). Quindi, (3) la colonna pvalue è rinomnata e (4) i file sono ordinati per genename. (5) Il file
fin52 è unito sia al file fin51 che al file fin56 in modo da ottenere i file expres51 e express56, rispettivamente. (6) I geni che si
esprimevano nel file fin52 sono sottratti, (7) le colonne inutili eliminate, (8) i file expres51 e expres56 sono ordinati per genename e
(9) rinominati medianexpres51 e medianexpres56. Siccome i calcoli per ottenere questi due file richiedono molto tempo macchina, è
utile salvare i file medianexpres51 e medianexpres56 come file di SAS in modo da poter essere richiamati facilmente:
data 'C:\Documents and Settings\somatotropin\median results\medianexpres51.sas7bdat';
set medianexpres51;
run;
data 'C:\Documents and Settings\somatotropin\median results\medianexpres56.sas7bdat';
set medianexpres56;
run;
Salvare quindi il “program editor” di SAS con il nome “median” e chiudere il programma.
A questo punto tutti i calcoli fin qui effettuati saranno svolti nuovamente utilizzando l’intensità media. Questo sarà fatto
semplicemente aprendo il program editor median e ripetendo tutti i passi di data considerando però l’intensità media come descritto
all’inizio della sezione 4.1. Alla fine della procedura, i file rfimedian, expres51 e expres56 saranno rinominati rfimean, meanexpres51
e meanexpres56 e salvati in una cartella chiamata mean results:
data 'C:\Documents and Settings\somatotropin\mean results\rfimean.sas7bdat';
set rfi;
run;
67
Quaderni di Bioinformatica
data 'C:\Documents and Settings\somatotropin\mean results\meanexpres51.sas7bdat';
set meanexpres51;
run;
data 'C:\Documents and Settings\somatotropin\mean results\meanexpres56.sas7bdat';
set meanexpres56;
run;
Salvare quindi il program editor con il nome “mean” e chiudere il SAS.
Aprire poi una nuova sessione del SAS e importare i data set che contengono i geni diversamente espressi ordinandoli per
genename:
data meanexpres51;
set 'C:\Documents and Settings\somatotropin\meanexpres51.sas7bdat';
run;
data meanexpres56;
set 'C:\Documents and Settings\ somatotropin\meanexpres56.sas7bdat';
run;
data medianexpres51;
set 'C:\Documents and Settings\ somatotropin\medianexpres51.sas7bdat';
run;
data medianexpres56;
set 'C:\Documents and Settings\ somatotropin\medianexpres56.sas7bdat';
run;
proc sort data=meanexpres51;
by genename;
run;
proc sort data=meanexpres56;
by genename;
run;
proc sort data=medianexpres51;
by genename;
run;
proc sort data=medianexpres56;
by genename;
run;
Definiamo “top fra i geni espressi” i geni che si esprimono sia per l’intensità mediana che per l’intensità media. Questi geni
sono quelli che hanno la maggiore probabilità di non essere dei falsi positive. Per selezionarli possono essere utilizzati i seguenti
passi di data:
(1) data meanexpres51;
set meanxpres51;
rename pvalue51=meanpvalue51;
run;
(2) data fin51;
merge meanexpres51 medianexresp51;
by genename;
run;
(3) data fin51;
set fin51;
if meanpvalue51='.' then delete;
if pvalue51='.' then delete;
run;
(1) data medianexpres56;
set medianexpres56;
rename pvalue56=meanpvalue56;
68
Quaderni di Bioinformatica
run;
(2) data fin56;
merge meanexpres56 medianexpres56;
by genename;
run;
(3) data fin56; (1) La colonna pvalue51 (pvalue56) è rinominata meanpvalue51 (meanpvalue56) e (2) i file con le intensità
media e mediana sono fusi per ottenere il file fin51 (fin56) e, alla fine, (3) sono selezionati i geni che si ritrovano sia per l’intensità
media che per quella mediana.
La tabella 3 mostra il numero di geni che si esprimono sia per l’intensità media che per quella mediana nei confronti -5 vs. 1 e
-5 vs. 6. Questi geni sono i “top fra i geni espressi” in relazione alla somministrazione di bST e saranno i soli ad essere usati nelle
successive analisi.
set fin56;
if meanpvalue56='.' then delete;
if pvalue56='.' then delete;
run;
Tabella 3. numero di geni che si esprimono per l’intensità media e per quella mediana nei confronti -5 vs. 1 e -5 vs. 6 e numero di
geni che si esprimono simultaneamente nelle due intensità.
Confronti
Geni diversamente espressi
Intensità mediana
Intensità media
Intensità media e mediana
(geni top espressi)
-5 vs. 1
496
464
129
-5 vs. 6
968
979
282
I seguenti passi di data, consentono di identificare i geni che si esprimono solamente nel confronto -5 vs. 1, solo in -5 vs. 6 e,
infine, i geni che si esprimono in entrambi i confronti:
(1) data fin51;
set fin51;
keep genename pvalue51;
run;
data fin56;
set fin56;
keep genename pvalue56;
run;
data fin5156;
merge fin51 fin56;
by genename;
run;
(2) data only51;
set fin5156;
if pvalue56>=0 then delete;
run;
(3) data only56;
set fin5156;
if pvalue51>=0 then delete;
run;
(4) data both5156;
set fin5156;
if pvalue51='.' then delete;
if pvalue56='.' then delete;
run;
69
Quaderni di Bioinformatica
(1) è generato un file, chiamato fin5156, che contiene i geni che si esprimono in entrambi i confronti. Con i passi (2) e (3) sono
ottenuti due file, only51 e only56, che contengono i geni che si esprimono solo nei confronti -5 vs. 1 e -5 vs. 6, rispettivamente. Poi,
(4) è generato il file both5156 che contiene i geni che si esprimono sia in -5 vs. 1 che in -5 vs. 6. Il risultato è che 85 geni si esprimono
solo a breve termine, 238 a lungo termine (-5 vs. 6) e 44 sia a breve che a lungo termine.
4.4 Clusterizzazione dei geni che si esprimono diversamente
Una volta individuati i geni che si esprimono diversamente, il passo successivo è quello di tentare di raggrupparli a seconda
del loro profilo di espressione. Questo consente di individuare pool di geni che si esprimono allo stesso modo e che quindi
contribuiscono alla determinazione del fenomeno in esame. In questa guida, a tale scopo, è usato il metodo di clusterizzazione statico
sviluppato per via gerarchica. Per poter effettuare la clusterizzazione, il software SAS richiede che il data set sia sistemato come in
tabella 4. Per ottenere ciò, è necessario effettuare tutta una serie di passaggi.
Tabella 4: sistemazione finale del data set affinchè possa essere applicata la procedura di clusterizzazione.
Nome gene
Giorni
Giorni
Giorni
Giorni
NBFGC
-5
-2
1
6
AW355130
-1.66
-2.47
0.03
-0.15
AW428151
-0.56
-1.24
-0.69
0.28
AW656367
-2.76
-1.03
-2.73
-2.75
AW669466
1.48
1.01
0.73
2.35
BE481095
2.63
5.69
0.53
0.41
BE481675
0.37
0.47
-0.71
-1.50
BE484690
4.13
3.00
4.18
1.54
BG691610
5.08
3.65
4.88
2.50
BG691611
2.49
2.07
3.38
4.26
L’analisi dei cluster sarà sviluppata usando l’intensità di fluorescenza mediana. A tale scopo, in una nuova sessione del SAS,
è richiamato il file rfimedian che contiene i le intensità mediane normalizzate:
data rfimedian;
set 'C:\Documents and Settings\somatotropin\mean results\rfimean.sas7bdat';
run;
Usando la procedura mixed, sono calcolate le intensità medie di ogni gene in ognuno dei momenti considerati. Alla fine viene
creato un file di output chiamato means:
ods exclude all;
ods noresults;
proc mixed data=rfi;
by genename;
class array dye treatment;
model res=treatment dye;
random array;
lsmeans treatment/ pdiff;
ods output lsmeans=means;
run;
Nel file means sono ritenute solo le variabili utili:
data means;
set means;
keep genename treatment estimate;
run;
70
Quaderni di Bioinformatica
Per ottenere il data set come illustrato nella tabella 4, il file the means è trasposto secondo genename usando la procedura
transpose del SAS e il file trasposto è chiamato cluster:
proc transpose data=means out=cluster;
by genename;
run;
I passi di data che seguono consentono di rinominare le colonne che contengono le intensità e di ritenere solo le variabili utili:
data cluster;
set cluster;
if _name_='treatment' then delete;
rename col1=treat5;
rename col2=treat2;
rename col3=treat1;
rename col4=treat6;
run;
data cluster;
set cluster;
drop _name_ ;
run;
Poi, viene creato un nuovo data set chiamato cluster51 unendo assieme il file cluster e fin51:
data cluster51;
merge cluster fin51;
by genename;
run;
Il file cluster51 contiene la colonna pvalue51 con valori solo in corrispondenza dei geni diversamente espressi nel confronto 5 vs. 1. Con passi di data che seguono vengono ritenuti solo i geni espressi diversamente:
data cluster51;
set cluster51;
if pvalue51='.' then delete;
run;
data cluster51;
set cluster51;
drop pvalue51;
run;
Per ottenere risultati più facilmente interpretabili, è aggiunta una nuova colonna n (rinominata genes51), che assegna un
numero a ogni gene:
data cluster51;
set cluster51;
n+1;
rename n=genes51;
run;
La procedura cluster permette di raggruppare i geni (per maggiori dettagli vedere:
http://support.sas.com/documentation/cdl/en/statug/59654/HTML/default/cluster_toc.htm):
proc cluster data=cluster51 OUTTREE=tree method=average standard;
var treat5 treat1 treat6;
id genes51;
71
Quaderni di Bioinformatica
run;
2. 5
la procedure tree consente di ottenere il
dendrogramma finale (figura 6). Un dendrogramma simile
può essere creato per il contrasto -5 vs. 6.
proc tree data=tree ;
id genes51;
run;
Figure
6:
dendrogramma
relativo
clusterizzazione dei geni nel confronto -5 vs. 1
A
v
e
r
a
g
2. 0
e
D
i
s
t
a
n 1. 5
c
e
B
e
t
w 1. 0
e
e
n
alla
C
l
u 0. 5
s
t
e
r
s
0. 0
132589197383556817118165419111991111341274277123683811819739681161341613691275587614511621568459915114134248277111121311972445612
72084298 20829177117217902011571220170 31159284505312408 9 8612 0200666201611 44855320529793316044529343657061012918003208 6324
1
3 4
7 107 1398 2
27 4
92 6
5
6 5
3
6940 8 05
8
genes51
5. CONCLUSIONI
L’analisi dei dati di microarray è un processo che si sviluppa attraverso passi successivi in cui sono applicate sia tecniche di
analisi statistica sia di manipolazione matematica dei dati. Ad ogni step sono disponibili diversi approcci e metodologie e la scelta
delle più appropriate dipende sia dal disegno sperimentale che dal tipo di dati. Nella prima parte di questa guida sono stati analizzati
dati provenienti da un esperimento simulato, con un disegno sperimentale basato sul semplice confronto tra due diverse situazioni.
Essendo, in questo caso, i geni diversamente espressi conosciuti a priori, è stato possibile per gli autori testare alcune tra le tecniche
disponibili in letteratura e proporre in questa guida quelle che consentono di ottenere i risultati migliori in termini di geni espressi
correttamente individuati. Questa prima parte è anche servita per familiarizzare con il software SAS che, essendo un software
puramente statistico, necessita che sia appresa la logica e la tecnica di programmazione.
Nella seconda parte di questa guida è stata affrontata l’analisi dei dati provenienti da un esperimento reale applicando le
strategie di analisi scelte e testate nella prima parte della guida. L’esperimento reale si basa su un disegno molto più complesso del
precedente, per cui le tecniche di analisi sono state adeguatamente adattate e il programma SAS opportunamente modificato.
L’analisi si è conclusa con l’individuazione dei geni che si esprimono diversamente secondo i vari livelli del fattore tempo, ed è stato
proposto un abbozzo di clusterizzazione. A questo punto il lavoro dello statistico può ritenersi finito e subentra quello dei biologi
molecolari per l’interpretazione dei risultati.
Questa breve guida è stata prodotta sperando che sia di aiuto a coloro i quali, pur non essendo statistici di mestiere, sentono
comunque il bisogno di analizzare i dati non appena sono stati prodotti dai loro esperimenti. Questo può consentire da un lato di
soddisfare l’ovvia curiosità riguardo l’esito dell’esperimento, dall’altro di testare le procedure sperimentali seguite e, nel caso,
apportare le opportune correzioni.
RINGRAZIAMENTI
Questo lavoro è stato svolto con fondi del Ministero della Salute, Ricerca Finalizzata- Programma Straordinario 2006.
Gli Autori desiderano ringraziare la dr.ssa Silvia Sorbolini per la revisione di tutte le parti riguardanti la biologia molecolare.
Bibliografia citata
Alvine, J.C., Kemp, D.J., Stark, G.R., 1977. Method for detection of specific RNAs in agarose gels by transfer to
diazobenzyloxymethyl-paper and hybridization with DNA probes. Proc. Natl. Acad. Sci. Usa 74, 5350-5354.
Berk, A.J., Sharp, P.A., 1977. Sizing and mapping of early adenovirus mRNAs by gel electrophoresis of S1 endonuclease-digested
hybrids. Cell 12, 721-732
Chatterjee S and Price B. Regression Analysis by Example. Wiley New York (2nd ed.) 1991.
Chen Y, Dougherty ER, Bittner ML. 1997. Ratio-based decisions and the quantitative analysis of cDNA microarray images. J Biomed
Optics 1997; 2: 364-374.
Chi YY, Ibrahim JG, Bissahoyo A, Threadgill DW. Bayesian hierarchical modeling for time course microarray experiments. Biometrics
2007; 63: 496–504
Cleveland ES. Robust locally weighted regression and smoothing scatterplots. J Amer Stat Assoc 1979; 74: 829-836.
De Koning DJ, Jaffrezic F, Lund MS, et al. The EADGENE microarray data analysis workshop. Genet Sel Evol 2007; 39: 621-631
Dimauro C, Bacciu N, Macciotta NPP. Effect of normalization on detection of differentially expressed genes in cDNA microarray data
analysis. Ital J Anim Sci 2007; 6: 122-124
Dudoit S, Yang YH, Callow MJ, Speed TP. Statistical methods for identifying differentially expressed genes in replicated cDNA
microarray experiments. Statistica Sinica 2002; 12: 111-139
Duggan, D.J., Bittner, M., Chen, Y., Meltzer, P., and Trent, J.M., 1999. Expression profiling using cDNA microarrays. Nature Genetics
21, 20-14.
Fujita A, Sato JR, de Oliveira Rodrigues L, et al. Evaluating different methods of microarray data normalization. BMC Bioinformatics
2006; 7: 469
72
Quaderni di Bioinformatica
Leung YF and Cavalieri D. Fundamentals of cDNA microarray data analysis. Trends Genet 2003; 19: 645-659
Lee PD, Sladek R, Greenwood CM, Hudson TJ. 2002. Control genes and variability: absence of ubiquitous reference transcripts in
diverse mammalian expression studies. Genome Res 2002; 12: 292-297
Liang, P., Pardee, A.B., 1992. Differential display of eukaryotic messenger RNA by means of the polymerase chain reaction. Science
257, 967-961
Lockhart, D.J. et al., 1996. Expression monitoring by hybridization to high-density oligonucleotide arrays. Nature Genetics 21, 20-24
Phang TL, Neville MC, Rudolph M, Hunter L. Trajectory clustering: a non-parametric method for grouping gene expression time
courses with applications to mammary development. Pac Symp Biocomput 2993; 8: 351-362
Pei D, Liu W, Cheng C. %ArrayPerm: A SASff Macro for Permutation Analysis of Microarray Data. Paper CC06 2004 available at
http://www.lexjansen.com/pharmasug/2004/coderscorner/cc06.pdf
Peppel J, Kemmeren P, Bakel H, et al. Monitoring global messenger RNA changes in externally controlled microarray experiments.
EMBO Rep 2003; 4: 387-393
Pounds SB. Estimation and control of multiple testing error rates for microarray studies. Brief Bioinform 2006; 7: 25-36
Quackenbush J. Microarray data normalization and transformation. Nat Genet Suppl 2002; 32: 496-501
Rudolph CM, MacManaman JL, Hunter L, et al. Functional development of the mammary gland: use of expression profiling and
trajectory clustering to reveal changes in gene expression during pregnancy, lactation, and involution. J Mammary Gland Biol
Neoplasia 2003; 8 (2): 287- 307
Sebastiani P, Gussoni E, Kohane IS, Ramoni MF. Statistical challenges in functional genomics. Statistical Science 2003; 18 (1): 3370
Shannon W, Culverhouse R, Duncan J. Analyzing microarray data using cluster analysis. Pharmacogenomics 2003; 4(1): 41-51
Schena, M., Shalon, D., Davis, R. W., Brown, P.O., 1995. Quantitative monitoring of gene expression patterns with a complementary
DNA microarray. Science 270, 467-470.
Storey JD, Tibshirani R. Statistical significance for genomewide studies. Proc Nat Acad Sci USA 2003; 100: 9440-9445
Suchyta, S.P., Sipkovsky, S., Kruska, R., et al., 2003. Development and testing of a high-density cDNA microarray resource for cattle.
Physiol Genomics 15, 158-164
Tran PH, Peiffer DA, Shin Y, et al. Microarray optimizations: increasing spot accuracy and automated identification of true microarray
signals. Nucleic Acids Res 2002; 30, 12 e54.
Tseng GC, Oh MK, Rohlin L, et al. Issues in cDNA microarray analysis: quality filtering, channel normalization, models of variations
and assessment of gene effects. Nucleic Acids Res 2001; 29: 2549-2557.
Velculescu, V.E., Zhang, L., Vogelstein, B., Kinzler, K.W., 1995. Serial analysis of gene expression. Science 270, 484-487
Watson M, Perez-Alegre M, Baron MD, et al. Analysis of simulated microarray dataset: comparison of methods for data normalization
and detection of differential expression. Genet Sel Evol 2007; 39: 669-683
Wolfinger RD, Gibson G, Wolfinger ED, et al. Assessing gene significance from cDNA microarray expression data via mixed models.
J Comput Biol 2001; 8: 625-637
Yang YH, Buckley MJ, Dudoit S, Speed TP. Comparison of Methods for Image Analysis on cDNA Microarray Data. J Comput Graph
Stat 2002 a; 11: 108-136
Yang YH, Dudoit S, Luu P, et al. Normalization for cDNA microarray data: a robust composite method addressing single and multiple
slide systematic variation. Nucleic Acids Res 2002 b; 30: No 4 e 15
Zeng Y and Garcia-Frias J. A novel HMM-based clustering algorithm for the analysis of gene expression time-course data. Computat
Stat Data Anal 2006; 50: 2472 – 2494.
73
Quaderni di Bioinformatica
74
Quaderni di Bioinformatica
CHEMOINFORMATICS: INTRODUCTION
TO DATABASES AND TOOLS
Patricia Rodriguez-Tomè
Center for Advanced Studies,
Research and Development in Sardinia
Pula Cagliari
What is Chemoinformatics?
The International chemometrics Society (ICS) gives the following definition: "Chemometrics is the science of relating the
measurements made on a system or a chemical process system state through the application of mathematical or statistical." This is
chemiometry then a science that is based on using mathematical and statistical methods for solving multivariate problems. Other
definitions "chemometrics is the use of mathematical and statistical methods for handling, interpreting, and Predicting chemical date."
Malinowski, É.R. (1991) Factor Analysis in Chemistry, Second Edition. "The entire process whereby data (eg, numbers in a table) are
Transformed into information used for decision making." Beebe, K.R., Pell R.J., and M.B. Seasholtz. (1998) chemometrics: A Practical
Guide. "That chemometrics is disciplines in chemical uses mathematics, statistics and formal logic (a) to design or select optimal
experimental Procedures (b) to Provide maximum relevant chemical information by analyzing chemical data, and (c) to Obtain
knowledge about chemical systems. " Massart, D.L., et al. (1 997) Data Handling in Science and Technology 20A: Handbook of
chemometrics Qualimetrics andr Part A. "The Science of chemometrics Relating measurement is made on a chemical system or
Process to the state of the system via application of mathematical or statistical methods." “Chemoinformatics is the mixing of those
information resources to transform data into information and information into knowledge for the intended purpose of making better and
faster decisions in the area of drug lead identification and optimisation.” (from F.K. Brown Chapter 35. Chemioinformatics: What is it
and How does it Impact Drug Discovery. Annual Reports in Med. Chem., Ed. James A. Bristol, 1998, Vol. 33, pp. 375.)
Which can be described as “ chemoinformatics is the application of informatics methods to solve chemical problems”.
Although these methods were originally developed for data analysis in chemistry, they are now numerous employment opportunities
in other sectors of different nature. In the field of animal sciences, for example, variables that can be detected in animals that have a
given disease are numerous but not all are necessarily useful to describe the problem in question. There are many other fields of
inquiry that fall within the powers which may present problems of a multivariate, such as nutrition (the effect of a diet, for example, can
be evaluated by several physiological parameters, physical and chemical) or genetic (phylogenetic relationships between different
races can be investigated by examining the gene frequencies at certain loci). In all cases in which the variables are numerous and
sometimes correlated, the use of chemometric methods can help to provide an overview of the problem, highlighting the relationship
between the variables considered and the relative importance of each in 'context of a given problem, and may also highlight the
relationship between samples (in our case between animals) according to their distribution in multi-dimensional space described by all
the variables. These methods are widely used to solve numerous problems, such as:
-initial exploration of data;
-highlighting the existence of homogeneous groups of samples classified a priori (cluster analysis);
-formulation of mathematical models for quantitative prediction of responses (regression);
-formulation of mathematical models for the prediction of qualitative responses (classification).
What can informatics do for chemistry? for example, predict in silico the properties (physical, chemical and biological) of an unknown
chemical compound or ensemble of compounds, without doing the actual experiments. Informatics will assist by creating the tools and
data management systems. Data will be collected an organised. Tools will allow complex searches in these data. They will provide the
means to gather information and extract the knowledge.
Chemoinformatics and Bioinformatics?
What is the difference between chemoinformatics and bioinformatics ? A bioinformatician is mainly interested in genes and proteins.
But genes, DNA, RNA or proteins are chemical compounds, and chemists have had a long time interest in those compounds. HAve a
look at the Nobel Prices for chemistry - like "for the discovery and development of the green fluorescent protein, GFP" in 2008. The
frontier between bioinformatics and chemoinformatics is a fuzzy one.
Data and databases
Chemical Nomenclature:
Let’s take the example of the aspirin. It can be called by different names like:
75
Quaderni di Bioinformatica
IUPAC Name
2-acetyloxybenzoic acid
Canonical SMILES
CC(=O)OC1=CC=CC=C1C(=O)O
InChI
InChIKey
InChI=1S/C9H8O4/c1-6(10)13-8-5-3-2-4-7(8)9(11)12/h2-5H,1H3,(H,11,12)
BSYNRYMUTXBXSQ-UHFFFAOYSA-N
IUPAC Name
The IUPAC nomenclature of organic chemistry is a systematic method of naming organic chemical compounds as recommended by
the International Union of Pure and Applied Chemistry (IUPAC) [1]. The purpose is to reduce ambiguity - by having a one-to-one
relationship between name and structural formula. Ideally, every organic compound should have one and only one name from which
one (and only one) structural formula can be drawn. This purpose requires a system of principles and rules - implemented in the
IUPAC nomenclature.
SMILES
SMILES (Simplified Molecular Input Line Entry System) is a character notation for entering and representing molecules and reactions
[2]. SMILES is a language with a simple vocabulary (atom and bond symbols) and only a few grammar rules.
While there can be many SMILES representing the same molecule - for example, CCO, OCC and C(O)C all specify the structure of
ethanol depending on the order of the atoms- there are algorithms that will provide a unique representation of the molecule,
regardless of the atoms ordering (see Daylight Chemical Information Systems at http://www.daylight.com/, OpenEye Scientific
Software at http://www.eyesopen.com/ and Chemical Computing Group at http://www.chemcomp.com/). These unique SMILES called canonical SMILES are commonly used for indexing and ensuring uniqueness of molecules in a database.
Other Example of SMILES :
Ethanol
CCO
Acetic acid
CC(=O)O
Aspirin
CC(=O)Oc1ccccc1C(O)=O
We will describe in the tools section, software and web services that calculate a SMILES from a molecular structure, or design the
structure from a SMILES representation.
INCHI and INCHI key
The IUPAC International Chemical Identifier (InChI) [3] is a non-proprietary and textual identifier for chemical substances. It has been
designed to provide a standard an human readable way to encode molecular information and to facilitate the search for such
information. InChIs identifiers express more information on the molecule than the simpler SMILES. Each structure has a unique InChI
string, which is very important for the searches in databases. The InChIKey, is a fixed length (25 character) condensed digital
representation of the InChI that facilitate web searches for chemical compounds, searches that can be difficult in some web pages
with very long InChi names.
Databases
PubChem
PubChem [4] provides information on the biological activities of small molecules. It is a component of NIH's Molecular Libraries
Roadmap Initiative. PubChem includes substance information, compound structures, and BioActivity data in three primary databases,
Pcsubstance, Pccompound, and PCBioAssay, respectively.
Pcsubstance contains more than 62 million records.
Pccompound contains more than 26 million unique structures.
PCBioAssay contains more than 2000 BioAssays. Biological Assays [5] are a type of scientific experiment used in drug
developments, and conducted to measure the effects of a substance on a living organism. A bioassay will represent the
qualitative or quantitative results of an experiment involving a great number of molecules being tested for activity/toxicity
against a given target, such as a protein, or a cancer cell.
The Substance/Compound database, where possible, provides links to BioAssay description, literature, references, and assay data
points. The BioAssay database also includes links back to the Substance/Compound database. PubChem is integrated with Entrez,
76
Quaderni di Bioinformatica
NCBI's primary search engine, and also provides compound neighboring, sub/superstructure, similarity structure, BioActivity data, and
other searching features.PubChem contains BioAssay information from a multitude of depositors (taken from the PubChem web site.
URL: http://pubchem.ncbi.nlm.nih.gov/ ).
Pubchem main page: enter the name of the compound (here aspirin), and click GO.
The result page lists all entries with the name “aspirin” listed as name or synonym. Click on one of them to go to the specific page,
shown in the following to figures.
77
Quaderni di Bioinformatica
The Bioassay results sections lists the bioassays where the compound has been tested. Protein structures with links to the protein
database corresponding entries are also listed.
ChemSpider
ChemSpider is a chemistry search engine. It has been built with the intention of aggregating and indexing chemical structures and
their associated information into a single searchable repository and make it available to everybody, at no charge. The database is built
up from an aggregate of data from a series of publicly available data sources and from ChemSpider collaborators data (URL:
http://www.chemspider.com/)
Enter a name, SMILES and click on the search button. There are also advanced search. The result page links to many other sites and
related information options.
chEBI
Chemical Entities of Biological Interest (ChEBI) [7] is a freely available dictionary of molecular entities focused on small chemical
compounds. ChEBI incorporates an ontological classification, which specifies the relationships between molecular entities and their
78
Quaderni di Bioinformatica
parents and/or children. ChEBI release 67 (April 8, 2010) contains 548,850 entities.(URL: http://www.ebi.ac.uk/chebi/init.do). ChEBI
links to many databases.
chEMBL
ChEMBL [8] is a database of bioactive drug-like small molecules, it contains 2-Dstructures, calculated properties (e.g. logP, Molecular
Weight, Lipinski Parameters, etc.) and abstracted bioactivities (e.g. binding constants, pharmacology and ADMET data). We attempt
to normalize the bioactivities into a uniform set of end-points and units where possible, and also to tag the links between a molecular
target and a published assay with a set of varying confidence levels. The data is abstracted and curated from the primary scientific
literature, and cover a significant fraction of the SAR and discovery of modern drugs. (URL: http://www.ebi.ac.uk/chembldb/index.php)
Example of statistics of CHEMBL_03 from April 18, 2010.
Protein targets
4,436
Cell-line targets
1,198
Other targets(organisms, etc)
1696
Total targets
7,330
Total activities
2,490,742
Total compounds
640,809
Total publications
34,982
79
Quaderni di Bioinformatica
ChEMBL also uses the JME applet to draw a picture to use for the query.
The first result page lists all the molecules found in the database. Clicking on one of them will take you to the full results page.
Bioactivity data is also present in ChEMBL.
DrugBank
The DrugBank database [9] is a bioinformatics and chemoinformatics resource that combines detailed drug (i.e. chemical,
pharmacological and pharmaceutical) data withcomprehensive drug target (i.e. sequence, structure, and pathway) information. The
80
Quaderni di Bioinformatica
database contains nearly 4800 drug entries including >1,350 FDA-approved small molecule drugs, 123 FDA-approved biotech
(protein/peptide) drugs, 71 nutraceuticals and >3,243 experimental drugs. Additionally, more than 2,500 non-redundant protein (i.e.
drug target) sequences are linked to these FDA approved drug entries. (URL: http:// www.drugbank.ca/).
MMSINC: a database for virtual screening
MMsINC [10] is a database of compounds built for virtual screening and chemioinformatics applications. The database has been
developed in a collaboration between the University of Padova and CRS4 (Pula). MMsINC is a non-redundant and manually curated
database, integrated with other chemical and structural public databases (URL: http://mms.dsfarm.unipd.it/MMsINC/search/).
The interface uses the JME applet [11] to allow the user to draw the chemical structure.The SMILE can also be entered directly.
Different query types are available, with multiple options.
Clicking the search button will start the database search. The following figure shows the result of a substructure search.
81
Quaderni di Bioinformatica
Click on one entry, to retrieve the specific page.
MMsINC is cross-referenced to PDB, the Protein Data Bank, maintained by the RSCB at Rutgers University, USA. Similarities to PDB
ligand have been pre-calculated and inserted into MMsINC. The user can also search the ligands either by similarity, or by PDB ID.
Tools
Molecular editors
A molecular editor is a graphic program to create and modify the chemical structures representations. There are standalone programs
(commercial or open source) that can be installed on the personal computer of the user, and web applications.
82
Quaderni di Bioinformatica
Standalone:
Avogadro
http://avogadro.openmolecules.net/wiki/Main_Page
ChemDraw
http://www.cambridgesoft.com/software/ChemDraw/
Chemtool
http://ruby.chemie.uni-freiburg.de/~martin/chemtool/
SymyxDraw
http://www.symyx.com/micro/draw31/index.html
JChemPaint
http://sourceforge.net/apps/mediawiki/cdk/index.php?title=JChemPaint
Web:
Jmol
http://jmol.sourceforge.net/
JME
http://www.molinspiration.com/jme/index.html used by databases like MMsINC
SketchEl
http://sketchel.sourceforge.net/
Pubchem
http://pubchem.ncbi.nlm.nih.gov/edit/index.html used by PubChem, is written in Javascript [12]
The next two Web applications allow you to insert a SMILE and obtain the chemical structure. They both have the same functionality:
enter a SMILE, and press the Submit button.
DEPICT URL: http://www.daylight.com/daycgi/depict
The text field for entering a SMILE shows only 50 characters, but the application has no limit to the number of characters that can be
entered.
MOLPAINT
URL: http://mms.dsfarm.unipd.it/MMsINC/molpaint/index.php
Molpaint is similar to depict with one difference. You can enter multiple smiles, separated by a space: it will then design all the
molecules. You can select also the size of the image and its background color.
File exchange formats
83
Quaderni di Bioinformatica
There are many file formats to exchange molecular structure information. The table below describes the most commonly used
formats, and provides the link to the corresponding web site.
suffix
file format
URL
description
.mol
molfile
the most used connection table format
www.symyx.com
.sdf
SDfile
Structure-Data file: extension of molfile,
may contain more than one compound
www.symyx.com
.smi
SMILES
the most used linear code
www.daylight.com
.pdb
PDB file
Protein Data BAnk file format
http://www.rcsb.org/
.cif
CIF
Crystallographic Information File format,
for 3D structure information
http://www.iucr.org/resources/
cif
.cml
CML
Chemical Markup Language, chemistry
specialized extension of XML
cml.sourceforge.net
We will describe below the two most commonly used formats : MOL file, and SDF file.
MDL Mol file
MDL Mol file of the “aspirin” compound. A Molfile describes a single molecular structure. Here is the structure of the aspirin C9H8O4:
Header Block
1
2
3
CDK
10/7/09,10:42
4
13 13
0
c
o
n
n
e
c
t
i
o
n
t
a
b
l
1.6338
2.4591
2.8717
2.4591
3.6970
4.1097
3.6970
2.8717
1.2211
1.2211
2.8717
2.4591
3.6970
0
0
0
0
-10.1304
-10.1304
-9.4161
-8.7017
-9.4161
-10.1304
-10.8448
-10.8448
-9.4161
-10.8448
-7.9873
-7.2729
-7.9873
0
0
0999 V2000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
C
C
C
O
C
C
C
C
O
O
C
O
C
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Counts line
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
84
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Atom Block
Quaderni di Bioinformatica
e
C
t
a
b
1
2
3
3
5
6
7
2
1
1
11
11
4
M
2
3
4
5
6
7
8
8
9
10
12
13
11
1
1
1
2
1
2
1
2
2
1
2
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Bond Block
END
Properties
Block
The format of the first line of the header block is free (empty in this case). The second line has a strict format and contains the user
name (empty here) the name of the program that has generated the MOL file (CDK) and the date of creation. The third line of the
header block is for comments (empty here). The next lines form the Connection table or Ctab, and contains the description of the
atoms which constitute the compound described. Line number 4 - the counts line, specifies how many atoms constitute the molecule
described in the file, how many bonds are within the molecule, if it is chiral or not etc... The last set of characters, here V2000
indicates which format of Ctab is being used.
For a more detailed description of a molfile, go to the SYMYX web site (http:// www.symyx.com/ solutions/white_papers /ctfile_
formats.jsp).
SDF file
This is the SDF file of the “aspirin” compound, taken from DrugBank. An SDF file may contain structure and properties information for
any number of molecules. SDF is used to handle large datasets of molecules, for example for data transfer between databases or
analysis tools.
945
21 21 0
3.7321
6.3301
4.5981
2.8660
4.5981
5.4641
4.5981
6.3301
5.4641
6.3301
5.4641
2.8660
2.0000
4.0611
6.8671
5.4641
6.8671
2.3100
1.4631
1.6900
6.3301
1 5 1
1 12 1
2 11 1
2 21 1
3 11 2
4 12 2
5 6 1
5 7 2
6 8 2
6 11 1
7 9 1
0
0
0
0
0
0
0
0
0
0
0
0 0 0 0 0 0999 V2000
-0.0600
0.0000 O
0 0
1.4400
0.0000 O
0 0
1.4400
0.0000 O
0 0
-1.5600
0.0000 O
0 0
-0.5600
0.0000 C
0 0
-0.0600
0.0000 C
0 0
-1.5600
0.0000 C
0 0
-0.5600
0.0000 C
0 0
-2.0600
0.0000 C
0 0
-1.5600
0.0000 C
0 0
0.9400
0.0000 C
0 0
-0.5600
0.0000 C
0 0
-0.0600
0.0000 C
0 0
-1.8700
0.0000 H
0 0
-0.2500
0.0000 H
0 0
-2.6800
0.0000 H
0 0
-1.8700
0.0000 H
0 0
0.4769
0.0000 H
0 0
0.2500
0.0000 H
0 0
-0.5969
0.0000 H
0 0
2.0600
0.0000 H
0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
85
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Quaderni di Bioinformatica
7 14 1 0 0 0 0
8 10 1 0 0 0 0
8 15 1 0 0 0 0
9 10 2 0 0 0 0
9 16 1 0 0 0 0
10 17 1 0 0 0 0
12 13 1 0 0 0 0
13 18 1 0 0 0 0
13 19 1 0 0 0 0
13 20 1 0 0 0 0
M END
> <DRUGBANK_ID>
DB00945
> <DRUGBANK_GENERIC_NAME>
Aspirin
> <DRUGBANK_MOLECULAR_FORMULA>
C9H8O4
> <DRUGBANK_MOLECULAR_WEIGHT>
180.1574
> <DRUGBANK_EXACT_MASS>
180.042258744
> <DRUGBANK_IUPAC_NAME>
2-acetyloxybenzoic acid
> <DRUGBANK_INCHI>
InChI=1/C9H8O4/c1-6(10)13-8-5-3-2-4-7(8)9(11)12/h2-5H,1H3,(H,11,12)/f/h11H
> <DRUGBANK_INCHI_KEY>
InChIKey=BSYNRYMUTXBXSQ-WXRBYKJCCW
> <DRUGBANK_CANONICAL_SMILES>
CC(=O)OC1=CC=CC=C1C(O)=O
> <DRUGBANK_ISOMERIC_SMILES>
CC(=O)OC1=CC=CC=C1C(O)=O
$$$$
The first part of an SDF file is composed by the Molfile (here taken from a different database than before). Additional data items are
provided in an XML like format. They describe the non-structural properties (molecular formula, molecular weight, INCHI, SMILES,
mass ...). An SDF file might contain information for more than one molecule. Multiple compounds are separated by a delimiter, a line
of four dollar signs ($$$$).
References
1 - IUPAC: International Union of Pure and Applied Chemistry, Organic Chemistry Division, Commission on Nomenclature of Organic
Chemistry, Nomenclature of Organic Chemistry, Section A, B, C, D, E, F, and H, 1979 Edition, J. Rigaudy and S. Klesney,
eds, Pergamon Press, Oxford, 1979, 559 pp.
2 - SMILES: http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html
3 - INCHI: http://www.iupac.org/inchi/
4 - PubChem: PubChem: a public information system for analyzing bioactivities of small molecules Yanli Wang, Jewen Xiao, Tugba
O. Suzek, Jian Zhang, Jiyao Wang, and Stephen H. Bryant Nucleic Acids Res. 2009 July 1; 37(Web Server issue): W623–
W633. Published online 2009 July 1. doi: 10.1093/nar/gkp456.
5- BioAssays: An overview of the PubChem BioAssay resource Yanli Wang, Evan Bolton, Svetlana Dracheva, Karen Karapetyan,
Benjamin A. Shoemaker, Tugba O. Suzek, Jiyao Wang, Jewen Xiao, Jian Zhang, and Stephen H. Bryant Nucleic Acids Res.
2010 January; 38(Database issue): D255–D266. Published online 2010 January. doi: 10.1093/nar/gkp965.
6 - ChemSpider: http://www.chemspider.com/News.aspx
7 - chEBI: Chemical Entities of Biological Interest: an update Paula de Matos, Rafael Alcántara, Adriano Dekker, Marcus Ennis, Janna
Hastings, Kenneth Haug, Inmaculada Spiteri, Steve Turner, and Christoph Steinbeck Nucleic Acids Res. 2010 January;
38(Database issue): D249–D254. Published online 2010 January. doi: 10.1093/nar/gkp886.
8 - chEMBL: The European Bioinformatics Institute’s data resources Catherine Brooksbank, Graham Cameron, and Janet Thornton
Nucleic Acids Res. 2010 January; 38(Database issue): D17–D25. Published online 2010 January. doi: 10.1093/nar/gkp986.
9 - DrugBank: DrugBank: a knowledgebase for drugs, drug actions and drug targets David S. Wishart, Craig Knox, An Chi Guo, Dean
Cheng, Savita Shrivastava, Dan Tzur, Bijaya Gautam, and Murtaza Hassanali Nucleic Acids Res. 2008 January; 36
(Database issue): D901–D906. Published online 2008 January. doi: 10.1093/nar/gkm958.
10 - MMsINC: MMsINC: a large-scale chemoinformatics database Joel Masciocchi, Gianfranco Frau, Marco Fanton, Mattia Sturlese,
Matteo Floris, Luca Pireddu, Piergiorgio Palla, Fabian Cedrati, Patricia Rodriguez-Tomé, and Stefano Moro Nucleic Acids
Res. 2009 January; 37(Database issue): D284–D290. Published online 2009 January. doi: 10.1093/nar/gkn727.
11 - JME: Molecular structure input on the web Peter Ertl J Cheminform. 2010; 2: 1. Published online 2010 February 2. doi:
10.1186/1758-2946-2-1.
86
Quaderni di Bioinformatica
12 - The PubChem chemical structure sketcher Wolf D Ihlenfeldt, Evan E Bolton, and Stephen H Bryant J Cheminform. 2009; 1: 20.
Published online 2009 December 17. doi: 10.1186/1758-2946-1-20.
13 - Chemoinformatics - a textbook. edited by Johann Gasteiger and Thomas Engel. Published by Wiley-VCH.
87
Quaderni di Bioinformatica
88
Quaderni di Bioinformatica
ANALISI D’IMMAGINE E PATTERN RECOGNITION
Alessio Soggiu
Paola Roncada
Gian Franco Greppi*
Istituto Sperimentale Italiano Lazzaro Spallanzani Milano
*CNBS (Centro NanoBiotecnologie Sardegna)
Laboratorio di bionanotecnologie
Dipartimento di Scienze Zootecniche,
Università di Sassari
ll riconoscimento automatico di oggetti (pattern) e la loro descrizione, classificazione e raggruppamento (clustering) sono argomenti
importanti in una grossa varietà di problemi sia nell’area ingegneristica che scientifica, quali: la biologia, la psicologia, la medicina, il
marketing, la visione artificiale, l’intelligenza artificiale fino alla fusione di dati (meglio conosciuta come data fusion). La domanda che
sorge spontanea nel descrivere la pattern recognition, è: cos’è esattamente un pattern?
Watanabe descrive un pattern come “l’opposto del caos; ovvero un’entità, generalmente definita a cui si può dare un nome”. Per
esempio, un pattern può essere l’immagine di una impronta digitale, una parola scritta in corsivo, l’immagine di un volto, o un segnale
acustico.
Dato un pattern, il suo riconoscimento (detto anche classificazione) può essere principalmente effettuato in due modi;
supervisionato, in cui il pattern in input viene identificato come membro di una classe tra quelle predefinite, ovvero viene classificato
in maniera supervisionata avendo l’utente o il progettista definito a priori le classi di interesse;
non supervisionato, in cui il pattern in input viene assegnato ad una classe sconosciuta a priori, ovvero i pattern vengono raggruppati
nei cosiddetti cluster (tecniche di clustering).
Il problema della pattern recognition quindi viene posto nella forma di classificazione o identificazione delle categorie di appartenenza,
dove le classi o categorie possono essere sia definite dal progettista del sistema (nei metodi supervisionati), sia apprese dalle
similarità tra i pattern (nei metodi non supervisionati). I sistemi di pattern recognition creano, chiaramente, nuovi scenari applicativi sia
a livello accademico che industriale. Si pensi, per esempio, ai vantaggi per un processo industriale che, impiegando il riconoscimento
automatico di oggetti, può beneficiare di un controllo qualità automatizzato. Sempre nell’ambito industriale, l’impiego di algoritmi di
riconoscimento automatico, porta ad arricchire le funzionalità dei robot impiegati, come ad esempio la possibilità di muoversi in
determinati ambienti riconoscendo automaticamente gli ostacoli. Altre applicazioni di interesse, soprattutto ai giorni nostri, sono quelle
di video sorveglianza automatizzata. Pensiamo, ad esempio, ad una stazione ferroviaria o ad un aeroporto ed a come, vista la mole di
persone in transito, un riconoscimento automatico di oggetti incustoditi possa essere cruciale per le funzionalità di sorveglianza. Il
riconoscimento di volti, è un’altra area di applicazione che consente di aumentare notevolmente la sicurezza sia in ambito pubblico
che aziendale. Un ulteriore scenario, molto interessante, riguarda la cosiddetta “Realtà Aumentata” dove informazioni reali percepite
da utenti umani vengono arricchite da informazioni sull’ambiente estratte automaticamente da un sistema automatizzato. Un esempio
tipico è quello militare con la possibilità di avere visori che includono tracciamento automatico dei soggetti individuati e stima della
distanza dall’osservatore. Già da questi primi esempi è chiaro come l’uso di tecniche di riconoscimento automatico possa
notevolmente migliorare le attuali applicazioni tecnologiche in diversi campi, dal settore scientifico a quello sociale ed industriale.
Le principali aree di applicazione della Pattern Recognition sono:
Automazione dei processi industriali.
•Riconoscimento di oggetti, ispezioni visuali, controlli di qualità.
•Navigazione e coordinazione di robot.Sorveglianza e tracking.
•Traffico, sicurezza.
Interazione uomo-computer.
•Rilevamento e riconoscimento di volti.
•Assistenza ai disabili.
Realtà virtuale e visualizzazione.
•Ricostruzione di scene e modelli 3D.
•Fotometria.
Applicazioni spaziali e militari.
89
Quaderni di Bioinformatica
Tra i campi più innovativi nell’applicazione del riconoscimento di pattern, c’è ad esempio l’affective computing, identificato da Picard,
che introduce la possibilità da parte del sistema di riconoscere e esprimere emozioni, al fine di rispondere in maniera intelligente alle
espressioni umane.
In genere, un sistema di pattern recognition, riceve in ingresso la descrizione di un oggetto, ovvero un insieme di misure che lo
caratterizzano (feature) e sulla base di queste “decide” a quale classe l’oggetto appartiene. La decisione della classe di appartenenza
ha un costo associato all’assegnazione dell’oggetto alla classe sbagliata e l’obiettivo con cui realizzare un buon sistema di pattern
recognition è quello di minimizzare il costo di classificazione.
Comunque, la caratteristica comune a tutti questi sistemi e domini applicativi è che le misure caratteristiche (feature) non sono
suggerite o identificate dagli esperti di dominio, ma vengono estratte ed ottimizzate da procedure che elaborano dati; questo avviene
perché in genere abbiamo migliaia di misure possibili anche per un singolo pattern. La crescente disponibilità di risorse per il calcolo
automatico non solo consente di elaborare contemporaneamente grosse moli di dati, ma permette anche l’analisi e la classificazione
di grandi insiemi di pattern. Allo stesso tempo, la domanda di applicazioni di pattern recognition cresce continuamente grazie alla
disponibilità di grosse basi di dati e del calo dei costi dei supporti di memorizzazione. La progettazione di un sistema di pattern
recognition richiede essenzialmente di affrontare i seguenti aspetti:
1. Acquisizione e pre-elaborazione (e normalizzazione) dei dati.
2. Rappresentazione e classificazione dei dati o pattern.
3. Decisione e classificazione.
Il dominio di applicazione, in pratica, influenza enormemente la scelta dei sensori (nel senso generale del termine), delle tecniche di
pre-elaborazione e di normalizzazione dei dati, della rappresentazione degli stessi e del modello decisionale di classificazione.
È noto che per i problemi di riconoscimento ben definiti e quindi condizionati opportunamente (esempio: piccole variazioni nei valori
appartenenti alla stessa classe e grosse variazioni in quelli appartenenti a classi diverse) esistono soluzioni efficienti e buone
strategie decisionali di classificazione. Per esempio, usare approcci orientati all’apprendimento, basandosi su un insieme di dati per
l’addestramento automatico del sistema (training set) consente la necessaria flessibilità del sistema, che addestrato con dati diversi,
può reagire a situazioni diverse con un margine di errore controllabile.
I quattro principali approcci alla pattern recognition sono:
1. approcci basati su modello (Template Matching);
2. approcci con classificazione statistica (Statistical Classification);
3. approcci sintattici o strutturali (Syntactic or Structural Matching);
4. approcci basati su reti neurali (Neural Networks).
Questi approcci non sono necessariamente separati ed indipendenti, infatti a volte lo stesso metodo può essere usato nei diversi
approcci con diverse interpretazioni. Esistono anche tentativi di progettazione e realizzazione di sistemi ibridi che introducono e
integrano più modelli all’interno dello stesso sistema.
Lo sviluppo di metodi nuovi ed effettivi per l’identificazione delle differenze tra gruppi di mappe 2D rappresenta una delle frontiere nel
campo della proteomica, soprattutto per lo sviluppo di strumenti diagnostico-prognostici affidabili e relativamente poco costosi. Il
riconoscimento automatico di oggetti e di immagini (pattern) e la loro descrizione, classificazione e raggruppamento (clustering) sono
temi importanti in una grossa varietà di problemi sia nell’area ingegneristica che scientifica, quali: la biologia, la psicologia, la
medicina, la visione artificiale, l’intelligenza artificiale fino alla fusione di dati (meglio conosciuta come data fusion). La domanda che
sorge spontanea nel descrivere la pattern recognition, è: cos’è esattamente un pattern?
Per esempio, un pattern può essere l’immagine digitale di una mappa proteomica, una parola scritta in corsivo, l’immagine di un volto,
o un segnale acustico. Dato un pattern, il suo riconoscimento (detto anche classificazione) può essere principalmente effettuato in
due modi: supervisionato, in cui il pattern in input viene identificato come membro di una classe tra quelle predefinite, ovvero viene
classificato in maniera supervisionata avendo l’utente o il progettista definito a priori le classi di interesse; oppure non supervisionato,
in cui il pattern in input viene assegnato ad una classe sconosciuta a priori, ovvero i pattern vengono raggruppati nei cosiddetti cluster
(tecniche di clustering). Il problema della pattern recognition quindi viene posto nella forma di classificazione o identificazione delle
categorie di appartenenza, dove le classi o categorie possono essere sia definite dal ricercatore (nei metodi supervisionati), sia
apprese dalle esperienze di addestramento. In genere, un sistema di pattern recognition, riceve in ingresso la descrizione di un
oggetto, ovvero un insieme di misure che lo caratterizzano (feature) e sulla base di queste “decide” a quale classe l’oggetto
appartiene. La decisione della classe di appartenenza ha un costo associato all’assegnazione dell’oggetto alla classe sbagliata e
l’obiettivo con cui realizzare un buon sistema di pattern recognition è quello di minimizzare il costo di classificazione.
Comunque, la caratteristica comune a tutti questi sistemi e domini applicativi è che le misure caratteristiche (feature) non sono
suggerite o identificate dagli esperti di dominio, ma vengono estratte ed ottimizzate da procedure che elaborano dati; questo avviene
perché in genere abbiamo migliaia di misure possibili anche per un singolo pattern.
La crescente disponibilità di risorse per il calcolo automatico non solo consente di elaborare contemporaneamente grosse moli di dati,
ma permette anche l’analisi e la classificazione di grandi insiemi di pattern. Allo stesso tempo, la domanda di applicazioni di pattern
recognition cresce continuamente grazie alla disponibilità di grosse basi di dati e del calo dei costi dei supporti di memorizzazione. In
molte delle applicazioni di pattern recognition risulta evidente che non esista un approccio “ottimale” e “generale” alla classificazione e
che la scelta di integrare diversi metodi e approcci è la migliore da perseguire.
La progettazione di un sistema di pattern recognition richiede essenzialmente di affrontare i seguenti aspetti:
90
Quaderni di Bioinformatica
-Acquisizione e pre-elaborazione (e normalizzazione) dei dati.
-Rappresentazione e classificazione dei dati o pattern.
-Decisione e classificazione.
Con il termine classificazione si intende una procedura statistica che permette di associare ciascun oggetto (che sia un’immagine, un
pattern, un dato numerico. . . ), appartenente a un generico spazio multidimensionale, a una o più etichette, corrispondenti alle
possibili classi di cui può far parte un oggetto; si parla di classificazione esclusiva quando ciascun oggetto appartiene a una sola
classe, o di classificazione continua o fuzzy se un oggetto può appartenere, con un certo grado di probabilità, a più classi. Per
ottenere una classificazione si usano le informazioni riguardanti alcuni tratti salienti (feature, caratteristiche) degli oggetti in esame, e
li si confronta, in un apposito spazio multidimensionale, con quelli di un training set: se questo training set è etichettato, e quindi le
possibili classi sono note e ogni campione nel set è già associato alla classe di appartenenza, si parla di apprendimento
supervisionato; in caso contrario, cioè quando le possibili classi vanno direttamente ricavate dai dati stessi, abbiamo a che fare con
apprendimento non supervisionato. Uno dei primi e più semplici degli approcci alla pattern recognition è quello basato sul modello, il
cosiddetto template matching. I sistemi di pattern recognition basati sul modello utilizzano la cosiddetta tecnica del “matching”; il
matching è definito come l’operazione che viene usata per determinare la similarità tra due entità dello stesso tipo: punti, curve o
forme ad esempio. Nell’approccio basato su modello, quest’ultimo (il modello) è tipicamente un prototipo del pattern od oggetto da
riconoscere e classificare, tipicamente una forma bidimensionale. L’oggetto da riconoscere (il pattern) viene confrontato con tutti i
modelli memorizzati nel sistema considerando i cambiamenti di scala e le possibili invarianze per rotazione o traslazione.
Naturalmente ci saranno casi in cui sarà utile l’invarianza di scala, cioè ci interessa riconoscere l’oggetto semplicemente dalla forma,
mentre in altri casi sarà necessario distinguere non solo rispetto alla forma ma anche rispetto alla dimensione.
La misura di similarità utilizzata nei sistemi basati su modello, è solitamente una correlazione statistica e può essere ottimizzata
apprendendo i parametri dal training set, ovvero da un insieme di esempi di oggetti forniti in input al sistema.
Il confronto di gruppi di mappe 2D non è come potrebbe sembrare a prima vista un problema di poco conto, questo dovuto anche al
fatto che alcuni limiti sperimentali influenzano la tecnica dell’elettroforesi 2D.
Pur essendo infatti una tecnica estremamente potente per la separazione ad alta risoluzione di proteine derivanti da diverse matrici
biologiche, l’elettroforesi 2D è caratterizzata da una riproducibilità a volte bassa. Questo limite dipende da 2 fattori principali: dal
campione che si intende studiare e dalle procedure strumentali e sperimentali che vengono impiegate. Spesso infatti i campioni da
analizzare sono rappresentati da popolazioni eterogenee di proteine con differenti proprietà fisico-chimiche che portano
inevitabilmente all’aumento della complessità e alla diminuzione della riproducibilità nell’esperimento. La seconda causa che porta ad
una diminuzione della riproducibilità è da ricercarsi nelle tecniche strumentali, dalla preparazione del campione alla acquisizione
dell’immagine. Effettivamente la tecnica della 2DE presenta molteplici step (purificazione, estrazione, matrici utilizzate, condizioni di
corsa, colorazioni ecc) che possono introdurre ciascuno della variabilità influenzando, a volte pesantemente, il risultato finale della
riproducibilità della posizione e dell’intensità dei singoli spot sulla mappa 2D. A questo punto è possibile comprendere come
l’elevatissimo numero di proteine teoricamente separabili in una mappa 2D (fino a 10.000) e le difficoltà tecnico/biologiche ad essa
associate complichino abbastanza seriamente il raggiungimento di una classificazione chiara dei campioni e l’utilizzo di questa
tecnica per studi di qualsiasi natura. Tuttavia con il controllo scrupoloso dei vari parametri sperimentali e l’utilizzo della bioinformatica
(analisi d’immagine e statistica) si può ovviare alla maggior parte delle problematiche pocanzi descritte riuscendo ad ottenere risultati
di elevato livello. L’analisi d’immagine effettuata con software dedicati, rappresenta un passaggio cruciale nell’interpretazione
biologica dei dati derivanti da esperimenti di elettroforesi bidimensionale. Gli importanti progressi fatti per quel che riguarda
l’acquisizione delle immagini ad alta risoluzione, combinato con il miglioramento della capacità di calcolo dei computer, permette di
effettuare analisi di routine di un gran numero di esperimenti contemporaneamente, ma sono ancora tanti i limiti dei software per
l’estrapolazione dei dati significativi dalle immagini acquisite. L’analisi d’immagine comprende quei processi di elaborazione che
vengono effettuati sulle immagini, a partire dalla individuazione del numero e delle caratteristiche degli spot (detection), al matching,
alla quantificazione dei volumi, fino alla creazione dei profili di espressione, seguita dall’analisi statistica dei dati. Questo tipo di analisi
è fondamentale, in quanto permette la digitalizzazione dei segnali a partire da un campione biologico e quindi una accurata analisi
statistica. I problemi che si incontrano sono diversi e rappresentano i limiti della maggior parte dei software attualmente in commercio:
attualmente non esiste un software completamente automatizzato che sia in grado di effettuare una analisi completa e precisa senza
ritocchi o interventi manuali da parte dell’operatore. Il primo passaggio fondamentale è quello dell’image filtering, che consente di
eliminare il background e distinguerlo dagli spot proteici. Il rumore di fondo in una mappa bidimensionale può essere di natura diversa
e dipendere da granuli di polvere, microbolle o altre imperfezioni del gel che potrebbero avere forma o dimensioni simili a quelle di
uno spot proteico ed essere confusi con esso. E’ importantissimo quindi mettere a punto algoritmi che siano in grado di distinguere gli
spot e sapere filtrare accuratamente il rumore come saprebbe fare l’occhio dell’operatore. Il secondo passaggio fondamentale è
invece rappresentato dalla spot detection, che permette l’identificazione degli spot e l’attribuzione di tutta una serie di caratteristiche
per descriverlo: area, volume coordinate x/y etc. Questi processi possono essere effettuati manualmente o automaticamente. Nel
primo caso l’operatore può intervenire per correggere eventuali errori del software e il rischio è rappresentato dal fatto che la
manipolazione delle immagini può aumentare l’errore statistico, nel secondo caso invece il software lavora automaticamente, ma
senza la conoscenza dell’operatore e con il rischio di avere una analisi imprecisa. Lo scopo è quello di effettuare miglioramenti
sull’automatizzazione dell’analisi riducendo al limite gli interventi manuali dell’operatore.
L’analisi dell’immagine è quindi un concetto ampio che potremo suddividere in due step principali:
91
Quaderni di Bioinformatica
•
•
acquisizione e processamento delle immagini
analisi delle immagini via software
il primo step di acquisizione e processamento è cruciale per i successivi step analitici.
Acquisizione delle immagini.
Digitalizzazione.
La digitalizzazione dell’immagine è il primo momento di un’analisi quantitativa. I gel possono
essere acquisiti utilizzando uno scanner (laser o luce bianca) oppure una CCD camera.
Qualunque sia il sistema di acquisizione verranno acquisiti dei valori di trasmissione. Il
valore di trasmissione è il rapporto tra l’intensità del segnale ricevuto dal detector in
presenza del gel e l’intensità ricevuta in assenza del gel (I/I0). Qualunque sia la
strumentazione utilizzata nessuna delle funzioni di aumento del contrasto (es. correzione
gamma) deve essere utilizzata in quanto distorcerebbe il reale valore di trasmissione. I
valori di trasmissione (da 0 a 1) sono generalmente codificati in 8, 12 o 16 bit (a seconda
dello strumento utilizzato e delle sue caratteristiche tecniche) e convertiti in 256(28),
4096(212) o 65536(216) scale di grigio. In questo modo l’immagine che si ottiene è una
matrice di valori (pixel) tra 0 e 65536. Le immagini a questo punto sono descritte da dei
pixel; ciascun pixel è caratterizzato da una coppia di coordinate x e y che ne indicano la
posizione dello spazio 2D e un valore Z che corrisponde all’intensità del pixel (fig 1).
Ciascuna mappa è quindi costituita da una serie di pixel (la matrice) descritti dalla loro
densità ottica (OD). Solitamente viene utilizzato il formato TIFF (tagged image file format) in
scala di grigi, formati (es. JPEG ) che implicano l’utilizzo di algoritmi di compressione non
devono essere utilizzati.
Fig 1. Visone 3D di mappa bidimensionale. Parametri associati ad uno spot.
Risoluzione dell’immagine.
Più alta la risoluzione (pixel per unità di
lunghezza), migliore sarà il riconoscimento e
la quantificazione degli spot. La risoluzione è
inoltre un fattore limitante per la
discriminazione di gruppi di spot che si
sovrappongono. La maggioranza dei
software per l’analisi d’immagine non
rilevano spot multipli in un gruppo se non ci
sono delle variazioni tra i picchi d’intensità
(fig.
1).
Così
l’accuratezza
del
riconoscimento degli spot dipende dall’abilità
di discriminare anche differenze minime che
dipende a sua volta dalla risoluzione.
Fig.2 interfaccia per la calibrazione mediante step tablet
Solitamente per gel 24x20 cm la risoluziutilizzata è di 100micron/pixel che corrisponde circa a 300 dpi (84.7micron/pixel). Questo
valore è un compromesso tra 2 fattori: 1) velocità di acquisizione dell’immagine, in quanto il tempo richiesto per fare la scansione di
un gel può diventare limitante nel caso in cui sia necessario acquisire diversi gel ; 2) dimensione dell’immagine: gel 24x20 acquisiti a
100micron/pixel e 16 bit occupano dai 10 ai 15 MB, ovviamente maggiore sarà la dimensione dei file e la loro numerosità più lungo
sarà il tempo per analizzarli utilizzando dei software dedicati.
Dinamica dell’immagine
Durante l’acquisizione dell’immagine sarebbe bene utilizzare sempre tutti i bit disponibili in quanto la precisione della quantificazione
dipende dal numero dei livelli di grigio utilizzati. I dati di trasmittanza solitamente vengono convertiti automaticamente in densità ottica
(OD) (questo non si applica nel caso di colorazioni fluorescenti) in quanto la concentrazione proteica è linearmente correlata con la
densità ottica e non con la trasmittanza (fig 1). Facendo questa trasformazione si rende lineare la relazione tra volume degli spot e
92
Quaderni di Bioinformatica
quantità di proteina. Tutte queste operazioni solitamente vanno fatte dopo la calibrazione dello scanner mediante step tablet (fig.2) e
la sottrazione del background.
Software dedicati
Per l’analisi delle mappe 2D solitamente vengono utilizzati dei pacchetti software specifici (tabella 1).
Software
Company
Platforms
Images supported
Delta 2-D 4.0
Melanie 7.0
PD Quest 8 Advanced
Xpedition
Image Master 2D Platinum 7
HT Analyzer
Progenesis SameSpot 3.33
Redfin 2D
DECODON
PC (Windows XP, Vista)
http://www.decodon.com
Mac OS X
Geneva Bioinformatics
PC (Windows XP, Vista)
http://www.genebio.com
Bio-Rad Laboratories
PC (Windows XP, Vista)
http://www.biorad.com
Alpha Innotech Corporation
PC (Windows XP, Vista)
http://alphainnotech.com
GE Healthcare
PC (Windows XP, Vista)
http://www4.gelifesciences.com
Genomic Solutions http://
PC (Windows XP, Vista)
www.genomicsolutions.com
Nonlinear Dynamics
PC (Windows XP, Vista)
http://www.nonlinear.com
Ludesi
PC (Windows XP, Vista)
http://www.ludesi.com/
Tabella 1. Software per l’analisi d’immagine
TIFF (8, 12 and 16 bit),
JPEG, BMP, GIF, PNG.
TIFF (8, 16 bit), GIF,
TIFF (8, 16 bit)
Biorad Scan
TIFF (8,12 and 16 bit)
TIFF (8,12 and 16 bit)
TIFF (8, 12 and 16 bit)
TIFF (8, 12 and 16 bit)
TIFF (8, 12 and 16 bit)
Sebbene l’ordine degli step possa differire tra un software e l’altro possiamo comunque suddividere l’analisi in diversi step comuni a
tutti i software:
•
•
•
•
•
•
•
•
spot detection
image warping
spot matching
background subtraction
normalization
spot quantification
differential analysis
statistical analysis
Spot detection.
La spot detection è uno degli step più importanti dell’analisi dei gel 2D in quanto è alla base di
altri fondamentali passaggi quali matching e quantification. Una mappa 2D contiene
potenzialmente migliaia di spot e ciascuno di essi corrisponde idealmente a una proteina e
quindi è necessariol’utilizzo di algoritmi di calcolo che permettano di riconoscere gli spot
automaticamente distinguendoli dal rumore di fondo. Esistono 2 tipi principali di algoritmi
implementati nella maggioranza dei software: spot-based e pixel-based, in entrambi i casi però
questi non riescono a rilevare tutti gli spot correttamente ed è necessario un intervento manuale
dell’operatore. Alcuni dei problemi più comuni causa di un inaccurato riconoscimento includono:
rumore di fondo, problemi di acquisizione dei gel, forma degli spot irregolare, sovrapposizione
degli spot (fig.3). Tuttavia è buona norma limitare l’editing dell’operatore ad un livello basso in
modo da non indurre troppa soggettività nell’analisi.
Fig.3 Immagini di gel 2D e problematiche ricorrenti, vista 2D (sx) e 3D (dx). a) rumore di fondo
(pixel singoli scuri); b) focalizzazione incompleta e strisciate; c) sovrapposizione di spot.
Spot matching
93
Quaderni di Bioinformatica
La fase di maching o “registrazione” consiste nell’allineamento di 2 o più immagini in modo da compensare per la diversa posizione
degli stessi spot nei diversi gel. Quindi questa fase serve per determinare quali spot sono la stessa proteina nelle diverse mappe del
nostro esperimento. Questa fase è importante per il successivo passaggio di quantificazione degli spot e quindi delle differenze di
espressione delle proteine tra i nostri gruppi sperimentali. Solitamente il software di analisi d’immagine ci propone un matching di tipo
automatico ma nella maggioranza dei casi bisogna ricorrere ad un laborioso intervento manuale. Nei software di ultima generazione
al matching automatico viene associato il cosiddetto “image warping” che consiste nella deformazione dell’immagine in modo da
supplire alle differenze di allineamento dei vari gel. Inoltre è possibile individuare manualmente dei punti di riferimento (Landmark o
seeds) per il software (fig. 4 a 1-5), ad esempio la stessa proteina in diversi gel in modo da facilitare il compito degli algoritmi.
Fig.4 3 2DE Image matching . a) scelta dei Landmark o seeds; b) allineamento manuale di uno spot tra 2 mappe e creazione del
vettore di spostamento (1-3)
a
Normalizzazione
Tutte le immagini che noi utilizziamo per l’analisi contengono in
proporzioni variabili del rumore di fondo (background noise) dovuto
alle procedure sperimentali utilizzate (separazione, colorazione
acquisizione e la stessa analisi). Questo rumore di fondo va sottratto
dal valore reale di OD di ciascun spot per ottenere delle misurazioni
accurate per la successiva fase di quantificazione delle differenze. Il
principale scopo della normalizzazione è quindi quello di compensare
le variazioni (tecniche e software) tra i gel. Il metodo standard nella
maggioranza dei software consiste nel dividere il valore di OD di
ciascuno spot per la somma di tutti gli spot presenti nella mappa
ottenendo così una “quantità relativa”o un “volume relativo”.
b
1
2
3
Quantificazione e analisi differenziale
Questo step ci permette di analizzare differenti gruppi di mappe (es.
controllo-malato), e all’interno di ciascun gruppo ottenere dei valori
medi per tutti gli spot identificati. Una volta che i gruppi quindi sono
stati creati è possibile cercare le proteine differenzialmente espresse.
Solitamente spot che mostrano una variazione di almeno 2 volte
vengono indicati come significativamente differenti, tuttavia è
indispensabile applicare dei metodi statistici per ottenere informazioni
realmente significanti.
Fig.5 output di analisi differenziale
Analisi statistica.
I volumi relativi dei singoli spot ottenuti alla fine dell’analisi d’immagine
rappresentano il punto di partenza per le analisi statistiche. Solitamente
è possibile ritrovare nei pacchetti software dei moduli di statistica che
gestiscono questi dati. Il tipo di analisi alla quale vengono sottoposti
solitamente è un’analisi di tipo uni variato (ANOVA o t di Student)
tuttavia il basso numero di replicati e le elevate variabili in gioco (gli
spot) introducono un elevato rischio di generare errori di I tipo (falsi
positivi). E’ quindi di notevole importanza l’utilizzo di metodi multivariati
che ben si adattano alle migliaia di variabili contemporaneamente
presenti in un esperimento di proteomica. L’analisi dei componenti
principali (PCA) è uno dei principali strumenti di analisi multivariata che
è stato inserito ultimamente in alcuni dei più sofisticati software (fig.6)
per l’analisi d’immagine. La sinergia fornita dall’utilizzo combinato di
tecniche statistiche uni e multivariate è di grande aiuto nell’evidenziare
le differenze significative nell’espressione proteica.
Fig. 6 Implementazione software (Progenesis SameSpot) dell’analisi statistica univariata (ANOVA) e multivariata (PCA).
Analisi multivariata di dataset derivanti da mappe 2D
94
Quaderni di Bioinformatica
I dati di volume di ciascuno spot ottenuti mediante quantificazione e analisi differenziale sono un’ottima base di partenza per l’analisi
multivariata; questo è dovuto principalmente alla loro larga dimensionalità (elevato numero di spot presenti in ciascuna mappa) e alla
difficoltà nell’identificare le piccole differenze esistenti nel caso dell’analisi di migliaia di spot contemporaneamente. Con l’analisi
multivariata è quindi possibile considerare tutte le variabili contemporaneamente, producendo risultati chiari e robusti. Tra le tecniche
statistiche che sono state applicate con successo a dataset di spot possiamo ricordare:
Metodi di riconoscimento di pattern
• Analisi dei componenti principali (PCA)
•
Cluster Analysis
Metodi di classificazione
• Analisi Discriminante (LDA)
•
Soft indipendent Model of Class Analogy (SIMCA)
Metodi di regressione
• Analisi discriminante-regressione parziale dei minimi
quadrati (DA-PLS)
I dati da utilizzare per l’analisi multivariata sono solitamente convertiti in matrici di dimensioni n x p, dove n è il numero di campioni
(uno per riga) e p il numero delle variabili (una per ciascuna colonna della matrice).
Nella tabella 2 sono riportati i principali software per la statistica multivariata
Software
Company
SPSS 17
SPSS Inc.
http://www.spss.it
SAS
SAS institute inc
http://www.sas.com
The Unscrambler 9.8
CAMO
http://www.camo.com
Minitab 15
Minitab inc
http://www.minitab.com
Stata 10
StataCorp LP
http://www.stata.com
SYSTAT 12
Cranes Software International Ltd
www.systat.com
STATISTICA 8
STATSOFT inc
http://www.statsoft.com
statistiXL 1.8
StatistiXL
http://www.statistixl.com/
Tabella 2 . Software per la statistica multivariata
Platforms
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
PC (Windows XP, Vista)
Analisi dei componenti principali (PCA)
La PCA è una metodica che rappresenta gli oggetti, descritti dalle variabili originali,
in un nuovo sistema di riferimento caratterizzato da nuove variabili chiamate
componenti principali (PC). Ogni PC ha la proprietà di descrivere la maggiore
quantità possibile di varianza residua contenuta nel dataset originale: la prima PC
solitamente spiega la massima quantità di varianza contenuta nel dataset intero,
mentre la seconda descrive la massima varianza rimanente. Le PC sono quindi
calcolate in maniera tale che il rumore sperimentale e le variazioni casuali siano
contenute nelle ultime componenti. Le PC mantengono una stretta relazione con il
sistema di riferimento originario dal momento che sono calcolate come combinazioni
lineari delle variabili originali e sono ortogonali (non correlate) rispetto alle altre, così
da contenere fonti indipendenti di informazione (fig .7)
Fig.7 Costruzione delle P
95
Quaderni di Bioinformatica
Il calcolo delle PC viene operato in maniera gerarchica (ordine decrescente di varianza), questo fa si che risultino utili per ottenere
una riduzione della dimensionalità nel dataset originale: infatti il grande numero di variabili originarie (gli spot) vengono sostituite da
un piccolo numero di PC significative che contengono a loro volta una rilevante quantità di informazione. La PCA fornisce due
strumenti principali per l’analisi dei dati: gli score e i loading.
Gli score (gli oggetti) rappresentano le coordinate dei campioni nel nuovo sistema di riferimento, mentre i loading (le variabili)
rappresentano i coefficienti delle combinazioni lineari che descrivono ciascuna PC (es. il peso delle variabili originali su ciascuna PC).
La rappresentazione grafica degli score nello spazio delle PC ci permette l’identificazione di gruppi di campioni che mostrano un
comportamento simile (campioni molto vicini nel grafico) o caratteristiche differenti (campioni distanti tra loro nel plot). Osservando il
loading plot è possibile identificare le variabili che sono responsabili delle analogie o delle differenze rilevate tra i campioni nello score
plot.
Fig.8 esempio di loading e score plot.
Nella figura 8 è rappresentato un esempio di loading e score plot. In questo caso è possibile discriminare i 2 gruppi presenti. La prima
componente è efficace nel discriminare i campioni 4, 5 e 6 (score negativo) dai campioni 2 e 3 (score positivo). Dal punto di vista
dell’identificazione di gruppi di campioni e variabili esistenti in un dataset, la PCA è uno strumento estremamente potente in quanto
permette la rappresentazione di dati multivariati attraverso l’utilizzo di poche PC significative. Esistono anche come rappresentazione
grafica i cosidetti biplot che riportano in forma grafica contemporaneamente score (oggetti) e loading (variabili) (fig.9).
Fig.9 Esempio di biplot. Numeri in rosso rappresentano i loading e numeri in nero gli score.
Un ultimo problema viene sempre incontro durante l’utilizzo di questa tecnica e cioè: quante PC bisogna tenere per ciascuna analisi?
La risposta a questa domanda non è mai definitiva ma bisogna valutare caso per caso. Tuttavia esistono almeno 3 criteri (euristici)
per la scelta del numero di componenti:
1. prendere solo quelle componenti che spiegano il 70-80% della variabilità complessiva
2.
seguire la regola di Kaiser: prendere solo quelle componenti che hanno un autovalore (eigenvalue) >=1 o che equivalentemente
con varianza > varianza media
3.
la scelta del n° di componenti (sufficienti a riprodurre con una buona approssimazione i dati di partenza) può essere fatta
attraverso il grafico degli autovalori o scree plot (fig.9). all’interno del grafico si sceglie il numero di componenti corrispondente
al punto di “gomito” della spezzata.
96
Quaderni di Bioinformatica
Nell’esempio che segue I risultati prodotti dall’ANALISI COMPONENTI PRINCIPALI sono i seguenti:
Queste tabelle contengono la statistica descrittiva della matrice, le componenti trovate con il rispettivo auto valore (eigenvalue) , la
varianza spiegata, la varianza cumulata Principal Component Results for:
e i loading. Nella tabella le Variable Range = Foglio1!$C$4:$K$9
Principal components calculated from the correlation matrix
COMPONENTI sono già ordinate in Components extracted with eigenvalues > 1
funzione della variabilità complessiva Descriptive Statistics
Variable
Mean
Std Dev.
Std Err
N
spiegata da ognuna.
1587
33374221,549
19985195,959 8937651,342
5
Tabella 3. Output numerico (statistiXL)
derivante da PCA su dataset di gel 2D
17338323,749
4088543,007
12987612,594
6175016,067
6465152,152
7524422,836
25011941,297
16233549,559
2233859,300
497522,701
2660117,767
1577144,973
1543167,802
1951258,401
2047510,266
3429618,726
999012,249
222498,916
1189640,831
705320,674
690125,621
872629,285
915674,428
1533772,122
5
5
5
5
5
5
5
5
Correlation Matrix
Fig.9 Scree plot
1587
1587
1272
430
1072
1343
912
1269
1401
1757
Scree Plot
9
8
7
Eigenvalue
1272
430
1072
1343
912
1269
1401
1757
6
1272
1,000
0,987
0,957
0,972
0,933
0,955
0,947
0,871
-0,923
0,957
0,950
1,000
0,891
0,957
0,983
0,968
0,940
-0,798
1072
0,972
0,985
0,891
1,000
0,823
0,923
0,912
0,786
-0,944
1343
0,933
0,881
0,957
0,823
1,000
0,898
0,889
0,894
-0,776
912
0,987
1,000
0,950
0,985
0,881
0,975
0,968
0,878
-0,926
430
0,955
0,975
0,983
0,923
0,898
1,000
0,994
0,946
-0,843
1269
0,947
0,968
0,968
0,912
0,889
0,994
1,000
0,966
-0,866
1401
0,871
0,878
0,940
0,786
0,894
0,946
0,966
1,000
-0,770
1757
-0,923
-0,926
-0,798
-0,944
-0,776
-0,843
-0,866
-0,770
1,000
PC 3
0,164
1,817
98,800
PC 4
0,108
1,200
100,000
PC 5
0,000
0,000
100,000
PC 6
0,000
0,000
100,000
PC 7
0,000
0,000
100,000
PC 8
0,000
0,000
100,000
PC 9
0,416
4,617
96,982
5
Explained Variance (Eigenvalues)
Value
PC 1
Eigenvalue
8,313
% of Var.
92,365
Cum. %
92,365
4
3
2
1
PC 2
0,000
0,000
100,000
0
1
2
3
4
5
6
7
8
9
Component Number
Fig.10 score plot delle prime due
componenti principali dell’esempio.
Component Loadings
(correlations between initial variables and principal components)
Variable
PC 1
1587
0,988
1272
0,989
430
0,977
1072
0,953
1343
0,931
912
0,985
1269
0,984
1401
0,931
1757
-0,907
Se decidiamo di seguire il criterio della VARIABILITA’
COMPLESSIVA SPIEGATA allora vediamo che per superare
abbondantemente la soglia dell’80% basterebbe la prima
componente.
Anche secondo la regola di KAISER bisognerebbe prendere la 1°
componente, perché al di sotto di questa tutte le altre hanno
autovalori <1 e quindi andrebbero scartate.
L’ultimo criterio che ci rimane da saggiare è quello dello SCREE
PLOT. In questo caso il punto di gomito più netto si ha alla 2°
componente. Quindi tre su tre consigliano una COMPONENTE (la
prima), tuttavia decidiamo di prenderne 2 per ottenere anche lo
score plot (anche se la seconda non è significativa).
In ultima analisi quindi è bene analizzare mediante PCA i dati
utilizzando il dataset completo e non sulle proteine che appaiono
significativamente differenti da analisi univariate. Le statistiche
multivariate hanno un valore aggiunto essendo capaci di
differenziare i differenti gruppi sperimentali in termini di espressione
correlata più che espressione assoluta. Eseguire l’analisi iniziale solo sulle proteine statisticamente significative potrebbe escludere
informazioni utili. Quindi si può iniziare l’analisi utilizzando la PCA su tutte le variabili disponibili e comparando successivamente i dati
con l’analisi univariata applicata alle singole variabili (le proteine).
Analisi bioinformatica dei network di interazione proteina-proteina.
Negli ultimi anni, le scoperte sulla funzione di geni e proteine su larga scala per una migliore comprensione del funzionamento
cellulare e dello sviluppo degli organismi, hanno stimolato la ricerca di nuovi approcci analitici. In questo senso, i metodi bioinformatici
si sono evoluti di pari passo alla decifrazione delle funzioni di geni e proteine. Questo è sottolineato dal fatto che lo sviluppo di nuovi
metodi computazionali,permettendo la decodifica delle succitate funzioni su larga scala,ha non solo aperto questo campo di
investigazione, ma anche creato una nuova visione delle interazioni tra geni e proteine.
Gli “interattomi” sono nuove entità biologiche che corrispondono,idealmente e formalmente, al completo set di interazioni esistente tra
tutte le macromolecole di un organismo. Ad oggi, gli interattomi disponibili sono essenzialmente formati da network di interazione
97
Quaderni di Bioinformatica
proteina-proteina (PPI) nei quali le interazioni sono state sperimentalmente ottenute su larga scala dal sistema dei due ibridi (yeast
two-hybrids), o da differenti tipi di esperimenti su scala ridotta. Tuttavia gli interattomi sono ancora lontani dall’essere completi dal
momento che esiste uno sconosciuto numero di interazioni che devono essere ancora scoperte. Le mappe PPI (di lievito,
caenorabdtidis, drosophila e umane) formano complicati network che contribuiscono solo in parte ad una rinnovata visione della
cellula come un sistema integrato e dinamico. Contemporaneamente alla decodifica degli interattomi, vengono sviluppati i metodi
bioinformatica che permettono la loro analisi. Al momento i network d’interazione sono rappresentati da grafici complessi nei quali i
nodi corrispondono alle proteine e i connettori (di varia forma) alle loro interazioni (fig 10).
Fig.10 Network d’interazione ottenuto da dati proteomici sperimentali elaborati mediante software dedicato (Ingenuity Pathway
Analysis).
Pathway Database.
Le informazioni riguardanti i pathway sono disponibili attraverso un gran numero di database che spaziano da quelli di elevata qualità
curati manualmente e quelli massivi, che coprono un elevato numero di pathway teorici, creati attraverso l’utilizzo di sistemi
98
Quaderni di Bioinformatica
automatici per l’immissione dei dati. A causa di queste differenze nelle dimensioni e nella qualità è necessario utilizzare il giusto
database adatto alle proprie esigenze.
KEGG.
KEGG (Kyoto Encyclopedia of Genes and Genomes) (http://www.kegg.jp/) è una serie di database sviluppati dal centro di
bioinformatica dell’università di Kyoto e dal centro del genoma umano dell’università di Tokio. KEGG risulta essere una vera e propria
enciclopedia, la sezione pathway consiste principalmente di network metabolici, la licenza è libera per uso non commerciale. KEGG è
unico per la sua copertura su lievito, topo e pathway metabolici umani. Tutto viene creato da curatori che leggono la letteratura e la
integrano nei database. Le informazioni sono disponibili via browser e i pathway mostrati come immagini GIF, in questo modo l’utente
non può gestire in maniera semplice le informazioni fornitegli.
BioCyc
E’ un pathway database fornito dalla SRI International (http://www.biocyc.org/), è di elevata qualità ed è focalizzato principalmente su
network metabolici. Oltre a BioCyc ci sono EcoCyc (E.coli), MetaCyc e HumanCyc database, le licenze sono libere per qualsiasi
utilizzo.
Ingenuity Pathways Knowledge Base
E’ il database creato dalla Ingenuity Systems Inc. (http://www.ingenuity.com/) , tutte le licenze sono a pagamento. Consiste
principalmente di network genici e di signalling. I database sono curati manualmente e contegono informazioni su specie umana, topo
e ratto. I database possono essere fruiti attraverso l’utilizzo di un software proprietario chiamato Ingenuity Pathway Analysis (IPA) che
permette contrariamente agli altri database di ottenere dei database personalizzati inserendo i propri dati di espressione genica o
proteomica, tutti gli output possono essere esportati in molteplici formati elettronici.
TRANSPATH
TRANSPATH è una serie di database creati da BIOBASE (http://www.biobase-international.com/). La versione più recente dei dati
richiede un accesso a pagamento. Tuttavia, alcune parti di vecchi dati sono fornite agli utenti accademici come versione di prova
(http://www.gene-regulation.com/). Oltre che TRANSPATH, BIOBASE offre il database TRANSFAC dei fattori della trascrizione e il
database PROTEOME per le proteina. Inoltre fornisce il software ExPlain per la consultazione di questi database.
ResNet
ResNet (http://www.ariadnegenomics.com/) è il database generato da Ariadne Genomics. Le autorizzazioni accademiche e
commerciali richiedono una tassa. I pathway di ResNet consistono principalmente nelle vie di segnalazione e nei network genici.
Diverso da altre banche dati, ResNet è costruito con analisi computerizzata. Cioè le vie e le reti sono generate con l'elaborazione del
linguaggio naturale della letteratura relativa. MedScan è usato per questa procedura di elaborazione del linguaggio naturale. La
banca dati è costruita pricipalmente dagli estratti in PubMed, ma alcune entry usano il testo integrale. In più, ci sono un piccolo
numero di entry generate dai curatori.
Signal Transduction Knowledge Environment (STKE): Database of Cell Signaling
STKE (http://stke.sciencemag.org/), è un servizio online fornito da Science. E’ una banca dati di alta qualità delle vie di segnalazione
generata ed effettuata dai curatori. Il database può essere raggiunto abbonandosi al servizio online di Science. Tuttavia, l'utente non
può specificare una lista dei geni (proteine) e generare una rete su quella selezione.
Reactome
Reactome è una banca dati di vie metaboliche e di segnalazione (http://www. reactome. org/). Cold Spring Harbor LaboratoryEuropean Bioinformatics Institute, and Gene Ontology Consortium ono gli sviluppatori principali del progetto. Anche se gli esseri
umani sono l'organismo principale catalogato, ha altre 22 specie catalogate tra le quali topo e ratto. Le informazioni sono estratte dai
curatori. Le vie e le reazioni del Reactome possono essere osservate ma non modificate con un web browser, tuttavia la gestione dei
dati risulta di semplice utilizzo.
Metabolome.jp
Metabolome.jp (http://metabolome.jp/) è una banca dati metabolica generata da alcuni laboratori di ricerca dell’università di Tokyo.
Utilizzando un applet denominato ARM, le vie possono essere osservate e pubblicate attraverso un browser. Le vie sono generate
dai curatori. Ogni prodotto metabolico è indicato con una formula strutturale. Diverso da KEGG, è possibile seguire il movimento degli
atomi nelle reazioni metaboliche.
Software per l’interattomica.
Ingenuity Pathway Analysis (IPA)
Ingenuity Pathway Analysis è il software usato per visualizzare i dati dell’Ingenuity Pathway Knowledge Base della Ingenuity Systems
Inc. Per un insieme dato di geni (o proteine), IPA genera automaticamente le vie che sono collegate con quei geni (o proteine). Ciò
significa, per esempio, che se si trova un insieme di macromolecole con elevata varianza di espressione dopo analisi di microarray o
proteomica, IPA genera automaticamente la via che coinvolge quei geni. La via è generata partendo dell'essere umano, dal topo e
dei dati del ratto. Di conseguenza, è necessario ricordare che anche se IPA genera una certa via è possibile che non risulti realmente
in quell’organismo ma sia solamente frutto degli algoritmi utilizzati.
Esistono altri software proprietari come MetaCore, Pathway Builder e Pathway Studio e open source come Cytoscape, IntAct e
Copasi.
99
Quaderni di Bioinformatica
BIBLIOGRAFIA ESSENZIALE
ANALISI D’IMMAGINE E STATISTICA MULTIVARIATA
Alban, A., Currie, I., Lewis, S., Stone, T., & Sweet, A. C. (2002) Mol. Biol. Cell 13, 407A–408A.
Alban, A., David, S. O., Bjorkesten, L., Andersson, C., Sloge, E., Lewis, S., & Currie, I. (2003) Proteomics 3, 36–44.
Bjellqvist, B., Ek, K., Righetti, P. G., Gianazza, E., Gorg, A., Westermeier, R., & Postel, W. (1982) J. Biochem. Biophys. Methods 6,
317–339.
Carpentier, S. C., Witters, E., Laukens, K., Deckers, P., Swennen, R., & Panis, B.(2005) Proteomics 5, 2497–2507.
Gustafsson, J. S., Ceasar, R., Glasbey, C. A., Blomberg, A., & Rudemo, M. (2004) Proteomics 4, 3791–3799.
Hotelling, H. (1933) J. Educ. Psychol. 24, 417–441.
Jackson, J. E. (2003) A User’s Guide to Principal Components. Wiley, New York.
Karp, N. A. & Lilley, K. S. (2005) Proteomics 5, 3105–3115.
Karp, N. A., Spencer, M., Lindsay, H., O’dell, K., & Lilley, K. S. (2005) J.Proteome Res. 4, 1867–1871.
Patton, W. F. (2000) Electrophoresis 21, 1123–1144.
Pearson, K. (1901) Phil. Mag. Ser. B. 2, 559–572.
Rabilloud, T. (2000) Proteome research: two dimensional gel electrophoresis and identification methods. Springer, Heidelberg.
Rabilloud, T., Vuillard, L., Gilly, C., & Lawrence, J. (1994) Cellular and Molecular Biology 40, 57–75.
Sharma, S. Applied Multivariate Techniques. Wiley, Hoboken, NJ.
Siegel, S. C. N. J. (1988) Non Parametric Statistics for Behavioral Sciences. McGraw-Hill Book Company
Switzer, R. C., Merril, C. R., & Shifrin, S. (1979) Anal. Biochem. 98, 231–237.
Tarroux, P. (1983) Electrophoresis 4, 63–70.
Tonge, R., Shaw, J., Middleton, B., Rowlinson, R., Rayner, S., Young, J., Pognan, F., Hawkins, E., Currie, I. et al. (2001) Proteomics
1, 377–396.
Unlu, M., Morgan, M. E., & Minden, J. S. (1997) Electrophoresis 18, 2071–2077.
Urfer, W., Grzegorczyk, M., & Jung, K. (2006) Proteomics S2, 48–55.
Westermeier, R. & Naven, T. (2002) Proteomics in Practice. Wiley-VCH,Weinheim.
Westermeier, R. (2001) Electrophoresis in Practice. Wiley-VCH, Weinheim.
Westermeier, R. (2006) Proteomics S2 61–64.
INTERATTOMICA
Aittokallio T, Schwikowski B (2006) Graph-based methods for analysing networks in cell biology. Brief Bioinform 7: 243¬255.
Baudot A, Jacq B, Brun C (2004) A scale of functional divergence for yeast duplicated genes revealed from analysis of the proteinprotein interaction network. Genome Biol 5: R76.
Baudot A, Martin D, Mouren P, Chevenet F, Guenoche A, et al. (2006) PRODISTIN Web Site: a tool for the functional classification of
proteins from interaction networks. Bioinformatics 22: 248¬250.
Brun C, Baudot A, Guénoche A, Jacq B (2004) The use of protein-protein interaction networks for genome wide protein function
comparisons and predictions. In: Kamp RM, Calvete JJ, Choli¬Papadopoulou T, editors. Methods in Proteome and Protein
Analysis. Berlin Heidelberg: Springer-Verlag. pp. 103-124.
Brun C, Chevenet F, Martin D, Wojcik J, Guénoche A, et al. (2003) Functional classification of proteins for the prediction of cellular
function from a protein¬protein interaction network. Genome Biol 5: R6.
Formstecher E, Aresta S, Collura V, Hamburger A, Meil A, et al. (2005) Protein interaction mapping: a Drosophila case study.
Genome Res 15: 376¬384.
Giot L, Bader JS, Brouwer C, Chaudhuri A, Kuang B, et al. (2003) A protein interaction map of Drosophila melanogaster. Science
302: 1727-1736.
Ito T, Chiba T, Ozawa R, Yoshida M, Hattori M, et al. (2001) A comprehensive two hybrid analysis to explore the yeast protein
interactome. Proc Natl Acad Sci U S A 98: 4569¬4574.
Li S, Armstrong CM, Bertin N, Ge H, Milstein S, et al. (2004) A map of the interactome network of the metazoan C. elegans. Science
303: 540¬543.
Rual JF, Venkatesan K, Hao T, Hirozane-Kishikawa T, Dricot A, et al. (2005) Towards a proteome¬scale map of the human
protein¬protein interaction network. Nature 437: 1173¬1178.
Sanchez C, Lachaize C, Janody F, Bellon B, Roder L, et al. (1999) Grasping at molecular interactions and genetic networks in
Drosophila melanogaster using FlyNets, an Internet database. Nucleic Acids Res 27: 89¬94.
Sharan R, Ulitsky I, Shamir R (2007) Network-based prediction of protein function. Mol Syst Biol 3: 88.
Stelzl U, Worm U, Lalowski M, Haenig C, Brembeck FH, et al. (2005) A human protein¬protein interaction network: a resource for
annotating the proteome. Cell 122: 957¬968.
Uetz P, Giot L, Cagney G, Mansfield TA, Judson RS, et al. (2000) A comprehensive analysis of protein¬protein interactions in
Saccharomyces cerevisiae. Nature 403: 623¬627.
100
Quaderni di Bioinformatica
INTRODUZIONE ALL’ANALISI D’IMMAGINE CON ELEMENTI DI R
Andrea Galli
Istituto Sperimentale Italiano Lazzaro
Spallanzani, Rivolta d’Adda (CR)
Premessa
Gran parte dei fenomeni dell’esistenza umana si manifestano sotto forma di pattern: i simboli della scrittura, gli elementi costitutivi del
parlato, disegni e immagini, i volti delle persone conosciute, ...L’importanza del riconoscimento (Pattern Recognition) è legata non
solo alla percezione, ma anche alla conoscenza: gli esseri umani valutano le situazioni in termini di pattern e agiscono in base alla
loro valutazione di tali pattern.. L’estensione al computer di capacità di riconoscimento di pattern può renderlo in grado di svolgere
compiti percettivi e cognitivi. Obiettivo ultimo del PR: costruire macchine che possiedano le nostre stesse capacità di riconoscimento
di pattern. L’uomo esegue il riconoscimento mediante una classificazione dei pattern. Il mapping è “opaco”, i dettagli del processo
sono inaccessibili agli osservatori e quasi sempre anche alla persona stessa. L’implementazione su computer di un metodo di PR
richiede che il mapping opaco sia sostituito da uno “trasparente”, di cui sia possibile dare una descrizione precisa sotto forma di
algoritmo. Prima di procedere in modo dettagliato alla descrizione di alcune problematiche relativa all’analisi delle immagini creiamo
una suddivisione metodologica del dominio di interesse anche se sappiamo che i confini fra le diverse aree sono assai labili
Image Processing (IP) o anche AI (Analisi Immagine). Studia tecniche e algoritmi per trattare immagini digitali: il riconoscimento
quindi delle immagine attinge da tale disciplina metodi di pre-processing e feature extraction per le immagini,
Computer Vision (CV) Descrive l’insieme di processi che mirano a costruire una descrizione del mondo esterno a partire da
immagini. Emulare gli effetti della visione umana attraverso acquisizione, elaborazione e comprensione delle immagini è la finalità
principale. Tutta la parte di PR che lavora su immagini è strettamente legata alla computer visionComputer Graphics (CG) Si occupa di risolvere il problema inverso: nel PR (pattern Recognition), dato un pattern (es. un’immagine),
l’obiettivo è estrarre e classificare gli elementi di interesse presenti (oggetti) in CG, dato un oggetto (costituito da una serie di
primitive), si vuole generare una rappresentazione realistica (immagine) di tale oggetto.
L’analisi d’immagine è una disciplina che consente di prendere delle decisioni da delle immagini, precedentemente acquisite. Scopo
principale è sia l’aumento delle informazioni delle immagini, rispetto a quanto percepibile dall’occhio umano, che la gestione
interattiva di macchinari.
I domini d’interesse sono svariati, quali la medicina, la biologia, la geografia, la meteorologia, la fisica, l’astronomia e l’industria.
In particolare per la medicina e la biologia esiste un settore della diagnostica e della ricerca particolarmente attivo, caratterizzato
dall’uso dei microarray che nell’analisi d’immagine trova la sua stessa ragione d’esistere. Il mondo dei microarray è infatti
caratterizzato da una componente prettamente genetico-molecolare che prevede l’utilizzo dei microchip e la generazione di immagini
complesse dove solo tecniche avanzate ed ottimizzate di analisi d’immagine consentono di estrapolare le informazioni d’interesse.
Nella presente introduzione all’analisi d’immagine verranno presentate, da un punto di vista concettuale, le tecniche di base e le loro
modalità di utilizzo, quindi verranno introdotte le potenzialità operative del software statistico (o meglio ambiente operativo) Open
Source R.
I momenti caratterizzanti l’analisi d’immagine sono i seguenti:
Acquisizione
Segmentazione
Riconoscimento degli oggetti
Misura
Analisi statistica
Tecniche di elaborazioni d’immagine possono essere applicati a diversi momenti operativi.
Fase
Acquisizione
Segmentazione
Operazioni
Digitalizzazione dell’immagine e sua
memorizzazione
Identificazione delle regioni
Immagine binaria
Riconoscimento degli oggetti
Identificazione degli oggetti
Descrittori degli oggetti
Misura
Esecuzione di misure sugli oggetti
(perimetro, area, …)
Analisi statistica eseguita sulle misure o
direttamente sugli oggetti
Dataset
Analisi statistica
101
Risultati
Memorizzazione in file
Statistica descrittiva delle
classificazione degli oggetti
misure,
Quaderni di Bioinformatica
Acquisizione
La fase di acquisizione prevede la conversione dell’immagine in un segnale elettronico adeguato per l’elaborazione digitale e la
memorizzazione. Avviene essenzialmente tramite telecamera o scanner e deve essere supportata da una adeguata illuminazione
degli oggetti. A tal fine sono utilizzabili differenti sorgenti luminose, quali i led ed i laser, molto utilizzati attualmente.
L’immagine acquisita è definibile come una distribuzione 2-D di energia, tipicamente nel visibile, e formalmente è rappresentabile
come una funzione: f(x,y) che descrive l’intensità (luminosità) della immagine in ogni punto (x,y).
Poiché f(x,y) è ccaratterizzata da 2 componenti: l’illuminazione i(x,y) e la riflettanza r(x,y), avremo allora:
f(x,y) = i(x,y) r(x,y) con 0 < i(x,y) < ∞ e
0 < r(x,y) < 1
L’intensità di una immagine monocromatica f(x,y) è rappresentata dal livello di grigio (l) di ogni punto dell’immagine (x,y): Lmin ≤ l ≤
Lmax con Lmin= imin.rmin se Lmax= imax.rmax pertanto [Lmin ,Lmax] rappresenta il livello di grigio. In pratica, in una scala di grigi da 0 ad L
[0,L], l = 0 rappresenta il nero e l = L rappresenta il bianco.
Per le immagini a colori (quali quelle acquisite nell’analisi dei microaray) si utilizza un insieme di tre funzioni, una per ogni colore
fondamentale (red, green, blue), pertanto f(x.y) diventa:
 r ( x, y ) 
f ( x , y ) =  g ( x , y )


 b( x, y ) 
Le immagini presentano una variazione continua di energia che deve essere quantificata, per poter essere adeguatamente gestita.
La quantificazione avviene a livello spaziale tramite suddivisione dell’immagine in pixel e a livello tonale tramite conversione dei colori
in livelli di grigio: si ottiene in tal modo una immagine digitale.
Il livello di risoluzione dipende dal numero di bit utilizzati, come riportato nella seguente tabella.
Numero di Bit
1
4
8
12
16
24
Risoluzione
21
24
28
212
216
224
Numero di colori / livelli di grigio
2
32
256
4096
65.536
16.777.216
Per applicazioni quali l’analisi d’immagine applicata allo studio del movimento cellulare si utilizzano immagini monocromatiche ad 8
bit, mentre per analisi dei microarray si utilizzano immagini a colori a 16 bit.
Ci sono vari formati di file utilizzabili per memorizzare l’immagine digitale e la maggior parte dei quali è proprietaria per un
determinato software. Di seguito si riporta una lista di formati utilizzabili.
Formato
BMP
EPS
GIF
JPEG
TIFF
Descrizione
Bitmap di Windows
Encapsulated Postscript,questo formato è utile per le informazioni basate su vettori rispetto a quelle basate su pixel.
Graphics Exchange Format, presenta la limitazione di una palette di 256 e non è utilizzabile per la maggior parte di
immagini scientifiche
Joint Photographic Experts Group, supporta colori a 24-bit, usa una tecnica di compressione (discrete cosine
function), spesso usata sulle pagine web, non è utilizzabile per la maggior parte di immagini scientifiche.
Tagged Image File Format, supporta immagini fino a 16 bit livelli di grigio a 16 bit e a colori a 24 bit. È il formato più
comunemente usato .
Per una immagine f(x,y) organizzata in forma di matrice di dimensioni N x M otterremo una immagine digitalizzata nella seguente
forma:
f ( x, y ) =
f (0,0)
f (0,1)
...
f (0, M − 1)
f (1,0)
f (1,1)
...
f (1, M − 1)
...
...
...
...
f ( N − 1,0)
f ( N − 1,1) ...
102
f ( N − 1, M − 1)
Quaderni di Bioinformatica
L’insieme dei pixel connessi rappresentanti una particolare caratteristica o proprietà degli oggetti è chiamata regione di una
immagine. Una immagine può contenere diverse regioni che rappresentano una particolare proprietà di un singolo oggetto complesso
oppure proprietà associate ai vari oggetti della scena.
Elaborazione delle immagini
L’elaborazione dell’immagine avviene attraverso l’utilizzo di operatori e metodi e può essere effettuata in diversi momenti dell’analisi
di immagini. Si reputa pertanto opportuno inserire un richiamo a questo fondamentale aspetto subito dopo l’acquisizione delle
immagini dal momento che può essere utilizzato già in questa fase. L’elaborazioni delle immagini consente di trasformare l’immagine
originale f(x,y) in una nuova immagine g(x,y) nella quale i pixel sono trasformati secondo un dato algoritmo.
Quale risultato è possibile eliminare i disturbi, esaltare i particolari ed estrarre le informazioni.
Possono essere eseguite operazioni sui pixel, come sull’intera immagine (filtraggi).
Operazioni sui pixel
Data una immagine f(x,y), i pixel p e q ed il sottoinsieme S di pixels di f(x,y), un pixel p di coordinate (x,y) ha:
N4(p) 4 pixel limitrofi orizzontali e verticali: (x+1,y) (x-1,y) (x, y+1) (x, y-1)
N4(p) 4 pixel limitrofi diagonali: (x+1,y+1) (x+1,y-1) (x-1,y+1) (x-1,y-1)
In totale esistono N8(p) 8 pixel limitrofi.
3 2 1
4 p 0
5 6 7
Il pixel p è adiacente al pixel q se questi sono connessi.
Due sottoinsiemi S1 e S2 dell’immagine sono adiacenti se almeno un pixel di S1 è adiacente ad uno di S2.
Un percorso dal pixel p (x,y) al pixel q (s,t) è una sequenza di pixel distinti con coordinate:
(x0,y0), (x1,y1), ......, (xn,yn)
(x0,y0)= (x,y) e (xn,yn)= (s,t)
(xi,yi) è adiacente (xi-1,yi-1), con 0 ≤ i ≤ n.
Dove n = lunghezza del percorso fra p e q.
Se p e q sono pixel di un sottoinsieme S dell’immagine allora p è connesso a q in S se c’è un percorso fra p e q all’interno di S.
Per i pixel p, q e z di coordinate (x,y), (s,t) e (u,v) D è la funzione distanza se:
D(p,q) ≥ 0 e D(p,q)=0 se p=q
D(p,q) = D(q,p)
D(p,z) ≤ D(p,q) + D(q,z)
Di seguito sono rappresentate le principali distanze.
D2 - Distanza Euclidea
D4 - Distanza (city block D)
D2(p,q) = [(x-s)2+(y-t)2]1/2
D4(p+q) = |x-s|+|y-t|
D4≤2 per (x,y)
Operazioni Aritmetiche fra due pixel p e q
Addizione (p+q)
Sottrazione (p-q)
Moltiplicazione (p*q; pq; p×q)
Divisione (p÷q)
D8 - Distanza (chessboard D)
D8(p,q) = max(|x-s|,|y-t|)
D8≤2 per (x,y)
Operazioni Logiche
AND (p AND q; p⋅q)
OR (p OR q; p+q)
COMPLEMENTO (NOT p; ~p)
I filtraggi sono operazioni sui pixel per modificarne i valori con tecniche puntuali, locali e globali. Quelli maggiormente usati sono
quelli con tecniche locali, con i quali i pixel vengono modificati non solo in base al loro valore, ma anche in base a quelli dei pixel che
li circondano. Questi filtri possano essere di vario tipo (di smoothing, a media mobile, gaussiano, mediano, di sharpening).
A titolo di esempio usando un filtro di tipo puntuale binario i pixel di una immagine
monocromatica vengono trasformati con la seguente regola:
i pixel tra 0 e x1 = 0 (nero)
i pixel tra x1 e x2 = a xmax
i pixel tra x2 e xmax = xmax (bianco).
x1
103
x2
Quaderni di Bioinformatica
Segmentazione
La segmentazione rappresenta la separazione delle regioni d’interesse all’interno dell’immagine rispetto al fondo, può essere pertanto
definita come un processo di raggruppamento di pixel omogenei e l’immagine da livelli di grigio viene convertita in binaria.
La segmentazione non implica un processo di classificazione.
L’algoritmo di segmentazione partiziona solamente l’immagine in regioni omogenee e non viene fornita nessuna informazione per
riconoscere gli oggetti associati.
Esistono diversi algoritmi, molti dei quali non sono esaustivi e sono basati su un approccio euristico utilizzando metodi ad hoc per
varie applicazioni.
Processo di segmentazione
Formalmente viene eseguito tramite un metodo che partiziona una immagine f(x,y) in regioni R1, R2, …, Rn che soddisfano le
seguenti condizioni:
n
UR
i
= f ( x, y )
i =1
Ogni regione Ri soddisfa un criterio di omogeneità P(Ri); ossia P(Ri) = vero per ∀ i = 1,n.
Ogni Regione Ri è spazialmente connessa.
Considerando due regioni confinanti (Ri e Rj), {Ri} è una partizione esclusiva, ossia Ri ∩ Rj = ∅ con i ≠ j, se i pixel appartenenti a
regioni confinanti Ri ed Rj, quando considerati congiuntamente, non soddisfano il predicato: P(Ri ∪ Rj) = Falso per ∀ i,j delle n
regioni.
La segmentazione può essere eseguita per soglia (thresholding), per bordo (edge finding) e per regione (region growing).
Segmentazione per soglia
Questa modalità di segmentazione rappresenta il metodo più semplice di segmentazione, ma forse quello maggiormente utilizzato.
Nella segmentazione per soglia tutti i toni sotto un livello selezionato sono trattati come zona d’interesse, quelli sopra come fondo.
In questo tipo di segmentazione è fondamentale che l’illuminazione sia omogenea rispetto l’intera scena.
Formalmente i livelli di grigio dell’immagine f(x,y) sono convertiti in immagine binaria g(x,y):
1 se
g ( x, y ) = 
0 se
f ( x, y ) ≥ S
f ( x, y ) < S
1 se
g ( x, y ) = 
0 se
f ( x, y ) ≤ S
f ( x, y ) > S
per oggetti chiari
per oggetti scuri
dove S è la soglia dei livelli di grigio con:
g(x,y) = 1 per i pixel appartenenti agli oggetti
g(x,y) = 0 per i pixel appartenenti allo sfondo
Se l’intervallo dei livelli di grigio [S1, S2] associato agli oggetti è noto, l’immagine binaria è ottenuta nel seguente modo:
1 se S1 ≤ f ( x, y ) ≤ S 2
g ( x, y ) = 
altrimenti
0
In alcune applicazioni, risulta efficace analizzare l’istogramma dei livelli di grigio di una immagine, per calcolare soglie appropriate,
allo scopo di identificare intervalli di livello di grigio che identificano con buona approssimazione lo sfondo (scuro o chiaro) e gli oggetti
della scena
Questo metodo può essere generalizzato per n oggetti con distribuzione Gaussiana dei livelli di grigio (µ1,σ1),.....,(µn, ,σn) e con lo
sfondo (µS,σS).
Se l’istogramma non presenta un andamento perfettamente bimodale qualunque scelta della soglia S individua pixel che possono
appartenere all’oggetto ed allo sfondo. Per minimizzare questo inconveniente, si può modificare l’istogramma dell’immagine non
considerando i pixel ad alto gradiente.
Per applicazioni dove non si ha una conoscenza dell’immagine, la soglia di segmentazione S si calcola valutando parametri statistici
della distribuzione dei livelli di grigio dei pixel dell’oggetto e dello sfondo.
Il metodo si basa sull’approssimazione dell’istogramma dell’immagine usando la media pesata di due densità di probabilità con
distribuzione normale.
Dall’istogramma dell’immagine (ad 8 bit) H(l) si deriva l’istogramma normalizzato dato da:
104
Quaderni di Bioinformatica
p( l ) =
H (l )
255
∑ H (i )
i =0
Nelle applicazioni dove l’immagine è acquisita in condizioni di luce non uniforme, le soglie selezionate con i metodi precedenti non
producono una buona segmentazione. In tale contesto, può essere utile dividere l’immagine in sottoimmagini quadrate e per queste
ultime la soglia è calcolata utilizzando i metodi precedenti. La segmentazione dell’immagine completa è ottenuta considerando come
soglia di ciascun pixel il valore di soglia interpolato tra due sottoimmagini
Segmentazione per bordo
Consente l’identificazione delle regioni dove è presente la maggior frequenza di cambiamento dei livelli di grigio e queste regioni
rappresentano i bordi dell’oggetto.
Si basa sul raggruppamento di pixel con massimo valore del gradiente che soddisfano percorsi con 4-vicinanza oppure con 8vicinanza e sulla base della direzione più probabile di continuazione del contorno.
Un aspetto limitante dell’approccio è dato dalle notevoli esigenza di calcolo necessario per l’individuazione di piccoli dettagli. Viene
utilizzata per scene con variazioni d’intensità luminosa nello spazio e/o nel tempo.
La segmentazione mediante soglia può essere utilizzata anche per l’estrazione dei bordi corrispondenti agli oggetti della scena.
Nell’ipotesi che tali oggetti sono scuri rispetto ad uno sfondo più chiaro, si può ipotizzare che un intervallo di livelli di grigio può
comprendere solo livelli che posti tra lo sfondo ed i confini di ciascun oggetto
Se si indica con ∆S l’intervallo che include solo i livelli di grigio dei contorni degli oggetti, si ottiene la seguente immagine segmentata:
1 se
g ( x, y ) = 
0
f ( x, y ) ∈ ∆S
altrimenti
Segmentazione per regioni
La segmentazione per accrescimento di regioni consente di acquisire informazioni relative ai pixel limitrofi al nucleo della regione in
accrescimento. Viene eseguito il merge dei pixel già aggregati con i pixel limitrofi di pari caratteristiche.
Questa tecnica è utile per l’analisi di sequenze di immagini di scene in movimento, nelle quali le immagini successive presentano forti
relazioni con quelle precedenti.
Riconoscimento degli oggetti
Quale risultato della fase di segmentazione nella quale ogni pixel può avere solo due stati (di interesse o di fondo) si ottiene una
immagine binaria. A questo punto si può procedere con il riconoscimento dell’oggetto. Per oggetto s’intende ogni regione
d’interesse all’interno della scena, in tal modo si ottiene una drastica riduzione dei dati poiché ed una volta identificati gli oggetti,
questi vengono memorizzati tramite una limitata serie di descrittori per le successive misure.
Misure
Le misurazione avviene partendo dalla definizione dei contorni dell’oggetto, dal momento che le misure lineari vengono definite tra
punti del contorno. Da un punto di vista strettamente operativo le misure, rappresentate da una serie di coordinate cartesiane, che
possono essere memorizzate in file, utilizzando procedure scritte tipicamente in C/C++. Vengono quindi calcolati i centroidi, l’area ed
il perimetro di ogni oggetto “contornato” utilizzando diversi metodi.
Metodo 1 (outside borders)
Perimetro - Il calcolo viene eseguito tramite un loop: per ciascun pixel (pixel bianchi), vengono analizzati i 4 pixel limitrofi, quindi ogni
pixel limitrofo fuori dalla figura aggiunge la sua superficie L al calcolo, dando come risultato il perimetro totale alla fine del loop.
Area - Viene calcolata come somma della superficie al quadrato L2 delle aree corrispondenti ai pixel all’interno del perimetro.
Metodo 2 (boundary chain coding)
Perimetro - Il calcolo viene eseguito tramite le linee di connessione tracciate fra i centroidi dei pixel vicino al bordo: si analizza
ciascun pixel ed i suoi limitrofi quindi si determina il contorno dell’oggetto muovendo verso destra o a 45°.
Area – La superficie L del pixel che è completamente all’interno dell’oggetto viene aggiunta come L2, mentre viene aggiunta come
L2/2 se la linea di connessione relativa al centroide del pixel presenta un angolo di 45°.
Analisi statistica
L’analisi statistica oltre ad intervenire durante le fase precedenti caratterizza specificatamente la fase successiva alla misurazione, in
quanto è necessario “convertire” i dati in informazioni.
105
Quaderni di Bioinformatica
Metodo statistico fondamentale è l’analisi dei cluster eseguibile con metodo k-mean e con metodo gerarchico. Con il primo si
perviene ad un raggruppamento in cluster e nel secondo alla costruzione di un dendogramma.
Per un campione di dimensione n descritto da uno spazio di d dimensioni il clustering è la procedura che divide lo spazio di d
dimensioni in k gruppi disgiunti, dove i punti all’interno di ogni gruppo sono più simili rispetto ai punti contenuti in altri gruppi.
Una misura di similarità è la distanza e la distanza comunemente usata è quella Euclidea.
Si rammenta che la distanza euclidea d12, fra 2 punti, (g11 , g21) e (g12, g22) è data da:
d12 =
(g11 − g12 )2 + (g 21 − g 22 )2
Per ogni processo di clustering è necessario stabilire il numero (k) di cluster (gruppi) desiderato, quindi si procede al clustering.
L’algoritmo k-mean parte attribuendo i dati ai k cluster arbitrari, quindi viene calcolata la distanza euclidea di ogni punto rispetto ai
centroidi dei cluster ed il punto viene riassegnato al cluster più “vicino”. Il processo si blocca quando non è più possibile riassegnare i
punti.
L’algoritmo per il clustering gerarchico parte con n nodi ed ad ogni step i due nodi più simili vengono uniti insieme in un nuovo nodo,
fino al raggiungimento del numero di cluster desiderato.
Elaborazione delle immagini
Analisi d’immagine e microarray
L’analisi di immagine viene applicata correntemente ai microarray,
dal momento che le immagini a colori ottenute dallo scanner laser
rappresentano una matrice di spot.
Innanzitutto è necessario scegliere la risoluzione e la profondità di
colore con cui effettuare la lettura. Per ottenere dei dati attendibili
si richiede che il diametro di uno spot sia di almeno 10 pixel,
mentre per apprezzare le differenze tra le intensità dei vari pixel si
impiegano si utilizzano immagini digitali a 16 bit (pari a 65535
colori), che possono essere memorizzate in formato TIF.
L’analisi di immagine si compone dei seguenti momenti principali.
individuazione degli spot;
isolamento dei pixel;
calcolo del valore rappresentativo del livello del segnale e sua valutazione qualitativa.
Individuazione degli spot - L’individuazione degli spot avviene definendo un cerchio attorno ad ognuno di essi, essenzialmente con
metodo semi–automatico (definendo una griglia da sovrapporre all’immagine ed un software identifica le posizioni degli spot) o
automatico (tramite appositi algoritmi).
Isolamento dei pixel negli spot - Una volta individuati gli spot, occorre decidere quali pixel formano lo spot, utilizzando un metodo di
segmentazione.
Con il metodo pure spatial–based signal segmentation i pixel che cadono all’interno del cerchio fanno parte del segnale, mentre quelli
al di fuori del cerchio fanno parte del fondo.
Con il metodo intensity based segmentation si assume che i pixel del segnale siano più chiari del fondo. Si possono caratterizzare i
pixel per il valore d’intensità e considerare l’ultimo frazione di essi come facente parte del segnale. Il metodo funziona bene se gli spot
hanno intensità elevata rispetto al fondo, ma sorgono problemi nel caso l’array è sporco o rumoroso.
Un semplice approccio statistico per l’individuazione dei pixel facenti parte dello spot è quello che prevede l’utilizzo del test non
parametrico di Mann–Whitney.
I diversi approcci possono essere fusi insieme a cascata.
Calcolo del valore del segnale - Una volta isolati i pixel del segnale il valore che definisce il livello di espressione del gene associato
può essere calcolato come media dei valori dei pixel nella regione del segnale. Si utilizzano poi appositi algoritmi per valutare la
qualità del segnale.
106
Quaderni di Bioinformatica
L’analisi di immagine tramite R
La gestione e l’elaborazione dei dati
rappresentano delle fondamentali esigenze
nell’ambito della ricerca di base ed
applicata, esigenze che possono essere
compiutamente supportate da adeguati
strumenti informatici.
Attualmente gli strumenti di tipo open
source (proposti con licenza GNU GPL)
stanno diventando dei veri e propri
standard di riferimento. Basti pensare a
sistemi operativi come Linux, a sistemi per
l’office automation quali OpenOffice o a
strumenti per l’analisi statistica quali R.
In particolare R è un ambiente per l’analisi
statistica dei dati che si compone di diversi moduli caricabili ed è scaricabile dal sito www.r-project.org. Il sito web contiene una serie
completa di riferimenti bibliografici di supporto ed approfondimento all’uso del software. Riferimenti bibliografici recenti, in lingua
italiana, sono riportati in bibliografia.
R è stato sviluppato inizialmente da Chambers e colleghi presso i Bell Laboratories ed il suo sviluppo deriva del linguaggio S (di tipo
F-OOP function oriented), proposto a suo tempo da Gentleman & Ihaka.
I moduli disponibili sono distribuito con licenza GPL e sono organizzati in un sito chiamato CRAN (Comprehensive R Archive
Network). Tramite questi moduli è possibile estendere le funzionalità del software potendo affrontare innumerevoli problematiche
anche non strettamente connesse all’analisi statistica dei dati. Ad esempio è possibile la comunicazione con database o con sistemi
GIS.
L’interfaccia nativa con R è a linea di
comando, con il caratteristico carattere di
prompt “>”.
107
Quaderni di Bioinformatica
Sono comunque disponibili, sempre
sottoforma di moduli, delle interfaccie GUI,
quali Rcmdr.
I moduli vengono caricati con il commando
library().
Ad esempio Rcmdr viene caricata tramite:
library(Rcmdr).
Le manipolazioni e le analisi dei dati avvengono tramite una serie di passaggi con risultati intermedi immagazzinati in oggetti o entità.
Le tipologie di dati disponibili sono:
Character (stringhe alfanumeriche),
Numeric (numeri reali in doppia precisione),
Integer (numeri interi con segno),
Logical (valori booleani),
Complex (numeri complessi).
Oltre ai comandi in linea (sviluppati tramite funzioni) possono essere sviluppati ed utilizzati degli script, come file di testo, contenenti
comandi.
Lo script può essere poi mandato in esecuzione tramite il comando:
source(<nome del file>).
I comandi sono rappresentati da espressioni o assegnazioni, contenenti tipicamente l’operatore di assegnazione “<-“ e delle funzioni
quali:
x <- mean(…).
I comandi sono case sensitive e sono separati dal carattere “;” o da un ritorno a capo.
Se il comando continua in più linee, ogni nuova linea deve incominciare con il carattere “+”.
Le funzioni possono essere definite dall’utente tramite la funzione function( <parametri> ) e sono definite tramite funzioni
elementari, assegnazioni, cicli, test.
Nel seguente esempio viene definita la funzione “Somma”, che può ricevere due parametri che verranno poi sommati fra di loro.
> Somma <- function(a,b) a+b
Quindi la funzione viene richiamata con gli opportuni parametri…
> somma(1,2)
… e si ottiene il risultato.
>3
Di seguito si riporta una definizione “evoluta” della funzione “Somma” dove si prevede una verifica dei parametri di lancio, tramite
if(…).
> Somma <- function(a,b) {
> + if((a>0) & (b>0))
> + a+b
> + else
> + -1
>+}
I vettori vengono creati tramite la funzione c(…):
x <- c(10,3,4).
Oppure tramite la funzione assign():
108
Quaderni di Bioinformatica
assign(“x”, c(10,3,4))
I vettori possono essere utilizzati in espressioni numeriche con operazioni eseguite elemento per elemento, possono contenere ogni
tipo di dati, mentre i dati mancanti sono definiti Not Available (NA).
Altri oggetti presenti in R sono: gli array, le liste ed i data frames.
Gli array sono rappresentano delle generalizzazioni multidimensionali di vettori.
Vengono creati tramite la funzione array(…).
Con il seguente esempio viene generato l’array x di dimensione 4 x 4 con gli elementi con valori da 1 a 16…
x <- array(1:16, c(4,4))
… ottenendo la seguente matrice:
1 5
9
13
2 6 10 14
3 7 11 15
4 8 12 16
Sono disponibili una serie di funzioni per il calcolo matriciale, quali: diag(), eigen().
Le liste rappresentano dei vettore con elementi di tipo diverso.
I data frames sono delle strutture tipo array le cui colonne possono essere di tipo differente.
Vengono gestiti da una apposita classe (data.frame) e possono essere composti da: vettori, array, liste, altri data frame. I vettori
devono avere la stessa lunghezza, gli array devono avere la stessa ampiezza di riga.
I dati presenti in un file possono essere letti, e caricati in memoria, tramite la funzione:
Read.table(<nome del file>, header=TRUE/FALSE)
L’analisi di immagine con R in pratica
R dispone di diversi moduli usabili per l’analisi d’immagine, applicabile alla gestione dei microaaray come a diverse altre situazioni
analitiche (ad esempio istologia quantitativa).
Un ottimo modulo di utilizzo generale è EBImage, che richiede la preventiva installazione dei tool grafici ImageMagick e GTK+.
EBImage è scaricabile dal sito del progetto Bioconductor, insieme ad una completa documentazione
(http://www.bioconductor.org/packages/release/bioc/html/EBImage.html).
EBImage viene caricato, dall’ambiente R, tramite:
library("EBImage")
Importazione dell’immagine
Se l’immagine (memorizzata in formato TIF) è composta da differenti frame questi possono essere letti e caricati insieme in memoria
in uno stack, quindi l’immagine e lo stack vengono memorizzati in una Classe “immagine”.
I comandi che implementano il tutto sono i seguenti:
imgdir = file.path(system.file(package="EBImage"),"images")
fG = dir(imgdir, pattern="_G.tif", full.names=TRUE)
iG = readImage(fG[1], Grayscale)
class(iG)
Elaborazione delle immagini
Gli istogrammi delle intensità per ogni frame nello stack può essere ottenuto con:
for(i in 1:4)
+ hist(iR[,,i], breaks=20, xlim=c(0,1))
Quindi si può ottenere la normalizzazione delle intensità delle immagini tramite:
iGn = normalize(iG, separate=TRUE)
Segmentazione
La segmentazione può essere effettuata tramite un valore soglia:
mask = thresh(iGn,15,15,0.002)
È quindi possibile eseguire elaborazione d’immagine (erosione, closing,…) tramite apposite funzioni:
Mask = dilate( erode( closing(mask, mk5), mk3), mk5)
Sono quindi possibili una serie completa di funzioni adeguate per operare esaustive identificazioni di oggetti, misure e statistiche,
come riportato nella bibliografia presente nel sito.
109
Quaderni di Bioinformatica
R e la genomica
R ha una sezione apposita per l’analisi statistica
dei dati genomici relativa al sito del progetto
Bioconductor.
Il sito web è www.bioconductor.org.
Il sito rappresenta una vera e propria miniera di
procedure e documentazione utili per gli
specialistici del settore.
Bibliografia essenziale
AAVV (1985) Image Analysis Principles & Practice. Published by Joyce Loebl Ltd.
Bankman I. and I.N. Bankman (2000) eds Handbook of Medical Imaging: Processing and Analiysis, Academic Press.
Espa G., Micciolo R. (2008) Problemi ed esperimenti di statistica con R. Apogeo, Milano.
Fox J (2005) The R Commander: A Basic-Statistics Graphical User Interface to R Journal of Statistical Software, 14 (9).
Gonzalez R.C. and R.E. Woods (2002) Digital Image Processing (2d ed.), Prentice-Hall.
Iacus S.M., Masarotto G (2003) Laboratorio di statistica con R. McGraw-Hill, Milano.
Notes on R: A Programming Environment for Data Analysis and Graphics Version 2.11.0 (2010-04-22).
Pau G., Fuchs F., Sklyar O., Boutros M. and Huber W. (2010) EBImage an R package for image processing with applications to
cellular phenotypes. Bioinformatics applications note, 26(7), 979–981.
R Development Core Team (2008). R: A language and environment for statistical computing. R Foundation for Statistical Computing,
Vienna, Austria. URL http://www.R-project.org.
Sklyar O., W. Huber (2008) Introduction to EBImage, an image processing and analysis toolkit for R.
Stefanini M.F. (2007) Introduzione alla statistica applicata con esempi in R. Paravia Bruno Mondadori Editori, Milano.
Venables W. N., D. M. Smith and the R Development Core Team (2010) An Introduction to R
Yang, Y. H., Buckley, M. J. and Speed, T. P. (2001) Analysis of cDNA microarray images. Briefings in bioinformatics, 2 (4), 341-349.
110