Bioinformatica Analisi del trascrittoma Dott. Alessandro Laganà Analisi del trascrittoma 2 Regolazione dell’espressione genica I microarray cDNA microarray Oligo microarray Affymetrix Chip Analisi dei dati di espressione Bioinformatica: Analisi del trascrittoma 12-04-2010 Tutte le cellule di un organismo hanno (quasi) lo stesso genoma Due cloni hanno lo stesso genoma, ma possono mostrare fenotipi diversi. Si adattano a diverse condizioni ambientali? Il genoma di un organismo rimane (quasi) costante nel tempo 3 Perche i diversi tessuti sono così “diversi”? Perché allora l’organismo cambia nel tempo? Bioinformatica: Analisi del trascrittoma 12-04-2010 Stesso genotipo, fenotipi diversi Pranzo ogni giorno da McDonald’s Mi nutro di alghe e cibo macrobiotico Lo stesso genotipo esprimerà differenti fenotipi a causa di diversi stimoli ambientali 4 Bioinformatica: Analisi del trascrittoma 12-04-2010 Il genoma sa cosa fare in ogni condizione 5 Sviluppo Risposta immunitaria Condizioni di stress Cambiamenti ambientali Interazioni Per questa ragione a volte è meglio analizzare delle “istantanee” del sistema Bioinformatica: Analisi del trascrittoma 12-04-2010 Flusso dell’informazione genica 6 DNA Genomica Transcrizione RNA Trascrittomica Traduzione PROTEINS (ENZIMES) Proteomica Modificazioni post traduzionali, … FUNCTION (METABOLISM) Metabolomica Bioinformatica: Analisi del trascrittoma 12-04-2010 Approccio globale(1) From “single gene” to “large scale” ONE-GENE APROACH • Real Time PCR • PCR semiquantitativa • Northern blot • In situ Hybridization LARGE SCALE APROACH • Systematic sequencing of ESTs from cDNA libraries • SAGE (Serial Analysis of Gene Expression) • cDNA microarrays 7 Bioinformatica: Analisi del trascrittoma 12-04-2010 Approccio Globale(2) Nella scienza spesso si cerca di scomporre I problemi complessi nei singoli elementi che li costituiscono L’analisi separata di ogni componente dovrebbe permettere la comprensione del problema complesso. Questa assunzione può costituire un limite in quanto: Il tutto non è sempre uguale alla somma delle parti 8 Bioinformatica: Analisi del trascrittoma 12-04-2010 9 L’analisi dei trascritti si focalizza su un contesto maggiormente dinamico rispetto all’analisi dei geni. Il trascrittoma è più “vicino” al fenotipo rispetto al genoma. L’analisi di migliaia di trascritti ci permette di avere una chiara visione del complesso nella sua interezza (relazioni tra i geni) Bioinformatica: Analisi del trascrittoma 12-04-2010 Analisi del trascrittoma Regolazione dell’espressione genica I microarray cDNA microarray Oligo microarray Affymetrix Chip Analisi dei dati di espressione 10 Bioinformatica: Analisi del trascrittoma 12-04-2010 DNA Microarrays Diverse migliaia (fino anche a 30.000 geni) posso essere rilevati simultaneamente in un unico esperimento 2 diversi canali possono essere utilizzati simultaneamente per visualizzare le differenze nei profili di espressione di 2 campioni. 11 Bioinformatica: Analisi del trascrittoma 12-04-2010 Microarray: le slide. • In ogni area rappresentata dai cerchietti (spots) è contenuta una certa quantità di molecole di DNA (sonde o probes). • Dentro ogni spot le molecole di DNA immobilizzato sono identiche per sequenza e specifiche per un particolare gene di un organimo per il quale la piattaforma è stata progettata. • La specificità per il gene target è acquisita attraverso la complementarietà. 12 Bioinformatica: Analisi del trascrittoma 12-04-2010 13 Bioinformatica: Analisi del trascrittoma 12-04-2010 Gene 1 cDNA marcato, estratto da un campione Gene 2 Gene 3 L’ibridazione si ottiene attraverso appaiamenti canonici di Watson-Crick (AU e GC) Coated glass slide 14 Bioinformatica: Analisi del trascrittoma 12-04-2010 Diversi tipi di Microarray cDNA Microarray (piattaforma a doppio canale) Oligo Array (piattaforma a doppio canale) Più vecchi, meno efficienti. I geni target immobilizzati sulla slide sono costituiti da cDNA. La lunghezza media è elevata può arrivare anche a qualche kilobase (cDNA full lenght). Aspecificità. Più efficienti dei cDNA Microarray. Le librerie di oligo devono essere progettate con cura. Gli oligo utilizzati sono di solito 70meri. Risposta più specifica. Affymetrix chips (piattaforma a singolo canale) 15 Realizzati tramite tecniche microlitografiche. Oligo molto corti. Utilizzo di Probe set. Tecnologia Single Channel. Bioinformatica: Analisi del trascrittoma 12-04-2010 Analisi del trascrittoma Regolazione dell’espressione genica I microarray cDNA microarray Oligo microarray Affymetrix Chip Analisi dei dati di espressione 16 Bioinformatica: Analisi del trascrittoma 12-04-2010 Viene prodotta una libreria di molecole di cDNA (DNA complementare all’RNA). Per la “memorizzazione” e la “gestione” di queste molecole vengono utilizzati batteri e vettori a plasmide. Per produrre un microarray in grado di identificare 20,000 geni, occorrono almeno 20,000 cloni differenti. 17 Bioinformatica: Analisi del trascrittoma 12-04-2010 La collezione di cDNA è solitamente contenuta in un grande numero di pozzetti. Ogni pozzetto contiene un singolo clone, che rappresenta un gene target. Per posizionare i cloni nella piastra microarray, occorre estrarre da ogni pozzetto solo la molecola di cDNA per la sonda (PCR). Alla fine di questo processo si ottengono delle piastre i cui pozzetti contengono le sonde, pronte per essere inserite nel microarray (Spotting). 18 Bioinformatica: Analisi del trascrittoma 12-04-2010 Un robot trasferisce automaticamente le sonde a cDNA contenute nei pozzetti sulla superficie della piastra (Spotting). Le due tecnologie utilizzate sono Piezoelectric (ink jet style) Pen (Capillarity) 19 Bioinformatica: Analisi del trascrittoma 12-04-2010 20 Bioinformatica: Analisi del trascrittoma 12-04-2010 Uno svantaggio dei cDNA microarray Aspecificità Gene A Gene A cDNA Che succede se i geni A e B hanno questa regione in comune tra le loro sequenze? Gene B Gene B cDNA Il gene B sarà rilevato dal cuo cDNA specifico ma anche de quallo specifico per il gene A. L’aspecificità può condizionare pesantemente I risultati. Delle condizioni sperimentali “stringenti” (alta temperatura, concentrazioni di Sali elavate) possono cercare di limitare questo fenomeno. 21 Bioinformatica: Analisi del trascrittoma 12-04-2010 cDNA microarrays: pro e contro Pro: Economici da realizzare. Serve un robot ed una collezione di cDNA. Contro: 22 L’aspecificità influenza i risultati. Bioinformatica: Analisi del trascrittoma 12-04-2010 Analisi del trascrittoma Regolazione dell’espressione genica I microarray cDNA microarray Oligo microarray Affymetrix Chip Analisi dei dati di espressione 23 Bioinformatica: Analisi del trascrittoma 12-04-2010 Oligo Microarrays Una sonda più corta viene utilizzata per rappresentare un gene. Di solito la lunghezza degli ologo è di circa 70 nucleotidi. Gli Oligo devono essere sintetizzati. La cinetica di ibridazione è diversa rispetto agli array precedenti. 24 Bioinformatica: Analisi del trascrittoma 12-04-2010 Gene A Gene B Gene C Oligo for gene B Oligo for gene A Oligo for gene C Bioinformatica: Analisi del trascrittoma 12-04-2010 I Gene A, B e C condividono alcune sottosequenze. Un design razionale di specifici oligo può produrre delle sonde altamente specifiche. 25 Oligo Microarrays: oligos design I candidati oligo devono essere specifici e stabili. BLAST è usato per verificare che: Ogni oligo sia complementare solo (o almeno soprattutto) al gene correlato Ogni oligo non abbia ripetizioni interne Gli Oligo vengono valutati anche in termini di caratteristiche termodinamiche poiché devono legarsi ai loro target con energia sufficientemente elevata (coppie G-C preferite) 26 Bioinformatica: Analisi del trascrittoma 12-04-2010 Oligo Microarrays Pro: Specificità dell’ibridazione aumentata (a patto di aver effettuato un buon disegno sperimentale), miglioramento della sensibilità. Contro: 27 Necessarie concentrazioni superiori di oligo. Non tutti i laboratori sono in grado di sintetizzare oligo. Costi leggermente superiori Bioinformatica: Analisi del trascrittoma 12-04-2010 Esperimenti Dual Channel: ibridazione 28 Gli spot il cui gene associato è più abbondante nel campione rosso, “si colorerà” di rosso. Gli spot il cui gene associato è più abbondante nel campione verde, “si colorerà” di verde. Se la concentrazione di un gene è simile in entrambe i campioni, lo spot relativo “si colorerà” di giallo. Bioinformatica: Analisi del trascrittoma 12-04-2010 Esperimenti Dual Channel Experiments: L’immagine L’immagine risultante è fatta di spots i cui colori vanno dal verde al rosso passando per il giallo, che rappresenta gene egualmente espressi nei due campioni. I geni più interessanti sono i più verdi e i più rossi: questi rappresentano i geni che sono maggiormente sbilanciati, nella loro espressione, nei due campioni. 29 Bioinformatica: Analisi del trascrittoma 12-04-2010 È necessario passare dall’immagine a valori numerici che rappresentano l’intensità del segnale per ogni spot. Addressing: individuare gli spot. Segmentation: definire la forma geometrica che delimita lo spot dal background. Flagging: distinguere i good spots dai bad spots. 30 Information extraction: calcolare l’intensità del segnale e del background su entrambi i canali per ogni spot nell’immagine. Bioinformatica: Analisi del trascrittoma 12-04-2010 Preprocessing dei Dati Normalizzazione: processing dei dati all’interno della stessa ibridazione. Standardizzazione (o Normalizzazione tra gli array): processing dei di tutti gli esperimenti (rende i dati paragonabili tra loro e quindi utilizzabili nello stesso processo di analisi) 31 Bioinformatica: Analisi del trascrittoma 12-04-2010 Normalizzazione Normalizzare i dati provenienti da una ibridazione self-to-self è banale, ma come ci si comporta con i dati di un esperimento in cui ogni canale (od ogni array nel caso della standardizzazione) rappresenta una diversa sorgente? Selezione dei geni per BIAS correction TUTTI I GENI Assunzione: la maggior parte dei geni sono espressi in maniera uguale nelle cellule paragonate, mentre solo una piccola parte dei geni è differenzialmente espressa (<20%). Geni Housekeeping Assunzione: sulla base della conoscenza biologica un set di geni può essere considerato come egualmente espresso nei campioni comparati. Spiked-in controls Alcuni controlli vengono immessi nei campioni a concentrazioni note per tarare il sistema Invariant set Un set di geni viene individuato come costante senza nessuna conoscenza biologica di partenza. 32 Bioinformatica: Analisi del trascrittoma 12-04-2010 Analisi del trascrittoma Regolazione dell’espressione genica I microarray cDNA microarray Oligo microarray Affymetrix Chip Analisi dei dati di espressione 33 Bioinformatica: Analisi del trascrittoma 12-04-2010 Tecnologia Affymetrix: una piattaforma a singolo canale Sono basati su una tecnologia proprietaria per produrre oligo microarray direttamente sulla superficie dei chip tramite microlitografia. Gli oligo sintetizzati sono molto corti (circa 25 nucleotidi). Ogni gene è identificato da un set di sonde e non da una soltanto (probeset). Sono usati per esperimenti a singolo canale (un solo campione per chip) e forniscono quindi una misura diretta ed indipendente del livello di espressione genica in un campione. 34 Bioinformatica: Analisi del trascrittoma 12-04-2010 The process 35 Bioinformatica: Analisi del trascrittoma 12-04-2010 Single channel. Information provided L’output fornito dal sistema consiste da livelli di espressione genica assoluti, che rappresentano una valutazione diretta della quantità di mRNA prodotto per ogni gene. Non è basato su rapporti (al contrario del dual channel). Il livello di espressione di un gene è ottenuto dall’integrazione di tutti i dati del probeset. 36 Bioinformatica: Analisi del trascrittoma 12-04-2010 Affymetrix Technology Pro: Misura diretta ed indipendente. Alta efficienza, specificità e riproducibilità. Elevati livelli di standardizzazione dei protocolli. Contro: 37 Le nuove versioni dei chip non sono compatibili con quelle vecchie (il data merging non è possibile). Tecnologia proprietaria e non customizzabile. Bioinformatica: Analisi del trascrittoma 12-04-2010 Analisi del trascrittoma Regolazione dell’espressione genica I microarray cDNA microarray Oligo microarray Affymetrix Chip Analisi dei dati di espressione 38 Bioinformatica: Analisi del trascrittoma 12-04-2010 Analisi dei dati Cosa vogliamo sapere dai nostri dati? 1) Quali geni sono responsabili delle differenze tra la condizione A e la condizione B (geni differenzialmente espressi) 2) Quali geni si muovono insieme, nella modalità di espressione, all’interno di uno stesso campione (geni coespressi) 3) Esiste un “classificatore” che ci permette di riconoscere su base molecolare una data condizione? 39 Bioinformatica: Analisi del trascrittoma 12-04-2010 Analisi dei dati Da cosa partiamo? 40 Bioinformatica: Analisi del trascrittoma 12-04-2010 Clustering Metodiche per il raggruppamento dei geni (e dei campioni) che mostrano un comportamento simile dal punto di vista dell’espressione. Il Clustering gerarchico raggruppa i geni ed i campioni in gruppi via via sempre più stretti contenenti geni via via sempre più simili nell’espressione. E’ possibile quindi identificare una gerarchia ed un grado di “parentela” tra i diversi gruppi ottenuti 41 Bioinformatica: Analisi del trascrittoma 12-04-2010 Clustering Due geni che mostrano un pattern di espressione genica simile si possono considerare coespressi. Ci sono evidenze che molti geni funzionalmente correlati sono coespressi. Ad esempio geni codificanti per elementi di un complesso proteico solitamente hanno simili pattern di espressione. Geni coespressi possono dare informazioni sui meccanismi regolatori. Se un sistema regolativo controlla due o più geni questi risulteranno essere coespressi. 42 Bioinformatica: Analisi del trascrittoma 12-04-2010 Clustering Una situazione ideale 43 Bioinformatica: Analisi del trascrittoma 12-04-2010 GEO Gene Expression Omnibus (GEO) è una banca dati relativa ad esperimenti di varia natura basati sulla tecnologia dei microarrays e preposti allo studio di espressione di geni e di ibridizzazione fra genomi I dati sono classificati in 3 categorie: platform = dati su tutte le sonde molecolari identificative di ciascuno spot per l’allestimento di un microarray samples = dati sui campioni biologici analizzati series = tutti i dati relativi a un esperimento Ogni elemento annotato in ciascuna categoria è identificato da un entry code del tipo GPL##### per la categoria platform, GSM##### per la categoria samples e GSE##### per la categoria series GEO è accessibile al seguente indirizzo: http://www.ncbi.nlm.nih.gov/geo/ 44 Bioinformatica: Analisi del trascrittoma 12-04-2010 GEO (2) La sottomissione dei dati in GEO può essere effettuata via web o mediante il software SOFT che può essere scaricato ed utilizzato per la preparazione dei dati da sottomettere Submitter è colui che sottomette le informazioni sperimentali. Egli possiede uno userId (obbligatorio) fornitogli dal sistema GEO e una password. I dati sottomessi ricevono un accession number che può essere inviato alla rivista su cui si pubblicano i risultati scientifici associati all’esperimento sottomesso 45 Bioinformatica: Analisi del trascrittoma 12-04-2010