Adriana Maggi
DOCENTE DI BIOTECNOLOGIE FARMACOLOGICHE
CORSO DI LAUREA SPECIALISTICA IN BIOTECNOLOGIE DEL FARMACO
AA 2011/2012
Lezione 6
Bioinformatica nel processo di drug discovery
Bioinformatics in the
drug discovery process
Alessandro Villa
Center of Excellence on Neurodegenerative Diseases
Department of Pharmacological Sciences
University of Milan
Genome-wide studies
Recently invented methods allow researchers to
analyze the expression of thousands of genes
simultaneously using DNA microarrays. Coupling
these methods with the results from genome
sequencing projects allows researchers to analyze
the complete transcriptional program of an organism
during
specific
physiological
responses
or
developmental processes.
 Cosa sono i chip a DNA
• I chip a DNA sono costituiti da un array di
microscopiche aree, ciascuna contenente 107 sonde
identiche di 20-50 pb, covalentemente fissate al
supporto (vetro, plastica, silicio o beads di
polistirene)
• Sfruttano una tecnica di ibridazione inversa: le
probe sono fissate al supporto (in una posizione
nota), mentre i frammenti di DNA da analizzare
(target) sono marcati con biotina o con marker
fluorescenti e ibridizzati alle sonde
• Il DNA target, legato alla sonda, può essere
identificato utilizzando uno scanner, capace di
rivelare il segnale emesso
 Cosa sono i chip a DNA
• I chip a DNA sono costituiti da un array di
microscopiche aree, ciascuna contenente 107 sonde
identiche di 20-50 pb, covalentemente fissate al
supporto (vetro, plastica, silicio o beads di
polistirene)
• Sfruttano una tecnica di ibridazione inversa: le
probe sono fissate al supporto (in una posizione
nota), mentre i frammenti di DNA da analizzare
(target) sono marcati con biotina o con marker
fluorescenti e ibridizzati alle sonde
• Il DNA target, legato alla sonda, può essere
identificato utilizzando uno scanner, capace di
rivelare il segnale emesso
 Cosa sono i chip a DNA
• I chip a DNA sono costituiti da un array di
microscopiche aree, ciascuna contenente 107 sonde
identiche di 20-50 pb, covalentemente fissate al
supporto (vetro, plastica, silicio o beads di
polistirene)
• Sfruttano una tecnica di ibridazione inversa: le
probe sono fissate al supporto (in una posizione
nota), mentre i frammenti di DNA da analizzare
(target) sono marcati con biotina o con marker
fluorescenti e ibridizzati alle sonde
• Il DNA target, legato alla sonda, può essere
identificato utilizzando uno scanner, capace di
rivelare il segnale emesso
 Come si producono
• FOTOLITOGRAFIA (in situ):
Fasci di luce e maschere fotolitografiche sono
utilizzati per produrre le sonde direttamente sul
supporto;
• SPOTTED MICROARRAYS:
Le sonde sono sintetizzate prima della loro
deposizione sull’array, e solo successivamente
“spottati” sul supporto.
 Microarray e Tiling array
• MICROARRAY DI ESPRESSIONE: le sonde utilizzate rappresentano
porzioni di trascritti noti
Gene 1
Gene 2
• TILING ARRAYS: coprono l’intero genoma o porzioni definite di
genoma (tutti i promotori, solo alcuni cromosomi…)
Gene 1
Gene 2
 Quali utilizzi hanno
• MICROARRAY DI ESPRESSIONE: utilizzati quasi esclusivamente per
l’analisi dei livelli di espressione di trascritti noti, confrontata in diverse
condizioni (es. controllo-trattamento, cellula sana-cellula tumorale etc.)
Gene 1
Gene 2
• TILING ARRAYS: Utilizzati per
• analisi unbiased dell’espressione genica (geni non noti e miRNA);
• ChIP-on-chip (chromatin immunoprecipitation on a chip)
• Array CGH (comparative genomic hybridization): tecnica usata in
diagnostica per l’individuazione di copy number variations e anomalie del
DNA
Gene 1
Gene 2
 Applicazioni
Microarray di espressione
Tiling Arrays
Analisi delle differenze di espressione genica nelle due
diverse condizioni
Analisi delle regioni di binding sulla cromatina di ERalfa
nelle due diverse condizioni
Il trattamento/ diversa condizione fisiologica
/ patologia influenzano l’espressione genica?
Quali sono i geni differenzialmente espressi?
Dove si localizza ERalfa?
La sua localizzazione è influenzata dal
trattamento / condizione fisiologica/
patologia?
Workflow
Output
Analisi dei Dati
Risultati
 Workflow
Microarrays
Congelamento
Estrazione RNA
Retrotrascrizione
Marcatura
Ibridazione
GeneChip Mouse Genome 430
2.0 Array – Affymetrix
39.000 transcripts
1 expression array
 Output
Intensità  CEL file
Normalizzazione  RMA file
Quasi 40.000 trascritti conosciuti
 Output – software di analisi dati
• MeV: MultiExperiment Viewer (MeV)
da TM4 microarray software suite http://www.tm4.org/
free
• Rosetta Resolver System: http://www.rosettabio.com/
• Genomatix: http://www.genomatix.de
•dChip: http://biosun1.harvard.edu/complab/dchip/
Lista di geni differenzialmente espressi nelle due condizioni (vehtrattato; etc.) in un file
 Analisi dei dati
Come otteniamo informazioni da questa lista di geni?
Analizzandoli uno ad uno….
… o utilizzando specifici software
che consentono di ottenere in
modo semplice informazioni sulla
funzione dei geni identificati
ONTOLOGIES
 Analisi dei dati
• GENE ONTOLOGY: può essere considerato una specie di enciclopedia
che raccoglie tutte le informazioni disponibili sui geni noti, attraverso
delle definizioni e delle parole chiave condivise.
• E’ suddiviso in 3 categorie:
• Processi biologici
• Funzioni molecolari
• Componenti cellulari
Un prodotto genico ha una o più funzioni cellulari, può essere coinvolto in diversi
processi biologici e infine potrebbe essere associato a diversi compartimenti cellulari.
http://www.geneontology.org/
http://david.abcc.ncifcrf.gov/home.jsp
Phosphomevalonate kinase
Workflow e messa a punto
Output
Analisi dei dati
Risultati
 Workflow e messa a punto
Crosslinking
Sonicazione
500
100
DNA
Crosslinking inverso
Purificazione DNA
LM-Amplification
Frammentazione
Marcatura
Ibridazione
Binding Regions
ChIP-chip
Immunoprecipitazione
mRNA
 Output
Cutoff
1. Rilevazione del segnale relativo alle sequenze
Chipped, e posizionamento sul DNA
2. Definizione dei picchi relativi alle regioni di binding
tramite specifico algoritmo
3. Normalizzazione e analisi dei picchi che superano il
limite di cutoff
 Output
Chr 10
23476246
23477332
BED file
 Bed Files visualization
• UCSC Genome Browser
• INTEGRATED GENOME BROWSER (IGB)
Add custom track
 Bed Files analysis
• CISTROME ANALYSIS PIPELINE MODULE
Ingenuity Pathway Analysis Software
http://www.ingenuity.com/index.html