modulo “bioinf. dei genomi moderni”

Bioinformatica
(modulo “bioinf. dei genomi moderni”)
Dr. Marco Fondi
Lezione # 1
Corso di Laurea in Scienze Biologiche, AA 2010-2011
1
giovedì 14 ottobre 2010
Dr. Marco Fondi
Lab. di Evoluzione Microbica e Molecolare
Dip. di Biologia Evoluzionistica
Via Romana 17/19
tel: 055 2288244
email: [email protected]
2
giovedì 14 ottobre 2010
stay tuned!
mail a [email protected] oggetto “corso bioinformatica”
mailing list
www.unifi.it/dblemm
3
giovedì 14 ottobre 2010
Programma del modulo
1. Introduzione al corso, risorse web, principali tipi di file
2. Allineamenti multipli di sequenze, Editing di sequenze, BioEdit Package. Caso studio:
RND efflux system, ricerca dei domini conservati
3. BLAST (Basic Alignment Search Tool)
4. Basi di evoluzione molecolare, Filogenesi (metodi ed applicazioni), Mega4 Package.
Caso studio: Trasferimento genico orizzontale, identificazione batterica
5. Analisi di dati di espressione genica e/o assegnazione funzionale di sequenze
6. Simuazione di un protocollo (esercitazione pratica)
4
giovedì 14 ottobre 2010
orario
5
giovedì 14 ottobre 2010
oggi
Cosa è la bioinformatica
Web resources
Struttura file più comuni
6
giovedì 14 ottobre 2010
era “-OMICS”
Genomica (presenza/assenza geni)
Trascrittomica (espressione geni)
Fenomica
7
giovedì 14 ottobre 2010
era “-OMICS”
Genomica (presenza/assenza geni)
Trascrittomica (espressione geni)
Fenomica
8
giovedì 14 ottobre 2010
cosa si ottiene da queste
nuove tecnologie?
sequenziamento massivo (454 Roche)
esperimento di trascrittomica (microarray)
esperimento di fenomica (Biolog)
9
giovedì 14 ottobre 2010
ERA GENOMICA
10
giovedì 14 ottobre 2010
454, Roche ®
Sequenziatori
ABI's SOLiD Method.
Solexa, Illumina ®
11
giovedì 14 ottobre 2010
12
giovedì 14 ottobre 2010
13
giovedì 14 ottobre 2010
numero attuale di genomi disponibili
14
giovedì 14 ottobre 2010
15
giovedì 14 ottobre 2010
16
giovedì 14 ottobre 2010
17
giovedì 14 ottobre 2010
> 20 000 strutture proteiche
18
giovedì 14 ottobre 2010
Microarray experiments data
19
giovedì 14 ottobre 2010
?
20
giovedì 14 ottobre 2010
TASK 1
 organizzare le conoscenze acquisite a livello globale
(es. genoma e proteoma) al fine di rendere tali dati
accessibili a tutti, e ottimizzare gli algoritmi di ricerca dei
dati stessi per migliorarne l'accessibilità.
21
giovedì 14 ottobre 2010
TASK 2
 fornire modelli statistici validi per l'interpretazione dei
dati provenienti da esperimenti di biologia molecolare e
biochimica al fine di identificare tendenze e leggi
numeriche
22
giovedì 14 ottobre 2010
TASK 3
 generare nuovi modelli e strumenti matematici per
l'analisi di sequenze di DNA, RNA e proteine (evoluzione,
funzione ipotetica etc.).
Algoritmo
Codice
23
giovedì 14 ottobre 2010
Biologia
Bioinformatica
Informatica
giovedì 14 ottobre 2010
24
genetica
Biologia
Molecolare
genomica
Teoria
dei Grafi
biochimica
statistica
Bioinformatica
biofisica
Analisi
numerica
paleontologia
Analisi di
immagine
Trattamento
dati
Design di
algoritmi
25
giovedì 14 ottobre 2010
“Due differenti tecnologie domineranno il XXI secolo, sia dal punto di vista dell’industria che
della ricerca scientifica -- le biotecnologie e le tecnologie informatiche”
Bill Gates
26
giovedì 14 ottobre 2010
?
27
giovedì 14 ottobre 2010
Wet-Lab experiments
DATA
Bibliographic Databases
Taxonomic Databases
WEB Databases
Nucleotide Databases
Genomic Databases
Protein Databases
28
Microarray Databases
giovedì 14 ottobre 2010
Knowledge bases = Biological databases
Punto di partenza di qualsiasi analisi bioinformatica (e non).
29
giovedì 14 ottobre 2010
Sequence Data/Genome Data
…atgctggactgagtaatcct…
…MQYYLERRSQMPGYTRYMML…
Gene Prediction
(ORF finding)
Protein Structure
Taxonomy
Expression profiles
(Microarray Data)
Metabolic pathways
information
DataBase overview
30
giovedì 14 ottobre 2010
Sequence Data/Genome Data
…atgctggactgagtaatcct…
…MQYYLERRSQMPGYTRYMML…
Gene Prediction
(ORF finding)
Protein Structure
Taxonomy
Expression profiles
(Microarray Data)
Metabolic pathways
information
31
giovedì 14 ottobre 2010
EMBL-EBI
32
giovedì 14 ottobre 2010
GenBank
33
giovedì 14 ottobre 2010
PDB (Protein DataBank) database
34
giovedì 14 ottobre 2010
JGI Database
35
giovedì 14 ottobre 2010
sequence in
FASTA Format
giovedì 14 ottobre 2010
36
FASTA Format
>gi|193425|gb|M60978.1|MUSGAPDS Mus musculus testis-specific isoform of glycerald
GGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCC
AGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACC
ACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCT
CCACCTCCACCACCACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCC
CTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCT
GACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATT
AGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCA
CACATGGTAGATACAAAGGAAACGTGGAACATAAGAATGGACAACTAGTTGTGGACAACCTTGAGATCAA
CACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGT
ACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCA
CTGCACCCTCCCCCGATGCACCCATGTTTGTCATGGGAGTGAACGAGAAGGACTATAACCCTGGCTCTAT
GACCATTGTCAGCAATGCATCCTGTACCACCAACTGCCTGGCTCCTCTCGCCAAGGTTATTCATGAAAAC
TTCGGGATCGTGGAAGGGCTAATGACCACAGTCCATTCCTACACAGCCACTCAGAAGACAGTGGATGGGC
CATCAAAGAAGGACTGGCGAGGTGGCCGCGGCGCTCACCAAAACATCATCCCATCGTCCACTGGGGCTGC
CAAGGCTGTAGGCAAAGTCATCCCAGAGCTCAAAGGGAAGCTAACAGGAATGGCATTCCGGGTGCCAACC
CCAAACGTGTCAGTTGTGGACCTGACCTGCCGCCTGGCCAAGCCTGCTTCTTACTCGGCTATCACGGAGG
CTGTGAAAGCTGCAGCCAAGGGACCTTTGGCTGGCATCCTTGCTTACACAGAGGACCAGGTGGTCTCCAC
GGACTTTAACGGCAATCCCCATTCTTCCATCTTTGATGCTAAGGCTGGAATTGCCCTCAATGACAACTTC
GTGAAGCTTGTTGCCTGGTACGACAACGAATATGGCTACAGTAACCGAGTGGTCGACCTCCTCCGCTACA
TGTTTAGCCGAGAGAAGTAACACAAAAGGCCCCTCCTTGCTCCCCTGCGCACCTCGCGTTCCTGACTTCG
GCTTCCACTCAAAGGCGCCGCCACCGGGTCAACAATGAAATAAAAACGAGAATGCGC
37
giovedì 14 ottobre 2010
FASTA Format
>gi|193425|gb|M60978.1|MUSGAPDS Mus musculus testis-specific isoform of glycerald
GGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCC
AGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACC
ACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCT
CCACCTCCACCACCACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCC
CTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCT
GACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATT
AGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCA
CACATGGTAGATACAAAGGAAACGTGGAACATAAGAATGGACAACTAGTTGTGGACAACCTTGAGATCAA
CACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGT
Locus Name
gi number
ACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCA
CTGCACCCTCCCCCGATGCACCCATGTTTGTCATGGGAGTGAACGAGAAGGACTATAACCCTGGCTCTAT
GACCATTGTCAGCAATGCATCCTGTACCACCAACTGCCTGGCTCCTCTCGCCAAGGTTATTCATGAAAAC
TTCGGGATCGTGGAAGGGCTAATGACCACAGTCCATTCCTACACAGCCACTCAGAAGACAGTGGATGGGC
Database Identifiers
CATCAAAGAAGGACTGGCGAGGTGGCCGCGGCGCTCACCAAAACATCATCCCATCGTCCACTGGGGCTGC
Accession number
gb
GenBank
CAAGGCTGTAGGCAAAGTCATCCCAGAGCTCAAAGGGAAGCTAACAGGAATGGCATTCCGGGTGCCAACC
CCAAACGTGTCAGTTGTGGACCTGACCTGCCGCCTGGCCAAGCCTGCTTCTTACTCGGCTATCACGGAGG
emb EMBL
CTGTGAAAGCTGCAGCCAAGGGACCTTTGGCTGGCATCCTTGCTTACACAGAGGACCAGGTGGTCTCCAC
GGACTTTAACGGCAATCCCCATTCTTCCATCTTTGATGCTAAGGCTGGAATTGCCCTCAATGACAACTTC
dbj DDBJ
GTGAAGCTTGTTGCCTGGTACGACAACGAATATGGCTACAGTAACCGAGTGGTCGACCTCCTCCGCTACA
TGTTTAGCCGAGAGAAGTAACACAAAAGGCCCCTCCTTGCTCCCCTGCGCACCTCGCGTTCCTGACTTCG
sp
SWISS-PROT
GCTTCCACTCAAAGGCGCCGCCACCGGGTCAACAATGAAATAAAAACGAGAATGCGC
FASTA Definition Line
>gi|193425|gb|M60978.1|MUSGAPDS
pdb
pir
ref
Protein Databank
PIR
RefSeq
38
giovedì 14 ottobre 2010
“Text” search
DB
Sequence in
FASTA Format
BLAST
Sequence similarity
search
39
giovedì 14 ottobre 2010
Sequence Data/Genome Data
…atgctggactgagtaatcct…
…MQYYLERRSQMPGYTRYMML…
Gene Prediction
(ORF finding)
Protein Structure
Taxonomy
Expression profiles
(Microarray Data)
Metabolic pathways
information
40
giovedì 14 ottobre 2010
?
giovedì 14 ottobre 2010
41
tAAATAAACTAAACTAAaCctACGTAGTAGGagTTTTTTATGTCATTCAAGATTACCAGT
GTTCGCCTGGGAACAAACGGGCATAAGCACGTTGCACAAGATTAAGTTTTtCTTGTTTAC
CGATTGAAGCTGTTGAGCTAGGGAACAAGTTAAAACCAATCGACATTAAAATGTTGTTAA
TGTCCGGTGCAACCGCGTAAGTAATCGATGCAAGACGACCAAGGTTTGTCGCGATTTTCT
TCGGACGTTTTACGATTGCATAAGCAATCAAATCAGCCGCTTCTTCTGGAGAAAGCGTTG
GTACATATTTATAAATCTTAGTTGGTGCGATCATTGGTGTGCGCACTAAAGGCATATAAA
TCGAAGTAATTGCAATTTTGTGCGAATGAACTTCTGCCGATAAGCAACGGCTAAATGCAT
CAAGCGCAGCTTTCGATGCGACATAAGCCGAGAAGCGTGTTGCATTTGCCAATACACCAA
TCGAACTGATGTTGATGATTTGACCGTCTTTGCGTTGCATCATGTGCGGTAATACATTGA
GAACTAAACGAACTGCACCGAAGTAATTCAACTGCATGGTACGTTCAAAATCATGGAAAC
GATCAATCGATTCATGCACCGCACGACGAATAGAGCGACCTGCATTGTTGACCAAAATAT
CAATATGATCTACCGCTGCAAGAATTTCTTTTGAAACCGCATCAATCGAATCCATATCAT
TCAGATCACATGGGAAAACAGATGCTTTACCGCCTTCTGCTTCGATCTCTGCTTTAACTT
CGTCTAATTTTTCCTTGGTACGAGCAAGTAATAAGACATGTGCACCAGCTTGAGCAAGAT
ACTTTGAAACCGTTAGACCAATGCCACTAGATGCACCTGTGACAATGATTGTTTTACCGT
CGACTTTTTGCTGAAAAAGTTTTTTGAGTTTTCCGTTCATGTAAGTTACCTACATTAATC
AAGCTGTTGTTTGCAATGTCTTCTTATTGCGATTAAACATTGCACTTTATTTTGTATGTA
TATTAACCGATATTTTTtGTTTGTCCAGTGTAAATATTTGAAAAATAATAATTTTTTtAG
AGTAAAAACTCTAAAACAAAGTATTGTAATAGTTGAAAAAGCAATAATATTTTTTGAGAT
ACTTTGAAACCGTTAGACCAATGCCACTAGATGCACCTGTGACAATGATTGTTTTACCGT
CGACTTTTTGCTGAAAAAGTTTTTTGAGTTTTCCGTTCATGTAAGTTACCTACATTAATC
AAGCTGTTGTTTGCAATGTCTTCTTATTGCGATTAAACATTGCACTTTATTTTGTATGTA
TATTAACCGATATTTTTtGTTTGTCCAGTGTAAATATTTGAAAAATAATAATTTTTTtAG
42
AGTAAAAACTCTAAAACAAAGTATTGTAATAGTTGAAAAAGCAATAATATTTTTTGAGAT
giovedì 14 ottobre 2010
Sequenza in formato FASTA:
>Cromosoma (TITOLO)
ATCATTATTGATCCTGATCGGTTAGCATCGTAT
TTCCTTACCGGGACCCCATGATCGATACAGTAA
ACCTTAGGATGATTATTGATGCTGATCGGTTAG
CATCGTATTTCCTTACCGGGACCCCATGATCGA
TACAGTAAACCTTAGGTGATTATTGATCCTGAT
CGGTTAGCATCGTATTTCCTTACCGGGACCCCA
TGATCGATACAGTAATAATTAGGATGATTATTG
ATCCTGATCGGTTAGCATCGTATTTCCTTACCG
GGACCCCATGATCGATACAGTAAACCTTAGGAT
GATTATTGATCCTGATCGGTTAGCATCGTATTT
CCTTACCGGGACCCCATGATCGATACAGTAAAC
CTTAGATGATTATTGATCCTGATCGGTATGCAT
CGTATTTCCTTACCGGGACCCCATGATCGATAC
AGTAAACCTTAGGTTGAATCGTATTTCCTTACC
GGGACCCCATGATCGATACAGTAAACCTTAGGT
AGCATCGTATTTCCTTACCGGGACCCCATGATC
GAATGAGTAAACCTTAGGTAGCATTGAATTTCC
TTACCGGGACCCCATGATCGATACAGTAAACCT
TAGG…..
43
giovedì 14 ottobre 2010
ORF Finder @ NCBI:
44
giovedì 14 ottobre 2010
45
giovedì 14 ottobre 2010
Sequence Data/Genome Data
…atgctggactgagtaatcct…
…MQYYLERRSQMPGYTRYMML…
Gene Prediction
(ORF finding)
Protein Structure
Taxonomy
Expression profiles
(Microarray Data)
Metabolic
pathways
information
46
giovedì 14 ottobre 2010
Ho un gene (una sequenza), in quale
processo metabolico è coinvolto?
Dato un processo metabolico, quali sono i
geni coinvolti?
47
giovedì 14 ottobre 2010
Metabolic pathways information @ KEGG
48
giovedì 14 ottobre 2010
Metabolic pathways information @ KEGG
49
giovedì 14 ottobre 2010
Apoptosis in Homo sapiens
50
giovedì 14 ottobre 2010
Apoptosis in Monodelphis domestica
51
giovedì 14 ottobre 2010
Sequence Data/Genome Data
…atgctggactgagtaatcct…
…MQYYLERRSQMPGYTRYMML…
Protein Structure
Gene Prediction
(ORF finding)
Taxonomy
Expression profiles
(Microarray Data)
Metabolic pathways
information
52
giovedì 14 ottobre 2010
Ogni proteina ha una sua
struttura 3D
Amino acid sequence
>title
NLKTEWPELVGKSVEEA
KKVILQDKPEAQIIVLPV
GTIVTMEYRIDRVRLFVD
KLDNIAEVPRVG
Folding!
53
giovedì 14 ottobre 2010
Protein Structure in the WEB
Strutture note
If prediction = true
Predizioni di strutture
54
giovedì 14 ottobre 2010
55
giovedì 14 ottobre 2010
Protein structure prediction
56
giovedì 14 ottobre 2010
Protein structure @ NCBI
57
giovedì 14 ottobre 2010
Disegno di farmaci
drug design
Protein-protein
docking
Evoluzione
Proteomica
Assegnazione funzionale
58
giovedì 14 ottobre 2010
Sequence Data/Genome Data
…atgctggactgagtaatcct…
…MQYYLERRSQMPGYTRYMML…
Gene Prediction
(ORF finding)
Protein Structure
Taxonomy
Metabolic pathways
information
Expression profiles
(Microarray Data)
59
giovedì 14 ottobre 2010
Expression profiles (Microarray Data)
Array Analysis
Hierarchical Clustering
giovedì 14 ottobre 2010
60
Gene Expression @ NCBI
61
giovedì 14 ottobre 2010
Expression profile:
Interazioni proteina-proteina
Assegnazione funzionale
Proteomica
62
giovedì 14 ottobre 2010
NCBI (http://
www.ncbi.nlm.nih.gov/)
•
•
•
•
Entrez interface to databases
– Medline/OMIM
– Genbank/Genpept/Structures
BLAST server(s)
– Five-plus flavors of blast
Draft Human Genome
Much, much more…
63
giovedì 14 ottobre 2010
64
giovedì 14 ottobre 2010
INTEGRATION!!!
65
giovedì 14 ottobre 2010
Things to know and remember about using
web server-based tools
• State usando il computer di qualcun altro
• (Probabilmente) state utilizzando un insieme ristretto
delle opzioni disponibili
• Grande utilità per analisi preliminari e “veloci”. Per
analisi più accurate e complesse è preferibile utilizzare
database e software in maniera “locale”
• La pratica e gli errori (intelligenti!!!) sono il miglior
modo per imparare
66
giovedì 14 ottobre 2010