Informatica e biotecnologie - Dipartimento di Informatica

Informatica e biotecnologie
I parte
Banche dati biologiche
Viviana Patti
Informatica di base - 29 novembre
Bioinformatica
La Bioinformatica è una disciplina che affronta con
metodiche proprie delle Scienze dell'Informazione
problemi propri della Biologia.
Settore in rapida espansione: c'è un enorme mole di
dati che la moderna ricerca biologica produce grazie al
progresso tecnologico recente; questo impone di
affrontare problemi come:
archiviazione di enormi moli di dati dati: occorre
creare, gestire e mantenere banche dati specializzate
recupero di informazione in modo automatico dalle
banche dati
analisi automatica dei dati (deduzioni)
Viviana Patti
Informatica di base - 29 novembre
1
Archiviare enormi moli di dati
Pensate a un progetto come quello del Genoma Umano
Le molecole di DNA sono molecole lineari che, astraendo
dalla struttura chimica 3D possono essere rappresentate
come sequenze di caratteri dell'alfabeto {a,t,c,g} che
rappresentano le 4 basi
da un punto di vista informatico per memorizzare 1
carattere (ossia 1 base) abbiamo bisogno di 1 byte
(codifica ASCII esteso)
approssimativamente il genoma umano è lungo 3,2 *
109 caratteri (basi) ossia 3,2 G caratteri
per memorizzarlo occorrono 3,2 * 109 byte. Siamo
nell'ordine dei giga per 1 sequenza!
le banche dati contengono migliaia sequenze
Viviana Patti
Informatica di base - 29 novembre
Esercizio
Approssimativamente il genoma umano è lungo 3,2 *
109 caratteri (basi) ossia 3,2 GB
per memorizzarlo occorrono 3,2 * 109 byte. Siamo
nell'ordine dei giga per 1 sequenza!
1. Quanti floppy disk servirebbero per memorizzare
l'intero genoma umano (1,4MB)
2. Quanti CD? (700MB)
3. Quanti DVD? (4,7GB)
1. circa duemila
2. 5
3. 1
Viviana Patti
Informatica di base - 29 novembre
2
Recupero dell'informazione
una banca dati priva di modalità di accesso efficienti è
una "tomba di dati"
servono tecniche per garantire un accesso ottimale;
solitamente nascoste agli utilizzatori, hanno molto a
che fare con l'organizzazione logica dei dati
interfacce per permettere agli utenti di leggere e
estrarre informazioni
correlazione fra informazioni contenute in banche dati
separate
servono tecniche per ricercare un'informazione
simultaneamente in diversi archivi di dati distribuiti
su diversi computer
Viviana Patti
Informatica di base - 29 novembre
Analisi
Analizzando e confrontando queste enormi moli di
dati archiviati si aprono diversi scenari:
possibilità di ricostruire le tappe evolutive delle
varie specie, incluso l'uomo
possibilità di ricavare caratteristiche per le varie
biomolecole utili nella progettazione di nuove
molecole e farmaci in settori diversi, dall'agroalimentare a quello farmaceutico
Viviana Patti
Informatica di base - 29 novembre
3
Informatica e biotecnologie
ci sono aree dell'informatica che studiano proprio
struttura dei dati e ricerca delle informazioni (database,
motori di ricerca su Web, database distribuiti) -> queste
conoscenze possono essere utilizzate per risolvere il
problema: "come strutturare e organizzare le
informazioni sui dati biologici in modo da ottenere una
risposta efficiente alle interrogazioni su questi dati?"
analisi di algoritmi = specifica di metodi adatti a
risolvere problemi
diverse analisi dei dati, diversi problemi da risolvere,
diversi algoritmi più o meno efficienti:
Esempio: conoscenze su algoritmi per i confronto
di sequenze di caratteri (string matching) possono
essere utilizzate per risolvere il problema
confrontare 2 sequenze di nucleotidi per scoprire
se sono simili
Viviana Patti
Informatica di base - 29 novembre
Banche dati biologiche: sommario
Focus su banche dati primarie (non specializzate) di dati
biologici rappresentati come sequenze (sequenze di
amminoacidi; sequenze di acidi nucleici)
Banche dati di strutture di proteine (solo cenni)
Analisi di 3 fasi di interazione con una banca dati
Recupero dell'informazione in una banca dati
sistemi di interrogazioni via Web -> Entrez
interrogazioni semplici per parola chiave
strumenti per interrogazioni più raffinate
Scelta del formato dei dati estratti da una banca dati
Scaricare un dato biologico estratto nel formato scelto
in locale -> Entrez
In Lab esercizio su come realizzare praticamente queste
fasi
Viviana Patti
Informatica di base - 29 novembre
4
Banche dati biologiche
Banca dati biologica comprende
1. un archivio di dati biologici
2. un'organizzazione logica di queste
informazioni
3. strumenti per accedere alle informazioni
L’informazione proviene da
Letteratura specializzata sull’argomento
Analisi effettuate in laboratorio (in vitro e
in vivo)
Analisi bioinformatiche (in silico)
Viviana Patti
Informatica di base - 29 novembre
Istituzioni: NCBI e EBI
NCBI (National Center for Biotechnology Information):
centro di raccolta di risorse di vario tipo
http://www.ncbi.nlm.nih.gov/
accesso alla National Library of Medicine e al
National Institutes of Health
accesso a vari database attraverso Entrez
GenBank
Swissprot
PubMed (database della letteratura biomedica)
…
accesso a software per riconoscimento e
allineamento di sequenze
EBI (European Bioinformatics Institute): stessa funzione
http://www.ebi.ac.uk/
Viviana Patti
Informatica di base - 29 novembre
5
NCBI - Entrez
http://www.ncbi.nlm.nih.gov/Entrez/
ENTREZ: sistema di
interrogazione di
banche dati biologiche
disponibile via web.
Mette a disposizione un
ambiente integrato per
la ricerca e l'estrazione
da diverse banche dati
(GeneBank, Swissprot)
di sequenze
nucleotidiche o
proteiche.
La presenza di un
ambiente integrato
permette di fare
ricerche usando la
stessa sintassi su
diverse banche dati
Viviana Patti
Informatica di base - 29 novembre
I dati
Quali dati?
Sequenze di caratteri (nucleotidi del DNA, amminoacidi
delle proteine) o strutture
Rappresentazione dei dati biologici come sequenze:
l’uso di sequenze è la forma di gran lunga più diffusa
per rappresentare dati biologici di varia natura
Ad esempio:
DNA genomico
Proteine
cDNA
mRNA
si trovano sotto forma di sequenze nelle banche dati
biologiche consultabili da Enterz di NCBI come
GenBank o SWISSPROT
Viviana Patti
Informatica di base - 29 novembre
6
Sequenze
Hanno un formato puramente testuale: sono stringhe di
caratteri di un certo alfabeto
sequenze di nucleotidi
sequenze DNA -> formate da 4 tipi di lettere:
a (adenina), c (citosina), g (guanina), t (timina)
esempio: atggtacat..., tag, ttt, …
convenzione lettere minuscole
Sequenze RNA -> formate da 4 tipi di lettere:
a (adenina), c (citosina), g (guanina),u (uracile)
esempio: aucgcuaa, auucg, …
Sequenze proteiche -> formate da 20 lettere
corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I,
K, L, M, N, P, Q, R, S, T, V, W, Y
esempio: MPIVDTGSVAPLSAAEK…, TAG,...
convenzione lettere maiuscole
Viviana Patti
Informatica di base - 29 novembre
Sequenze DNA
La rappresentazione di una molecola di DNA
come sequenza di simboli {a,t,c,g} è
ovviamente un'astrazione di una struttura
chimica 3D
Tuttavia se lo scopo è quello di usare le
tecniche per l’analisi di sequenze, possiamo
temporaneamente ignorare tale struttura
Analogo vale per molecole di RNA
Viviana Patti
Informatica di base - 29 novembre
7
Sequenze di proteine
La rappresentazione di proteine come
sequenze di simboli {A, C, D, E, F, G, H, I, K,
L, M, N, P, Q, R, S, T, V, W, Y} è anche detta
struttura primaria
Osservazione: a causa della maggiore
complessità chimica degli amminoacidi rispetto
agli acidi nucleici è più difficile fare delle
analisi significative tenendo separato il
contenuto informativo delle sequenze dalle
proprietà degli amminoacidi componenti
Viviana Patti
Informatica di base - 29 novembre
Es. GenBank
http://www.ncbi.nlm.nih.gov
Banca del genoma dell’ NIH accessibile da
NCBI
78000 sequenze di DNA in GenBank nel
1992, ora le dimensioni raddoppiano ogni 68 mesi
Formato ANS.1 standard per dati di sequenze
per DB relazionali (Abstract Syntax Notation
One)
Humane Genome Project
Genomi completi o parziali di 900 specie
Viviana Patti
Informatica di base - 29 novembre
8
GenBank
Viviana Patti
Informatica di base - 29 novembre
Accesso: entry e interrogazioni
Ogni banca dati è caratterizzata da un elemento biologico
centrale, che chiamiamo entry:
es: banche dati di sequenze di acidi nucleici
elemento centrale: sequenza nucleotidica di DNA o
RNA
le interrogazioni alla banca dati (queries) mirano a
estrarre un insieme di elementi (entries)
questi elementi sono un sottoinsieme dei record che
costituiscono la banca dati e sono descritti mediante una
serie di attributi
gli attributi associati a una entry (una sequenza
biologica) sono annotazioni tecniche (identificativo della
entry nella base di dati) annotazioni generiche che
classificano quell’elemento (nome della specie, funzione,
referenze bibliografiche) o annotazioni scientifiche (es.
regioni codificanti di una sequenza di DNA).
Viviana Patti
Informatica di base - 29 novembre
9
Accesso: esempi di interrogazioni
specifico mediante parole chiave le caratteristiche di una
sequenza che voglio recuperare
horse (inglese, latino): il software di ricerca fornisce
un elenco di entry della banca dati contenente quel
termine
"Le banche dati di sequenze proteiche contengono la
α-catena emoglobinica del cavallo"
analogie con la ricerca per keyword nei motori di
ricerca sul www -> tecniche simili
specifico una sequenza campione e voglio recuperare le
sequenze "simili" archiviate
"Ho determinato una nuova sequenza. Le banche dati
contengono qualcosa di simile"
Viviana Patti
Informatica di base - 29 novembre
Accesso: ricerca dei dati e interrogazioni
Modalità di ricerca dei dati attraverso “motori di ricerca"
su banche dati biologiche”
Interrogazione/query:
campo “text search” o form per l’immissione del
dato cercato (query semplice per parola chiave =
keyword) o
del codice che identifica la sequenza se lo si
conosce
Problema della ricerca per semplice parola chiave:
molto spesso si ottengono troppe risposte
(sovraccarico informativo): molte più sequenze di
quelle di interesse contengono in qualche linea la parola
chiave cercata
Viviana Patti
Informatica di base - 29 novembre
10
Ricerca per parola chiave
Esempio di query in GenBank
Dalla ricerca in categoria Nucleotide (sequenze di acidi
nucleici) -> ottengo una lista di record
parola chiave Arabidopsis thaliana
formato di visualizzazione
Viviana Patti
Seleziono una entry
salva il risultato
Informatica di base - 29 novembre
Accesso: ricerca dei dati e interrogazioni
Per diminuire il numero di risposte si deve
specializzare ulteriormente la domanda -> strumenti
per raffinare la ricerca
Specifica di criteri di ricerca avanzati mediante
operatori booleani: AND, OR, BUT NOT
(specializzazione della query)
Entrez: funzione Limits
Strumenti per procedere per ricerche successive
cumulative
Entrez: funzione History: combino più query già fatte
Viviana Patti
Informatica di base - 29 novembre
11
Operatori booleani: AND
Restringe il campo di ricerca, inserendo ad esempio la
stringa:
equus caballus AND hemoglobin alpha
La banca dati ci mostrerà una lista di sequenze
proteiche i cui campi di descrizione contengono
entrambe le parole -> per. es. le sequenze proteiche
del cavallo che non contengono nella descrizione la
parola hemoglobin non vengono selezionate
Viviana Patti
Informatica di base - 29 novembre
Operatori booleani: OR
Estende il campo di ricerca, digitando ad esempio:
homo sapiens OR mus musculus
Otterremo una lista di sequenze i cui campi contengono la
parola homo sapiens o la parola mus musculus.
L'immagine sotto evidenzia come l'operatore abbia
allargato l'insieme delle sequenze che incontrano le
nostre esigenze.
Viviana Patti
Informatica di base - 29 novembre
12
Operatori booleani: BUT NOT
Restringe il campo di ricerca, inserendo:
homo sapiens BUT NOT hemoglobin
Richiederemo sequenze i cui campi contengono
la parola homo sapiens ma non la parola
hemoglobin.
Viviana Patti
Informatica di base - 29 novembre
Operatori booleani: combinazioni
Naturalmente gli operatori booleani consentono di
effettuare ricerche con più di due parole chiave,
creando così interrogazioni che possono diventare
molto complesse.
La costruzione di queste espressioni -> esercizio di
teoria degli insiemi
Viviana Patti
Informatica di base - 29 novembre
13
Entrez: Limits
Per ottimizzare la ricerca Entrez prevede l'uso della
funzione Limits: consente di limitare la ricerca a solo
alcuni criteri (campi del database) o sottoinsiemi di dati
es. scegli campo organism
Viviana Patti
Informatica di base - 29 novembre
Entrez: Limits
Esempio: è stata limitata la ricerca a sequenze del DB
contenenti la parola mouse nel campo organism
Viviana Patti
Informatica di base - 29 novembre
14
Entrez: History
Per rendere più efficiente la ricerca e procedere per
raffinamenti successivi Entrez prevede l'opzione History:
combino più query già fatte
3 query: combino in AND #1 e #2
2 query -> etichetta #2
1 query -> etichetta #1
Viviana Patti
Informatica di base - 29 novembre
Formato dei dati
Oltre alla visualizzazione di default il dato può essere
reso disponibile in diversi formati standard o specifici
per l'uso di determinati tipi di software
In generale esistono diversi formati
sia per visualizzare i dati risultato di ricerca,
sia per l'inserimento dati quando si vuole
intraprendere una ricerca o un'analisi
Formato dei dati e software di analisi: certi software di
analisi per dati biologici chiederanno in input la (le)
sequenze memorizzate su file dove l'informazione è
codificata in un determinato formato -> sono in
grado di decodificare l'informazione biologica e di
elaborarla SOLO quando è presentata in quel formato
Quali formati abbiamo a disposizione quando andiamo a
prenderci un dato biologico in una banca dati, su cui
magari poi vogliamo fare delle analisi?
Viviana Patti
Informatica di base - 29 novembre
15
Visualizzazione di entry in formato flat file (FF)
Visualizzazione di default nel caso di GeneBank:
DATO SEQUENZA
• Sequenza di caratteri
+
HEADER di linee informative:
• Locus: codice di identificazione
della sequenza
•Accession number: codice di
accesso all'elemento all'interno
della base di dati
• Source/Organism: organismo
da cui è stata isolata la
sequenza
• Riferimenti alla letteratura
scientifica
• Cross references -> riferimenti
incrociati -> link a informazioni
presenti in altre banche dati
+
FEATURES:
•annotazioni
tecniche
su parte
Informatica
di base - 29
novembre
della sequenza
+
Viviana Patti
Visualizzazione di entry Swissprot come FF
Le annotazioni possono essere un po'
diverse da banca dati a banca dati
campo DBSOURCE: Banca dati
sorgente: SWISSPROT
Viviana Patti
Informatica di base - 29 novembre
16
Banche dati biologiche: formati
Formato dei dati in NCBI in generale
FASTA
semplice sequenza di caratteri alfabetici
leggibile da vari programmi per l’analisi delle
sequenze
contiene poche informazioni collegate
(annotazioni)
GenBank
formato legacy (usato da vecchi sistemi in
disuso)
ASN.1 (Abstract Syntax Notation.One)
specifica generica dei dati, usata in tutti i DB di
NCBI
portabilità su diversi sistemi operativi diversi ->
adatto allo scambio via software
Formati usati sia per dati risultato di ricerca sia per
l'inserimento dati
Viviana Patti
Informatica di base - 29 novembre
Banche dati biologiche: formati
Esempio di file di GenBank
Formati:
Formato ASN.1
Formato XML
per manipolazione e presentazione sul Web
Formato FASTA
Esempi di diverse visualizzazioni dello stesso file nei
diversi formati, nelle pagine successive
Viviana Patti
Informatica di base - 29 novembre
17
ASN.1
Viviana Patti
Informatica di base - 29 novembre
FASTA
Una sequenza in formato FASTA
comincia con una singola riga di
descrizione il cui primo carattere
è "<", seguita da righe contenenti
la sequenza vera e propria
Viviana Patti
Informatica di base - 29 novembre
18
Accesso: banche dati distribuite
Problema dell’accesso a banche dati distribuite
su diversi siti e con strutture eterogenee
Cross referencing
Rilascio della banca dati in formato XML:
oltre ai dati viene fornita sia la struttura
logica che la struttura fisica della banca dati
Viviana Patti
Informatica di base - 29 novembre
XML
Viviana Patti
Informatica di base - 29 novembre
19
Banche dati biologiche: formati
formati standard versus formati legacy
Una banca dati può supportare oltre ai formati standard
(FASTA, ANS.1) dei formati di dati particolari, che
possono essere usati da software per l'analisi del tipo di
dato trattato dalla banca dati
Esempio: la banca dati di strutture di proteine Protein
Data Bank (PDB)
formato legacy di PDB
usato comunemente dai software per l'analisi di
proteine
mmCIF:
solo il nuovo software per l'analisi delle strutture
usa questo formato
Viviana Patti
Informatica di base - 29 novembre
Formati: PDB
http://www.rcsb.org/pdb/
Viviana Patti
Attenzione: per potere utilizzare le
informazioni di questa banca dati
è necessario avere un programma
di visualizzazione molecolare ->
che supporti il formato in cui ho
scaricato le informazioni
Informatica di base - 29 novembre
20
Entrez: salva il dato
Una volta trovato il dato di interesse e scelto il formato
di visulaizzazione, da Entrez è possibile scaricare in
locale il dato; salvo il dato in un file nel formato che mi
interessa -> Lab
Viviana Patti
Informatica di base - 29 novembre
Entrez: taxonomy
Da Entrez è possibile esplorare la classificazione degli
organismi come riportata in Taxonomy
Viviana Patti
Informatica di base - 29 novembre
21
Banche dati biologiche: una lista
Letteratura (pubblicazioni scientifiche):
PubMed: http://www.ncbi.nlm.nih.gov/PubMed
Sequenze di acidi nucleici:
GenBank: da http://www.ncbi.nlm.nih.gov
SRS: http://srs.ebi.ac.uk
Human genome resources:
http://www.ncbi.nlm.nih.gov/genome/guide/human/
Sequenze proteiche:
Swiss-Prot: http://www.expasy.ch/swissprot
Struttura delle proteine:
Protein Data Bank: http://www.rcsb.org/pdb/
Risorse Web:
EBI Biocatalog: http://www.ebi.ac.uk/biocat/
IUBio Archive: http://iubio.bio.indiana.edu
Viviana Patti
Informatica di base - 29 novembre
22