Diapositiva 1 - Corso di Biologia Molecolare 2

Corso di studi in Biologia
A.A. 2013-2014
Informatica e
Bioinformatica
Alessandro Vezzi, PhD
Dipartimento di Biologia
III piano sud – Lab n°15
Telefono 049 827 6243
E-mail: [email protected]
Informatica e Bioinformatica – A. A. 2013-2014
1
Premessa
Questo corso, alquanto introduttivo, è uno dei primi insegnamenti in cui sentite
parlare di concetti biologici.
Si tratta di un corso breve, strutturato in:
10 ore di lezione e 4 esercitazioni pomeridiane
Scopo:
introdurre alcune nozioni basilari riguardanti i dati biologi.
mostrare alcuni strumenti e metodi per accedere all’informazione biologica
in modo razionale ed efficiente, utilizzando le risorse disponibili in rete.
Non si tratta dunque di un vero corso di bioinformatica, ma di un breve corso
introduttivo di carattere biologico/bioinformatico.
Informatica e Bioinformatica – A. A. 2013-2014
2
Requisiti
Non è inizialmente richiesto di saper “programmare”, ma:

sarà utile una minima conoscenza di Internet (in ogni caso si fa presto ad
imparare!)

è importante saper cercare le risorse ed informazioni in rete (sapete tutti cosa
sono i motori di ricerca, ad es. Google? e Wikipedia?)

i siti sono praticamente tutti in inglese!
Informatica e Bioinformatica – A. A. 2013-2014
3
Supporto didattico
Le lezioni saranno rese disponibili in formato .ppt e .pdf all’indirizzo:
http://didattica.cribi.unipd.it/bioinfo/
Un possibile testo
Date, orari e locazione delle lezioni frontali:
3 marzo
ore 8:30 – 10:15 Aula C piano terra
10 marzo ore 8:30 – 10:15 Aula C piano terra
Ma ricordate che questo è un corso
introduttivo alla bioinformatica e che
internet è una risorsa inesauribile di
dati e nozioni.
17 marzo
ore 8:30 – 10:15 Aula C piano terra
20 marzo
ore 8:30 – 9:15
24 marzo
ore 8:30 – 10:15 Aula C piano terra
27 marzo
ore 8:30 – 9:15
Aula C piano terra
28 marzo ore 8:30 – 9:15
(solo se necessaria)
Aula C piano terra
Informatica e Bioinformatica – A. A. 2013-2014
Aula C piano terra
4
Date, orari e locazione delle esercitazioni
Marzo:
Lunedì 17
Giovedì 20
14:30-18:30
14:30-18:30
Esercitazione 1, I turno
Esercitazione 1, II turno
Lunedì 24
Giovedì 27
14:30-18:30
14:30-18:30
Esercitazione 2, I turno
Esercitazione 2, II turno
Giugno: Martedì 3
Giovedì 5
14:30-18:30
14:30-18:30
Esercitazione 3, I turno
Esercitazione 3, II turno
14:30-18:30
14:30-18:30
Esercitazione 4, I turno
Esercitazione 4, II turno
Lunedì 9
Giovedì 12
I turno: studenti da Allegra a Ielo
II turno: studenti da Klein a Zardinoni
Le esercitazioni saranno svolte nelle
aule ex-Taliercio al plesso Paolotti.
Sito web delle esercitazioni:
to be assigned
•
Informatica e Bioinformatica – A. A. 2013-2014
5
Argomenti trattati a lezione

Perché è utile la Bioinformatica?

Concetti base sui dati biologici.

Archiviazione dei dati: i database biologici

Banche dati primarie e derivate: strutture,
consultazioni semplici e ricerche complesse.

Similarità di sequenza e allineamenti.

Pattern e profili proteici.

Browser genomici.
Informatica e Bioinformatica – A. A. 2013-2014
6
Argomenti delle esercitazioni
Consultazione e ricerche nelle banche dati (articoli scientifici,
malattie genetiche, acidi nucleici, proteine, ecc.)

Utilizzo di risorse web per ricerche di particolari molecole
biologiche, ricerche di similarità.

Utilizzo dei browser genomici per il reperimento di
informazioni biologiche.


Utilizzo di python per l’analisi di file di tipo biologico
Informatica e Bioinformatica – A. A. 2013-2014
7
IMPARATE A SFRUTTARE la rete internet a vostro vantaggio, infatti:
ecco due siti interessanti per reperire informazioni e strumenti utili per la
bioinformatica:

Train online with EMBL-EBI
presente all’EBI (European Bioinformatics Institute)
http://www.ebi.ac.uk/training/online/
NCBI Educational Resources
presente all’NCBI (National Center for Biotechnology Information)
http://www.ncbi.nlm.nih.gov/education/

Informatica e Bioinformatica – A. A. 2013-2014
8
Modalità d’esame
L'esame consiste in domande a risposta multipla che riguardano
sia quanto discusso a lezione che le tematiche affrontate nei
laboratori didattici.
Informatica e Bioinformatica – A. A. 2013-2014
9
Perché è utile la Bioinformatica?
Articolo open (consultabile gratuitamente) il cui titolo è:
“Minke whale genome and aquatic adaptation in cetaceans”
Adattato da foto di Joanne Weston
Quindi, ricapitolando:
- sequenziamento ed assemblaggio del genoma di una balena Minke (e di altri cetacei);
- analisi comparativa dei genomi di 8 specie di mammiferi;
- specifici adattamenti associabili ai cambiamenti fisiologici e morfologici necessari
per la vita nell’acqua.
Informatica e Bioinformatica – A. A. 2013-2014
10
Alcuni numeri (pochi) relativi all’articolo
Alcuni dati di sequenziamento
Informatica e Bioinformatica – A. A. 2013-2014
11
Alcuni dati di genomica comparativa
Come poter gestire e confrontare questa enorme quantità di dati?
Come poter individuare, a partire da tali dati, quali caratteristiche sono
specifiche dei cetacei?
Ma, sono poi così diversi??
Informatica e Bioinformatica – A. A. 2013-2014
12
Quali sono le vostre conoscenze di base sulla Biologia?
Per affrontare serenamente questo corso introduttivo alla bioinformatica,
dovreste saper rispondere ad alcune domande, tra cui:
che cosa è il DNA?
 che cosa è una proteina?
 che cosa è un gene?
 che cosa è un genoma?
 che differenza c’è tra un procariote ed un eucariote?
 tra un batterio ed un virus?
 avete sentito parlare dei seguenti organismi: Drosophila melanogaster,
Caenorhabditis elegans, Saccharomyces cerevisiae,…?
 sapreste dare una definizione di essere vivente?

Informatica e Bioinformatica – A. A. 2013-2014
13
Gli esseri viventi: macchine dotate di un programma.
Questo vale sia per gli organismi a singola cellula (tipo i batteri), che per gli
organismi pluricellulari come l’uomo.
In questo senso la vita non è che il programma che "gira".
Ma, qual è il programma degli esseri viventi?
PROGRAMMA DI AUTOREPLICAZIONE
codificato negli acidi nucleici, più precisamente nel DNA.
Come in un computer dove distinguiamo il software (programmi, dati, informazione)
e l’hardware (computer, cioè la macchina che interpreta il software), anche in un
organismo biologico è distinguibile
- una componente specializzata per contenere l'informazione necessaria all'attuazione
del programma biologico (il DNA);
- una componente che è in grado di interpretare l'informazione e di tradurla in azioni
(in prima approssimazione può essere considerata la cellula).
Informatica e Bioinformatica – A. A. 2013-2014
14
Concetto fondamentale:
il programma è “conservato” all’interno del DNA (che costituisce la vera e
propria “memoria” del sistema essere vivente).
In questo nastro è registrato l’ordine lineare da assegnare agli aminoacidi,
che costituiscono le proteine (veri e propri operatori).
Il programma:
operazioni che le varie classi di proteine e di altre molecole, reclutate e
attivate nel momento e nella localizzazione opportuna (da qui l’importanza
del sistema “cellula”) eseguono in maniera coordinata.
Cosa ha contribuito all’esplosione della Bioinformatica?
Informatica e Bioinformatica – A. A. 2013-2014
15
Lo sviluppo di tecnologie strumentali sempre più sofisticate
Enorme aumento nella produzione dei dati!!
(Nature, 2009, vol. 458, 719-724)
La quantità di dati prodotta aumenta più
velocemente del numero di pubblicazioni scientifiche (crescita esponenziale).
Come colmare il gap?
Aumentiamo il numero di pubblicazioni scientifiche? Sarebbe impossibile arrivare
a leggere milioni di articoli diversi!
Sono necessari nuovi sistemi di immagazzinamento e di accesso all’informazione.
Informatica e Bioinformatica – A. A. 2013-2014
16
Internet
L’esplosione di Internet ha contribuito in modo determinante allo
sviluppo della Bioinformatica, ed è difficile immaginare lo sviluppo avuto
dalle bioscienze senza l’informatica ed Internet.

Gli scienziati hanno ora accesso da ogni parte del mondo e quasi sempre
gratuitamente agli archivi biologico-informatici resi disponibili in rete.

Inoltre, interfacce grafiche sempre più potenti e “user-friendly”
consentono di effettuare delle rapide interrogazioni delle banche dati in
modo molto semplice ed intuitivo.

Parallelamente a ciò, vengono resi disponibili in rete programmi
bioinformatici sempre più potenti e numerosi.

Informatica e Bioinformatica – A. A. 2013-2014
17
Quali dati hanno determinato lo sviluppo della Bioinformatica?
L’enorme quantità di dati prodotti nel campo della biologia
molecolare, specialmente nel campo del sequenziamento diretto
di interi genomi di organismi
(Uomo, Topo, Ratto, Pollo, Drosophila, Caenorhabditis, Lievito, …).

L’avanzamento di altri approcci di tipo “genomico” e
“proteomico” che producono quantità massicce di dati.

Tutto ciò ha determinato la necessità di gestire ed analizzare
grosse quantità di dati.

Informatica e Bioinformatica – A. A. 2013-2014
18
Cos’è la Bioinformatica?
Una definizione
BIO INFORMATICA
“Una disciplina che fa da ponte tra le scienze della vita e l’informatica”
Una definizione più accattivante
(data da Mark Bogusky, pioniere della Bioinformatica)
Applicazione dell’informatica alla gestione e all’analisi dei dati e delle
informazioni biologiche
Importanza della Bioinformatica
Il principale obiettivo della bioinformatica è scoprire la maggior quantità possibile di
informazioni nascoste nella massa di dati e volte ad approfondire e comprendere
meglio le funzioni biologiche degli organismi viventi.
Le nuove conoscenze possono avere un profondo impatto negli studi evolutivi, nella
scienza medica, in agricoltura, biotecnologie, ecc. ecc.
Informatica e Bioinformatica – A. A. 2013-2014
19
Le due anime della Bioinformatica

GESTIONE DEI DATI  DATABASE

ANALISI DEI DATI  COMPUTATIONAL BIOLOGY
Nello studiare la bioinformatica sarà necessario:

Sapere cosa sono e come sono strutturati i database

Avere conoscenze biologiche

Conoscere dove sono archiviati i dati biologici

Conoscere come sono archiviati questi dati

Saper effettuare ricerche (anche complesse)

Essere in grado di utilizzare i molteplici tools pubblicamente disponibili
Informatica e Bioinformatica – A. A. 2013-2014
20
Database e Computational Biology
DATABASE
Memorizzazione accurata, organizzazione, indicizzazione e mantenimento
di informazioni biologiche
COMPUTATIONAL BIOLOGY
Alcune delle possibili analisi dei dati (la lista è infinita) :
 ricerca di similarità tra sequenze (ricerca di omologia funzionale);
 ricerca di geni nelle sequenze di DNA (predizione genica);
 ricerca di motivi funzionali nel DNA (es. siti di binding per fattori di
trascrizione) nell’RNA (strutture secondarie) e nelle proteine (domini);
 analisi dei genomi e loro comparazione;
 allineamento multiplo di sequenze e analisi filogenetica;
 analisi di dati strutturali 3D di proteine; predizione della struttura di
proteine;
…….
Informatica e Bioinformatica – A. A. 2013-2014
21
Quali sono i dati biologici?
Sono principalmente dati di sequenza di acidi nucleici e proteine, derivati
soprattutto dai numerosi progetti di sequenziamento sistematico.

Sequenze di acidi nucleici

Sequenze di proteine

Archivi di dati di esperimenti relativi a


microarray

RNA-seq

interazioni proteiche
Pubblicazioni di carattere biologico
Tra poco scenderemo più in dettaglio
Informatica e Bioinformatica – A. A. 2013-2014
22
Le -OMICS
La bioinformatica, in particolare, si occupa di gestire ed analizzare i dati che sono
prodotti in modo sistematico nelle numerose e più disparate discipline biologiche,
quelle a cui spesso ci si riferisce come –OMICS.
Ad esempio, la Genomica è la disciplina che si occupa di produrre, gestire ed
analizzare i dati del genoma.
INSIEME DEI DATI
DISCIPLINA
GENOME
GENOMICS
PROTEOME
PROTEOMICS
TRASCRIPTOME
TRASCRIPTOMICS
METABOLOME
METABOLOMICS
BIBLIOME
BIBLIOMICS
Curiosità. Un sito che elenca tutte le –omics citate in letteratura:
http://www.genomicglossaries.com/content/omes.asp
Informatica e Bioinformatica – A. A. 2013-2014
23
Proteomics
Anche in questo caso la materia è vastissima:
 collezioni di sequenze di proteine di un organismo (proteoma) e loro analisi
 determinazione della struttura 3D delle proteine (cristallografia e raggi X, NMR)
 predizione della struttura di proteine di cui sia nota solo la sequenza
PDB: database di strutture di proteine
http://www.rcsb.org/pdb/
Informatica e Bioinformatica – A. A. 2013-2014
24
Proteomics


Separazione di proteine in base alle caratteristiche chimico-fisiche (massa, pH)
http://bioinformatics.org/lecb2dgeldb/
Interazioni proteina - proteina, proteina – acidi nucleici, proteina - metaboliti
Informatica e Bioinformatica – A. A. 2013-2014
25