Bioinformatica A.A. 2006/2007 - Dipartimento di Matematica e

Corso di Laurea Specialistica in Informatica
Bioinformatica
A.A. 2010/2011
Prof. Alfredo Ferro
09/03/2011
Contatti
• Prof. Alfredo Ferro: [email protected]
• Dott. Giuseppe Pigola: [email protected]
• Dott. Alfredo Pulvirenti: [email protected]
• Dott.ssa Rosalba Giugno: [email protected]
Orari di Ricevimento (per appuntamento)
• Prof. Alfredo Ferro
Lunedì,Mercoledì,Venerdì 16.00 – 17.00
Ufficio 324 – Blocco I, 2° Piano
Tel. 095 7383071
[email protected]
• Dott. Giuseppe Pigola
Lunedì,Mercoledì,Venerdì 16.00 – 17.00
Ufficio 308- Blocco I , 2° Piano
Tel. 095 7383087
[email protected]
Orario lezioni
• Lunedì,Mercoledì e Venerdì 17-19 – Aula 2
Modalità d'esame
• Prova orale/laboratorio
• Progetto
Testi consigliati
• Valle et al.
Introduzione alla Bioinformatica
Zanichelli
• Jambeck, Gibas
Developing Bioinformatics Computer Skills
O'Reilly
• Lewin
Il Gene – Edizione Compatta
Zanichelli
Genomica e Proteomica
• La genomica è una branca della biologia molecolare
che si occupa dello studio del genoma degli
organismi viventi.
– In particolare si occupa della struttura, contenuto, funzione
ed evoluzione del genoma.
• La proteomica è una disciplina che studia il
proteoma, il complemento tempo-specifico e cellulospecifico del genoma.
• Il proteoma è l'insieme di tutte le proteine espresse
in una cellula:
– Dinamico nel tempo
– Varia in risposta a fattori esterni
– Differisce tra i diversi tipi cellulari di uno stesso organismo
Cos'è la Bioinformatica?
• E’ la disciplina che studia le interazioni fra
Informatica e processi biologici. Essa viene anche
chiamata Biologia Computazionale.
• Utilizza i metodi propri dell'informatica per la
risoluzione di problemi biologici.
• La genomica e la proteomica sono basate sulla
Bioinformatica, per l'elaborazione, l'interpretazione e
la visualizzazione dell'enorme quantità di dati che
producono.
• La nuova era è iniziata con il Progetto Genoma
Umano e con la produzione della sequenza completa
del DNA umano e di altri organismi.
La Bioinformatica
• Necessità di interpretare la grande mole di
dati collezionate dai biologi.
• DNA(memoria), RNA(comunicazione),
Proteine(computazione-esecuzione) etc..
• Quali parti del DNA controllano certi
processi?
• Qual è la funzione di certe proteine?
I principali tipi di dati
• Biosequenze
– DNA, RNA, Proteine
• Strutture
– DNA, Secondaria dell'RNA, Secondaria e Terziaria
delle proteine
• Dati di interazione
– DNA-Proteina, RNA-RNA, RNA-Proteina, ProteinaProteina
• Livelli di espressione
– RNA (microarray)
– Proteine (protein array)
Esempio 1
• In una sequenza proteica è possibile
individuare regioni funzionalmente
importanti.
• Ogni sequenza proteica è codificata da una
sequenza genomica.
• Supponiamo che la regione X nel moscerino
sia cruciale in una certa funzione.
• Domanda: esiste un analogo nell'uomo?
• Risposta: effettuando una ricerca per
similarità della regione X nel genoma umano
è possibile individuare dei geni candidati.
Esempio 2
• Tutte le cellule di un individuo
contengono lo stesso DNA.
• Eppure un neurone è molto diverso da
un globulo bianco!
• Che cosa li rende così diversi nella
forma e nella funzione?
• Sebbene il DNA sia lo stesso, esso
contiene delle regioni importanti in
tutte le cellule ed altre specifiche per
alcune di esse.
• Mediante un'analisi del trascrittoma
(microarray) è possibile stabilire quali
regioni del DNA contengono
informazioni relative al funzionamento
di ognuna delle due cellule.
Esempio 3: Eyless e Aniridia: wet-biology
• Eyless è un gene della Drosophila
melanogaster (moscerino della frutta) la
cui rimozione (wet biology) causa la
generazione di mosche senza occhi.
• I biologi hanno anche identificato un
gene umano Aniridia la cui mancanza o
eccessiva mutazione, tale da non far
funzionare la corrispondente proteina,
causa il mancato sviluppo dell’iride negli
occhi.
Eyless e Aniridia: Bioinformatica
• Operiamo una query a NCBI dando
come input a BLAST la biosequenza del
gene Eyless e ricercando match con
Aniridia.
• Il risultato mostra due regioni
altamente simili. Il match è illustrato da
una sequenza in mezzo alle due
confrontate, contenente l’amminoacido
nel caso di match perfetto, il segno +
se c’è una similarità chimica (ad
esempio D ed E sono acidi aspartico e
glutammico), blank (cioè spazio vuoto)
nel caso di NON MATCH.
QUERY BLAST EYLESS-ANIRIDIA
pir||A41644 homeotic protein aniridia - human
Length = 447
Score = 256 bits (647), Expect = 5e-67
Identities = 128/146 (87%), Positives = 134/146 (91%), Gaps = 1/146 (0%)
Query: 24 IERLPSLEDMAHKGHSGVNQLGGVFVGGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 83
I R P+ M + HSGVNQLGGVFV
GRPLPDSTRQKIVELAHSGARPCDISRILQVSN
Sbjct: 17 IPRPPARASMQNS-HSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 75
Query: 84 GCVSKILGRYYETGSIRPRAIGGSKPRVATAEVVSKISQYKRECPSIFAWEIRDRLLQEN 143
GCVSKILGRYYETGSIRPRAIGGSKPRVAT EVVSKI+QYKRECPSIFAWEIRDRLL E
Sbjct: 76 GCVSKILGRYYETGSIRPRAIGGSKPRVATPEVVSKIAQYKRECPSIFAWEIRDRLLSEG 135
Query: 144 VCTNDNIPSVSSINRVLRNLAAQKEQ 169
VCTNDNIPSVSSINRVLRNLA++K+Q
Sbjct: 136 VCTNDNIPSVSSINRVLRNLASEKQQ 161
Score = 142 bits (354), Expect = 1e-32
Identities = 68/80 (85%), Positives = 74/80 (92%)
Query: 398 TEDDQARLILKRKLQRNRTSFTNDQIDSLEKEFERTHYPDVFARERLAGKIGLPEARIQV 457
+++ Q RL LKRKLQRNRTSFT +QI++LEKEFERTHYPDVFARERLA KI LPEARIQV
Sbjct: 222 SDEAQMRLQLKRKLQRNRTSFTQEQIEALEKEFERTHYPDVFARERLAAKIDLPEARIQV 281
Query: 458 WFSNRRAKWRREEKLRNQRR 477
WFSNRRAKWRREEKLRNQRR
Sbjct: 282 WFSNRRAKWRREEKLRNQRR 301
Match Parziale e NON Esatto
• Eyless ed Aniridia hanno match
significativi solo nelle posizioni 24-169 e
398-477 di Eyless con le posizioni 17161 e 222-301 di Aniridia
rispettivamente. Tutto il resto NON
presenta match significativi.
• Tuttavia il match è significativo per cui
possiamo dedurre proprietà dell’Aniridia
da quelle del più conosciuto Eyeless
(struttura, funzione,effetti sul
fenotipo(caratteristiche visibili o
misurabili) etc..)
Programma del corso
•
•
•
•
•
•
•
•
•
•
•
•
Biologia molecolare: cellule, genomi ed evoluzione
Biologia molecolare: RNA e trascrizione
Biologia molecolare: La traduzione e le proteine
Basi di dati biologiche
Allineamento di sequenze
Gene prediction
Predizione della struttura secondaria dell’RNA
RNA non codificanti: miRNA e siRNA
Analisi del trascrittoma – Microarray
Systems Biology e Network biologiche
Sistemi per il mining di network biologiche
Il linguaggio Perl
Cellule, genomi e Dogma della Biologia
Molecolare
• La cellula
• Il Genoma
– Geni, pseudogeni, ripetizioni
• Struttura dei geni
• Il Dogma della Biologia Molecolare
– Trascrizione (DNA -> RNA)
– Traduzione (RNA -> Proteine)
Basi di dati biologiche
• Dati biologici e loro formati
– Sequenze biologiche
• Banche dati generiche
– NCBI, EMBL, DDBJ
• NCBI
– Entrez: Nucleotide, Protein, Gene
• EMBL
– Ensembl!
Allineamento di sequenze
•
•
•
•
•
•
•
•
•
•
•
•
•
Omologia, similarità e distanza
Funzioni di scoring e matrici di sostituzione
Allineamento Pairwise: algoritmo di Needleman-Wunsch
Allineamento Pairwise locale: BLAST, Smith-Waterman
Allineamento Multiplo
Funzioni di scoring: sum-of-pairs, entropia, circular sum
Center star method
Profili
Allineamento progressivo: algoritmo di Feng-Doolittle
ClustalW
Metodi basati su consistenza: T-Coffee, ProbCons
Valutazione di allineamenti multipli
Motif finding
Il linguaggio Perl
• Perl
– Il linguaggio di scripting più utilizzato in
Bioinformatica
– Interpretato
– Punto di forza: espressioni regolari
– Linguaggio "colla": utile nell'automatizzazione di
esperimenti, test e nella conversione di formati
Gene prediction
• Modelli di Markov Nascosti (HMM)
• Metodi per la predizione di geni
– ORF
– Modelli statistici
– Individuazione di Esoni ed introni
• Tool per la predizione di geni
– GenScan
Predizione della struttura secondaria
dell’RNA
•
•
•
•
Struttura secondaria dell’RNA
Rappresentazione di strutture secondarie
Metodi probabilistici per la predizione
Tool per la predizione della struttura dell’RNA
– MFold
Analisi del trascrittoma e Microarray
• Microarray technology
• Analisi di dati da microarray
• Cenni su protein array
RNA non codificanti e miRNA
•
•
•
•
I miRNA
Database di miRNA
Predizione di geni miRNA
Predizione di target per miRNA
– miRanda
• RNA interference e siRNA
Database specializzati
• NCBI
–
–
–
–
Pubblicazioni scientifiche:Pubmed
Profili di espressione: GEO
Polimorfismi: dbSNP
Interrogazione del DB via script: EUtils
• Browser genomici
– NCBI MapViewer
– UCSC Genome Browser
• miRNA
– miRBase, TarBase, miRò
• GO: Gene Ontology
• Pathways
– KEGG, Pathway Commons
• Ensembl! BioMart
Network biologiche
•
•
•
•
•
•
•
Teoria dei grafi
Misure di Centralità
Classificazione delle network
Clustering e metodi per l'identificazione dei clusters
Network scale-free e gerarchiche
Rilevamento della struttura modulare
Algoritmi tradizionali
– Single linkage clustering
– Average linkage clustering
• Algoritmi basati su betweenness centrality (Girvan,
Newman)
Sistemi per il mining di network biologiche
• Sistemi di visualizzazione di network
– Cytoscape
• Ricerca
– Netmatch
• Annotazione di network con miRNA
– miRScape