Bioinformatica
Analisi del genoma
GABRIELLA TRUCCO
CREMA, 5 APRILE 2017
Cosa è il genoma?
Insieme delle informazioni biologiche, depositate nella sequenza di
DNA, necessarie alla costruzione e mantenimento di ogni organismo
vivente
Manuale in cui sono contenute le istruzioni che regolano lo sviluppo ed
il funzionamento di ogni organismo
Genoma
Il genoma è scritto in un composto chimico chiamato DNA
(DeoxyriboNucleic Acid, acido desossiribonucleico)
Il DNA è identico per tutte le cellule di un individuo, quindi tutte le
cellule hanno le stesse informazioni, ma non le utilizzano tutte allo
stesso modo.
neurone
leucocita
DNA
Polimero costituito da unità chiamate nucleotidi
Ogni nucleotide contiene un gruppo chiamato base azotata
- Adenina (A), Guanina (G), Citosina (C), Timina (T)
Basi azotate: alfabeto della vita
Struttura a doppia elica del DNA
Il progetto genoma umano
Conoscenza di tutta l’informazione racchiusa nel genoma: condizione per comprendere
l’intera biologia di un determinato organismo, comprendere il segreto della vita
Conoscere l’intera sequenza del genoma umano = conoscere tutte le pagine del manuale
necessario per costruire il corpo umano
1986: premio Nobel Renato Dulbecco e Leroy Hood lanciano l’idea di sequenziare l’intero
genoma umano
Obiettivi
• Identificare tutti i geni umani
• Identificare i geni responsabili delle malattie mendeliane
• Identificare la funzione dei geni
• Determinare la struttura dei geni
• Determinare le regioni non codificanti con funzione regolatoria
• Scoprire l’inatteso
Il progetto genoma umano
Sequenziamento del DNA: determinazione lineare delle basi che lo compongono
Per il genoma umano: determinare la sequenza di 3 miliardi di paia di basi
Possibile grazie ai progressi delle tecnologie (sequenziatori automatici) capaci di
sequenziare 400mila basi al giorno
Ottenute le sequenze dei nostri cromosomi, le cose che vogliamo scoprire sono:
• ci sono geni che codificano per proteine?
• qual'è la funzione di queste proteine?
• ci sono differenze fra individuo e individuo? Se sì, cosa comportano?
• quali sono le differenze di un individuo con una certa malattia rispetto ad un
individuo sano per quella stessa malattia?
La bioinformatica
Necessità di gestire ed interpretare le grandi quantità di informazioni
derivanti dal sequenziamento del genoma umano  sviluppo di adeguati
strumenti informatici (banche dati, algoritmi e sw per l’analisi di sequenze)
Obiettivi della bioinformatica: sviluppare e applicare strumenti adeguati per
l’immagazzinamento, l’interrogazione e l’analisi dei dati biologici (sequenze
di DNA e proteine, interazioni strutturali, dati metabolici, letteratura
scientifica, …) che oggi vengono prodotti a ritmi sempre più elevati
Porzione non-codificante
del genoma
Variabilità genetica
Variabilità genetica
Da cosa dipende la differenza?
Da cosa dipende la differenza?
Avvento dell’era genomica
Avvento dell’era genomica
Il progetto genoma umano:
dal 2003 ad oggi
Il progetto genoma umano:
dal 2003 ad oggi
SFIDE FUTURE
Aspetti di utilità pratica
James Watson: “I bioinformatici sono dei matematici,
cioè persone brave con i numeri, le quali possono
trovare nuovi modi di analizzare le molecole del DNA.
Adesso il fattore limitante non sono le macchine ma le
persone, queste persone (i Bioinformatici) devono
essere in grado di analizzare ed interpretare il DNA.”
Abbiamo il sequenziamento.
E adesso?
Se il significato di un pezzetto di DNA è dato dalla sequenza delle sue basi,
e rappresento ciascuna base con una lettera, quel pezzetto di DNA altro
non sarà che una parola, e un pezzo di DNA più grande altro non sarà che
un testo formato da tante parole
Possiamo analizzare questo testo usando vari criteri e le operazioni che
facciamo le possiamo codificare in un programma e farle svolgere ad un
computer al posto nostro.
ESEMPIO 1
Per trovare i geni che codificano per proteine proveremo a leggere le
sequenze a gruppi di tre lettere partendo da tutte le posizioni possibili e a
tradurre queste triplette in aminoacidi.
Ogni volta che il numero di aminoacidi che otteniamo uno di seguito
all'altro senza stop supera 50, possiamo presumere che quella regione del
DNA codifichi verosimilmente per una proteina
Esempio 1
Esempio 1
Tre diversi modi di
leggere la sequenza di
nucleotidi
Esempio 1
Esempio 2
Data una sequenza sconosciuta, determinare se questa sia simile alla
sequenza di un gene conosciuto
Determinare la similarità di sequenze non è sempre semplice.
«I genomi dell’uomo e della scimmia sono simili per il 99%»
Cosa significa questo?
Esempio 2
95% di similarità
80% di similarità
Esempio 2
BLAST
BLAST (Basic Local Alignment Search Tool): programma per verificare se
una determinate sequenza di nucleotidi è simile ad altre sequenze
memorizzate in un database
Analogo ad un motore di ricerca:
1- Confronto tra informazione in ingresso e informazioni del db
2- Risultati dati in ordine di miglior match
BLAST
https://blast.ncbi.nlm.nih.gov/Blast.cgi
Query sequence