Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento di ogni organismo vivente Manuale in cui sono contenute le istruzioni che regolano lo sviluppo ed il funzionamento di ogni organismo Genoma Il genoma è scritto in un composto chimico chiamato DNA (DeoxyriboNucleic Acid, acido desossiribonucleico) Il DNA è identico per tutte le cellule di un individuo, quindi tutte le cellule hanno le stesse informazioni, ma non le utilizzano tutte allo stesso modo. neurone leucocita DNA Polimero costituito da unità chiamate nucleotidi Ogni nucleotide contiene un gruppo chiamato base azotata - Adenina (A), Guanina (G), Citosina (C), Timina (T) Basi azotate: alfabeto della vita Struttura a doppia elica del DNA Il progetto genoma umano Conoscenza di tutta l’informazione racchiusa nel genoma: condizione per comprendere l’intera biologia di un determinato organismo, comprendere il segreto della vita Conoscere l’intera sequenza del genoma umano = conoscere tutte le pagine del manuale necessario per costruire il corpo umano 1986: premio Nobel Renato Dulbecco e Leroy Hood lanciano l’idea di sequenziare l’intero genoma umano Obiettivi • Identificare tutti i geni umani • Identificare i geni responsabili delle malattie mendeliane • Identificare la funzione dei geni • Determinare la struttura dei geni • Determinare le regioni non codificanti con funzione regolatoria • Scoprire l’inatteso Il progetto genoma umano Sequenziamento del DNA: determinazione lineare delle basi che lo compongono Per il genoma umano: determinare la sequenza di 3 miliardi di paia di basi Possibile grazie ai progressi delle tecnologie (sequenziatori automatici) capaci di sequenziare 400mila basi al giorno Ottenute le sequenze dei nostri cromosomi, le cose che vogliamo scoprire sono: • ci sono geni che codificano per proteine? • qual'è la funzione di queste proteine? • ci sono differenze fra individuo e individuo? Se sì, cosa comportano? • quali sono le differenze di un individuo con una certa malattia rispetto ad un individuo sano per quella stessa malattia? La bioinformatica Necessità di gestire ed interpretare le grandi quantità di informazioni derivanti dal sequenziamento del genoma umano sviluppo di adeguati strumenti informatici (banche dati, algoritmi e sw per l’analisi di sequenze) Obiettivi della bioinformatica: sviluppare e applicare strumenti adeguati per l’immagazzinamento, l’interrogazione e l’analisi dei dati biologici (sequenze di DNA e proteine, interazioni strutturali, dati metabolici, letteratura scientifica, …) che oggi vengono prodotti a ritmi sempre più elevati Porzione non-codificante del genoma Variabilità genetica Variabilità genetica Da cosa dipende la differenza? Da cosa dipende la differenza? Avvento dell’era genomica Avvento dell’era genomica Il progetto genoma umano: dal 2003 ad oggi Il progetto genoma umano: dal 2003 ad oggi SFIDE FUTURE Aspetti di utilità pratica James Watson: “I bioinformatici sono dei matematici, cioè persone brave con i numeri, le quali possono trovare nuovi modi di analizzare le molecole del DNA. Adesso il fattore limitante non sono le macchine ma le persone, queste persone (i Bioinformatici) devono essere in grado di analizzare ed interpretare il DNA.” Abbiamo il sequenziamento. E adesso? Se il significato di un pezzetto di DNA è dato dalla sequenza delle sue basi, e rappresento ciascuna base con una lettera, quel pezzetto di DNA altro non sarà che una parola, e un pezzo di DNA più grande altro non sarà che un testo formato da tante parole Possiamo analizzare questo testo usando vari criteri e le operazioni che facciamo le possiamo codificare in un programma e farle svolgere ad un computer al posto nostro. ESEMPIO 1 Per trovare i geni che codificano per proteine proveremo a leggere le sequenze a gruppi di tre lettere partendo da tutte le posizioni possibili e a tradurre queste triplette in aminoacidi. Ogni volta che il numero di aminoacidi che otteniamo uno di seguito all'altro senza stop supera 50, possiamo presumere che quella regione del DNA codifichi verosimilmente per una proteina Esempio 1 Esempio 1 Tre diversi modi di leggere la sequenza di nucleotidi Esempio 1 Esempio 2 Data una sequenza sconosciuta, determinare se questa sia simile alla sequenza di un gene conosciuto Determinare la similarità di sequenze non è sempre semplice. «I genomi dell’uomo e della scimmia sono simili per il 99%» Cosa significa questo? Esempio 2 95% di similarità 80% di similarità Esempio 2 BLAST BLAST (Basic Local Alignment Search Tool): programma per verificare se una determinate sequenza di nucleotidi è simile ad altre sequenze memorizzate in un database Analogo ad un motore di ricerca: 1- Confronto tra informazione in ingresso e informazioni del db 2- Risultati dati in ordine di miglior match BLAST https://blast.ncbi.nlm.nih.gov/Blast.cgi Query sequence