lezione 1.pptx - Biocomputing.it

Bioinforma)ca [email protected] www.biocompu)ng.it Stanza 332 Fisica Marconi Prerequisi) •  Biologia molecolare •  Biochimica •  In par)colare: –  StruDura e proprietà di acidi nucleici –  StruDura e proprietà di amino acidi –  StruDura delle proteine Prerequisi) di Bioinforma)ca –  Metodi di determinazione delle struDure molecolari –  Principali banche da) –  Metodi di predizione della localizzazione di geni –  Matrici sito-‐speciﬁche –  Modelli di Markov –  Omologia e allineamen) di sequenza –  Allineamen) mul)pli, proﬁli –  BLAST, PSI-‐BLAST, HMM –  Homology modeling –  Docking Programma di massima •  Ricapitolazione di nozioni di base di bioinforma)ca •  Assemblaggio di sequenze oDenute per NGS •  Metodi di apprendimento automa)co e loro applicazioni •  Metodi di oUmizzazione e loro applicazioni Geni e genomi Il gene è l'unità ereditaria fondamentale degli organismi viven). Corrisponde ad una sequenza di acidi nucleici (DNA o, più raramente, di RNA) composta da regioni trascriDe e regioni regolatorie. La somma delle sequenze geniche codiﬁcan) (ovvero gli esoni, anche se esistono esoni non codiﬁcan)), insieme a quelle non codiﬁcan) (introni), è deDa genoma. Genomica Ma come si oUene la sequenza di un gene o di un genoma? Metodi di sequenziamento del DNA Il dogma centrale Replicazione DNA RNA Trascrizione proteine Traduzione Il DNA può replicarsi, poi viene trascriDo in una molecola di RNA che a sua volta, viene tradoDa in proteina Il dogma centrale rivisitato Replicazione DNA protei
ne RNA Trascrizione Traduzione La scoperta di virus che usano l’RNA come materiale gene)co e si integrano nel DNA dell’ospite ha portato alla scoperta di enzimi che sono in grado si “retrotrascrivere” una molecola di RNA in DNA. Gli RNA messageri (mRNA) hanno una coda di polyA Poro nucleare mRNA introne rRNA tRNA polyA L’mRNA non con)ene introni quindi la sua sequenza corrisponde a quella del gene maturo Al ribosoma per la traduzione A A A A A A T
A A A T A T
T
T
A G G A A T
T
A A A T
T
C
T G A C G G G G C G T A T A A A G G A C G C G A T
T
G G G T
G G C
C
C
L’mRNA può essere isolato A A Sequenziamento con metodo classico (Sanger) Se si aggiunge una G T A G G G G A T
G G A T
T A A T
G G T
A A T
T
T
G G G G G G G G A A A A G G G G G G G G A A A A T
T
T
T A T A A A T
A T
A T
G G G G G G G G miscela di basi azotate e di basi modiﬁcate che non permeDono l’allungamento della catena e ﬂuorescen) a lunghezze d’onda diverse, le basi modiﬁcate verranno incorporate nell’elica nascente in posizioni casuali e causeranno l’interruzione della catena in posizioni diverse corrisponden) alla base azotata complementare Sequenziamento con metodo classico (Sanger) T
G G A G G A T
A G G T
G G A G G A T
A T
G G T
G G A G G A T A A T
G G T
G G A G G A T
T A A T
G G T
G G A G G A T
T A A T
G G T
G G A G G A T
T A A T
G G T
G G A T
G G A T
T A A T
G G T
G G A T
G G A T
T A A T
G G T
G G A T
G G A T
T A A T
G G T A G G A T
G G A T
T A A T
G G G T A G G A T
G G A T
T A A T
G G Si oDerrà una miscela di frammen) di diversa lunghezza e con ﬂuorescenza diversa. Il colore della ﬂuorescenza dipende dalla base complementare a quella modiﬁcata EleDroforesi -‐ I frammen) di DNA possono essere separa) per dimensione u)lizzando un gel di acrilamide. Le molecole più grandi si muoveranno più lentamente di quelle piccole. + t=0 t=1hr t=2hr Gel di acrilammide Sequenziamento SpeDrografo che separa i colori T A T C C T C C A G rivelatore laser gel Risultato Assemblaggio di una regione 0 600 1200 1800 Con questa tecnica si riescono a sequenziare circa 750-‐800 basi alla volta che poi vanno assemblate. gap Il genoma umano Al progeDo genoma umano hanno contribuito varie Is)tuzioni, ciascuna prendendosi cura di alcune sue par). Il Sanger Center per esempio ha sequenziato i cromosomi 1, 9, 10,20, 22 e X. Formalmente il progeDo è par)to nel 1990. La prima bozza è stata completata nel 2000, una versione più completa nel 2003. Next genera)on sequencing Step 1: Frammentazione del DNA Step 2: Preparazione del campione AdaDatore Chiave (TCAG) Iden)ﬁcatore per mul)plexing Ampliﬁcazione per PCR. AdaDatore Chiave (TCAG) Iden)ﬁcatore per mul)plexing L’adaDatore servirà come primer per l’ampliﬁcazione, la chiave come segnale di inizio della sequenza, l’iden)ﬁcatore e’ un codice per iden)ﬁcare campioni diversi Step 3: Denaturazione Frammen) AdaDatori Campione Dopo aver frammentato il DNA (per esempio per sonicazione) e l’aggiunta delle sequenze descriDe precedentemente, il DNA viene denaturato. Step 4: caricamento della cella I frammen) di DNA vengono lega) in posizioni casuali su una cella che con)ene frammen) con la sequenza degli adaDatori. A G I campioni di DNA si ampliﬁcano u)lizzando gli adaDatori come primer. Si denatura e si ripete l’ampliﬁcazione Step 5: Sequenziamento per sintesi Si generano quindi dei “cluster” che contengono milioni di copie di DNA. Si aggiungono i nucleo)di ﬂuorescen) e si registra un’immagine della cella. Step 5: Sequenziamento per sintesi 1° ciclo 2° ciclo 3° ciclo clusters GCA... TAT... Ciascuna posizione può essere u)lizzata per “leggere” la sequenza del cluster. A G T
G G A G G A T
A T
G G T
G G A G G A T A A T
G G T
G G A G G A T
T A A T
G G laser Risultato (formato Fastq) “Reads” Iden)ﬁca)vo Sequenza Commen) Qualita’ Codiﬁca della qualità: !"#$%&'()*+,-‐./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ Qualità dei da) analizzate eliminate Qualità dei da) Analisi da) •  Ora occorre ricostruire i trascriU o il genoma assemblando i vari frammen). •  Il metodo che si usa si basa sulla costruzione di un grafo che descriva i frammen) e su un algoritmo per aDraversarlo. Graﬁ di de Bruijn CAAC CCAA AACC ACCA ACCC CCCA CCAC CAAC CAA CCAA AAC CAC CCA CCAC ACCA AACC ACC ACCC CCCA CCC Per ogni read di lunghezza N, le connessioni sono le reads e i nodi corrispondono ad una sequenza lunga N-‐1 senza la prima e l’ul)ma base. Possiamo ricostruire la sequenza se iden)ﬁchiamo un percorso che visi) ogni connessione esaDamente una volta (percorso Euleriano). I percorsi Euleriani TuDo è iniziato come un rompicapo... Konigsberg era una ciDà Prussiana aDraverso cui scorreva un ﬁume che divideva la ciDa’ in diversi segmen), inclusa un’isola. C’erano seDe pon). Esisteva un precorso che aDraversasse tuU i seDe pon) una sola volta? La risposta è no, ma la regina pose ai matema)ci il problema di capire perché. Dopo circa cento anni, Eulero risolse il problema. Per farlo modellò la ciDà come un grafo e questa fu l’origine di una branca della matema)ca chiamata teoria dei graﬁ. Occorreva un altro ponte! Si sfruDano le proprieta’ delle re) Deﬁnizione: il grado di un ver)ce è il numero delle sua connessioni Deﬁnizione: Un grafo è connesso se esiste un percorso che conneDe ogni suo ver)ce ad ogni altro suo ver)ce. Percorsi e cicli Euleriani C A B F D E Percorso Euleriano – un percorso che visita ogni connessione esaDamente una volta Ciclo Euleriano – un percorso che visita ogni connessione esaDamente una volta partendo e arrivando allo stesso nodo (Percorso Hamiltoniano – un percorso che visita ogni nodo esaDamente una volta) Graﬁ di de Bruijn CAAC CCAA AACC ACCA ACCC CCCA CCAC CAAC CAA CCAA AAC CAC CCA CCAC ACCA AACC ACC ACCC CCCA CCC Se costruiamo un grafo in cui ogni connessione rappresenta una “read” e ogni nodo una sovrapposizione tra due “reads” possiamo ricostruire la sequenza se iden)ﬁchiamo il corrispondente percorso Euleriano. Per ogni read di lunghezza N, le connessioni sono le reads e i nodi corrispondono ad una sequenza lunga N-‐1 senza la prima e l’ul)ma base. Primo passo: costruzione del grafo •  Ogni read di lunghezza k e’ un nodo
•  Due nodi sono connessi se condividono un (k-1)mero
GACTGG GACTCC GACTGG ACTGGG CTGGGA TGGGAC ACTGGG CTGGGA GGACTC GACTCC GGACTC TGGGAC GGGACT GACTGGGACTCC GGGACT Un algoritmo per trovare il percorso Euleriano •  Seleziona un nodo di partenza e agisci poi ricorsivamente. Ad ogni passo: –  Se il nodo non ha primi vicini, aggiungi il nodo al percorso –  Se il nodo ha un vicino, man)eni una lista dei vicini e procedi ﬁno a che non ci sono più vicini –  Per ogni vicino, rimuovi la connessione tra il nodo di partenza e i suoi vicini, ripe) ricorsivamente sui vicini –  Dopo aver processato tuU i vicini, aggiungi il nodo al percorso Esempio 4
2
6
3
7
5
•  Stack: •  Loca)on: •  Circuit: 1
4
2
6
3
7
5
! 
! 
! 
Stack: Loca)on: 1 Circuit: 1
4
2
6
3
7
5
! 
! 
! 
Stack: Loca)on: 1 Circuit: 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 Loca)on: 4 Circuit: 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 Loca)on: 2 Circuit: 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 2 Loca)on: 5 Circuit: 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 2 5 Loca)on: 1 Circuit: 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 2 Loca)on: 5 Circuit: 1 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 2 5 Loca)on: 6 Circuit: 1 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 2 5 6 Loca)on: 2 Circuit: 1 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 2 5 6 2 Loca)on: 7 Circuit: 1 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 2 5 6 2 7 Loca)on: 3 Circuit: 1 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 2 5 6 2 7 3 Loca)on: 4 Circuit: 1 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 2 5 6 2 7 3 4 Loca)on: 6 Circuit: 1 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 2 5 6 2 7 3 4 6 Loca)on: 7 Circuit: 1 1
4
2
6
3
7
5
! 
! 
! 
Stack: 1 4 2 5 6 2 7 3 4 6 7 Loca)on: 5 Circuit: 1 1
4
2
6
3
7
5
! 
! 
! 
1
Stack: Loca)on: 1 Circuit: 1 5 7 6 4 3 7 2 6 5 2 4 Percorso Euleriano 4
2
6
3
7
5
1
!  Circuit: 1 5 7 6 4 3 7 2 6 5 2 4 1 Graﬁ di de Bruijn per l’assemblaggio delle sequenze •  Un nodo per read •  La dimensione del grafo dipende dalla dimensione del genoma •  Occorre tener conto di ambiguità e di errori di sequenza B A R C D ARBRCRD or ARCRBRD Assemblaggio delle reads Grafico di de Bruijn
Reads
AAGA
ACTT
ACTC
ACTG
AGAG
CCGA
CGAC
CTCC
CTGG
CTTT
…
CCG
TCC
CGA
AAG
AGA
Possibili assemblaggi
AAGACTCCGACTGGGACTTT
CTC
GAC
ACT
GGA
CTT
AAGACTGGGACTCCGACTTT
TTT
CTG
GGG
TGG
•  Trovare un percorso Euleriano nel grafo di de Bruijn –  Genoma umano: >3B nodes, >10B edges •  Calcolo lungo e complesso: –  Velvet (Zerbino & Birney, 2008) serial: > 2TB of RAM –  ABySS (Simpson et al., 2009) MPI: 168 cores x ~96 hours –  SOAPdenovo (Li et al., 2010) pthreads: 40 cores x 40 hours, >140 GB RAM Alcuni possibili problemi Compressione del grafo AAGA
ACTT
ACTC
ACTG
AGAG
CCGA
CGAC
CTCC
CTGG
CTTT
…
CCG
TCC
CGA
AAG
AGA
CTC
GAC
ACT
GGA
GGGA TGG
CTCCGA CTCC GACT AAGA CTTT CTGG TTT
CTG
GGG
CCGA CTT
AAGA GACT CTGGGA CTTT Compressione del grafo •  Molte connessioni sono non ambigue –  Si possono assemblare localmente In realta’ il genoma ha due eliche complementari Zerbino D R , Birney E. Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008;18:821-‐829 ©2008 by Cold Spring Harbor Laboratory Press Problemi Nodi isola)(10%) Tips (46%) Bubbles/Non-‐branch (9%) Dead Ends (.2%) Half Branch (25%) Full Branch (10%) (Chaisson, 2009) U)lizzo •  Assemblaggio ex novo di genomi –  Ancora molto diﬃcile per grandi genomi •  Iden)ﬁcazione di nuovi trascriDomi –  Diﬃcile se completamente nuovi •  Confronto tra trascriDomi –  Molto u)lizzato sia per classiﬁcazione che per iden)ﬁcazione di cause di patologie •  Iden)ﬁcazioni di varian) in genomi –  Molto u)lizzato per individuare polimorﬁsmi e mutazioni patologiche Altre applicazioni •  ChipSeq per iden)ﬁcare regioni del genoma a cui speciﬁche proteine si legano •  miRSeq per iden)ﬁcare microRNA •  ... Confronto tra trascriDomi (RNASeq) Campione 1 Sequenziamento Allineamento al genoma ed iden)ﬁcazione di giunzioni esoni introni Assemblaggio dei trascriU TrascriDoma Campione 2 Sequenziamento Allineamento al genoma ed iden)ﬁcazione di giunzioni esoni introni Assemblaggio dei trascriU TrascriDoma TrascriDoma “unione” Iden)ﬁcazione delle diﬀerenze sia qualita)ve che quan)ta)ve Le “reads” vanno assegnate alle giunzioni introne Allineamento al genoma ed iden)ﬁcazione di giunzioni esoni introni esone Allineamento di RNASeq Nuovi trascriU reads TrascriU no) Abbondanza rela)va delle isoforme? genoma Quan)ﬁcazione Abbondanza rela)va delle isoforme FPKM: Frammen) per kilobase per esone per milione di frammen) Fold change: log2 del rapporto tra le FPKM di due geni/esoni Confronto tra campioni Campione 1 Campione 2 TrascriU up-‐regola) 377 1442 TrascriU down-‐regola) 802 1036 Cosa ci dicono i trascriU diﬀerenzialmente espressi sul processo biologico? Occorre analizzarne la funzione Banche da) u)li •  Gene Ontology –  Assegna ad ogni gene la sua •  Funzione molecolare •  Processo biologico •  Componente cellulare •  KEGG (pathways) •  Interpro (famiglie) Calcolare la signiﬁca)vità •  Distribuzione ipergeometrica –  Una distribuzione che descrive la probabilità di trovare k even) in n estrazioni da una popolazione ﬁnita di N casi che con)ene esaDamente K even) •  Si usa per valutare se una certa soDo popolazione è soDo o sopra rappresentata in un campione Esempio EstraKe Non estraKe Totale Palline rosse 4 1 5 Palline verdi 6 39 45 Totale 10 40 50 Arricchimento funzionale dei geni up-‐ down – regola): Arricchimento funzionale dei geni up-‐ down – regola): ChipSeq Cross-‐link chimico e frazionamento Y Y DNA legato a proteine per esempio regolatrici Sequenziamento Puriﬁcazione Selezione con an)corpo Iden)ﬁcazione picchi ACGTGACAGGTACACCCTA ... ... ... Mappare sul genoma Iden)ﬁcare “mo)vi” comuni •  Una volta sequenziato un genoma, occorre iden)ﬁcare i geni e cercare di assegnare loro una funzione. Ricerca di geni Gli esoni possono essere combina) (splicing alterna)vo) AGATAGCAGATGACGATATTACCCGGAAAGATAGCAGATGACGATATTACCCGGAAAGATAGCAGATGACGATATTACCCGGAAAGTAGCAGATGACGATATTACCCGGAAAGATAGC!
TCTATCGTCTACTGCTATAATGGGCCTTTCTATCGTCTACTGCTATAATGGGCCTTTCTATCGTCTACTGCTATAATGGGCCTTTCTATCGTCTACTGCTATAATGGGCCTTTCTATC!
GCAGATG
CGTCTAC
AAAGATAGCAGAT
TTTCTATCGTCTA
GATAGCAGAT
CTATCGTCTA
CGGAAAGTAGCAGATGA!
GCCTTTCTATCGTCTACT!
•  La regione codiﬁcante di un gene inizia (generalmente) con una tripleDa ATG •  La regione codiﬁcante termina con una delle tre tripleDe TAA, TAG, TGA •  Negli eucario) la regione codiﬁcante è interroDa da introni •  Inizio e ﬁne degli introni contengono rispeUvamente il segnale GT e AG I segnali di splicing sono poco informa)vi ACACAGTAGACGATGACAGAGGTGGACGATGACGATGGACAGAT!
GATGATAGGACCAGCAGCGATAGTAGTAGGCGCAGCAGCTAGTA!
AGCGAGCAGTAGTTAGGATTAGACAGGACAGATAGGACAGACGA!
ATGACAGTGTAGACGATGACGATGGACGACCATTAGATTATTAG!
AGATAGCAGATGACGATATTACCCGGAATTGGACGATGACGTTA!
GATGATAGGACCAGCAGCGATAGTAGAAGGCGCAGCAGCGACGA!
AGCGAGCAGTAGATAGTATTAGACAGGACAGATAGGACAGTGTA!
ACACAGTAGACGATGACAGAGGTGGACGATGACGATGGACCCGA!
ATGACAGTGTAGACGATGACGATGGACGACCATTAGATTAGAAG!
AGATAGCAGATGACGATATTACCCGGAATTGGACGATGACGATA!
GATGATAGGACCAGCAGCGATAGTAGCAGGTGCAGCAGCAGACG!
AGCGAGCAGCAGTTAGGATTAGACAGGACAGATAGGACAGAGAC!
ATGACAGTTTAGACGATGACGTTGGACGACCATTAGATTAGAAG!
GATGATAGGACCAGCAGCGTTAGAAGTAGGCGCAGCAGCAGACG!
ACACAGTAGACGATGACAGAGGTGGACGATGACGATGGACAGAC!
ATGACAGTGTAGACGATGACGATGGACGACCATTAGATTAGAAA!
AGATAGCAGATGACGATATTACCCGGAATTGGACGATGACGATA!
La distribuzione in numero e lunghezza degli introni è molto varia I geni sono dispos) in modo non uniforme lungo il genoma Una piccola parte del genoma eucariota codiﬁca per proteine DNA genomico
Trasposone
Il trasposone
viene copiato
Inserzione
Esoni (regioni che codificano)
1,5%
DNA ripetitivo con
elementi transponibili
44%
Introni e regioni
regolative
24%
DNA non codificante
“unico”
15%
Elementi ALU
10%
DNA ripetitivo senza
elementi transponibili
15%
Nuova copia del
trasposone
Trasposone mobile
Nothing in Biology Makes Sense Except in the Light of Evolu)on Theodosius Dobzhansky