UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 3 Mappe genetiche Alfabeti, parole, linguaggi Alfabeto = insieme finito S di elementi detti lettere, caratteri o simboli Esempi S = {0,1} Alfabeto binario S = {a, b, c, ... , v, z} Alfabeto italiano S = {A, C, G, T} Alfabeto del DNA S = {GLY, ALA, VAL, LEU, …} Alfabeto delle proteine 2 Alfabeti, parole, linguaggi Parola, stringa o sequenza su S = lista ordinata di simboli di S scritti consecutivamente da sinistra a destra Formalmente: Una stringa w = a1a2…an è una funzione w: {1,2,…,n} S con: w(i) = ai carattere i-esimo di w n lunghezza di w (denotata anche con |w|) ESEMPIO: w = AATGCA Parola vuota e |w| = 6 |e| = 0 L’insieme delle parole su S viene indicato con S* (chiusura di S) 3 Alfabeti, parole, linguaggi Sottosequenza di w = sequenza ottenuta per cancellazione di uno o più caratteri di w Esempio w = AATGCATTCGCT Supersequenza di w’ w’= A TG AT CG T Sottosequenza di w 4 Alfabeti, parole, linguaggi Sottostringa di w = stringa formata da caratteri consecutivi di w Esempio w = AATGCATTCGCT Superstringa di w’ w’= Sottostringa di w TGCATTC Una sottostringa di w è anche sottosequenza di w (ma non vale il viceversa) 5 Alfabeti, parole, linguaggi Concatenazione di w e v, wv = stringa formata dai caratteri di w, seguiti da quelli di v Esempio v = AATGC w = ATTCGCT vw = AATGCATTCGCT 6 Alfabeti, parole, linguaggi Prefisso di w = stringa v tale che w = vt per qualche t S* Esempio w=AATGCATTCGCT Suffisso di w = stringa t tale che w = vt per qualche vS* Esempio w=AATGCATTCGCT 7 Gene hunting Ricerca del gene responsabile di un particolare evento (in genere malattia) Esempio Malattia: fibrosi cistica (frequenza 1/2500) Causa: gene alterato presente con frequenza 1/25 (se ereditato da ambedue i genitori causa la malattia) Scoperte: primi anni ‘80: inizia la ricerca del gene responsabile della FC (per diagnosi prenatale e cura) 1985: viene individuato il cromosoma 7 su cui risiede il gene 1989: il gene viene localizzato sul cromosoma 7 (la proteina corrispondente comprende 1480 aminoacidi) 8 Mappaggio genetico Posizionamento approssimato di un gene su un particolare cromosoma (prima fase del gene hunting) Idea generale: analizzare la frequenza di diverse combinazioni di fenotipi nella discendenza per determinare l’ordine dei geni Prima mappa genetica: sei geni della Drosophila Melanogaster (Sturtevant, 1913) 9 Mappaggio genetico: un esempio Organismo modello semplice (unico cromosoma) Numero di geni: 3 (colore di occhi, pelle, capelli) Ogni gene può essere nello stato NB: per la stessa posizione di R: fenotipo rosso V: fenotipo verde ricombinazione, l’insieme degli stati poteva anche essere (p1, m2, m3) Dati un individuo madre (m1, m2, m3) e un individuo padre (p1, p2, p3), con mi e pi stati dei geni, un figlio è un individuo con insieme degli stati fornito da una particolare posizione di ricombinazione i compresa tra 0 e 3 (ad esempio (m1, p2, p3) per i=1) Ogni coppia di individui può dare luogo a 8 ricombinazioni diverse La probabilità di ricombinazione alla posizione i è pari a 1/4 10 Mappaggio genetico: un esempio Gen1 Gen2 abc def abc aef abf abc def dbc dec def Dati i fenotipi di un grande numero di figli di un genitore tutto rosso e uno tutto verde, si vuol trovare l’ordine dei geni 11 Mappaggio genetico: un esempio Le diverse possibilità di ricombinazione tra un individuo (R, R, R) e uno (V, V, V) sono: per i=0: (V, V, V) o (R, R, R) per i=1: (R, V, V) o (V, R, R) per i=2: (R, R, V) o (V, V, R) NB:per i=3: (R, R, R) o (V, V, Mappe genetiche) - Probabilità di avere caratteri diversi per i geni in posizione 1 e 2: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 2 e 3: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 1 e 3: 1/2 12 Mappaggio genetico: un esempio Generalizzando si ottiene Numero di geni: n Ogni gene può essere nello stato R: fenotipo rosso V: fenotipo verde Dati un individuo madre (m1, m2, …, mn) e un individuo padre (p1, p2, …, pn), con mi e pi stati dei geni, un figlio è un individuo con insieme degli stati fornito da una particolare posizione di ricombinazione i compresa tra 0 e n ((m1, …, mi, pi+1, …, pn) o (p1, …, pi, mi+1, …, mn)) Ogni coppia di individui può dare luogo a 2(n+1) ricombinazioni diverse La probabilità di ricombinazione alla posizione i (probabilità di avere diversi i caratteri per i geni nelle posizioni i e i+1) è pari a 1/(n+1) La probabilità di avere diversi i caratteri per i geni non consecutivi è pari a d/(n+1) con d distanza tra i caratteri 13 Mappaggio genetico: un esempio INPUT: un elevato numero di figli di un individuo tutto rosso (R, R, …, R) e di uno tutto verde (V, V, …, V) OUTPUT: ordine (g1, g2, …, gn) dei geni nell’organismo modello Misurando la frequenza dei caratteri diversi nella popolazione dei figli, si risale alla stima delle distanze tra i geni gi e quindi al loro ordine sul cromosoma 14 Mappaggio fisico del DNA Mappa fisica := localizzazione di marcatori lungo la sequenza del DNA Tecnica: RFLP (Restriction Fragments Length Polymorphism) Esempio: Siti di restrizione 1970: Hamilton Smith scopre che HindII taglia il DNA in corrispondenza di GTGCAC o GTTAAC Il DNA umano è tagliato in circa un milione di frammenti Mutazioni interne al sito di restrizione impediscono il taglio 1973: Danna et al. costruiscono la prima mappa di restrizione per il DNA del Simian Virus 40 15 Mappaggio fisico del DNA Il mappaggio fisico del DNA consiste nel creare alcune copie del DNA da mappare frammentare con enzimi di restrizione confrontare i frammenti e le loro sovrapposizioni Generazione di fingerprints per analisi dei siti di restrizione Misura della lunghezza dei frammenti ibridazione Ricerca di piccole sequenze che legano i frammenti 16 Analisi dei siti di restrizione Enzima A Enzima B Enzima A+B 3 8 5 4 3 6 1 5 10 11 2 6 7 3 7 17 Problema della doppia digestione (DDP) INPUT: tre multinsiemi di numeri interi: A = {a1, a2, …, an} B = {b1, b2, …, bm} O = {o1, o2, …, ok}Il problema DDP è NP-completo (Goldstein e Waterman, 87) OUTPUT: due permutazioni di A e B, pA e pB, tali che, riportando su una retta gli elementi di A in segmenti consecutivi e ordinati secondo pA e gli elementi di B in segmenti consecutivi e ordinati secondo pB, si ottenga una suddivisione in segmenti corrispondenti agli elementi di O 18 Problema della doppia digestione (DDP) Esempio INPUT: A = {3, 6, 8, 10} B = {4, 5, 7, 11} O = {1, 2, 3, 3, 5, 6, 7} OUTPUT: pA pB pA U pB 3 4 8 3 1 11 5 4 3 6 11 10 17 7 9 5 20 2 6 3 27 27 7 19