ESERCIZI 3 3.1 Immaginiamo (irrealisticamente) che un genoma sia composto da un filamento singolo di DNA, lungo n nucleotidi in tutto, dove i 4 nucleotidi appaiono in ciascuna posizione con probabilità ¼ ciascuno, indipendenti uno dall’altro. a) immaginiamo di avere una sequenza di mRNA prodotto dal nostro “genoma casuale”, composta di x nucleotidi. Qual è la probabilità di trovarla uguale nucleotide per nucleotide nel nostro genoma “casuale” a partire da una qualsiasi posizione? Qual è il numero atteso di volte che ci possiamo aspettare di trovarla? b) se si cerca un matching fra un mRNA di una specie “contro” il genoma di un’altra specie, in alcune posizioni mRNA e genoma possono differire. In questo caso qual è la probabilità di trovare un matching su un genoma lungo n per un mRNA lungo x, a partire da una qualsiasi posizione, dove pero’ il matching si ha anche in presenza di y “errori” (=nucleotidi diversi)? Qual è il numero atteso di volte che ci possiamo aspettare di trovare un matching? [Facoltativo per chi vuole calcolare i valori effettivi (con un computer): Genoma dell’uomo, n=3x10^9. La lunghezza del genoma può essere diminuita fino a 100 milioni (circa, genoma Arabidopsis) o 10 milioni (circa, genoma lievito). La lunghezza di x può andare da poche decine a qualche migliaio. y può andare dal 5% della lunghezza x fino al 50-70% circa. Vedere come variano probabilità e valori attesi a seconda di n, x, y] 3.2 Immaginiamo di voler cercare una sequenza di amminoacidi (20 lettere possibili) lunga x (detta “query”) in una “banca dati” di sequenze di proteine. Immaginiamo (irrealisticamente) che tutte le sequenze della banca dati siano lunghe x come la query e che la banca dati contenga n sequenze. Sia la sequenza query che quelle della banca dati hanno probabilità 1/20 di avere un amminoacido in una qualsiasi posizione. a) Qual è la probabilità di trovare in banca dati una sequenza uguale alla query in tutti gli amminoacidi (quindi in x su x posizioni)? b) Qual è il numero atteso di sequenze della banca dati uguali alla sequenza query? c) Qual è il numero atteso di sequenze della banca dati uguale alla query in almeno k amminoacidi su x? [Facoltativo per chi vuole calcolare i valori effettivi (con un computer): numeri “realistici”: x (lunghezza sequenza) da 100 a 1000, n (sequenze banca dati) da un milione fino a 100 milioni, k amminoacidi su x provare k/x = 0.75 0.5 0.25, e così a scendere]