ESERCIZI 3 3.1 Immaginiamo (irrealisticamente) che un genoma sia

ESERCIZI 3
3.1 Immaginiamo (irrealisticamente) che un genoma sia composto da un filamento singolo di DNA,
lungo n nucleotidi in tutto, dove i 4 nucleotidi appaiono in ciascuna posizione con probabilità ¼
ciascuno, indipendenti uno dall’altro.
a) immaginiamo di avere una sequenza di mRNA prodotto dal nostro “genoma casuale”, composta
di x nucleotidi. Qual è la probabilità di trovarla uguale nucleotide per nucleotide nel nostro genoma
“casuale” a partire da una qualsiasi posizione? Qual è il numero atteso di volte che ci possiamo
aspettare di trovarla?
b) se si cerca un matching fra un mRNA di una specie “contro” il genoma di un’altra specie, in
alcune posizioni mRNA e genoma possono differire.
In questo caso qual è la probabilità di trovare un matching su un genoma lungo n per un mRNA
lungo x, a partire da una qualsiasi posizione, dove pero’ il matching si ha anche in presenza di y
“errori” (=nucleotidi diversi)? Qual è il numero atteso di volte che ci possiamo aspettare di trovare
un matching?
[Facoltativo per chi vuole calcolare i valori effettivi (con un computer): Genoma dell’uomo,
n=3x10^9. La lunghezza del genoma può essere diminuita fino a 100 milioni (circa, genoma
Arabidopsis) o 10 milioni (circa, genoma lievito). La lunghezza di x può andare da poche decine a
qualche migliaio. y può andare dal 5% della lunghezza x fino al 50-70% circa. Vedere come variano
probabilità e valori attesi a seconda di n, x, y]
3.2 Immaginiamo di voler cercare una sequenza di amminoacidi (20 lettere possibili) lunga x (detta
“query”) in una “banca dati” di sequenze di proteine. Immaginiamo (irrealisticamente) che tutte le
sequenze della banca dati siano lunghe x come la query e che la banca dati contenga n sequenze. Sia
la sequenza query che quelle della banca dati hanno probabilità 1/20 di avere un amminoacido in
una qualsiasi posizione.
a) Qual è la probabilità di trovare in banca dati una sequenza uguale alla query in tutti gli
amminoacidi (quindi in x su x posizioni)?
b) Qual è il numero atteso di sequenze della banca dati uguali alla sequenza query?
c) Qual è il numero atteso di sequenze della banca dati uguale alla query in almeno k amminoacidi
su x?
[Facoltativo per chi vuole calcolare i valori effettivi (con un computer): numeri “realistici”: x
(lunghezza sequenza) da 100 a 1000, n (sequenze banca dati) da un milione fino a 100 milioni, k
amminoacidi su x provare k/x = 0.75 0.5 0.25, e così a scendere]