Soluzioni

advertisement
LABORATORIO DI TECNICHE COMPUTAZIONALI IN BIOLOGIA
Prova di Laboratorio MAT 1 A.A.2004/2005
Data:
Cognome e Nome:
Numero di Matricola:
Problema 1:
Sia data una popolazione di individui con le tipologie genetiche AA, AB, BB dovute alla presenza
di un allele di un certo gene in proporzione uguale.
a)Calcolare la probabilità che scegliendo due individui a caso si trovino le coppie non ordinate
(AA,AB) , (AB,AB) e (AA,AA).
b)Supponendo una riproduzione sessuale in cui un figlio eredita un gene da ciascun genitore nella
popolazione determinare la probabilità di ottenere un figlio AA da una coppia scelta a caso dalla
popolazione.
c)Calcolare la probabilità di avere un figlio AA da una coppia scelta tra la popolazione sapendo che
un genitore è AA.
d)Supponendo che tutta la popolazione si riproduca dopo ogni intervallo di tempo T, si calcolino le
percentuali delle tipologie genetiche nella popolazione dei figli.
e)Supponendo di iterare il processo di riproduzione nelle popolazioni dei figli che si ottengono è
possibile dedurre quale sarà la distribuzione genetica della popolazione dopo un numero molto
elevato di intervalli T?
f)Supponendo di introdurre una probabilità di sopravvivenza diversa (fitness) per le tre tipologie
genetiche, quale dovrebbe essere tale probabilità affinché la popolazione rimanga inalterata
dopo ciascuna riproduzione (ovvero tutti gli alleli sono presenti in egual numero)?
a) La popolazione contiene individui AA, AB e BB in ugual misura; pertanto la probabilità di
scegliere una qualunque delle tipologie è 1/3. Dal momento che le scelte sono considerate
indipendenti e la popolazione è molto grande avremo
P(AB,AB)=1/3·1/3=1/9
P(AA,AA)=1/9
P(AA,AB)=2/9
Il fattore 2 nell’ ultime formula è dovuto al fatto che le sequenze (AA,AB) e (AB,AA) sono
considerate identiche nel caso non siano ordinate.
b) Nel meccanismo di riproduzione solo le coppie (AA,AB) , (AB,AB) e (AA,AA) possono
generare un figlio AA. Se scegliamo la coppia (AA,AB) la probabilità Pf generare un figlio AA
si calcola moltiplicando la probabilità di scegliere l’allele A dal primo genitore e quella di scegliere
l’allele A dal secondo genitore. Utilizzando la probabilità condizionata avremo
Pf(AA/AA,AB)=1·1/2=1/2
Ragionando in modo analogo possiamo calcolare
Pf(AA/AB,AB)=1/4
Pf(AA/AA,AA)=1
Tenendo conto delle proprietà della funzione probabilità abbiamo l’equazione
Pf(AA) = Pf(AA/AA,AB) P(AA,AB)+ Pf(AA/AB,AB) P(AB,AB)+ Pf(AA/AA,AA) P(AA,AB)=
= 1/4
c) Si tratta di calcolare la probabilità condizionata
Pf(AA/ un genitore è AA)=
Pf({nasce un individuo AA}/{uno dei genitori è AA}) )
P(AA è presente in una coppia)
La probabilità che un individuo AA sia presente in una coppia si calcola facendo in complemento a
1 della probabilità di scegliere una coppia senza AA
P(AA è presente in una coppia)=1-4/9=5/9
Le coppie che contengono un individuo AA sono (AA,AA),(AA,AB) e (AA,BB); tenendo conto
che l’ultima coppia non può generare un figlio AA avremo
Pf({nasce un individuo AA}/{uno dei genitori è AA})=
Pf({nasce un individuo AA}/{AA,AA})+Pf({nasce un individuo AA}/{AB,AA}) =1/9+1/2·2/9=2/9
Avremo infine
Pf(AA/ un genitore è AA)=(2/9)/(5/9)=2/5
d) Dal momento che il sistema riproduttivo non seleziona gli alleli e che gli alleli sono equamente
distribuiti tra la popolazione, un figlio avrà probabilità ½ di prendere l’allele A e probabilità ½ di
prendere B. Pertanto la distribuzione delle tipologie genetiche nella nuova generazione saranno
P(AA)=1/4
P(AB)=1/2
P(BB)=1/4
e) Iterando il processo di riproduzione la proporzione tra l’allele A e l’allele B rimane inalterata e
quindi le nuove generazioni avranno la stessa probabilità di ereditare A o B da un genitore. Pertanto
la distribuzione delle tipologie genetiche dopo la prima riproduzione, rimarrà sempre
P(AA)=1/4
P(AB)=1/2
P(BB)=1/4
f) Dal momento che la riproduzione favorisce gli individui AB che aumentano la loro proporzione,
per lasciare inalterata la situazione iniziale occorre introdurre una diversa probabilità di
sopravvivenza pi per i tipi secondo il sistema
pAA/4= pAB/2= pBB/4
con
pAA+ pAB+ pBB=1
avremo quindi
pAA=2/5 pAB=1/5
pBB=2/5
Problema 2:
Sia data una variabile Gaussiana con media 1 e varianza 4, scrivere la sua funzione di distribuzione.
Determinare analiticamente mediante un integrale la probabilità che la variabile prenda valori
nell’intervallo [-1,3]. E’ possibile stimare la probabilità che una realizzazione della variabile assuma
il valore 10?
Una serie di 10 realizzazioni della variabile fornisce i seguenti valori
0.42 2.45 2.9 -0.96 -0.75
-1.1 -0.93 0.613 0.53 4.65
determinare in modo numerico la media e la varianza motivando le discrepanze rispetto ai
valori teorici. Scrivere l’equazione della Gaussiana che meglio approssima i dati
sperimentali.
La funzione di distribuzione di una gaussiana con media 1 e varianza 4 si scrive
f(x)=
1
exp(-(x-1)2/8)
2 2Æ
La probabilità che la variabile x prenda un valore nell'intervallo [-1,3] si calcola mediante l'integrale
P(x
[-1,3])= +
3
1
f x dx
che si stima circa 67% poichè corrisponde alla probabilità che la variabile prenda valori in un
intervallo centrato sulla media con ampiezza pari a 
La probabilità che la varaibile assuma il valore 10 è nulla; solo la densità di probabilità è diversa da
0.
La media aritmetica delle realizzazioni è 0,7823 e la varianza (media degli scarti al quadrato) è pari
a 3,33. E' lecito aspettarci per il valor medio numerico una fluttuazione statitisca dell'ordine della
deviazione standard teorica divisa per la radice del numero di dati: 2/ 10 =0,632. Pertanto il
valore numerico risulta compatibile con il valore teorico.
La variabile gaussiana
1
f(x)= 2 Æ3.33 exp(-(x-.7823)2/6.66)
è quella che meglio approssima i dati sperimentali secondo il criterio dei minimi quadrati.
Problema 3:
Supponendo che una mutazione abbia la probabilità p=1/1000 di accadere ad ogni riproduzione
cellulare stimare qual è la probabilità che non compaia nessuna mutazione in una popolazione
di 500 cellule che si riproducono. Qual è la probabilità che compaia almeno una mutazione?
Utilizziamo la distribuzione di Poisson con parametro 500/1000=1/2 ottenendo
1
P(0)=e- 0/0!= e =0,607
La probabilità che compaia almeno una mutazione si trova facendo il complemento a 1 di P(0):
1-0,607=0,393.
Problema 4:
Tirando 1000 volte una monete avete registrato 700 volte l’uscita “testa”, che cosa ne potete
dedurre (giustificare la risposta)?
Supponendo che la moneta sia regolare l'uscita di testo o croce ha la stessa probabilità ½; pertanto
ci aspetteremmo un valor medio di 500 teste in 1000 lanci a fronte di una frequenza sperimentale di
7/10. Dal momento che la varianza della variabile aleatoria
f= (N.di uscite testa)/(N. di lanci)
risulta pari a 1/(4N) la diseguaglianza di Cebychev porta alla stima
P(|f-1/2|>1/5)<25/4000=0,00625
dove 1/5=7/10-1/2 è il modulo della differenza tra la frequenza teorica e quella sperimentale
misurata. Risulta pertanto altamente improbabilie che una moneta non truccata possa dare 700 teste
su 1000 lanci. Ne deduciamo che con probabilità maggiore del 1/1000 la moneta è stata truccata.
Scarica