MODELLI STOCASTICI DI MUTAZIONI SPONTANEE DEL DNA

UNIVERSITÀ DEGLI STUDI DI NAPOLI
FEDERICO II
Facoltà di Scienze
Matematiche Fisiche e Naturali
CORSO DI LAUREA IN FISICA
ANNO ACCADEMICO 2001/2002
TESI DI LAUREA
MODELLI STOCASTICI DI MUTAZIONI
SPONTANEE DEL DNA
Relatore
Prof. Luca Peliti
Candidato
Osvaldo Zagordi
matr.
60/572
Indice
Introduzione
vii
1 Le mutazioni del DNA
1
1.1
L’evoluzione . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Mutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
Dinamica dei geni nelle popolazioni . . . . . . . . . . . . . . .
4
1.3.1
Frequenza di diversi alleli
. . . . . . . . . . . . . . . .
4
1.3.2
Selezione naturale . . . . . . . . . . . . . . . . . . . . .
5
1.3.3
Equilibrio di Hardy-Weinberg . . . . . . . . . . . . . .
5
1.3.4
Deriva genica casuale . . . . . . . . . . . . . . . . . . .
9
1.3.5
Sostituzione genica . . . . . . . . . . . . . . . . . . . . 10
1.4
La teoria neutrale dell’evoluzione
molecolare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5
L’orologio molecolare . . . . . . . . . . . . . . . . . . . . . . . 14
2 Modelli di sostituzione
2.1
2.2
2.3
17
Il modello generale a 4 ipotesi (G4H ) . . . . . . . . . . . . . . 17
2.1.1
Il modello di Jukes - Cantor (JC) . . . . . . . . . . . . 19
2.1.2
Il modello Kimura a 2 parametri (K2) . . . . . . . . . 21
Distanza genetica . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1
Multiple hits . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.2
La regola di Jukes . . . . . . . . . . . . . . . . . . . . . 23
Bilancio dettagliato . . . . . . . . . . . . . . . . . . . . . . . . 25
iv
INDICE
3 Violazione del bilancio dettagliato
29
3.1 Applicazione a sequenze di pseudogeni . . . . . . . . . . . . . 29
3.2 Il modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1
Sequenze di DNA stabile . . . . . . . . . . . . . . . . . 30
3.2.2
Dimensionalità dello spazio dei parametri . . . . . . . . 30
3.2.3
Frequenze d’equilibrio e regole di Chargaff . . . . . . . 32
3.2.4
Bilancio dettagliato . . . . . . . . . . . . . . . . . . . . 34
3.3 Risoluzione esatta del modello . . . . . . . . . . . . . . . . . . 35
4 Stima dei parametri evolutivi
39
4.1 Metodi statistici . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 L’algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Numero massimo di parametri . . . . . . . . . . . . . . . . . . 43
5 Risultati
45
5.1 L’allineamento delle sequenze . . . . . . . . . . . . . . . . . . 45
5.2 Matrice di divergenza . . . . . . . . . . . . . . . . . . . . . . . 47
Conclusioni
55
A Concetti di base
59
A.1 Geni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
A.1.1 Il DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
A.1.2 Definizione di gene . . . . . . . . . . . . . . . . . . . . 60
A.2 Aminoacidi, proteine, codice genetico . . . . . . . . . . . . . . 60
A.3 Mutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
B Catene di Markov
B.1 Concetti preliminari
65
. . . . . . . . . . . . . . . . . . . . . . . 65
B.1.1 Processi stocastici . . . . . . . . . . . . . . . . . . . . . 65
B.1.2 Distribuzioni di probabilità
. . . . . . . . . . . . . . . 65
B.2 Processi di Markov . . . . . . . . . . . . . . . . . . . . . . . . 66
B.2.1 Il moto browniano . . . . . . . . . . . . . . . . . . . . 67
INDICE
v
B.2.2 Caveat . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
B.2.3 L’equazione di Chapman-Kolmogorov . . . . . . . . . . 70
B.2.4 Processi stazionari . . . . . . . . . . . . . . . . . . . . 70
B.3 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . 71
B.4 La master equation . . . . . . . . . . . . . . . . . . . . . . . . 72
vi
INDICE
Introduzione
Negli ultimi anni le nuove tecniche di sequenziamento del DNA hanno reso
disponibile una enorme mole di dati riguardanti il genoma di diversi organismi. Il primo organismo il cui genoma è stato interamente pubblicato fu
l’Haemophilus Influenzae, in seguito venne il turno di alcuni eucarioti e il
genoma umano è stato sequenziato quasi per intero. Era ovvio che questo
avrebbe dato un nuovo impulso alle discipline nell’area della genetica, tra cui
quella dell’evoluzione molecolare.
Questa disciplina si propone di indagare come l’evoluzione abbia portato
alle relazioni che intercorrono attualmente tra gli organismi mediante l’analisi
del patrimonio genetico di questi.
Un’opportunità particolarmente stimolante è rappresentata dai virus. Questi
infatti evolvono tanto velocemente da poter essere seguiti real-time nell’arco
di tempi umanamente ragionevoli1 , cosa che ha portato ad esempio a degli
studi sorprendenti sul virus HIV. È stato possibile ad esempio stabilire con
certezza in un gruppo di malati quali di questi fossero stati infettati dallo
stesso portatore [1]. Per dare un’idea di quanto velocemente evolvano i virus
si pensi che il virus presente nel sangue di un singolo paziente ha presentato
notevoli cambiamenti nell’arco di soli sette anni di osservazione [2].
Se da 40 anni ormai i progressi in biologia molecolare hanno influenzato
fortemente gli studi sull’evoluzione, solo da poco è vero anche il contrario.
Negli ultimi anni infatti i biologi molecolari hanno cominciato ad utilizzare
un approccio “evolutivo” per studiare più a fondo campi quali la biologia
1
Mentre per gli altri organismi le scale dei tempi sono nell’ordine dei milioni di anni.
viii
Introduzione
Figura 1: Crescita delle sequenze disponibili su GenBank.
ix
evolutiva e l’immunologia, dove è più marcata l’interazione tra queste due
discipline. La biologia molecolare ha effettivamente permesso l’unificazione
di molte delle discipline biologiche, in quanto un gran numero di processi
vitali sono identici a livello molecolare per tutti gli organismi. Da questo
discende che un’altro campo in cui varie branche della biologia si unificano è
la biologia evolutiva. Si sa infatti che tutti i viventi discendono da un unico
progenitore che ha fatto la sua comparsa sulla terra circa 4 miliardi di anni
fa; la mutazione e la selezione naturale sono state poi la causa dell’enorme
biodiversità presente attualmente. Le relazioni evolutive fra gli organismi
però sono ancora largamente sconosciute, cosı̀ come i processi che hanno
dato origine agli organismi complessi quali i mammiferi. Questi problemi si
studiano al giorno d’oggi in maniera quantitativa, ed è per questo che gli
strumenti statistici hanno un ruolo essenziale nelle scienze biologiche.
L’interesse verso i modelli di mutazione è sorto verso la fine degli anni
’60, quando si sono rese disponibili le prime sequenze geniche. Nel corso
degli anni sono stati proposti e risolti modelli a un numero sempre crescente
di parametri. Nel contempo la quantità enorme di dati disponibili (vedi
figura 1) ha permesso di indagare in maniera sempre più estesa le relazioni
di “parentela” fra gli organismi.
I modelli di mutazione hanno ricevuto l’attenzione dei fisici in quanto
sono stati assimilati a catene di Markov. In questo lavoro ci proponiamo di
studiare le conseguenze che ha nei modelli di mutazione la regola di bilancio
dettagliato che compare nella teoria dei processi stocastici.
Nel primo capitolo vengono descritti alcuni concetti utili a farsi un’idea
di cosa significhi la dinamica dei geni in una popolazione e alcune teorie
fondamentali per giustificare il tipo di analisi che si fa.
Nel secondo si introduce il modello generale di sostituzione e le grandezze
che lo caratterizzano. Viene spiegato come si può definire una distanza tra le
sequenze e perchè è utile introdurre la reversibilità temporale. Viene infine
dimostrata l’equivalenza fra questa proprietà e il bilancio dettagliato.
Nel terzo capitolo si formalizza il problema nel modo più generale possibile
x
Introduzione
e si dimostra che bastano sei parametri a descriverlo. Con una procedura
analitica si risolvono le equazioni che descrivono l’andamento temporale delle
osservabili.
Nel quarto viene spiegato perché abbiamo fatto ricorso a una procedura numerica per la stima dei parametri evolutivi e come viene effettuata.
Si spiega inoltre perché non si possono ricavare più di cinque parametri
indipendenti.
Nel quinto si utilizza la procedura studiata per calcolare le distanze fra
delle sequenze reali e si confronta il risultato ottenuto con quello dato dal
modello più semplice (Jukes-Cantor).
Capitolo 1
Le mutazioni del DNA
Circa mezzo secolo fa la scoperta del DNA (Watson & Crick [3]) diede inizio
a una nuova era per la biologia. Era inevitabile che questa svolta coinvolgesse
drasticamente anche il campo della biologia evolutiva. In che modo la teoria
di Darwin si raccorda con le scoperte più recenti della biologia molecolare?
Come si può utilizzare quest’ultima per far luce sulla storia evolutiva delle
specie viventi? Nel capitolo che segue introdurremo brevemente la cosiddetta
teoria neo-darwinista. Presenteremo alcuni concetti utili a capire come i geni
si distribuiscono in una popolazione e come i fattori aleatori giochino un
ruolo essenziale in tali fenomeni. Negli ultimi due paragrafi descriveremo la
teoria neutrale dell’evoluzione molecolare e una sua importante conseguenza.
Entrambe sono di importanza fondamentale per giustificare tutta l’analisi
seguente. Alcuni dei concetti necessari per la comprensione di questo capitolo
e dei successivi sono riportati in appendice.
1.1
L’evoluzione
Nel 1859 Darwin, nella sua opera più famosa “L’origine delle specie” (per
un’edizione on-line si veda [4]), propose l’idea che gli organismi viventi evolvono
grazie all’azione combinata di due fattori:
2
Le mutazioni del DNA
la variabilità, un processo caratteristico delle forme di vita che dà origine
alla nascita di individui con caratteristiche diverse dai loro progenitori,
la selezione naturale, esercitata dall’ambiente in cui gli organismi vivono
e che fa sı̀ che individui con caratteristiche più adatte a un determinato
ambiente tendano ad avere una progenie più numerosa, cosı̀ che tali
caratteristiche diventino più frequenti nella specie.
La combinazione di queste due forze fa sı̀ che gli organismi evolvano, ovvero si
trasformino nel tempo, tendendo a un sempre migliore adattamento all’ambiente in cui si trovano. Darwin non proponeva quale fosse il meccanismo
che dava origine a questa differenziazione intrinseca. Oggi che il ruolo del
DNA è stato chiarito, la teoria neo-darwinista afferma che alla base di questa
variabilità ci sono le mutazioni di tale molecola. Per capire meglio il ruolo
delle mutazioni introduciamo un concetto su cui si basa tutta la teoria neodarwinista. Tale visione sostiene che l’informazione può passare dal DNA
alle proteine (espressione) dal DNA al DNA (replicazione) ma non dalle
proteine al DNA. Quest’osservazione è conosciuta come dogma centrale
della biologia molecolare1 . Solo le informazioni contenute nel DNA possono
essere ereditate, e questo è il motivo per cui tutta la storia evolutiva di un
organismo risiede in questa molecola. Tale “visione” nega la possibilità di
un azione delle proteine (fattori “funzionali”) sul materiale genetico (fattori
ereditari), in altre parole è il genotipo (insieme delle caratteristiche genetiche
di un individuo) a influenzarle il fenotipo (caratteristiche morfologiche) e non
viceversa. In questo modo si precisa anche il ruolo delle mutazioni: poiché
avvengono sul DNA si possono trasmettere alla progenie; inoltre, grazie all’influenza che hanno sul fenotipo, determinano la sopravvivenza dell’organismo
che le ha subite e quindi la possibilità che siano trasmesse.
1
Come tutte le buone regole anche questa ha un’eccezione: la trascrittasi inversa, il cui
ruolo è sinteticamente esposto in figura 1.1.
1.2 Mutazioni
3
Replicazione
Trascrizione
DNA
Traduzione
RNA
Proteina
Trascrittasi inversa
Figura 1.1: Il dogma centrale della biologia molecolare. È mostrato anche l’azione della
trascrittasi inversa, che “viola” la regola effettuando copie di DNA usando RNA come
stampo
1.2
Mutazioni
Le mutazioni, come discusso sopra, rappresentano uno dei fattori essenziali
che intervengono nel processo di evoluzione, sarebbe quindi importante osservarle direttamente. Non è possibile però osservare direttamente il fenomeno
biofisico di mutazione su individui nel loro ambiente naturale a causa della
sua estrema rarità. Quello che si osserva è l’effetto di un background di mutazioni che hanno agito su una specie per un tempo sufficientemente lungo.
Da queste osservazioni si cerca di inferire l’entità del processo che è alla base.
Come vedremo in questa analisi si incontrano non pochi problemi.
Definiamo le due grandezze:
tasso di mutazione: la probabilità che il genoma di un individuo, nel trasmettersi alla progenie, presenti delle differenze;
tasso di sostituzione: la probabilità di osservare, in una popolazione che
discende da una specie antenata, un certo numero di differenze rispetto
a quella ancestrale.
Se quello che si osserva è infatti un tasso di sostituzione, come facciamo
a essere sicuri che questo corrisponda al tasso di mutazione? Fattori importanti come la selezione naturale possono aver causato la morte di tutti
gli individui che presentavano una particolare mutazione che quindi noi non
riusciremmo a vedere. Si perderebbe in questo modo persino la possibilità
di fare una trattazione basata su modelli stocastici, che è quella che ci accingiamo a fare. All’estremo opposto, delle mutazioni che non hanno effetto
4
Le mutazioni del DNA
funzionale si distribuirebbero a caso nella popolazione, risentendo enormemente di fattori aleatori. Nel seguito introdurremo alcune nozioni su come i
geni si distribuiscano in una popolazione che evolve e il legame fra mutazioni
e sostituzioni.
1.3
Dinamica dei geni nelle popolazioni
1.3.1
Frequenza di diversi alleli
La posizione di un gene su di un cromosoma ovvero all’interno del genoma
è detta locus; ogni forma alternativa di gene (quando ve ne siano più d’una)
in un determinato locus è detta allele. In una popolazione possono esserci
numerosi alleli, ognuno con frequenza diversa. Se la frequenza di un gene
mutante cresce fino a che esso diventa l’unico presente allora si dice che
l’allele si è fissato. Per determinare l’evoluzione di una popolazione si studia
l’effetto di fattori quali l’ambiente e l’interazione di questo con i diversi alleli,
la deriva genica casuale(che definiremo in seguito), la selezione naturale (che
abbiamo già introdotto), e altri come la ricombinazione o la migrazione. Due
approcci sono possibili:
l’approccio deterministico, in cui si considera la popolazione infinita e
l’effetto dell’ambiente costante nel tempo o soggetto a variazioni deterministiche. In questo modo si possono scrivere delle equazioni deterministiche e l’evoluzione della popolazione è determinata univocamente
note le condizioni iniziali. È evidente che tale approccio, sebbene più
semplice, non è molto aderente alla realtà. Molti sono infatti gli elementi aleatori che entrano in gioco e, come vedremo, la loro entità è
tutt’altro che trascurabile.
l’approccio stocastico, in cui data la condizione iniziale non si pretende
di conoscere deterministicamente l’evoluzione successiva ma solo la
probabilità che questa vada in una certa direzione.
1.3 Dinamica dei geni nelle popolazioni
1.3.2
5
Selezione naturale
La selezione naturale è l’effetto della differente capacità di riproduzione di
organismi geneticamente diversi causata da vari fattori come mortalità, fertilità e altri caratteri legati alla riproduzione. Per questo motivo la selezione
naturale non può avvenire in una popolazione i cui individui abbiano tutti
i caratteri identici. Il principale effetto della selezione naturale è il cambiamento in frequenza di alleli tra una generazione e l’altra, ma un tale effetto
può essere causato anche da altri fattori come la deriva genetica casuale. La
selezione naturale ci porta a introdurre il concetto di fitness, ovvero la capacità di un individuo di sopravvivere e riprodursi. Dato che la dimensione
totale di una popolazione è sempre limitata dalle risorse disponibili conviene
riferirsi sempre alla fitness relativa come possibilità di successo di un individuo all’interno di una popolazione. Il trattamento più semplice considera la
fitness come funzione costante del tempo e tale che tutti i loci contribuiscano
indipendentemente al successo di un individuo.
Come vedremo, la maggior parte delle mutazioni che possono emergere
hanno un’influenza negativa sulla fitness del portatore. La selezione naturale
agirà rimuovendo dalla popolazione questi alleli che a lungo andare andranno
a scomparire: si parla allora di selezione negativa. Alcune delle mutazioni
cui un individuo va incontro possono essere neutre, ovvero la fitness del
portatore è identica a quella del miglior allele della popolazione: la sorte
di una tale mutazione sarà determinata così da fattori casuali. Raramente
una mutazione può avere un effetto positivo sul portatore, agirà su questo
una selezione positiva che potrebbe portare questo allele a rimpiazzare nel
tempo tutti gli altri.
1.3.3
Equilibrio di Hardy-Weinberg
Proprio al termine del diciannovesimo secolo, quando Darwin pubblicava la
sua famosa opera, Gregor Mendel effettuava i famosi esperimenti che possono considerarsi come la nascita della genetica. Mendel, oltre a concepire
6
Le mutazioni del DNA
l’esistenza di questi caratteri che oggi chiamiamo geni, riconobbe che vi erano tra questi alcuni che risultavano dominanti e altri recessivi. Per chiarire
facciamo un esempio:
Consideriamo un organismo diploide2 come l’uomo e prendiamo in considerazione un carattere, ad esempio il colore degli occhi3 . Per semplicità
consideriamo che in una popolazione sono presenti solo due caratteri: occhi
neri (A) e occhi blu (a). Dire che il carattere “occhi neri” è dominante su
quello “occhi blu” significa che un individuo che eredita entrambi i geni esprimerà quello dominante, ovvero le sue caratteristiche fisiche saranno determinate da questo gene: in questo caso avrà gli occhi neri. Abbiamo cosı̀ che,
sebbene le caratteristiche di ogni generazione siano un riarrangiamento delle
caratteristiche di quella precedente, la variabilità genetica è dimezzata ogni volta. Come si mantiene quindi l’ammontare necessario di variabilità in
una popolazione? Perché gli alleli recessivi non si perdono completamente?
Una risposta a queste domande è data dal teorema di Hardy-Weinberg che
qui discutiamo. Alla base di questo teorema sta il modo in cui individui
genotipicamente diversi contribuiscono mediante la riproduzione all’insieme
di genotipi della generazione successiva. Un individuo diploide fornisce alla
generazione successiva entrambi i geni con probabilità 50% ciscuna: in altri
termini un gene è dominante nel fenotipo, non nel genotipo. Questo concetto
trova una sua interpretazione grafica nel cosiddetto quadrato di Punnett, raffigurato in figura 1.2 e 1.3. Consideriamo un individuo eterozigote Aa (occhi
neri) che si accoppia con un individuo omozigote AA (occhi neri). Poiché
ogni gene di ciascun individuo ha il 50% di probabilità di trasmettersi alla
prole, in questa saranno presenti il genotipo Aa con probabilità un mezzo e
quello AA con uguale probabilità, sebbene tutti abbiano gli occhi neri. In
figura 1.2 sono mostrati i diversi tipi di accoppiamento di geni.
Consideriamo ora una popolazione di individui diploidi composta di maschi
2
Un organismo si dice diploide quando ogni gene è presente in due copie per ciascuna
cellula, di solito una ereditata dal padre e una dalla madre.
3
In realtà questo è un carattere multigenico, ovvero determinato da diversi geni che
contribuiscono in diversi stadi del processo di pigmentazione.
1.3 Dinamica dei geni nelle popolazioni
7
e femmine, quindi che si riproducono in maniera sessuata, e focalizziamo la
nostra attenzione su un carattere per il quale siano presenti solo due alleli.
Definiamo p la frequenza dell’allele A e q la frequenza dell’allele a. Il discorso
appena esposto giustifica le seguenti formule che danno la frequenza degli
alleli in funzione di quella dei genotipi:
1
p = fAA + fAa
2
(1.1)
1
q = faa + fAa .
2
dove fAA e faa sono le frequenze dei genotipi omozigoti AA e aa rispettivamente, e fAa la frequenza degli eterozigoti. Le formule appena scritte esprimono il fatto che alla diffusione di un allele contribuiscono gli individui che
sono omozigoti per questo allele più gli individui eterozigoti al 50%. Valgono
ovviamente le condizioni di normalizzazione
fAA + fAa + faa = 1
(1.2)
p+q = 1
Il risultato di una generazione in cui tutti gli individui di una popolazione
hanno fornito con la stessa probabilità il loro patrimonio genetico si può
rappresentare in termini del quadrato di Punnett rappresentato in fig.1.3.
Il quadrato di Punnett in figura 1.3 illustra le seguenti equazioni:
fAA = p2
faa = q 2
(1.3)
fAa = p × q + q × p = 2pq.
Osserviamo che per descrivere una popolazione abbiamo una sola frequenza per gli alleli (essendo l’altra imposta dalla normalizzazione) e due
frequenze per i genotipi (la terza sarà imposta come sopra). Le equazioni
8
Le mutazioni del DNA
Femmina
a
A
AA
Aa
A
AA
Aa
Allele
Allele
Maschio
A
Figura 1.2: Quadrato di Punnett per un singolo incrocio. All’interno dei quadrati sono
rappresentate le frequenze di genotipi che emergono nella prole di una coppia in cui vi
sia un eterozigote e un omozigote. Ogni quadrato corrisponde a una probabilità del 25%
(0.5 × 0.5).
p
a
q
Frequenza
Maschi
A
Allele
Femmine
A
p
a
Allele
q
Frequenza
AA
p2
Aa
pq
Aa
qp
aa
q2
Figura 1.3: Quadrato di Punnett per una popolazione. All’interno dei quadrati è rappresentato il risultato, in termini di frequenza di genotipi, di una generazione in una
popolazione in cui ogni individuo ha uguale probabilità di accoppiarsi con un individuo
del sesso opposto.
1.3 Dinamica dei geni nelle popolazioni
9
(1.1) si riducono quindi a una sola equazione in due incognite. Ne consegue
che pur mantenendo fissa la frequenza degli alleli vi possono essere delle
generazioni in cui i genotipi si arrangiano in maniera differente, privilegiando gli omozigoti oppure gli eterozigoti. Effettivamente si possono formulare
delle ipotesi che prevedono la costanza nel tempo degli alleli (popolazione
infinitamente grande, assenza di selezione etc.), ma che non verificano necessariamente la costanza dei genotipi. Se poi si aggiungono altri vincoli, come
l’ipotesi che gli accoppiamenti avvengano con probabilità uniforme fra gli
individui di sesso opposto (in inglese panmictic), allora la proporzione dei
genotipi non cambia da una generazione alla successiva e la popolazione
viene detta all’equilibrio di Hardy-Weinberg. Le frequenze all’equilibrio
sono quelle riportate nelle formule (1.3) che garantiscono la presenza di un
certo numero di individui per ogni genotipo. Vale la pena di osservare che,
partendo da una generazione in cui i genotipi non sono all’equilibrio, basta una sola generazione “panmictic” per ottenere i valori predetti dalle
formule precedenti.
1.3.4
Deriva genica casuale
Abbiamo già accennato prima che la selezione naturale non è l’unico fattore
che può determinare le sorti di un allele, esistono anche fattori casuali come la
deriva genica. Tale effetto trova le sue motivazioni nell’inevitabile finitezza
di una popolazione. Se un allele è presente in una certa generazione con
frequenza p, non è detto che si trasmetta alla generazione successiva con la
stessa frequenza a causa degli inevitabili errori di campionamento. Tali errori
sono tanto più grandi quanto più è piccola la popolazione. È facile mostrare
anche con semplici simulazioni numeriche che per una popolazione di poche
decine di individui in cui sono presenti due alleli vi può essere la perdita di uno
di questi e il “fissaggio” dell’altro anche nel giro di poche generazioni. Vale la
pena di osservare che, sebbene una popolazione di poche decine di individui
possa sembrare troppo piccola per tentare di modellizzare un qualunque caso
reale di interesse, in realtà non va considerata sempre come popolazione il
10
Le mutazioni del DNA
numero di tutti gli individui presenti. Le ipotesi che di solito si formulano
per trattare la deriva genetica sono infatti alquanto restrittive; non tutti gli
individui forniscono il proprio patrimonio genetico con la stessa probabilità,
le generazioni si sovrappongono, il numero di maschi non è uguale a quello
delle femmine etc. Si utilizza quindi il concetto di popolazione effettiva, che
è solitamente più piccola di quella reale (a volte molto più piccola). Alcuni
stime sostengono che per la specie umana la popolazione effettiva sia un terzo
di quella reale.
1.3.5
Sostituzione genica
La sostituzione genica è il processo mediante il quale un allele mutante che
emerge a un certo punto della storia evolutiva di un organismo sostituisce
interamente quello inizialmente dominante. La comparsa di nuovi mutanti
è continua e naturalmente non tutti diventeranno dominanti, bensı̀ saranno
a loro volta rimpiazzati da altri mutanti. Si può quindi parlare di tasso di
sostituzione genica (rate) come il numero di sostituzioni per unità di tempo.
Altre grandezze utili a descrivere i processi di sostituzione genica sono la
probabilità e il tempo di fissaggio. La prima è la probabilità che un mutante
appena emerso sostituisca tutti gli alleli fino a divenire l’unico presente, la
seconda quantità indica invece il tempo necessario affinché si verifichi un tale
evento. Vedremo nel seguito da cosa dipendono le prime due.
Probabilità di fissaggio
La probabilità di fissaggio di un allele dipende essenzialmente da tre fattori;
• la sua frequenza iniziale q,
• il suo vantaggio selettivo s,
• la grandezza effettiva della popolazione Ne .
Il vantaggio selettivo è indicato come la differenza in fitness relativa tra un
individuo che possiede questo allele e uno che non lo possiede. Si può di-
1.3 Dinamica dei geni nelle popolazioni
11
mostrare, sebbene sotto ipotesi abbastanza stringenti quali il fatto che il
contributo di un singolo gene è mediato su tutti gli altri, che tale probabilità
vale (si veda Kimura [5])
P =
1 − e−4Ne sq
.
1 − e−4Ne s
(1.4)
È evidente che per s → 0 si ha P → q, ovvero un allele che non dà alcun vantaggio selettivo ha una probabilità di fissarsi pari alla sua frequenza. Questo
si spiega considerando che un mutante neutro si fissa per semplice deriva genetica, che favorisce tutti gli alleli allo stesso modo. Consideriamo un allele
che appare in singola copia in una popolazione di N individui diploidi: la
sua frequenza iniziale sarà quindi 1/2N. Se la popolazione effettiva è pari
alla popolazione reale l’equazione (1.4) si riduce a
1 − e−2s
,
P =
1 − e−4N s
(1.5)
che, se s è positivo (mutazione vantaggiosa) e piccolo, e se N 1/s, si
riduce a P = 2s. In altre parole, mutazioni selettivamente vantaggiose che
emergono in popolazioni grandi hanno una probabilità di fissarsi che è circa
il doppio del loro vantaggio selettivo.
Rate di sostituzione genica
Fin qui abbiamo distinto fra le mutazioni, che rappresentano la comparsa
di nuovi mutanti e le sostituzioni che indicano invece l’avvenuto fissaggio
di un mutante. Ricordiamo ancora una volta che il rate di sostituzione K
indica il numero di mutanti che si sono fissati per unità di tempo. Consideriamo di nuovo delle mutazioni neutrali che avvengono a un rate µ (numero
di mutazioni per gene per unità di tempo). Il numero di mutanti che emergono a un determinato locus in una popolazione diploide di dimensione N è
2Nµ per generazione. Come abbiamo visto prima la probabilità che ha una
mutazione selettivamente neutra di fissarsi è P = q = 1/2N. Moltiplicando questa per il numero di mutazioni che compaiono abbiamo il numero di
12
Le mutazioni del DNA
mutazioni che si fissano, ovvero di sostituzioni:
K0 = 2NµP = µ.
(1.6)
Per mutazioni neutre quindi il rate di sostituzioni è pari al rate di mutazioni.
Tale risultato è stato notato per la prima volta da Kimura nel 1968 (cfr.
[6]). Detto in maniera intuitiva il numero di mutanti che emergono in una
popolazione piccola è di conseguenza piccolo, ma la probabilità di fissarsi che
hanno è alta. In una popolazione grande invece emergeranno molti mutanti,
ma con piccola probabilità di fissarsi, il risultato finale è indipendente dalla
taglia della popolazione.
Per una mutazione selettivamente vantaggiosa invece si moltiplica il numero
di mutanti che compaiono per la probabilità di fissarsi e si ottiene:
K+ = 4Nµs.
(1.7)
In definitiva il rate di sostituzioni dipende da tre fattori:
• la taglia della popolazione N,
• il vantaggio selettivo s,
• il rate di mutazioni µ.
1.4
La teoria neutrale dell’evoluzione
molecolare
Abbiamo detto all’inizio del capitolo del ruolo fondamentale della selezione
naturale nell’evoluzione degli organismi viventi. In seguito abbiamo descritto
altri fenomeni che intervengono nel modificare il patrimonio genetico degli
organismi, come la deriva genica casuale o le mutazioni. Ma qual è l’entità
dell’apporto di ciascun fattore all’evoluzione?
Secondo i selezionisti la selezione è il fattore predominante nel “modellare”
gli organismi sulla base della loro fitness, mentre i fattori casuali hanno un’influenza estremamente piccola. A partire dagli anni ’60 però, quando si sono
1.4 La teoria neutrale dell’evoluzione
molecolare
13
resi disponibili i primi dati sulle strutture delle proteine provenienti da diverse
specie, ci si è accorti che l’ammontare di variabilità genica era estremamente
più grande di quanto ci si aspettava.
Infatti, se la selezione naturale rimuove dalla popolazione i portatori di
alleli inferiori, vi è un limite al numero di mutazioni che possono emergere
senza far sı̀ che la popolazione si estingua a causa di queste “morti selettive”?
Il genetista Haldane stimò che il numero massimo di mutazioni che potevano
fissarsi in una popolazione senza che questa si estinguesse era di una ogni
300 generazioni. Kimura, analizzando le differenze fra le proteine di diversi
organismi, nel ’68 stimò che i mammiferi nella loro storia evolutiva erano
andati incontro a circa una sostituzione genica ogni due anni. Troppo per
qualunque specie.
Questo lo portò a ipotizzare che la maggior parte dei cambiamenti che si
incontrano in un processo evolutivo sono dovuti a mutazioni neutrali o quasi
neutrali che si sono fissate (si veda Kimura [6]), teoria formulata anche da
King e Jukes nel ’69 (King & Jukes [7]). La teoria neutrale dell’evoluzione
molecolare sostiene che a livello molecolare la maggioranza dei cambiamenti evolutivi e della variabilità delle specie è dovuta a mutazioni selettivamente neutre o quasi neutre che si sono fissate, e non da fenomeni di selezione
positiva.
È importante insistere sul fatto che tale teoria non nega il ruolo della
selezione naturale nel “modellare” le caratteristiche degli organismi viventi,
semplicemente sostiene che questo fattore non è abbastanza forte da dominare su quelli casuali. I neutralisti non affermano che tutte le mutazioni sono
neutre, né quindi che tutti gli alleli danno luogo alla stessa fitness; affermano
piuttosto che la maggioranza delle mutazioni cui un organismo va incontro
nella sua storia evolutiva danno un vantaggio selettivo (oppure uno svantaggio) inferiore a 1/2Ne , ovvero inferiore all’“intensità” dei fattori casuali. Il
“cuore” della disputa tra selezionisti e neutralisti sta nell’assegnare le proporzioni tra mutazioni svantaggiose, neutre e vantaggiose. I primi sostengono
che poche delle mutazioni non svantaggiose sono neutre e molte invece sono
14
Le mutazioni del DNA
Figura 1.4: Confronto fra il tipo di mutazioni che compaiono in un gene secondo la
visione neutralista e selezionista. Per entrambe il maggior numero di mutazioni è perso
in quanto deleterio, ma i selezionisti sostengono che la maggioranza delle rimanenti è
rappresentata da mutazioni selettivamente vantaggiose. Le proporzioni rappresentate sono
schematiche e non rappresentano la reale suddivisione per ciascun modello. I neutralisti
probabilmente darebbero alle mutazioni vantaggiose una percentuale ancora minore di
quella rappresentata.
quelle vantaggiose. Gli altri sostengono che la stragrande maggioranza delle
mutazioni non svantaggiose sono selettivamente neutre. I neutralisti danno
al caso la parte più grande della responsabilità nell’evoluzione, i selezionisti
alla necessità. Un’idea di queste differenze è illustrata in figura 1.4.
1.5
L’orologio molecolare
Una delle proteine più studiate è l’emoglobina. Nella maggior parte dei vertebrati questa consiste di quattro catene polipeptidiche, due codificate dai geni
della famiglia delle α-globine e due da quelli delle β-globine. Un’analisi piut-
1.5 L’orologio molecolare
15
tosto semplice che si può fare su questa proteina è contare quanti aminoacidi
differenti si trovano confrontando catene di organismi differenti. Quello che
si scopre è che confrontando specie più lontanamente correlate si trova un
numero maggiore di sostituzioni. Se poi si considerano i dati provenienti
dalla datazione di reperti fossili si trova qualcosa di straordinario.
Consideriamo ad esempio le differenze in aminoacidi dell’α-globina tra
l’uomo e la mucca: questi presentano differenze in 17 aminoacidi su 149, e
si sa che le due specie si sono separate circa 80 milioni di anni fa. L’uomo,
d’altra parte, presenta 57 differenze con gli alligatori, ovvero 3.4 volte quelle
con la mucca. Questo suggerisce che la divergenza dell’uomo dall’alligatore
è avvenuta circa 270 milioni di anni or sono (3.4 × 80). I reperti fossili in
effetti confermano questa stima, indicando in 300 milioni di anni il tempo
di divergenza. Se si ripete la stessa cosa con altre specie, a parte alcune
eccezioni, si trova una grossa correlazione fra la divergenza stimata sulla base
dei reperti fossili e quella stimata dai dati delle proteine, ovvero l’α-globina
si comporta come un orologio molecolare.
Il fatto che il rate di mutazione genica sia pressoché costante nel tempo riveste una doppia importanza. I neutralisti infatti l’hanno interpretato
come una conferma della loro teoria e soprattutto l’esistenza di un tale meccanismo giustifica un’analisi dei processi evolutivi basata sui dati molecolari.
Confrontare specie diverse mediante l’analisi del loro patrimonio genetico si
presta innanzitutto ad analisi quantitative; inoltre ci affranca dalle estreme
variazioni della velocità di mutazione a livello morfologico4 . Riscriviamo le
formule (1.6) e (1.7):
K0 = 2NµP = µ
K+ = 4Nµs,
che indicano rispettivamente il tasso di sostituzioni neutre e vantaggiose. Il
rate di sostituzioni in caso di vantaggio selettivo dipende, come già evidenziato, da tre grandezze. L’esistenza di un orologio molecolare richiederebbe
4
Si pensi ai cosiddetti “fossili viventi”:
organismi che hanno lasciato le loro
caratteristiche invariate anche da milioni di anni a questa parte.
16
Le mutazioni del DNA
quindi che tre grandezze, legate ad eventi ecologici, selettivi e casuali, siano
costanti oppure si combinino in modo tale da rendere il loro prodotto costante.
È chiaro che entrambe queste eventualità sono da ritenersi estremamente
improbabili, e che tale quindi risulta l’esistenza di un orologio molecolare
in presenza di selezione naturale. L’orologio molecolare è una caratteristica
fondamentale del processo evolutivo ed è necessario per condurre un’analisi
basata sui dati provenienti dal patrimonio genetico.
Capitolo 2
Modelli di sostituzione
In questo capitolo, dopo aver introdotto il modello generale di sostituzione di
nucleotidi nel DNA, presenteremo alcuni dei modelli più semplici e famosi.
Discuteremo poi come si possa definire una distanza evolutiva e perché si
preferisce ricorrere alla cosiddetta reversibilità temporale per stimarla. Dimostreremo infine che tale proprietà è equivalente al bilancio dettagliato che
si incontra nella teoria dei processi stocastici.
2.1
Il modello generale a 4 ipotesi (G4H )
Il modello G4H assume che il processo di sostituzione dei nucleotidi sia un
processo di Markov in cui :
• i rates di sostituzione non dipendono dal sito;
• sono costanti nel tempo;
• sono identici per le due linee evolutive;
• le frequenze delle basi sono all’equilibrio nella sequenza antenata1 , quindi (per le ipotesi precedenti) si mantengono tali in quelle derivate.
1
Notare che le frequenze di equilibrio sono quelle dettate dai rates, ovvero quelle
ottenute risolvendo le master equations con gli stessi rates di mutazione
18
Modelli di sostituzione
Nella realtà nessuna di queste ipotesi è soddisfatta esattamente, ma rappresentano comunque un punto di partenza necessario per portare avanti
un’analisi. Introduciamo ora alcune grandezze utili nello studio dei modelli
di sostituzione:
matrice di divergenza X[4,4] (t) i cui elementi xij (t) indicano la mutua probabilità di avere al tempo t il nucleotide i nella prima sequenza e il nucleotide j nella seconda2 , osserviamo che a t = 0 tale matrice si riduce
a una matrice diagonale i cui elementi sono le frequenze di equilibrio
delle basi;
matrice di sostituzione R[4,4] i cui elementi rij = ri←j rappresentano i
tassi di sostituzione del nucleotide j col nucleotide i;
matrice evolutiva P[4,4] (t) dove gli elementi pij (t) = pi←j (t) sono le probabilità di avere, in un certo sito, il nucleotide i al tempo t dato j a
t = 0.
Con le grandezze scritte ora possiamo scrivere le equazioni fondamentali
del modello G4H.
La matrice di divergenza è data da
T
X(t) = P(t)X(t = 0)P (t);
xij (t) =
4
X
pik (t)fk pjk (t),
(2.1)
k=1
dove la matrice evolutiva è la soluzione dell’equazione differenziale
dP(t)
= P(t)R;
dt
ovvero
4
dpij (t) X
=
pik (t)rkj
dt
P(t) = exp{Rt}.
(2.2)
k=1
(2.3)
Le quantità sperimentalmente accessibili in maniera diretta sono gli elementi della matrice X(t). Da questi elementi si può tentare di ricavare i rates
2
Ciò implica che
P
i fi = 1
ij xij =
P
P
j
xij = fi , dove fi è la frequenza d’equilibrio del nucleotide i, ergo
2.1 Il modello generale a 4 ipotesi (G4H )
19
e quindi la distanza evolutiva come verrà spiegato in seguito. La matrice di
divergenza però non ha 16 parametri indipendenti, infatti la simmetria che
si evince dall’equazione (2.1) riduce gli elementi indipendenti a 10, e le 4
equazioni
2xii (t) = 2fi −
X
xij (t) −
i(6=j)
X
xij (t)
(2.4)
j(6=i)
li riducono ulteriormente a 6. Questo argomento è stato utilizzato da Rodriguez et al. [8] per dimostrare che i rates di mutazione non possono essere
ricavati in modelli che hanno più di 6 parametri indipendenti.
Osserviamo che
xij (t → ∞) = fi fj .
(2.5)
Le equazioni (2.4) sono scritte “mediando” sulle righe e sulle colonne
perché la matrice di divergenza osservata non è in generale simmetrica.
Tale asimmetria discende innanzitutto dagli errori di campionamento, inoltre
può essere indice del fatto che il fenomeno biologico non segue esattamente le
ipotesi formulate per costruire il modello come l’uguaglianza dei tassi lungo le
due linee. Se ad esempio vogliamo ricostruire i rates di mutazione a partire
da due sequenze osservate, facendo l’ipotesi che l’evoluzione di queste sia
avvenuto sullo schema di un dato modello, può accadere di trovarsi in un
caso di inapplicabilità di questo (per esempio perché è negativo un radicando
o l’argomento di un logaritmo); la minore o maggiore presenza di questi casi
è indice della robustezza di un modello.
Introduciamo ora alcuni semplici modelli di sostituzione prima di passare
ad una formulazione più generale.
2.1.1
Il modello di Jukes - Cantor (JC)
Introdotto da Jukes e Cantor nel 1969 [9], tale modello assume che le mutazioni avvengano con probabilità identica α per ogni coppia di basi diverse.
20
Modelli di sostituzione
La matrice dei rates è dunque



R=


1 − 3α
α
α
α
α
1 − 3α
α
α
α
α
1 − 3α
α
α
α
α
1 − 3α






e l’ordine delle basi è A, C, G, T.
Il vettore delle frequenze d’equilibrio è banalmente
f~ = (1/4, 1/4, 1/4, 1/4).
Mentre la matrice evolutiva P(t) è data da
pij (t) =
(
1
4
1
4
− 14 e−4αt se i 6= j;
+ 34 e−4αt se i = j.
Ricordiamo che dalla semplice osservazione delle sequenze non è possibile
ricavare i rates di mutazione, bensı̀ il prodotto di questi per il tempo; infatti
è evidente che moltiplicare tutti i rates per una costante e dividere il tempo
per la stessa lascia immutate le quantità osservabili. Indicazioni sulla scala
temporale vengono solitamente dalla datazione di reperti fossili.
È particolarmente semplice nel modello JC ricavare le formule che esprimono i rates di mutazione in funzione degli osservabili. Dal momento che in
questo modello tutte le basi sono equivalenti l’unica quantità indispensabile è
il numero di siti occupati dallo stesso nucleotide, da cui banalmente si ricava
il numero di siti in cui i nucleotidi sono diversi.
Immaginiamo (come al solito) che da una sequenza ancestrale discendano
due sequenze che noi osserviamo dopo un tempo t. L’elemento di matrice
pij (t) rappresenta la probabilità che il nucleotide j sia mutato in i, quindi
la probabilità che un sito sia occupato dallo stesso nucleotide in entrambe le
sequenze sarà data da
I = p2AX + p2CX + p2GX + p2T X
(2.6)
2.1 Il modello generale a 4 ipotesi (G4H )
21
indipendentemente dal nucleotide X che lo occupava in quella ancestrale.
Nel nostro modello tale quantità si ricava facilmente (scegliendo un nucleotide
qualunque al posto di X per effettuare il calcolo) e vale
I(t) =
1 3 −8αt
+ e
,
4 4
(2.7)
da cui è immediato ricavare la relazione
1
4I − 1
αt = − ln(
).
8
3
2.1.2
(2.8)
Il modello Kimura a 2 parametri (K2)
La più semplice generalizzazione del modello precedente è quello proposto
da Kimura nel 1980 [10] in cui la matrice di sostituzione ha due parametri
indipendenti, uno per le transizioni e un altro per le trasversioni. Le quattro
basi azotate in questo modello non sono più tutte equivalenti, ma si distinguono sulla base della struttura chimica in purine (adenina e guanina) e in
pirimidine (citosina e timina). Le transizioni sono le mutazioni che trasformano una purina in un’altra purina o una pirimidina in un’altra pirimidina
(e quindi A ↔ G e C ↔ T ) mentre le trasversioni trasformano una purina
in pirimidina o viceversa (A ↔ C, A ↔ T, C ↔ G, C ↔ T ). Il modello K2
assegna un rate α alle transizioni e un diverso rate β alle trasversioni3 , è
evidente che uguagliando questi due si torna al caso precedente. La matrice
dei rates sarà dunque

1 − α − 2β
β
α


β
1 − α − 2β
β
R=

α
β
1 − α − 2β

β
α
β
β
α
β
1 − α − 2β
con il solito ordine delle basi.






Anche in questo caso il vettore delle frequenze d’equilibrio è
f~ = (1/4, 1/4, 1/4, 1/4).
3
È importante notare che β è il rate per una specifica trasversione, essendo ogni
nucleotide soggetto a due trasversioni distinte
22
Modelli di sostituzione
La matrice




pij (t) =



evolutiva sarà caratterizzata da tre quantità,
1
4
1
4
1
4
+ 14 e−4βt + 12 e−2(α+β)t se i = j;
+ 14 e−4βt − 12 e−2(α+β)t se i, j differiscono per una transizione;
− 14 e−4βt
se i, j differiscono per una specifica trasversione.
Anche in questo caso si possono ottenere i rates di mutazione in maniera
piuttosto semplice dal conteggio dei siti che differiscono per una transizione
o per una trasversione.
2.2
Distanza genetica
2.2.1
Multiple hits
Ma a cosa serve in pratica conoscere i rates di mutazione che governano un
processo di sostituzione di nucleotidi? Abbiamo già detto che siamo interessati a valutare la distanza evolutiva fra due sequenze osservate, e che le
sequenze di DNA si prestano a un’analisi quantitativa. In altre parole è più
esatto cercare di inferire la distanza fra gli umani e gli uccelli analizzando il
loro genoma piuttosto che confrontando un braccio con un’ala.
Ma come si conduce una tale analisi? A prima vista confrontare due
sequenze ci dice solo se un determinato sito è occupato da nucleotidi uguali
oppure no. Eppure se osserviamo una differenza fra le sequenze questa può
essere dovuta a diversi tipi di sostituzione:
sostituzione singola: è avvenuta una sola sostituzione in una delle due
sequenze, da cui si osserva la differenza;
sostituzione multipla: più sostituzioni sulla stessa sequenza, ma si osserva
solo un cambiamento (E.G. A → T → C);
sostituzione coincidente: una sostituzione su ciascuna sequenza, ma verso
basi diverse (A → T su una e A → G sull’altra).
Inoltre, anche siti che presentano lo stesso nucleotide in entrambe le sequenze
potrebbero mascherare delle avvenute sostituzioni:
2.2 Distanza genetica
23
sostituzione parallela: la stessa sostituzione si verifica in entrambe le sequenze, cosı̀ non si hanno differenze;
sostituzione convergente: prima si hanno sostituzioni diverse sulle due
sequenze, poi su una si ha un’altra sostituzione che fa convergere questa
verso l’altra sequenza, si hanno ben 3 sostituzioni, ma zero differenze
(E.G. A → C sulla prima e A → G → C sulla seconda);
sostituzione all’indietro: una sequenza va incontro a una mutazione, poi
a un’altra che la corregge (E.G. A → C → A).
Tutto questo mostra come il semplice conteggio delle differenze tra le sequenze tenda a sottostimare la distanza evolutiva, tranne per sequenze molto
simili tra loro4 . In effetti la maggior parte delle differenze vengono generate dalle prime mutazioni, come si può evincere dall’andamento esponenziale
degli elementi della matrice evolutiva, in seguito poi le sostituzioni multiple
allo stesso sito (multiple hits) rallentano questo “allontanamento” fino a farlo
saturare quando le sequenze diventano totalmente “random”.
2.2.2
La regola di Jukes
Ma come si corregge allora la stima della distanza evolutiva? In letteratura si
fa ricorso a questo punto alla reversibilità temporale (time reversibility),
ovvero la proprietà di un modello di soddisfare le seguenti relazioni:
Reversibilità temporale 1 Date le frequenze d’equilibrio per ciascun nucleotide fi e le probabilità pij che il nucleotide j muti in i in un tempo t, si
dice che un modello di sostituzione soddisfa la reversibilità temporale se
pij fj = pji fi
∀i, j.
Nei modelli che soddisfano questa proprietà si fa quindi ricorso alla regola di
Jukes che qui introduciamo. Immaginiamo come sempre che al tempo t = 0
4
In tal caso effettivamente la probabilità di sostituzioni multiple allo stesso sito è bassa
a causa del breve tempo trascorso
24
Modelli di sostituzione
A
0
t
t
2t
A
B
B
Figura 2.1: Rappresentazione grafica della regola di Jukes
due sequenze si separino da una sequenza progenitrice e che continuino ad
allontanarsi accumulando sostituzioni nel tempo seguendo un determinato
schema. Il numero di sostituzioni cui queste sequenze sono andate incontro
in un tempo t è lo stesso di quelle che una singola sequenza accumula in un
tempo 2t. Immaginiamo che dalla sequenza 0 discendano dopo un tempo t
le sequenze A e B. La distanza fra queste due è quella necessaria a percorrere
all’indietro nel tempo il ramo da A fino a 0 e poi in avanti fino a B, come
mostrato in figura 2.1. La stima cosı̀ ottenuta è valida in quanto la proprietà
(1) ci dice che se nell’andare avanti nel tempo la sequenza A ha mutato i
propri nucleotidi Y in X in proporzione di pXY fY allora nell’andare indietro
il flusso di X in Y , che vale pY X fX , è lo stesso.
A questo punto è semplice valutare la distanza fra le due sequenze, questa
sarà infatti
d = 2t
X
i
dove µi =
P
j(6=i) rji
fi µi = 2t
X
i
fi
X
rji
(2.9)
j(6=i)
è il tasso totale di sostituzione del nucleotide i. La
formula (2.9) rappresenta il reale numero di sostituzioni avvenute nel tempo,
in quanto i rates di mutazione sono ottenuti con le formule di inversione
2.3 Bilancio dettagliato
25
presentate in precedenza che correggono già gli effetti di multiple hits. A
titolo di esempio scriviamo allora la distanza per il modello di Jukes-Cantor
4
3
dJC = 2t(3α) = − ln(1 − P ),
4
3
(2.10)
dove P è la proporzione di siti differenti
e per quello di Kimura a 2 parametri
dK2 = 2t(α + 2β) =
1
1
1
1
ln
+ ln
,
2 1 − Q − 2P
4 1 − 2Q
(2.11)
dove P e Q sono la proporzione di siti che differiscono per una transizione
e per una trasversione rispettivamente. È interessante notare che per alcuni
autori la reversibilità temporale è una condizione necessaria per la valutazione
delle distanze evolutive (Barry & Hartigan [11]).
2.3
Bilancio dettagliato
La proprietà di time reversibility si incontra con un altro nome nella teoria
dei processi stocastici; la proprietà di bilancio dettagliato. Abbiamo visto
come i modelli di mutazione siano riconducibili a catene di Markov le cui
matrici sono le matrici dei rates. Un processo di Markov soddisfa il bilancio
dettagliato quando
Bilancio dettagliato 1 Date le frequenze d’equilibrio per ciascuno stato fi
e i rates di mutazione rij dello stato j in i, sussistono le uguaglianze
rij fj = rji fi
∀i, j.
Nel nostro caso, ripetiamo, gli stati sono la presenza di una determinata
base in un dato punto della sequenza. Dimostriamo che questa proprietà è
equivalente alla reversibiltà temporale.
26
Modelli di sostituzione
BILANCIO DETTAGLIATO ⇒ REVERSIBILITÀ TEMPORALE
Abbiamo visto nel paragrafo 2.1 che la matrice evolutiva si ottiene dalla
matrice dei rates mediante la formula (2.3)
P(t) = exp{Rt}.
Sviluppando in serie si ha
1
P(t) = I + Rt + R2 t2 + · · · ,
2
(2.12)
1
pij = δij + rij t + rik rkj t2 + · · ·
2
(2.13)
1
pji = δji + rji t + rjk rkit2 + · · · .
2
(2.14)
ovvero
e ovviamente
Scriviamo la (2.13) diversamente:
pij = δij +
∞
X
(sij )(n)
n=1
n!
tn ,
(2.15)
dove definiamo
(n)
sij
=
X
ri,k1 rk1 ,k2 · · · rkn−2 ,kn−1 rkn−1 ,j
per n ≥ 2
k1 k2 ···kn−1
(n)
sij
(2.16)
= rij ,
per n = 1.
Dimostreremo ora che, se vale il bilancio dettagliato, sussiste l’identità
(n)
(n)
sij fj = sji fi ,
∀i, j, n.
(2.17)
Scriviamo per esteso
(n)
sij fj =
X
k1 ···kn−1
ri,k1 · · · rkn−1 ,j fj ,
(2.18)
2.3 Bilancio dettagliato
27
che diventa, applicando ripetutamente il bilancio dettagliato,
X
ri,k1 · · · rj,kn−1 fkn−1 =
k1 ···kn−1
X
ri,k1 · · · rkn−1 ,kn−2 rj,kn−1 fkn−2 = · · ·
k1 ···kn−1
(2.19)
fino a diventare
··· =
X
rk1 ,i rk2 ,k1 · · · rj,kn−1 fi .
(2.20)
k1 ···kn−1
Riordinando i fattori si ottiene
X
rk1 ,i rk2 ,k1 · · · rj,kn−1 fi =
k1 ···kn−1
X
rj,kn−1 rkn−1 ,kn−2 rkn−2 ,kn−3 · · · rk1 ,i fi .
k1 ···kn−1
(2.21)
Poiché gli indici da k1 a kn−1 sono muti, la quantità scritta in (2.21) è uguale
a snji fi , per tutti gli n ≥ 2. Otteniamo cosı̀ la (2.17) per n ≥ 1, mentre
essa discende direttamente dalla proprietà di bilancio dettagliato per n = 1.
Poiché inoltre δij fj = δjifi , abbiamo pij fj = pjif i che è quanto si voleva
dimostrare.
28
Modelli di sostituzione
BILANCIO DETTAGLIATO ⇐ REVERSIBILITÀ TEMPORALE
Riscriviamo per comodità la formula (2.2):
dP(t)
= P(t)R;
dt
dpij (t) X
=
pik (t)rkj .
dt
k
(2.22)
Calcoliamo la derivata rispetto al tempo di pij fj ; per la proprietà 1 questa
sarà uguale alla derivata di pjifi . Dalla formula (2.22) possiamo scrivere,
poiché le frequenze d’equilibrio ovviamente non dipendono dal tempo,
dpij (t) X
d
(pij (t)fj ) = fj
=
pik (t)rkj fj .
dt
dt
k
(2.23)
La (2.22) può scriversi però anche come
dpij (t) X
=
rik pkj (t),
dt
k
dato che P e R commutano come si evince dalla soluzione (2.3). Il secondo
membro della (2.23) si può scrivere quindi come
X
pik (t)rkj fj =
k
X
rik pkj (t)fj .
(2.24)
k
Usando la reversibiltà temporale l’ultimo membro della (2.24) diventa
X
rik pkj (t)fj =
k
X
rik pjk (t)fk .
(2.25)
k
Infine scriviamo
dpji(t) X
d
(pji (t)fi ) = fi
=
pjk (t)rkifi .
dt
dt
k
(2.26)
Sottraendo dalla (2.25) la (2.26), quantità uguali come detto sopra, e mettendo in evidenza pjk (t) abbiamo
X
pjk (t)(rik fk − rkifi ) = 0,
k
da cui segue il bilancio dettagliato.
(2.27)
Capitolo 3
Violazione del bilancio
dettagliato
In questo lavoro ci siamo proposti di studiare un modello più generale possibile che fosse applicabile a sequenze stabili di DNA e che non presupponesse
la proprietà di bilancio dettagliato. Descriveremo brevemente cosa sono le
sequenze pseudogeniche e perché è utile fare analisi su queste. Vedremo cosa
implica guardare DNA stabile e stabiliremo esattamente di quanti e quali
parametri avremo bisogno.
3.1
Applicazione a sequenze di pseudogeni
Gli pseudogeni sono sequenze di DNA estremamente simili ai normali geni che
rimangono però inespressi ; non vengono cioè trascritti in RNA né tantomeno
tradotti in proteine, sono quindi privi di funzionalità. Esistono almeno due
meccanismi mediante i quali delle sequenze pseudogeniche possono inserirsi
nel genoma:
duplicazione - quando delle modificazioni (come mutazioni o in-del) compaiono durante il processo di duplicazione del DNA e agiscono sulla
sequenza in modo tale da non permettere più la produzione della proteina. Dato che questa copia non ha più funzione può essere “disatti-
30
Violazione del bilancio dettagliato
vata” a livello di trascrizione o di traduzione. Tali copie vengono dette
non processate oppure duplicate.
retrotrasposizione - quando la trascrizione inversa di un segmento di RNA
genera una sequenza di DNA che successivamente è inserita nel genoma.
Queste copie vengono chiamate processate.
Oltre alla mancanza di funzionalità ci interessa la capacità di queste sequenze di andare incontro a mutazioni nel corso dell’evoluzione. Le mutazioni
che avverranno su tali sequenze infatti non subiranno l’effetto di bias della
selezione naturale e per questo possono essere utilizzate come tracciatori più
esatti della storia evolutiva degli organismi.
3.2
3.2.1
Il modello
Sequenze di DNA stabile
Sono ben note ormai le regole di Watson-Crick per l’accoppiamento delle basi
nel DNA. Queste affermano che la struttura del DNA è tale da consentire
tra i due filamenti solo due tipi di accoppiamento tra basi: l’accoppiamento
A = T e quello C ≡ G1 Nel corso dei processi di replicazione una mutazione
su uno dei filamenti “costringerebbe” il nucleotide corrispondente dell’altro
filamento a cambiare verso quello complementare, “stabilizzando” in tal modo la catena. Chiamiamo stabile dunque una sequenza di DNA in cui siano
rispettate le regole di accoppiamento fra le basi.
3.2.2
Dimensionalità dello spazio dei parametri
Abbiamo detto prima che il modello è rivolto a studiare sequenze di DNA
stabile. Quale sarà l’effetto di questo sui parametri? Le mutazioni, ovvero il
1
La scelta di due simboli diversi rispecchia la diversità dei due legami: il legame fra
adenina e timina consiste di due ponti idrogeno, quello fra citosina e guanina di tre. Tale
comportamento ha un’origine quantistica.
3.2 Il modello
Figura 3.1: Meccanismi mediante i quali gli pseudogeni compaiono nel genoma
31
32
Violazione del bilancio dettagliato
fenomeno biofisico di “errore” nei processi di replicazione o di riparo del DNA,
che è alla base della nostra analisi, non seguirà necessariamente uno schema
diverso da quello che si avrebbe in altre condizioni, ma dal punto di vista
del modello da introdurre il guardare un segmento di DNA stabile ha una
grande importanza. L’analisi infatti non si può condurre che su sequenze che
hanno “nascosto” le cose fino a identificare alcuni rates di mutazione: quelli
fra due nucleotidi e i loro complementari. Ad esempio, se in un punto del
genoma si verifica la sostituzione A → C, questa è per noi indistinguibile dalla
sostituzione nel sito corrispondente del filamento complementare T → G, è
chiaro quindi che nel nostro modello i rates di queste due mutazioni dovranno
esser posti uguali. In generale rij = rı̄̄ , o, in dettaglio,
µ1 ≡ rAC = rT G
µ2 ≡ rAG = rT C
µ3 ≡ rAT = rT A
µ4 ≡ rCA = rGT
µ5 ≡ rCG = rGC
µ6 ≡ rCT = rGA .
(3.1)
Abbiamo cosı̀ che per la presenza di questa simmetria 6 parametri sono sufficienti a rappresentare tutte le mutazioni possibili, come indicato in figura
3.2.
3.2.3
Frequenze d’equilibrio e regole di Chargaff
Come si trovano le frequenze d’equilibrio dei quattro nucleotidi? Riprendiamo la master equation
q˙i =
X
(rij qj − rjiqi )
j
che ci fornisce la derivata rispetto al tempo della popolazione dello stato
i. Uguagliando a zero q˙i troviamo le frequenze d’equilibrio. Si giunge a un
3.2 Il modello
33
µ2
A
G
µ6
µ3
µ4
µ1
µ1 µ4
µ5
µ6
C
µ2
T
Figura 3.2: Schema di sostituzione applicato
sistema in quattro incognite di quattro equazioni dipendenti. Per risolverlo
sostituiamo a una delle equazioni la condizione di normalizzazione
X
qi = 1.
(3.2)
i
La soluzione del sistema sarà estremamente semplificata se osserviamo che
per ogni nucleotide A è presente un nucleotide T, e per ogni C un nucleotide
G. In simboli
qA = qT
e qC = qG .
Tali regole sono conosciute col nome di regole di Chargaff e discendono dal
fatto che osserviamo sequenze di DNA stabile. La soluzione sarà quindi
f1 ≡ fA = fT =
µ1 + µ2
1
2 µ1 + µ2 + µ4 + µ6
(3.3)
f2
µ4 + µ6
1
≡ fC = fG =
2 µ1 + µ2 + µ4 + µ6
Risulta evidente che le frequenze d’equilibrio non dipendono da µ3 né
da µ5 , ovvero dai rates di mutazione tra un nucleotide e il suo complementare.
34
Violazione del bilancio dettagliato
3.2.4
Bilancio dettagliato
Nella derivazione delle frequenze d’equilibrio non abbiamo fatto uso del bilancio dettagliato, perché abbiamo detto che cerchiamo un modello in cui
tale proprietà sia violata. Ma cosa cambierebbe applicandolo?
Nella master equation si annullerebbero tutti i termini della somma, rendendo
più immediata la soluzione. Si avrebbe cosı̀
0 = rAC fC − rCA fA ⇒
0 = rT G fG − rGT fT
⇒
fA
µ1
=
fC
µ4
µ1
fT
=
fG
µ4
...
0 = rAG fG − rGA fA ⇒
(3.4)
µ2
fA
=
fG
µ6
,
e, poiché abbiamo detto che fA = fT = f1 , fC = fG = f2 e f1 + f2 = 21 ,
risulta che
f1
=
1 µ2
2 µ2 + µ6
(3.5)
f2 =
1 µ6
.
2 µ2 + µ6
Dividendo membro a membro le espressioni scritte sopra per
fA
fC
e di
fA
fG
si
giunge alla relazione
µ1 µ6 = µ2 µ4
(3.6)
che si ritrova anche in altro modo.
La teoria dei processi di Markov ci dice infatti che il bilancio dettagliato
si può esprimere anche nella seguente forma:
Bilancio dettagliato 2 Dati tre stati i, j, k, si dice che il bilancio dettagliato è soddisfatto se sussistono le seguenti relazioni fra i rates di mutazione
rik rkj rji = rij rjk rki
∀i, j, k.
3.3 Risoluzione esatta del modello
35
In altri termini se, preso un “triangolo” di stati, il prodotto dei rates fra
gli stati incontrati percorrendo il triangolo in senso orario è pari a quello
ottenuto percorrendolo in senso antiorario. Applichiamo questo risultato
al nostro modello. Osserviamo la figura 3.2, consideriamo la terna di basi
ATC. Percorrendola in senso orario (ATCA) troviamo i rates µ3 µ6 µ1 , mentre
in senso contrario invece (ACTA) µ4 µ2 µ3 . Uguagliando queste due quantità
ritroviamo la relazione (3.6). La stessa si ritrova considerando una qualunque
terna dello schema.
3.3
Risoluzione esatta del modello
Abbiamo trovato che un modello simile al nostro ma leggermente meno generale è quello proposto nel 1981 da Takahata e Kimura [13], che qui indicheremo con TK5. Tale modello differisce dal nostro (che infatti ha un parametro
in più) in quanto pone uguali i rates di sostituzione fra le due coppie di
nucleotidi complementari, ovvero A ↔ T e C ↔ G. Nell’articolo originale
però non si evidenziano chiaramente le simmetrie del sistema, oltre a fare
un’assunzione che introduce ad hoc il bilancio dettagliato. Viene inoltre introdotta una procedura molto efficace per trovare gli elementi della matrice
di divergenza, che descriviamo di seguito.
Calcoliamo la derivata rispetto al tempo dell’elemento xij della matrice di
divergenza, prendiamo come esempio xAC . Questa sarà
dxAC
= qC q̇A + qA q̇C ,
dt
(3.7)
dove qi al solito esprime la popolazione dello stato i e le derivate rispetto al
tempo q̇A e q̇A sono da esprimere mediante la master equation e valgono
q̇A = (µ1 qC + µ2 qG + µ3 qT ) − (µ3 + µ4 + µ6 )qA
(3.8)
q̇C = (µ4 qA + µ5 qC + µ6 qT ) − (µ1 + µ2 + µ5 )qC .
36
Violazione del bilancio dettagliato
Moltiplicando q̇A per qC , q̇C per qA e sommando abbiamo la derivata dell’elemento di matrice xAC in funzione di xAA e di xAC dove i coefficienti sono
combinazioni lineari dei rates di mutazione.
A proposito dell’equazione (3.7) bisogna fare alcune precisazioni. Abbiamo indicato con qi la popolazione dell’i-esimo stato, nelle ipotesi del modello
G4H abbiamo detto che le frequenze di ciascuna base sono all’equilibrio, quindi si dovrebbe avere q̇i = 0. Eppure nel metodo esposto sopra tali quantità
sono diverse da zero. Perché?
Dire che le frequenze delle basi sono all’equilibrio vuol dire che campionando l’intera sequenza le qi sono all’equilibrio, ovvero la proporzione di
ciascuna rispetto al totale non cambia: abbiamo chiamato fi tali quantità.
Ciò non implica affatto che su ogni sito le basi non subiscano mutazioni,
altrimenti non vi sarebbe fenomeno da studiare: ciascuna base ha una probabilità di mutare in un’altra in proporzione che è data dalla master equation.
Ecco perché possiamo esprimere le derivate degli elementi della matrice di
divergenza in funzione delle grandezze qi e q̇i .
Si arriva a un sistema di 10 equazioni differenziali ordinarie nel tempo
accoppiate e dipendenti fra loro. Le equazioni sono 10 a causa della simmetria
già evidenziata xij = xji , sono dipendenti perché le quantità necessarie a
descrivere il fenomeno sono in numero inferiore grazie all’intrinseca simmetria
del modello. Per come è stato costruito il modello, infatti, sostituendo a un
nucleotide i il suo complementare ı̄ non cambiano le equazioni che governano
il processo di mutazione, ovvero q̇i = q̇ı̄ . Questo implica dunque che
xij = xji = xı̄̄ = x̄ı̄ .
Abbiamo infine che la matrice di divergenza sarà caratterizzata da un numero inferiore di grandezze, quattro più una frequenza d’equilibrio. Sinteti-
3.3 Risoluzione esatta del modello
37
camente:
P ≡ xAG = xGA = xT C = xCT
R ≡ xAC = xCA = xT G = xGT
(3.9)
Q1 ≡ xAT = xT A
Q2 ≡ xCG = xGC ,
quantità che definiscono dodici elementi della matrice X e quelli lungo la
diagonale
S1 ≡ xAA = xT T
S2 ≡ xCC = xGG
che si ottengono dalla condizione di normalizzazione (2.4) in cui compaiono
le frequenze d’equilibrio.
Le quantità P, R, Q1 , Q2 , insieme con una frequenza d’equilibrio2 , sono
necessarie e sufficienti a scrivere la matrice di divergenza. Per ottenerle
introduciamo le sei quantità
X± ≡ 2S1 ± 2Q1
Y± ≡ 2S2 ± 2Q2
Z±
(3.10)
≡ 2P ± 2R
che riducono il sistema di 10 equazioni a un sistema di 6 equazioni diagonalizzabile a blocchi. Le soluzioni di questo sono
X+ = ω[ω + (1 − ω)eλ0 t ]
Y+ = (1 − ω)(1 − ω + ωeλ0 t )
(3.11)
Z+ = 2ω(1 − ω)(1 − eλ0 t )
2
Ricordiamo che l’altra frequenza d’equilibrio si ricava dalla condizione di
normalizzazione.
38
Violazione del bilancio dettagliato
1
{2b[aω − b(1 − ω)]eλ1 t + [ζω + b2 (1 − ω)]e(λ1 +g)t +
2
g
+[ηω + b2 (1 − ω)]e(λ1 −g)t }
1
= 2 {−2a[aω − b(1 − ω)]eλ1 t + [a2 ω + η(1 − ω)]eλ2 t +
g
+[a2 ω + ζ(1 − ω)]eλ3 t }
(3.12)
1
= 2 {−2(d − c)[aω − b(1 − ω)]eλ1 t +
g
+[a(d − c + g)ω − b(d − c − g)(1 − ω)]eλ2 t +
X− =
Y−
Z−
−b(d − c + g)(1 − ω)]eλ3 t }
dove le quantità introdotte valgono
a ≡ µ6 − µ4
b ≡ µ2 − µ1
c ≡ 2µ3 + µ4 + µ6
d ≡ µ1 + µ2 + 2µ5
ω ≡ 2f1 = 2fA = 2fT
λ0 ≡ −2(µ1 + µ2 + µ4 + µ6 )
λ1 ≡ −(µ1 + µ2 + 2µ3 + µ4 + µ5 + µ6 )
λ2 ≡ λ1 + g
λ3 ≡ λ1 − g
p
(d − c)2 + 4ab
g2 ≡
1
(d − c)(d − c + g) + ab
ζ ≡
2
1
η ≡
(d − c)(d − c − g) + ab
2
Vale la pena ricordare ancora una volta che questa soluzione non fa richiesta
del bilancio dettagliato.
Capitolo 4
Stima dei parametri evolutivi
Non sempre è possibile ricavare analiticamente i tassi di mutazione dalle
osservabili. Nel nostro caso le espressioni sembrano troppo complesse per
essere invertite, e quindi si preferisce fare ricorso a metodi numerici. È ovvio
però che anche con questi non è possibile stimare parametri indipendenti in
numero maggiore delle osservabili. Da questo risulta che è necessario fare
un’assunzione che “limita” la generalità del modello.
4.1
Metodi statistici
Takahata e Kimura nel loro articolo [13], al fine di semplificare e invertire le
espressioni della matrice di divergenza per ottenere i rates di mutazione, introducono un’ipotesi aggiuntiva sui parametri che di fatto riduce il numero di
parametri indipendenti, e che risulta essere proprio l’ipotesi di bilancio dettagliato. La nostra scelta invece rende estremamente complesse le espressioni
suddette e abbiamo quindi scelto una strada diversa. La stima dei parametri
evolutivi può avvenire con due metodi statistici1 :
la massima somiglianza (maximum likelihood);
i minimi quadrati (least squares).
1
Si veda l’articolo di rassegna di Zharkikh [14]
40
Stima dei parametri evolutivi
Il primo si basa sulla massimizzazione delle probabilità di ottenere i dati
osservati sotto lo schema di mutazione considerato. Il secondo minimizza i
quadrati delle differenze tra i dati predetti e quelli osservati. Una soluzione
analitica con questi metodi è solitamente molto complessa ed è stata fatta per
i modelli più semplici, facendo ritrovare le quantità riportate in precedenza.
Il vantaggio di questi metodi è che si prestano a un approccio numerico,
ovvero si possono trovare i parametri con degli algoritmi di minimizzazione.
Nella nostra analisi ci siamo avvalsi del metodo dei minimo quadrati nella
versione “pesata”, che corrisponde a minimizzare il χ2 . Cerchiamo quindi il
minimo della quantità
f (µ1 , . . . , µ6) =
X (xij − x̄ij )2
,
x̄
ij
ij
(4.1)
dove xij e x̄ij sono rispettivamente gli elementi della matrice di divergenza
teorica e osservata. Le quantità xij sono calcolate dalle relazioni (3.9) e
(3.10). L’equazione (4.1) può essere sviluppata e, sfruttando la condizione di
normalizzazione, condotta nella forma più semplice
X
x̄ij − 2xij +
ij
x2ij X x2ij
=
− 1.
x̄ij
x̄
ij
ij
Notiamo che, poiché x̄ij ≥ 0, il funzionale si annulla se e solo se xij = x̄ij per
ogni i, j.
4.2
L’algoritmo
Data la complessità delle equazioni che compaiono è stata scelta la strada
dell’ottimizzazione numerica, ovvero abbiamo implementato un algoritmo di
minimizzazione multidimensionale che desse una stima dei parametri evolutivi. L’algoritmo usato è il cosiddetto downhill simplex, ideato da Nelder &
Mead [15]. Tale procedura richiede il calcolo dei soli valori della funzione
e non delle sue derivate, e data la sua semplicità è possibile spiegarla in
maniera estremamente naturale. Un simplesso è, in N dimensioni, la figura
4.2 L’algoritmo
41
geometrica descritta da N + 1 punti. Per intenderci esso è un segmento in
una dimensione, un triangolo in due e un tetraedro in tre. Consideriamo sempre un simplesso non degenere, ovvero che abbia un volume N-dimensionale
finito. In questo modo se si prende un vertice del simplesso come origine, i
vettori che congiungono questa agli altri vertici generano l’intero spazio di N
dimensioni. Riferiamoci per semplicità al caso tridimensionale.
L’algoritmo valuta ad ogni passo la funzione nei 4 vertici del simplesso
e confronta i valori ottenuti. A questo punto sono possibili diverse trasformazioni, la più semplice delle quali consiste nel prendere il vertice del simplesso dove la funzione è più grande e riflettere questo punto rispetto alla
faccia opposta, nel tentativo di raggiungere un punto in cui la funzione è
minore. Se lo trova, allora può effettuare un’espansione che cerca un punto
ancora minore aumentando il volume del tetraedro. Ancora il programma
può contrarre tutto il simplesso verso il punto più basso.
È necessario fornire al programma un “punto di partenza”, ovvero N + 1
punti in cui il programma posiziona il simplesso la prima volta e da cui
parte la procedura di ottimizzazione. Una possibilità è quella di assegnare
un’origine P0 e definire gli altri N punti come
Pi = P0 + λi ei ,
dove ei sono gli N vettori di base. In questo modo oltre ad ottenere un
simplesso sicuramente non degenere si può, scegliendo opportunamente le
costanti λi , fornire all’algoritmo le dimensioni caratteristiche del problema
da trattare. L’algoritmo effettua le trasformazioni spostando il simplesso e
lo ferma dove crede di aver trovato un minimo. Arresta cioè la procedura
quando i valori della funzione calcolati nei vertici differiscono tra loro meno
di un valore di tolleranza scelto da noi. Tale valore potrebbe essere anche
dell’ordine della precisione della macchina, sebbene non sia sempre consigliabile spingersi cosı̀ lontano. È sempre utile inoltre far ripartire la procedura
di minimizzazione da dove l’algoritmo si è fermato una prima volta. A tal
scopo ad esempio si possono reinizializzare N punti, lasciando l’ultimo dove
42
Stima dei parametri evolutivi
era stato posizionato dall’algoritmo nel run precedente. Questa attenzione
permette di assicurarsi che il programma ha trovato un minimo assoluto.
4.3 Numero massimo di parametri
4.3
43
Numero massimo di parametri
Prima di passare all’analisi di sequenze reali l’algoritmo è stato testato con
matrici di divergenza scelte da noi.
Abbiamo quindi scelto dei valori arbitrari per i tassi di mutazione e per
il tempo. Con questi, mediante le formule presentate nel capitolo precedente, abbiamo calcolato gli elementi della matrice di divergenza “teorica”.
Tali valori sono stati utilizzati nella procedura di ottimizzazione descritta in
precedenza per ritrovare i valori dei parametri. Quello che è stato notato è
che l’algoritmo cosı̀ utilizzato non è stabile. In altre parole inizializzando
il simplesso in punti leggermente differenti, il programma diversi trova punti
di minimo completamente scorrelati. Questo comportamento si può spiegare
col fatto che cerchiamo di stimare 6 grandezze indipendenti usando solo 5
osservabili. Come abbiamo detto in precedenza tante sono le quantità che
definiscono univocamente la matrice di divergenza (errori di campionamento
a parte). Dobbiamo quindi accontentarci di stimare fino a un massimo di
5 parametri indipendenti, ovvero imporre una relazione fra i sei. Quale relazione scegliere? Abbiamo molte possibilità, per economia di tempo ne sono
state provate solo due, che corrispondono a modelli di mutazione studiati in
modo approfondito in letteratura:
Modello di Takahata & Kimura [13]:
corrisponde considerare uguali i tassi di mutazione fra ogni nucleotide
e il suo complementare (quindi A ↔ T e C ↔ G). Nel nostro modello
questo corrisponde a porre µ3 = µ5 .
Modello reversibile:
ovvero imporre ai parametri la proprietà di bilancio dettagliato. Nel
nostro modello questa equivale alla relazione (3.6), ovvero µ1 µ6 = µ2 µ4 .
Per confrontare queste due possibilità abbiamo generato osservabili con
sei parametri indipendenti e abbiamo minimizzato il funzionale di somiglianza con i cinque che ci derivavano da ciascuna scelta.
44
Stima dei parametri evolutivi
Per quanto riguarda la prima scelta bisogna dire che non esiste un’evidenza
biologica che possa giustificarla, né tantomeno esiste una ragione analitica.
Inoltre abbiamo notato che, cercando di stimare quantità generate con sei
parametri, tale vincolo porta l’algoritmo di minimizzazione a trovare sı̀ un
minimo, ma che tale minimo non è zero. Non si riesce a trovare quindi un
set di parametri che diano esattamente le stesse osservabili.
Per testare la seconda possibilità abbiamo imposto µ6 = µ2 µ4 /µ1 . Tale
scelta presenta due vantaggi: innanzitutto rappresenta una situazione di
“simmetria” che ha il vantaggio di essere più semplice da trattare. Cercando
poi di “fittare” quantità generate da sei parametri senza bilancio dettagliato
con un insieme di cinque parametri che soddisfano tale proprietà, si riesce a
trovare il minimo del funzionale di somiglianza e tale minimo vale zero. Un
modello reversibile quindi sembra riuscire a ricostruire le osservabili anche se
queste sono state prodotte mediante un modello non reversibile.
Capitolo 5
Risultati
La procedura descritta sopra viene applicata a due sequenze reali. Prima di
procedere all’analisi le sequenze vanno allineate, per farlo si utilizzano alcuni
strumenti presenti in rete. Calcoliamo inoltre la distanza secondo la formula
di Jukes-Cantor e la confrontiamo con quella valutata da noi.
5.1
L’allineamento delle sequenze
Prima di procedere all’analisi delle sequenze è necessario procedere con il loro
allineamento (si veda in appendice). Al giorno d’oggi sono disponibili in rete
numerosi strumenti che si rivelano fondamentali per chi si occupa di biologia
molecolare. Si hanno cosı̀ a disposizione banche dati in cui si può esplorare
il genoma umano “cliccando” sui cromosomi, programmi che allineano una
sequenza data con quelle presenti nei suoi database e infine programmi che
mostrano l’allineamento ottimale tra due sequenze fornite da noi1 .
Il problema dell’allineamento di due sequenze consiste, in breve, nell’assegnare delle penalties, ovvero un’energia positiva alle gap (siti in cui si è verificato un in-del) e ai mismatch (siti in cui si è verificata una sostituzione), e
un’energia negativa ai siti identici. La realizzazione che corrisponde al mini1
Un ottimo punto di partenza è senz’altro http://www.ncbi.nlm.nih.gov/. Un’altro
elenco di link utili è all’indirizzo http://matisse.ucsd.edu/itp-bioinfo/links.html
46
Risultati
mo dell’energia viene scelta come allineamento e da esso si ricava la matrice
di divergenza. L’allineamento di stringhe di caratteri appartenenti a un alfabeto è stato trattato da un punto di vista statistico da Hwa & Lässig [16].
Per ottenere dei dati su cui applicare la nostra analisi siamo partiti dalla sequenza di Rattus Norvegicus identificata dal codice U33544 (accession number), corrispondente al pseudogene del citocromo P4502 . Questa è stata data
al programma Fasta che confronta una sequenza fornita con un enorme numero di banche dati e fornisce i risultati più rilevanti, ovvero quelli che hanno
presentato una somiglianza (score) più rilevante. Fra queste la nostra scelta è
caduta su una sequenze di Mus Musculus (accession number AF129405) corrispondente al pseudogene Cyp2b10. Nella figura (5.1) è mostrato il risultato
dell’allineamento di queste due sequenze ottenuto col programma Blast2. Si
vede come il programma abbia individuato due regioni omologhe, la prima di
173 basi che inizia sulla base 451 del pseudogene del Rattus e la seconda di
117 basi che inizia alla base 1138, con un grado di omologia molto simile (88%
la prima e 87% la seconda). Scegliamo il primo allineamento per costruire la
matrice di divergenza in quanto ci permette di avere una statistica lievemente
maggiore.
In figura (5.2) viene mostrato l’allineamento fra la stessa sequenza di Rattus Norvegicus citata sopra e la sequenza umana genica corrispondente al
citocromo P450-IIB (accession number M29873). Come prima il programma
individua due regioni di omologia, la prima lunga 88 basi che comincia in
corrispondenza della base 1131 della sequenza del Rattus (nell’allineamento
precedente cominciava alla base 1138) e la seconda lunga 175 basi che comincia alla base 451, esattamente come sopra. Non c’è dubbio quindi che la
regione da analizzare per un confronto con il caso precedente sia quest’ultima.
Nel prossimo paragrafo ricaviamo la matrice di divergenza per entrambi
2
I citocromi sono pigmenti, presenti in quasi tutti gli organismi viventi, la cui pre-
senza è essenziale per i meccanismi di trasporto di elettroliti nelle cellule. Il citocromo P450 in particolare è una famiglia di circa 60 geni, i meccanismi di espressione dei
quali sono particolarmente importanti per l’azione di alcuni farmaci.
http://drnelson.utmem.edu/CytochromeP450.html.
Si veda anche
5.2 Matrice di divergenza
47
questi casi e calcoliamo la distanza fra le sequenze, prima con la formula di
Jukes-Cantor e poi con il modello sviluppato da noi.
5.2
Matrice di divergenza
Consideriamo il primo allineamento fornito dal programma.
Esso consiste in una sequenza di 173 nucleotidi con 153 identità. Si vede
immediatamente, usando la formula (2.10), che la distanza stimata à la JukesCantor vale
d1−JC = 0.1256 ± 0.0004.
(5.1)
L’errore è stato stimato dalla formula
σJC =
p(1 − p)
)2
L(1 − 4p
3
(5.2)
che è stata ricavata da Kimura & Ohta [17]. È stato utilizzato un valore di
L pari a 346 = 173 × 2 in quanto confrontiamo entrambi i filamenti. Per
valutare la distanza nel nostro modello dobbiamo determinare la matrice di
divergenza, sempre confrontando sia il filamento mostrato sia quello complementare (non mostrati). Contando le occorrenze di ciascun accoppiamento
sulle due sequenze che compaiono in figura e inferendo quelle sulle sequenze
complementari abbiamo la seguente matrice di divergenza


79 4 6 2



2
74
2
4
1 

.
X=

346 
4
2
74
2


2 6 4 79
Sono ben visibili gli effetti degli errori di campionamento, per cui la matrice
non sempre verifica la simmetria xij = xji , ma sono altrettanto visibili le simmetrie discusse in precedenza, e cioè xij = xı̄̄ , che non sono affette da errori
di campionamento. I valori da inserire nella procedura di ottimizzazione numerica sono ottenuti mediando i contributi dei diversi elementi della matrice.
48
Risultati
Abbiamo cosı̀ i seguenti valori osservati (definiti nelle formule (3.9)):
P =
5/346 =
0.0144509
R=
3/346 =
0.0086705
Q1 =
2/346 =
0.005780
Q2 =
2/346 =
0.005780
f1 = 91/346 = 0.263006.
L’algoritmo fornisce i seguenti valori per i parametri di mutazione:
µ1 = 1.94159
µ2 = 3.32436
µ3 = 1.14463
µ4 = 1.83252
µ5 = 1.22975
µ6 = 3.13761 (=
µ2 µ4
).
µ1
La distanza si ottiene dalla formula (2.9) e vale:
d1 = 0.1115.
(5.3)
N.B. Mentre è possibile dare una stima abbastanza esatta per l’errore
sulla distanza calcolata dal modello di Jukes-Cantor, non è possibile fare altrettanto per la distanza ricavata col modello discusso da noi, dato che il
nostro risultato è basato su un metodo numerico. Guardando il comportamento dell’algoritmo possiamo stimare approssimativamente un errore di
circa 10−3 ∼ 10−4 .
Vediamo ora l’allineamento della sequenza del Rattus Norvegicus con la
sequenza umana. La figura 5.2 mostra il risultato. Consideriamo, come detto
prima, la seconda regione di omologia, che mostra identità in 131 siti su 175
(74.8%). La distanza col metodo di Jukes-Cantor vale
d2−JC = 0.3062 ± 0.0012.
(5.4)
5.2 Matrice di divergenza
49
La matrice di divergenza risulta essere

67 10 7 2

1 
 9 64 2 14
X=
350 
 14 2 64 7
2 7 10 67



.


Analogamente a prima abbiamo le seguenti quantità da inserire nell’algoritmo
P = 10.5/350 = 0.03
R=
9.5/350 =
0.027143
Q1 =
2/350 =
0.005714
Q2 =
2/350 =
0.005714
f1 =
86/350 =
0.245714.
La minimizzazione numerica fornisce i seguenti valori per i parametri di
mutazione:
µ1 = 7.121386
µ2 = 7.895639
µ3 = 0.412934
µ4 = 7.369823
µ5 = 0.350738
µ6 = 8.171086 (=
µ2 µ4
).
µ1
da cui la distanza è pari a
d2 = 0.3026.
(5.5)
50
Risultati
5.2 Matrice di divergenza
Figura 5.1:
51
Allineamento di una sequenza pseudogenica del Rattus Norvegicus
con una del Mus Musculus ottenuto col programma Blast2, disponibile all’indirizzo
http://www.ncbi.nlm.nih.gov/gorf/bl2.html. Si notano due regioni di omologia di diversa
lunghezza.
52
Risultati
5.2 Matrice di divergenza
53
Figura 5.2: Allineamento di una sequenza pseudogenica del Rattus Norvegicus con
una sequenza genica umana ottenuto col programma Blast2, disponibile all’indirizzo
http://www.ncbi.nlm.nih.gov/gorf/bl2.html. Anche qui si notano due regioni di omologia,
corrispondenti a quelle mostrate in figura 5.1.
54
Conclusioni
Conclusioni
Il lavoro di tesi si proponeva di indagare le conseguenze della proprietà di
bilancio dettagliato nei modelli di sostituzione del DNA.
Il primo passo è stato dimostrare l’equivalenza tra il bilancio dettagliato e la proprietà dei modelli di sostituzione nota come reversibilità temporale. La discussione sulle regole di appaiamento delle basi ha portato a
individuare i parametri necessari per modellizzare in maniera completa il
fenomeno di mutazione. Abbiamo visto quindi come sei parametri siano sufficienti a descrivere il fenomeno, senza spingersi in complicati modelli a dodici
parametri.
Un discorso analogo ha portato a riconoscere che il numero massimo di
osservabili indipendenti è cinque, cosa che rende impossibile la stima di tutti
i tassi di sostituzione. A questo punto è stato necessario dare un vincolo
ai parametri che permettesse alla procedura di minimizzazione di ottenere
un risultato. La scelta di un modello reversibile è premiata dal fatto che
si riescono a ricostruire le osservabili generate anche con un modello non
reversibile e dal fatto che la distanza calcolata con un modello a un parametro
viene sı̀ corretta dal modello sviluppato, ma non stravolta.
In realtà la scelta di un modello reversibile non è l’unica che permette
di ricostruire esattamente le osservabili. Definiamo una misura della rottura
del bilancio dettagliato
∆=
µ1 µ6
.
µ2 µ4
Quando ∆ = 1 vale il bilancio dettagliato, ovvero il modello è reversibile.
Si osserva che anche modelli con ∆ diverso da uno riescono a ricostruire le
56
Conclusioni
0.113
"d_delta"
0.1125
d
0.112
0.1115
0.111
0.1105
0.11
0.0001
0.001
0.01
0.1
Delta
1
10
100
Figura 5.3: Distanza fra le due sequenze pseudogeniche stimata in funzione del parametro
di violazione del bilancio dettagliato. Per ∆ = 1 il bilancio dettagliato è soddisfatto, ovvero
il modello è reversibile. Sono riportati solo risultati in cui il modello riesce a ricostruire le
osservabili.
0.306
"d2_delta"
0.305
d
0.304
0.303
0.302
0.301
0.3
0.0001
0.001
0.01
0.1
Delta
1
10
100
Figura 5.4: Distanza fra la sequenza pseudogenica del Rattus e quella genica umana
stimata in funzione del parametro di violazione del bilancio dettagliato.
57
osservabili con esattezza (il funzionale si annulla), ma cambia ovviamente la
distanza calcolata. In figura 5.3 e 5.4 riportiamo la distanza tra le coppie di
sequenze già esaminate in precedenza ricostruita secondo modelli con diversi
valori di ∆. Si riportano solo i dati dell’intervallo in cui il modello riesce a
ricostruire le osservabili.
Come si può pensare allora di “scegliere” un modello? Pensiamo a due
sequenze progenitrici che si dividono ciascuna in due sequenze discendenti
e ammettiamo che lo schema di mutazione cui sono soggette sia lo stesso.
Anche il tempo di divergenza sarà lo stesso, quindi si hanno a disposizione
quattro sequenze che possiamo confrontare due a due. Abbiamo cosı̀ a disposizione due matrici di divergenza che dovrebbero dare la stessa distanza
(a meno degli errori).
Ancora si può effettuare un’altra prova. Supponiamo che la sequenza
antenata fosse l’unione delle due sequenze considerate prima e che valgano
le ipotesi precedenti. In ogni discendente avremmo una sequenza più lunga
da confrontare con quella dell’altro. Anche da queste possiamo calcolare la
distanza e confrontarla con quelle ricavate prima.
In questo modo è come se aumentassimo il numero di osservabili senza
aumentare quello dei parametri.
Analisi di questo tipo però non sono prive di rischio. Non tutti i geni di
due organismi che dividono un antenato comune noto discendono dal gene
corrispondente di questo antenato. Il tempo di divergenza potrebbe quindi
essere diverso, e tale sarebbe la distanza tra le sequenze.
È importante notare che un’analisi del genere è da compiersi su sequenze non funzionali, quali quelle pseudogeniche. I vincoli che agiscono sulle
sequenze codificanti sono tali da rendere estremamente difficile giustificare
l’assunzione secondo cui lo schema di mutazione è lo stesso.
In generale quando si confrontano sequenze funzionali si distingue la distanza calcolata sul primo, secondo o terzo nucleotide di ogni codone. Poiché
la degenerazione del codice genetico (vedi appendice) è maggiore sul terzo
nucleotide si vede che anche la distanza stimata su questo è maggiore (la
58
Conclusioni
sequenza ha subito il bias della selezione naturale, per cui i portatori di una
mutazione negativa non sono sopravvissuti e non hanno potuto trasmetterla).
Il fatto che nell’analisi riportata le sequenze più distanti siano le seconda
dipende dal tempo di divergenza che è estremamente più piccolo per il Rattus
e il Mus che per il Rattus e l’uomo.
Appendice A
Concetti di base
A.1
A.1.1
Geni
Il DNA
Le molecole di acido deossiribonucleico (DNA) sono per tutti gli organismi viventi (ad eccezione di alcuni virus) i portatori dell’informazione ereditaria. Queste molecole consistono in due filamenti complementari attaccati
l’uno all’altro e avvolti a formare un’elica destrogira. Ciascun filamento è
un polinucleotide lineare di lunghezza variabile fatto di quattro nucleotidi,
anche detti basi azotate: adenina (A), citosina (C), guanina (G) e timina
(T). I due filamenti sono tenuti insieme grazie all’accoppiamento tra le basi:
esistono solo due tipi di accoppiamento: l’accoppiamento A = T (che consiste in due legami idrogeno e perciò è detto legame debole, e quello C ≡ G
(che è fatto da tre legami idrogeno e quindi è detto legame forte). Tali regole
di accoppiamento sono dette regole di Watson-Crick. La molecola di DNA è
polare, questo permette di definire un verso. Ci si riferisce alle due direzioni
sfruttando la numerazione degli atomi di carbonio delle basi: il verso in cui
viene trascritta (ovvero trasformata in RNA) è detto 50 − 30 . È estremamente
importante specificare un verso sulla catena in quanto l’informazione genetica risiede, come vedremo, nella sequenza ordinata di nucleotidi di cui è fatta
60
Concetti di base
la molecola.
A.1.2
Definizione di gene
Nella definizione tradizionale un gene è un segmento di DNA che “codifica”
per una catena polipeptidica. Negli ultimi anni però la definizione di gene
è cambiata e include adesso una qualunque sequenza di DNA o RNA che
effettua una specifica funzione. Tali funzioni però non richiedono necessariamente che la sequenza sia tradotta (in proteina) né tantomeno trascritta (in
RNA). Si distinguono cosı̀ tre tipi di geni:
geni che codificano per proteine ovvero geni prima trascritti in RNA e
poi tradotti in proteine,
geni che specificano molecole di RNA ovvero geni che vengono trascritti ma non tradotti,
geni regolatori che non sono neanche trascritti.
A.2
Aminoacidi, proteine, codice genetico
Gli aminoacidi sono le strutture chimiche fondamentali di cui sono costituiti
gli organismi. Tutte le proteine di cui sono composti gli esseri viventi, dall’uomo ai batteri, sono fatte da 20 aminoacidi sistemati in una o più catene dette
catene polipeptidiche. Ogni aminoacido è composto da un atomo di carbonio
(detto Cα ) cui sono legati un’ammina (NH2 ), un gruppo carbossile (COOH)
e un gruppo R che distingue un aminoacido dall’altro. Il legame peptidico
che si instaura tra il gruppo NH2 di un aminoacido e il gruppo COOH di un
aminoacido adiacente rende possibile la formazione di lunghe catene: le proteine. Tali catene si dispongono nello spazio assumendo forme anche molto
complesse, si parla di struttura primaria, secondaria, terziaria e quaternaria delle proteine per distinguere i vari livelli di complessità di queste.
A.2 Aminoacidi, proteine, codice genetico
GENI
61
CROMOSOMA
(doppia elica di DNA)
Figura A.1: Illustrazione schematica della posizione dei geni
La struttura primaria è la semplice sequenza di aminoacidi lungo la catena,
data questa però risultano determinate tutte le altre.
Abbiamo detto che il DNA contiene l’informazione ereditaria necessaria
allo sviluppo di un organismo, ma il DNA stesso è pressoché privo di funzionalità diretta nei processi cellulari; la parte funzionale è svolta dalle proteine.
Per esempio non esiste una sequenza di DNA capace di trasportare l’ossigeno
alle cellule, esiste però un gene capace di “ordinare” la produzione di una
proteina che lo faccia (l’emoglobina). Ma come l’informazione contenuta nel
DNA viene trasformata in “ordine” di produrre una proteina? Il DNA viene
trascritto in RNA, una molecola con struttura molto simile ma che consiste
di un solo filamento in cui la timina viene sostituita con l’uracile. L’RNA
viene poi “letto” e tradotto in proteina1 . Esiste una precisa corrispondenza
tra le sequenze di basi e le proteine prodotte; tale corrispondenza è il codice
1
Sono le regole di Watson-Crick a permettere che l’informazione passi da DNA a RNA.
Nel processo di trascrizione infatti il segmento 50 − 30 viene usato come stampo ed è quindi
univoca la sequenza di RNA prodotta.
62
Concetti di base
SECONDA
POSIZIONE
U C A G
C
A
G
Ser
Ser
Ser
Ser
Pro
Pro
Pro
Pro
Thr
Thr
Thr
Thr
Ala
Ala
Ala
Ala
Tyr
Tyr
STOP
STOP
Cys
Cys
STOP
Trp
His
His
Gin
Gin
Arg
Arg
Arg
Arg
Ser
Ser
Arg
Arg
Asn
Asn
Lys
Lys
Asp
Asp
Glu
Glu
Gly
Gly
Gly
Gly
U
C
A
G
U
C
A
G
U
C
A
G
U
C
A
G
TERZA POSIZIONE
PRIMA POSIZIONE
U
Phe
Phe
Leu
Leu
Leu
Leu
Leu
Leu
Ile
Ile
Ile
Met
Val
Val
Val
Val
Figura A.2: Codice genetico. Viene usata la lettera U al posto della T in quanto sulla
molecola di RNA la timina viene sostituita dall’uracile.
genetico. Grazie a questo codice ogni tripletta di basi consecutive (detta
codone) corrisponde ad uno e un solo aminoacido. La sequenza di codoni
permette di identificare la catena polipeptidica e quindi la proteina. Dato che
esistono quattro basi azotate esistono 64(=43) diverse triplette, ma solo 20
aminoacidi. Ne deriva che più codoni corrispondono allo stesso aminoacido,
ovvero, come si dice spesso, il codice genetico è degenere2 . Come si vede
dalla figura A.2 la maggiore degenerazione si ha sulla terza posizione, dove
in molti casi qualunque nucleotide specifica lo stesso aminoacido.
2
Notare che vi sono tre combinazioni che non specificano alcun aminoacido, bensı̀ sono
codoni di stop; servono cioè a indicare in che punto bisogna arrestare la lettura della
sequenza
A.3 Mutazioni
A.3
63
Mutazioni
Il materiale genetico viene sottoposto di continuo all’azione di numerosi
agenti capaci di provocare mutazioni, come possono essere alcune sostanze
chimiche o radiazioni ionizzanti. Spesso però sono i normali processi cellulari le cause di queste mutazioni. Nella stragrande maggioranza dei casi
tali “errori” sono riparati mediante dei meccanismi estremamente efficienti,
eppure esiste una piccola percentuale di mutazioni non corrette. Queste possono avere effetto su un solo nucleotide (in tal caso si parla di mutazione
puntuale) oppure diversi nucleotidi adiacenti. Fra quelle puntuali distinguiamo le sostituzioni di nucleotidi, che consistono nella sostituzione di un
nucleotide con un altro, le inserzioni, in cui un nucleotide viene aggiunto
alla catena nucleotidica, e le delezioni che consistono nella cancellazione di
un nucleotide dalla sequenza. È evidente che, sebbene tutte riguardino un
solo nucleotide alla volta, le ultime due hanno effetto su tutta la porzione
di DNA che segue, in quanto verrebbe a cambiare lo schema di lettura di
tutti i codoni successivi. L’esistenza di mutazioni come le inserzioni e le
delezioni (cui spesso ci si riferisce indistintamente con l’espressione in-del )
rende necessario l’allineamento di sequenze omologhe prima di passare all’analisi comparativa. Si cerca cioè lo schema che realizzi il numero più alto
di siti corrispondenti fra due sequenze supponendo il numero minore di in-del
(per una descrizione di alcuni metodi si veda Li [18]). Quando si parla di
modelli di sostituzione si intendono modelli che studiano mutazioni puntuali,
presupponendo che le sequenze siano state già allineate e che si possano inferire i rates di mutazione dalle sostituzioni osservate (si veda la discussione
nel paragrafo 1.3.5).
64
Concetti di base
Appendice B
Catene di Markov
B.1
B.1.1
Concetti preliminari
Processi stocastici
Per definire una variabile stocastica Y bisogna specificare:
- l’insieme dei possibili valori assunti
- la distribuzione di probabilità in questo insieme.
Una volta definita una variabile stocastica se ne possono derivare un’infinità
di altre mediante una funzione f che mappi Y in queste e sia funzione anche
di una variabile addizionale t. Chiameremo allora
XY (t) = f (Y, t)
(B.1)
una funzione casuale, ovvero (poiché t indica di solito il tempo) un processo
stocastico.
B.1.2
Distribuzioni di probabilità
Sia X una variabile casuale avente r componenti X1 · · · Xr . La probabilità
Pr (x1 , . . . , xr ) è chiamata la distribuzione di probabilità congiunta delle r
variabili X1 · · · Xr . Indichiamo con Ps|r−s (x1 , . . . , xs |xs+1 , . . . , xr ) la probabilità delle s variabili X1 , . . . , Xs , condizionata alla realizzazione delle r − s
66
Catene di Markov
variabili Xs+1 = xs+1 , . . . , Xr = xr . La regola di Bayes lega la probabilità
condizionata alle probabilità congiunte dei due gruppi di variabili mediante
la seguente formula:
Ps|r−s(x1 , . . . , xs |xs+1 , . . . , xr ) =
Pr (x1 , . . . , xr )
.
Pr−s (xs+1 , . . . , xr )
(B.2)
Aggiungiamo ora la dipendenza dal tempo.
Definiamo la probabilità condizionata P1|1 (x2 , t2 |x1 , t1 ) come la densità di
probabilità che X assuma il valore x2 al tempo t2 , una volta assunto il valore
x1 al tempo t1 . Vale la pena di osservare che tale probabilità è normalizzata,
I.E.
Z
P1|1 (x2 , t2 |x1 , t1 )dx2 = 1.
(B.3)
Si può estendere il discorso fatto fissando k istanti di tempo e chiedendosi
la probabilità di avere l realizzazioni successive a questi, ovvero considerare
Pl|k e legarla tramite la regola di Bayes a Pl e Pk , abbiamo cosı̀
Pl|k (xk+1 , tk+1 ; . . . ; xk+l , tk+l |x1 , t1 ; . . . ; xk , tk ) =
Pk+l (x1 , t1 ; . . . ; xk , tk ; xk+1 , tk+1; . . . ; xk+l , tk+l )
.
Pk (x1 , t1 ; . . . ; xk , tk )
(B.4)
Queste relazioni ci torneranno utili quando introdurremo l’equazione di ChapmanKolmogorov.
B.2
Processi di Markov
Un processo stocastico è detto di Markov se vale la seguente proprietà :
Proprietà di Markov 1 Per ogni insieme di n istanti di tempo successivi
(I.E. t1 < t2 < · · · < tn ) si ha:
P1|n−1 (xn , tn ; |x1 , t1 ; . . . ; xn−1 , tn−1 ) = P1|1 (xn , tn |xn−1 , tn−1 ) .
In altre parole la probabilità condizionata di avere il sistema nello stato xn
al tempo tn dato il valore xn−1 al tempo tn−1 è univocamente determinato
B.2 Processi di Markov
67
e non dipende dai valori agli istanti precedenti, si dice perciò che il sistema non ha memoria. Una volta note la probabilità ad un istante iniziale
P1 (x1 , t1 ) e la probabilità condizionata P1|1 (x2 , t2 ; x1 , t1 ) si può ricostruire
l’intera evoluzione del sistema da questi, ad esempio
P3 (x1 , t1 ; x2 , t2 ; x3 , t3 ) = P1|2 (x3 , t3 |x1 , t1 ; x2 , t2 )P2 (x1 , t1 ; x2 , t2 ) =
= P1|1 (x3 , t3 ; x2 , t2 )P1|1 (x2 , t2 ; x1 , t1 )P1 (x1 , t1 )
(B.5)
con t1 < t2 < t3 . Iterando l’algoritmo si ottengono gli altri valori di Pn .
B.2.1
Il moto browniano
Il processo di Markov più famoso in fisica è il moto browniano. Introdurlo ci
dà la possibilità di fare alcune precisazioni sui processi markoviani.
Consideriamo il moto di una particella pesante immersa in un fluido di
particelle più leggere. Per semplicità consideriamo il caso unidimensionale.
Le particelle leggere collideranno numerose e in maniera casuale con la particella browniana, causandone il cambiamento di velocità. Se ad esempio
questa è dotata di una certa velocità v saranno gli urti frontali quelli più
probabili, ma la probabilità di un cambiamento di direzione δv dipenderà
solo da v e non dalla velocità agli istanti precedenti; concludiamo che la velocità di una particella browniana è un processo di Markov. Eppure le prime
osservazioni sperimentali non confermavano questa tesi, finché Einstein e
Smoluchowski non fecero notare che in realtà quello che si osserva non è la
posizione dopo ognuno di questi cambiamenti, bensı̀ dopo molti. Il moto di
una tale particella infatti possiede un tempo di autocorrelazione, ovvero il
tempo necessario all’equilibrio affinché una velocità iniziale sia stata completamente “smorzata”. Questo tempo è in generale molto più piccolo della
risoluzione temporale, quindi quello che si osserva è lo spostamento netto
della particella dopo molti cambiamenti di velocità.
Se si considerano le posizioni successive della particella x1 , x2 , . . . abbiamo
che lo spostamento xn − xn−1 rappresenta un altro processo di Markov, in
quanto non dipende dagli spostamenti xn−1 − xn−2 , xn−2 − xn−3 , . . . . Su una
68
Catene di Markov
scala dei tempi non troppo raffinata si ha cosı̀ che non solo la velocità è un
processo di Markov ma anche lo spostamento.
Facciamo ora alcune considerazioni.
La proprietà di Markov vale solo in prima approssimazione, se un certo
spostamento sk è stato abbastanza grande, sarà favorita una grande velocità
“in uscita”, tale velocità sopravviverà un tempo dell’ordine del tempo di autocorrelazione e quindi a sua volta favorirà uno spostamento sk+1 grande. La
presenza stessa di un tempo di autocorrelazione diverso da zero darà origine
a una lieve dipendenza tra spostamenti successivi, I.E. rappresenterà una
memoria del sistema. Scegliere un’opportuna scala temporale sarà quindi
necessario per rendere la descrizione più esatta. Lo stesso discorso vale per
la velocità; gli urti con le particelle del fluido sono brevi, ma non istantanei, quindi una conoscenza del passato ci dice qualcosa sul tipo di urti e
sul cambiamento di velocità successivo. Se poi si considera che la particella
browniana crea un flusso nel fluido, questo si comporta come una riserva di
memoria che viola la proprietà di Markov.
B.2.2
Caveat
Un processo di Markov può anche essere un processo a più componenti; le tre
componenti della velocità nel moto browniano ad esempio. Se un processo
stocastico ad r componenti rimane tale se si guardano s < r componenti,
altrettanto non può dirsi per un processo di Markov. La conoscenza di tutte
le componenti all’istante t potrebbe essere necessaria per determinare lo stato
all’istante t + 1. Prendiamo come esempio una miscela di gas di molecole
binarie che si dissociano, nota la probabilità di dissociazione di ciascun gas,
la composizione della miscela al tempo t + 1 dipenderà da tutti i gas presenti
al tempo t.
Al contrario, un processo che non sia markoviano può diventarlo prendendo in considerazione un numero più alto di variabili. Prendiamo il moto
di una particella browniana in un campo di forze non omogeneo, il processo
B.2 Processi di Markov
69
che consideri solo la velocità o solo gli spostamenti non è markoviano, ma
quello a due componenti che li considera entrambi lo è.
In sostanza ogni sistema fisico isolato è un processo di Markov se si considerano tutte le variabili microscopiche come componenti di questo, ciò perché
il moto microscopico nello spazio delle fasi è deterministico. Lo scopo della
fisica è quello di trovare un numero piccolo di componenti tali da poter descrivere il sistema come un processo di Markov, almeno approssimativamente.
La giustificazione di tale “riduzione” è ancora oggi oggetto di discussione e
rappresenta uno dei problemi fondamentali per la meccanica statistica.
Concludiamo questo paragrafo sottolineando alcune cose:
- Spesso in fisica si definisce un processo come un fenomeno dipendente in
qualche modo dal tempo. In tal caso non ha senso chiedersi se questo
sia o no markoviano senza specificare quali variabili si considerano.
La difficoltà sta proprio nel trovare il numero minimo di variabili che
rendono tale fenomeno almeno approssimativamente markoviano.
- La proprietà 1 deve valere per tutte le distribuzioni di probabilità Pn ,
non è possibile affermare che il processo è markoviano se tale proprietà
vale solo per le prime distribuzioni. Sapendo che è markoviano poi si
può ricostruire come mostrato l’intera gerarchia.
- Consideriamo l’equazione differenziale
Ṗ (x, t) = Ω[P (x, t)] ,
(B.6)
dove Ω è un operatore che agisce su P come funzione dipendente da
x. Nota la condizione iniziale P (x, t0 ) l’equazione si può risolvere e
si conosce cosı̀ univocamente P (x, t) a t > t0 . Ciò non implica però
che il processo X(t) sia di Markov. Se infatti P (x, t) è la probabilità
che X(t) = x allora l’equazione (B.6) ci dice solo che tale probabilità soddisfa un’equazione differenziale, senza nulla garantire circa
le altre distribuzioni che compaiono nella 1. Ad esempio se Ω è l’operatore nullo abbiamo solo che tale probabilità è costante e quindi
70
Catene di Markov
il fenomeno stazionario, ma non tutti i fenomeni stazionari sono di
Markov. Torneremo su un’equazione del genere quando parleremo di
master equation.
B.2.3
L’equazione di Chapman-Kolmogorov
Se si integrano entrambi i membri dell’identità (B.5) rispetto a x2 si ottiene
(sempre per t1 < t2 < t3 )
P2 (x1 , t1 ; x3 , t3 ) = P1 (x1 , t1 )
Z
P1|1 (x3 , t3 |x2 , t2 )P1|1 (x2 , t2 |x1 , t1 )dx2 . (B.7)
Dividendo entrambi i membri per P1 (x1 , t1 ) e sfruttando la regola di Bayes
si ottiene l’equazione di Chapman-Kolmogorov
Z
P1|1 (x3 , t3 |x1 , t1 ) = P1|1 (x3 , t3 |x2 , t2 )P1|1 (x2 , t2 |x1 , t1 )dx2 .
(B.8)
Abbiamo visto che, come descritto nell’equazione (B.5), da P1 e da P1|1 si
può ricostruire l’intera gerarchia del processo, queste due quantità però non
possono essere arbitrarie, bensı̀ scelte in maniera da soddisfare la (B.8) e,
ovviamente, la relazione
P1 (x2 , t2 ) =
B.2.4
Z
P1|1 (x2 , t2 |x1 , t1 )P1 (x1 , t1 )dx1 .
(B.9)
Processi stazionari
Consideriamo un sistema fisico isolato, descritto da un insieme di variabili
X(t) tali da poter essere considerate un processo di Markov. Se il sistema è
all’equilibrio allora il processo di Markov si dice stazionario, le distribuzioni
di probabilità non dipendono dal tempo e si determinano con le regole usuali
della meccanica statistica dell’equilibrio. Per tali processi la probabilità P1|1 ,
che chiamaremo probabilità di transizione, non dipende dai valori di t ma solo
dalla loro differenza, riscriviamo allora con una nuova notazione
P1|1 (x2 , t2 |x1 , t1 ) = Tτ (x2 |x2 );
τ = t2 − t1 .
(B.10)
B.3 Catene di Markov
71
La Chapman-Kolmogorov diventa quindi (τ, τ 0 > 0)
Z
Tτ +τ 0 (x3 |x1 ) = Tτ 0 (x3 |x2 )Tτ (x2 |x1 )dx2 ,
(B.11)
che può essere interpretata come un prodotto di matrici e diventare
Tτ 0 +τ = Tτ 0 Tτ .
B.3
(B.12)
Catene di Markov
Fra i processi di Markov si distinguono per la loro semplicità le cosiddette
catene di Markov, definite come segue
Catena di Markov 1 Un processo di Markov si dice catena di Markov
quando
1. l’insieme dei possibili stati è un insieme discreto
2. la variabile temporale è discreta e assume solo valori interi
3. il processo è stazionario o almeno omogeneo, cosı̀ che la probabilità di
transizione dipende solo dalle differenze temporali.
Nel nostro caso l’insieme degli stati non solo è discreto, ma anche finito, si
parla quindi di catena di Markov finita. Indichiamo con T (matrice N ×N) la
probabilità di transizione e P (t) il vettore a N componenti che rappresenta la
distribuzione di probabilità all’istante t. Data la distribuzione di probabilità
all’istante iniziale P (t = 0), la proprietà (B.5) insieme con la (B.12) ci dicono
che all’istante t = τ avremo P (t = τ ) = T τ P (t = 0). Lo studio delle catene
di Markov richiede quindi l’analisi delle potenze n−esime della matrice di
transizione. Questa è caratterizzata essenzialmente da due proprietà:
• gli elementi sono non negativi
• la somma degli elementi di ciascuna colonna è uno.
72
Catene di Markov
Nello studio che faremo tratteremo un sistema di quattro stati, ognuno di
questi rappresenta la presenza in un particolare punto del genoma di una delle
quattro basi azotate; adenina, citosina, guanina e timina (indicate d’ora in
avanti rispettivamente con A, C, G, T). L’informazione “statistica” verrà dal
campionare una sequenza per tutta la sua lunghezza che, essendo finita, darà
luogo a possibili errori di campionamento.
B.4
La master equation
L’equazione di Chapman-Kolmogorov è una relazione funzionale che le probabilità di transizione devono rispettare, risulta però difficile da maneggiare
e non sempre il suo significato fisico è chiaro. Da questa si ricava la master equation, più direttamente legata al fenomeno fisico, dalla quale appare
evidente il significato del bilancio dettagliato e si calcolano in maniera più
diretta le frequenze d’equilibrio. In questo paragrafo deriveremo la forma
generale della master equation.
Facciamo di nuovo riferimento alla probabilità di transizione P1|1 , per
t2 − t1 = 0 questa si riduce a
P1|1 (n2 , t1 |n1 , t1 ) = δn2 ,n1 .
(B.13)
Per stati continui anziché discreti la delta di Kronecker diventa di Dirac.
Consideriamo un processo di Markov stazionario o almeno omogeneo, in modo da poter scrivere Tτ come probabilità di transizione. Sviluppando al primo
ordine in τ = t2 − t1 abbiamo
Tτ (x2 |x1 ) = δ(x2 − x1 )(1 − βτ ) + τ W (x2 |x1 ) + O(τ 2 )
(B.14)
dove W (x2 |x1 ) è la probabilità di transizione per unità di tempo da x1 a x2
ed è quindi maggiore o uguale a zero. 1 − βτ invece è la probabilità che non
vi siano transizioni nel tempo τ , si spiega cosı̀ perché compare davanti alla
delta di Dirac. È chiaro che β indica la probabilità di transizione totale da
B.4 La master equation
73
x1 a tutti gli altri stati nel tempo unitario, e vale dunque1
Z
β(x1 ) = W (x2 |x1 )dx2 .
(B.15)
Introduciamo ora la (B.14) nell’equazione di Chapman-Kolmogorov (B.8),
abbiamo
0
Tτ +τ 0 (x3 |x1 ) = [1 − β(x3 )τ ]Tτ (x3 |x1 ) + τ
0
Z
W (x3 |x2 )Tτ (x2 |x1 )dx2 .
(B.16)
Portando Tτ (x3 |x1 ) a sinistra, dividendo per τ 0 , prendendo il limite per τ 0 → 0
e usando la definizione di β (B.15) si giunge all’espressione
Z
∂
Tτ (x3 |x1 ) = [W (x3 |x2 )Tτ (x2 |x1 ) − W (x2 |x3 )Tτ (x3 |x1 )]dx2 .
∂τ
(B.17)
Tale versione differenziale dell’equazione di Chapman-Kolmogorov è chiamata master equation.
Ricordando che Tτ (x2 |x1 ) è la funzione di distribuzione P1 (x2 ) degli stati
aventi per valore iniziale x1 scriveremo
Z
∂P (x, t)
= [W (x|x0 )P (x0 , t) − W (x0 |x)P (x, t)]dx0 ,
∂t
(B.18)
che nel caso discreto diventa
dpi (t) X
=
(Wij pj (t) − Wji pi (t)) .
dt
j
(B.19)
È facile vedere che la distribuzione d’equilibrio si ottiene risolvendo il sistema
X
∞
(Wij p∞
j (t) − Wji pi (t)) = 0 ∀i .
(B.20)
j
1
β inoltre è legato ai cosiddetti jump moments, si veda van Kampen [19] cap.V
74
Catene di Markov
Bibliografia
[1] Ou et al. - Laboratory Investigation Group & Epidemiologic Investigation Group Molecular epimediology of HIV transmission in a dental
practice, Science (1992) 256, 1165-1171
[2] Holmes EC, Zhang LQ, Simmonds P, Ludlam CA, Leigh Brown AG
Convergent and divergent sequence evolution in the surface envelope
glycoprotein of human immunodeficiency virus type 1 within a syngle
infected patient, Proceedings of the National Academy of Sciences of the
USA (1992) 89, 4835-4839
[3] Crick FHC, Watson J Molecular structure of nucleic acids Nature (1953)
171, 737-738
[4] http://www.literature.org/authors/darwin-charles/the-origin-of-species/
[5] Kimura M On the probability of fixation of mutant genes in population,
Genetics (1962) 47, 713-719
[6] Kimura M Evolutionary rate at the molecular level, Nature (1968) 217,
624-626
[7] King JL, Jukes TH Non-Darwinian evolution, Science (1969) 164, 788798
[8] Rodriguez F, Oliver JL, Marı́n A, Medina JR The general stochastic
model of nucleotide substitution, J. of Theoretical Biology (1990) 142,
485-501
76
BIBLIOGRAFIA
[9] Jukes TH, Cantor CR: Evolution of protein molecules, in: Munro NH
(ed.) Mammalian Protein Metabolism. Academic Press, New York
[10] Kimura M A simple method for estimating evolutionary rates of
basesubstitution through comparative studies of nucleotide sequences,
J. of Molecular Evolution (1980) 16, 111-120
[11] Barry D, Hartigan JA Statistical analysis of hominoid molecular
evolution, Statistical Science (1987) 2, 191-210
[12] Page RDM, Holmes EC: Molecular Evolution A phylogenetic approach.
Blackwell Science, Oxford
[13] Takahata N, Kimura M A model of evolutionary base substitutions and
its application with special reference to rapid changes of pseudogenes,
Genetics (1981) 98, 641-657
[14] Zharkikh A Estimation of evolutionary distances between nucleotide
sequences, J. of Molecular Evolution (1994) 39, 315-329
[15] Nelder JA, Mead R Computer Journal (1965) 7, 308-313
[16] Hwa T, Lässig M Similarity detection and localization, Physical Review
Letters (1996) 76, 2591-2594
[17] Kimura M, Ohta T On the stochastic model for estimation of mutational
distance between homologous proteins J. of Molecular Evolution (1972)
2, 87-90
[18] Li WH: Molecular
Evolution.
Sinauer Associates,
Sunderland
Massachussets
[19] van Kampen NG: Stochastic processes in physics and chemistry. NorthHolland, Amsterdam