Evoluzione Molecolare
Studia le velocità e il tipo di sostituzioni che avvengono nel
materiale genetico e nei suoi prodotti.
EVOLUZIONE MOLECOLARE
DIMENSIONE
TEMPO
pura descrizione
meccanismi evolutivi
DINAMICA
CINEMATICA
OBIETTIVI
 individuazione delle costrizioni funzionali
 comprensione dei processi evolutivi
 studi filogenetici, relazioni tassonomiche
EVOLUZIONE MOLECOLARE
 Geni
 Genomi
 Organismi
EVOLUZIONE MOLECOLARE
inter taxa
Livelli di analisi
inter phyla
inter specie
intra specie
EVOLUZIONE MOLECOLARE
geni ortologhi
Scelta delle
sequenze
geni paraloghi
altre regioni
(non codificanti, regolatorie)
genomi completi
ortologia e paralogia
a
duplicazione genica
speciazione
gene α 1
gene α 2
b
speciazione
gene β 1
specie 1
specie 2
gene β 2
Evoluzione della famiglia genica della
beta-globina umana
Embrionale
e
Fetale
g1
g2
Pseudogene
yh
Adulta
d
b
3’
5’
0
100
duplicazione genica
200
Mya
Mutazioni
- transizioni
 sostituzioni nucleotidiche
 delezioni
- transversioni
A
C
G
T
 inserzioni
 inversioni
IPOTESI DELL’ OROLOGIO MOLECOLARE
Zuckerkandl and Pauling (1962)
OROLOGIO MOLECOLARE
sostituzioni/sito
tempo
 Alcuni
geni (o gruppi di geni) possono
evolvere sotto distinte pressioni evolutive
dettate da costrizioni funzionali peculiari di un
particolare lineage
 Geni provenienti da compartimenti distinti
(es. mitocondrio, nucleo) possono evolvere
secondo differenti pressioni evolutive
I
geni possono mostrare
composizionale in alcuni lineage
un
“bias”
A
C
T
G
A
A
C
G
T
A
A
C
G
C
tempo
A
C
T
G
A
A
C
G
T
A
A
C
G
C
T
G
Sequenza ancestrale
A sostituzione multipla
sostituzioni coincidenti
T A sostituzione convergente
A
C
T
G
A
A
C
G
T
A
A
C
G
C
T
sostituzione singola
G
Sequenze discendenti
A a T G g A C G T A a C G C
t C T G g A C G T A A C G C
Confronto delle
sequenze attuali
Tipi di sostituzioni nucleotidiche
sostituzione singola
1 cambio, 1 differenza
A
C
A
sostituzione multipla
sostituzione coincidente
2 cambi, 1 differenza
2 cambi, 1 differenza
T
C
A
C
A
A
T
G
A
C
A
C
GA
C
A
sostituzione parallela
sostituzione convergente
retro-sostituzione
2 cambi, 0 differenze
3 cambi, 0 differenze
2 cambi, 0 differenze
C
A
C
C A
A
C
T
C
A
T
C A
A
T
T
A
C
A
A
A
A
C
EVOLUZIONE MOLECOLARE
deterministici: basati sulla
osservazione dei caratteri
Modelli
stocastici (probabilistici
dipendenti dal tempo):
basati sulla misura delle
diversità
mouse
rat
hamster
g_monkey
r_monkey
human
cow
sheep
cat
chicken
xenopus
trout
1
MTAMEESQSD
...MEDSQSD
...MEEPQSD
...MEEPQSD
...MEEPQSD
...MEEPQSD
...MEESQAE
...MEESQAE
...MQEPPLE
...MAEE...
...M.EPSSE
...MAD.LAE
ISLELPLSQ.
MSIELPLSQ.
LSIELPLSQ.
PSIEPPLSQ.
PSIEPPLSQ.
PSVEPPLSQ.
LNVEPPLSQ.
LGVEPPLSQ.
LTIEPPLSQ.
..MEPLLEPT
TGMDPPLSQ.
.NVSLPLSQ.
ETFSGLWKLL
ETFSCLWKLL
ETFSDLWKLL
ETFSDLWKLL
ETFSDLWKLL
ETFSDLWKLL
ETFSDLWNLL
ETFSDLWNLL
ETFSELWNLL
EVFMDLWSML
ETFEDLWSLL
ESFEDLWKM.
PPEDILP...
PPDDILPTTA
PPNNVLSTLP
PENNVLSPLP
PENNVLSPLP
PENNVLSPLP
PENNLLSSEL
PENNLLSSEL
PENNVLSSEL
PY........
PD..PLQTVT
..NLNLVAVQ
50
..SPHCMDDL
TGSPNSMEDL
..SSDSIEEL
...SQAVDDL
...SQAVDDL
...SQAMDDL
...SAPVDDL
...SAPVDDL
...SSAMNE.
.....SMQQ.
....CRLDNL
.......PPE
////////////////////////////////////////////////////////////////
351
400
mouse GEYFTLKIRG RKRFEMFREL NEALELKDA. HATEESGDSR AHSSYLKTKK
rat GEYFTLKIRG RERFEMFREL NEALELKDA. RAAEESGDSR AHSSYPKTKK
hamster GEYFTLKIRG QERFKMFQEL NEALELKDA. QALKASEDSG AHSSYLKSKK
g_monkey GEYFTLQIRG RERFEMFREL NEALELKDA. QAGKEPAGSR AHSSHLKSKK
r_monkey GEYFTLQIRG RERFEMFREL NEALELKDA. QAGKEPAGSR AHSSHLKSKK
human GEYFTLQIRG RERFEMFREL NEALELKDA. QAGKEPGGSR AHSSHLKSKK
cow GEYFTLQIRG FKRYEMFREL NDALELKDA. LDGREPGESR AHSSHLKSKK
sheep GEYFTLQIRG RKRFEMFREL NEALELMDA. QAGREPGESR AHSSHLKSKK
cat GEYFTLQIRG RERFEMFREL NEALELKDA. QSGKEPGGSR AHSSHLKAKK
chicken NEIFYLQVRG RRRYEMLKEI NEALQL.... ....AEGGSA PRPSKGRRVK
xenopus EEIFTLRIKG RSRYEMIKKL NDALELQESL DQQKVTIKCR KCRDEIKPKK
trout DEIYTLQIRG KEKYEMLKKF NDSLELSELV PVADADKYRQ KCLTKRVAKR
mouse
rat
hamster
g_monkey
r_monkey
human
cow
sheep
cat
chicken
xenopus
trout
401
..GQSTSRHK
..GQSTSRHK
..GQSASRLK
..GQSTSRHK
..GQSTSRHK
..GQSTSRHK
..RPSPSCHK
..GPSPSCHK
..GQSTSRHK
VEgPQPSCGK
........GK
DFGVGPKKRK
422
KTMVKKVGPD SD
KPMIKKVGPD SD
KLMIKREGPD SD
KFMFKTEGPD SD
KFMFKTEGPD SD
KLMFKTEGPD SD
KPMLKREGPD SD
KPMLKREGPD SD
KPMLKREGLD SD
KLLQK....G SD
KLLVKDEQPD SE
KLLVKEEKSD SD
p53a.msf
Name:
Name:
Name:
Name:
Name:
Name:
Name:
Name:
Name:
Name:
Name:
Name:
MSF: 422
mouse
rat
hamster
g_monkey
r_monkey
human
cow
sheep
cat
chicken
xenopus
trout
Type: P
Len:
Len:
Len:
Len:
Len:
Len:
Len:
Len:
Len:
Len:
Len:
Len:
September 20, 1995 11:41
422
422
422
422
422
422
422
422
422
422
422
422
Check:
Check:
Check:
Check:
Check:
Check:
Check:
Check:
Check:
Check:
Check:
Check:
3385
877
2423
6876
7388
6515
4340
9625
496
6526
9659
7860
Check: 5970 ..
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
Modelli Stocastici
 Jukes Cantor
 Kimura
 Markov
Jukes Cantor
t
t+1
B
(1 - l )2 qt @ (1 - 2l )qt
1- l
qt
C
1-l
t
t+1
B
l/3
1-q t
1-l
2(l / 3)(1 - l )(1 - qt ) @ 2 / 3l (1 - qt )
C
1- l
l/3
3
4

ˆ
d = - 4 ln  1 - 3 p 
Kimura
1 [(
ˆ
d = - ln 1 - 2 P - Q ) 1 - 2Q ]
2
dove P e Q rappresentano rispettivamente la
frequenza osservata delle transizioni e delle
transversioni
Modello Stazionario di Markov
 Proprietà
Nessuna assunzione “a priori” sulla matrice
delle distanze ma semplice verifica della
condizione di stazionarietà
Misura accurata delle fluttuazioni statistiche
(Simulazione con il metodo del Bootstrap)
C. Saccone, C. Lanave, G. Pesole and G. Preparata
Methods in Enzymology (1990). Vol. 183, pp. 570 - 583
test di stazionarietà
Modello Stazionario di Markov
=
i,j = A, C, G, T
Modello Stazionario di Markov
 Algoritmo
Modello stocastico basato su una catena
di Markov che attraverso l’equazione
differenziale di Kolmogorov:
4
d
Pik(T) =  Pir (T) Rrk
dT
r=i
A
C
G
T
calcola la matrice delle velocità 4x4 R,
indipendente dal tempo, che descrive il
processo di sostituzione nucleotidica
C. Saccone, C. Lanave, G. Pesole and G. Preparata
Methods in Enzymology (1990). Vol. 183, pp. 570 - 583
Alberi filogenetici
Albero <==> Grafo
Topologia: nodi + rami
Un albero descrive le relazioni fra ancestore e
discendenti
I nodi sono le unità tassonomiche
Nodo ancestrale e Nodi Intermedi (UT o TU)
Nodi Terminali (UTO o OTU): specie, geni,
popolazioni o individui
Alberi filogenetici
 Alberi con radice o rooted
’ ancestore
==>
percorso
univoco
da
ancestore a OTU
 Alberi senza radice o unrooted
La radice è localizzata all’ interno di un
ramo che congiunge le specie in esame
con l’outgroup
Esempio di albero Rooted (con radice)
UOMO
MUCCA
TOPO
Alberi filogenetici

Alberi con radice o rooted: Alberi
quantitativi

La
lunghezza
direttamente
dei
rami
proporzionale
tempi di divergenza fra le UT
» Orologio Molecolare
è
ai
Esempio di albero Unrooted (senza radice)
A
D
1
B
3
2
C
1-3: Nodi dell’albero
A-E: OTU
E
Alberi filogenetici
Alberi senza radice o unrooted:
Alberi qualitativi

Descrivono semplicemente le
relazioni evolutive fra le UT
Alberi filogenetici
 Alberi basati sullo stato dei caratteri
- Massima Parsimonia
- Massima Verosimiglianza
 Alberi basati sulla misura delle distanze
- UPGMA
- Neighbor - Joining
Alberi filogenetici
 Metodi basati sulla Misura delle distanze
- UPGMA (albero con radice applicabile solo se
rispettato l’orologio molecolare)
» Lunghezza dei rami proporzionale ai tempi di divergenza
- Neighbor Joining (albero senza radice
quando non è rispettato l’orologio molecolare)
» Differente velocità nei diversi rami
Tempo di divergenza fra due specie = tempo
impiegato nel processo di speciazione, ovvero
tempo dell’isolamento riproduttivo
T1
T1=
KAC + KBC
T2
A
B
C
T2=
4r
KAB
2r
Metodi Deterministici
 Massima Parsimonia
Sito 2
Sito
Sequenza
1
2
3
4
Sito 3
Sito 5
Sito7
Sito 9
Alberi filogenetici
 Alberi fenetici (fenogrammi): descrivono le relazioni fra
le specie sulla base delle diversità
morfologiche, molecolari e anatomiche
o
somiglianze
 Alberi cladistici (cladogrammi): descrivono le relazioni di
discendenza tra un gruppo di specie
 Se l’orologio molecolare è rispettato
Alberi cladistici<==> Alberi fenetici
Alberi filogenetici

Alberi con radice o rooted
NR= (2n-3)!/2 (n-2) (n-2)!

Alberi senza radice o unrooted
NV= (2n-5)!/2 (n-3) (n-3)!
Alberi filogenetici
I
dati per la costruzione degli alberi
filogenetici: un solo gene puo essere sufficiente?
Quasi mai
Soluzione:
– Analizzare piu’ di un gene
– Effettuare una stima della
statistica degli alberi ottenuti
significatività
Alberi filogenetici
 Perche’ ?
– Per ricostruire la storia evolutiva delle
specie o delle popolazioni in esame
– Tempo di divergenza fra 2 specie = tempo
impiegato nel processo di speciazione ovvero
dell’isolamento riproduttivo
Alberi filogenetici
I dati per la costruzione degli alberi filogenetici: un
solo gene può essere sufficiente?
Quasi mai
Perche’?
– Paralogia e ortologia dei geni
– Evoluzione concertata (famiglie geniche)
– Pressione mutazionale direzionata
– Trasferimento orizzontale di un gene (dai batteri
alle piante)
– Polimorfismo
– Fluttuazioni statistiche
EVOLUZIONE MOLECOLARE
metodologie
Congruenza
tipologie di dati
EVOLUZIONE MOLECOLARE
approcci molecolari
Congruenza
metodologica
approcci
molecolari/non molecolari
EVOLUZIONE MOLECOLARE
nucleari
molecolari
Congruenza
sul tipo di dati
mitocondriali
morfologici
resti fossili
EVOLUZIONE MOLECOLARE
Genomi completi
Congruenza
Regioni regolatorie/codificanti
EVOLUZIONE MOLECOLARE
sequenziamento
Limiti
analisi
Sequenziamento: limiti
Studi incentrati su specie ampiamente
studiate
Assenza (o scarsa presenza) di sequenze
relative a specie rilevanti per gli studi
filogenetici
Analisi: limiti
 Omoplasia: “rumori di fondo” causati da sostituzioni multiple,
processi di sostituzione condizionati (perdita della condizione di
stazionarietà), processi selettivi, ecc.
 Geni diversi possono seguire differenti storie evolutive nello
stesso gruppo di specie
 Mancanza di riconoscimento di geni paraloghi nel campione in
esame
“A gene tree can be accepted or rejected
only in its entirety as an estimate of the
species tree, and it is not legitimate to
dissect out pieces or a cladogram as support
for a favored hypothesis while rejecting the
phylogenetic implication of the rest of the
tree.”
Ruvolo and Koh, Mol. Phyl. Evol 5: 439-440 (1996)
bootstrap
+---------HUMAN
+100.0
!
!
+----RHESUS
!
+100.0
+-91.0
+----G MONKEY
!
!
!
!
+----COW
!
!
+100.0
!
+-40.0
+----SHEEP
+100.0
!
!
!
+---------CAT
!
!
!
!
+----MOUSE
+-43.0
!
+100.0
!
!
+------69.0
+----RAT
!
!
!
+-66.0
!
+---------HAMSTER
!
!
!
!
!
+------------------------CHICKEN
!
!
!
+-----------------------------XENOPUS
!
+----------------------------------TROUT