A Brief Introduction to
Molecular Systematics
David S. Horner
Dip. Scienze Biomolecolari e
Biotecnologie
[email protected]
Letteratura consigliata
Phylogenetic analyses: a brief introduction to methods and their application
David S Horner and Graziano Pesole†
Expert Rev. Mol. Diagn. 4(3), 339–350 (2004)
Phylogeny for the faint of heart:a tutorial
Sandra L. Baldauf
TRENDS in Genetics Vol.19 No.6 June 2003
ATTENZIONE
Computers are like airconditioning …
They stop working if you
open Windows
“In Biologia Nulla Ha Senso Se Non
è Visto da una Prospettiva Evolutiva”
Theodosius Dobzhansky (1900-1975)
(“senza questa prospettiva [la biologia]
diventa semplicemente un cumulo di fatti
scollegati: alcuni sono interessanti, ma
non dipingono insieme un quadro
coerente”)
Tassonomia evolutiva
Questa scuola tradizionale era dominante
fino agli anni ‘60. È basata sull’assunzione
che il modo migliore di ricostruire le
relazioni di un gruppo è di studiarlo per
tutta la vita.
Poi, lo specialista pubblica una filogenesi
basata sulle sue
impressioni
Ha il vantaggio che genera esperti bravi.
Ma ha anche lo svantaggio che non è per
niente un approccio oggettivo
I risultati sono poco riproducibili.
Molecole come documenti della
storia evolutiva
• “Ci possiamo chiedere dove, nella
vita, c’è la quantità più alta di
informazione rispetto al passato, e
come possiamo estrarla?”
• “Forse nei vari tipi di
macromolecole (sequenze) che
portano l’informazione genetica”
Emile Zuckerkandl – Linus Pauling
Evoluzione Molecolare
• TUTTI le sequenze molecolari (naturali)
sono prodotti di processi evolutivi
• Possiamo usare sequenze per inferire
rapporti evolutivi tra sequenze (e tra
organismi)
• Se riusciamo capire come costretti selettivi
influenzano l’evoluzione di diversi tipi di
sequenze (geni codificanti, regione
promotrice, “junk DNA” etc), magari
potremmo PREDIRE il ruolo svolto da
sequenze sotto esame.
Perche ci interessa l’evoluzione
molecolare?
•Per capire la storia naturale di organismi e
ambienti
•Per identificare e classificare nuove specie
•Per capire processi evolutivi
•Per la predizione e modificazione di funzione/
specificità di geni/enzimi.
•Studi basasti sull’evoluzione molecolare può
aiutarci ad associare i cambiamenti funzionali con
le sostituzioni responsabili.
•Sviluppo di medicine/vaccini (selezione)
•Biomonitoraggio (ecologia molecolare)
Quale è il più stretto
parente dei
“baci di dama” ?
UFO
Gioiello
metallaro
Fragola vampira
Space alien
L’omologia è…..
• Omologia: similarita
risultando da eredita da un
genitore stessa.
L’identificazione e l’analisi
di omologia sono
fundamentale nella
sistematica filogenetica.
• 70% homology?
Typical Eukaryote Gene Structure
Eredita dei geni
• Geni vengono ereditati dai genitori
• La loro sequenza puo cambiare con tempo (mutazione)
• Cambiamementi possono essere ereditati
• A volte, geni vengono DUPLICATI opure PERSI
• Nel arco del tempo evolutivo, solo sequenze
“importanti” vengono conservate
• Possiamo applicare il concetto di omologia a geni
• Mutations are random events: their
occurrence is independent of their selective
value - i.e., they do not occur when they are
needed any more often than they would
otherwise.
• Mutations at any single locus are rare
events: mutation rates at a typical locus are
about 1 in 106 gametes.
Some types of mutations.
• Substitution: one nucleotide is substituted for
another, frequently this causes no change in the
resulting organism, sometimes the change can be
dramatic.
• Insertion: DNA is inserted into a gene, either one
nucleotide or many. Sometimes, entire genes are
inserted by viruses and transposable elements.
• Deletion: DNA bases are removed.
• Small insertions and deletions can inactivate large
stretches of a gene, by causing a frame shift that
renders a gene meaningless.
• Duplication: an entire gene is duplicated.
• Transposition: DNA is moved to a new place in
the genome, frequently this happens because of
errors in meiosis or transposable elements.
Meccanismi dell’evoluzione
A
T
G
C
Transizioni
Transizioni
sostituzioni puntiformi
Transversioni
Pirimidine
Purine
Meccanismi dell’evoluzione
Transizioni vs Transversioni
Le transizioni sono più frequenti delle
trasversioni. La frequenza delle mutazioni
puntiformi (1 per 10-9 - 10-10 bases
incorporate) è molto inferiore di quanto atteso
(circa 10-6) a causa dei sistemi di riparazione.
Soppressione di “CpG”
Modificazione “epigenetica” (metilazione) di
residui “C” nella dinucleotide “CG” e diffusa in
tanti organismi
Il C metilato e sensibile a un processo di
“diaminazione” che cambia C>T (U).
Dopo replicazione, se l’errore no e messo a
posto da proofreading, succede una transizione
in una delle eliche prodotte.
Mutazioni
PUNTIFORMI: conseguenze
Dipendono da:
1) Regione del gene che viene
colpita (promotore, regioni
trascritte non tradotte, regione
codificante…)
2) natura della mutazione
3) Selezione Naturale
Meccanismi dell’evoluzione
Mutazione e Fissazione
Per essere geneticamente rilevante
una mutazione deve essere ereditata,
cioè deve avvenire nella linea
germinale e diffondersi in una
proporzione significativa della
popolazione (fissazione).
Nella filogenesi molecolare studiamo
mutazioni fissi.
• Mutazione sinonima
• Mutazione missenso (nonsinonima)
• Mutazione nonsenso (nonsinonima)
Indel nella seq. codificante per una
proteina
• Mutazione frameshift
La teoria neutrale di Kimura
(1968)
• Geni sono stati, in
qualche senso, gia
“ottimizzati” dal processo
evolutivo
• La maggior parte delle
nuove mutazioni sono
deleterie o neutrale.
• La maggior parte della
variazione osservata è
neutrale, poichè le
mutazioni deleterie
vengono rapidamente
eliminate.
• Orologio molecolare
• Tomoko Ohta 1973: ha introdotto il concetto di
“nearly neutral evolution” (evoluzione quasi
neutrale) (mutazioni poco deleterie possono
essere fissate nella popolazione).
• Saul G. Needleman – Christian D. Wunsch
1970 Allineamento ottimale di due sequenze
omologhe.
• Anni ‘70 - Biologia molecolare “moderna”
– Clonaggio di DNA
– Sequenziamento di DNA
• Anni ‘80
– PCR
– micro computer
– Primi “Tree of life”
DNA vs Proteins
… Ser
UCU
UCC
UCG
UCA
AGU
AGC
Gly Arg His
GGU CGU CAU
GGC CGC CAC
GGG CGG
GGA CGA
Lys …
AAA
AAG
Tante sequenze nucleotidiche
diverse possono codificare la
stessa sequenza proteica
Selezione al livello di DNA.
Una stima semplice per
sequenze codificante
Per 2 sequenze:
Ka è la proporzione di siti non-sinonimi dove c’e’
stato un sostituzione.
Ks è la proporzione di siti sinonimi dove c’e’ stato
un sostituzione.
Se:
Ks / Ka >1 ci sono costretti che preventano
sostituzioni aminoacidici
Ks / Ka =1 non c’e’ selezione
Ks / Ka <1 c’e’ slezione positiva
(cambiamenti vengono seletti)
DNA vs Proteins
(A)
(B)
GAP of: h2a_ hum.s eq x h2a_m us.seq Februar y 6, 19102 20:2 5
..
GAP of: h2a_ hum.p ep x h2a_m us.pep Februar y 6, 19102 20:2 5
Percent Simi larit y: 86.768
1
1
51
51
101
101
151
151
201
201
251
251
301
301
351
351
..
Percent Iden tity: 86.7 68
Percent Similar ity: 100.0 00
Percent Identit y: 98.473
.
.
.
.
.
.
.
.
.
.
ATGTCTGGACGTGGTAAGCAAGGAGGCAAAGCTCGCGCCAAAGCGAAATC 50
1 MSG RGKQG GKARA KAKSR SSRAGLQF PVGRV HRLLR KGNYA ERVGA GAPV
||||| || ||||| |||||||||||||| || |||||||| || || ||
||| ||||||||||| ||||| ||||||||| ||||| ||||||||| ||||| |||
ATGTCCGGTCGTGGCAAGCAAGGAGGCAAGGCCCGCGCCAAGGCCAAGTC 50
1 MSG RGKQG GKARA KAKSR SSRAGLQFP VGRVH RLLRK GNYAE RVGAG APV
.
.
.
.
.
.
.
.
.
.
CCGCTCTTCTCGCGCTGGTCTCCAGTTCCCGGTGGGCCGAGTGCACCGCC 100 51 YLA AVLEY LTAEI LELAG NAARDNKKT RIIPR HLQLA IRNDE ELNKL LGR
|| ||||| || || || || |||||||||||||| || |||||||| |
|:| ||||| |||||||| ||||| ||||| ||||| ||||| ||||||||| ||||:
GCGGTCTTCCCGGGCCGGGCTACAGTTCCCGGTGGGGCGTGTGCACCGGC 100 51 YMA AVLEY LTAEI LELAG NAARDNKKT RIIPR HLQLA IRNDE ELNKL LGK
.
.
.
.
.
.
.
.
TGCTCCGTAAAGGCAACTACGCAGAGCGGGTTGGGGCAGGCGCGCCGGTG 150 101 VTIAQGG VLPNI QAVLL PKKTE SHHKA KGK* 131
|||| || || ||||||||||| ||||| || || || |||||||||||
||| |||||||| ||||| ||||| ||||| |||||
TGCTGCGGAAGGGCAACTACGCGGAGCGCGTGGGCGCCGGCGCGCCGGTA 150 101 VTIAQGG VLPNI QAVLL PKKTE SHHKA KGK* 131
.
.
.
.
.
TACCTGGCGGCGGTGTTAGAGTACCTGACCGCCGAGATCCTGGAGCTGGC 200
||| ||||||||||| | |||||||| || ||||||||||||||||||||
TACATGGCGGCGGTGCTGGAGTACCTAACGGCCGAGATCCTGGAGCTGGC 200
.
.
.
.
.
CGGCAACGCGGCTCGCGACAACAAGAAGACTCGCATCATCCCGCGCCACT 250
||||||||||| ||||||||||||||||| ||||||||||||||||||
GGGCAACGCGGCCCGCGACAACAAGAAGACGCGCATCATCCCGCGCCACC 250
.
.
.
.
.
TGCAGCTGGCCATCCGCAACGACGAGGAGCTCAACAAACTGCTAGGCCGG 300
||||||||||||||||||||||||||||||||||||| ||||| |||
TGCAGCTGGCCATCCGCAACGACGAGGAGCTCAACAAGCTGCTGGGCAAA 300
.
.
.
.
.
GTGACCATTGCTCAGGGCGGCGTCCTTCCTAACATCCAGGCCGTGCTTCT 350
||||| || || |||||||||||||| || ||||||||||||||||| ||
GTGACGATCGCGCAGGGCGGCGTCCTGCCCAACATCCAGGCCGTGCTGCT 350
.
.
.
.
GCCTAAGAAGACCGAGAGTCACCACAAGGCCAAGGGCAAGTGA 393
||| |||||||| ||||| ||||| ||||| ||||||||||||
GCCCAAGAAGACGGAGAGCCACCATAAGGCGAAGGGCAAGTGA 393
50
50
100
100
Protein : 2 cambiamenti
DNA : 52 cambiamenti
Protein sequence vs structure
Spinach and Azotobacter ferredoxins
1 .AFVVTDNCIKCKYTDCVEV.CPVDCFYEGPNFLVIHPDECID...CALC
|: ||
.. |: ||. || |.:
:|
.:|.||
:. .
1 XAYKVT....LVTPTGNVEFQCPDDVY.....ILDAAEEEGIDLPYSCRA
.
.
.
.
.
46 EPECPAQAIFSEDEVPEDMQEFIQLNAELAEVWPNITEKKDPLPDAEDWD
:. :...: :..:.: :| |.|:: :.::.|.|. :|
|:.|.. .
42 GSCSSCAGKLKTGSLNQDDQSFLD.DDQIDEGWV.LTCAAYPVSDVTIET
.
96 GVKGKLQHLER 106
|:.|
90 HKKEELTA... 97
45
41
95
89
DNA vs Proteine
Il grado di conservazione segua l’ordine:
DNA < Sequenze Proteiche
< Struttura Secondaria Proteica
< Struttura Tridimensionale
Proteica
Esiste un orologio
molecolare?
• L’idea di orologio molecolare fu
inizialmente suggerita da Zuckerkandl
e Pauling nel 1962
• Era basata sull’osservazione che i
tassi di sostituzione aminoacidica nelle
emoglobine animali erano
approssimativamente proporzionali alle
distanze temporali - stimate dai reperti
fossili
•
•
•
•
*Stolen from a great site nitro.biosci.arizona.edu/.../Lecture47.html
Although its importance, relative to Darwininan evolution, is debated, this theory
is farily well supported by now.
Rates of molecular evolution vary among proteins, and among organisms.
Some proteins allow much less neutral variation, and evolve more slowly.
Interestingly, population size is not that important for rates of molecular
evolution (it cancels out in the math, small populations drift faster, but have
fewer mutants per generation)
Non esiste un orologio
molecolare universale
• La proposta iniziale vedeva l’orologio come un
processo di tipo Poisson con un tasso costante
• Ora si sa che è più complesso. Differenze nel
tasso di sostituzione esistono per:
–
–
–
–
–
Differenti siti di una stessa molecola
Differenti geni
Differenti regioni dei genomi
Differenti genomi entro una stessa cellula
Differenti gruppi tassonomici analizzati per lo
stesso gene
• Non esiste un orologio molecolare universale
Multi-gene families: Evolution by gene
duplication
•Gene duplication is the most important mechanism for
generating new genes and new biochemical processes.
This mechanism has facilitated the evolution of complex
organisms:
•In the genomes of eukaryotes, internal duplications of gene
segments have occurred frequently. Many complex genes
might have evolved from small primordial genes through
internal duplication and subsequent modification.
•Vertebrate genomes contain many gene families absent in
invertebrates.
•Many gene duplications have occurred in the early evolution
of animals
(“Biology’s Big Bang”, “Cambrian explosion”,
~570-505 million year ago).
Types of duplication events
A duplication may involve
•a single gene (complete gene duplication)
•part of a gene (internal or partial gene
duplication)
•part of a chromosome (partial polysomy)
•an entire chromosome (aneuploidy or polysomy)
•the whole genome (polyploidy)
Duplicazioni Geniche
Subito dopo una duplicazione genica, c’e’
una coppia di geni identici….
Cosa può succedere?
Destini dei geni duplicati
• Possono mantenere la stessa
funzione e pattern di espressione
• Possono accumulare mutazioni
(nella regione codificante o nel
promotore) e diventare
pseudogeni
Origine di pseudogeni
• Tanti geni duplicati diventano
PSEUDOGENI e a volte vengono persi
dal genoma.
• PSEUDOGENE : una sequenza di
DNA non-funzionale, derivata da un
gene funzionale.
• Alcuni pseudogeni hanno una funzione
e altri vengono riabilitate.
Origine di subfunzioni:
• I geni derivati dalla duplicazione
assumono diversi aspetti della
funzione del gene ancestrale
• Tali cambiamenti succedono
spesso rapidamente dopo la
duplicazione.
Origine di neofunzioni
Cambiamenti funzionali della
proteina risultano da
sostituzioni nella regione
codificante
Pattern diversi dell‘esspresione
(diversi tissuti/tempi durante lo
sviluppo) risultano da
sostituzioni nelle regioni
regulatrici.
Ortologhi e paraloghi
paraloghi
ortologhi
a
b c
Gene ancestrale
ortologhi
C B
A
Duplicazione ci da 2
copie = paraloghi nello
stesso genoma
Ortologia vs Paralogia
hanno entrambe l’implicazione di
omologia
Ortologia
Sequenze derivate da un
gene ancestrale comune dopo
un evento di SPECIAZIONE
Paralogia
Sequenze derivate da un
gene ancestrale comune
dopo un evento di
DUPLICAZIONE GENICA
Ruolo delle duplicazioni geniche
nell‘evoluzione dell‘organismo
• generano nuovo materiale genetico per
l‘evoluzione di nuove funzioni/complessità
• duplicazioni specie-specifiche possono
permettere l‘evoluzione di funzioni speciespecifiche che possono facilitare
l‘adattamento all‘ambiente
• Duplicazioni e generazione di pseudogeni
popolazione-specifica contribuiscono
all‘isolamento riproduttivo (speciazione)
After a Duplication/Speciation
AGGGCCCTTG
AGGGTCCTTG
This is the FIRST substitution event
AGGGCCCTTG
AGGGTCCTTG
The SECOND event has a 1/20 chance (in this case), of
occurring at the SAME position
AGGGCCCTTG
AGGGGCCTTG
Saturazione nei dati di
sequenza:
• La saturazione è dovuta a cambiamenti
multipli dello stesso sito durante la divergenza
(dopo una ramificazione)
• La maggior parte dei dati contiene alcuni siti
che evolvono rapidamente e che sono
potenzialmente saturati (es. Nelle sequenze
codificanti per proteine la terza posizione dei
codoni)
• Nei casi più eclatanti i dati diventano
essenzialmente casuali e non è possibile
rintracciare informazioni circa le relazioni
evolutive
Cambiamenti multipli a un singolo
sito - cambiamenti nascosti
Seq 1 AGCGAG
Seq 2 GCCGAC
Numero di cambiamenti
pos 1 A
G
pos 2 G
pos 3 C
A
T
G
C
C
3
1
2
Distanza Genetica
La proporzione osservata di cambiamenti
non riflette bene il reale numero di
cambiamenti evolutivi quando il livello di
divergenza è alto.
expected difference
Correction
Saturation
observed difference
Introduzione agli alberi
filogenetici
Phylogenetic
systematics
• Omologia: si riferisce all’evidenza di un
progenitore comune (common descent)
• Usa alberi per indicare relazione
• Gruppi monofiletici (clades) contengono organismi (o sequenze) che
sono più strettamente imparentate fra
di loro di quanto siano imparentate con
altre organismi (o sequenze) al di fuori
del gruppo.
Terminologia I
• Node/nodo: un punto di
ramificazione su un albero
filogenetico
E. coli
Riso
Arabidopsis
Danio
Ratto
Topo
Nodo
Uomo
Ramo
Terminologia II
• Taxon: Un livello di classificazione,
una specie, un genere, una
famiglia. Usato nella filogenesi
molecolare anche per descrivere
un OTU.
• OTU (Operational Taxonomic Unit),
una “foglia” di un albero
filogenetico, può essere una specie
oppure una sequenza
E. coli
Riso
Arabidopsis
Danio
Ratto
Topo
Nodo
Uomo
Ramo
Taxon/OTU
Taxon
• Clade/Gruppo monofiletico: un
gruppo che contiene tutti gli OTU
che sono discesi da un nodo.
• Gruppo parafiletico: un gruppo
tassonomico che NON contiene
tutti gli OTU che sono discesi da un
nodo.
E. coli
Riso
Arabidopsis
Danio
Ratto
Topo
Uomo
Nodo Ancestrale
Clade/Gruppo
monofiletico
Arabidopsis
Homo
Topo
Gecco
Passero
Falcone
Clade?…..SI
Dinosauro
I rettili non costituiscono un
gruppo strettamente
monofiletico. sono
PARAFILETICI
Cladogrammi
E. coli
Riso
Arabidopsis
Danio
Ratto
Topo
Uomo
E. coli
Riso
Arabidopsis
Danio
Ratto
Topo
Uomo
Cladogrammi
mostrano
l’ordine delle
ramificazioni,
lunghezze dei
rami non
significano
niente
Filogrammi
Filogrammi
le lunghezze
dei rami
indicano il
grado di
divergenza
E. coli
Riso
Arabidopsis
Danio
Ratto
Topo
Uomo
Difficile sapere la direzione
ACCTC
ACGTC
G>C?
ACGTC ?
ACCTC
ACGTC
C>G ?
ACCTC ?
OUTGROUP (Scelta)
Una divergenza BASALE al
INGROUP
Non TROPPO
lontano/divergente
Meglio provare con piu di un
outgroup
Alberi e Radici
Albero non radicato
E. coli
Homo
Arabdopsis
Riso
Topo
Danio
Ratto
Alberi e Radici
Radicato da un
“outgroup”
E.coli OUTGROUP
Arabidopsis
Gruppo monofiletico
Riso
Danio
radice
Topo
Ratto
Homo
Gruppo
monofiletico
Alberi e Radici
Albero non radicato
E. coli
Homo
Arabdopsis
Riso
Topo
Danio
Ratto
Alberi e Radici
Danio
Arabidopsis
Gruppo monofiletico
Riso
E. coli
radice
Topo
Ratto
Homo
Gruppo
monofiletico
Alberi di geni e alberi di
specie
A
a
b
Albero
di geni
c
B
C
Albero
di specie
Facciamo spesso l’assunzione
che sono la stessa cosa…..
Ortologhi and paraloghi
paraloghi
ortologhi
a
b c
Gene ancestrale
ortologhi
C B
A
Duplicazione ci da 2
copie = paraloghi nello
stesso genoma
Ortologhi and paraloghi
paraloghi
ortologhi
ortologhi
ChimpA* HomoA TopoA TopoB*ChimpB HomoB*
Gene ancestrale
Duplicazione ci da 2
copie = paraloghi nello
stesso genoma
Ortologhi and paraloghi
paraloghi
ortologhi
ortologhi
ChimpA* HomoA TopoA TopoB*ChimpB HomoB*
Gene ancestrale
Pesce
Duplicazione ci da 2
copie = paraloghi nello
stesso genoma
Ortologhi e paraloghi
Chimp Topo
Uomo
Pesce
Un albero che contiene una selezione non
completa di paraloghi e ortologhi
Ortologia vs Paralogia
hanno entrambe l’implicazione di
omologia
Ortologia
Sequenze derivate da un
gene ancestrale comune dopo
un evento di SPECIAZIONE
Paralogia
Sequenze derivate da un
gene ancestrale comune
dopo un evento di
DUPLICAZIONE GENICA
L’albero filogenetico questo gene
contiene un misto di ortologhi e
paraloghi
Gene duplication
Ratto 1
Topo 1
Homo 1
Danio 1
Topo 2
Ratto 2
POLITOMIA
Homo 2
Solanum tuberosum
Brassica
Riso
E.coli
Salmonella
L’albero filogenetico di questo gene
contiene un misto di ortologhi e
paraloghi
Gene duplication
Ratto 1
Topo 1
Homo 1
Danio 1
Topo 2
Ratto 2
Danio 2?
Homo 2
Solanum tuberosum
Brassica
Riso
E.coli
Salmonella
Numero di alberi distinti in
funzione del numero di
taxa
N taxa
N trees
10
2*106
22
3*1023
50
3*1074
100
2*10182
1000
2*102860
Phylogenetic
systematics
• Omologia: si riferisce all’evidenza di un
progenitore comune (common descent)
• Usa alberi per indicare relazione
• Gruppi monofiletici (clades) - contengono
organismi (o sequenze) che sono più
strettamente imparentate fra di loro di
quanto siano imparentate con altre
organismi (o sequenze) al di fuori del
gruppo.
Newick Format
((A,B),(C,D));
A
B
C
D
A
C
B
D
Multifurcazioni
((A,B,C),(D,E));
A
B
C
D
E
Lunghezza di Rami
((A:1,B:1):2,(C:2,D:1):3):0;
=
C
2
A
1
D
B
1
2
3
1