SALVI D. - Analisi statistica delle sequenze di DNA nella

Atti Accademia Nazionale
Italiana di Entomologia
Anno LXIII, 2015: 243-249
ANALISI STATISTICA DELLE SEQUENZE DI DNA
NELLA RICOSTRUZIONE FILOGENETICA E FILOGEOGRAFICA:
APPLICAZIONI NELLA RICERCA ENTOMOLOGICA
DANIELE SALVI (*)
(*) CIBIO-InBio, Centro de Investigação em Biodiversidade e Recursos Genéticos (Universidade do Porto), Campus Agrário de Vairão,
Rua Padre Armando Quintas, 4485-661 Vairão (Portugal); email:[email protected]
Lettura tenuta durante la Tavola Rotonda “La statistica nella ricerca entomologica: dall’analisi inferenziale ai modelli previsionali”.
Seduta pubblica dell’Accademia - Firenze, 13 novembre 2015.
Statistical analysis of DNA sequences for phylogenetic and phylogeographic inference with a case study
in entomology
A short synthesis of phylogenetic methods based on DNA sequence data is provided. Traditional methods based on distances
or parsimony are compared with probabilistic approaches based on Maximum-Likelihood and Bayesian inference. Finally, the
benefit of recent applications of coalescent models in phylogenetics (species tree) and phylogeography is discussed, including an
example on insects’ biogeography and evolution.
KEY WORDS: DNA sequences data; molecular phylogenetics; phylogeography, species tree.
INTRODUZIONE
Uno dei primi alberi filogenetici fu disegnato dallo
stesso Darwin per rappresentare l’evoluzione degli
organismi a partire da un progenitore comune (la
radice) attraverso diverse linee di discendenza (i
rami), con una successione di antenati comuni (le
ramificazioni interne o nodi), fino ad arrivare alle
ramificazioni terminali delle specie attuali. La ricostruzione di tali relazioni filogenetiche è un aspetto
chiave nello studio della biodiversità poiché fornisce
un’ipotesi testabile sulla storia evolutiva delle forme
viventi e uno schema per la loro classificazione in
gruppi tassonomici gerarchici. Tali gruppi, secondo
il principio della sistematica cladistica ed evolutiva,
dovrebbero includere ciascuno una singola sezione
dell’albero filogenetico ed essere così costituiti da
tutti i taxa aventi discendenza da un comune antenato (gruppi monofiletici).
Storicamente, i primi approcci filogenetici hanno
utilizzato caratteri morfologici per inferire i rapporti di discendenza tra le specie. A partire dagli
anni ottanta, con lo sviluppo delle tecniche di
amplificazione e sequenziamento del DNA, l’impiego di sequenze nucleotidiche ha rivoluzionato il
campo della filogenesi. La disponibilità di questo
‘nuovo’ tipo di dati ha stimolato l’ulteriore sviluppo di strumenti analitici basati sulla Maximum
Likelihood e sull’inferenza bayesiana e sull’impiego di modelli che descrivono l’evoluzione delle
– Pubblicato marzo 2016
sequenze di DNA. Inoltre, in seguito alla cosiddetta rivoluzione filogeografica, innescata dall’impiego di sequenze di DNA mitocondriale, tali strumenti hanno poi esteso la loro applicazione, inizialmente limitata all’inferenza delle relazioni
interspecifiche, allo studio delle relazioni intraspecifiche colmando il gap tra genetica di popolazione
e sistematica.
Fino allo scorso secolo l’inferenza filogenetica e
filogeografica erano spesso basate su un singolo
locus, ad esempio mitocondriale (i cosiddetti gene
trees), o sulla combinazione di pochi loci. Con
l’avvento dei metodi di sequenziamento di nuova
generazione è attualmente possibile generare, con
costi accessibili, milioni di sequenze da diversi loci
del genoma anche per specie non-modello
(SHENDURE, 2008). La filogenesi molecolare si sta
pertanto evolvendo in filogenomica e sono disponibili ormai per diversi gruppi di animali e di piante filogenesi in cui le relazioni tra le specie sono
inferite sulla base di centinaia o anche migliaia di
geni.
Nella prossima sezione verranno brevemente
descritti i metodi di ricostruzione filogenetica basati sulle distanze, sulla parsimonia e sull’approccio
probabilistico, mentre in quella successiva verranno discussi gli approcci di species tree. Infine verrà
presentato un caso di studio filogeografico su insetti coleotteri basato sull’analisi delle sequenze di
DNA.
– 244 –
METODI DI ANALISI FILOGENETICA
La costruzione di un albero filogenetico è un problema statisticamente complesso e la maggior parte
dei metodi, anche con pochi taxa, richiedono calcoli intensivi. Pertanto sono stati sviluppati molti
software che implementano i vari algoritmi e metodi di analisi (una lista abbastanza aggiornata è disponibile al link http://evolution.genetics.washing
ton.edu/phylip/software.html#recent). Così come
per i dati morfologici, il primo step di un’analisi
filogenetica molecolare implica la generazione di
una matrice di caratteri dei taxa studiati. In tal caso
le sequenze di DNA dei vari taxa rappresentano le
‘righe’ della matrice, i quattro nucleotidi rappresentano i possibili stati dei caratteri e quest’ultimi
costituiscono le “colonne” della matrice. I caratteri
molecolari sono pertanto non ambigui e facilmente
riconoscibili. La costruzione di una matrice molecolare viene definita allineamento delle sequenze,
durante il quale si stabilisce l’omologia di posizione dei caratteri molecolari. Gli step analitici successivi dipendono dal metodo di ricostruzione filogenetica che si vuole utilizzare, mentre lo step finale prevede la valutazione del supporto statistico
dell’albero. A tale scopo il metodo di boostrap è
uno dei più utilizzati e si basa sulla generazione di
‘pseudomatrici’ ricampionando (con sostituzione)
le colonne dell’allineamento originale (introdotto
da FELSENSTEIN, 1983). Nei metodi bayesiani la
valutazione del supporto statistico è invece parte
integrante del processo di ricerca degli alberi filogenetici (si veda avanti).
I metodi filogenetici si dividono in due grandi
categorie, quelli basati sull’applicazione di un
algoritmo e quelli basati sulla definizione di un
‘criterio di ottimizzazione’, che è utilizzato per
comparare diversi alberi possibili. Nel primo caso,
l’allineamento viene utilizzato per calcolare una
matrice di distanze genetiche (o di identità) e, attraverso uno specifico algoritmo, ad esempio il
Neighbour-Joining o l’UPGMA, tale matrice viene
rappresentata in uno schema gerarchico, sotto
forma di albero. Sebbene questi metodi siano
molto efficienti (ossia veloci), il loro limite è che
viene prodotto un solo albero e per di più basato su
singoli indici di distanza tra taxa piuttosto che sull’intera informazione presente nelle loro sequenze.
I metodi basati su un criterio di ottimizzazione
utilizzano invece tutti i caratteri presenti nell’allineamento e ‘ordinano’ gli alberi secondo il loro
score, calcolato in base al criterio di ottimizzazione scelto. Tuttavia, anche solo con una dozzina di
taxa, il numero di alberi possibili è così elevato che
non possono essere valutati tutti e si ricorre pertanto a delle ricerche euristiche che utilizzano specifi-
ci algoritmi per esplorare una parte degli alberi
possibili. Tali ricerche, sebbene non garantiscano
di trovare ‘l’albero migliore’, verosimilmente restituiscono degli alberi buoni in tempi ragionevoli.
Il criterio della Massima Parsimonia (MP) stabilisce che l’albero che richiede il minor numero di
cambiamenti è quello che spiega meglio i dati. In
ambito molecolare, l’approccio basato sulla parsimonia, si basa sulla ricerca di un albero che minimizzi il numero di sostituzioni necessarie per spiegare le differenze tra le sequenze dell’allineamento
(FARRIS, 1970). Sebbene la MP sia molto usata con
dataset morfologici, lo è meno con dataset molecolari poiché soffre di inconsistenza statistica e del
fenomeno del long-branch-attraction (FELSENSTEIN, 1978). Tali svantaggi sono accentuati nelle
analisi di dataset con sequenze molto divergenti e
con numero elevato di caratteri (HENDY & PENNY,
1989).
Per il motivo sopra riportato vengono spesso preferiti i metodi basati sulla probabilità, la
Maximum-Likelihood (ML; FELSENSTEIN, 1981) e i
metodi di inferenza bayesiana (BI; ad esempio,
HUELSENBECK & RONQUIST, 2001). Tali approcci
probabilistici richiedono la definizione di un
modello che descriva la probabilità di sostituzione
di ciascun nucleotide in uno degli altri tre nucleotidi possibili. Attualmente sono disponibili decine di
modelli evolutivi, con diverso numero di parametri
e grado di complessità e vi sono specifici strumenti statistici per calcolare quello più appropriato per
ciascun dataset (POSADA & CRANDALL, 1998).
L’approccio di ML si basa sulla ricerca dell’albero
con la più alta probabilità di originare le sequenze
osservate secondo uno specifico modello di sostituzione nucleotidica; detto in altre parole, l’albero
che ‘massimizza la verosimiglianza delle sequenze
osservate’. È un metodo molto intensivo perché per
ciascuna topologia vengono calcolate le likelihood
di ciascun sito dell’allineamento. L’approccio
bayesiano si basa su un modello probabilistico
complesso in cui ogni parametro ha una distribuzione di probabilità a priori associata ai valori che
può assumere e che viene moltiplicata alla funzione di likelihood per ottenere la sua probabilità a
posteriori. Quindi nell’analisi filogenetica bayesiana viene stimata la probabilità di un’ipotesi (albero) di essere corretta, date le sequenze osservate,
una serie di parametri del modello e delle probabilità a priori dei vari parametri. Uno dei punti di
forza dell’analisi bayesiana riguarda la capacità di
esplorare lo spazio degli alberi possibili utilizzando il metodo Monte Carlo basato sulle Catene di
Markov (MCMC). Questo metodo analitico permette di stimare le distribuzioni di probabilità a
posteriori dei vari parametri del modello, inclusa la
– 245 –
topologia dell’albero. Attraverso un meccanismo
iterativo, partendo da una configurazione di stati
iniziale dei parametri del modello, ad ogni generazione viene modificato uno stato di un parametro.
Tra i vari cambiamenti di stati possibili viene di
volta in volta scelto preferenzialmente quello che
determina un incremento della probabilità a posteriori associata al modello e ad ogni generazione
verranno registrati i valori dei parametri del modello. Pertanto, dopo un numero elevato di generazioni, la catena campionerà configurazioni del modello ad elevata probabilità e cioè alberi molto buoni.
Un certo numero di migliaia di questi alberi campionati nelle ultime generazioni verranno utilizzati
per calcolare un albero ‘riassuntivo’, l’albero di
massima credibilità, e per calcolare quante volte
ciascun nodo è rappresentato in questi alberi.
Questa misura ci fornisce la probabilità a posteriori dei nodi dell’albero: la ricerca degli alberi
migliori e la stima del loro supporto statistico sono
pertanto il risultato della ricerca bayesiana.
Sebbene all’approccio bayesiano sia talvolta criticato l’uso ‘soggettivo’ delle probabilità a priori,
che non si basano sui dati e la cui scelta potrebbe
determinare i risultati, ci sono molti metodi per
testare se i risultati ottenuti siano impartiti dai dati
o semplicemente dalla nostra conoscenza (o ignoranza) a priori. D’altro canto la potenza statistica
della ricerca degli alberi e la possibilità di implementare modelli molto complessi, quali gli orologi
molecolari, l’età dei fossili, i modelli di coalescenza e di speciazione e cosi via, rendono l’approccio
bayesiano un metodo estremamente versatile per la
risoluzione di analisi filogenetiche complesse utilizzando tutte le informazioni disponibili.
NUOVI APPROCCI BASATI SUGLI SPECIES TREE
Fino ad una decade fa gli approcci sopra descritti
venivano utilizzati per stimare alberi filogenetici
basati sulle sequenze di un singolo gene, il cosiddetto gene tree (albero del gene), assumendo che
questo fosse un’adeguata rappresentazione dei
rapporti di discendenza delle varie specie che erano
state sequenziate per quel gene. Nel caso fossero disponibili più geni, per calcolare un albero filogenetico si costruiva una matrice unica concatenando i
singoli allineamenti in una super-matrice. L’inferenza
filogenetica in tali casi è basata su loci multipli, ma
sovente i loci più variabili hanno un peso maggiore
nel determinare l’albero risultante rispetto ai loci
aventi un minor numero di caratteri informativi.
Tuttavia è ormai ben dimostrato che non ci sono
ragioni per credere che l’albero del gene corrisponda
all’albero delle specie, lo species tree (DEGNAN &
ROSENBERG, 2009). Diversi processi tra i quali il mantenimento di polimorfismo ancestrale o incomplete
lineage sorting, trasferimenti genici orizzontali,
duplicazione genica e ibridazione fanno sì che i gene
trees siano diversi dal ‘vero’ species tree. Tale discrepanza, come se non bastasse, è più una regola che
un’eccezione. Studi teorici basati su simulazioni
hanno mostrato che anche per il semplice processo
stocastico di assortimento genico lungo le generazioni, in assenza degli altri processi sopramenzionati, ci dobbiamo aspettare che i gene trees più probabili
non siano di fatto corrispondenti al vero species tree,
anche in casi semplici che includano appena cinque
taxa (con un effetto maggiore all’aumentare di questi;
DEGNAN & ROSENBERG, 2009). Contestualmente sono
stati sviluppati nuovi strumenti analitici per l’inferenza degli species tree a partire dai dati dei singoli
geni. Piuttosto che attraverso la concatenazione, ciascun albero del gene viene inferito in modo indipendente dagli altri e l’informazione degli alberi dei
geni viene combinata in un albero delle specie seguendo
un criterio o un modello specifico. Anche in questo
caso ci sono diversi metodi per costruire species tree,
alcuni basati sulla distanza, altri basati sulla parsimonia e altri su modelli probabilistici attraverso
approcci di ML o BI (KNOWLES & KUBATKO, 2010).
Negli approcci di MP, ad esempio, si ricercano
species tree che minimizzano i pattern di polimorfismo ancestrale per spiegare i gene trees osservati. Negli approcci probabilistici, di ML o BI, invece
vengono implementati modelli di speciazione e di
coalescenza (KINGMAN,1982) per calcolare la probabilità degli species tree sulla base dei gene trees
osservati. Alcuni di questi metodi stimano lo species
tree partendo dalle sequenze dei singoli geni (in tali
casi gene trees e species tree sono co-stimati; ad
es. H ELED & D RUMMOND , 2010), oppure dai singoli gene trees assumendo che questi siano corretti. L’utilizzo degli species tree ha permesso di
rivalutare la filogenesi di molti organismi e di ottenere stime temporali più accurate per i relativi processi di speciazione, soprattutto quando questi sono
basati su un numero elevato (centinaia) di loci campionati nel genoma, come è ormai possibile grazie
alle tecniche di Next Generation Sequencing. L’analisi
filogenetica si sta pertanto evolvendo da un’inferenza basata su un singolo o pochi geni verso un
approccio genomico che utilizza milioni di sequenze
di centinaia o migliaia di geni, e modelli teorici complessi, per inferire l’albero evolutivo degli organismi.
FILOGEOGRAFIA: UN CASO DI STUDIO
Come menzionato nell’introduzione, i metodi
filogenetici possono essere applicati anche a livello intraspecifico, per ricostruire la storia evolutiva
– 246 –
di gruppi di popolazioni della medesima specie. La
filogeografia (AVISE, 2000) impiega le genealogie
dei singoli geni (sequenziati in diverse popolazioni
lungo l’areale di una specie) e l’analisi della distribuzione geografica delle linee filetiche, per inferire il ruolo di processi microevolutivi quali la divergenza allopatrica, contatto secondario, processi di
espansione o contrazione demografica, nella formazione ed evoluzione delle linee filetiche intraspecifiche. In una prima fase, fino agli anni novanta, gli studi filogeografici hanno impiegato principalmente sequenze di DNA mitocondriale. Il vantaggio del DNA mitocondriale risiede nell’alta
variabilità di queste sequenze e nel loro semplice
meccanismo di trasmissione ereditaria negli animali (in singola copia, aploide, e per via matrilineare),
che garantisce da un lato la disponibilità di molti
caratteri informativi per la ricostruzione filogenetica, dall’altro un meccanismo di trasmissione verticale semplificato lungo le generazioni, privo di
ricombinazione. Così come per gli studi filogenetici interspecifici, anche per la filogeografia le inferenze basate su un singolo locus (mitocondriale)
sono state presto rimpiazzate da inferenze multilocus, nelle quali i processi di ricombinazione e
segregazione dei genomi nucleari diploidi vengono
tenuti conto nel corso nelle analisi. L’impiego di
molti loci, l’analisi dei pattern di variazione
nucleare e mitocondriale e l’impiego dei modelli di
coalescenza hanno permesso di inferire scenari
evolutivi complessi, di ricostruire con accuratezza
i trend demografici storici (a partire da centinaia di
migliaia di anni fa) e i pattern spaziali e temporali
dei processi evolutivi e biogeografici.
Per fornire un esempio di come l’analisi filogenetica delle sequenze di DNA in ambito intraspecifico (filogeografico) possa essere utile a ricostruire
uno scenario biogegrafico ed evolutivo, vengono di
seguito riportati i risultati preliminari di uno studio
su coleotteri Meloidi, condotto assieme ai colleghi
dell’Università degli studi Roma Tre e presentato
al Congresso della Unione Zoologica Italiana tenutosi a Viterbo (RICCIERI et al. 2015).
Filogeografia di coleotteri Meloidi
a distribuzione siculo-magrebina: vicarianza
o dispersione attraverso il Canale di Sicilia?
Molte specie animali mostrano un pattern di distribuzione Mediterraneo-occidentale che include il
nord Africa e la Sicilia. Questo modello di distribuzione disgiunta siculo-magrebina ha da sempre
affascinato i biogeografi, poiché queste due regioni sono separate dalle acque del Canale di Sicilia
da oltre cinque milioni di anni. L’ultima connessione territoriale tra Sicilia e nord Africa risale infatti
al Miocene, durante la cosiddetta Crisi di Salinità
del Messiniano (DUGGEN et al., 2003). Questa fase,
secondo accurate stime geologiche, si è conclusa
5,33 milioni di anni fa, in seguito alla riapertura
dello Stretto di Gibilterra e all’afflusso di acque
dall’Atlantico al Mediterraneo. Quindi a partire dal
Pliocene, un braccio di mare ha mantenuto la
Sicilia isolata dalle coste nordafricane e, sebbene
nel corso delle glaciazioni Pleistoceniche l’abbassamento globale del livello marino abbia ripetutamente ‘riavvicinato’ la Sicilia alle coste tunisine,
queste terre non sono mai state connesse tra loro di
nuovo.
Sulla base di questi scenari paleogeografici, possiamo avanzare due ipotesi zoogeografiche per
spiegare l’areale disgiunto delle specie siculomagrebine: (i) un’origine per vicarianza, postulando un areale pre-Pliocenico continuo di queste specie, e la sua successiva frammentazione all’inizio
del Pliocene in seguito alla formazione del Canale
di Sicilia; (ii) un’origine più recente per dispersione attraverso il Canale di Sicilia, verosimilmente
durante i periodi glaciali pleistocenici quando l’estensione di questo braccio di mare tra la Sicilia e
il nord Africa era sensibilmente ridotta a causa
delle regressioni marine. Queste due ipotesi ci permettono di fare delle predizioni sul pattern filogeografico delle specie in esame: secondo uno scenario di antica (pliocenica) vicarianza, ci aspettiamo
un elevato differenziamento tra le popolazioni nord
africane e quelle siciliane, mentre secondo un’ipotesi di recente (tardo pleistocenica) colonizzazione
della Sicilia per dispersione dalla Tunisia (o viceversa) è lecito aspettarsi una ridotta distanza genetica tra le popolazioni presenti ad entrambi i lati del
canale di Sicilia, con una preponderante porzione
della variabilità genetica condivisa tra loro. Infine,
un pattern complesso di copresenza di linee filetiche divergenti con alcuni aplotipi derivati condivisi tra le due aree, suggerirebbe che entrambi i processi, vicarianza e dispersione, abbiano giocato un
ruolo nei pattern di distribuzione e diversità dei
taxa siculo-magrebini.
Per dirimere queste ipotesi, abbiamo studiato la
distribuzione geografica della variabilità genetica
in due specie di coleotteri Meloidi, della sottofamiglia Meloinae: Mylabris schreibersi Reiche, 1866
(tribù Mylabrini), appartenente ad un genere
Palaeartico molto ricco di specie, e Cabalia segetum (FABRICIUS, 1792) (tribù Lyttini) appartenente
ad un piccolo genere Afrotropicale distribuito in
Africa orientale, penisola Arabica e Sahara, con C.
segetum esclusiva di Magreb e Sicilia (Bologna,
1991). Entrambe le specie sono associate tipicamente ad habitat di tipo mediterraneo e sono distribuite con continuità dal Marocco alla Tunisia e
quindi in Sicilia.
– 247 –
Per questo studio preliminare, sono state campionate 16 popolazioni siciliane e 24 magrebine
(Marocco e Tunisia) di entrambe le specie (Figura 1)
e sono stati sequenziati circa 20-40 individui per
specie per due geni, uno mitocondriale (cytochrome
oxidase subunit I, COI) ed uno nucleare (rudimentary gene, carbamoylphosphate synthetase domain,
CAD).
Successivamente alla raccolta e all’identificazione morfologica, ciascun esemplare è stato conservato in alcol puro (EtOH 100%). L’estrazione del
DNA genomico è stata eseguita attraverso un protocollo di precipitazione salina e l’amplificazione
dei geni target è stata eseguita mediante la tecnica
di polimerizzazione a catena (PCR) seguendo il
protocollo descritto in KETMAIER et al. (2011) e
WILD & MADDISON (2008). Il sequenziamento è
stato effettuato nei laboratori di Macrogen
(Olanda).
Le sequenze ottenute sono state allineate in
ClustalW (THOMPSON et al., 1994) e per ciascuna
regione sono stati calcolati degli indici di diversità
genetica in DNAsp 5.10 (LIBRADO & ROZAS, 2009)
e di distanza genetica in MEGA5 (TAMURA et al.,
2011). Le relazioni filogenetiche tra gli aplotipi
osservati per ciascun gene sono state inferite con il
software NETWORK 4.6 (Fluxus Technology,
http://www.fluxus-engineering.com/sharenet.htm)
applicando il metodo Median-Joining. I network
filogenetici sono preferibili agli alberi per stimare
relazioni filogenetiche intraspecifiche poiché
meglio si adattano all’evoluzione recente di gruppi
non isolati riproduttivamente: infatti permettono un
pattern reticolato di relazioni (e non strettamente
dicotomico), la co-presenza di aplotipi ancestrali e
derivati e garantiscono un’alta risoluzione anche
con numero ridotto di caratteri filogenetici
(POSADA & CRANDALL, 2003).
In entrambe le specie è stata osservata un’elevata
variabilità genetica al locus nucleare CAD (C. segetum: N = 33; ‘haplotype diversity’ Hd = 0,76;
‘nucleotide diversity’ π = 0,004; M. schreibersi: N =
36; Hd = 0,93; π = 0,014). La maggior parte di questa variabilità genetica è distribuita nelle popolazioni del Magreb, sia per quanto riguarda la diversità
nucleotidica (per entrambe le specie Hd ≈ 0,95), sia
per quanto riguardo quella aplotipica (C. segetum e
M. schreibersi: 15 e 20 aplotipi, rispettivamente,
osservati in Magreb). Nelle popolazioni siciliane di
entrambe le specie, invece, è stata osservata una
variabilità genetica comparativamente inferiore (C.
segetum: Hd = 0,06; 2 aplotipi; M. schreibersi: Hd =
0,78; 6 aplotipi) (Figura 2). Nessuno degli aplotipi
osservati a questo locus è condiviso tra le popolazioni della Sicilia e del Magreb e per entrambe le
specie si osserva un significativo differenziamento
genetico tra i due gruppi di popolazioni (FST Sicilia
vs. Magreb = 0,51-0,58). L’analisi delle sequenze
del locus mitocondriale COI in C. segetum mostrano un pattern congruente con quello osservato al
CAD (Figura 2) con un’alta variabilità genetica nel
Magreb (Magreb Hd = 0,70; Sicilia Hd = 0,12) e una
significativa divergenza genetica tra popolazioni
magrebine e siciliane, con ben 10 mutazioni diagnostiche fissate (FST Sicilia vs. Magreb = 0,95). Lo
stesso possiamo dedurre dalle analisi preliminari
Fig. 1
Distribuzione delle popolazioni studiate di Mylabris schreibersi e Cabalia segetum in Marocco, Tunisia e Sicilia.
– 248 –
Fig. 2
Network filogenetici degli aplotipi osservati al locus nucleare CAD in M. schreibersi e C. segetum e al locus mitocondriale
COI in C. segetum. Gli aplotipi sono rappresentati da cerchi, la cui dimensione è proporzionale alla loro frequenza in ciascuna specie, colorati in base alla loro distribuzione geografica. Le relazioni geneaologiche sono rappresentate dalle linee che connettono gli aplotipi ed i numeri rappresentano il numero di sostituzioni nucleotidiche osservate in ciascuna connessione.
delle sequenze di COI di M. schreibersi (in prep.). A
parte la netta divergenza tra Sicilia e Magreb, non si
osserva una struttura geografica della variazione
genetica all’interno di queste due regioni per le due
specie.
Il pattern filogeografico osservato in C. segetum
e M. schreibersi è congruente con un’ipotesi di antico
isolamento geografico e genetico tra le popolazioni
magrebine e quelle siciliane. Ad entrambi i loci analizzati questi due gruppi di popolazioni mostrano una
divergenza genetica significativa e un pattern di reciproca monofilia degli aplotipi (Figura 2). Tenendo
conto del tasso di sostituzione nucleotidica osservato
in altri coleotteri per geni mitocondriali (ad esempio
SU et al., 1996) possiamo stimare che la distanza genetica osservata tra popolazioni magrebine e siciliane
si sia accumulata nel corso di diversi milioni di anni,
rendendo plausibile uno scenario di divergenza allopatrica pliocenica. In particolare la monofilia delle
popolazioni siciliane di entrambe le specie al locus
nucleare CAD e l’assenza di aplotipi condivisi con il
Magreb, suggerisce che le popolazioni siciliane siano
state isolate riproduttivamente dai conspecifici magrebini per un tempo sufficiente all’accumulo di divergenza e alla completa separazione delle genealogie
aplotipiche. Pertanto l’ipotesi che le popolazioni siciliane di C. segetum e M. schreibersi rappresentino in
realtà specie distinte, ma morfologicamente indistinguibili, merita ulteriori approfondimenti.
Per quanto riguarda la minore variabilità genetica
delle popolazioni siciliane rispetto a quelle magrebine possiamo ipotizzare che questo pattern sia dovuto
ad un maggior effetto delle oscillazioni climatiche
pleistoceniche in Sicilia piuttosto che in Magreb.
Secondo tale ipotesi le popolazioni siciliane sarebbero state isolate tra loro e contratte in aree rifugio
durante i periodi glaciali, con conseguente riduzione
(estinzione) di variabilità genetica, mentre durante
lo stesso periodo la continuità degli habitat mediterranei nel Magreb (LA GRECA, 2002) avrebbe garantito il mantenimento di ampie e stabili popolazioni
e quindi di una maggiore diversità genetica. La
condivisione di aplotipi tra le popolazioni marocchine
e tunisine di M. schreibersi supporterebbe ulteriormente questo scenario. L’ampliamento del dataset
mitocondriale e l’applicazione di analisi multi-locus
di demografia storica potrebbero essere utili a testare
questa ipotesi.
In conclusione, il caso di studio riportato, sebbene
con risultati ancora preliminari, illustra un’applicazione dell’analisi delle sequenze di DNA per ricostruire le relazioni filogenetiche tra taxa e per inferire
i processi evolutivi e biogeografici che le hanno determinate.
– 249 –
RINGRAZIAMENTI
Desidero esprimere la mia gratitudine a Maurizio
Biondi (Università degli Studi dell'Aquila) per
avermi invitato alla Tavola Rotonda e ai colleghi
Marco A. Bologna, Emiliano Mancini, Michela
Maura e Alessandra Riccieri (Università degli
Studi Roma Tre) per aver messo a disposizione i
risultati preliminari della ricerca presentata come
caso di studio.
BIBLIOGRAFIA
Avise J.C, 2000 – Phylogeography: the history and formation of the species. University Press, Harvard.
BOLOGNA M.A., 1991 – Coleoptera Meloidae. Fauna
d’Italia. XXVIII. Calderini, Bologna.
DEGNAN J.H., ROSENBERG N.A., 2009 – Gene tree discordance, phylogenetic inference and the multispecies coalescent. - Trends in Ecology and Evolution, 24: 332-340.
DUGGEN S., HOERNLE K., BOGAARD P. VAN DEN, RÜPKE L.,
PHIPPS MORGAN J., 2003 – Deep roots of the Messinian
salinity crisis. - Nature, 422: 602- 606.
FARRIS, J.S., 1970 – Methods for computing Wagner trees.
- Systematic Zoology, 18: 374–385.
FELSENSTEIN J., 1978 – Cases in which parsimony or compatibility methods will be positively misleading. Systematic Zoology, 27: 401-410.
FELSENSTEIN, J., 1981 – Evolutionary trees from DNA
sequences: a maximum likelihood approach. - J.
Molecular Evolution, 17: 368–376.
FELSENSTEIN J., 1983 – Statistical inference of phylogenies
(with discussion). - Journal of the Royal Statistical
Society. Series A, 146: 246–272.
HELED J., DRUMMOND A.J., 2010 – Bayesian Inference of
Species Trees from Multilocus Data. - Molecular Biology
and Evolution, 27: 570-580.
HENDY M.D., PENNY D., 1989 – A framework for the quantitative study of evolutionary trees. - Systematic Zoology,
38: 297-309.
HUELSENBECK, J.P., RONQUIST F., 2001 – MrBayes:
Bayesian inference of phylogeny. - Bioinformatics,
17:754–755.
KETMAIER V., COBOLLI M., BOLOGNA M.A., 2011 –
Strutturazione genetica e filogeografia di specie del
genere Mylabris (Coleoptera, Meloidae) negli Appennini
Centrali. - Biogeographia, 27: 421-437.
KINGMAN J., 1982 – The coalescent. - Stochastic Processes
and Their Applications, 13: 235-248.
KNOWLES L.L., KUBATKO L.S., 2010 – Estimating Species
Trees: Practical and Theoretical Aspects. WileyBlackwell.
LA GRECA M., 2002 – Vicende paleogeografiche e componenti della fauna italiana. In: AA.VV., La Fauna in Italia.
Touring Club Italiano, Milano, pp. 360-376.
LIBRADO P., ROZAS J., 2009 – DnaSP v5: a software for
comprehensive analysis of DNA polymorphism data. Bioinformatics, 25: 1451-1452.
POSADA D., CRANDALL K.A., 2001 – Intraspecific gene
genealogies: trees grafting into networks. - Trends in
Ecology and Evolution, 6: 37-45.
POSADA D., CRANDALL K.A., 1998 – MODELTEST: testing
the model of DNA substitution. - Bioinformatics, 14:817818.
RICCIERI A., MAURA M., SALVI D., BOLOGNA M. A.,
MANCINI E., 2015 – Investigating the SicilianMaghrebian biogeographic pattern in blister beetles
(Coleoptera, Meloidae). - 76° Congresso della Unione
Zoologica Italiana, Viterbo, 15-18 Settembre 2015.
(Poster: Premio UZI ‘Giovani Ricercatori’).
SHENDURE J., JI H., 2008 – Next-generation DNA sequencing. - Nat Biotech.,26: 1135-1145
SU Z.H., OHAMA T., OKADA T. S., NAKAMURA K., ISHIKAWA
R., OSAWA S., 1996 – Geography-linked phylogeny of the
Damaster ground beetles inferred from mitochondrial
ND5 gene sequences. - Journal of Molecular Evolution,
42:130-134.
TAMURA K., PETERSON D., PETERSON N., STECHER G., NEI
M., KUMAR S., 2011 – MEGA5: molecular evolutionary
genetics analysis using maximum likelihood, evolutionary distance, and maximum parsimony methods. Molecular Biology and Evolution, 28: 2731-2739.
THOMPSON J.D., HIGGINS D.G., GIBSON T.J., 1994 –
CLUSTAL W: improving the sensitivity of progressive
multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix
choice. - Nucleic Acids Research, 22: 4673-4680.
WILD A.L., MADDISON D.R., 2008 – Evaluating nuclear
protein-coding genes for phylogenetic utility in beetles. Molecular Phylogenetics and Evolution, 48: 877-891.