Atti Accademia Nazionale Italiana di Entomologia Anno LXIII, 2015: 243-249 ANALISI STATISTICA DELLE SEQUENZE DI DNA NELLA RICOSTRUZIONE FILOGENETICA E FILOGEOGRAFICA: APPLICAZIONI NELLA RICERCA ENTOMOLOGICA DANIELE SALVI (*) (*) CIBIO-InBio, Centro de Investigação em Biodiversidade e Recursos Genéticos (Universidade do Porto), Campus Agrário de Vairão, Rua Padre Armando Quintas, 4485-661 Vairão (Portugal); email:[email protected] Lettura tenuta durante la Tavola Rotonda “La statistica nella ricerca entomologica: dall’analisi inferenziale ai modelli previsionali”. Seduta pubblica dell’Accademia - Firenze, 13 novembre 2015. Statistical analysis of DNA sequences for phylogenetic and phylogeographic inference with a case study in entomology A short synthesis of phylogenetic methods based on DNA sequence data is provided. Traditional methods based on distances or parsimony are compared with probabilistic approaches based on Maximum-Likelihood and Bayesian inference. Finally, the benefit of recent applications of coalescent models in phylogenetics (species tree) and phylogeography is discussed, including an example on insects’ biogeography and evolution. KEY WORDS: DNA sequences data; molecular phylogenetics; phylogeography, species tree. INTRODUZIONE Uno dei primi alberi filogenetici fu disegnato dallo stesso Darwin per rappresentare l’evoluzione degli organismi a partire da un progenitore comune (la radice) attraverso diverse linee di discendenza (i rami), con una successione di antenati comuni (le ramificazioni interne o nodi), fino ad arrivare alle ramificazioni terminali delle specie attuali. La ricostruzione di tali relazioni filogenetiche è un aspetto chiave nello studio della biodiversità poiché fornisce un’ipotesi testabile sulla storia evolutiva delle forme viventi e uno schema per la loro classificazione in gruppi tassonomici gerarchici. Tali gruppi, secondo il principio della sistematica cladistica ed evolutiva, dovrebbero includere ciascuno una singola sezione dell’albero filogenetico ed essere così costituiti da tutti i taxa aventi discendenza da un comune antenato (gruppi monofiletici). Storicamente, i primi approcci filogenetici hanno utilizzato caratteri morfologici per inferire i rapporti di discendenza tra le specie. A partire dagli anni ottanta, con lo sviluppo delle tecniche di amplificazione e sequenziamento del DNA, l’impiego di sequenze nucleotidiche ha rivoluzionato il campo della filogenesi. La disponibilità di questo ‘nuovo’ tipo di dati ha stimolato l’ulteriore sviluppo di strumenti analitici basati sulla Maximum Likelihood e sull’inferenza bayesiana e sull’impiego di modelli che descrivono l’evoluzione delle – Pubblicato marzo 2016 sequenze di DNA. Inoltre, in seguito alla cosiddetta rivoluzione filogeografica, innescata dall’impiego di sequenze di DNA mitocondriale, tali strumenti hanno poi esteso la loro applicazione, inizialmente limitata all’inferenza delle relazioni interspecifiche, allo studio delle relazioni intraspecifiche colmando il gap tra genetica di popolazione e sistematica. Fino allo scorso secolo l’inferenza filogenetica e filogeografica erano spesso basate su un singolo locus, ad esempio mitocondriale (i cosiddetti gene trees), o sulla combinazione di pochi loci. Con l’avvento dei metodi di sequenziamento di nuova generazione è attualmente possibile generare, con costi accessibili, milioni di sequenze da diversi loci del genoma anche per specie non-modello (SHENDURE, 2008). La filogenesi molecolare si sta pertanto evolvendo in filogenomica e sono disponibili ormai per diversi gruppi di animali e di piante filogenesi in cui le relazioni tra le specie sono inferite sulla base di centinaia o anche migliaia di geni. Nella prossima sezione verranno brevemente descritti i metodi di ricostruzione filogenetica basati sulle distanze, sulla parsimonia e sull’approccio probabilistico, mentre in quella successiva verranno discussi gli approcci di species tree. Infine verrà presentato un caso di studio filogeografico su insetti coleotteri basato sull’analisi delle sequenze di DNA. – 244 – METODI DI ANALISI FILOGENETICA La costruzione di un albero filogenetico è un problema statisticamente complesso e la maggior parte dei metodi, anche con pochi taxa, richiedono calcoli intensivi. Pertanto sono stati sviluppati molti software che implementano i vari algoritmi e metodi di analisi (una lista abbastanza aggiornata è disponibile al link http://evolution.genetics.washing ton.edu/phylip/software.html#recent). Così come per i dati morfologici, il primo step di un’analisi filogenetica molecolare implica la generazione di una matrice di caratteri dei taxa studiati. In tal caso le sequenze di DNA dei vari taxa rappresentano le ‘righe’ della matrice, i quattro nucleotidi rappresentano i possibili stati dei caratteri e quest’ultimi costituiscono le “colonne” della matrice. I caratteri molecolari sono pertanto non ambigui e facilmente riconoscibili. La costruzione di una matrice molecolare viene definita allineamento delle sequenze, durante il quale si stabilisce l’omologia di posizione dei caratteri molecolari. Gli step analitici successivi dipendono dal metodo di ricostruzione filogenetica che si vuole utilizzare, mentre lo step finale prevede la valutazione del supporto statistico dell’albero. A tale scopo il metodo di boostrap è uno dei più utilizzati e si basa sulla generazione di ‘pseudomatrici’ ricampionando (con sostituzione) le colonne dell’allineamento originale (introdotto da FELSENSTEIN, 1983). Nei metodi bayesiani la valutazione del supporto statistico è invece parte integrante del processo di ricerca degli alberi filogenetici (si veda avanti). I metodi filogenetici si dividono in due grandi categorie, quelli basati sull’applicazione di un algoritmo e quelli basati sulla definizione di un ‘criterio di ottimizzazione’, che è utilizzato per comparare diversi alberi possibili. Nel primo caso, l’allineamento viene utilizzato per calcolare una matrice di distanze genetiche (o di identità) e, attraverso uno specifico algoritmo, ad esempio il Neighbour-Joining o l’UPGMA, tale matrice viene rappresentata in uno schema gerarchico, sotto forma di albero. Sebbene questi metodi siano molto efficienti (ossia veloci), il loro limite è che viene prodotto un solo albero e per di più basato su singoli indici di distanza tra taxa piuttosto che sull’intera informazione presente nelle loro sequenze. I metodi basati su un criterio di ottimizzazione utilizzano invece tutti i caratteri presenti nell’allineamento e ‘ordinano’ gli alberi secondo il loro score, calcolato in base al criterio di ottimizzazione scelto. Tuttavia, anche solo con una dozzina di taxa, il numero di alberi possibili è così elevato che non possono essere valutati tutti e si ricorre pertanto a delle ricerche euristiche che utilizzano specifi- ci algoritmi per esplorare una parte degli alberi possibili. Tali ricerche, sebbene non garantiscano di trovare ‘l’albero migliore’, verosimilmente restituiscono degli alberi buoni in tempi ragionevoli. Il criterio della Massima Parsimonia (MP) stabilisce che l’albero che richiede il minor numero di cambiamenti è quello che spiega meglio i dati. In ambito molecolare, l’approccio basato sulla parsimonia, si basa sulla ricerca di un albero che minimizzi il numero di sostituzioni necessarie per spiegare le differenze tra le sequenze dell’allineamento (FARRIS, 1970). Sebbene la MP sia molto usata con dataset morfologici, lo è meno con dataset molecolari poiché soffre di inconsistenza statistica e del fenomeno del long-branch-attraction (FELSENSTEIN, 1978). Tali svantaggi sono accentuati nelle analisi di dataset con sequenze molto divergenti e con numero elevato di caratteri (HENDY & PENNY, 1989). Per il motivo sopra riportato vengono spesso preferiti i metodi basati sulla probabilità, la Maximum-Likelihood (ML; FELSENSTEIN, 1981) e i metodi di inferenza bayesiana (BI; ad esempio, HUELSENBECK & RONQUIST, 2001). Tali approcci probabilistici richiedono la definizione di un modello che descriva la probabilità di sostituzione di ciascun nucleotide in uno degli altri tre nucleotidi possibili. Attualmente sono disponibili decine di modelli evolutivi, con diverso numero di parametri e grado di complessità e vi sono specifici strumenti statistici per calcolare quello più appropriato per ciascun dataset (POSADA & CRANDALL, 1998). L’approccio di ML si basa sulla ricerca dell’albero con la più alta probabilità di originare le sequenze osservate secondo uno specifico modello di sostituzione nucleotidica; detto in altre parole, l’albero che ‘massimizza la verosimiglianza delle sequenze osservate’. È un metodo molto intensivo perché per ciascuna topologia vengono calcolate le likelihood di ciascun sito dell’allineamento. L’approccio bayesiano si basa su un modello probabilistico complesso in cui ogni parametro ha una distribuzione di probabilità a priori associata ai valori che può assumere e che viene moltiplicata alla funzione di likelihood per ottenere la sua probabilità a posteriori. Quindi nell’analisi filogenetica bayesiana viene stimata la probabilità di un’ipotesi (albero) di essere corretta, date le sequenze osservate, una serie di parametri del modello e delle probabilità a priori dei vari parametri. Uno dei punti di forza dell’analisi bayesiana riguarda la capacità di esplorare lo spazio degli alberi possibili utilizzando il metodo Monte Carlo basato sulle Catene di Markov (MCMC). Questo metodo analitico permette di stimare le distribuzioni di probabilità a posteriori dei vari parametri del modello, inclusa la – 245 – topologia dell’albero. Attraverso un meccanismo iterativo, partendo da una configurazione di stati iniziale dei parametri del modello, ad ogni generazione viene modificato uno stato di un parametro. Tra i vari cambiamenti di stati possibili viene di volta in volta scelto preferenzialmente quello che determina un incremento della probabilità a posteriori associata al modello e ad ogni generazione verranno registrati i valori dei parametri del modello. Pertanto, dopo un numero elevato di generazioni, la catena campionerà configurazioni del modello ad elevata probabilità e cioè alberi molto buoni. Un certo numero di migliaia di questi alberi campionati nelle ultime generazioni verranno utilizzati per calcolare un albero ‘riassuntivo’, l’albero di massima credibilità, e per calcolare quante volte ciascun nodo è rappresentato in questi alberi. Questa misura ci fornisce la probabilità a posteriori dei nodi dell’albero: la ricerca degli alberi migliori e la stima del loro supporto statistico sono pertanto il risultato della ricerca bayesiana. Sebbene all’approccio bayesiano sia talvolta criticato l’uso ‘soggettivo’ delle probabilità a priori, che non si basano sui dati e la cui scelta potrebbe determinare i risultati, ci sono molti metodi per testare se i risultati ottenuti siano impartiti dai dati o semplicemente dalla nostra conoscenza (o ignoranza) a priori. D’altro canto la potenza statistica della ricerca degli alberi e la possibilità di implementare modelli molto complessi, quali gli orologi molecolari, l’età dei fossili, i modelli di coalescenza e di speciazione e cosi via, rendono l’approccio bayesiano un metodo estremamente versatile per la risoluzione di analisi filogenetiche complesse utilizzando tutte le informazioni disponibili. NUOVI APPROCCI BASATI SUGLI SPECIES TREE Fino ad una decade fa gli approcci sopra descritti venivano utilizzati per stimare alberi filogenetici basati sulle sequenze di un singolo gene, il cosiddetto gene tree (albero del gene), assumendo che questo fosse un’adeguata rappresentazione dei rapporti di discendenza delle varie specie che erano state sequenziate per quel gene. Nel caso fossero disponibili più geni, per calcolare un albero filogenetico si costruiva una matrice unica concatenando i singoli allineamenti in una super-matrice. L’inferenza filogenetica in tali casi è basata su loci multipli, ma sovente i loci più variabili hanno un peso maggiore nel determinare l’albero risultante rispetto ai loci aventi un minor numero di caratteri informativi. Tuttavia è ormai ben dimostrato che non ci sono ragioni per credere che l’albero del gene corrisponda all’albero delle specie, lo species tree (DEGNAN & ROSENBERG, 2009). Diversi processi tra i quali il mantenimento di polimorfismo ancestrale o incomplete lineage sorting, trasferimenti genici orizzontali, duplicazione genica e ibridazione fanno sì che i gene trees siano diversi dal ‘vero’ species tree. Tale discrepanza, come se non bastasse, è più una regola che un’eccezione. Studi teorici basati su simulazioni hanno mostrato che anche per il semplice processo stocastico di assortimento genico lungo le generazioni, in assenza degli altri processi sopramenzionati, ci dobbiamo aspettare che i gene trees più probabili non siano di fatto corrispondenti al vero species tree, anche in casi semplici che includano appena cinque taxa (con un effetto maggiore all’aumentare di questi; DEGNAN & ROSENBERG, 2009). Contestualmente sono stati sviluppati nuovi strumenti analitici per l’inferenza degli species tree a partire dai dati dei singoli geni. Piuttosto che attraverso la concatenazione, ciascun albero del gene viene inferito in modo indipendente dagli altri e l’informazione degli alberi dei geni viene combinata in un albero delle specie seguendo un criterio o un modello specifico. Anche in questo caso ci sono diversi metodi per costruire species tree, alcuni basati sulla distanza, altri basati sulla parsimonia e altri su modelli probabilistici attraverso approcci di ML o BI (KNOWLES & KUBATKO, 2010). Negli approcci di MP, ad esempio, si ricercano species tree che minimizzano i pattern di polimorfismo ancestrale per spiegare i gene trees osservati. Negli approcci probabilistici, di ML o BI, invece vengono implementati modelli di speciazione e di coalescenza (KINGMAN,1982) per calcolare la probabilità degli species tree sulla base dei gene trees osservati. Alcuni di questi metodi stimano lo species tree partendo dalle sequenze dei singoli geni (in tali casi gene trees e species tree sono co-stimati; ad es. H ELED & D RUMMOND , 2010), oppure dai singoli gene trees assumendo che questi siano corretti. L’utilizzo degli species tree ha permesso di rivalutare la filogenesi di molti organismi e di ottenere stime temporali più accurate per i relativi processi di speciazione, soprattutto quando questi sono basati su un numero elevato (centinaia) di loci campionati nel genoma, come è ormai possibile grazie alle tecniche di Next Generation Sequencing. L’analisi filogenetica si sta pertanto evolvendo da un’inferenza basata su un singolo o pochi geni verso un approccio genomico che utilizza milioni di sequenze di centinaia o migliaia di geni, e modelli teorici complessi, per inferire l’albero evolutivo degli organismi. FILOGEOGRAFIA: UN CASO DI STUDIO Come menzionato nell’introduzione, i metodi filogenetici possono essere applicati anche a livello intraspecifico, per ricostruire la storia evolutiva – 246 – di gruppi di popolazioni della medesima specie. La filogeografia (AVISE, 2000) impiega le genealogie dei singoli geni (sequenziati in diverse popolazioni lungo l’areale di una specie) e l’analisi della distribuzione geografica delle linee filetiche, per inferire il ruolo di processi microevolutivi quali la divergenza allopatrica, contatto secondario, processi di espansione o contrazione demografica, nella formazione ed evoluzione delle linee filetiche intraspecifiche. In una prima fase, fino agli anni novanta, gli studi filogeografici hanno impiegato principalmente sequenze di DNA mitocondriale. Il vantaggio del DNA mitocondriale risiede nell’alta variabilità di queste sequenze e nel loro semplice meccanismo di trasmissione ereditaria negli animali (in singola copia, aploide, e per via matrilineare), che garantisce da un lato la disponibilità di molti caratteri informativi per la ricostruzione filogenetica, dall’altro un meccanismo di trasmissione verticale semplificato lungo le generazioni, privo di ricombinazione. Così come per gli studi filogenetici interspecifici, anche per la filogeografia le inferenze basate su un singolo locus (mitocondriale) sono state presto rimpiazzate da inferenze multilocus, nelle quali i processi di ricombinazione e segregazione dei genomi nucleari diploidi vengono tenuti conto nel corso nelle analisi. L’impiego di molti loci, l’analisi dei pattern di variazione nucleare e mitocondriale e l’impiego dei modelli di coalescenza hanno permesso di inferire scenari evolutivi complessi, di ricostruire con accuratezza i trend demografici storici (a partire da centinaia di migliaia di anni fa) e i pattern spaziali e temporali dei processi evolutivi e biogeografici. Per fornire un esempio di come l’analisi filogenetica delle sequenze di DNA in ambito intraspecifico (filogeografico) possa essere utile a ricostruire uno scenario biogegrafico ed evolutivo, vengono di seguito riportati i risultati preliminari di uno studio su coleotteri Meloidi, condotto assieme ai colleghi dell’Università degli studi Roma Tre e presentato al Congresso della Unione Zoologica Italiana tenutosi a Viterbo (RICCIERI et al. 2015). Filogeografia di coleotteri Meloidi a distribuzione siculo-magrebina: vicarianza o dispersione attraverso il Canale di Sicilia? Molte specie animali mostrano un pattern di distribuzione Mediterraneo-occidentale che include il nord Africa e la Sicilia. Questo modello di distribuzione disgiunta siculo-magrebina ha da sempre affascinato i biogeografi, poiché queste due regioni sono separate dalle acque del Canale di Sicilia da oltre cinque milioni di anni. L’ultima connessione territoriale tra Sicilia e nord Africa risale infatti al Miocene, durante la cosiddetta Crisi di Salinità del Messiniano (DUGGEN et al., 2003). Questa fase, secondo accurate stime geologiche, si è conclusa 5,33 milioni di anni fa, in seguito alla riapertura dello Stretto di Gibilterra e all’afflusso di acque dall’Atlantico al Mediterraneo. Quindi a partire dal Pliocene, un braccio di mare ha mantenuto la Sicilia isolata dalle coste nordafricane e, sebbene nel corso delle glaciazioni Pleistoceniche l’abbassamento globale del livello marino abbia ripetutamente ‘riavvicinato’ la Sicilia alle coste tunisine, queste terre non sono mai state connesse tra loro di nuovo. Sulla base di questi scenari paleogeografici, possiamo avanzare due ipotesi zoogeografiche per spiegare l’areale disgiunto delle specie siculomagrebine: (i) un’origine per vicarianza, postulando un areale pre-Pliocenico continuo di queste specie, e la sua successiva frammentazione all’inizio del Pliocene in seguito alla formazione del Canale di Sicilia; (ii) un’origine più recente per dispersione attraverso il Canale di Sicilia, verosimilmente durante i periodi glaciali pleistocenici quando l’estensione di questo braccio di mare tra la Sicilia e il nord Africa era sensibilmente ridotta a causa delle regressioni marine. Queste due ipotesi ci permettono di fare delle predizioni sul pattern filogeografico delle specie in esame: secondo uno scenario di antica (pliocenica) vicarianza, ci aspettiamo un elevato differenziamento tra le popolazioni nord africane e quelle siciliane, mentre secondo un’ipotesi di recente (tardo pleistocenica) colonizzazione della Sicilia per dispersione dalla Tunisia (o viceversa) è lecito aspettarsi una ridotta distanza genetica tra le popolazioni presenti ad entrambi i lati del canale di Sicilia, con una preponderante porzione della variabilità genetica condivisa tra loro. Infine, un pattern complesso di copresenza di linee filetiche divergenti con alcuni aplotipi derivati condivisi tra le due aree, suggerirebbe che entrambi i processi, vicarianza e dispersione, abbiano giocato un ruolo nei pattern di distribuzione e diversità dei taxa siculo-magrebini. Per dirimere queste ipotesi, abbiamo studiato la distribuzione geografica della variabilità genetica in due specie di coleotteri Meloidi, della sottofamiglia Meloinae: Mylabris schreibersi Reiche, 1866 (tribù Mylabrini), appartenente ad un genere Palaeartico molto ricco di specie, e Cabalia segetum (FABRICIUS, 1792) (tribù Lyttini) appartenente ad un piccolo genere Afrotropicale distribuito in Africa orientale, penisola Arabica e Sahara, con C. segetum esclusiva di Magreb e Sicilia (Bologna, 1991). Entrambe le specie sono associate tipicamente ad habitat di tipo mediterraneo e sono distribuite con continuità dal Marocco alla Tunisia e quindi in Sicilia. – 247 – Per questo studio preliminare, sono state campionate 16 popolazioni siciliane e 24 magrebine (Marocco e Tunisia) di entrambe le specie (Figura 1) e sono stati sequenziati circa 20-40 individui per specie per due geni, uno mitocondriale (cytochrome oxidase subunit I, COI) ed uno nucleare (rudimentary gene, carbamoylphosphate synthetase domain, CAD). Successivamente alla raccolta e all’identificazione morfologica, ciascun esemplare è stato conservato in alcol puro (EtOH 100%). L’estrazione del DNA genomico è stata eseguita attraverso un protocollo di precipitazione salina e l’amplificazione dei geni target è stata eseguita mediante la tecnica di polimerizzazione a catena (PCR) seguendo il protocollo descritto in KETMAIER et al. (2011) e WILD & MADDISON (2008). Il sequenziamento è stato effettuato nei laboratori di Macrogen (Olanda). Le sequenze ottenute sono state allineate in ClustalW (THOMPSON et al., 1994) e per ciascuna regione sono stati calcolati degli indici di diversità genetica in DNAsp 5.10 (LIBRADO & ROZAS, 2009) e di distanza genetica in MEGA5 (TAMURA et al., 2011). Le relazioni filogenetiche tra gli aplotipi osservati per ciascun gene sono state inferite con il software NETWORK 4.6 (Fluxus Technology, http://www.fluxus-engineering.com/sharenet.htm) applicando il metodo Median-Joining. I network filogenetici sono preferibili agli alberi per stimare relazioni filogenetiche intraspecifiche poiché meglio si adattano all’evoluzione recente di gruppi non isolati riproduttivamente: infatti permettono un pattern reticolato di relazioni (e non strettamente dicotomico), la co-presenza di aplotipi ancestrali e derivati e garantiscono un’alta risoluzione anche con numero ridotto di caratteri filogenetici (POSADA & CRANDALL, 2003). In entrambe le specie è stata osservata un’elevata variabilità genetica al locus nucleare CAD (C. segetum: N = 33; ‘haplotype diversity’ Hd = 0,76; ‘nucleotide diversity’ π = 0,004; M. schreibersi: N = 36; Hd = 0,93; π = 0,014). La maggior parte di questa variabilità genetica è distribuita nelle popolazioni del Magreb, sia per quanto riguarda la diversità nucleotidica (per entrambe le specie Hd ≈ 0,95), sia per quanto riguardo quella aplotipica (C. segetum e M. schreibersi: 15 e 20 aplotipi, rispettivamente, osservati in Magreb). Nelle popolazioni siciliane di entrambe le specie, invece, è stata osservata una variabilità genetica comparativamente inferiore (C. segetum: Hd = 0,06; 2 aplotipi; M. schreibersi: Hd = 0,78; 6 aplotipi) (Figura 2). Nessuno degli aplotipi osservati a questo locus è condiviso tra le popolazioni della Sicilia e del Magreb e per entrambe le specie si osserva un significativo differenziamento genetico tra i due gruppi di popolazioni (FST Sicilia vs. Magreb = 0,51-0,58). L’analisi delle sequenze del locus mitocondriale COI in C. segetum mostrano un pattern congruente con quello osservato al CAD (Figura 2) con un’alta variabilità genetica nel Magreb (Magreb Hd = 0,70; Sicilia Hd = 0,12) e una significativa divergenza genetica tra popolazioni magrebine e siciliane, con ben 10 mutazioni diagnostiche fissate (FST Sicilia vs. Magreb = 0,95). Lo stesso possiamo dedurre dalle analisi preliminari Fig. 1 Distribuzione delle popolazioni studiate di Mylabris schreibersi e Cabalia segetum in Marocco, Tunisia e Sicilia. – 248 – Fig. 2 Network filogenetici degli aplotipi osservati al locus nucleare CAD in M. schreibersi e C. segetum e al locus mitocondriale COI in C. segetum. Gli aplotipi sono rappresentati da cerchi, la cui dimensione è proporzionale alla loro frequenza in ciascuna specie, colorati in base alla loro distribuzione geografica. Le relazioni geneaologiche sono rappresentate dalle linee che connettono gli aplotipi ed i numeri rappresentano il numero di sostituzioni nucleotidiche osservate in ciascuna connessione. delle sequenze di COI di M. schreibersi (in prep.). A parte la netta divergenza tra Sicilia e Magreb, non si osserva una struttura geografica della variazione genetica all’interno di queste due regioni per le due specie. Il pattern filogeografico osservato in C. segetum e M. schreibersi è congruente con un’ipotesi di antico isolamento geografico e genetico tra le popolazioni magrebine e quelle siciliane. Ad entrambi i loci analizzati questi due gruppi di popolazioni mostrano una divergenza genetica significativa e un pattern di reciproca monofilia degli aplotipi (Figura 2). Tenendo conto del tasso di sostituzione nucleotidica osservato in altri coleotteri per geni mitocondriali (ad esempio SU et al., 1996) possiamo stimare che la distanza genetica osservata tra popolazioni magrebine e siciliane si sia accumulata nel corso di diversi milioni di anni, rendendo plausibile uno scenario di divergenza allopatrica pliocenica. In particolare la monofilia delle popolazioni siciliane di entrambe le specie al locus nucleare CAD e l’assenza di aplotipi condivisi con il Magreb, suggerisce che le popolazioni siciliane siano state isolate riproduttivamente dai conspecifici magrebini per un tempo sufficiente all’accumulo di divergenza e alla completa separazione delle genealogie aplotipiche. Pertanto l’ipotesi che le popolazioni siciliane di C. segetum e M. schreibersi rappresentino in realtà specie distinte, ma morfologicamente indistinguibili, merita ulteriori approfondimenti. Per quanto riguarda la minore variabilità genetica delle popolazioni siciliane rispetto a quelle magrebine possiamo ipotizzare che questo pattern sia dovuto ad un maggior effetto delle oscillazioni climatiche pleistoceniche in Sicilia piuttosto che in Magreb. Secondo tale ipotesi le popolazioni siciliane sarebbero state isolate tra loro e contratte in aree rifugio durante i periodi glaciali, con conseguente riduzione (estinzione) di variabilità genetica, mentre durante lo stesso periodo la continuità degli habitat mediterranei nel Magreb (LA GRECA, 2002) avrebbe garantito il mantenimento di ampie e stabili popolazioni e quindi di una maggiore diversità genetica. La condivisione di aplotipi tra le popolazioni marocchine e tunisine di M. schreibersi supporterebbe ulteriormente questo scenario. L’ampliamento del dataset mitocondriale e l’applicazione di analisi multi-locus di demografia storica potrebbero essere utili a testare questa ipotesi. In conclusione, il caso di studio riportato, sebbene con risultati ancora preliminari, illustra un’applicazione dell’analisi delle sequenze di DNA per ricostruire le relazioni filogenetiche tra taxa e per inferire i processi evolutivi e biogeografici che le hanno determinate. – 249 – RINGRAZIAMENTI Desidero esprimere la mia gratitudine a Maurizio Biondi (Università degli Studi dell'Aquila) per avermi invitato alla Tavola Rotonda e ai colleghi Marco A. Bologna, Emiliano Mancini, Michela Maura e Alessandra Riccieri (Università degli Studi Roma Tre) per aver messo a disposizione i risultati preliminari della ricerca presentata come caso di studio. BIBLIOGRAFIA Avise J.C, 2000 – Phylogeography: the history and formation of the species. University Press, Harvard. BOLOGNA M.A., 1991 – Coleoptera Meloidae. Fauna d’Italia. XXVIII. Calderini, Bologna. DEGNAN J.H., ROSENBERG N.A., 2009 – Gene tree discordance, phylogenetic inference and the multispecies coalescent. - Trends in Ecology and Evolution, 24: 332-340. DUGGEN S., HOERNLE K., BOGAARD P. VAN DEN, RÜPKE L., PHIPPS MORGAN J., 2003 – Deep roots of the Messinian salinity crisis. - Nature, 422: 602- 606. FARRIS, J.S., 1970 – Methods for computing Wagner trees. - Systematic Zoology, 18: 374–385. FELSENSTEIN J., 1978 – Cases in which parsimony or compatibility methods will be positively misleading. Systematic Zoology, 27: 401-410. FELSENSTEIN, J., 1981 – Evolutionary trees from DNA sequences: a maximum likelihood approach. - J. Molecular Evolution, 17: 368–376. FELSENSTEIN J., 1983 – Statistical inference of phylogenies (with discussion). - Journal of the Royal Statistical Society. Series A, 146: 246–272. HELED J., DRUMMOND A.J., 2010 – Bayesian Inference of Species Trees from Multilocus Data. - Molecular Biology and Evolution, 27: 570-580. HENDY M.D., PENNY D., 1989 – A framework for the quantitative study of evolutionary trees. - Systematic Zoology, 38: 297-309. HUELSENBECK, J.P., RONQUIST F., 2001 – MrBayes: Bayesian inference of phylogeny. - Bioinformatics, 17:754–755. KETMAIER V., COBOLLI M., BOLOGNA M.A., 2011 – Strutturazione genetica e filogeografia di specie del genere Mylabris (Coleoptera, Meloidae) negli Appennini Centrali. - Biogeographia, 27: 421-437. KINGMAN J., 1982 – The coalescent. - Stochastic Processes and Their Applications, 13: 235-248. KNOWLES L.L., KUBATKO L.S., 2010 – Estimating Species Trees: Practical and Theoretical Aspects. WileyBlackwell. LA GRECA M., 2002 – Vicende paleogeografiche e componenti della fauna italiana. In: AA.VV., La Fauna in Italia. Touring Club Italiano, Milano, pp. 360-376. LIBRADO P., ROZAS J., 2009 – DnaSP v5: a software for comprehensive analysis of DNA polymorphism data. Bioinformatics, 25: 1451-1452. POSADA D., CRANDALL K.A., 2001 – Intraspecific gene genealogies: trees grafting into networks. - Trends in Ecology and Evolution, 6: 37-45. POSADA D., CRANDALL K.A., 1998 – MODELTEST: testing the model of DNA substitution. - Bioinformatics, 14:817818. RICCIERI A., MAURA M., SALVI D., BOLOGNA M. A., MANCINI E., 2015 – Investigating the SicilianMaghrebian biogeographic pattern in blister beetles (Coleoptera, Meloidae). - 76° Congresso della Unione Zoologica Italiana, Viterbo, 15-18 Settembre 2015. (Poster: Premio UZI ‘Giovani Ricercatori’). SHENDURE J., JI H., 2008 – Next-generation DNA sequencing. - Nat Biotech.,26: 1135-1145 SU Z.H., OHAMA T., OKADA T. S., NAKAMURA K., ISHIKAWA R., OSAWA S., 1996 – Geography-linked phylogeny of the Damaster ground beetles inferred from mitochondrial ND5 gene sequences. - Journal of Molecular Evolution, 42:130-134. TAMURA K., PETERSON D., PETERSON N., STECHER G., NEI M., KUMAR S., 2011 – MEGA5: molecular evolutionary genetics analysis using maximum likelihood, evolutionary distance, and maximum parsimony methods. Molecular Biology and Evolution, 28: 2731-2739. THOMPSON J.D., HIGGINS D.G., GIBSON T.J., 1994 – CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. - Nucleic Acids Research, 22: 4673-4680. WILD A.L., MADDISON D.R., 2008 – Evaluating nuclear protein-coding genes for phylogenetic utility in beetles. Molecular Phylogenetics and Evolution, 48: 877-891.