Evoluzione Molecolare Studia le velocità e il tipo di sostituzioni che avvengono nel materiale genetico e nei suoi prodotti. EVOLUZIONE MOLECOLARE DIMENSIONE TEMPO pura descrizione meccanismi evolutivi DINAMICA CINEMATICA OBIETTIVI individuazione delle costrizioni funzionali comprensione dei processi evolutivi studi filogenetici, relazioni tassonomiche EVOLUZIONE MOLECOLARE Geni Genomi Organismi EVOLUZIONE MOLECOLARE inter taxa Livelli di analisi inter phyla inter specie intra specie EVOLUZIONE MOLECOLARE geni ortologhi Scelta delle sequenze geni paraloghi altre regioni (non codificanti, regolatorie) genomi completi ortologia e paralogia a duplicazione genica speciazione gene α 1 gene α 2 b speciazione gene β 1 specie 1 specie 2 gene β 2 Evoluzione della famiglia genica della beta-globina umana Embrionale e Fetale g1 g2 Pseudogene yh Adulta d b 3’ 5’ 0 100 duplicazione genica 200 Mya Mutazioni - transizioni sostituzioni nucleotidiche delezioni - transversioni A C G T inserzioni inversioni IPOTESI DELL’ OROLOGIO MOLECOLARE Zuckerkandl and Pauling (1962) OROLOGIO MOLECOLARE sostituzioni/sito tempo Alcuni geni (o gruppi di geni) possono evolvere sotto distinte pressioni evolutive dettate da costrizioni funzionali peculiari di un particolare lineage Geni provenienti da compartimenti distinti (es. mitocondrio, nucleo) possono evolvere secondo differenti pressioni evolutive I geni possono mostrare composizionale in alcuni lineage un “bias” A C T G A A C G T A A C G C tempo A C T G A A C G T A A C G C T G Sequenza ancestrale A sostituzione multipla sostituzioni coincidenti T A sostituzione convergente A C T G A A C G T A A C G C T sostituzione singola G Sequenze discendenti A a T G g A C G T A a C G C t C T G g A C G T A A C G C Confronto delle sequenze attuali Tipi di sostituzioni nucleotidiche sostituzione singola 1 cambio, 1 differenza A C A sostituzione multipla sostituzione coincidente 2 cambi, 1 differenza 2 cambi, 1 differenza T C A C A A T G A C A C GA C A sostituzione parallela sostituzione convergente retro-sostituzione 2 cambi, 0 differenze 3 cambi, 0 differenze 2 cambi, 0 differenze C A C C A A C T C A T C A A T T A C A A A A C EVOLUZIONE MOLECOLARE deterministici: basati sulla osservazione dei caratteri Modelli stocastici (probabilistici dipendenti dal tempo): basati sulla misura delle diversità mouse rat hamster g_monkey r_monkey human cow sheep cat chicken xenopus trout 1 MTAMEESQSD ...MEDSQSD ...MEEPQSD ...MEEPQSD ...MEEPQSD ...MEEPQSD ...MEESQAE ...MEESQAE ...MQEPPLE ...MAEE... ...M.EPSSE ...MAD.LAE ISLELPLSQ. MSIELPLSQ. LSIELPLSQ. PSIEPPLSQ. PSIEPPLSQ. PSVEPPLSQ. LNVEPPLSQ. LGVEPPLSQ. LTIEPPLSQ. ..MEPLLEPT TGMDPPLSQ. .NVSLPLSQ. ETFSGLWKLL ETFSCLWKLL ETFSDLWKLL ETFSDLWKLL ETFSDLWKLL ETFSDLWKLL ETFSDLWNLL ETFSDLWNLL ETFSELWNLL EVFMDLWSML ETFEDLWSLL ESFEDLWKM. PPEDILP... PPDDILPTTA PPNNVLSTLP PENNVLSPLP PENNVLSPLP PENNVLSPLP PENNLLSSEL PENNLLSSEL PENNVLSSEL PY........ PD..PLQTVT ..NLNLVAVQ 50 ..SPHCMDDL TGSPNSMEDL ..SSDSIEEL ...SQAVDDL ...SQAVDDL ...SQAMDDL ...SAPVDDL ...SAPVDDL ...SSAMNE. .....SMQQ. ....CRLDNL .......PPE //////////////////////////////////////////////////////////////// 351 400 mouse GEYFTLKIRG RKRFEMFREL NEALELKDA. HATEESGDSR AHSSYLKTKK rat GEYFTLKIRG RERFEMFREL NEALELKDA. RAAEESGDSR AHSSYPKTKK hamster GEYFTLKIRG QERFKMFQEL NEALELKDA. QALKASEDSG AHSSYLKSKK g_monkey GEYFTLQIRG RERFEMFREL NEALELKDA. QAGKEPAGSR AHSSHLKSKK r_monkey GEYFTLQIRG RERFEMFREL NEALELKDA. QAGKEPAGSR AHSSHLKSKK human GEYFTLQIRG RERFEMFREL NEALELKDA. QAGKEPGGSR AHSSHLKSKK cow GEYFTLQIRG FKRYEMFREL NDALELKDA. LDGREPGESR AHSSHLKSKK sheep GEYFTLQIRG RKRFEMFREL NEALELMDA. QAGREPGESR AHSSHLKSKK cat GEYFTLQIRG RERFEMFREL NEALELKDA. QSGKEPGGSR AHSSHLKAKK chicken NEIFYLQVRG RRRYEMLKEI NEALQL.... ....AEGGSA PRPSKGRRVK xenopus EEIFTLRIKG RSRYEMIKKL NDALELQESL DQQKVTIKCR KCRDEIKPKK trout DEIYTLQIRG KEKYEMLKKF NDSLELSELV PVADADKYRQ KCLTKRVAKR mouse rat hamster g_monkey r_monkey human cow sheep cat chicken xenopus trout 401 ..GQSTSRHK ..GQSTSRHK ..GQSASRLK ..GQSTSRHK ..GQSTSRHK ..GQSTSRHK ..RPSPSCHK ..GPSPSCHK ..GQSTSRHK VEgPQPSCGK ........GK DFGVGPKKRK 422 KTMVKKVGPD SD KPMIKKVGPD SD KLMIKREGPD SD KFMFKTEGPD SD KFMFKTEGPD SD KLMFKTEGPD SD KPMLKREGPD SD KPMLKREGPD SD KPMLKREGLD SD KLLQK....G SD KLLVKDEQPD SE KLLVKEEKSD SD p53a.msf Name: Name: Name: Name: Name: Name: Name: Name: Name: Name: Name: Name: MSF: 422 mouse rat hamster g_monkey r_monkey human cow sheep cat chicken xenopus trout Type: P Len: Len: Len: Len: Len: Len: Len: Len: Len: Len: Len: Len: September 20, 1995 11:41 422 422 422 422 422 422 422 422 422 422 422 422 Check: Check: Check: Check: Check: Check: Check: Check: Check: Check: Check: Check: 3385 877 2423 6876 7388 6515 4340 9625 496 6526 9659 7860 Check: 5970 .. Weight: Weight: Weight: Weight: Weight: Weight: Weight: Weight: Weight: Weight: Weight: Weight: 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 Modelli Stocastici Sequenze nucleotidiche: - Jukes Cantor - Kimura - Markov Sequenze proteiche: - Jones Taylor Thornton e altri Scelta del modello più adatto: http://darwin.uvigo.es/software/prottest2_server.html Jukes Cantor t t+1 B (1 - l )2 qt @ (1 - 2l )qt 1- l qt C 1-l t t+1 B l/3 1-q t 1-l 2(l / 3)(1 - l )(1 - qt ) @ 2 / 3l (1 - qt ) C 1- l l/3 3 4 ˆ d = - 4 ln 1 - 3 p Kimura 1 [( ˆ d = - ln 1 - 2 P - Q ) 1 - 2Q ] 2 dove P e Q rappresentano rispettivamente la frequenza osservata delle transizioni e delle transversioni Modello Stazionario di Markov Proprietà Nessuna assunzione “a priori” sulla matrice delle distanze ma semplice verifica della condizione di stazionarietà Misura accurata delle fluttuazioni statistiche (Simulazione con il metodo del Bootstrap) C. Saccone, C. Lanave, G. Pesole and G. Preparata Methods in Enzymology (1990). Vol. 183, pp. 570 - 583 test di stazionarietà Modello Stazionario di Markov = i,j = A, C, G, T Modello Stazionario di Markov Algoritmo Modello stocastico basato su una catena di Markov che attraverso l’equazione differenziale di Kolmogorov: 4 d Pik(T) = Pir (T) Rrk dT r=i A C G T calcola la matrice delle velocità 4x4 R, indipendente dal tempo, che descrive il processo di sostituzione nucleotidica C. Saccone, C. Lanave, G. Pesole and G. Preparata Methods in Enzymology (1990). Vol. 183, pp. 570 - 583 ProtTest 2.4 Jones Taylor Thornton Evoluzione delle matrici PAM di Dayhoff, ma tenendo conto della maggior ricchezza dei database +I: Alcuni siti sono considerati essere invarianti, in accordo con l’allineamento multiplo +G: Vengono definite g categorie di siti con diversa velocità di sostituzione Ascenzi P, di Masi A, Leboffe L, Alberio T, Fanali G, Fasano M. Molecular phylogenetic analyses of albuminoids reveal the molecular evolution of allosteric properties. IUBMB Life. 2013 Apr 9. doi: 10.1002/iub.1164. Alberi filogenetici Albero <==> Grafo Topologia: nodi + rami Un albero descrive le relazioni fra ancestore e discendenti I nodi sono le unità tassonomiche Nodo ancestrale e Nodi Intermedi (UT o TU) Nodi Terminali (UTO o OTU): specie, geni, popolazioni o individui Alberi filogenetici Alberi con radice o rooted ’ ancestore ==> percorso univoco da ancestore a OTU Alberi senza radice o unrooted La radice è localizzata all’ interno di un ramo che congiunge le specie in esame con l’outgroup Esempio di albero Rooted (con radice) UOMO MUCCA TOPO Alberi filogenetici Alberi con radice o rooted: Alberi quantitativi La lunghezza direttamente dei rami proporzionale tempi di divergenza fra le UT » Orologio Molecolare è ai Esempio di albero Unrooted (senza radice) A D 1 B 3 2 C 1-3: Nodi dell’albero A-E: OTU E Alberi filogenetici Alberi senza radice o unrooted: Alberi qualitativi Descrivono semplicemente le relazioni evolutive fra le UT Alberi filogenetici Alberi basati sullo stato dei caratteri - Massima Parsimonia - Massima Verosimiglianza Alberi basati sulla misura delle distanze - UPGMA - Neighbor - Joining Alberi filogenetici Metodi basati sulla Misura delle distanze - UPGMA (albero con radice applicabile solo se rispettato l’orologio molecolare) » Lunghezza dei rami proporzionale ai tempi di divergenza - Neighbor Joining (albero senza radice quando non è rispettato l’orologio molecolare) » Differente velocità nei diversi rami Tempo di divergenza fra due specie = tempo impiegato nel processo di speciazione, ovvero tempo dell’isolamento riproduttivo T1 T1= KAC + KBC T2 A B C T2= 4r KAB 2r Metodi Deterministici Massima Parsimonia Sito 2 Sito Sequenza 1 2 3 4 Sito 3 Sito 5 Sito7 Sito 9 Alberi filogenetici Alberi fenetici (fenogrammi): descrivono le relazioni fra le specie sulla base delle diversità morfologiche, molecolari e anatomiche o somiglianze Alberi cladistici (cladogrammi): descrivono le relazioni di discendenza tra un gruppo di specie Se l’orologio molecolare è rispettato Alberi cladistici<==> Alberi fenetici Alberi filogenetici Alberi con radice o rooted NR= (2n-3)!/2 (n-2) (n-2)! Alberi senza radice o unrooted NV= (2n-5)!/2 (n-3) (n-3)! Alberi filogenetici I dati per la costruzione degli alberi filogenetici: un solo gene puo essere sufficiente? Quasi mai Soluzione: – Analizzare piu’ di un gene – Effettuare una stima della statistica degli alberi ottenuti significatività Alberi filogenetici Perche’ ? – Per ricostruire la storia evolutiva delle specie o delle popolazioni in esame – Tempo di divergenza fra 2 specie = tempo impiegato nel processo di speciazione ovvero dell’isolamento riproduttivo Alberi filogenetici I dati per la costruzione degli alberi filogenetici: un solo gene può essere sufficiente? Quasi mai Perche’? – Paralogia e ortologia dei geni – Evoluzione concertata (famiglie geniche) – Pressione mutazionale direzionata – Trasferimento orizzontale di un gene (dai batteri alle piante) – Polimorfismo – Fluttuazioni statistiche EVOLUZIONE MOLECOLARE metodologie Congruenza tipologie di dati EVOLUZIONE MOLECOLARE approcci molecolari Congruenza metodologica approcci molecolari/non molecolari EVOLUZIONE MOLECOLARE nucleari molecolari Congruenza sul tipo di dati mitocondriali morfologici resti fossili EVOLUZIONE MOLECOLARE Genomi completi Congruenza Regioni regolatorie/codificanti EVOLUZIONE MOLECOLARE sequenziamento Limiti analisi Sequenziamento: limiti Studi incentrati su specie ampiamente studiate Assenza (o scarsa presenza) di sequenze relative a specie rilevanti per gli studi filogenetici Analisi: limiti Omoplasia: “rumori di fondo” causati da sostituzioni multiple, processi di sostituzione condizionati (perdita della condizione di stazionarietà), processi selettivi, ecc. Geni diversi possono seguire differenti storie evolutive nello stesso gruppo di specie Mancanza di riconoscimento di geni paraloghi nel campione in esame “A gene tree can be accepted or rejected only in its entirety as an estimate of the species tree, and it is not legitimate to dissect out pieces or a cladogram as support for a favored hypothesis while rejecting the phylogenetic implication of the rest of the tree.” Ruvolo and Koh, Mol. Phyl. Evol 5: 439-440 (1996) bootstrap +---------HUMAN +100.0 ! ! +----RHESUS ! +100.0 +-91.0 +----G MONKEY ! ! ! ! +----COW ! ! +100.0 ! +-40.0 +----SHEEP +100.0 ! ! ! +---------CAT ! ! ! ! +----MOUSE +-43.0 ! +100.0 ! ! +------69.0 +----RAT ! ! ! +-66.0 ! +---------HAMSTER ! ! ! ! ! +------------------------CHICKEN ! ! ! +-----------------------------XENOPUS ! +----------------------------------TROUT