ANALISI DEI DATI BIOLOGICI • RAPPRESENTARE LE COMUNITA’ tramite descrizioni grafiche e relazioni tra gli organismi presenti nei vari campioni. • DISCRIMINARE dei siti sulla base della loro composizione biologica. Test statistici per valutare differenze tra gruppi di campioni definiti “a priori” • DETERMINARE LIVELLI DI STRESS, tentando di costruire delle misure indicative di condizioni di disturbo. Misure assolute o criteri relativi. • COLLEGARE LA COMUNITA’ ALLE VARIABILI AMBIENTALI ed esaminare le cause di eventuali cambiamenti nella comunità stessa. 1 TECNICHE DI ANALISI DEI DATI • Metodi univariati: riducono l’intero set di dati in un singolo coefficiente. • Tecniche di distribuzione: sono una classe di metodi che riassume l’informazione di un campione tramite una curva o un’istogramma. • METODI MULTIVARIATI: basano la comparazione dei campioni sulle specie in comune e la distribuzione degli individui. Esplicitamente o indirettamente basati su coefficienti di similarità. 2 1 Matrici Iniziali e Misure di Similarità Esistono 3 possibili tipologie di matrici iniziali (dati grezzi): • numeri (biomassa/ricoprimento) assoluti • numeri (biomassa/ricoprimento) relativi – dati standardizzati • presenza/assenza Punto di partenza di molte analisi è il concetto di similarità (o dissimilarità) tra ciascuna coppia di campioni esaminati. Un qualsiasi coefficiente di similarità viene definito in modo da assumere valori compresi tra 0 (nessuna similarità) e 100 (completa similarità) 3 Misure di Similarità – Indice di Bray Curtis Sjk = 100 [1- (Σ |yij - yik|)/(Σ(yij + yik)] S=0 yij è l’abbondanza (o biomassa) dell’ i-esima specie nel j-esimo campione se NON ci sono specie in comune S = 100 se tutte le specie sono in comune e sono rappresentate dallo stesso numero di individui I cambiamenti di scala nelle misure non cambiano il valore di S Le joint absences non influiscono su Sjk L’aggiunta di un ulteriore campione r non influenza né modifica il valore di similarità già calcolato tra j-k E’ capace di registrare differenze nell’abbondanza totale come una similarità “meno perfetta” anche se le abbondanze relative per tutte le specie sono identiche 4 2 Misure di Similarità – Indice di Bray Curtis Sjk = 100 [1- (Σ |yij - yik|)/(Σ(yij + yik)] SAMPLES 1 S P E C I E S 2 3 4 5 A 9 0 0 0 0 B 19 0 0 3 6 C 9 37 0 10 20 D 0 12 144 9 18 E 0 128 344 2 4 S14 = 100 [1- (9+16+1+9+2)/(9+22+19+9+2)] = 39.3 S13 = ?0 S45 = ?100 [1- (3+10+9+2)/(9+30+27+6)] = 66.7 5 Misure di Similarità – Distanza Euclidea Il concetto opposto a quello di similarità è quello di dissimilarità, il grado di non concordanza tra due campioni. La dissimilarità è un punto di partenza per costruire diverse tipologie di ordinamento grafico, in cui le dissimilarità (δ) tra le coppie di campioni vengono tradotte in distanze (d) tra i punti di una mappa δ = 100 - S Distanza Euclidea: è la distanza tra due punti nello spazio djk = √ ∑ (yij – yik)2 Nel contesto di una matrice di specie, la distanza euclidea tra i campioni j e k 6 3 Misure di Similarità – Distanza Euclidea Nel caso di una matrice composta da 2 sole specie, ciascun campione può essere rappresentato da un punto in uno spazio 2d Sample j k Sp1 2 5 Sp2 3 1 djk = √ (2-5)2 + (3-1)2 E’ una distanza metrica, che obbedisce alla disuguaglianza triangolare: Dati 3 campioni, djk + dkr ≥ djr 7 Trasformazione dei Dati Alle matrici di dati si possono applicare delle trasformazioni, per regolare l’influenza che possono avere i taxa comuni rispetto a quelli rari. • nessuna trasformazione: descrizione quantitativa • radice quadrata • doppia radice quadrata • log (x+1) • presenza/assenza 8 4 Matrici di Similarità I valori di similarità si calcolano tra tutte le coppie di campioni e vengono quindi posti in una matrice triangolare che contiene n(n-1)/2 valori. SAMPLES 1 S P E C I E S 2 3 1 4 5 A 9 0 0 0 0 B 19 0 0 3 6 C 9 37 0 10 20 D 0 12 144 9 18 E 0 128 344 2 4 2 3 4 1 - 2 8.4 - 3 0 42.1 - 4 39.3 20.1 4.3 - 5 35.3 32 8.2 66.7 5 - 9 non-metric MDS nmMDS è una tecnica di ordinamento grafico, che costruisce una mappa (in un determinato numero di dimensioni) in cui le distanze tra i punti (campioni) riflettono il più possibile i ranghi di similarità. Più vicini sono i punti, più simili sono i campioni rappresentati da tali punti L’algoritmo su cui è basato nMDS in un primo tempo pone le stazioni in uno spazio tri- o bi-dimensionale in modo casuale, quindi inizia gradualmente a ridefinire le posizioni attraverso un ciclo iterativo, con un numero di cicli definiti e sceglie la configurazione grafica che meglio rispecchia le condizioni espresse dalla matrice triangolare. L’accordo tra la distanza delle stazioni nel modello MDS e nella matrice triangolare, è espresso dal COEFFICIENTE DI STRESS, che tende a 0 in caso di massimo accordo. 10 5 11 ANOSIM test (Analysis of similarities) Procedura che testa le differenze tra gruppi di campioni definiti a priori. Ho “non ci sono differenze nella composizione della comunità dei gruppi esaminati”. Per esaminare Ho vi sono 3 step principali 1. TEST STATISTICO: riflette le differenze osservate TRA siti in contrasto con le differenze tra repliche ENTRO siti. Calcola la distanza media tra ogni coppia di repliche ENTRO lo stesso sito (gruppo) in contrasto con la distanza media tra tutte le coppie di repliche. 1 2 2 3 3 1 12 6 ANOSIM 1. TEST STATISTICO. In realtà si basa sui RANGHI di similarità della corrispondente matrice triangolare. R = (rB – r W)/ M/2 R = [-1; +1] rB distanza media BETWEEN gruppi rw distanza media WITHIN gruppo M = n(n-1)/2 R > 0, indica un qualche grado di discriminazione tra i siti. R = 1, se tutte le repliche entro i siti sono più simili tra loro rispetto a qualsiasi altra replica proveniente da siti diversi. R ≈ 0, se Ho è vera. R < 0, improbabile. Le similarità tra siti diversi sono maggiori delle similarità 13 entro lo stesso sito. ANOSIM 2. CALCOLO DELLE PERMUTAZIONI. Il valore di R viene ricalcolato permutando i nomi dei campioni associati ai valori dei ranghi di similarità nella matrice triangolare. A1 A2 A3 B1 B2 B3 A1 A2 A3 B1 B2 B3 A1 B3 B1 A3 B2 A2 A1 B3 B1 A3 B2 A2 Test delle permutazioni di H0: sono esaminate tutte le possibili allocazioni delle etichette dei campioni, e l’R statistico viene calcolato per ciascuna allocazione. 14 7 ANOSIM 3. CALCOLO DEL LIVELLO DI SIGNIFICATIVITA’. Si intende il confronto del valore di R osservato con la distribuzione di valori ottenuti dalle permutazioni. Se H0 è vera, il valore di R osservato ricade nella distribuzione dei valori di R calcolati in modo casuale. Se il “reale” valore di R appare improbabile che provenga da tale distribuzione di frequenza, si ha una prova per rigettare Ho. Il livello di significatività al quale è possibile rigettare H0 è pari a 100(t+1)/(T+1) dove T = numero di simulazioni, t = valori di R, all’interno delle T simulazioni, che sono più elevati di R osservato Frequenza p < 0.05 R statistic 15 SIMPER (similarity percentages) Analisi che permette di identificare precisamente le specie maggiormente responsabili della differenza tra gruppi diversi. 1. Calcolo della dissimilarità media δ tra tutte le coppie di campioni tra i due gruppi analizzati. 2. Assegnare δ al contributo di ogni specie. Per la dissimilarità di Bray-Curtis tra 2 campioni j, k, il contributo della i-esima specie è: δjk(i) = 100 |yij - yik|/Σ(yij + yik) 16 8 PCA è una tecnica di ordinamento grafico, in cui gli assi (componenti principali) massimizzano la varianza dei punti campione proiettati lungo ciascun asse. I valori di varianza rappresentano quindi una misura dell’informazione contenuta in ciascun asse Esempio: 2d Sample 1 2 3 4 Sp1 6 0 5 7 11 10 15 18 14 5 Sp2 2 0 8 6 6 6 10 7 8 8 9 14 14 Se dovessimo riportare questa configurazione in una sola dimensione, quale sarebbe la migliore rappresentazione? 17 PCA 1. Possiamo considerare uno dei due assi (una sola specie), ignorando l’altro 18 9 PCA 2. Possiamo scegliere un grafico che sia la linea che meglio interpola tutti i punti, “best-fit” La PC1 è la linea che massimizza la somma delle distanze dei campioni dalla linea stessa 19 PCA La PC1 è la linea che massimizza la somma delle distanze dei campioni dalla linea stessa La PC2 è l’asse perpendicolare a PC1, che nel caso 2d è data dalla rotazione dell’asse 20 10 PCA E’ necessario normalizzare i dati per rendere la varianza dei campioni uguale ad 1, così che tutte le specie hanno potenzialmente uguale importanza nel determinare le componenti principali. Per questo e per altri motivi la PCA è un metodo di ordinamento grafico adatto soprattutto a rappresentare variabili abiotiche (ambientali) • forma dei dati (presenza di blocchi di 0) • joint absences • implicitamente la PCA definisce la dissimilarità tra 2 campioni come la loro distanza euclidea in uno spazio p-dimensionale (dove p è il numero di variabili) 21 BIO-ENV Procedura per analizzare il grado di correlazione tra una matrice di dati biologici (abbondanza, biomassa…) e una matrice di dati abiotici. Campioni che hanno valori simili per quanto riguarda le variabili ambientali, è probabile che presentino una composizione specifica simile. Si comparano i ranghi di similarità che si ottengono dalle due matrici 22 11