caricato da Utente7091

ANALISI DEI DATI BIOLOGICI

annuncio pubblicitario
ANALISI DEI DATI BIOLOGICI
• RAPPRESENTARE LE COMUNITA’ tramite descrizioni grafiche
e relazioni tra gli organismi presenti nei vari campioni.
• DISCRIMINARE dei siti sulla base della loro composizione
biologica. Test statistici per valutare differenze tra gruppi di campioni
definiti “a priori”
• DETERMINARE LIVELLI DI STRESS, tentando di costruire delle
misure indicative di condizioni di disturbo. Misure assolute o criteri
relativi.
• COLLEGARE
LA
COMUNITA’
ALLE
VARIABILI
AMBIENTALI ed esaminare le cause di eventuali cambiamenti nella
comunità stessa.
1
TECNICHE DI ANALISI DEI DATI
• Metodi univariati: riducono l’intero set di dati in un singolo
coefficiente.
• Tecniche di distribuzione: sono una classe di metodi che riassume
l’informazione di un campione tramite una curva o un’istogramma.
• METODI MULTIVARIATI: basano la comparazione dei campioni
sulle specie in comune e la distribuzione degli individui. Esplicitamente
o indirettamente basati su coefficienti di similarità.
2
1
Matrici Iniziali e Misure di Similarità
Esistono 3 possibili tipologie di matrici iniziali (dati grezzi):
• numeri (biomassa/ricoprimento) assoluti
• numeri (biomassa/ricoprimento) relativi – dati standardizzati
• presenza/assenza
Punto di partenza di molte analisi è il concetto di similarità (o
dissimilarità) tra ciascuna coppia di campioni esaminati.
Un qualsiasi coefficiente di similarità viene definito in modo da assumere
valori compresi tra 0 (nessuna similarità) e 100 (completa similarità)
3
Misure di Similarità – Indice di Bray Curtis
Sjk = 100 [1- (Σ |yij - yik|)/(Σ(yij + yik)]
S=0
yij è l’abbondanza (o biomassa) dell’
i-esima specie nel j-esimo campione
se NON ci sono specie in comune
S = 100 se tutte le specie sono in comune e sono rappresentate dallo stesso
numero di individui
I cambiamenti di scala nelle misure non cambiano il valore di S
Le joint absences non influiscono su Sjk
L’aggiunta di un ulteriore campione r non influenza né modifica il valore di
similarità già calcolato tra j-k
E’ capace di registrare differenze nell’abbondanza totale come una similarità
“meno perfetta” anche se le abbondanze relative per tutte le specie
sono identiche
4
2
Misure di Similarità – Indice di Bray Curtis
Sjk = 100 [1- (Σ |yij - yik|)/(Σ(yij + yik)]
SAMPLES
1
S
P
E
C
I
E
S
2
3
4
5
A
9
0
0
0
0
B
19
0
0
3
6
C
9
37
0
10
20
D
0
12
144
9
18
E
0
128
344
2
4
S14 = 100 [1- (9+16+1+9+2)/(9+22+19+9+2)] = 39.3
S13 = ?0
S45 = ?100 [1- (3+10+9+2)/(9+30+27+6)] = 66.7
5
Misure di Similarità – Distanza Euclidea
Il concetto opposto a quello di similarità è quello di dissimilarità, il grado
di non concordanza tra due campioni.
La dissimilarità è un punto di partenza per costruire diverse tipologie di
ordinamento grafico, in cui le dissimilarità (δ) tra le coppie di campioni
vengono tradotte in distanze (d) tra i punti di una mappa
δ = 100 - S
Distanza Euclidea: è la distanza tra due punti nello spazio
djk = √ ∑ (yij – yik)2
Nel contesto di una matrice di specie, la
distanza euclidea tra i campioni j e k
6
3
Misure di Similarità – Distanza Euclidea
Nel caso di una matrice composta da 2 sole specie, ciascun campione può
essere rappresentato da un punto in uno spazio 2d
Sample
j
k
Sp1
2
5
Sp2
3
1
djk = √ (2-5)2 + (3-1)2
E’ una distanza metrica, che obbedisce alla disuguaglianza triangolare:
Dati 3 campioni, djk + dkr ≥ djr
7
Trasformazione dei Dati
Alle matrici di dati si possono applicare delle trasformazioni, per regolare
l’influenza che possono avere i taxa comuni rispetto a quelli rari.
• nessuna trasformazione: descrizione quantitativa
• radice quadrata
• doppia radice quadrata
• log (x+1)
• presenza/assenza
8
4
Matrici di Similarità
I valori di similarità si calcolano tra tutte le coppie di campioni e vengono
quindi posti in una matrice triangolare che contiene n(n-1)/2 valori.
SAMPLES
1
S
P
E
C
I
E
S
2
3
1
4
5
A
9
0
0
0
0
B
19
0
0
3
6
C
9
37
0
10
20
D
0
12
144
9
18
E
0
128
344
2
4
2
3
4
1
-
2
8.4
-
3
0
42.1
-
4
39.3
20.1
4.3
-
5
35.3
32
8.2
66.7
5
-
9
non-metric MDS
nmMDS è una tecnica di ordinamento grafico, che costruisce una mappa (in un
determinato numero di dimensioni) in cui le distanze tra i punti (campioni)
riflettono il più possibile i ranghi di similarità.
Più vicini sono i punti, più simili sono i campioni rappresentati da tali punti
L’algoritmo su cui è basato nMDS in un primo tempo pone le stazioni in uno
spazio tri- o bi-dimensionale in modo casuale, quindi inizia gradualmente a
ridefinire le posizioni attraverso un ciclo iterativo, con un numero di cicli
definiti e sceglie la configurazione grafica che meglio rispecchia le condizioni
espresse dalla matrice triangolare.
L’accordo tra la distanza delle stazioni nel modello MDS e nella matrice
triangolare, è espresso dal COEFFICIENTE DI STRESS, che tende a 0 in caso
di massimo accordo.
10
5
11
ANOSIM test (Analysis of similarities)
Procedura che testa le differenze tra gruppi di campioni definiti a priori.
Ho “non ci sono differenze nella composizione della comunità dei gruppi
esaminati”.
Per esaminare Ho vi sono 3 step principali
1. TEST STATISTICO: riflette le differenze osservate TRA siti in contrasto con
le differenze tra repliche ENTRO siti.
Calcola la distanza media tra ogni coppia di repliche
ENTRO lo stesso sito (gruppo) in contrasto con la
distanza media tra tutte le coppie di repliche.
1
2
2
3
3
1
12
6
ANOSIM
1. TEST STATISTICO. In realtà si basa sui RANGHI di similarità della
corrispondente matrice triangolare.
R = (rB – r W)/ M/2
R = [-1; +1]
rB
distanza media BETWEEN gruppi
rw
distanza media WITHIN gruppo
M = n(n-1)/2
R > 0, indica un qualche grado di discriminazione tra i siti.
R = 1, se tutte le repliche entro i siti sono più simili tra loro rispetto a qualsiasi
altra replica proveniente da siti diversi.
R ≈ 0, se Ho è vera.
R < 0, improbabile. Le similarità tra siti diversi sono maggiori delle similarità
13
entro lo stesso sito.
ANOSIM
2. CALCOLO DELLE PERMUTAZIONI. Il valore di R viene ricalcolato
permutando i nomi dei campioni associati ai valori dei ranghi di similarità nella
matrice triangolare.
A1 A2 A3 B1 B2 B3
A1
A2
A3
B1
B2
B3
A1 B3 B1 A3 B2 A2
A1
B3
B1
A3
B2
A2
Test delle permutazioni di H0: sono esaminate tutte le possibili allocazioni delle
etichette dei campioni, e l’R statistico viene calcolato per ciascuna allocazione.
14
7
ANOSIM
3. CALCOLO DEL LIVELLO DI SIGNIFICATIVITA’. Si intende il confronto
del valore di R osservato con la distribuzione di valori ottenuti dalle permutazioni.
Se H0 è vera, il valore di R osservato ricade nella distribuzione dei valori di R
calcolati in modo casuale.
Se il “reale” valore di R appare improbabile che provenga da tale distribuzione di
frequenza, si ha una prova per rigettare Ho.
Il livello di significatività al quale è possibile rigettare H0 è pari a 100(t+1)/(T+1)
dove T = numero di simulazioni, t = valori di R, all’interno delle T simulazioni, che
sono più elevati di R osservato
Frequenza
p < 0.05
R statistic
15
SIMPER (similarity percentages)
Analisi che permette di identificare precisamente le specie maggiormente responsabili
della differenza tra gruppi diversi.
1. Calcolo della dissimilarità media δ tra tutte le coppie di campioni tra i due gruppi
analizzati.
2. Assegnare δ al contributo di ogni specie.
Per la dissimilarità di Bray-Curtis tra 2 campioni j, k, il contributo della i-esima specie
è: δjk(i) = 100 |yij - yik|/Σ(yij + yik)
16
8
PCA
è una tecnica di ordinamento grafico, in cui gli assi (componenti principali)
massimizzano la varianza dei punti campione proiettati lungo ciascun asse.
I valori di varianza rappresentano quindi una misura dell’informazione contenuta
in ciascun asse
Esempio: 2d
Sample
1 2
3
4
Sp1
6 0
5
7 11 10 15 18 14
5
Sp2
2 0
8
6
6
6
10
7
8
8
9
14 14
Se dovessimo riportare questa configurazione in una sola dimensione, quale
sarebbe la migliore rappresentazione?
17
PCA
1. Possiamo considerare uno dei due assi (una sola specie), ignorando l’altro
18
9
PCA
2. Possiamo scegliere un grafico che sia la linea che meglio interpola tutti i
punti, “best-fit”
La PC1 è la linea che massimizza la somma delle distanze dei campioni dalla
linea stessa
19
PCA
La PC1 è la linea che massimizza la somma delle distanze dei campioni dalla
linea stessa
La PC2 è l’asse perpendicolare a PC1, che nel caso 2d è data dalla rotazione
dell’asse
20
10
PCA
E’ necessario normalizzare i dati per rendere la varianza dei campioni uguale ad
1, così che tutte le specie hanno potenzialmente uguale importanza nel
determinare le componenti principali.
Per questo e per altri motivi la PCA è un metodo di ordinamento grafico adatto
soprattutto a rappresentare variabili abiotiche (ambientali)
• forma dei dati (presenza di blocchi di 0)
• joint absences
• implicitamente la PCA definisce la dissimilarità tra 2 campioni come la loro
distanza euclidea in uno spazio p-dimensionale (dove p è il numero di variabili)
21
BIO-ENV
Procedura per analizzare il grado di correlazione tra una matrice di dati biologici
(abbondanza, biomassa…) e una matrice di dati abiotici.
Campioni che hanno valori simili per quanto riguarda le variabili ambientali, è
probabile che presentino una composizione specifica simile.
Si comparano
i ranghi di
similarità che
si ottengono
dalle due
matrici
22
11
Scarica