STAT_2

UNIVERSITA’ DEGLI STUDI DI PERUGIA
Dipartimento di Chimica, Biologia e Biotecnologie
Via Elce di Sotto, 06123 –Perugia
Corso di Laurea di Scienze biomolecolari e ambientali
Laurea magistrale
Corso di ANALISI DEI SISTEMI ECOLOGICI
Sito del corso: www.dcbb.unipg.it/cdlscienzebiomol
Alessandro Ludovisi
Sito docente: www.dcbb.unipg.it/alessandro.ludovisi
Tel. 075 585 5712
e-mail address: [email protected]
METODI STATISTICI
2
ANALISI DI RAGGRUPPAMENTO
(CLUSTER ANALYSIS)
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS)
ALGORITMI DI RAGGRUPPAMENTO
GERARCHICI
Gli algoritmi gerarchici individuano sequenze di gruppi
ordinate secondo similarità crescente (o decrescente) tra
gli elementi (campioni) o gruppi di essi. Non
presuppongono un numero di gruppi (clusters) predefinito
e producono gerarchie di similarità tipicamente
rappresentate in forma di albero (dendrogramma)
NON GERARCHICI
Gli algoritmi non gerarchici separano l’insieme dei
campioni sulla base di soglie di similarità definite
(sequential or parallel threshold) o sulla base di un
numero di cluster definiti (k-means).
Presuppongono di fatto che vengano fatte (o
verificate) ipotesi sull’aggregazione dei dati
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS)
Gli algoritmi di raggruppamento possono essere schematizzate in base alla rigidità con cui
classificano i dati:
Cluster reticolato con probabilità di appartenenza dei
• CLUSTERING ESCLUSIVO: ogni elemento può essere
assegnato ad uno e ad un solo gruppo. Quindi i
cluster risultanti non possono avere elementi in
comune. Questo approccio è detto anche hard
clustering. L’algoritmo K-means ne è un
esempio.
• CLUSTERING NON-ESCLUSIVO: un elemento può
appartenere a più cluster con gradi di
appartenenza diversi. Questo approccio è noto
anche con il nome di soft clustering o fuzzy
clustering, dal termine usato per indicare la
logica fuzzy. L’algoritmo MCL ne è un esempio

N.B.: Nel caso di clustering gerarchico (dendrogramma),
l’appartenenza a gruppi non è determinata, ma può essere
attribuita in base al livello di similarità (ove esplicitato).
campioni ad ogni dato gruppo, ottenuta con MCL (Markov
Cluster Algorithm)
Mapping of the phage clusters onto the phage population
network. Each node is depicted as a pie chart with the
wedges representing the fraction of its edges belonging to
the different clusters (Lima-Mendez et al., 2016)
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS)
ALGORITMI GERARCHICI
AGGREGATIVI
DIVISIVI
3
Gli algoritmi aggregativi aggregano
progressivamente i elementi a partire
dai campioni (o gruppi di campioni) più
simili e poi progressivamente meno
simili, fino al gruppo più inclusivo (tutti
i campioni)
Gli algoritmi divisivi (o scissori)
partono dal gruppo più inclusivo (tutti
i campioni) e lo suddividono
progressivamente in clusters più
ristretti, escludendo progressivamente
elementi dal cluster
2
1
1
2
3
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS)
DIVISIVI
Nei metodi di clustering divisivi il primo passaggio consiste nell’individuare
il cluster da suddividere in due sottogruppi. Per questa ragione sono
necessarie funzioni che misurino la compattezza del cluster, la densità o la
sparsità dei punti assegnati ad un cluster. Le funzioni normalmente
utilizzate nel caso divisivo sono:
• AVERAGE INTERNAL SIMILARITY - Questa funzione valuta la similarità media
tra i dati interni ad un cluster: più sono tra loro dissimili (valori bassi
di similarità), più il cluster è da suddividere in sottogruppi
• MAXIMUM INTERNAL DISTANCE : Questa funzione valuta la distanza massima
tra due punti interni ad un cluster. Tale valore è noto anche come
'diametro del cluster‘. Minore è il diametro, più il cluster è compatto
• CLUSTERING DENSITY-BASED: il raggruppamento avviene analizzando
l'intorno di ogni punto dello spazio. In particolare, viene considerata la
densità di punti in un intorno di raggio fissato. Un esempio è il metodo
di clustering Dbscan.
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS)
ALGORITMI AGGREGATIVI
LEGAME (LINKAGE)
Gli algoritmi di legame utilizzano la distanza tra i dati grezzi come criterio di
aggregazione:
• SINGLE LINKAGE (Nearest Neighbour, ovvero il vicino più vicino): definisce la
distanza tra i due cluster come la distanza minima tra elementi appartenenti a
cluster diversi. Tende a produrre clusters a catena ed è molto usato nella
classificazione tassonomica. Sovrastima la similarità tra gruppi
•
COMPLETE LINKAGE (Farthest Neighbour, ovvero il vicino più lontano):definisce la
distanza tra i due cluster come la distanza massima tra elementi appartenenti a
cluster diversi. Tende a separare clusters molto ampi. Sottostima la similarità tra
gruppi
•
UPGMA (Unweighted Pair-Groups Method) e WPGMA (Weighted Pair-Groups
Method): definisce la distanza tra i due cluster come la distanza media tra tutti gli
elementi appartenenti a cluster diversi. UPMGA è tra i metodi di applicabilità e
affidabilità più ampi.
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS)
ALGORITMI AGGREGATIVI
LEGAME (LINKAGE)
Tra gli algoritmi di legame :
• NEIGHBOR JOINING : è un metodo sviluppato per la
creazione di alberi filogenetici che trova applicazione
anche in ambito ecologico. Normalmente usato con
dati di sequenze proteiche o nucleotidiche, è basato
sulla distanza tra coppie di taxa (specie o sequenze)
per formare dendrogrammi.
• L’algoritmo lavora costruendo una rete a stella
(star network) centrata nel centro della nube,
aggrega i primi due elementi creando un nuovo
elemento topologico che procede in direzione del
centro topologico. Il nuovo elemento viene a sua
volta trattato come nuovo dato e aggreagato
progressivamente fino al raggiungimento del centro
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS)
ALGORITMI AGGREGATIVI
LEGAME (LINKAGE)
CENTROIDE
WARD
Il metodo del CENTROIDE o UPGMC (Unweighted Pair-Groups Method
Centroid), definisce la distanza tra due clusters come la distanza tra i
centroidi, che rappresentano il centro (ovvero la media posizione) di una
nube di punti
Il metodo di Ward è basato sul criterio di minimizzazione di una qualche
«funzione oggettiva» che soddisfa le esigenze dell’investigatore. La
funzione oggettiva proposta da Ward era la somma degli scarti quadratici
medi, per cui il metodo di Ward è noto come il metodo della minima
varianza, per il quale l’aggregazione procede secondo varianza entro
gruppi crescente
E’ utilizzabile solo con dati numerici e utilizza la distanza Euclidea per il
primo step di aggregazione
Ward
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS)
NON GERARCHICI
L'algoritmo K-MEANS è un algoritmo di
clustering partizionale che impone di
minimizzare la varianza totale intra-cluster.
Ogni cluster viene identificato mediante un
centroide o punto medio. L'algoritmo
segue una procedura iterativa.
Inizialmente crea K partizioni e assegna
ad ogni partizione i punti d'ingresso o
casualmente o usando alcune informazioni
euristiche. Quindi calcola il centroide di
ogni gruppo. Costruisce quindi una nuova
partizione associando ogni punto
d'ingresso al cluster il cui centroide è più
vicino ad esso. Quindi vengono ricalcolati i
centroidi per i nuovi cluster e così via,
finché l'algoritmo non converge.
Può essere
oneroso da un
punto di vista
computazionale
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – QUALE ALGORITMO??
?
NON ESISTE UN UNICO, NÉ UN PIÙ OGGETTIVO, NÉ UN MIGLIOR CRITERIO DI RAGGRUPPAMENTO.
LA SCELTA DEL METODO PIÙ ADEGUATO E SCIENTIFICAMENTE VALIDO DIPENDE DALLA PROSPETTIVA!!
ESPLORAZIONE
TEST IPOTESI
RAPPRESENTAZIONE
DISCRIMINAZIONE
Qualora si voglia visualizzare nel dettaglio il pattern di similarità
complessivo senza assumere ipotesi di raggruppamento, gli
algoritmi gerarchici o metodi di clustering non esclusivo costituiscono
lo strumento più adeguato.
Tra gli algoritmi gerarchici , la selezione del più appropriato dipende
innanzi tutto dalla volontà di privilegiare :
- compattezza interna ai gruppi
- distanza tra i gruppi.
Nel primo caso, algoritmi divisivi o di Ward sono preferibili,
mentre nel secondo caso i metodi di legame o del
centroide sono più propri.
Qualora si voglia no testare ipotesi di raggruppamento, o si
abbiano informazioni pregresse circa:
- numero di gruppi
- composizione dei gruppi
- similarità minima tra elementi di uno stesso gruppo,
algoritmi esclusivi e non gerarchici (come il k-means o il
sequential threshold) costituiscono gli strumenti più
propri.
Possono essere usati anche sulla scorta delle informazioni
ottenute tramite esplorazione con algoritmi non esclusivi

IN OGNI CASO, È CRUCIALE ACQUISIRE ESTREMA CONFIDENZA CON IL DATASET ESAMINATO, ATTRAVERSO L’ESAME DIRETTO DEI DATI,
GRAFICI MULTIVARIATI E CONFRONTO TRA DIVERSI METODI DI RAGGRUPPAMENTO E MISURE DI SIMILARITÀ
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS)
> PAST
N.B.: I DATI DEVONO ESSERE ORGANIZZATI IN MODO CHE LE
SPECIE SIANO RIPORTATE NELLE COLONNE E I CAMPIONI
NELLE RIGHE
Sono disponibili diversi algoritmi di clustering , implementati con le
misure di similarità utilizzate da PAST. E’ possibile anche avviare una
procedura di ricampionamento (Bootstrapping), utile a stimare
l’affidabilità di ogni cluster individuato
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO
Step
1
Look at
the scale
2
> Training 2
Emergono molto diversi
dal pool complessivo i
campioni 5A, 6C, 5B, e
la Staz 12
> PAST
3
La maggior parte dei
clusters ha un livello di
similarità superiore a
0.6 (quindi appena
inferiore a quello tra i
campioni più simili)
I raggruppamenti
«minimi» (tra campioni)
si realizzano a similarità
0.7-0.8, che
rappresentano i valori
massimi tra campioni
I numeri in
corrispondenza delle
ramificazioni
indiicano la
ricorrenza (e quindii
la «significatività» )
del cluster
identificato, ottenuto
in seguito al
ricampionamento
(Bootstrapping)
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO
Step
1
Look at
the scale
2
> Training 2
Emergono molto diversi
dagli altri i clusters
formati dalla Staz. 12,
dal campione 5A e da
parte della Staz. 10
> PAST
3
Rispetto al Single
Linkage, UPMGA
individua clusters più
definiti , ma tuttavia
costituiti da campioni
provenienti da stazioni
spazialmente distanti
Rispetto al Single Linkage,
le similarità (medie ) tra
clusters sono inferiori.
Look at the scale!
I numeri in
corrispondenza delle
ramificazioni
indiicano la
ricorrenza (e quindii
la «significatività» )
del cluster
identificato, ottenuto
in seguito al
ricampionamento
(Bootstrapping)
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO
In base all’analisi di raggruppamento gerarchico, emergono due raggruppamenti principali (e non singolari, ovvero non composti
da campioni singoli) conservati in entrambi i metodi di clustering gerarchico: un cluster ristretto formato dalla Staz.12 ed uno molto
ampio formato da quasi tutti gli altri campioni
Tale raggruppamento ha significato ecologico in quanto la
Stazione 12 è collocata in un’area in cui le condizioni
ambientali sono diverse da quelle del corpo lacustre.
L’area è caratterizzata da presenza massiccia di macrofite,
minore circolazione dell’acqua e minore profondità
Tramite algoritmo K-means si sarebbero poi potute
verificare le seguenti ipotesi:
1) Se i campioni rispettano un raggruppamento per
stazione
2) Se i campioni rispettano il raggruppamento
individuato tramite analisi gerarchica
Tuttavia, questa metodologia, basata sulla varianza, è
propriamente usata solo nel caso di dati numerici continui,
per cui il suo uso è sconsigliabile con dati P/A.
1 km
> Training 2
> PAST