UNIVERSITA’ DEGLI STUDI DI PERUGIA Dipartimento di Chimica, Biologia e Biotecnologie Via Elce di Sotto, 06123 –Perugia Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale Corso di ANALISI DEI SISTEMI ECOLOGICI Sito del corso: www.dcbb.unipg.it/cdlscienzebiomol Alessandro Ludovisi Sito docente: www.dcbb.unipg.it/alessandro.ludovisi Tel. 075 585 5712 e-mail address: [email protected] METODI STATISTICI 2 ANALISI DI RAGGRUPPAMENTO (CLUSTER ANALYSIS) ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) ALGORITMI DI RAGGRUPPAMENTO GERARCHICI Gli algoritmi gerarchici individuano sequenze di gruppi ordinate secondo similarità crescente (o decrescente) tra gli elementi (campioni) o gruppi di essi. Non presuppongono un numero di gruppi (clusters) predefinito e producono gerarchie di similarità tipicamente rappresentate in forma di albero (dendrogramma) NON GERARCHICI Gli algoritmi non gerarchici separano l’insieme dei campioni sulla base di soglie di similarità definite (sequential or parallel threshold) o sulla base di un numero di cluster definiti (k-means). Presuppongono di fatto che vengano fatte (o verificate) ipotesi sull’aggregazione dei dati ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) Gli algoritmi di raggruppamento possono essere schematizzate in base alla rigidità con cui classificano i dati: Cluster reticolato con probabilità di appartenenza dei • CLUSTERING ESCLUSIVO: ogni elemento può essere assegnato ad uno e ad un solo gruppo. Quindi i cluster risultanti non possono avere elementi in comune. Questo approccio è detto anche hard clustering. L’algoritmo K-means ne è un esempio. • CLUSTERING NON-ESCLUSIVO: un elemento può appartenere a più cluster con gradi di appartenenza diversi. Questo approccio è noto anche con il nome di soft clustering o fuzzy clustering, dal termine usato per indicare la logica fuzzy. L’algoritmo MCL ne è un esempio N.B.: Nel caso di clustering gerarchico (dendrogramma), l’appartenenza a gruppi non è determinata, ma può essere attribuita in base al livello di similarità (ove esplicitato). campioni ad ogni dato gruppo, ottenuta con MCL (Markov Cluster Algorithm) Mapping of the phage clusters onto the phage population network. Each node is depicted as a pie chart with the wedges representing the fraction of its edges belonging to the different clusters (Lima-Mendez et al., 2016) ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) ALGORITMI GERARCHICI AGGREGATIVI DIVISIVI 3 Gli algoritmi aggregativi aggregano progressivamente i elementi a partire dai campioni (o gruppi di campioni) più simili e poi progressivamente meno simili, fino al gruppo più inclusivo (tutti i campioni) Gli algoritmi divisivi (o scissori) partono dal gruppo più inclusivo (tutti i campioni) e lo suddividono progressivamente in clusters più ristretti, escludendo progressivamente elementi dal cluster 2 1 1 2 3 ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) DIVISIVI Nei metodi di clustering divisivi il primo passaggio consiste nell’individuare il cluster da suddividere in due sottogruppi. Per questa ragione sono necessarie funzioni che misurino la compattezza del cluster, la densità o la sparsità dei punti assegnati ad un cluster. Le funzioni normalmente utilizzate nel caso divisivo sono: • AVERAGE INTERNAL SIMILARITY - Questa funzione valuta la similarità media tra i dati interni ad un cluster: più sono tra loro dissimili (valori bassi di similarità), più il cluster è da suddividere in sottogruppi • MAXIMUM INTERNAL DISTANCE : Questa funzione valuta la distanza massima tra due punti interni ad un cluster. Tale valore è noto anche come 'diametro del cluster‘. Minore è il diametro, più il cluster è compatto • CLUSTERING DENSITY-BASED: il raggruppamento avviene analizzando l'intorno di ogni punto dello spazio. In particolare, viene considerata la densità di punti in un intorno di raggio fissato. Un esempio è il metodo di clustering Dbscan. ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) ALGORITMI AGGREGATIVI LEGAME (LINKAGE) Gli algoritmi di legame utilizzano la distanza tra i dati grezzi come criterio di aggregazione: • SINGLE LINKAGE (Nearest Neighbour, ovvero il vicino più vicino): definisce la distanza tra i due cluster come la distanza minima tra elementi appartenenti a cluster diversi. Tende a produrre clusters a catena ed è molto usato nella classificazione tassonomica. Sovrastima la similarità tra gruppi • COMPLETE LINKAGE (Farthest Neighbour, ovvero il vicino più lontano):definisce la distanza tra i due cluster come la distanza massima tra elementi appartenenti a cluster diversi. Tende a separare clusters molto ampi. Sottostima la similarità tra gruppi • UPGMA (Unweighted Pair-Groups Method) e WPGMA (Weighted Pair-Groups Method): definisce la distanza tra i due cluster come la distanza media tra tutti gli elementi appartenenti a cluster diversi. UPMGA è tra i metodi di applicabilità e affidabilità più ampi. ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) ALGORITMI AGGREGATIVI LEGAME (LINKAGE) Tra gli algoritmi di legame : • NEIGHBOR JOINING : è un metodo sviluppato per la creazione di alberi filogenetici che trova applicazione anche in ambito ecologico. Normalmente usato con dati di sequenze proteiche o nucleotidiche, è basato sulla distanza tra coppie di taxa (specie o sequenze) per formare dendrogrammi. • L’algoritmo lavora costruendo una rete a stella (star network) centrata nel centro della nube, aggrega i primi due elementi creando un nuovo elemento topologico che procede in direzione del centro topologico. Il nuovo elemento viene a sua volta trattato come nuovo dato e aggreagato progressivamente fino al raggiungimento del centro ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) ALGORITMI AGGREGATIVI LEGAME (LINKAGE) CENTROIDE WARD Il metodo del CENTROIDE o UPGMC (Unweighted Pair-Groups Method Centroid), definisce la distanza tra due clusters come la distanza tra i centroidi, che rappresentano il centro (ovvero la media posizione) di una nube di punti Il metodo di Ward è basato sul criterio di minimizzazione di una qualche «funzione oggettiva» che soddisfa le esigenze dell’investigatore. La funzione oggettiva proposta da Ward era la somma degli scarti quadratici medi, per cui il metodo di Ward è noto come il metodo della minima varianza, per il quale l’aggregazione procede secondo varianza entro gruppi crescente E’ utilizzabile solo con dati numerici e utilizza la distanza Euclidea per il primo step di aggregazione Ward ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) NON GERARCHICI L'algoritmo K-MEANS è un algoritmo di clustering partizionale che impone di minimizzare la varianza totale intra-cluster. Ogni cluster viene identificato mediante un centroide o punto medio. L'algoritmo segue una procedura iterativa. Inizialmente crea K partizioni e assegna ad ogni partizione i punti d'ingresso o casualmente o usando alcune informazioni euristiche. Quindi calcola il centroide di ogni gruppo. Costruisce quindi una nuova partizione associando ogni punto d'ingresso al cluster il cui centroide è più vicino ad esso. Quindi vengono ricalcolati i centroidi per i nuovi cluster e così via, finché l'algoritmo non converge. Può essere oneroso da un punto di vista computazionale ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – QUALE ALGORITMO?? ? NON ESISTE UN UNICO, NÉ UN PIÙ OGGETTIVO, NÉ UN MIGLIOR CRITERIO DI RAGGRUPPAMENTO. LA SCELTA DEL METODO PIÙ ADEGUATO E SCIENTIFICAMENTE VALIDO DIPENDE DALLA PROSPETTIVA!! ESPLORAZIONE TEST IPOTESI RAPPRESENTAZIONE DISCRIMINAZIONE Qualora si voglia visualizzare nel dettaglio il pattern di similarità complessivo senza assumere ipotesi di raggruppamento, gli algoritmi gerarchici o metodi di clustering non esclusivo costituiscono lo strumento più adeguato. Tra gli algoritmi gerarchici , la selezione del più appropriato dipende innanzi tutto dalla volontà di privilegiare : - compattezza interna ai gruppi - distanza tra i gruppi. Nel primo caso, algoritmi divisivi o di Ward sono preferibili, mentre nel secondo caso i metodi di legame o del centroide sono più propri. Qualora si voglia no testare ipotesi di raggruppamento, o si abbiano informazioni pregresse circa: - numero di gruppi - composizione dei gruppi - similarità minima tra elementi di uno stesso gruppo, algoritmi esclusivi e non gerarchici (come il k-means o il sequential threshold) costituiscono gli strumenti più propri. Possono essere usati anche sulla scorta delle informazioni ottenute tramite esplorazione con algoritmi non esclusivi IN OGNI CASO, È CRUCIALE ACQUISIRE ESTREMA CONFIDENZA CON IL DATASET ESAMINATO, ATTRAVERSO L’ESAME DIRETTO DEI DATI, GRAFICI MULTIVARIATI E CONFRONTO TRA DIVERSI METODI DI RAGGRUPPAMENTO E MISURE DI SIMILARITÀ ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) > PAST N.B.: I DATI DEVONO ESSERE ORGANIZZATI IN MODO CHE LE SPECIE SIANO RIPORTATE NELLE COLONNE E I CAMPIONI NELLE RIGHE Sono disponibili diversi algoritmi di clustering , implementati con le misure di similarità utilizzate da PAST. E’ possibile anche avviare una procedura di ricampionamento (Bootstrapping), utile a stimare l’affidabilità di ogni cluster individuato ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO Step 1 Look at the scale 2 > Training 2 Emergono molto diversi dal pool complessivo i campioni 5A, 6C, 5B, e la Staz 12 > PAST 3 La maggior parte dei clusters ha un livello di similarità superiore a 0.6 (quindi appena inferiore a quello tra i campioni più simili) I raggruppamenti «minimi» (tra campioni) si realizzano a similarità 0.7-0.8, che rappresentano i valori massimi tra campioni I numeri in corrispondenza delle ramificazioni indiicano la ricorrenza (e quindii la «significatività» ) del cluster identificato, ottenuto in seguito al ricampionamento (Bootstrapping) ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO Step 1 Look at the scale 2 > Training 2 Emergono molto diversi dagli altri i clusters formati dalla Staz. 12, dal campione 5A e da parte della Staz. 10 > PAST 3 Rispetto al Single Linkage, UPMGA individua clusters più definiti , ma tuttavia costituiti da campioni provenienti da stazioni spazialmente distanti Rispetto al Single Linkage, le similarità (medie ) tra clusters sono inferiori. Look at the scale! I numeri in corrispondenza delle ramificazioni indiicano la ricorrenza (e quindii la «significatività» ) del cluster identificato, ottenuto in seguito al ricampionamento (Bootstrapping) ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO In base all’analisi di raggruppamento gerarchico, emergono due raggruppamenti principali (e non singolari, ovvero non composti da campioni singoli) conservati in entrambi i metodi di clustering gerarchico: un cluster ristretto formato dalla Staz.12 ed uno molto ampio formato da quasi tutti gli altri campioni Tale raggruppamento ha significato ecologico in quanto la Stazione 12 è collocata in un’area in cui le condizioni ambientali sono diverse da quelle del corpo lacustre. L’area è caratterizzata da presenza massiccia di macrofite, minore circolazione dell’acqua e minore profondità Tramite algoritmo K-means si sarebbero poi potute verificare le seguenti ipotesi: 1) Se i campioni rispettano un raggruppamento per stazione 2) Se i campioni rispettano il raggruppamento individuato tramite analisi gerarchica Tuttavia, questa metodologia, basata sulla varianza, è propriamente usata solo nel caso di dati numerici continui, per cui il suo uso è sconsigliabile con dati P/A. 1 km > Training 2 > PAST