ANALISI MULTIVARIATA Federico Marini L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc) • Questa caratterizzazione è di norma relativamente semplice quando per ciascun oggetto vengono misurate poche (fino a 3) variabili. • Tuttavia le moderne strumentazioni (multielemento o multisostanza) forniscono spesso molti segnali per ogni campione che viene analizzato: – – – – Cromatografia Spettroscopia Attivazione neutronica … • Ad esempio, nella chimica analitica clinica un campione di sangue è normalmente analizzato per almeno una ventina di variabili • La questione centrale di questa parte del corso sarà come estrarre la massima informazione da questi dati Un primo esempio: chimica clinica e distribuzioni multivariate • La chimica clinica è uno dei campi dove si determinano molte sostanze simultaneamente e dove viene prodotta un’enorme quantità di dati • Sebbene i risultati misurati per le diverse variabili siano spesso correlati fra di loro spesso i dati vengono analizzati – Una variabile alla volta (se un valore è più alto o più basso del normale si sospetta che il paziente abbia una certa malattia) – Sequenzialmente (Se a è alto ma b è normale si traggono certe conclusioni) • Tuttavia siccome i dati sono ottenuti simultaneamente e riguardano lo stesso campione, sarebbe preferibile poterli utilizzare simultaneamente invece che uno alla volta. Chimica clinica e distribuzioni multivariate - 2 • La figura mostra uno dei vantaggi dell’approccio multivariato • L’ellissoide mostra la regione che racchiude il 68.3% dei campioni secondo un approccio bivariato • L’asse principale dell’ellissoide è obliquo perché i dati sono correlati • Questo indica che il coefficiente di correlazione è uno dei parametri che caratterizza dati bi- (e multi-)variati • Se uno avesse considerato i due dati separatamente, la regione corrispondente allo stesso livello di probabilità sarebbe il rettangolo centrale. Distribuzioni multivariate - 3 • Se avessimo seguito l’approccio univariato, diversi campioni effettivamente normali (e riconosciuti come tali da uno studio mulivariato) sarebbero stati dichiarati anomali perché cadono al di fuori della regione delimitata dal rettangolo. • Questo ragionamento può essere generalizzato al caso di più dimensioni • Il punto di partenza di uno studio multivariato è sempre una matrice in cui per n oggetti (campioni) sono registrati m dati (variabili o caratteristiche) Informazioni sui dati • Talora i dati sperimentali possono essere corredati di informazioni addizionali. • Informazioni riguardanti gli oggetti: – un indice di categoria – una quantità correlata con l’indice della riga (pH, tempo, …) • Informazioni riguardanti le variabili: – un indice per raggruppare le variabili in blocchi (il caso più semplice è quando si abbiano molte variabili dipendenti e molte indipendenti) – una quantità correlata con l’indice della colonna (lunghezza d’onda, tempo, …) La strategia dell’analisi dei dati • La strategia più adatta dipende dalla natura del problema da risolvere • Generalmente i problemi possono essere classificati nelle seguenti categorie: – – – – Esplorazione Clustering Classificazione Regressione Analisi esplorativa dei dati • Dall’analisi esplorativa dei dati si possono ottenere: – Informazioni sulle variabili (distribuzioni, correlazioni) – Informazioni sui campioni (outliers, clusters) e sulle relazioni tra campioni e variabili – L’eliminazione di una parte del rumore presente all’interno dei dati – L’eliminazione (o l’integrazione) dei dati mancanti • U n ’ a n a l i s i e s p l o r a t i v a d e i d a t i è c o m u n q u e raccomandata anche nel caso dei problemi di altra natura La necessità di visualizzare l’informazione • Un osservatore umano è abilissimo ad identificare patterns – Associare un carattere con un particolare suono – Riconoscere una persona da alcuni tratti salienti e distinguerla da altre • Un chimico (analitico) spesso sfrutta questa abilità umana per interpretare i dati ottenuti. • Supponiamo che si determini una sola variabile (la quantità di un analita x1) su più campioni. • Questi risultati possono essere riportati in un grafico come questo: • Già visualizzando questo grafico si può dire che ci sono due gruppi di oggetti tra loro correlati • In molti casi, una variabile da sola non sarò sufficiente e si ricorrerà alla misura di una seconda o di una terza La necessità di visualizzazione - 2 • Ad esempio, se si volesse classificare delle rocce, la determinazione del solo Ni potrebbe non bastare e si potrebbe decidere di misurare anche Ge (sin.) e Ga (destra) • Anche in questo caso si concluderebbe facilmente che esistono due gruppi di oggetti • Tuttavia tre variabili costituiscono il limite della nostra capacità visuale La sfida dell’analisi multivariata • Per quanto detto finora, se vogliamo sfruttare al meglio la nostra capacità visuale dobbiamo trovare un modo di rappresentare i dati in 2 o 3 dimensioni • Una parte significativa dell’analisi multivariata ha a che fare con la domanda: – Come si può condensare un’informazione m-dimensionale in 2 o 3 dimensioni? • In molti degli esempi introduttivi che saranno discussi di seguito vedremo come la possibilità di ottenere grafici interpretabili e informativi rappresenti un aspetto importante. Ridurre le variabili: come fare? • Per illustrare uno dei concetti chiave dell’analisi multivariata consideriamo il caso bidimensionale • In questo spazio, la riduzione delle dimensioni può portare esclusivamente ad uno spazio monodimensionale (punti su una linea). • Una cosa del genere ha poca utilità pratica ma è facilmente generalizzabile al caso ad m dimensioni Ridurre le variabili - 2 • Si possono considerare infinite direzioni per la linea su cui proiettare i punti. • Esaminiamo le due rappresentate in figura: – Proiettando i punti su I1 la struttura originale dei dati è mantenuta – Si osservano due gruppi come se si considerasse entrambe le variabili – Tutto ciò non accade lungo I2 • La linea I1 è stata scelta in maniera tale da preservare la massima variabilità tra i campioni • Questa rappresenta la definizione di una componente principale Ridurre le variabili - PC • La componente principale è una nuova variabile che descrive gli oggetti ed è una combinazione delle vecchie variabili • Questa combinazione è lineare: ui = axi1 + bxi 2 • In una situazione tridimensionale, le dimensioni possono essere ridotte ad 1 o 2 • La selezione della prima componente principale è ancora effettuata in maniera tale che trattenga la massima variazione possibile • Nel caso si voglia una seconda componente, questa sarà scelta ortogonale alla prima e che spieghi la maggior parte della variazione non spiegata dalla precedente. • Nei fatti si è definito un piano su cui proiettare i punti tridimensionali (o, per generalizzazione, m-dimensionali) Ridurre le variabili – PC - 2 • Da un’analisi delle componenti principali si ottengono due risultati principali: • Una rappresentazione dei dati a bassa dimensionalità (spesso 2 o 3D) che permette di osservare le relazioni tra campioni • I valori dei coefficienti a e b che indicano quanto le variabili originali contribuiscano a determinare la struttura dei dati Patterns • Prima il termine pattern è stato utilizzato in maniera intuitiva • Ad esempio la lettera “a” mostra caratteristiche che la rendono unica rispetto alle altre lettere. • I nostri occhi e il nostro cervello usano queste caratteristiche per identificare questa lettera e distinguerla dalle altre • Questa lista di caratteristiche rappresenta un pattern • Allo stesso modo, un campione descritto da molti risultati analitici potrà definirsi come caratterizzato da un pattern di variabili • Quello che si desidera è che tipologie diverse di campioni siano rappresentate da patterns differenti tra loro Patterns - 2 • Ad esempio, immaginiamo di voler caratterizzare degli oli di oliva provenienti da due regioni italiane e di aver misurato su una serie di campioni la percentuale di due acidi grassi • Le due concentrazioni definiscono un spazio bi-dimensionale e si vede che i campioni corrispondenti alle due regioni (A e B) occupano regioni differenti di questo spazio • In queste condizioni è facile distinguere fra le due classi • Questo ragionamento può essere facilmente generalizzato • Ad es. se si hanno 10 acidi grassi si dovrà considerare uno spazio 10-dimensionale • Ogni campione sarà quindi rappresentato da un punto in uno spazio a 10 dimensioni • Questo punto è descritto da un vettore Pattern vector • Il vettore – x = [x1 x2 ….xm] • • • • è composto dai risultati di m misure che costituiscono un set di coordinate. Ognuno di questi patterns costituisce una riga della matrice dei dati Le m variabili definiscono lo spazio del problema Se uno fosse capace di visualizzare uno spazio del genere così come si visualizzano gli spazi a 2 o 3 dimensioni potrebbe rendersi subito conto della presenza di gruppi o clusters Il riconoscimento di patterns simili o l’identificazione di clusters all’interno dei dati è quindi di particolare rilevanza analitica Similarità • In questo contesto, il termine “simili” è particolarmente rilevante • Se si osserva la figura, si vede come tale termine assuma un significato geometrico • Ad es a e b sono considerati più simili tra di loro che rispetto a c, mentre d è decisamente differente da tutti e tre • Questo esempio in due dimensioni mostra come due oggetti (o i vettori che li descrivono) sono considerati più simili quando siano vicini tra di loro Distanza e similarità • La distanza tra gli oggetti è quindi un indice della similarità tra gli oggetti stessi • Una piccola distanza indica una grande similarità tra gli oggetti • La distanza non è l’unico criterio per descrivere la somiglianza tra i campioni • Si possono usare altri criteri, quali ad esempio la correlazione Un secondo esempio: identificazione dei patterns • Più di 600 meteoriti rinvenuti sulla terra sono stati sottoposti ad analisi inorganica • Sono stati identificati almeno 13 elementi (Ni, Ga, Ge, Ir, Au) utili per la loro classificazione • Tale classificazione è importante perché gli astronomi ritengono che ogni gruppo venga da un corpo celeste differente quindi permette di avere una maggiore comprensione della storia astronomica • Il processo di classificazione è ampiamente usato dagli uomini per comprendere la struttura di larghi set di oggetti e per conoscere le interrelazioni tra gli oggetti stessi. • Un esempio di questo è la tassonomia delle piante, dove le specie sono raggruppate in famiglie, le famiglie in classi, etc sulla base di caratteristiche (numero di cotiledoni, formula fiorale, …) Identificazione dei patterns: tassonomia Identificazione dei patterns: clustering • Analogamente, quando su un certo numero di oggetti sono determinate diverse variabili è possibile applicare una tecnica matematica per realizzare una suddivisione ottimale dei campioni in gruppi • Lo strumento principale è il cosiddetto clustering e uno dei suoi risultati più immediati è un grafico chiamato dendrogramma • Il dendrogramma è uno strumento per visualizzare le relazioni tra gli oggetti e per comprendere più a fondo la suddivisione ottenuta. • Vediamo cosa si otterrebbe nel caso dei meteoriti Dendrogramma • Si può osservare che: – I meteoriti 4,5,6,7,8,10,11 e 39 sono molto correlati tra di loro – Gli stessi meteoriti mostrano alcune similarità con i gruppi (9, 12, 13 e 14) e (34,36,37,38,40,41,43,46) – I meteoriti 26 e 3 sono piuttosto differenti da tutti gli altri Riconoscimento di patterns: classificazione • L’esempio visto in precedenza si concentrava sulla possibilità di identificare la presenza di gruppi di oggetti all’interno del set di dati • Per introdurre un’altra importante applicazione dell’analisi multivariata, in qualche modo correlata al clustering, partiamo da un altro esempio legato al problema dell’autenticazione degli alimenti, ovvero la verifica che un cibo provenga da un’origine dichiarata • Supponiamo di voler derivare una regola che ci permetta di discriminare tra oli di differenti regioni italiane (ad esempio 9) • Supponiamo inoltre di aver analizzato un certo numero di oli di sicura provenienza per il loro contenuto in acidi grassi • Quello che ci si chiede è se a partire da questi risultati sia possibile derivare una procedura per stabilire l’origine di nuovi campioni Classificazione – supervised pattern recognition • Usando la terminologia rigorosa della pattern recognition: “Usa i campioni di training (quelli di origine nota) per derivare una regola di classificazione che permetta di assegnare (classificare) i campioni incogniti (quelli di cui non si conosce l’origine) in una delle classi a disposizione (nell’esempio le 9 regioni studiate)” • Il fatto che in questo caso l’esistenza di gruppi o classi all’interno dei dati sia data per certa e che questa informazione venga usata attivamente nella messa a punto del modello matematico rende queste tecniche diverse da quelle illustrate negli esempi precedenti • Per questo si parla di supervised pattern recognition Classificazione • Matematicamente questo significa che si devono assegnare le porzioni dello spazio m-dimensionale (8D nell’es) alle (9) classi • Ogni nuovo campione viene quindi assegnato alla classe che occupa la porzione di spazio in cui si trova il campione stesso Pretrattamento dei dati • Il primo e fondamentale passaggio dell’analisi multivariata dei dati consiste nel trasformare i dati stessi nella forma più adatta al problema da risolvere. • In particolare, è necessario operare sulle variabili o sui campioni per eliminare fonti indesiderate di variabilità (scalatura) • Inoltre bisogna stabilire come comportarsi in presenza di dati mancanti (eliminazione della riga oppure correzione a posteriori) Operazioni sulle colonne • Le operazioni di scalatura che coinvolgono le colonne della matrice dei dati si rendono necessarie quando le variabili siano definite da unità di misura differenti • Lo scopo è di eliminare il contributo alla varianza totale dovuto esclusivamente ai differenti ordini di grandezza coinvolti • Questo tipo di pretrattamenti non va effettuato quando si ritiene che la differenza nei valori misurati sia significativa per definire il problema in esame Operazioni sulle colonne - 2 • Range scaling: si trasforma ciascuna variabile in modo da farle assumere valori compresi tra 0 e 1 xij′ = xij − xmin, j xmax, j − xmin, j " Il range scaling – per come è definito – è particolarmente sensibile agli outlier. " La trasformazione più utilizzata è l’autoscaling: xij′ = xij − x j sj Operazioni sulle colonne …e quando non farlo… • Non sempre risulta utile operare sulle colonne. La scelta sulla trasformazione delle variabili deve sempre essere guidata dal senso chimico. • Se l’informazione sullo zero della scala di misura è importante, allora i dati non devono essere centrati • Allo stesso tempo, se la differenza in termini di ordini di grandezza tra una variabile e l’altra è ritenuta significativa (ad esempio quando le variabili corrispondano alle diverse lunghezze d’onda di uno spettro) è opportuno non scalare i dati Operazioni sulle righe • Allo stesso modo, anche se è meno frequente, si possono pretrattare i dati operando sulle righe della matrice. • La trasformazione più utilizzata consiste nel vincolare la somma dei termini di ciascuna riga (o dei loro quadrati) ad assumere un valore costante: ∑ j xij′ = k oppure 2 ′ ∑ j xij = k ∀i • Anche in questo caso deve essere la natura chimica del problema a suggerire quando e se operare il pretrattamento