analisi multivariata - Dipartimento di Chimica

ANALISI MULTIVARIATA
Federico Marini
L’approccio multivariato
•  I dati analitici vengono normalmente registrati per
caratterizzare oggetti (rocce, alimenti, pazienti, etc)
•  Questa caratterizzazione è di norma relativamente
semplice quando per ciascun oggetto vengono misurate
poche (fino a 3) variabili.
•  Tuttavia le moderne strumentazioni (multielemento o
multisostanza) forniscono spesso molti segnali per ogni
campione che viene analizzato:
– 
– 
– 
– 
Cromatografia
Spettroscopia
Attivazione neutronica
…
•  Ad esempio, nella chimica analitica clinica un campione
di sangue è normalmente analizzato per almeno una
ventina di variabili
•  La questione centrale di questa parte del corso sarà
come estrarre la massima informazione da questi dati
Un primo esempio: chimica clinica e distribuzioni multivariate
•  La chimica clinica è uno dei campi dove si determinano molte
sostanze simultaneamente e dove viene prodotta un’enorme
quantità di dati
•  Sebbene i risultati misurati per le diverse variabili siano
spesso correlati fra di loro spesso i dati vengono analizzati
–  Una variabile alla volta (se un valore è più alto o più basso del
normale si sospetta che il paziente abbia una certa malattia)
–  Sequenzialmente (Se a è alto ma b è normale si traggono certe
conclusioni)
•  Tuttavia siccome i dati sono ottenuti simultaneamente e
riguardano lo stesso campione, sarebbe preferibile poterli
utilizzare simultaneamente invece che uno alla volta.
Chimica clinica e distribuzioni multivariate - 2
•  La figura mostra uno dei vantaggi dell’approccio multivariato
•  L’ellissoide mostra la regione che racchiude il 68.3% dei
campioni secondo un approccio bivariato
•  L’asse principale dell’ellissoide è obliquo perché i dati sono
correlati
•  Questo indica che il coefficiente di correlazione è uno dei
parametri che caratterizza dati bi- (e multi-)variati
•  Se uno avesse considerato i due dati separatamente, la
regione corrispondente allo stesso livello di probabilità sarebbe
il rettangolo centrale.
Distribuzioni multivariate - 3
•  Se avessimo seguito l’approccio univariato, diversi campioni
effettivamente normali (e riconosciuti come tali da uno studio
mulivariato) sarebbero stati dichiarati anomali perché cadono
al di fuori della regione delimitata dal rettangolo.
•  Questo ragionamento può essere generalizzato al caso di più
dimensioni
•  Il punto di partenza di uno studio multivariato è sempre una
matrice in cui per n oggetti (campioni) sono registrati m dati
(variabili o caratteristiche)
Informazioni sui dati
•  Talora i dati sperimentali possono essere corredati di
informazioni addizionali.
•  Informazioni riguardanti gli oggetti:
–  un indice di categoria
–  una quantità correlata con l’indice della riga (pH, tempo, …)
•  Informazioni riguardanti le variabili:
–  un indice per raggruppare le variabili in blocchi (il caso più semplice è
quando si abbiano molte variabili dipendenti e molte indipendenti)
–  una quantità correlata con l’indice della colonna (lunghezza d’onda,
tempo, …)
La strategia dell’analisi dei dati
•  La strategia più adatta dipende dalla natura del
problema da risolvere
•  Generalmente i problemi possono essere classificati
nelle seguenti categorie:
– 
– 
– 
– 
Esplorazione
Clustering
Classificazione
Regressione
Analisi esplorativa dei dati
•  Dall’analisi esplorativa dei dati si possono ottenere:
–  Informazioni sulle variabili (distribuzioni, correlazioni)
–  Informazioni sui campioni (outliers, clusters) e sulle relazioni tra
campioni e variabili
–  L’eliminazione di una parte del rumore presente all’interno dei
dati
–  L’eliminazione (o l’integrazione) dei dati mancanti
•  U n ’ a n a l i s i e s p l o r a t i v a d e i d a t i è c o m u n q u e
raccomandata anche nel caso dei problemi di altra natura
La necessità di visualizzare l’informazione
•  Un osservatore umano è abilissimo ad identificare patterns
–  Associare un carattere con un particolare suono
–  Riconoscere una persona da alcuni tratti salienti e distinguerla da altre
•  Un chimico (analitico) spesso sfrutta questa abilità umana per
interpretare i dati ottenuti.
•  Supponiamo che si determini una sola variabile (la quantità di
un analita x1) su più campioni.
•  Questi risultati possono essere riportati in un grafico come
questo:
•  Già visualizzando questo grafico si può dire che ci sono due
gruppi di oggetti tra loro correlati
•  In molti casi, una variabile da sola non sarò sufficiente e si
ricorrerà alla misura di una seconda o di una terza
La necessità di visualizzazione - 2
•  Ad esempio, se si volesse classificare delle rocce, la
determinazione del solo Ni potrebbe non bastare e si
potrebbe decidere di misurare anche Ge (sin.) e Ga (destra)
•  Anche in questo caso si concluderebbe facilmente che
esistono due gruppi di oggetti
•  Tuttavia tre variabili costituiscono il limite della nostra capacità
visuale
La sfida dell’analisi multivariata
•  Per quanto detto finora, se vogliamo sfruttare al meglio la
nostra capacità visuale dobbiamo trovare un modo di
rappresentare i dati in 2 o 3 dimensioni
•  Una parte significativa dell’analisi multivariata ha a che fare
con la domanda:
–  Come si può condensare un’informazione m-dimensionale in 2 o 3
dimensioni?
•  In molti degli esempi introduttivi che saranno discussi di
seguito vedremo come la possibilità di ottenere grafici
interpretabili e informativi rappresenti un aspetto importante.
Ridurre le variabili: come fare?
•  Per illustrare uno dei concetti chiave dell’analisi multivariata
consideriamo il caso bidimensionale
•  In questo spazio, la riduzione delle dimensioni può portare
esclusivamente ad uno spazio monodimensionale (punti su
una linea).
•  Una cosa del genere ha poca utilità pratica ma è facilmente
generalizzabile al caso ad m dimensioni
Ridurre le variabili - 2
•  Si possono considerare infinite direzioni per la linea su cui
proiettare i punti.
•  Esaminiamo le due rappresentate in figura:
–  Proiettando i punti su I1 la struttura originale dei dati è mantenuta
–  Si osservano due gruppi come se si considerasse entrambe le
variabili
–  Tutto ciò non accade lungo I2
•  La linea I1 è stata scelta in maniera tale da preservare la
massima variabilità tra i campioni
•  Questa rappresenta la definizione di una componente
principale
Ridurre le variabili - PC
•  La componente principale è una nuova variabile che descrive
gli oggetti ed è una combinazione delle vecchie variabili
•  Questa combinazione è lineare:
ui = axi1 + bxi 2
•  In una situazione tridimensionale, le dimensioni possono
essere ridotte ad 1 o 2
•  La selezione della prima componente principale è ancora
effettuata in maniera tale che trattenga la massima
variazione possibile
•  Nel caso si voglia una seconda componente, questa sarà
scelta ortogonale alla prima e che spieghi la maggior parte
della variazione non spiegata dalla precedente.
•  Nei fatti si è definito un piano su cui proiettare i punti
tridimensionali (o, per generalizzazione, m-dimensionali)
Ridurre le variabili – PC - 2
•  Da un’analisi delle componenti principali si ottengono due
risultati principali:
•  Una rappresentazione dei dati a bassa dimensionalità (spesso 2 o 3D)
che permette di osservare le relazioni tra campioni
•  I valori dei coefficienti a e b che indicano quanto le variabili originali
contribuiscano a determinare la struttura dei dati
Patterns
•  Prima il termine pattern è stato utilizzato in maniera intuitiva
•  Ad esempio la lettera “a” mostra caratteristiche che la rendono
unica rispetto alle altre lettere.
•  I nostri occhi e il nostro cervello usano queste caratteristiche
per identificare questa lettera e distinguerla dalle altre
•  Questa lista di caratteristiche rappresenta un pattern
•  Allo stesso modo, un campione descritto da molti risultati
analitici potrà definirsi come caratterizzato da un pattern di
variabili
•  Quello che si desidera è che tipologie diverse di campioni siano
rappresentate da patterns differenti tra loro
Patterns - 2
•  Ad esempio, immaginiamo di voler caratterizzare degli oli di
oliva provenienti da due regioni italiane e di aver misurato su
una serie di campioni la percentuale di due acidi grassi
•  Le due concentrazioni definiscono un spazio bi-dimensionale
e si vede che i campioni corrispondenti alle due regioni (A e
B) occupano regioni differenti di questo spazio
•  In queste condizioni è facile distinguere fra le due classi
•  Questo ragionamento può essere facilmente generalizzato
•  Ad es. se si hanno 10 acidi grassi si dovrà considerare uno
spazio 10-dimensionale
•  Ogni campione sarà quindi rappresentato da un punto in uno spazio a 10
dimensioni
•  Questo punto è descritto da un vettore
Pattern vector
•  Il vettore
–  x = [x1 x2 ….xm]
• 
• 
• 
• 
è composto dai risultati di m misure che costituiscono un set
di coordinate.
Ognuno di questi patterns costituisce una riga della matrice
dei dati
Le m variabili definiscono lo spazio del problema
Se uno fosse capace di visualizzare uno spazio del genere
così come si visualizzano gli spazi a 2 o 3 dimensioni
potrebbe rendersi subito conto della presenza di gruppi o
clusters
Il riconoscimento di patterns simili o l’identificazione di
clusters all’interno dei dati è quindi di particolare rilevanza
analitica
Similarità
•  In questo contesto, il termine “simili” è particolarmente
rilevante
•  Se si osserva la figura, si vede come tale termine assuma un
significato geometrico
•  Ad es a e b sono considerati più simili tra di loro che rispetto
a c, mentre d è decisamente differente da tutti e tre
•  Questo esempio in due dimensioni mostra come due oggetti
(o i vettori che li descrivono) sono considerati più simili
quando siano vicini tra di loro
Distanza e similarità
•  La distanza tra gli oggetti è quindi un indice della similarità tra
gli oggetti stessi
•  Una piccola distanza indica una grande similarità tra gli
oggetti
•  La distanza non è l’unico criterio per descrivere la
somiglianza tra i campioni
•  Si possono usare altri criteri, quali ad esempio la correlazione
Un secondo esempio: identificazione dei patterns
•  Più di 600 meteoriti rinvenuti sulla terra sono stati sottoposti
ad analisi inorganica
•  Sono stati identificati almeno 13 elementi (Ni, Ga, Ge, Ir, Au)
utili per la loro classificazione
•  Tale classificazione
è importante perché gli astronomi
ritengono che ogni gruppo venga da un corpo celeste
differente quindi permette di avere una maggiore
comprensione della storia astronomica
•  Il processo di classificazione è ampiamente usato dagli
uomini per comprendere la struttura di larghi set di oggetti e
per conoscere le interrelazioni tra gli oggetti stessi.
•  Un esempio di questo è la tassonomia delle piante, dove le
specie sono raggruppate in famiglie, le famiglie in classi, etc
sulla base di caratteristiche (numero di cotiledoni, formula
fiorale, …)
Identificazione dei patterns: tassonomia
Identificazione dei patterns: clustering
•  Analogamente, quando su un certo numero di oggetti sono
determinate diverse variabili è possibile applicare una tecnica
matematica per realizzare una suddivisione ottimale dei
campioni in gruppi
•  Lo strumento principale è il cosiddetto clustering e uno dei
suoi risultati più immediati è un grafico chiamato
dendrogramma
•  Il dendrogramma è uno strumento per visualizzare le
relazioni tra gli oggetti e per comprendere più a fondo la
suddivisione ottenuta.
•  Vediamo cosa si otterrebbe nel caso dei meteoriti
Dendrogramma
•  Si può osservare che:
–  I meteoriti 4,5,6,7,8,10,11 e 39 sono molto correlati tra di loro
–  Gli stessi meteoriti mostrano alcune similarità con i gruppi (9, 12, 13 e
14) e (34,36,37,38,40,41,43,46)
–  I meteoriti 26 e 3 sono piuttosto differenti da tutti gli altri
Riconoscimento di patterns: classificazione
•  L’esempio visto in precedenza si concentrava sulla possibilità
di identificare la presenza di gruppi di oggetti all’interno del set
di dati
•  Per introdurre un’altra importante applicazione dell’analisi
multivariata, in qualche modo correlata al clustering, partiamo
da un altro esempio legato al problema dell’autenticazione
degli alimenti, ovvero la verifica che un cibo provenga da
un’origine dichiarata
•  Supponiamo di voler derivare una regola che ci permetta di
discriminare tra oli di differenti regioni italiane (ad esempio 9)
•  Supponiamo inoltre di aver analizzato un certo numero di oli di
sicura provenienza per il loro contenuto in acidi grassi
•  Quello che ci si chiede è se a partire da questi risultati sia
possibile derivare una procedura per stabilire l’origine di nuovi
campioni
Classificazione – supervised pattern recognition
•  Usando la terminologia rigorosa della pattern recognition:
“Usa i campioni di training (quelli di origine nota) per derivare
una regola di classificazione che permetta di assegnare
(classificare) i campioni incogniti (quelli di cui non si conosce
l’origine) in una delle classi a disposizione (nell’esempio le 9
regioni studiate)”
•  Il fatto che in questo caso l’esistenza di gruppi o classi
all’interno dei dati sia data per certa e che questa
informazione venga usata attivamente nella messa a punto
del modello matematico rende queste tecniche diverse da
quelle illustrate negli esempi precedenti
•  Per questo si parla di supervised pattern recognition
Classificazione
•  Matematicamente questo significa che si devono assegnare
le porzioni dello spazio m-dimensionale (8D nell’es) alle (9)
classi
•  Ogni nuovo campione viene quindi assegnato alla classe che
occupa la porzione di spazio in cui si trova il campione stesso
Pretrattamento dei dati
•  Il primo e fondamentale passaggio dell’analisi multivariata
dei dati consiste nel trasformare i dati stessi nella forma più
adatta al problema da risolvere.
•  In particolare, è necessario operare sulle variabili o sui
campioni per eliminare fonti indesiderate di variabilità
(scalatura)
•  Inoltre bisogna stabilire come comportarsi in presenza di dati
mancanti (eliminazione della riga oppure correzione a
posteriori)
Operazioni sulle colonne
•  Le operazioni di scalatura che coinvolgono le colonne della
matrice dei dati si rendono necessarie quando le variabili
siano definite da unità di misura differenti
•  Lo scopo è di eliminare il contributo alla varianza totale
dovuto esclusivamente ai differenti ordini di grandezza
coinvolti
•  Questo tipo di pretrattamenti non va effettuato quando si
ritiene che la differenza nei valori misurati sia significativa per
definire il problema in esame
Operazioni sulle colonne - 2
•  Range scaling: si trasforma ciascuna variabile in modo da
farle assumere valori compresi tra 0 e 1
xij′ =
xij − xmin, j
xmax, j − xmin, j
"   Il range scaling – per come è definito – è particolarmente
sensibile agli outlier.
"   La trasformazione più utilizzata è l’autoscaling:
xij′ =
xij − x j
sj
Operazioni sulle colonne
…e quando non farlo…
•  Non sempre risulta utile operare sulle colonne. La scelta sulla
trasformazione delle variabili deve sempre essere guidata dal
senso chimico.
•  Se l’informazione sullo zero della scala di misura è importante,
allora i dati non devono essere centrati
•  Allo stesso tempo, se la differenza in termini di ordini di
grandezza tra una variabile e l’altra è ritenuta significativa (ad
esempio quando le variabili corrispondano alle diverse
lunghezze d’onda di uno spettro) è opportuno non scalare i dati
Operazioni sulle righe
•  Allo stesso modo, anche se è meno frequente, si possono
pretrattare i dati operando sulle righe della matrice.
•  La trasformazione più utilizzata consiste nel vincolare la
somma dei termini di ciascuna riga (o dei loro quadrati) ad
assumere un valore costante:
∑ j xij′ = k
oppure
2
′
∑ j xij = k ∀i
•  Anche in questo caso deve essere la natura chimica del
problema a suggerire quando e se operare il pretrattamento