5. L`Analisi delle Componenti Principali

E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
5. L’Analisi delle Componenti Principali (PCA)
Analisi della Varianza
PCA e diagonalizzazione della matrice di covarianza
Scores e Loadings
Sviluppo di matrici e residui
Applicazioni all’analisi delle immagini
Applicazione alla regressione multivariata: Principal
Components Regression (PCR)
1
5. Analisi delle Componenti Principali
E.Martinelli
Lo spazio degli osservabili
•
Ogni misurazioni multivariata è rappresentata
da un vettore in uno spazio a N dimensioni
•
•
La distribuzione statistica dei punti (vettori)
definisce le proprietà dell’intero set di dati.
Per ogni grandezza multivariata
rappresentabile in uno spazio vettoriale a
dimensione N possiamo definre una PDF
multivariata.
variabler 2
– N è pari alla dimensione del vettore che esprime
la osservazione
ble
ria
Va
n
S={S1,…,Sn}
variable 1
– Corollario di grande importanza: osservazioni
che descrivono campioni simili sono
rappresentate da punti vicini
– Relazione quindi tra distanza reciproca e
similitudine tra campioni (Ipotesi base della
pattern recognition)
2
1
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Statistica descrittiva multivariata
•
Come per una distribuzione univariata possiamo definire i descrittori
fondamentali:
– Media
– Varianza
–
•
scalare ! vettore
scalare ! matrice (matrice di covarianza)
….
La distribuzione normale definita per una variabile univariata conserva
la sua importanza nella statisica multivariata
3
5. Analisi delle Componenti Principali
E.Martinelli
La matrice di covarianza
•
La varianza di una distribuzione univariata definisce la ampiezza della
distribuzione stessa, in pratica il range di valori della variabile che hanno
una probabilità “reale” di essere osservati
– In pratica il 99% della probabilità si ottiene in un range ampio 3" attorno al
valore medio.
•
•
•
Poiché la normale è simmetrica attorno al valore medio i punti di
isoprobabilità sono 2 a distanza uguale dalla media
In una distribuzione multivariata la matrice di covarianza definisce
l’ampiezza della PDF e definisce il grado di correlazione tra le variabili
stesse.
Il luogo dei punti di isoprobabilità è una ellisse ottenuta come forma
quadratica avente come matrice la matrice di covarianza
– Esponente della PDF multivariata
• La matrice di covarianza può essere stimata dai dati come:
cov(xy)=
xT y .
cov(xy)=x
4
2
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Colinearità
•
•
In un problema MLR la soluzione, stima della variabili x, si ottiene
invertendo (meglio pseudoinvertendo) la matrice degli osservabili y
Tale operazione è possibile se il rango della matrice y è massimo cioè
se il numero di colonne linearmente indipendenti coincide con il
numero di colonne della matrice.
– Cioè se tutte gli osservabili sono linearmente indipendenti tra di loro
•
•
Se esiste una parziale dipendenza, cioè se i coefficienti della
combinazione lineare sono rigorosamente non nulli, l’inversione
numerica della matrice comporta grossi errori di calcolo
Questo effetto si chiama “colinearità”
5
5. Analisi delle Componenti Principali
E.Martinelli
Esempio di colinearità
– Sono colineari le variabili che dipendono quantitativamente da caratteristiche
del campione
Spettro NIR di frutti
Variabili colineari
0.12
0.1
0.08
0.1
0.06
0.08
0.04
0.02
Absorbance
•
In uno spettro ottico le righe spettrali coprono un intervallo di lunghezze
d’onda, tale intervallo è generalmente coperto da più canali spettrali, di
modo che più variabili concorrono a formare una riga spettrale.
Se la riga è proporzionale ad una caratteristica del campione (es.
concentrazione di glucosio) tutti i canali spettrali relativi alla riga saranno
in egual modo proporzionali alla caratteristica del campione, quindi le
relative variabili (colonne nella matrice dei dati) risulteranno colineari
Absorbance
•
TextEnd
0
0.06
TextEnd
0.04
-0.02
0.02
6
-0.04
-0.06
1000
0
1500
2000
Wavelenght [nm]
2500
1840
1860
1880
1900
Wavelenght [nm]
1920
1940
3
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Colinearità e matrice di covarianza
•
•
•
•
La colinearità si esprime attraverso la matrice di covarianza.
In caso di colinearità i termini non diagonali della matrice di covarianza
sono diversi da zero.
Rimuovere la colinearità quindi significa ridurre la matrice di
covarianza in forma diagonale introducendo delle nuove variabili
latenti.
La tecnica della analisi delle componenti principali consente, tra le altre
cose, di ottenere questo risultato.
7
5. Analisi delle Componenti Principali
E.Martinelli
Esempio di matrici di covarianza e luoghi
di punti isoprobabili
•
Ci sono tre esempi notevoli di matrici di covarianza in termini di
correlazione tra le variabili.
– Come esempio usiamo una distribuzione bivariata
#"
! =%
$0
0 &
2" ('
Variabili scorrelate
Varianze diverse
#" 0 &
! =%
$ 0 " ('
Variabili scorrelate
Varianze uguale
$#
" =& x
%# xy
# xy '
)
#y(
Variabili correlate8
Varianze diverse
!
4
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
PDF multivariata e matrice di covarianza
•
•
La normale multivariata ha senso solo se la matrice di covarianza
descrive grandezze correlate tra loro, cioè se la matrice è non
diagonale.
Infatti per due grandezze (x e y) tra loro non correlate ed indipendenti
la probabilità di osservare contemporaneamente il valore di x e di y è
semplicemente il prodotto delle due distribuzioni univariate:
P( x , y) = P( x) " P( y)
!
9
5. Analisi delle Componenti Principali
E.Martinelli
La matrice di covarianza in forma canonica
•
La matrice di covarianza può essere scritta in forma diagonale con un
adeguato cambiamento del sistema di riferimento.
• Tale sistema di riferimento corrisponde agli autovettori della matrice di
covarianza, cioè agli assi principali dell’ellisse costruita come forma
quadratica dalla matrice di covarianza stessa.
• Tale operazione rende le variabili scorrelate e la PDF prodotto di PDF
univariate.
• D’altro canto le nuove variabili non sono più degli osservabili
fisici (oggetto di misurazioni) ma sono combinazioni lineari di
queste.
• Le nuove variabili prendono il nome di Componenti Principali e
l’insieme di procedure di calcolo e interpretazione delle componenti
principali si chiama analisi delle componenti principali (PCA)
a " x 2 + 2b " xy + c " y 2 = [ x
#a b& # x &
y] " %
(" % (
$b c ' $ y '
#*
) *1 " u 2 + *2 " w 2 = [ u w] " % 1
$o
0 & #u &
(" % (
*2 ' $w'
10
!
5
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Dimensioni del data set
Example: linear sensors
# s1 = k11 " g1 + k12 " g 2
$
% s2 = k 21 " g1 + k 22 " g 2
Sensor 2
!
Sensori non specifici ma diversi
K11; k12; k22; k22 diversi
Sensor 2
Sensori specifici
k12=k21=0
Spazio delle variabili
indipendenti
Sensor 1
C=0 Dim=2
Gas 2
•
Se le variabili di un fenomento multivariato hanno un certo grado di
correlazione allora i vettori rappresentativi del fenomeno tenderanno
ad occupare solo una porzione dello spazio degli osservabili.
Quindi una veriabile di dimensione N riempie uno spazio di dimensione
minore
Gas 1
Non specifi ed uguali
Sensor 2
•
Sensor 1
C>0 and <1 Dim intermedia
Sensor 1
11
C=1 Dim=1
5. Analisi delle Componenti Principali
E.Martinelli
Principal Component Analysis
• Lo scopo della PCA è la rappresentazione di un insieme di dati con
matrice di covarianza non diagonale e di dimensione N in uno spazio di
dimensione minore di N in cui gli stessi dati siano rappresentati da una
matrice di covarianza diagonale.
• La diagonalizzazione si ottiene con una rotazione delle
coordinate nella base degli autovettori (componenti principali).
• Ad ogni autovettore è associato un autovalore a cui corrisponde la
varianza della componente principale associata. Se le variabili originarie
erano parzialmente correlate tra loro alcuni autovalori avranno un valore
trascurabile.
– In pratica gli autovettori corrispondenti possono essere trascurati e
limitare la rappresentazione solo agli autovettori con gli autovalori
più grandi.
•
Poiché la matrice di covarianza nella base delle componenti principali è
diagonale la varianza totale è la somma delle varianze delle singole
componenti principali.
12
6
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
PCA e proiezione
•
La PCA è uno dei possibili modelli che
danno luogo alla riduzione delle
dimensioni, in pratica si tratta di una
proiezione ortogonale dallo spazio
originale allo spazio delle componenti
principali i cui autovalori associati siano
quelli di valore maggiore.
s =W ! x
13
5. Analisi delle Componenti Principali
E.Martinelli
PCA
•
PCA è un metodo detto del secondo ordine poiché sia le nuove
coordinate che il criterio per la riduzione delle dimensioni si basano
unicamente sulle proprietà della matrice di covarianza
– La varianza è detta momento secondo dei una distribuzione ed è
proporzionale al quadrato della variabile
• Momento primo: media; secondo: varianza; terzo: skewness;…..
•
Quindi la PCA si basa sulla ipotesi che la variabile x sia distribuita
normalmente
– La media è in genere resa nulla e quindi tutta l’informazione statistica è
contenuta nella matrice di covarianza
•
•
Solo in questo caso le singole componenti principali saranno
indipendenti e la probabilità multivariata diventa il prodotto delle
probabilità univariate
Nel caso contrario si ottiene unicamente lo scorrelazione delle
componenti principali
14
7
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Interpretazione geometrica della PCA
Spazio osservabili
Spazio comp. Princ.
variabile 2
Ellisse della
matrice di
covarianza
"! 0 #
$ = ST % S = & 1
'
( o !2 )
pc 2
PCA
! = X T " X # $ " LT
variabile 1
pc 1
T
S = X "L; X = S "L
%$ $ xy(
"= XT # X =' x
*
&$ xy $ y )
2
pc 1
T1 = X " P1 + E
1
autovalore
#1
Spazio ridotto
!
Confronto
autovalori: una PC
ha un contenuto di
informazione
maggiore rispetto
all’altra
#2
Riduzione
delle
dimensioni
pc1
pc2
15
!
5. Analisi delle Componenti Principali
E.Martinelli
PCA: scores e loadings
•
Le nuove coordinate dei vettori corrispondenti alle osservazioni (le righe della
matrice x) nella base delle componenti principali prendono il nome di scores
I coefficienti delle combinazioni lineari che definiscono le componenti principali
sono detti loadings
•
–
Il loading quindi fornisce una misura del contributo di ogni osservabile alle
componenti principali.
I loadings sono anche rappresentabili come scores in quanto sono la
proiezione degli assi originali nel sottospazio identificato dalla
componenti principali, quindi scores e loadings possono essere
graficati insieme
•
s2
Biplot: (o) normalized scores, (+) loads
2
0.8
pc2
0.6
0.4
PC 2 (10.03%)
pc1
s1
s3
2
1
3
4
0.2
0
3
5
6
4
11
10
98
7
-0.2
5
1
-0.4
loadings
13
-0.6
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
PC 1 (85.90%)
6 16
12
0.3
0.4
0.5
0.6
8
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
PCA matrix Decomposition
PCA Può essere considerata come la scomposizione della matrice X
nella base delle componenti principali.
2nd PC
1st PC
=
*
X
loading
score
M
score
+
*
M
loading
Mth PC
M
score
+…+
loading
M
*
•
N
N
•
Limitare la scomposizione alla componente p (p<m) significa reiettare
una parte dei dati
X nm = S np " LTpm + Re sidual
!
17
5. Analisi delle Componenti Principali
E.Martinelli
PCA, correlazione e rumore
•
Il rumore è un termine aggiuntivo stocastico proprio di ogni grandezza
osservabile.
• Il rumore è il termine che rende statistica l’operazione di misura.
• Date N variabili il rumore che affetta ognuna di esse è scorrelato
rispetto al rumore che affetta le altre.
• Le componenti principali descrivono le direzioni di massima
correlazione tra i dati,
dati, per cui le PC di ordine più elevato sono
orientate verso le direzioni di massima correlazione e quelle di ordine
inferiore verso le direzioni di scarsa correlazione.
correlazione.
• Limitare la decomposizione alle componenti principali di ordine più
elevato significa quindi trattenere le direzioni di massima correlazione
e rimuovere quelle non correlate, nella parte non correlata c’è
sicuramente il rumore (ma non solo quella!!)
• La PCA quindi è un metodo per ridurre la quantità di rumore in un set
di dati multivariati.
– esempio: spettroscopia, GC,…
18
9
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Esempio di rimozione del rumore:
Reflectance Anisotropy Spectroscopy di superfici organiche ordinate
PC1
PC1-3
Original
Spectra X
residuo
19
5. Analisi delle Componenti Principali
E.Martinelli
Esempio: 3 SnO2 sensori for 2 gas
Gf/Gi
CO
NO2
0.63354
0.77832
100.00
5
0.27108
0.39692
20.000
4.5
0.23361
0.079543
5.0000
0.043353
-0.0021311
1.0000
4
3.5
-0.053860
-0.073648
0.0000
0.0023183
-0.36593
0.0000
3
NO2 [ppm]
0.25482
0.0000
0.093899
0.0000
0.043410
0.0000
0.0097185
0.0000
-0.018016
0.10000
-0.028579
0.20000
-0.25167
1.0000
-1.6960
5.0000
0.057521
0.10000
-0.13089
5.0000
-0.068079
1.0000
0.050023
2.5
-0.028831
-2.4367
0.0000
-0.075037
-3.8650
0.0000
2
0.21072
0.16777
5.0000
1.5
0.13002
-2.1376
5.0000
1
-0.0027190
-0.90852
1.0000
0.22771
0.020198
10.000
0.5
1.0000
0
0
10
20
30
40
50
CO [ppm]
60
70
80
90
100
20
10
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
PCA score plot
100,0
Scores Plot
1.5
1
0,0.5
CO
8
1
NO2
10,1
5,5
PC 2 (18.11%)
0.5
10
3
12
9
0
7
2
5,0.1
-0.5
11
6
4
1,0
1,1
5
-1
0,0.1
-1.5
-4
-3
-2
-1
0
PC 1 (77.25%)
1
2
3
21
5. Analisi delle Componenti Principali
E.Martinelli
PCA bi-plot
Biplot: (o) normalized scores, (+) loads
1
2
1
8
PC 2 (18.11%)
0.5
10
3 2
12
9
0
7
11
6
3
4
5
-0.5
-0.8
-0.6
-0.4
-0.2
0
PC 1 (77.25%)
1
0.2
0.4
0.6
0.8
22
11
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Sensor 1 vs sensor 2
0.7
CO
0.6
0.5
sensor 2
0.4
0.3
0.2
0.1
0
-0.1
-2
NO2
-1.5
-1
-0.5
0
0.5
sensor 1
23
5. Analisi delle Componenti Principali
E.Martinelli
Residual of PCA representation
(leverage)
xi = a ! s1 + b ! s2 + … + n ! sn
xipca = a ! pc1 + b ! pc2 + residual
Scores Plot
x 10-30
4
S cores Plot
1.5
3.5
1
8
3
Q Residual
8
1
PC 2 (18.11%)
0.5
10
3
12
9
0
2
1
1.5
1
2
0.5
7
0
2
-0.5
11
6
4
7
10
1
-3
-2
-1
0
PC 1 (77.25%)
4
11 6
5
4
2
0
-1
-1.5
-4
2
39
12
0
5
-1
2.5
1
2
3
PC 2 (18.11%)
-2
-2
-4
24
PC 1 (77.25%)
12
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Significato del residuo
•
•
•
Il residuo altro non è che l’ammontare dell’informazione per quel dato
che non è racchiusa nelle prime componenti principali prese in
considerazione come modello.
Un alto valore del residuo da parte di uno o più dati, significa che tali
dati sono dissimili dai restanti presenti nel dataset.
Tale parametro serve ad identificare abbastanza rapidamente delle
possibili misure “non corrette” all’interno del set di dati (outliers).
– Bisogna però ricordare che prima di una repentina eliminazione di tali dati
è necessario valutare la possibilità che esse descrivano una parte del
fenomeno non presa in considerazione fino a quel momento.
25
5. Analisi delle Componenti Principali
E.Martinelli
Procedura PCR
PCA
Xcal
DATI
Xcal
Ycal
X
Y
Xvall
Yvall
PC
Ycal
&
MLR
B
CALIBRAZIONE
VALIDAZIONE
Errore=
Yval
-
Yest
Yest
=
Xval
*
B
26
13
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Algoritmo PCR
Y
=
X
*
Original problem
B
PT
PCA
X
=
T
*
+
PT
Y
=
T
*
*
E
PCR
B
27
5. Analisi delle Componenti Principali
E.Martinelli
Algoritmo PCR
X T " X # $ " PT + E
T = X"P
X =T "P
$ #1 … 0 '
&
)
" = &… … … )
&0 … # )
%
N(
T
Y = X " BT = T " QT = T " PT " BT # BT = P " QT
(
!
)
Y = X " P " PT " BT
BT
%1
( ) " X " B = (P " $ " P ) " X " Y
= (P " $ " P ) " P " T " Y = P " $ " T " Y
BT = X T X
%1
T
T
T
%1
T
T
%1
T
T
28
!
14
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Esempio: Spettri NIR di frutta secca
•
•
•
•
Supponiamo di aver raccolto 36 spettri NIR di frutta secca e di voler
realizzare un modello per la misura del contenuto di umidità e di
acidità totale.
Ogni spettro è formato da 88 variabili corrispondenti ai canali spettrali
nell’intervallo 1.1-2.5 !m.
Per ogni specie di frutta sono stati misurati umidità ed acidità con
metodi di riferimento.
Vogliamo quindi realizzare il seguente modello che dallo spettro X ci
consente di ricavare i due parametri Y. E’ necessario quindi stimare il
parametro K
Y1x 2 = X 1x 88 " K88x 2
29
!
5. Analisi delle Componenti Principali
E.Martinelli
Inciso sugli spettri
•
•
•
Spesso gli spettri ottici, in particolare quelli NIR, sono affetti da drift in
lunghezza d’onda detto “baseline drift”
La baseline può essere eliminato derivando numericamente lo spettro
Un altro metodo, sempre basato sulla derivata. è la normalizzazione di
Savitzky-Golay
0.1
1
0.08
0. 9
0.06
Absorbance
0. 8
A bs orbanc e
0. 7
0. 6
0.02
0
0. 5
-0.02
0. 4
-0.04
0. 3
0. 2
1000
0.04
1500
2000
Wav elenght [ nm]
2500
-0.06
1000
1500
2000
30
2500
Wavelenght [nm]
15
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Matrice X e matrice di covarianza
absorbances
•
•
0.1
5
0.08
10
0.06
samples
15
– Colonne colorate nella matrice di
assorbanza
0.04
20
TextEnd
covarianza
0.02
25
Colinearità elevata
I blocchi di elevata correlazione
(+ e -) corrispondono alle righe
spettrali
1
0
30
-0.02
20
30
40
50
Wavelenght [nm]
60
70
0.4
80
30
Spectral Channels
10
0.6
20
-0.04
35
0.8
10
0.2
40
0
50
-0.2
TextEnd
60
-0.4
70
-0.6
-0.8
80
31
10
20
30
40
50
Spectral Channels
60
70
80
5. Analisi delle Componenti Principali
E.Martinelli
Calcolo della PCA
•
•
Riduciamo gli spettri a media nulla in modo che se l’ipotesi di distribuzione
normale è soddisfatta, tutta l’informazione è contenuta nella matrice di
covarianza.
Calcolo di autovettori ed autovalori
Eigenvalue vs. Principal Component
45
40
Eigenvalue
35
30
25
20
15
10
5
0
0
•
•
5
10
15
20
25
30
Principal Component
35
40
I primi 3 autovalori hanno un valore considerevolmente diverso da zero.
Gli 88 spettri, vettori in uno spazio a dimensione 88, sono in buona parte
confinati in un sottospazio a dimensione 3.
32
16
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Autovalori e varianza
eigenvalue
explained variance [%]
50
50
40
40
total variance [%]
110
100
90
30
30
20
20
10
10
80
70
60
50
0
0
0
20
40
40
0
20
PC
40
0
20
PC
40
PC
33
5. Analisi delle Componenti Principali
E.Martinelli
Scores e loadings
10
8
6
4
2
0
-2
-4
-6
-8
-10
1st SCORE
0
10
20
SAMPLES
30
10
8
6
4
2
0
-2
-4
-6
-8
-10
40
0.5
2nd SCORE
0
10
20
SAMPLES
30
40
0.4
3rd SCORE
0
10
20
30
SAMPLES
40
0.3
0.3
0.4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
0.2
0.2
0.3
0.1
0.1
0.2
0
Loadiings
0
0.1
-0.1
-0.1
0
-0.2
-0.2
-0.1
C anali spettrali
-0.2
Spettro
originale
-0.3
-0.3
0
50
100
-0.4
0
50
100
-0.4
0.08
0.08
0.08
0.06
0.06
0.06
0.04
0.04
0.04
0.02
0.02
0.02
0
0
0
-0.02
-0.02
-0.02
-0.04
-0.04
-0.06
1000
1500
2000
2500
-0.06
1000
0.1
0
0.1
0.1
50
100
34
-0.04
1500
2000
2500
-0.06
1000
1500
2000
2500
17
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Scores plot
Scores Plot
10
25
8
20
23
21
29
19
26
27
24
30
6
22
28
Scores Plot
3
4
2
31
36
32
29
2734
33
1
26 30
25 28
35
21 5
6
4
7
12
9
8
10
0
PC 3 ( 8.04%)
PC 2 (43.12%)
14
2
17
13
0
-2
33
-4
32
35
15
16
31
18
2
31
34
-6
8
36
-8
-10
-10
5
-6
-4
-2
0
2
PC 1 (46.10%)
4
-1
-2
-3
-4
-5
11
6
8
13
17
16
-7
-10
10
15
14
-6
4
24
2119
6
10
97
12
-8
20
23
22
3
11
-8
-6
-4
-2
18
0
PC 1 (46.10%)
2
4
6
8
10
35
5. Analisi delle Componenti Principali
E.Martinelli
Decomposizione e residui
Prima PC
Seconda PC
0.12
0.1
0.1
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
0
0
-0.02
-0.02
-0.04
-0.04
-0.06
Terza PC
0.12
0.12
0.1
0.08
0
10
20
30
40
50
60
70
80
-0.06
90
0.06
0.04
0.02
0
-0.02
-0.04
0
10
20
30
40
50
60
70
80
90
-0.06
0
10
20
30
40
50
60
70
80
90
36
80
90
Residui
3
0.015
x 10-3
2.5
x 10
-3
2
2
0.01
1.5
1
1
0.005
0.5
0
0
0
-0.5
-1
-1
-0.005
-1.5
-2
-2
-0.01
0
10
20
30
40
50
60
70
80
90
-2.5
-3
0
10
20
30
40
50
60
70
80
90
0
10
20
30
40
50
60
70
18
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
•
Calcolo della Principal Components
Regression (PCR)
Separiamo il set di dati in due:
– 26 per il calcolo del modello
PCcal, Y cal
– 10 per la valutazione dell’errore PCval, Y val
•
Dal modello si calcola la matrice di regressione Bpcr
Ycal = X cal " BT # BT = P " $%1 " T T " Ycal
•
Si calcola poi la stima sul set di validazione (e per confronto anche su
quello di calibrazione)
!
– Si valuta RMSEC ed RMSECVr
stimaYcal = X cal " BT
stimaYval = X val " BT
37
!
5. Analisi delle Componenti Principali
E.Martinelli
Esempio risultati
calibrazione
5
test
x 10-3
4
x 10-3
4.5
3.5
4
3.5
3
3
2.5
2.5
2
2
2.5
3
3.5
4
4.5
5
x 10-3
0.075
2
2.2
2.4
2.6
2.8
3
3.2
3.4
3.6
3.8
4
x 10-3
0.072
0.07
0.07
0.065
0.068
0.06
0.066
0.055
0.058
2
0.06
0.062
0.064
0.066
0.068
0.07
RMSECacidità=3.1 10-4
RMSECumidità=0.0013
0.072
0.074
0.064
0.064
0.065
0.066
0.067
0.068
0.069
0.07
0.071
0.072
RMSECVacidità=5.9 10-4
RMSECVumidità=0.0019
38
19
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Altre applicazioni della PCA
39
5. Analisi delle Componenti Principali
E.Martinelli
4 sensors for 2 gases
800
700
600
toluene [ppm]
500
400
300
200
100
0
0
100
200
300
400
500
n-octane [ppm]
600
700
800
40
20
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
PCA scores
Scores Plot
1
4
n-octane
17
Sensor Space
2
24
0.5
10
16
22
9
PC 2 ( 6.50%)
5
11
0
3
19
-0.5
15
20
8
18
13
23
1
6
7
14
-1
-1.5
-5
12
-4
-3
-2
-1
PC 1 (93.48%)
toluene
21
0
1
2
3
41
5. Analisi delle Componenti Principali
E.Martinelli
Linear normalisation
Extraction of qualitative information
si = Kij " c j
# si =
Kij " c j
Kij
si
=
=
$ sm $ Kmj " c j $ Kmj
m
!
m
m
42
21
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Linear normalization
Scores Plot
2
18
16
1
14
21
12
0
PC 2 (21.97%)
22
9
5
63
11
19
23
17
24
2
4
1
7
10
15
20
-1
8
toluene
-2
n-octane
-3
13
-4
-4
-3
-2
-1
0
PC 1 (76.83%)
1
2
3
43
5. Analisi delle Componenti Principali
E.Martinelli
Chemical Sensor Array measurements of two wines: Score plot
Scores Plot
1.5
Cortese
2
PC 2 ( 4.84%)
1
0.5
1
1
In
fra
la
-c
ss
v
ia
ar
nc
2
e
2
0
In
te
1
r-c
la
ss
1
va
-0.5
r ia
11
e
-1
-4
nc
Barbera
2
-3
-2
-1
0
1
2
PC 1 (90.62%)
3
4
5
6
44
22
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Peaches measurements:
raw data
pH
4.10
4.0
3.50
4.10
3.90
3.60
3.70
4.10
3.60
3.90
4.50
4.40
4.60
4.40
3.90
4.10
3.80
4.0
4.70
4.20
4.90
baby gold
grezzano
iris rosso
maria aurelia
snow queen
spring star
super crimson
venus
argento roma
beauty lady
big top
doucer
felicia
kurakata
lucie
morsinai
oro
royal glory
sensation
sweet lady
youyeong
sucrose
8.80
7.0
4.30
7.30
5.70
9.40
8.20
7.40
4.40
8.30
8.60
9.80
9.30
6.90
6.40
5.80
7.70
6.70
4.60
5.50
8.80
glucose
0.80
0.60
0.90
0.80
0.80
1.40
1.0
1.60
0.90
0.50
0.90
0.70
0.50
0.60
0.80
1.60
0.40
0.80
2.0
1.30
1.80
fructose
1.20
0.80
1.0
1.10
1.30
1.90
1.10
2.20
1.10
0.70
1.30
0.80
0.50
0.80
1.0
1.90
0.40
0.90
3.40
2.10
2.50
malic acid
0.60
0.50
0.40
0.40
0.50
1.0
0.90
0.70
0.40
0.60
0.50
0.40
0.20
0.20
0.70
0.50
0.60
0.40
0.30
0.50
0.20
citric acid
0.20
0.10
0.60
0.60
0.50
0.50
0.60
0.40
0.50
0.30
0.40
0.10
0.20
0.20
0.20
0.60
0.20
0.10
0.20
0.40
0.10
45
5. Analisi delle Componenti Principali
E.Martinelli
Peach Measurements : Bi-Plot
Biplot: (o) normalized scores, (+) loads
0.6
6
citric ac.
malic ac.
0.4
glucose
5
7
3
3
6
16
9
0.2
PC 2 (33.99%)
5
15
0
17
10
-0.2
11
21
14
-0.4
sucrose
19
4
1
2 18
2
4fructose
8
20
12
13
1
pH
-0.6
-0.8
-0.4
-0.2
0
0.2
0.4
PC 1 (38.12%)
0.6
0.8
1
46
23
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Applicazione alla analisi delle immagini
•
Un immagine digitalizzata può essere considerata come una
matrice NxM nel caso di immagine a scala di grigio (bianco nero)
o NxMx3 (nel caso di immagine a colori)
Considerando una immagine in una scala di tonalità la possiamo
considerare come una matrice ed applicare la PCA
•
– Più avanti considereremo le strutture 3dimensionali di dati.
•
La decomposizione PCA può mettere in evidenza alcune strutture
peculiari dell’immagine permettendo quindi di studiare le
caratteristiche dell’immagine stessa.
47
5. Analisi delle Componenti Principali
E.Martinelli
PCA: Application to Image Analysis (example 1: I)
•
STM image of
Sapphyrin molecules
growth as a
Langmuir-Blodgett
film onto a gold
substrate.
20
40
60
80
100
120
140
20
40
60
Au grains
80
100
120
140
160
180
200
48
220
Sapphyrins
24
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
PCA: Application to Image Analysis
(example 1: II)
20
20
20
40
40
40
60
60
60
80
80
80
100
100
100
120
120
120
140
140
140
20
40
60
80
100
120
140
160
180
200
X = S1T ! L1
220
20
40
60
80
100
120
140
160
180
200
220
T
X = S1:10
! L1:10
20
40
60
80
100
120
140
160
180
200
220
T
X = S1:15
! L1:15
49
5. Analisi delle Componenti Principali
E.Martinelli
•
PCA: Application to Image Analysis
(example 1: III)
The residuals of the
expansion at the
tenth PC put in
evidence the
sapphyrine film only.
20
40
60
80
T
X ! S1:10
" L1:10
100
120
140
50
20
40
60
80
100
120
140
160
180
200
220
25
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
•
PCA: Application to Image Analysis
(example 2: I)
Caravaggio Deposition
50
100
150
200
250
300
350
400
51
50
100
150
200
250
5. Analisi delle Componenti Principali
E.Martinelli
PCA: Application to Image Analysis
(example 2: II)
50
50
100
100
150
150
200
200
250
250
300
300
350
350
400
400
50
T
X = S1:10
! L1:10
100
150
200
250
50
100
150
200
T
X ! S1:10
" L1:10
250
52
26
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
Altre applicazioni
Analisi dell’immagini provenienti da strumenti biomedici ad
esempio….
53
5. Analisi delle Componenti Principali
E.Martinelli
Fig. 1. Principal component analysis of simulated waveforms. Two
waveforms with different latencies and with response failures
were simulated and mixed. Either non-quantal or quantal release
with two release sites was suggested. (A) Simulated waveforms
with shorter (Comp. 1) and longer (Comp. 2) latencies and also
their mixture (column a) and the same waveforms contaminated
with noise (column b)(B) Plot of the scores of the two initial
principal components from the experiments with simulations of
non-quantal (a) and quantal (b) waveforms. Note characteristic
parallelograms suggesting the presence of two components. (C)
The scores of the third principal component plotted against the
first (a) and the fourth (b) ones. Note the narrow band (a) and the
cloud (b) suggesting that the third and fourth components were
absent. (D) ‘Alignment’ procedure and extraction of the simulated
waveforms. The plots and represent transformed (‘aligned’plots of
Ba and Bb, respectively. Note that the parallelograms of
transformed into rectangular fields. Insets (1–3) show waveforms
obtained by averaging the simulations corresponding to the dots
from different parts of the plots in b……
54
27
E. Martinell & iC. Di Natale:
Introduzione al trattamento Statistico
dei Dati
5. Analisi delle Componenti Principali
E.Martinelli
55
5. Analisi delle Componenti Principali
E.Martinelli
56
28