E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli 5. L’Analisi delle Componenti Principali (PCA) Analisi della Varianza PCA e diagonalizzazione della matrice di covarianza Scores e Loadings Sviluppo di matrici e residui Applicazioni all’analisi delle immagini Applicazione alla regressione multivariata: Principal Components Regression (PCR) 1 5. Analisi delle Componenti Principali E.Martinelli Lo spazio degli osservabili • Ogni misurazioni multivariata è rappresentata da un vettore in uno spazio a N dimensioni • • La distribuzione statistica dei punti (vettori) definisce le proprietà dell’intero set di dati. Per ogni grandezza multivariata rappresentabile in uno spazio vettoriale a dimensione N possiamo definre una PDF multivariata. variabler 2 – N è pari alla dimensione del vettore che esprime la osservazione ble ria Va n S={S1,…,Sn} variable 1 – Corollario di grande importanza: osservazioni che descrivono campioni simili sono rappresentate da punti vicini – Relazione quindi tra distanza reciproca e similitudine tra campioni (Ipotesi base della pattern recognition) 2 1 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Statistica descrittiva multivariata • Come per una distribuzione univariata possiamo definire i descrittori fondamentali: – Media – Varianza – • scalare ! vettore scalare ! matrice (matrice di covarianza) …. La distribuzione normale definita per una variabile univariata conserva la sua importanza nella statisica multivariata 3 5. Analisi delle Componenti Principali E.Martinelli La matrice di covarianza • La varianza di una distribuzione univariata definisce la ampiezza della distribuzione stessa, in pratica il range di valori della variabile che hanno una probabilità “reale” di essere osservati – In pratica il 99% della probabilità si ottiene in un range ampio 3" attorno al valore medio. • • • Poiché la normale è simmetrica attorno al valore medio i punti di isoprobabilità sono 2 a distanza uguale dalla media In una distribuzione multivariata la matrice di covarianza definisce l’ampiezza della PDF e definisce il grado di correlazione tra le variabili stesse. Il luogo dei punti di isoprobabilità è una ellisse ottenuta come forma quadratica avente come matrice la matrice di covarianza – Esponente della PDF multivariata • La matrice di covarianza può essere stimata dai dati come: cov(xy)= xT y . cov(xy)=x 4 2 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Colinearità • • In un problema MLR la soluzione, stima della variabili x, si ottiene invertendo (meglio pseudoinvertendo) la matrice degli osservabili y Tale operazione è possibile se il rango della matrice y è massimo cioè se il numero di colonne linearmente indipendenti coincide con il numero di colonne della matrice. – Cioè se tutte gli osservabili sono linearmente indipendenti tra di loro • • Se esiste una parziale dipendenza, cioè se i coefficienti della combinazione lineare sono rigorosamente non nulli, l’inversione numerica della matrice comporta grossi errori di calcolo Questo effetto si chiama “colinearità” 5 5. Analisi delle Componenti Principali E.Martinelli Esempio di colinearità – Sono colineari le variabili che dipendono quantitativamente da caratteristiche del campione Spettro NIR di frutti Variabili colineari 0.12 0.1 0.08 0.1 0.06 0.08 0.04 0.02 Absorbance • In uno spettro ottico le righe spettrali coprono un intervallo di lunghezze d’onda, tale intervallo è generalmente coperto da più canali spettrali, di modo che più variabili concorrono a formare una riga spettrale. Se la riga è proporzionale ad una caratteristica del campione (es. concentrazione di glucosio) tutti i canali spettrali relativi alla riga saranno in egual modo proporzionali alla caratteristica del campione, quindi le relative variabili (colonne nella matrice dei dati) risulteranno colineari Absorbance • TextEnd 0 0.06 TextEnd 0.04 -0.02 0.02 6 -0.04 -0.06 1000 0 1500 2000 Wavelenght [nm] 2500 1840 1860 1880 1900 Wavelenght [nm] 1920 1940 3 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Colinearità e matrice di covarianza • • • • La colinearità si esprime attraverso la matrice di covarianza. In caso di colinearità i termini non diagonali della matrice di covarianza sono diversi da zero. Rimuovere la colinearità quindi significa ridurre la matrice di covarianza in forma diagonale introducendo delle nuove variabili latenti. La tecnica della analisi delle componenti principali consente, tra le altre cose, di ottenere questo risultato. 7 5. Analisi delle Componenti Principali E.Martinelli Esempio di matrici di covarianza e luoghi di punti isoprobabili • Ci sono tre esempi notevoli di matrici di covarianza in termini di correlazione tra le variabili. – Come esempio usiamo una distribuzione bivariata #" ! =% $0 0 & 2" (' Variabili scorrelate Varianze diverse #" 0 & ! =% $ 0 " (' Variabili scorrelate Varianze uguale $# " =& x %# xy # xy ' ) #y( Variabili correlate8 Varianze diverse ! 4 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli PDF multivariata e matrice di covarianza • • La normale multivariata ha senso solo se la matrice di covarianza descrive grandezze correlate tra loro, cioè se la matrice è non diagonale. Infatti per due grandezze (x e y) tra loro non correlate ed indipendenti la probabilità di osservare contemporaneamente il valore di x e di y è semplicemente il prodotto delle due distribuzioni univariate: P( x , y) = P( x) " P( y) ! 9 5. Analisi delle Componenti Principali E.Martinelli La matrice di covarianza in forma canonica • La matrice di covarianza può essere scritta in forma diagonale con un adeguato cambiamento del sistema di riferimento. • Tale sistema di riferimento corrisponde agli autovettori della matrice di covarianza, cioè agli assi principali dell’ellisse costruita come forma quadratica dalla matrice di covarianza stessa. • Tale operazione rende le variabili scorrelate e la PDF prodotto di PDF univariate. • D’altro canto le nuove variabili non sono più degli osservabili fisici (oggetto di misurazioni) ma sono combinazioni lineari di queste. • Le nuove variabili prendono il nome di Componenti Principali e l’insieme di procedure di calcolo e interpretazione delle componenti principali si chiama analisi delle componenti principali (PCA) a " x 2 + 2b " xy + c " y 2 = [ x #a b& # x & y] " % (" % ( $b c ' $ y ' #* ) *1 " u 2 + *2 " w 2 = [ u w] " % 1 $o 0 & #u & (" % ( *2 ' $w' 10 ! 5 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Dimensioni del data set Example: linear sensors # s1 = k11 " g1 + k12 " g 2 $ % s2 = k 21 " g1 + k 22 " g 2 Sensor 2 ! Sensori non specifici ma diversi K11; k12; k22; k22 diversi Sensor 2 Sensori specifici k12=k21=0 Spazio delle variabili indipendenti Sensor 1 C=0 Dim=2 Gas 2 • Se le variabili di un fenomento multivariato hanno un certo grado di correlazione allora i vettori rappresentativi del fenomeno tenderanno ad occupare solo una porzione dello spazio degli osservabili. Quindi una veriabile di dimensione N riempie uno spazio di dimensione minore Gas 1 Non specifi ed uguali Sensor 2 • Sensor 1 C>0 and <1 Dim intermedia Sensor 1 11 C=1 Dim=1 5. Analisi delle Componenti Principali E.Martinelli Principal Component Analysis • Lo scopo della PCA è la rappresentazione di un insieme di dati con matrice di covarianza non diagonale e di dimensione N in uno spazio di dimensione minore di N in cui gli stessi dati siano rappresentati da una matrice di covarianza diagonale. • La diagonalizzazione si ottiene con una rotazione delle coordinate nella base degli autovettori (componenti principali). • Ad ogni autovettore è associato un autovalore a cui corrisponde la varianza della componente principale associata. Se le variabili originarie erano parzialmente correlate tra loro alcuni autovalori avranno un valore trascurabile. – In pratica gli autovettori corrispondenti possono essere trascurati e limitare la rappresentazione solo agli autovettori con gli autovalori più grandi. • Poiché la matrice di covarianza nella base delle componenti principali è diagonale la varianza totale è la somma delle varianze delle singole componenti principali. 12 6 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli PCA e proiezione • La PCA è uno dei possibili modelli che danno luogo alla riduzione delle dimensioni, in pratica si tratta di una proiezione ortogonale dallo spazio originale allo spazio delle componenti principali i cui autovalori associati siano quelli di valore maggiore. s =W ! x 13 5. Analisi delle Componenti Principali E.Martinelli PCA • PCA è un metodo detto del secondo ordine poiché sia le nuove coordinate che il criterio per la riduzione delle dimensioni si basano unicamente sulle proprietà della matrice di covarianza – La varianza è detta momento secondo dei una distribuzione ed è proporzionale al quadrato della variabile • Momento primo: media; secondo: varianza; terzo: skewness;….. • Quindi la PCA si basa sulla ipotesi che la variabile x sia distribuita normalmente – La media è in genere resa nulla e quindi tutta l’informazione statistica è contenuta nella matrice di covarianza • • Solo in questo caso le singole componenti principali saranno indipendenti e la probabilità multivariata diventa il prodotto delle probabilità univariate Nel caso contrario si ottiene unicamente lo scorrelazione delle componenti principali 14 7 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Interpretazione geometrica della PCA Spazio osservabili Spazio comp. Princ. variabile 2 Ellisse della matrice di covarianza "! 0 # $ = ST % S = & 1 ' ( o !2 ) pc 2 PCA ! = X T " X # $ " LT variabile 1 pc 1 T S = X "L; X = S "L %$ $ xy( "= XT # X =' x * &$ xy $ y ) 2 pc 1 T1 = X " P1 + E 1 autovalore #1 Spazio ridotto ! Confronto autovalori: una PC ha un contenuto di informazione maggiore rispetto all’altra #2 Riduzione delle dimensioni pc1 pc2 15 ! 5. Analisi delle Componenti Principali E.Martinelli PCA: scores e loadings • Le nuove coordinate dei vettori corrispondenti alle osservazioni (le righe della matrice x) nella base delle componenti principali prendono il nome di scores I coefficienti delle combinazioni lineari che definiscono le componenti principali sono detti loadings • – Il loading quindi fornisce una misura del contributo di ogni osservabile alle componenti principali. I loadings sono anche rappresentabili come scores in quanto sono la proiezione degli assi originali nel sottospazio identificato dalla componenti principali, quindi scores e loadings possono essere graficati insieme • s2 Biplot: (o) normalized scores, (+) loads 2 0.8 pc2 0.6 0.4 PC 2 (10.03%) pc1 s1 s3 2 1 3 4 0.2 0 3 5 6 4 11 10 98 7 -0.2 5 1 -0.4 loadings 13 -0.6 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 PC 1 (85.90%) 6 16 12 0.3 0.4 0.5 0.6 8 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli PCA matrix Decomposition PCA Può essere considerata come la scomposizione della matrice X nella base delle componenti principali. 2nd PC 1st PC = * X loading score M score + * M loading Mth PC M score +…+ loading M * • N N • Limitare la scomposizione alla componente p (p<m) significa reiettare una parte dei dati X nm = S np " LTpm + Re sidual ! 17 5. Analisi delle Componenti Principali E.Martinelli PCA, correlazione e rumore • Il rumore è un termine aggiuntivo stocastico proprio di ogni grandezza osservabile. • Il rumore è il termine che rende statistica l’operazione di misura. • Date N variabili il rumore che affetta ognuna di esse è scorrelato rispetto al rumore che affetta le altre. • Le componenti principali descrivono le direzioni di massima correlazione tra i dati, dati, per cui le PC di ordine più elevato sono orientate verso le direzioni di massima correlazione e quelle di ordine inferiore verso le direzioni di scarsa correlazione. correlazione. • Limitare la decomposizione alle componenti principali di ordine più elevato significa quindi trattenere le direzioni di massima correlazione e rimuovere quelle non correlate, nella parte non correlata c’è sicuramente il rumore (ma non solo quella!!) • La PCA quindi è un metodo per ridurre la quantità di rumore in un set di dati multivariati. – esempio: spettroscopia, GC,… 18 9 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Esempio di rimozione del rumore: Reflectance Anisotropy Spectroscopy di superfici organiche ordinate PC1 PC1-3 Original Spectra X residuo 19 5. Analisi delle Componenti Principali E.Martinelli Esempio: 3 SnO2 sensori for 2 gas Gf/Gi CO NO2 0.63354 0.77832 100.00 5 0.27108 0.39692 20.000 4.5 0.23361 0.079543 5.0000 0.043353 -0.0021311 1.0000 4 3.5 -0.053860 -0.073648 0.0000 0.0023183 -0.36593 0.0000 3 NO2 [ppm] 0.25482 0.0000 0.093899 0.0000 0.043410 0.0000 0.0097185 0.0000 -0.018016 0.10000 -0.028579 0.20000 -0.25167 1.0000 -1.6960 5.0000 0.057521 0.10000 -0.13089 5.0000 -0.068079 1.0000 0.050023 2.5 -0.028831 -2.4367 0.0000 -0.075037 -3.8650 0.0000 2 0.21072 0.16777 5.0000 1.5 0.13002 -2.1376 5.0000 1 -0.0027190 -0.90852 1.0000 0.22771 0.020198 10.000 0.5 1.0000 0 0 10 20 30 40 50 CO [ppm] 60 70 80 90 100 20 10 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli PCA score plot 100,0 Scores Plot 1.5 1 0,0.5 CO 8 1 NO2 10,1 5,5 PC 2 (18.11%) 0.5 10 3 12 9 0 7 2 5,0.1 -0.5 11 6 4 1,0 1,1 5 -1 0,0.1 -1.5 -4 -3 -2 -1 0 PC 1 (77.25%) 1 2 3 21 5. Analisi delle Componenti Principali E.Martinelli PCA bi-plot Biplot: (o) normalized scores, (+) loads 1 2 1 8 PC 2 (18.11%) 0.5 10 3 2 12 9 0 7 11 6 3 4 5 -0.5 -0.8 -0.6 -0.4 -0.2 0 PC 1 (77.25%) 1 0.2 0.4 0.6 0.8 22 11 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Sensor 1 vs sensor 2 0.7 CO 0.6 0.5 sensor 2 0.4 0.3 0.2 0.1 0 -0.1 -2 NO2 -1.5 -1 -0.5 0 0.5 sensor 1 23 5. Analisi delle Componenti Principali E.Martinelli Residual of PCA representation (leverage) xi = a ! s1 + b ! s2 + … + n ! sn xipca = a ! pc1 + b ! pc2 + residual Scores Plot x 10-30 4 S cores Plot 1.5 3.5 1 8 3 Q Residual 8 1 PC 2 (18.11%) 0.5 10 3 12 9 0 2 1 1.5 1 2 0.5 7 0 2 -0.5 11 6 4 7 10 1 -3 -2 -1 0 PC 1 (77.25%) 4 11 6 5 4 2 0 -1 -1.5 -4 2 39 12 0 5 -1 2.5 1 2 3 PC 2 (18.11%) -2 -2 -4 24 PC 1 (77.25%) 12 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Significato del residuo • • • Il residuo altro non è che l’ammontare dell’informazione per quel dato che non è racchiusa nelle prime componenti principali prese in considerazione come modello. Un alto valore del residuo da parte di uno o più dati, significa che tali dati sono dissimili dai restanti presenti nel dataset. Tale parametro serve ad identificare abbastanza rapidamente delle possibili misure “non corrette” all’interno del set di dati (outliers). – Bisogna però ricordare che prima di una repentina eliminazione di tali dati è necessario valutare la possibilità che esse descrivano una parte del fenomeno non presa in considerazione fino a quel momento. 25 5. Analisi delle Componenti Principali E.Martinelli Procedura PCR PCA Xcal DATI Xcal Ycal X Y Xvall Yvall PC Ycal & MLR B CALIBRAZIONE VALIDAZIONE Errore= Yval - Yest Yest = Xval * B 26 13 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Algoritmo PCR Y = X * Original problem B PT PCA X = T * + PT Y = T * * E PCR B 27 5. Analisi delle Componenti Principali E.Martinelli Algoritmo PCR X T " X # $ " PT + E T = X"P X =T "P $ #1 … 0 ' & ) " = &… … … ) &0 … # ) % N( T Y = X " BT = T " QT = T " PT " BT # BT = P " QT ( ! ) Y = X " P " PT " BT BT %1 ( ) " X " B = (P " $ " P ) " X " Y = (P " $ " P ) " P " T " Y = P " $ " T " Y BT = X T X %1 T T T %1 T T %1 T T 28 ! 14 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Esempio: Spettri NIR di frutta secca • • • • Supponiamo di aver raccolto 36 spettri NIR di frutta secca e di voler realizzare un modello per la misura del contenuto di umidità e di acidità totale. Ogni spettro è formato da 88 variabili corrispondenti ai canali spettrali nell’intervallo 1.1-2.5 !m. Per ogni specie di frutta sono stati misurati umidità ed acidità con metodi di riferimento. Vogliamo quindi realizzare il seguente modello che dallo spettro X ci consente di ricavare i due parametri Y. E’ necessario quindi stimare il parametro K Y1x 2 = X 1x 88 " K88x 2 29 ! 5. Analisi delle Componenti Principali E.Martinelli Inciso sugli spettri • • • Spesso gli spettri ottici, in particolare quelli NIR, sono affetti da drift in lunghezza d’onda detto “baseline drift” La baseline può essere eliminato derivando numericamente lo spettro Un altro metodo, sempre basato sulla derivata. è la normalizzazione di Savitzky-Golay 0.1 1 0.08 0. 9 0.06 Absorbance 0. 8 A bs orbanc e 0. 7 0. 6 0.02 0 0. 5 -0.02 0. 4 -0.04 0. 3 0. 2 1000 0.04 1500 2000 Wav elenght [ nm] 2500 -0.06 1000 1500 2000 30 2500 Wavelenght [nm] 15 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Matrice X e matrice di covarianza absorbances • • 0.1 5 0.08 10 0.06 samples 15 – Colonne colorate nella matrice di assorbanza 0.04 20 TextEnd covarianza 0.02 25 Colinearità elevata I blocchi di elevata correlazione (+ e -) corrispondono alle righe spettrali 1 0 30 -0.02 20 30 40 50 Wavelenght [nm] 60 70 0.4 80 30 Spectral Channels 10 0.6 20 -0.04 35 0.8 10 0.2 40 0 50 -0.2 TextEnd 60 -0.4 70 -0.6 -0.8 80 31 10 20 30 40 50 Spectral Channels 60 70 80 5. Analisi delle Componenti Principali E.Martinelli Calcolo della PCA • • Riduciamo gli spettri a media nulla in modo che se l’ipotesi di distribuzione normale è soddisfatta, tutta l’informazione è contenuta nella matrice di covarianza. Calcolo di autovettori ed autovalori Eigenvalue vs. Principal Component 45 40 Eigenvalue 35 30 25 20 15 10 5 0 0 • • 5 10 15 20 25 30 Principal Component 35 40 I primi 3 autovalori hanno un valore considerevolmente diverso da zero. Gli 88 spettri, vettori in uno spazio a dimensione 88, sono in buona parte confinati in un sottospazio a dimensione 3. 32 16 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Autovalori e varianza eigenvalue explained variance [%] 50 50 40 40 total variance [%] 110 100 90 30 30 20 20 10 10 80 70 60 50 0 0 0 20 40 40 0 20 PC 40 0 20 PC 40 PC 33 5. Analisi delle Componenti Principali E.Martinelli Scores e loadings 10 8 6 4 2 0 -2 -4 -6 -8 -10 1st SCORE 0 10 20 SAMPLES 30 10 8 6 4 2 0 -2 -4 -6 -8 -10 40 0.5 2nd SCORE 0 10 20 SAMPLES 30 40 0.4 3rd SCORE 0 10 20 30 SAMPLES 40 0.3 0.3 0.4 3 2 1 0 -1 -2 -3 -4 -5 -6 -7 0.2 0.2 0.3 0.1 0.1 0.2 0 Loadiings 0 0.1 -0.1 -0.1 0 -0.2 -0.2 -0.1 C anali spettrali -0.2 Spettro originale -0.3 -0.3 0 50 100 -0.4 0 50 100 -0.4 0.08 0.08 0.08 0.06 0.06 0.06 0.04 0.04 0.04 0.02 0.02 0.02 0 0 0 -0.02 -0.02 -0.02 -0.04 -0.04 -0.06 1000 1500 2000 2500 -0.06 1000 0.1 0 0.1 0.1 50 100 34 -0.04 1500 2000 2500 -0.06 1000 1500 2000 2500 17 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Scores plot Scores Plot 10 25 8 20 23 21 29 19 26 27 24 30 6 22 28 Scores Plot 3 4 2 31 36 32 29 2734 33 1 26 30 25 28 35 21 5 6 4 7 12 9 8 10 0 PC 3 ( 8.04%) PC 2 (43.12%) 14 2 17 13 0 -2 33 -4 32 35 15 16 31 18 2 31 34 -6 8 36 -8 -10 -10 5 -6 -4 -2 0 2 PC 1 (46.10%) 4 -1 -2 -3 -4 -5 11 6 8 13 17 16 -7 -10 10 15 14 -6 4 24 2119 6 10 97 12 -8 20 23 22 3 11 -8 -6 -4 -2 18 0 PC 1 (46.10%) 2 4 6 8 10 35 5. Analisi delle Componenti Principali E.Martinelli Decomposizione e residui Prima PC Seconda PC 0.12 0.1 0.1 0.08 0.08 0.06 0.06 0.04 0.04 0.02 0.02 0 0 -0.02 -0.02 -0.04 -0.04 -0.06 Terza PC 0.12 0.12 0.1 0.08 0 10 20 30 40 50 60 70 80 -0.06 90 0.06 0.04 0.02 0 -0.02 -0.04 0 10 20 30 40 50 60 70 80 90 -0.06 0 10 20 30 40 50 60 70 80 90 36 80 90 Residui 3 0.015 x 10-3 2.5 x 10 -3 2 2 0.01 1.5 1 1 0.005 0.5 0 0 0 -0.5 -1 -1 -0.005 -1.5 -2 -2 -0.01 0 10 20 30 40 50 60 70 80 90 -2.5 -3 0 10 20 30 40 50 60 70 80 90 0 10 20 30 40 50 60 70 18 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli • Calcolo della Principal Components Regression (PCR) Separiamo il set di dati in due: – 26 per il calcolo del modello PCcal, Y cal – 10 per la valutazione dell’errore PCval, Y val • Dal modello si calcola la matrice di regressione Bpcr Ycal = X cal " BT # BT = P " $%1 " T T " Ycal • Si calcola poi la stima sul set di validazione (e per confronto anche su quello di calibrazione) ! – Si valuta RMSEC ed RMSECVr stimaYcal = X cal " BT stimaYval = X val " BT 37 ! 5. Analisi delle Componenti Principali E.Martinelli Esempio risultati calibrazione 5 test x 10-3 4 x 10-3 4.5 3.5 4 3.5 3 3 2.5 2.5 2 2 2.5 3 3.5 4 4.5 5 x 10-3 0.075 2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 3.8 4 x 10-3 0.072 0.07 0.07 0.065 0.068 0.06 0.066 0.055 0.058 2 0.06 0.062 0.064 0.066 0.068 0.07 RMSECacidità=3.1 10-4 RMSECumidità=0.0013 0.072 0.074 0.064 0.064 0.065 0.066 0.067 0.068 0.069 0.07 0.071 0.072 RMSECVacidità=5.9 10-4 RMSECVumidità=0.0019 38 19 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Altre applicazioni della PCA 39 5. Analisi delle Componenti Principali E.Martinelli 4 sensors for 2 gases 800 700 600 toluene [ppm] 500 400 300 200 100 0 0 100 200 300 400 500 n-octane [ppm] 600 700 800 40 20 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli PCA scores Scores Plot 1 4 n-octane 17 Sensor Space 2 24 0.5 10 16 22 9 PC 2 ( 6.50%) 5 11 0 3 19 -0.5 15 20 8 18 13 23 1 6 7 14 -1 -1.5 -5 12 -4 -3 -2 -1 PC 1 (93.48%) toluene 21 0 1 2 3 41 5. Analisi delle Componenti Principali E.Martinelli Linear normalisation Extraction of qualitative information si = Kij " c j # si = Kij " c j Kij si = = $ sm $ Kmj " c j $ Kmj m ! m m 42 21 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Linear normalization Scores Plot 2 18 16 1 14 21 12 0 PC 2 (21.97%) 22 9 5 63 11 19 23 17 24 2 4 1 7 10 15 20 -1 8 toluene -2 n-octane -3 13 -4 -4 -3 -2 -1 0 PC 1 (76.83%) 1 2 3 43 5. Analisi delle Componenti Principali E.Martinelli Chemical Sensor Array measurements of two wines: Score plot Scores Plot 1.5 Cortese 2 PC 2 ( 4.84%) 1 0.5 1 1 In fra la -c ss v ia ar nc 2 e 2 0 In te 1 r-c la ss 1 va -0.5 r ia 11 e -1 -4 nc Barbera 2 -3 -2 -1 0 1 2 PC 1 (90.62%) 3 4 5 6 44 22 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Peaches measurements: raw data pH 4.10 4.0 3.50 4.10 3.90 3.60 3.70 4.10 3.60 3.90 4.50 4.40 4.60 4.40 3.90 4.10 3.80 4.0 4.70 4.20 4.90 baby gold grezzano iris rosso maria aurelia snow queen spring star super crimson venus argento roma beauty lady big top doucer felicia kurakata lucie morsinai oro royal glory sensation sweet lady youyeong sucrose 8.80 7.0 4.30 7.30 5.70 9.40 8.20 7.40 4.40 8.30 8.60 9.80 9.30 6.90 6.40 5.80 7.70 6.70 4.60 5.50 8.80 glucose 0.80 0.60 0.90 0.80 0.80 1.40 1.0 1.60 0.90 0.50 0.90 0.70 0.50 0.60 0.80 1.60 0.40 0.80 2.0 1.30 1.80 fructose 1.20 0.80 1.0 1.10 1.30 1.90 1.10 2.20 1.10 0.70 1.30 0.80 0.50 0.80 1.0 1.90 0.40 0.90 3.40 2.10 2.50 malic acid 0.60 0.50 0.40 0.40 0.50 1.0 0.90 0.70 0.40 0.60 0.50 0.40 0.20 0.20 0.70 0.50 0.60 0.40 0.30 0.50 0.20 citric acid 0.20 0.10 0.60 0.60 0.50 0.50 0.60 0.40 0.50 0.30 0.40 0.10 0.20 0.20 0.20 0.60 0.20 0.10 0.20 0.40 0.10 45 5. Analisi delle Componenti Principali E.Martinelli Peach Measurements : Bi-Plot Biplot: (o) normalized scores, (+) loads 0.6 6 citric ac. malic ac. 0.4 glucose 5 7 3 3 6 16 9 0.2 PC 2 (33.99%) 5 15 0 17 10 -0.2 11 21 14 -0.4 sucrose 19 4 1 2 18 2 4fructose 8 20 12 13 1 pH -0.6 -0.8 -0.4 -0.2 0 0.2 0.4 PC 1 (38.12%) 0.6 0.8 1 46 23 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Applicazione alla analisi delle immagini • Un immagine digitalizzata può essere considerata come una matrice NxM nel caso di immagine a scala di grigio (bianco nero) o NxMx3 (nel caso di immagine a colori) Considerando una immagine in una scala di tonalità la possiamo considerare come una matrice ed applicare la PCA • – Più avanti considereremo le strutture 3dimensionali di dati. • La decomposizione PCA può mettere in evidenza alcune strutture peculiari dell’immagine permettendo quindi di studiare le caratteristiche dell’immagine stessa. 47 5. Analisi delle Componenti Principali E.Martinelli PCA: Application to Image Analysis (example 1: I) • STM image of Sapphyrin molecules growth as a Langmuir-Blodgett film onto a gold substrate. 20 40 60 80 100 120 140 20 40 60 Au grains 80 100 120 140 160 180 200 48 220 Sapphyrins 24 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli PCA: Application to Image Analysis (example 1: II) 20 20 20 40 40 40 60 60 60 80 80 80 100 100 100 120 120 120 140 140 140 20 40 60 80 100 120 140 160 180 200 X = S1T ! L1 220 20 40 60 80 100 120 140 160 180 200 220 T X = S1:10 ! L1:10 20 40 60 80 100 120 140 160 180 200 220 T X = S1:15 ! L1:15 49 5. Analisi delle Componenti Principali E.Martinelli • PCA: Application to Image Analysis (example 1: III) The residuals of the expansion at the tenth PC put in evidence the sapphyrine film only. 20 40 60 80 T X ! S1:10 " L1:10 100 120 140 50 20 40 60 80 100 120 140 160 180 200 220 25 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli • PCA: Application to Image Analysis (example 2: I) Caravaggio Deposition 50 100 150 200 250 300 350 400 51 50 100 150 200 250 5. Analisi delle Componenti Principali E.Martinelli PCA: Application to Image Analysis (example 2: II) 50 50 100 100 150 150 200 200 250 250 300 300 350 350 400 400 50 T X = S1:10 ! L1:10 100 150 200 250 50 100 150 200 T X ! S1:10 " L1:10 250 52 26 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli Altre applicazioni Analisi dell’immagini provenienti da strumenti biomedici ad esempio…. 53 5. Analisi delle Componenti Principali E.Martinelli Fig. 1. Principal component analysis of simulated waveforms. Two waveforms with different latencies and with response failures were simulated and mixed. Either non-quantal or quantal release with two release sites was suggested. (A) Simulated waveforms with shorter (Comp. 1) and longer (Comp. 2) latencies and also their mixture (column a) and the same waveforms contaminated with noise (column b)(B) Plot of the scores of the two initial principal components from the experiments with simulations of non-quantal (a) and quantal (b) waveforms. Note characteristic parallelograms suggesting the presence of two components. (C) The scores of the third principal component plotted against the first (a) and the fourth (b) ones. Note the narrow band (a) and the cloud (b) suggesting that the third and fourth components were absent. (D) ‘Alignment’ procedure and extraction of the simulated waveforms. The plots and represent transformed (‘aligned’plots of Ba and Bb, respectively. Note that the parallelograms of transformed into rectangular fields. Insets (1–3) show waveforms obtained by averaging the simulations corresponding to the dots from different parts of the plots in b…… 54 27 E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 5. Analisi delle Componenti Principali E.Martinelli 55 5. Analisi delle Componenti Principali E.Martinelli 56 28