Trattamento statistico dei dati in analisi sensoriale: l`analisi delle

Trattamento statistico dei dati
in analisi sensoriale: l’analisi
delle componenti principali.
P.C.A.
Inquadramento della problematica
Generalmente i risultati dell’Analisi Sensoriale di un
prodotto sono costituiti da un numero rilevante di dati che
rappresentano i valori attribuiti dai componenti del panel a
numerose variabili (descrittori) ritenute utili per ottenere
una descrizione il più esauriente possibile del prodotto in
esame.
L’analisi statistica e l’interpretazione dell’insieme dei dati
disponibili risulta spesso complessa e di difficile
rappresentazione, soprattutto perché una quantità di
informazioni più o meno rilevanti può risultare “nascosta”
dalla difficoltà di individuare le relazioni esistenti tra le
variabili e le reali differenze tra i campioni analizzati.
E’ altrettanto difficile attribuire il giusto peso alle singole
variabili e distinguere le differenze statisticamente
significative dal “rumore” legato alla variabilità delle
sensibilità proprie dei singoli degustatori.
La PCA a grandi linee
PCA = Analisi delle Componenti Principali
• La PCA da un punto di vista matematico/statistico è un
“metodo di proiezione bilineare” attraverso il quale, dato
un numero elevato di variabili iniziali è possibile ridurre
più o meno drasticamente il numero di variabili
individuando delle possibili relazioni lineari tra di esse in
modo da individuare delle nuove variabili dette “latenti”
o Componenti Principali (PC).
•L’Analisi delle Componenti Principali viene condotta in
modo tale che la PC1 “spieghi” la maggior parte della
variabilità tra i campioni considerati. La PC2 è
ortogonale alla PC1 e “spiega” un’ulteriore porzione di
variabilità tra i campioni, inferiore a quella spiegata dalla
PC1 e così via.
Un buon modello di rappresentazione delle differenze
tra i campioni è caratterizzato da una varianza residua
pari a “0”, dove la varianza residua si calcola come
%=[100-(Var. PC1+Var. PC2)]
La varianza residua rappresenta il “rumore”, ovvero la
“variabilità dovuta al caso”. In caso di varianza residua
elevata possono essersi verificate due possibilità:
-a) Il modello va rivisto perché il rumore è troppo alto.
-b) La struttura dei dati è troppo complessa e questo non
consente l’individuazione di un numero ridotto di variabili
composte per rappresentare fedelmente le informazioni
contenute nei dati.
Obiettivi della PCA
Individuare:
-Se e quanto un campione si differenzia dagli altri;
-Quali variabili contribuiscono maggiormente a tale
differenziazione e quali, al contrario, non sono utili per
discriminare tra loro i campioni valutati;
-Quali variabili sono correlate tra loro e quali sono
indipendenti;
-Classi di campioni in base alle similitudini tra variabili;
Stimare
l’utilità
dell’informazione
(variabilità
sistematica) rispetto alla variabilità dovuta al caso
(rumore)
Loading:
- Ad ogni variabile è associato un valore di loading per ogni
componente. Questo valore indica quanto una variabile
contribuisce alla definizione di una componente. In atermini
matematici il valore di loading corrisponde al coseno
dell’angolo tra il vettore della variabile e la componente
principale considerata.
-1 < loading < +1
Due variabili che hanno lo stesso
segno sono concordi e quindi
positivamente
correlate
per
quella variabile.
Scores: coordinate dei campioni lungo una componente
- Gli scores rappresentano i punteggi che, una volta
interpretate le variabili in termini di loadings, permettono
di descrivere la struttura dei dati in termini di similitudini e
differenze tra i campioni.
Per
individuare
differenze
statisticamente
significative
tra i campioni analizzati si
introducono anche le “ellissi di
confidenza” che racchiudono al
loro interno il 95% dei giudizi
espressi dai degustatori e
rappresentano la “dispersione”
dei giudizi rispetto al valor
medio. Laddove si individuano
delle sopvrapposizioni tra le
ellissi
relative
ai
singoli
campioni,
le
differenze
individuate
non
sono
statisticamente significative.
Interpretazione dei dati sottoposti a PCA
Per poter giungere a un’interpretazione credibile dei dati sottoposti a PCA,
quindi, occorre tenere presente contemporaneamente sia la mappa dei
loadings delle variabili, sia le ellissi di confidenza.
-Se una variabile ha un valore di loading basso (ad es. <0,3 in
valore assoluto) non verrà presa in considerazione per
l’interpretazione della componente in oggetto.
-Se una variabile ha un valore di loading alto: i campioni con
scores dello stesso segno rispetto a quella componente
hanno un valore per quella componente significativamente
superiore alla media dei campioni; al contrario i campioni con
scores di segno opposto rispetto a quella componente hanno
un valore per quella componente significativamente
inferiore alla media dei campioni.
-Maggiori sono i valori di loading e di scores, più forte è la
relazione.
Esempio pratico
View
Smell
Taste
Clearness
Finesse
Acidity
Color Intensity
Odor Intensity
Softness
Viscosity
Frankness
Astringency
Harmony
Bitter
Structure
Volume
Aftertaste
Equilibrium
Persistency
Overall appreciation
t=0
t=0
t = 120’
t = 120’