Trattamento statistico dei dati in analisi sensoriale: l’analisi delle componenti principali. P.C.A. Inquadramento della problematica Generalmente i risultati dell’Analisi Sensoriale di un prodotto sono costituiti da un numero rilevante di dati che rappresentano i valori attribuiti dai componenti del panel a numerose variabili (descrittori) ritenute utili per ottenere una descrizione il più esauriente possibile del prodotto in esame. L’analisi statistica e l’interpretazione dell’insieme dei dati disponibili risulta spesso complessa e di difficile rappresentazione, soprattutto perché una quantità di informazioni più o meno rilevanti può risultare “nascosta” dalla difficoltà di individuare le relazioni esistenti tra le variabili e le reali differenze tra i campioni analizzati. E’ altrettanto difficile attribuire il giusto peso alle singole variabili e distinguere le differenze statisticamente significative dal “rumore” legato alla variabilità delle sensibilità proprie dei singoli degustatori. La PCA a grandi linee PCA = Analisi delle Componenti Principali • La PCA da un punto di vista matematico/statistico è un “metodo di proiezione bilineare” attraverso il quale, dato un numero elevato di variabili iniziali è possibile ridurre più o meno drasticamente il numero di variabili individuando delle possibili relazioni lineari tra di esse in modo da individuare delle nuove variabili dette “latenti” o Componenti Principali (PC). •L’Analisi delle Componenti Principali viene condotta in modo tale che la PC1 “spieghi” la maggior parte della variabilità tra i campioni considerati. La PC2 è ortogonale alla PC1 e “spiega” un’ulteriore porzione di variabilità tra i campioni, inferiore a quella spiegata dalla PC1 e così via. Un buon modello di rappresentazione delle differenze tra i campioni è caratterizzato da una varianza residua pari a “0”, dove la varianza residua si calcola come %=[100-(Var. PC1+Var. PC2)] La varianza residua rappresenta il “rumore”, ovvero la “variabilità dovuta al caso”. In caso di varianza residua elevata possono essersi verificate due possibilità: -a) Il modello va rivisto perché il rumore è troppo alto. -b) La struttura dei dati è troppo complessa e questo non consente l’individuazione di un numero ridotto di variabili composte per rappresentare fedelmente le informazioni contenute nei dati. Obiettivi della PCA Individuare: -Se e quanto un campione si differenzia dagli altri; -Quali variabili contribuiscono maggiormente a tale differenziazione e quali, al contrario, non sono utili per discriminare tra loro i campioni valutati; -Quali variabili sono correlate tra loro e quali sono indipendenti; -Classi di campioni in base alle similitudini tra variabili; Stimare l’utilità dell’informazione (variabilità sistematica) rispetto alla variabilità dovuta al caso (rumore) Loading: - Ad ogni variabile è associato un valore di loading per ogni componente. Questo valore indica quanto una variabile contribuisce alla definizione di una componente. In atermini matematici il valore di loading corrisponde al coseno dell’angolo tra il vettore della variabile e la componente principale considerata. -1 < loading < +1 Due variabili che hanno lo stesso segno sono concordi e quindi positivamente correlate per quella variabile. Scores: coordinate dei campioni lungo una componente - Gli scores rappresentano i punteggi che, una volta interpretate le variabili in termini di loadings, permettono di descrivere la struttura dei dati in termini di similitudini e differenze tra i campioni. Per individuare differenze statisticamente significative tra i campioni analizzati si introducono anche le “ellissi di confidenza” che racchiudono al loro interno il 95% dei giudizi espressi dai degustatori e rappresentano la “dispersione” dei giudizi rispetto al valor medio. Laddove si individuano delle sopvrapposizioni tra le ellissi relative ai singoli campioni, le differenze individuate non sono statisticamente significative. Interpretazione dei dati sottoposti a PCA Per poter giungere a un’interpretazione credibile dei dati sottoposti a PCA, quindi, occorre tenere presente contemporaneamente sia la mappa dei loadings delle variabili, sia le ellissi di confidenza. -Se una variabile ha un valore di loading basso (ad es. <0,3 in valore assoluto) non verrà presa in considerazione per l’interpretazione della componente in oggetto. -Se una variabile ha un valore di loading alto: i campioni con scores dello stesso segno rispetto a quella componente hanno un valore per quella componente significativamente superiore alla media dei campioni; al contrario i campioni con scores di segno opposto rispetto a quella componente hanno un valore per quella componente significativamente inferiore alla media dei campioni. -Maggiori sono i valori di loading e di scores, più forte è la relazione. Esempio pratico View Smell Taste Clearness Finesse Acidity Color Intensity Odor Intensity Softness Viscosity Frankness Astringency Harmony Bitter Structure Volume Aftertaste Equilibrium Persistency Overall appreciation t=0 t=0 t = 120’ t = 120’