P.le R. Morandi, 2 - 20121 MILANO
METODI ANALITICI STRUMENTALI:
STUDIO DELLA CURVA DI TARATURA
RELATORE: N. BOTTAZZINI (UNICHIM)
Corso:
SISTEMA DI GESTIONE PER LA QUALITA’ NEI
LABORATORI DI ANALISI. Convalida dei metodi di
prova. Tarature e riferibilità delle misure
Milano, 9 - 10 marzo 2011
Metodi analitici strumentali :
studio della curva di taratura
1. Introduzione
La taratura è sicuramente una delle applicazioni più importanti dell’analisi di regressione in
un laboratorio chimico. In pratica il processo di taratura di un metodo analitico strumentale
passa attraverso la costruzione di un modello matematico di complessità variabile in funzione
dello specifico problema. La ricerca di un modello matematico ha lo scopo pratico di
permettere di associare ad una misura strumentale un’informazione chimica utilizzabile.
Questa informazione normalmente è la concentrazione di uno o più analiti contenuti in un
campione di complessità variabile. Per la costruzione di un modello di taratura una quantità
misurata η, normalmente chiamata segnale (es. resistenza elettrica, EMF, pH, assorbanza
ecc.), deve essere posta in relazione con la quantità ξ, che descrive lo stato o la proprietà di un
sistema (composizione concentrazione, temperatura, tempo ecc.). In una tipica procedura di
taratura quindi, un certo numero di campioni n, di cui è noto il valore della quantità ξ,
vengono analizzati al fine di misurarne la quantità η. Se la quantità ξ è stata misurata
sperimentalmente e la misura è accurata e precisa, oppure ξ è nota perché si riferisce alla
proprietà di un materiale di riferimento, la quantità η viene sostituita da una funzione
parametrica di ξ, cioè f (ξ, b1,b2,..,bp) attraverso un opportuno trattamento dei dati che
permetta la stima del parametro bi. Una volta esplicitata la relazione funzionale tra ξ e η è
possibile ricavare, seguendo una direzione opposta alla precedente, il valore ξ* di un
campione incognito a cui corrisponde un segnale medio η * basato su q misure replicate.
L’analisi di regressione ha il compito di esplicitare la relazione funzionale tra le quantità
suddette e rendere possibile l’esperimento di taratura. Poiché uno dei metodi statistici più
utilizzati per la costruzione di un modello di taratura è quello dei minimi quadrati, in questa
relazione verranno illustrati i concetti generali del metodo, nel caso più semplice del modello
di una retta di taratura. Maggiore enfasi è stata dedicata ad alcuni aspetti specifici dell’analisi
di regressione che comunemente vengono trascurati nella quotidianità del lavoro di un
laboratorio chimico ma che potenzialmente possono indurre anche un buon chimico ad
ottenere risultati qualitativamente scadenti.
pag. 1/23
2. Il metodo dei minimi quadrati
Nella maggior parte dei casi i modelli che descrivono la relazione tra il segnale misurato y (ad
esempio un’assorbanza) ed una variabile nota a priori x (es. la concentrazione) sono lineari ed
univariati del tipo:
y = b0 + b1.x
Ricordiamo che in questo contesto con la definizione di modello lineare si intende indicare
una funzione matematica in cui una variabile dipendente y è descritta da una combinazione
lineare di più variabili indipendenti. Con univariata si intende invece specificare che la
variabile y è funzione dei valori assunti da un’unica variabile indipendente x. In una taratura
nell’ipotesi in cui la effettiva relazione funzionale tra le due variabili x ed y è quella lineare, il
segnale y può essere rappresentato come somma di due contributi di cui uno è deterministico e
rappresenta il modello vero e proprio, l’altro è casuale e rappresenta la variabilità
sperimentale associato ad ogni misura di y:
y = α + β * x + ei
Si deve quindi applicare un qualche metodo di natura statistica per ottenere una stima b0 e b1
dei coefficienti del modello α e β. Nel caso in cui si applichi il metodo dei minimi quadrati, la
stima viene fatta rendendo minima la somma dei quadrati dei residui :
min ( Σ ei2 )
I residui ei per le i osservazioni (i = 1…..n) rappresentano la differenza tra i valori osservati yi
e quelli ŷ i calcolati dal modello:
ei = yi − ŷi
ŷ i = b o + b1 ⋅ x i
eq. 2.1
e quindi
e i = y i − b 0 − b1 ⋅ x i
La stima ai minimi quadrati di α e β si ricava come già detto minimizzando S cioè la somma
dei quadrati dei residui:
S = Σ ei2 = Σ ( yi – b0 – b1 . xi )2
Questo può essere fatto differenziando rispetto ai due parametri b0 e b1 la funzione precedente
ed imponendo le funzioni derivate risultanti uguali a zero:
∂S
= −2 ⋅ ∑ ( y i − b o − b1 ⋅ x i ) = 0
∂b o
i
pag. 2/23
∂S
= −2 ⋅ ∑ x i ⋅ ( y i − b o − b 1 ⋅ x i ) = 0
∂b1
i
Dalle equazioni precedenti si ottengono rielaborando le seguenti relazioni:
b 0 ⋅ n + b1 ⋅ ∑ x i = ∑ y i
i
i
b 0 ⋅ ∑ x i + b1 ⋅ ∑ x i2 = ∑ x i ⋅ yi
i
i
i
Queste ultime sono comunemente chiamate equazioni normali.
Risolvendo il sistema delle due equazioni precedenti rispetto a b1, cioè il coefficiente angolare
della retta, si ottiene la seguente soluzione:
b1 =
∑ x i y i − [(∑ x i ) ⋅ (∑ y i )] / n ∑ ( x i − x ) ⋅ ( y i − y)
=
2
2
2
∑ x i − (∑ x i ) / n
∑ (x i − x)
eq. 2.2
in cui le sommatorie contenute nell’equazione scorrono sull’indice i da 1 ad n cioè il numero
totale di osservazioni. I due numeratori sono ovviamente due forme diverse con le quali viene
espressa la stessa quantità, infatti se:
x = ( x1 + x 2 + ........ + x n ) / n = ∑ x i / n ed y = ( y1 + y 2 + ........ + y n ) / n = ∑ y i / n
allora si ha che:
∑ ( x i − x )( yi − y) = ∑ x i y i − x ∑ yi − y∑ x i + nx ⋅ y = ∑ x i yi − nx ⋅ y = ∑ x i y i − (∑ x i )(∑ y i ) / n
La soluzione per b0, cioè per l’intercetta ad x = 0, delle equazioni normali per una retta è
invece la seguente:
b 0 = y − b1 ⋅ x
eq. 2.3
sostituendo quest’ultima nella eq. 2.1 si ottiene l’equazione di regressione nella seguente
forma:
ŷ i = y + b1 ⋅ ( x i − x )
eq. 2.4
dalla quale si può notare che se poniamo xi = x ne segue che yˆi = y . Ciò significa che il punto
(x, y) appartiene alla retta di regressione o, capovolgendo la prospettiva precedente, ogni retta
di regressione passa per il centro dei dati sperimentali.
L’utilizzo del metodo dei minimi quadrati in una analisi di regressione è vincolato alle
seguenti assunzioni di base:
pag. 3/23
1. I residui ei sono variabili casuali con media zero e varianza σ2 (normalmente sconosciuta).
2. I residui ei sono indipendenti, cioè completamente decorrelati:
cov (ei, ej) = 0 per ogni i ≠ j.
3. Tutti i residui ei hanno eguale varianza σ2. Questo significa che la varianza dei residui è
costante sull’intero intervallo di concentrazioni esplorato, risultando quindi indipendente
dal valore della concentrazione x. Questa proprietà è normalmente denominata
omoscedasticità.
La figura 1 illustra le assunzioni riguardanti i residui ei
2
N (α+ β ∗ X σ )
Modello
ŷ = α+β∗ X
Figura 1
Il valore aspettato di yi sarà quindi b0 + b1.xi, e la varianza di yi sarà σ2.
Tuttavia è importante ricordare che nei casi reali non sempre la varianza dei residui σ2 è
sempre la stessa per ogni livello di x al quale si effettuano una o più misure replicate del
segnale y. In questi casi si
identifica il problema con il
termine di eteroscedasticità:
una situazione importante in
chimica analitica è quella di
uno
scarto
tipo
relativo
costante.
Esempi
eteroscedasticità
sono riportati in Figura 2.
Figura 2
pag. 4/23
3. Analisi dei residui
L’analisi dei residui è una fase estremamente importante nella validazione di un modello di
taratura. Essa fornisce informazioni relativamente alle possibili deviazioni dalle assunzioni
imposte dal metodo dei minimi quadrati, oltre a quella relativa alla adeguatezza del modello
lineare stimato.
3.1 Metodi grafici
L’analisi dei residui può essere effettuata attraverso una valutazione visiva di alcuni grafici
tipici che accompagnano tutti i software di statistica professionali più comuni. Tra tutti quelli
possibili si suggerisce l’utilizzo frequente dei seguenti:
Distribuzione dei residui t.q.
18
16
Expected
Normal
No di osservazioni
14
12
10
8
6
4
2
0
-8
-6
-4
-2
0
2
4
6
8
Figura 3
a) analisi della distribuzione dei residui attraverso grafici a barre. La semplice analisi visiva
permette la verifica dell’assunzione fatta sulla normalità della distribuzione delle misure
della variabile y (vedi Figura 3).
E’ bene ricordare che se il numero di osservazioni è ridotto non è però possibile ricavare
un’informazione utile da questo tipo di grafici
b) analisi dei residui visualizzati contro i valori yi sperimentali o calcolati dal modello oppure
contro i valori della variabile x. In generale in questo tipo di grafici, si ottengono delle
distribuzioni aventi delle forme simili a quelle mostrate in figura 4.
pag. 5/23
Figura 4
Il primo si ottiene quando si è in presenza di una variabilità omogenea ed il modello scelto è
corretto, il secondo si ottiene quando la condizione di omoscedasticità non è rispettata. In
questi casi potrebbero essere di aiuto i cosiddetti minimi quadrati pesati o un’opportuna
trasformazione dei dati originali. Il terzo suggerisce che il modello non è generalmente valido.
Il quarto caso mostra chiaramente che il modello lineare non è adatto, poiché la relazione tra i
dati è strettamente non lineare in tutto l’intervallo indagato. In pratica quando vengono
analizzati i residui attraverso le loro rappresentazioni grafiche si devono individuare:
a) la forma del grafico
b) un numero di residui positivi circa uguale al numero di residui negativi
c) una sequenza sufficientemente casuale di segni + e – dei residui stessi
d) l’eventuale presenza di “anomali”, cioè di residui chiaramente più ampi rispetto ai valori
generalmente osservati.
Spesso oltre ad una analisi dei residui di regressione grezzi si utilizzano i cosiddetti residui
normalizzati definiti dalla seguente:
ê
ê Ni = i
s
dove s, lo scarto tipo dei residui di regressione con n-2 gradi di libertà, è dato da :
s=
∑ ( y − yˆ )
i
2
i
n−2
I residui normalizzati possono essere utili alla verifica della condizione di omoscedasticità o
in alcuni casi, alla identificazione di “anomali” eventualmente presenti nei dati; tipicamente
quando ê Ni > 3 l’osservazione viene riconosciuta anomala. La capacità di evidenziare le
osservazioni anomale attraverso i residui normalizzati, diminuisce però andando dalle
osservazioni centrali, verso quelle più esterne dell’intervallo di taratura.
Un altro tipo di residui che dovrebbero essere correntemente analizzati sono i cosiddetti
residui razionalizzati definiti dalla relazione:
pag. 6/23
ê i
êSi =
s ⋅ 1 − h ii
dove hii sono i valori di leaverage che, per una regressione lineare monovariata, sono calcolati
in base alla seguente relazione:
h ii =
1
(x i − x)2
+
n ∑ (x i − x )2
Si noti che i leaverage assumono valori compresi tra 1/n ed 1 per tutti i valori xi interni
all’intervallo di taratura. I valori hii assumono valori minimi per i punti in prossimità del
centroide dei dati cioè il punto ( x , y ), e raggiungono valori prossimi ad 1 in corrispondenza
degli estremi dell’intervallo di taratura studiato. Per quanto detto risulta chiaro che l’utilizzo
dei residui razionalizzati permette di evidenziare maggiormente l’eventuale occorrenza di
“anomali”, anche in prossimità delle regioni più esterne dell’intervallo di taratura.
Si può dimostrare che il valore massimo accessibile per i residui razionalizzati è, nel caso di
una regressione lineare semplice, pari a: ê max = n − 2 .
Si
3.2 Metodi statistici
I metodi statistici applicabili all’analisi dei residui sono costituiti essenzialmente dai test tipici
utilizzati per verificare la normalità di una certa distribuzione e dai test utilizzati per il
confronto di varianze. Si deve tener conto però che la validità di tali test è fortemente
influenzata dalla cosiddetta numerosità campionaria, cioè dal numero di misure fatte e/o
replicate. Di conseguenza, poiché nella pratica il numero di osservazioni è sempre abbastanza
ridotto non si consiglia l’utilizzo di tali metodi. Molto spesso la rappresentazione grafica dei
residui contiene informazione sufficiente per verificare il rispetto delle condizioni di
applicabilità del metodo dei minimi quadrati; in aggiunta potremmo anche dire che in
generale, l’applicazione dei test statistici nell’ambito dell’analisi di regressione ha un senso
solo dopo che il modello sia stato confermato da un esame grafico dei residui.
4. Analisi della varianza
La seguente somma di quadrati:
(
SS T = ∑ ∑ y i , j − y
i
j
)2
rappresenta la variazione dei valori di y rispetto al valore medio y . Parte di questa variazione
può essere attribuita al modello di regressione e una parte al fatto che le osservazioni non
pag. 7/23
stanno perfettamente sulla retta di regressione. La quantità SST può essere quindi spezzata in
due somme di quadrati:
a) la “SS dovuta alla regressione” (SSREG) che rappresenta la parte di SST spiegata dal
modello;
b) la “SS intorno alla regressione” o anche “SS (SSR) residuale” che rappresenta ciò che il
modello non spiega dei dati originali.
A sua volta la quantità SSR può essere decomposta in altre due componenti:
a) quella dovuta alla variabilità osservata all’interno di un gruppo di misure replicate
normalmente indicata con SSPE cioè “somma dei quadrati dovuta alla pura variabilità
casuale”;
b) quella dovuta alla variabilità delle medie di gruppo rispetto alla retta di regressione.
Questa viene normalmente indicata con SSLOF cioè “somma dei quadrati dovuta al difetto
di approssimazione”.
Supponendo quindi che, per ogni livello di concentrazione xi ( con i=1,…,k ) vengano
effettuate ni osservazioni yij ( con j=1,….,ni ), la quantità SST può essere decomposta
complessivamente in tre contributi:
y ij − y = ( y ij − y i ) + ( y i − ŷ i ) + ( ŷ i − y)
dove y i è il valor medio di ogni gruppo di misure replicate yij alla concentrazione xi e ŷ i è il
valore di y stimato dal modello al livello xi.
Elevando al quadrato tutti i termini della precedente uguaglianza e sommando rispetto a i e j si
ottiene la seguente:
2
2
2
2
∑ ∑ ( y ij − y) = ∑ ∑ ( y ij − y i ) + ∑ n i ( y i − ŷ i ) + ∑ n i ( ŷ i − y)
i
j
i
j
i
eq. 4.1
i
dove
SS PE = ∑ ∑ ( y ij − y i )
i
2
SS LOF = ∑ n i ( y i − ŷ i ) 2
j
i
SS REG = ∑ n i ( ŷ i − y) 2
i
Ovviamente la forma dell’eq. 4.1 si semplificherà nel caso in cui ni = 1 cioè in assenza di
misure replicate.
Possiamo quindi riscrivere l’eq. 4.1, in base alle definizioni precedenti nel seguente modo:
SST = SSREG + SSPE + SSLOF
che in assenza di misure replicate diventerà:
SST = SSREG + SSR
Dove SSR è la somma dei quadrati dei residui cioè:
pag. 8/23
SS R = ∑ ( y i − ŷ i ) 2
i
Un semplice schema riassuntivo relativo alla scomposizione della varianza totale di y nei vari
contributi è riportato in figura 5.
SST
SSREG
SSR
SSPE
SSLOF
Figura 5
Ad ogni somma di quadrati è sempre associato un numero che rappresenta i cosiddetti gradi di
libertà (“degrees of freedom” df) della somma stessa. Questo numero indica quante parti di
informazione indipendenti sono necessarie per calcolare quella particolare somma di quadrati.
Per esempio la quantità SST è caratterizzata da Σni – 1 gradi di libertà questo perché la somma
di tutti gli yij – y , che saranno in totale k.ni, sarà uguale a zero per la definizione stessa della
media. Il primo termine a destra dell’eq. 4.1 cioè SSPE avrà invece dfPE = Σi (ni - 1) = Σini – k.
SSREG avrà invece un unico grado di libertà dfREG = 1 essendo tale somma dipendente soltanto
da b1; si può infatti dimostrare che:
∑ n i ⋅ ( ŷ i − y) 2 = b12 ⋅ ∑ n i ⋅ ( x i − x ) 2
i
i
I gradi di libertà di SSR sono pari a dfR = Σini - 2 essendo tale somma ricavata dalla differenza
SST-SSREG. Analogamente i gradi di libertà associati alla quantità SSLOF possono essere
calcolati come differenza tra quelli di SSR e SSPE, infatti:
dfLOF = dfR - dfPE = Σini – 2 - Σini + k = k – 2
I programmi di statistica più evoluti quando effettuano una analisi di regressione forniscono,
oltre ai parametri stimati e i loro intervalli di fiducia associati, anche una tabella riassuntiva
pag. 9/23
contenente l’analisi delle varie sorgenti di varianza, la cosiddetta tabella ANOVA. La tabella
viene costruita in base alle quantità descritte precedentemente ed è utilizzata per effettuare i
test F per la significatività del modello di regressione e per la conferma della linearità in
presenza di misure replicate. I test F non sono effettuati direttamente sulle sommatorie dei
quadrati ma sui loro valori medi, calcolati in base ai rispettivi gradi di libertà. I valori medi
sono indicati con MS = SS / df (Mean Squares) e vengono combinati per eseguire i test F nel
modo seguente:
F = MSREG / MSR per la validazione del modello di regressione
F= MSLOF / MSPE per la verifica dell’ipotesi di linearità del modello
Nel caso in cui il modello di regressione venga stimato sulla base di un numero
indefinitamente grande di osservazioni, la quantità MSR - talvolta indicata anche con s2, σ 2X⋅Y
o s 2y / x - rappresenta la misura della variabilità che accompagna il ricalcolo di un qualunque
valore osservato yi ad un dato xi usando l’equazione del modello.
L’analisi della varianza viene normalmente presentata in forma di tabella in cui sono indicate:
la sorgente “source”, i gradi di libertà “df”, la somma dei quadrati “SS”, il valore medio dei
quadrati “MS”, ed infine il valore per eseguire il test F. Un esempio di analisi della varianza è
riportato nella tabella successiva:
Tabella ANOVA
Source
SS
df
MS
Regression
SSREG = 12447.4
1
MSREG =12447.4
Residual
SSR = 106.1
18
MSR = 5.9
Lack of fit
SSLOF = 87.6
3
MSLOF = 29.2
Within-groups
SSPE = 18.5
15
MSPE = 1.2
Total
SST = 12553.5
19
F
2109.7
24.3
L’esempio si riferisce ad un caso con n = Σini = 20 (con i=1,...,k) e con k = 5. Nella tabella si
osserva inoltre un valore F = MSLOF / MSPE = 24.3 che, se confrontato con il valore tabulato
.05
F30,15
= 3.29 , indica come il termine MSLOF sia significativamente preponderante rispetto a
MSPE; di conseguenza il modello scelto non risulta essere adeguato nel descrivere la vera
relazione tra le variabili x e y.
pag. 10/23
L’analisi della varianza in presenza di misure replicate rappresenta un utile strumento per
verificare a priori l’ipotesi di linearità del modello di taratura; vi sono tuttavia altri tipi di test
utilizzabili a tal fine che prendono il nome di test a posteriori nei quali, a differenza del caso
precedente, il modello lineare viene confrontato con un modello alternativo non lineare.
I test a posteriori sono basati sul confronto tra le varianze dei residui di un modello lineare
con quelli di un modello non lineare :
•
2
il primo di questi confronta i valore di slin
cioè la varianza dei residui del modello lineare
2
con snonlinl
cioè la varianza dei residui del modello non lineare di riferimento secondo il
seguente rapporto:
2
F = s lin
/ s 2nonlinl
Se il valore di F calcolato è superiore a quello critico tabulato, l’ipotesi di linearità del
modello deve essere rifiutata. Si ricorda che i gradi di libertà anche nel caso di un modello
non lineare sono dati da n-p dove p sono i parametri stimati dal modello.
•
il secondo, denominato anche test di Mandel, è basato sul calcolo del seguente rapporto:
F = DS2 / s 2nonlinl
dove:
2
DS2 = (n-2) * s lin
- (n-3) * s 2nonlinl
se il modello non lineare è quello di una curva di secondo grado.
Infatti, il test di Mandel viene tipicamente applicato al confronto tra il modello di una retta e
quello di una parabola : il valore di F critico è quello tabulato, ad un dato livello di rischio
accettato, per un numeratore con un grado di libertà, ed un denominatore con n-3 gradi di
libertà. Se il valore di F calcolato è superiore a quello critico tabulato, l’ipotesi di linearità del
modello deve essere rifiutata.
Il vantaggio dei test a posteriori consiste nel fatto che non sono necessarie misure replicate.
4.1. Il coefficiente di determinazione R2 e quello di correlazione r
Uno dei parametri più usati dai chimici nell’analisi di regressione è il cosiddetto R2, che
rappresenta la frazione di varianza spiegata dal modello rispetto alla varianza complessiva
delle yi sperimentali. L’espressione matematica di R2 è la seguente:
R2 =
SS REG SS T − SS R
SS
=
= 1− R
SS T
SS T
SS T
pag. 11/23
Il valore di R2 può assumere valori compresi tra 0 ed 1 rispettivamente nei casi di assoluta
inadeguatezza del modello e di assoluta perfezione del modello stesso. Un parametro che può
essere derivato direttamente da R2, è il coefficiente di correlazione r che rappresenta in
generale il parametro statistico più abusato tra quelli che accompagnano l’analisi di
regressione. Il coefficiente di correlazione assume valori compresi tra –1 e +1 e può essere
calcolato in base alla seguente relazione:
r = (segno di b1) . (R2)1/2
E’ bene a questo punto precisare che l’analisi di regressione e quella di correlazione sono
concettualmente distinte anche se matematicamente risultano essere tra loro legate. L’analisi
di regressione semplice, infatti, ci dice in che modo le variabili sono legate linearmente,
mentre l’analisi di correlazione ci indica il grado o l’intensità del legame lineare tra le
variabili.
Tuttavia il coefficiente di correlazione viene spesso interpretato come una misura diretta della
qualità del modello di taratura ottenuto. L’uso generalizzato che è stato fatto del coefficiente
di correlazione r, è probabilmente dovuto al suo facile calcolo ed all’immediatezza
d’interpretazione. Tale immediatezza è però solo apparente e ha portato, in alcuni casi, ad
interpretazioni grossolane. E’ pratica abbastanza comune infatti parlare di regressione
eccellente quando r è compreso tra 0.99 ed 1 mentre la regressione è definita soddisfacente se
r è compreso tra 0.95 e 0.99. Per valori inferiori a 0.90 la regressione è valutata sicuramente
come scadente. Questo criterio interpretativo, o qualunque altro ad esso analogo, non è
corretto per due motivi fondamentali:
-
la qualità di una regressione si compone di due aspetti: l’accuratezza con cui l’equazione
di regressione descrive i dati sperimentali, indispensabile quando la regressione viene
usata a scopo predittivo, e la significatività dei coefficienti di regressione, che è
indispensabile per la spiegazione e la discussione dei risultati. Il coefficiente di
correlazione però è interpretabile in termini di qualità della correlazione piuttosto che in
termini di significatività dei coefficienti di regressione.
-
la significatività del coefficiente di correlazione dipende dal numero dei punti in gioco e
dall’intervallo di variazione dalla variabile indipendente x, di conseguenza un coefficiente
di correlazione non può essere buono o scadente in assoluto, ma la sua significatività
dovrà essere giudicata attraverso l’utilizzo di un opportuno test statistico.
pag. 12/23
5. Intervalli di fiducia
La stima dei parametri di regressione b0 e b1, è accompagnata da un certo grado di incertezza
dovuta alla presenza della variabilità casuale; tale indeterminazione genera un intervallo di
fiducia per ogni parametro stimato del modello, la cui ampiezza dipende dalla qualità del
modello stesso e dal grado di indeterminazione accettato.
5.1. Intervallo di fiducia di b1
Abbiamo visto precedentemente che:
b1 =
∑ ( x i − x ) ⋅ ( y i − y)
∑ (x i − x ) 2
questa può essere riscritta anche nel seguente modo:
b1 =
∑ ( x i − x ) ⋅ y i = {(x 1 − x ) ⋅ y1 + ....... + (x n − x ) ⋅ y n }
∑ (x i − x) 2
∑ (x i − x) 2
essendo che per il termine al numeratore vale la seguente:
∑ (x i − x) ⋅ y = y ⋅ ∑ (x i − x ) = 0
E’ anche noto che la varianza di una funzione del tipo:
a = a 1Y1 + a 2 Y2 + ..... + a n Yn
può essere calcolata nel modo seguente:
V (a ) = a 12 ⋅ V (Y1 ) + a 22 ⋅ V (Y2 ) + ..... + a 2n ⋅ V (Yn )
quindi se i termini Yi sono tra loro a coppie non correlati, i termini ai sono delle costanti ed
infine se V(Yi) = s2 allora si ha che:
(
)
V (a ) = (a 12 + a 22 + ...... + a 2n ) ⋅ s 2 = ∑ a i2 ⋅ s 2
Nell’espressione relativa al calcolo di b1 i termini ( x i − x ) /(∑ ( x i − x ) 2 possono essere
identificati con gli ai potendo considerare i singoli valori xi delle costanti. Quindi dopo
riduzione si ottiene:
V(b1 ) = s b21 =
s2
2
∑ (x i − x )
eq. 5.1
dove s2 è la varianza dei residui della regressione.
pag. 13/23
E’ interessante osservare che la varianza di b1 può essere ridotta massimizzando la
sommatoria al denominatore. Tale sommatoria dipende dal disegno sperimentale utilizzato
che avrebbe come soluzione ideale quella di due o più punti raggruppati agli estremi
dell’intervallo dei valori di x considerati. E’ chiaro però che, per realizzare questo tipo di
strategia sperimentale, lo sperimentatore deve essere assolutamente certo che il vero modello
che lega le due variabili sia quello di una retta.
Lo scarto tipo di b1 corrisponderà alla radice quadrata della sua varianza: s b1 = s 2b1 .
Assumendo che le variazioni delle osservazioni rispetto alla retta di regressione appartengano
tutte alla stessa distribuzione normale, allora l’intervallo di fiducia relativo alla stima di b1
0.05
sarà: b1 ± t 0n.−05
2 ⋅ s b1 . Dove t n − 2 è il valore relativo al 95% di una distribuzione t con n-2
gradi di libertà. Ovviamente il livello di rischio accettato, può essere diverso ed assumere
valori più piccoli del 5%; in questo caso il valore di t di riferimento crescerà anche a parità di
gradi di libertà.
Normalmente alla stima dei parametri di regressione è associato anche il cosiddetto t-test, cioè
si verifica che il valore stimato non sia significativamente diverso da un valore di riferimento
β . In pratica si verifica che il rapporto t = ( b1 - β ) / sb1 sia un valore - preso come valore
assoluto - minore del valore tabulato della t di Student con n-2 gradi di libertà e relativo al
livello di rischio accettato.
5.2. Intervallo di fiducia di b0
Analogamente a quanto visto in precedenza è possibile calcolare un intervallo di fiducia ed
eseguire un t-test anche per l’intercetta della retta di regressione cioè b0. Infatti dall’eq. 2.3:
b 0 = y − b1 ⋅ x
ed essendo y e b0 non correlati si può applicare la formula per il calcolo della varianza di una
generica funzione V(a) e, tenendo conto che x è una costante si ha che:
V ( b 0 ) = V ( y ) + x 2 ⋅ V ( b1 ) =
s2
s2
x2
2 
1 +
+ x2 ⋅
=
s
⋅
n
n
∑ (x i − x) 2
∑ (x i − x) 2





eq. 5.2
Dall’equazione del calcolo della varianza di b0 si ricavano analogamente al caso del parametro
b1 lo scarto tipo sbo = (V(b0))0.5 e l’intervallo di fiducia b 0 ± t 0n.−052 ⋅ s b0 . Il t-test viene effettuato
ovviamente nello stesso modo descritto per b1.
pag. 14/23
5.3. Intervallo di fiducia e di predizione di ŷ
Abbiamo precedentemente mostrato che l’equazione della retta di regressione poteva essere
scritta nella forma:
ŷ i = y + b1 ⋅ ( x i − x )
eq. 2.4
Applicando quindi un procedimento analogo a quello utilizzato per i parametri b0 e b1,
possiamo ricavare una funzione di varianza e quindi uno scarto tipo dei valori di y calcolati
dal modello in corrispondenza di ogni valore di x:
(x i − x ) 2 
s2
s2
1
2
2 

 eq. 5.3
V( ŷ) = V( y) + ( x i − x ) ⋅ V(b1 ) =
+ (x i − x ) ⋅
= s ⋅ +
2
2 
n
n
(
x
−
x
)
∑ (x i − x)
∑

i

2
Si può quindi calcolare l’incertezza della stima di yi, con un rischio associato del 5% con la
relazione: ŷ ± t 0n.−052 ⋅ s ŷ .
Un aspetto interessante contenuto nell’eq. 5.3 è che l’indeterminazione nella stima di ŷ risulta
minima quando x i = x e vale s 2ŷ = s 2 / n . Al contrario, all’aumentare della distanza di xi
da x , aumenta l’incertezza sulla stima di ŷ . Le predizioni migliori saranno effettuabili nella
zona centrale dell’intervallo di variazione della variabile x, mentre peggioreranno in
prossimità degli estremi. Oltre questo punto la predizione sarà ancora meno attendibile perché
estranea all’esperienza acquisita dal modello. E’ ormai diffusa nei programmi di statistica
moderni, la buona pratica di mostrare le cosiddette bande di fiducia della regressione - talvolta
chiamate anche regioni di Working-Hotelling - ad un certo livello di rischio. Queste bande
80
sono delle iperboli calcolate
70
ŷ ± t 0n.−052 ⋅ s ŷ e risulteranno per
60
una stessa serie di dati (x,y)
50
più o meno ampie a secondo
del limite di fiducia scelto
Y
con una relazione del tipo
40
30
(95%, 99%, ecc.). Un esempio
20
è riportato in Figura 6.
10
50
150
250
350
450
X
Figura 6
pag. 15/23
550
Il calcolo dell’intervallo di predizione di un nuovo valore y0 ad un corrispondente x0 sarà
invece calcolato in base alla seguente relazione:
y0 ±
t 0n.−052
 1
(x 0 − x) 2  2 

⋅s 
⋅ 1 + +
2 
n
−
(
x
x
)
∑ i
 

1/ 2
eq. 5.4
Questo intervallo intorno al valore di y calcolato, è aumentato rispetto al precedente per cui le
bande cosiddette di “predizione” sono più ampie di quelle di fiducia della regressione stessa.
Nel caso in cui si effettuino q misure replicate di yi per un dato livello x0 allora l’equazione
precedente si trasforma nella seguente:
 1 1 ( x − x ) 2 

0
 ⋅ s2 
y 0 ± t 0n.−052 ⋅  + +
 q n ∑ ( x i − x ) 2 

1/ 2
eq. 5.5
5.4 Regressione inversa
Si parla di regressione inversa quando viene utilizzata la retta di regressione calcolata al fine
di stimare un valore x̂ * quando è noto, perché misurato, il valore y*. Quest’ultimo può essere
derivato da una misura singola (q=1) oppure dal valore medio di più misure replicate q dello
stesso campione y * . La regressione inversa costituisce lo scopo primario di un’analisi di
regressione nell’ambito della chimica analitica. Il calcolo di x̂ * può essere fatto con una delle
seguenti espressioni:
x̂ * = x +
( y * − y)
b1
oppure x̂ * =
y* − b 0
b1
Mentre l’intervallo di predizione intorno al valore di x̂ * stimato può essere calcolato dalle
seguenti relazioni:
 1
 s2 
( y * − y) 2
⋅ 
x̂ * ± t 0n.−052 ⋅ 1 + +
2
2

n

b1 ⋅ ∑ ( x i − x )  b12 
1/ 2
eq. 5.6
per q > 1
xˆ ± t
*
0.05
n−2
 1 1
( y* − y)2
⋅  + + 2
2
 q n b1 ⋅ ∑ ( xi − x )
 s2 
⋅ 
 b2 
 1
1/ 2
eq. 5.7
pag. 16/23
sempre ipotizzando un rischio accettato per la predizione di x̂ * pari al 5%. E’ evidente da
quanto detto che le bande di predizione saranno tanto più strette quanto più aumentano il
numero di misure replicate e il numero totale di punti. E’ importante sottolineare che le
equazioni 5.6 e 5.7, sono delle formule approssimate la cui validità è verificata quando la
funzione:
t2
g=


b



s2

2 
 ∑ ( xi − x ) 
1/ 2




2
assume un valore minore a 0.05. Per avere valori di g inferiori al valore precedentemente
indicato è evidente che b e
∑ (x
i
− x ) 2 debbano essere relativamente grandi mentre s 2
sufficientemente piccolo. Prima di usare le equazioni 5.6 e 5.7 per la determinazione
dell’incertezza che accompagna la stima di una data concentrazione x̂ * , è consigliato
verificare che il valore di g sia inferiore al valore massimo accettabile.
6. La validazione della procedura di taratura
Prima di poter utilizzare un modello di taratura al fine di produrre un dato analitico, la
procedura di taratura dovrebbe essere validata sperimentalmente. La fase di validazione ha il
compito di definire la capacità predittiva del modello date certe modalità operative.
Una modalità di validazione molto semplice consiste nell’effettuare la determinazione della
concentrazione di materiali di riferimento attraverso l’applicazione del modello di taratura.
Le concentrazioni stimate xest. possono essere confrontate con quelle note xtrue attraverso la
costruzione di un modello lineare del tipo:
xest = b0 + b1( xtrue )
I valori aspettati dei coefficienti del modello saranno: b0 = 0 e b1 = 1.
Applicando le equazioni viste in precedenza si calcoleranno i coefficienti del modello,
l’incertezza associata alla loro stima, e si verificheranno le ipotesi:
H0: b0 = 0 contro HA: b0 ≠ 0 e H0: b1 = 1 contro HA: b1 ≠ 1
attraverso l’esecuzione di un t-Test come già descritto.
Lo scopo di questa modalità di validazione è quello di verificare l’assenza di scostamenti
sistematici nella capacità predittiva del modello di taratura ottenuto. Tuttavia è bene ricordare
che oltre al rifiuto delle ipotesi precedenti, in condizioni ideali, ci si aspetta anche di trovare
degli intervalli di fiducia dei parametri del modello di validazione molto ristretti.
pag. 17/23
7. I minimi quadrati in presenza di eteroscedasticità
Per molte procedure analitiche, la condizione di varianza uniforme lungo tutto l’intervallo di
valori di x, sul quale è stata costruita la retta di taratura, non viene rispettata. In questi casi
cade una delle condizioni necessarie per applicare il metodo dei minimi quadrati per il calcolo
della retta di taratura, almeno nella modalità precedentemente descritta.
In generale la presenza di una condizione di eteroscedasticità comporta una perdita di
accuratezza nel calcolo della retta di taratura. I motivi che portano ad una varianza del segnale
non uniforme sono molteplici ed imputabili normalmente a sorgenti di rumore contenute nella
strumentazione analitica; queste generano una varianza intrinseca del segnale misurato che
risulta essere una qualche funzione del segnale stesso. Per queste ragioni sarebbe quindi
indispensabile verificare sempre la condizione di omoscedasticità. Per effettuare tale verifica,
il modo concettualmente più semplice è quello di fare un numero di misure replicate
sufficientemente grande almeno a tre livelli di x corrispondenti alle due zone prossime agli
estremi dell’intervallo di taratura e a quella centrale. Se il numero di repliche è
sufficientemente grande sarà possibile stimare la varianza del segnale con buona accuratezza e
quindi verificarne l’andamento rispetto al valore del segnale. L’analisi grafica dei residui può
dare informazioni qualitative dirette sull’eventuale presenza di eteroscedasticità.
Nel caso di più misure replicate ad almeno due livelli xi, coincidenti o molto prossimi agli
estremi dell’intervallo di taratura, la condizione di omoscedasticità può essere verificata
attraverso l’applicazione di un F test sulle varianze dei due sottogruppi di misure replicate:
s2
Fmax = max
s 2min
Per eseguire questo test il numero di repliche q dei due sottogruppo deve essere uguale.
E’ importante sottolineare che le sorgenti di eteroscedasticità del segnale saranno visibili solo
se la variabilità casuale associata alla preparazione di più campioni uguali è inferiore a quella
del segnale misurato. E’ bene inoltre non dimenticare che una misura replicata non consiste
nell’eseguire più volte la misura di una stessa soluzione di un analita ad una data
concentrazione, bensì di effettuare una sola misura per più soluzioni dello stesso analita
preparate alla stessa concentrazione.
La rimozione dell’eteroscedasticità può in alcuni casi essere raggiunta attraverso una qualche
trasformazione della variabile eteroscedastica. Tra le trasformazioni più comuni ricordiamo la
trasformazione logaritmica z = logy , la trasformazione z = y1/2 oppure la trasformazione z =
1/y.
pag. 18/23
Per evitare che le trasformazioni modifichino la natura della relazione lineare tra la x e la y la
stessa trasformazione deve essere applicata alla variabile x:
log y = b 0 + b1 * log x
y = b 0 + b1 * x
1 y = b0 + b1 * 1 x
Un effetto collaterale alla trasformazione delle variabili è che in funzione del tipo di
trasformazione matematica, quando si utilizza il modello di taratura per determinare un valore
di x0 misurato un y0, gli intervalli di fiducia tradotti nella scala della variabile x originale
possono non essere simmetrici oppure richiedere delle trasformazioni successive per
ricondurli alla variabile originale.
8. I minimi quadrati pesati
In chimica analitica il calcolo di una curva di taratura utilizzando il metodo dei minimi
quadrati ordinari è ampiamente diffuso anche quando è noto che la variabilità associata al
segnale misurato è funzione dell’intensità del segnale stesso. Esempi di tecniche analitiche
generalmente affette da eteroscedasticità sono: metodi gas-cromatografici, metodi il cui
segnale misurato è un conteggio e metodi fotometrici. Le ragioni di una variabilità casuale
non omogenea all’interno del dominio sperimentale di taratura possono essere molteplici, in
alcuni casi una variabilità non uniforme è aspettata su base teorica come nel caso dei conteggi,
in altri casi la diminuzione della precisione del segnale misurato è funzione di un aumento del
rumore (di natura stocastica) dovuto a fotomoltiplicatori, a fluttuazioni delle sorgenti di luce,
all’elettronica dell’apparecchiatura, alla non omogeneità di una fiamma ed altri ancora.
L’aumento della variabilità casuale nel segnale che si genera alle concentrazioni più alte ha
come conseguenza pratica che i campioni incogniti a più bassa concentrazione avranno uno
scostamento dai valori reali inutilmente maggiore, così come più ampia sarà l’incertezza ad
essi associata. L’aumentata incertezza per le concentrazioni più basse comporterà anche un
incremento dei limiti di rivelabilità e di quantificazione: in altri termini in presenza di
eteroscedasticità la curva di taratura risulterà meno precisa. Per risolvere questo problema, è
possibile ripartire il dominio sperimentale delle concentrazioni iniziali in due o più intervalli
costruendo per ognuno di essi la corrispondente curva di taratura. Se all’interno di ogni nuovo
dominio sperimentale la variabilità casuale associata al segnale risulta sostanzialmente
omogenea (vedi test F), è accettabile l’utilizzo dei minimi quadrati ordinari per la costruzione
pag. 19/23
di curve di taratura locali. Nell’ipotesi che la varianza del segnale aumenti monotonicamente
con il valore del segnale stesso, si avrà che la curva di taratura calcolata nel dominio delle
basse concentrazioni sarà caratterizzata da una precisione maggiore rispetto alla curva di
taratura ottenuta nel dominio delle alte concentrazioni.
Un metodo molto più consistente per la costruzione di una curva di taratura in caso di dati
caratterizzati da eteroscedasticità riconosciuta è quello dei minimi quadrati pesati.
Per quanto il metodo sia noto da molto tempo, il suo impiego in chimica analitica non è
particolarmente diffuso nonostante alcune linee guida o manuali ne sollecitino un utilizzo più
sistematico.
Tra le possibili ragioni della scarsa popolarità del metodo dei minimi quadrati pesati nel
calcolo della curva di taratura possiamo indicare la poca familiarità del chimico con i concetti
di questo tipo di statistica e la scarsità di software d’immediato utilizzo.
UNICHIM, comunque, ha recentemente (6 maggio 2003) presentato un software convalidato
che, tra l’altro, riporta le modalità per trattare tarature secondo minimi quadrati pesati.
8.1. Calcolo del modello di regressione
L’applicazione del metodo dei minimi quadrati pesati consiste:
(a) nella stima dei pesi da associare ad ogni valore di yi con la relazione wi = 1 / σˆ i2 dove σˆ i2 è
generalmente la varianza delle misure yi.
(b) nel calcolo del modello di regressione con il metodo dei minimi quadrati pesati (WLS).
Il calcolo del modello di taratura attraverso il metodo WLS prevede di associare un peso ad
ogni osservazione in modo tale che, i residui pesati della regressione, siano caratterizzati da
una varianza costante σ i2 = 1. Questo viene fatto scegliendo dei pesi come descritto
precedentemente al punto a), riducendo l’importanza di quei dati caratterizzati da una minore
precisione. La funzione obiettivo sarà analoga a quella dei minimi quadrati a meno dei pesi
wi:
S = Σ wi . ei2 = Σ wi . ( yi – b0 – b1 . xi )2
Al fine di dimostrare la logica con la quale vengono scelti i pesi in base alla wi = 1 / σˆ i2
supponiamo di moltiplicare entrambi i termini dell’equazione relativa al modello di una retta
per wi1 / 2 :
pag. 20/23
wi1 / 2 ⋅ y i = wi1 / 2 ⋅ bo + wi1 / 2 ⋅ b1 ⋅ xi + wi1 / 2 ⋅ ε i
per cui la varianza dei residui pesati diventa costante come si può dimostrare applicando la
formula della varianza V(a.y) = a2.V(y), ed assumendo che wi = 1 / σˆ i2 :
V(wi1/2 . εi) = wi . V(εi) = 1/σi 2. σi2 = 1
Le stime dei parametri del modello di taratura secondo il metodo WLS si ottengono
applicando le seguenti formule:
b1 w =
∑w x y
∑w x
*
i
i i − n xw yw
* 2
2
i i − n xw
=
∑ w ( x − x )( y − y )
∑ w (x − x )
∗
i
i
w
∗
i
i
w
eq. 8.1
2
i
w
b0 w = yw − b1w ⋅ xw
eq.8.2
dove:
wi
∑ wi / n
wi∗ =
eq.8.3
e:
xw = ∑ wi xi / ∑ wi e yw = ∑ wi yi / ∑ wi
I pesi così trasformati (eq. 8.3) sono scalati in modo tale che
∑w
*
i
= n dove n è il numero di
osservazioni effettuate.
La varianza pesata dei residui è data in questo caso dalla seguente relazione:
s
2
w
∑ w (y
=
*
i
i
− yˆ i )
2
eq. 8.4
n−2
Le bande di fiducia intorno alla retta di taratura sono calcolabili con relazioni analoghe a
quelle determinate per i minimi quadrati classici:
 1
( xi − xw ) 2 

yˆ iw = bow + b1w ⋅ xi ± tn0−.052 ⋅ sw2 ⋅ 
+
*
2 
w
(
x
−
x
)
w
∑ i ∑ i

eq. 8.5
Il calcolo dell’intervallo di predizione di un nuovo valore y0w ad un corrispondente x0 sarà
invece calcolato in base alla seguente relazione:
y0 w ± t n0−.052
 1
⋅  * +
 wo
1
+
wi*
∑
( x0 − xw ) 2  2 
⋅ sw 
wi* ( xi − xw ) 2 

∑
1/ 2
eq. 8.6
Nel caso in cui y0w sia il valore medio ottenuto da q misure replicate ad un dato livello x0
allora l’equazione precedente si trasforma nella seguente:
pag. 21/23
y0 w ± t n0−.052
 1
⋅  * +
 wo ⋅ q
1
+
wi*
∑
( x0 − xw ) 2  2 
⋅ sw 
wi* ( xi − xw ) 2 

1/ 2
∑
eq. 8.7
Utilizzando un modello di taratura pesato per la stima di una concentrazione incognita x̂ *
corrispondente ad un valore misurato y* si dovranno utilizzare le seguenti relazioni:
xˆ
*
± t n0−.052
 1
⋅  * +
 wo ⋅ q
xˆ ∗ = x w +
( y∗ − yw )
b1w
1
( y* − yw ) 2
∑w
*
i
+
b12w ⋅
∑
 s2 
⋅ w 
∗
2 
wi ( xi − x w )  b12w 
eq. 8.8
1/ 2
eq. 8.9
dove il calcolo dell’intervallo di predizione della concentrazione incognita è stato espresso
nella sua forma più generale comprendente anche il caso in qui y* sia un valore medio
ottenuto da q misure replicate.
pag. 22/23
Bibliografia
[1] Agterdenbos, J.; Maessen, F.J.M.J.; Balke, J. “Calibration in quantitative analysis. Part I.
General considerations”, Anal. Chim. Acta, 1979, 108, 315
[2] Agterdenbos, J.; Maessen, F.J.M.J.; Balke, J. “Calibration in quantitative analysis. Part II.
Confidence regions for the sample content in the case of linear calibration relations”,
Anal. Chim. Acta, 1981, 132, 127
[3] Danzer, K.; Currie, L.A. “Guidelines for calibration in analytical chemistry – Part 1 :
Fundamentals and single component calibration”, Pure & Appl. Chem. 1998, 70, 993
[4] Davidian, M.; Haaland, P.D. “Regression and calibration with nonconstant error
variance” Chemom. Intell. Lab. Syst. 1990, 9, 231
[5] Draper, N.R.; Smith, H. Applied Regression Analysis, Wiley, New York, 2nd Ed., 1981
[6] Harter, H.L. “The method of Least Squares and some alternatives”, Parts I-IV, Intern.
Statist. Rev. 1974, 42, 147 (I); 235 (II); 1975, 43, 1 (III); 269 (IV)
[7] Hubaux, A.; Vos, G. “Decision and Detection limits for Linear Calibration Curves” Anal.
Chem., 1970, 42, 849
[8] Hunter, J.S. “Calibration and the straight line: Current statistical practices”, J. Assoc. Off.
Anal. Chem., 1981, 574
[9] MacTaggart, D.L.; Farwell, S.O. “Analytical use of linear regression”, Part I: “Regression
procedures for calibration and quantitation”, J. Assoc. Off. Anal. Chem., 1992, 75, 594
[10] Massart, D.L.; Vandeginste, B.G.M.; Deming, S.N.; Michotte, Y.; Kaufman, L.
Chemometrics: a textbook, Elsevier, New York, 1988
[11] Meloun, M.; Militky, J.; Forina M. Chemometrics for Analytical Chemistry, Vol.2, Ellis
Horwood, New York, 1994
[12] Miller, J.N. “Basic Statistical Methods for Analytical Chemistry Part2. Calibration and
Regression Methods. A Review” Analyst, 1991, 116, 9
pag. 23/23