P.le R. Morandi, 2 - 20121 MILANO METODI ANALITICI STRUMENTALI: STUDIO DELLA CURVA DI TARATURA RELATORE: N. BOTTAZZINI (UNICHIM) Corso: SISTEMA DI GESTIONE PER LA QUALITA’ NEI LABORATORI DI ANALISI. Convalida dei metodi di prova. Tarature e riferibilità delle misure Milano, 9 - 10 marzo 2011 Metodi analitici strumentali : studio della curva di taratura 1. Introduzione La taratura è sicuramente una delle applicazioni più importanti dell’analisi di regressione in un laboratorio chimico. In pratica il processo di taratura di un metodo analitico strumentale passa attraverso la costruzione di un modello matematico di complessità variabile in funzione dello specifico problema. La ricerca di un modello matematico ha lo scopo pratico di permettere di associare ad una misura strumentale un’informazione chimica utilizzabile. Questa informazione normalmente è la concentrazione di uno o più analiti contenuti in un campione di complessità variabile. Per la costruzione di un modello di taratura una quantità misurata η, normalmente chiamata segnale (es. resistenza elettrica, EMF, pH, assorbanza ecc.), deve essere posta in relazione con la quantità ξ, che descrive lo stato o la proprietà di un sistema (composizione concentrazione, temperatura, tempo ecc.). In una tipica procedura di taratura quindi, un certo numero di campioni n, di cui è noto il valore della quantità ξ, vengono analizzati al fine di misurarne la quantità η. Se la quantità ξ è stata misurata sperimentalmente e la misura è accurata e precisa, oppure ξ è nota perché si riferisce alla proprietà di un materiale di riferimento, la quantità η viene sostituita da una funzione parametrica di ξ, cioè f (ξ, b1,b2,..,bp) attraverso un opportuno trattamento dei dati che permetta la stima del parametro bi. Una volta esplicitata la relazione funzionale tra ξ e η è possibile ricavare, seguendo una direzione opposta alla precedente, il valore ξ* di un campione incognito a cui corrisponde un segnale medio η * basato su q misure replicate. L’analisi di regressione ha il compito di esplicitare la relazione funzionale tra le quantità suddette e rendere possibile l’esperimento di taratura. Poiché uno dei metodi statistici più utilizzati per la costruzione di un modello di taratura è quello dei minimi quadrati, in questa relazione verranno illustrati i concetti generali del metodo, nel caso più semplice del modello di una retta di taratura. Maggiore enfasi è stata dedicata ad alcuni aspetti specifici dell’analisi di regressione che comunemente vengono trascurati nella quotidianità del lavoro di un laboratorio chimico ma che potenzialmente possono indurre anche un buon chimico ad ottenere risultati qualitativamente scadenti. pag. 1/23 2. Il metodo dei minimi quadrati Nella maggior parte dei casi i modelli che descrivono la relazione tra il segnale misurato y (ad esempio un’assorbanza) ed una variabile nota a priori x (es. la concentrazione) sono lineari ed univariati del tipo: y = b0 + b1.x Ricordiamo che in questo contesto con la definizione di modello lineare si intende indicare una funzione matematica in cui una variabile dipendente y è descritta da una combinazione lineare di più variabili indipendenti. Con univariata si intende invece specificare che la variabile y è funzione dei valori assunti da un’unica variabile indipendente x. In una taratura nell’ipotesi in cui la effettiva relazione funzionale tra le due variabili x ed y è quella lineare, il segnale y può essere rappresentato come somma di due contributi di cui uno è deterministico e rappresenta il modello vero e proprio, l’altro è casuale e rappresenta la variabilità sperimentale associato ad ogni misura di y: y = α + β * x + ei Si deve quindi applicare un qualche metodo di natura statistica per ottenere una stima b0 e b1 dei coefficienti del modello α e β. Nel caso in cui si applichi il metodo dei minimi quadrati, la stima viene fatta rendendo minima la somma dei quadrati dei residui : min ( Σ ei2 ) I residui ei per le i osservazioni (i = 1…..n) rappresentano la differenza tra i valori osservati yi e quelli ŷ i calcolati dal modello: ei = yi − ŷi ŷ i = b o + b1 ⋅ x i eq. 2.1 e quindi e i = y i − b 0 − b1 ⋅ x i La stima ai minimi quadrati di α e β si ricava come già detto minimizzando S cioè la somma dei quadrati dei residui: S = Σ ei2 = Σ ( yi – b0 – b1 . xi )2 Questo può essere fatto differenziando rispetto ai due parametri b0 e b1 la funzione precedente ed imponendo le funzioni derivate risultanti uguali a zero: ∂S = −2 ⋅ ∑ ( y i − b o − b1 ⋅ x i ) = 0 ∂b o i pag. 2/23 ∂S = −2 ⋅ ∑ x i ⋅ ( y i − b o − b 1 ⋅ x i ) = 0 ∂b1 i Dalle equazioni precedenti si ottengono rielaborando le seguenti relazioni: b 0 ⋅ n + b1 ⋅ ∑ x i = ∑ y i i i b 0 ⋅ ∑ x i + b1 ⋅ ∑ x i2 = ∑ x i ⋅ yi i i i Queste ultime sono comunemente chiamate equazioni normali. Risolvendo il sistema delle due equazioni precedenti rispetto a b1, cioè il coefficiente angolare della retta, si ottiene la seguente soluzione: b1 = ∑ x i y i − [(∑ x i ) ⋅ (∑ y i )] / n ∑ ( x i − x ) ⋅ ( y i − y) = 2 2 2 ∑ x i − (∑ x i ) / n ∑ (x i − x) eq. 2.2 in cui le sommatorie contenute nell’equazione scorrono sull’indice i da 1 ad n cioè il numero totale di osservazioni. I due numeratori sono ovviamente due forme diverse con le quali viene espressa la stessa quantità, infatti se: x = ( x1 + x 2 + ........ + x n ) / n = ∑ x i / n ed y = ( y1 + y 2 + ........ + y n ) / n = ∑ y i / n allora si ha che: ∑ ( x i − x )( yi − y) = ∑ x i y i − x ∑ yi − y∑ x i + nx ⋅ y = ∑ x i yi − nx ⋅ y = ∑ x i y i − (∑ x i )(∑ y i ) / n La soluzione per b0, cioè per l’intercetta ad x = 0, delle equazioni normali per una retta è invece la seguente: b 0 = y − b1 ⋅ x eq. 2.3 sostituendo quest’ultima nella eq. 2.1 si ottiene l’equazione di regressione nella seguente forma: ŷ i = y + b1 ⋅ ( x i − x ) eq. 2.4 dalla quale si può notare che se poniamo xi = x ne segue che yˆi = y . Ciò significa che il punto (x, y) appartiene alla retta di regressione o, capovolgendo la prospettiva precedente, ogni retta di regressione passa per il centro dei dati sperimentali. L’utilizzo del metodo dei minimi quadrati in una analisi di regressione è vincolato alle seguenti assunzioni di base: pag. 3/23 1. I residui ei sono variabili casuali con media zero e varianza σ2 (normalmente sconosciuta). 2. I residui ei sono indipendenti, cioè completamente decorrelati: cov (ei, ej) = 0 per ogni i ≠ j. 3. Tutti i residui ei hanno eguale varianza σ2. Questo significa che la varianza dei residui è costante sull’intero intervallo di concentrazioni esplorato, risultando quindi indipendente dal valore della concentrazione x. Questa proprietà è normalmente denominata omoscedasticità. La figura 1 illustra le assunzioni riguardanti i residui ei 2 N (α+ β ∗ X σ ) Modello ŷ = α+β∗ X Figura 1 Il valore aspettato di yi sarà quindi b0 + b1.xi, e la varianza di yi sarà σ2. Tuttavia è importante ricordare che nei casi reali non sempre la varianza dei residui σ2 è sempre la stessa per ogni livello di x al quale si effettuano una o più misure replicate del segnale y. In questi casi si identifica il problema con il termine di eteroscedasticità: una situazione importante in chimica analitica è quella di uno scarto tipo relativo costante. Esempi eteroscedasticità sono riportati in Figura 2. Figura 2 pag. 4/23 3. Analisi dei residui L’analisi dei residui è una fase estremamente importante nella validazione di un modello di taratura. Essa fornisce informazioni relativamente alle possibili deviazioni dalle assunzioni imposte dal metodo dei minimi quadrati, oltre a quella relativa alla adeguatezza del modello lineare stimato. 3.1 Metodi grafici L’analisi dei residui può essere effettuata attraverso una valutazione visiva di alcuni grafici tipici che accompagnano tutti i software di statistica professionali più comuni. Tra tutti quelli possibili si suggerisce l’utilizzo frequente dei seguenti: Distribuzione dei residui t.q. 18 16 Expected Normal No di osservazioni 14 12 10 8 6 4 2 0 -8 -6 -4 -2 0 2 4 6 8 Figura 3 a) analisi della distribuzione dei residui attraverso grafici a barre. La semplice analisi visiva permette la verifica dell’assunzione fatta sulla normalità della distribuzione delle misure della variabile y (vedi Figura 3). E’ bene ricordare che se il numero di osservazioni è ridotto non è però possibile ricavare un’informazione utile da questo tipo di grafici b) analisi dei residui visualizzati contro i valori yi sperimentali o calcolati dal modello oppure contro i valori della variabile x. In generale in questo tipo di grafici, si ottengono delle distribuzioni aventi delle forme simili a quelle mostrate in figura 4. pag. 5/23 Figura 4 Il primo si ottiene quando si è in presenza di una variabilità omogenea ed il modello scelto è corretto, il secondo si ottiene quando la condizione di omoscedasticità non è rispettata. In questi casi potrebbero essere di aiuto i cosiddetti minimi quadrati pesati o un’opportuna trasformazione dei dati originali. Il terzo suggerisce che il modello non è generalmente valido. Il quarto caso mostra chiaramente che il modello lineare non è adatto, poiché la relazione tra i dati è strettamente non lineare in tutto l’intervallo indagato. In pratica quando vengono analizzati i residui attraverso le loro rappresentazioni grafiche si devono individuare: a) la forma del grafico b) un numero di residui positivi circa uguale al numero di residui negativi c) una sequenza sufficientemente casuale di segni + e – dei residui stessi d) l’eventuale presenza di “anomali”, cioè di residui chiaramente più ampi rispetto ai valori generalmente osservati. Spesso oltre ad una analisi dei residui di regressione grezzi si utilizzano i cosiddetti residui normalizzati definiti dalla seguente: ê ê Ni = i s dove s, lo scarto tipo dei residui di regressione con n-2 gradi di libertà, è dato da : s= ∑ ( y − yˆ ) i 2 i n−2 I residui normalizzati possono essere utili alla verifica della condizione di omoscedasticità o in alcuni casi, alla identificazione di “anomali” eventualmente presenti nei dati; tipicamente quando ê Ni > 3 l’osservazione viene riconosciuta anomala. La capacità di evidenziare le osservazioni anomale attraverso i residui normalizzati, diminuisce però andando dalle osservazioni centrali, verso quelle più esterne dell’intervallo di taratura. Un altro tipo di residui che dovrebbero essere correntemente analizzati sono i cosiddetti residui razionalizzati definiti dalla relazione: pag. 6/23 ê i êSi = s ⋅ 1 − h ii dove hii sono i valori di leaverage che, per una regressione lineare monovariata, sono calcolati in base alla seguente relazione: h ii = 1 (x i − x)2 + n ∑ (x i − x )2 Si noti che i leaverage assumono valori compresi tra 1/n ed 1 per tutti i valori xi interni all’intervallo di taratura. I valori hii assumono valori minimi per i punti in prossimità del centroide dei dati cioè il punto ( x , y ), e raggiungono valori prossimi ad 1 in corrispondenza degli estremi dell’intervallo di taratura studiato. Per quanto detto risulta chiaro che l’utilizzo dei residui razionalizzati permette di evidenziare maggiormente l’eventuale occorrenza di “anomali”, anche in prossimità delle regioni più esterne dell’intervallo di taratura. Si può dimostrare che il valore massimo accessibile per i residui razionalizzati è, nel caso di una regressione lineare semplice, pari a: ê max = n − 2 . Si 3.2 Metodi statistici I metodi statistici applicabili all’analisi dei residui sono costituiti essenzialmente dai test tipici utilizzati per verificare la normalità di una certa distribuzione e dai test utilizzati per il confronto di varianze. Si deve tener conto però che la validità di tali test è fortemente influenzata dalla cosiddetta numerosità campionaria, cioè dal numero di misure fatte e/o replicate. Di conseguenza, poiché nella pratica il numero di osservazioni è sempre abbastanza ridotto non si consiglia l’utilizzo di tali metodi. Molto spesso la rappresentazione grafica dei residui contiene informazione sufficiente per verificare il rispetto delle condizioni di applicabilità del metodo dei minimi quadrati; in aggiunta potremmo anche dire che in generale, l’applicazione dei test statistici nell’ambito dell’analisi di regressione ha un senso solo dopo che il modello sia stato confermato da un esame grafico dei residui. 4. Analisi della varianza La seguente somma di quadrati: ( SS T = ∑ ∑ y i , j − y i j )2 rappresenta la variazione dei valori di y rispetto al valore medio y . Parte di questa variazione può essere attribuita al modello di regressione e una parte al fatto che le osservazioni non pag. 7/23 stanno perfettamente sulla retta di regressione. La quantità SST può essere quindi spezzata in due somme di quadrati: a) la “SS dovuta alla regressione” (SSREG) che rappresenta la parte di SST spiegata dal modello; b) la “SS intorno alla regressione” o anche “SS (SSR) residuale” che rappresenta ciò che il modello non spiega dei dati originali. A sua volta la quantità SSR può essere decomposta in altre due componenti: a) quella dovuta alla variabilità osservata all’interno di un gruppo di misure replicate normalmente indicata con SSPE cioè “somma dei quadrati dovuta alla pura variabilità casuale”; b) quella dovuta alla variabilità delle medie di gruppo rispetto alla retta di regressione. Questa viene normalmente indicata con SSLOF cioè “somma dei quadrati dovuta al difetto di approssimazione”. Supponendo quindi che, per ogni livello di concentrazione xi ( con i=1,…,k ) vengano effettuate ni osservazioni yij ( con j=1,….,ni ), la quantità SST può essere decomposta complessivamente in tre contributi: y ij − y = ( y ij − y i ) + ( y i − ŷ i ) + ( ŷ i − y) dove y i è il valor medio di ogni gruppo di misure replicate yij alla concentrazione xi e ŷ i è il valore di y stimato dal modello al livello xi. Elevando al quadrato tutti i termini della precedente uguaglianza e sommando rispetto a i e j si ottiene la seguente: 2 2 2 2 ∑ ∑ ( y ij − y) = ∑ ∑ ( y ij − y i ) + ∑ n i ( y i − ŷ i ) + ∑ n i ( ŷ i − y) i j i j i eq. 4.1 i dove SS PE = ∑ ∑ ( y ij − y i ) i 2 SS LOF = ∑ n i ( y i − ŷ i ) 2 j i SS REG = ∑ n i ( ŷ i − y) 2 i Ovviamente la forma dell’eq. 4.1 si semplificherà nel caso in cui ni = 1 cioè in assenza di misure replicate. Possiamo quindi riscrivere l’eq. 4.1, in base alle definizioni precedenti nel seguente modo: SST = SSREG + SSPE + SSLOF che in assenza di misure replicate diventerà: SST = SSREG + SSR Dove SSR è la somma dei quadrati dei residui cioè: pag. 8/23 SS R = ∑ ( y i − ŷ i ) 2 i Un semplice schema riassuntivo relativo alla scomposizione della varianza totale di y nei vari contributi è riportato in figura 5. SST SSREG SSR SSPE SSLOF Figura 5 Ad ogni somma di quadrati è sempre associato un numero che rappresenta i cosiddetti gradi di libertà (“degrees of freedom” df) della somma stessa. Questo numero indica quante parti di informazione indipendenti sono necessarie per calcolare quella particolare somma di quadrati. Per esempio la quantità SST è caratterizzata da Σni – 1 gradi di libertà questo perché la somma di tutti gli yij – y , che saranno in totale k.ni, sarà uguale a zero per la definizione stessa della media. Il primo termine a destra dell’eq. 4.1 cioè SSPE avrà invece dfPE = Σi (ni - 1) = Σini – k. SSREG avrà invece un unico grado di libertà dfREG = 1 essendo tale somma dipendente soltanto da b1; si può infatti dimostrare che: ∑ n i ⋅ ( ŷ i − y) 2 = b12 ⋅ ∑ n i ⋅ ( x i − x ) 2 i i I gradi di libertà di SSR sono pari a dfR = Σini - 2 essendo tale somma ricavata dalla differenza SST-SSREG. Analogamente i gradi di libertà associati alla quantità SSLOF possono essere calcolati come differenza tra quelli di SSR e SSPE, infatti: dfLOF = dfR - dfPE = Σini – 2 - Σini + k = k – 2 I programmi di statistica più evoluti quando effettuano una analisi di regressione forniscono, oltre ai parametri stimati e i loro intervalli di fiducia associati, anche una tabella riassuntiva pag. 9/23 contenente l’analisi delle varie sorgenti di varianza, la cosiddetta tabella ANOVA. La tabella viene costruita in base alle quantità descritte precedentemente ed è utilizzata per effettuare i test F per la significatività del modello di regressione e per la conferma della linearità in presenza di misure replicate. I test F non sono effettuati direttamente sulle sommatorie dei quadrati ma sui loro valori medi, calcolati in base ai rispettivi gradi di libertà. I valori medi sono indicati con MS = SS / df (Mean Squares) e vengono combinati per eseguire i test F nel modo seguente: F = MSREG / MSR per la validazione del modello di regressione F= MSLOF / MSPE per la verifica dell’ipotesi di linearità del modello Nel caso in cui il modello di regressione venga stimato sulla base di un numero indefinitamente grande di osservazioni, la quantità MSR - talvolta indicata anche con s2, σ 2X⋅Y o s 2y / x - rappresenta la misura della variabilità che accompagna il ricalcolo di un qualunque valore osservato yi ad un dato xi usando l’equazione del modello. L’analisi della varianza viene normalmente presentata in forma di tabella in cui sono indicate: la sorgente “source”, i gradi di libertà “df”, la somma dei quadrati “SS”, il valore medio dei quadrati “MS”, ed infine il valore per eseguire il test F. Un esempio di analisi della varianza è riportato nella tabella successiva: Tabella ANOVA Source SS df MS Regression SSREG = 12447.4 1 MSREG =12447.4 Residual SSR = 106.1 18 MSR = 5.9 Lack of fit SSLOF = 87.6 3 MSLOF = 29.2 Within-groups SSPE = 18.5 15 MSPE = 1.2 Total SST = 12553.5 19 F 2109.7 24.3 L’esempio si riferisce ad un caso con n = Σini = 20 (con i=1,...,k) e con k = 5. Nella tabella si osserva inoltre un valore F = MSLOF / MSPE = 24.3 che, se confrontato con il valore tabulato .05 F30,15 = 3.29 , indica come il termine MSLOF sia significativamente preponderante rispetto a MSPE; di conseguenza il modello scelto non risulta essere adeguato nel descrivere la vera relazione tra le variabili x e y. pag. 10/23 L’analisi della varianza in presenza di misure replicate rappresenta un utile strumento per verificare a priori l’ipotesi di linearità del modello di taratura; vi sono tuttavia altri tipi di test utilizzabili a tal fine che prendono il nome di test a posteriori nei quali, a differenza del caso precedente, il modello lineare viene confrontato con un modello alternativo non lineare. I test a posteriori sono basati sul confronto tra le varianze dei residui di un modello lineare con quelli di un modello non lineare : • 2 il primo di questi confronta i valore di slin cioè la varianza dei residui del modello lineare 2 con snonlinl cioè la varianza dei residui del modello non lineare di riferimento secondo il seguente rapporto: 2 F = s lin / s 2nonlinl Se il valore di F calcolato è superiore a quello critico tabulato, l’ipotesi di linearità del modello deve essere rifiutata. Si ricorda che i gradi di libertà anche nel caso di un modello non lineare sono dati da n-p dove p sono i parametri stimati dal modello. • il secondo, denominato anche test di Mandel, è basato sul calcolo del seguente rapporto: F = DS2 / s 2nonlinl dove: 2 DS2 = (n-2) * s lin - (n-3) * s 2nonlinl se il modello non lineare è quello di una curva di secondo grado. Infatti, il test di Mandel viene tipicamente applicato al confronto tra il modello di una retta e quello di una parabola : il valore di F critico è quello tabulato, ad un dato livello di rischio accettato, per un numeratore con un grado di libertà, ed un denominatore con n-3 gradi di libertà. Se il valore di F calcolato è superiore a quello critico tabulato, l’ipotesi di linearità del modello deve essere rifiutata. Il vantaggio dei test a posteriori consiste nel fatto che non sono necessarie misure replicate. 4.1. Il coefficiente di determinazione R2 e quello di correlazione r Uno dei parametri più usati dai chimici nell’analisi di regressione è il cosiddetto R2, che rappresenta la frazione di varianza spiegata dal modello rispetto alla varianza complessiva delle yi sperimentali. L’espressione matematica di R2 è la seguente: R2 = SS REG SS T − SS R SS = = 1− R SS T SS T SS T pag. 11/23 Il valore di R2 può assumere valori compresi tra 0 ed 1 rispettivamente nei casi di assoluta inadeguatezza del modello e di assoluta perfezione del modello stesso. Un parametro che può essere derivato direttamente da R2, è il coefficiente di correlazione r che rappresenta in generale il parametro statistico più abusato tra quelli che accompagnano l’analisi di regressione. Il coefficiente di correlazione assume valori compresi tra –1 e +1 e può essere calcolato in base alla seguente relazione: r = (segno di b1) . (R2)1/2 E’ bene a questo punto precisare che l’analisi di regressione e quella di correlazione sono concettualmente distinte anche se matematicamente risultano essere tra loro legate. L’analisi di regressione semplice, infatti, ci dice in che modo le variabili sono legate linearmente, mentre l’analisi di correlazione ci indica il grado o l’intensità del legame lineare tra le variabili. Tuttavia il coefficiente di correlazione viene spesso interpretato come una misura diretta della qualità del modello di taratura ottenuto. L’uso generalizzato che è stato fatto del coefficiente di correlazione r, è probabilmente dovuto al suo facile calcolo ed all’immediatezza d’interpretazione. Tale immediatezza è però solo apparente e ha portato, in alcuni casi, ad interpretazioni grossolane. E’ pratica abbastanza comune infatti parlare di regressione eccellente quando r è compreso tra 0.99 ed 1 mentre la regressione è definita soddisfacente se r è compreso tra 0.95 e 0.99. Per valori inferiori a 0.90 la regressione è valutata sicuramente come scadente. Questo criterio interpretativo, o qualunque altro ad esso analogo, non è corretto per due motivi fondamentali: - la qualità di una regressione si compone di due aspetti: l’accuratezza con cui l’equazione di regressione descrive i dati sperimentali, indispensabile quando la regressione viene usata a scopo predittivo, e la significatività dei coefficienti di regressione, che è indispensabile per la spiegazione e la discussione dei risultati. Il coefficiente di correlazione però è interpretabile in termini di qualità della correlazione piuttosto che in termini di significatività dei coefficienti di regressione. - la significatività del coefficiente di correlazione dipende dal numero dei punti in gioco e dall’intervallo di variazione dalla variabile indipendente x, di conseguenza un coefficiente di correlazione non può essere buono o scadente in assoluto, ma la sua significatività dovrà essere giudicata attraverso l’utilizzo di un opportuno test statistico. pag. 12/23 5. Intervalli di fiducia La stima dei parametri di regressione b0 e b1, è accompagnata da un certo grado di incertezza dovuta alla presenza della variabilità casuale; tale indeterminazione genera un intervallo di fiducia per ogni parametro stimato del modello, la cui ampiezza dipende dalla qualità del modello stesso e dal grado di indeterminazione accettato. 5.1. Intervallo di fiducia di b1 Abbiamo visto precedentemente che: b1 = ∑ ( x i − x ) ⋅ ( y i − y) ∑ (x i − x ) 2 questa può essere riscritta anche nel seguente modo: b1 = ∑ ( x i − x ) ⋅ y i = {(x 1 − x ) ⋅ y1 + ....... + (x n − x ) ⋅ y n } ∑ (x i − x) 2 ∑ (x i − x) 2 essendo che per il termine al numeratore vale la seguente: ∑ (x i − x) ⋅ y = y ⋅ ∑ (x i − x ) = 0 E’ anche noto che la varianza di una funzione del tipo: a = a 1Y1 + a 2 Y2 + ..... + a n Yn può essere calcolata nel modo seguente: V (a ) = a 12 ⋅ V (Y1 ) + a 22 ⋅ V (Y2 ) + ..... + a 2n ⋅ V (Yn ) quindi se i termini Yi sono tra loro a coppie non correlati, i termini ai sono delle costanti ed infine se V(Yi) = s2 allora si ha che: ( ) V (a ) = (a 12 + a 22 + ...... + a 2n ) ⋅ s 2 = ∑ a i2 ⋅ s 2 Nell’espressione relativa al calcolo di b1 i termini ( x i − x ) /(∑ ( x i − x ) 2 possono essere identificati con gli ai potendo considerare i singoli valori xi delle costanti. Quindi dopo riduzione si ottiene: V(b1 ) = s b21 = s2 2 ∑ (x i − x ) eq. 5.1 dove s2 è la varianza dei residui della regressione. pag. 13/23 E’ interessante osservare che la varianza di b1 può essere ridotta massimizzando la sommatoria al denominatore. Tale sommatoria dipende dal disegno sperimentale utilizzato che avrebbe come soluzione ideale quella di due o più punti raggruppati agli estremi dell’intervallo dei valori di x considerati. E’ chiaro però che, per realizzare questo tipo di strategia sperimentale, lo sperimentatore deve essere assolutamente certo che il vero modello che lega le due variabili sia quello di una retta. Lo scarto tipo di b1 corrisponderà alla radice quadrata della sua varianza: s b1 = s 2b1 . Assumendo che le variazioni delle osservazioni rispetto alla retta di regressione appartengano tutte alla stessa distribuzione normale, allora l’intervallo di fiducia relativo alla stima di b1 0.05 sarà: b1 ± t 0n.−05 2 ⋅ s b1 . Dove t n − 2 è il valore relativo al 95% di una distribuzione t con n-2 gradi di libertà. Ovviamente il livello di rischio accettato, può essere diverso ed assumere valori più piccoli del 5%; in questo caso il valore di t di riferimento crescerà anche a parità di gradi di libertà. Normalmente alla stima dei parametri di regressione è associato anche il cosiddetto t-test, cioè si verifica che il valore stimato non sia significativamente diverso da un valore di riferimento β . In pratica si verifica che il rapporto t = ( b1 - β ) / sb1 sia un valore - preso come valore assoluto - minore del valore tabulato della t di Student con n-2 gradi di libertà e relativo al livello di rischio accettato. 5.2. Intervallo di fiducia di b0 Analogamente a quanto visto in precedenza è possibile calcolare un intervallo di fiducia ed eseguire un t-test anche per l’intercetta della retta di regressione cioè b0. Infatti dall’eq. 2.3: b 0 = y − b1 ⋅ x ed essendo y e b0 non correlati si può applicare la formula per il calcolo della varianza di una generica funzione V(a) e, tenendo conto che x è una costante si ha che: V ( b 0 ) = V ( y ) + x 2 ⋅ V ( b1 ) = s2 s2 x2 2 1 + + x2 ⋅ = s ⋅ n n ∑ (x i − x) 2 ∑ (x i − x) 2 eq. 5.2 Dall’equazione del calcolo della varianza di b0 si ricavano analogamente al caso del parametro b1 lo scarto tipo sbo = (V(b0))0.5 e l’intervallo di fiducia b 0 ± t 0n.−052 ⋅ s b0 . Il t-test viene effettuato ovviamente nello stesso modo descritto per b1. pag. 14/23 5.3. Intervallo di fiducia e di predizione di ŷ Abbiamo precedentemente mostrato che l’equazione della retta di regressione poteva essere scritta nella forma: ŷ i = y + b1 ⋅ ( x i − x ) eq. 2.4 Applicando quindi un procedimento analogo a quello utilizzato per i parametri b0 e b1, possiamo ricavare una funzione di varianza e quindi uno scarto tipo dei valori di y calcolati dal modello in corrispondenza di ogni valore di x: (x i − x ) 2 s2 s2 1 2 2 eq. 5.3 V( ŷ) = V( y) + ( x i − x ) ⋅ V(b1 ) = + (x i − x ) ⋅ = s ⋅ + 2 2 n n ( x − x ) ∑ (x i − x) ∑ i 2 Si può quindi calcolare l’incertezza della stima di yi, con un rischio associato del 5% con la relazione: ŷ ± t 0n.−052 ⋅ s ŷ . Un aspetto interessante contenuto nell’eq. 5.3 è che l’indeterminazione nella stima di ŷ risulta minima quando x i = x e vale s 2ŷ = s 2 / n . Al contrario, all’aumentare della distanza di xi da x , aumenta l’incertezza sulla stima di ŷ . Le predizioni migliori saranno effettuabili nella zona centrale dell’intervallo di variazione della variabile x, mentre peggioreranno in prossimità degli estremi. Oltre questo punto la predizione sarà ancora meno attendibile perché estranea all’esperienza acquisita dal modello. E’ ormai diffusa nei programmi di statistica moderni, la buona pratica di mostrare le cosiddette bande di fiducia della regressione - talvolta chiamate anche regioni di Working-Hotelling - ad un certo livello di rischio. Queste bande 80 sono delle iperboli calcolate 70 ŷ ± t 0n.−052 ⋅ s ŷ e risulteranno per 60 una stessa serie di dati (x,y) 50 più o meno ampie a secondo del limite di fiducia scelto Y con una relazione del tipo 40 30 (95%, 99%, ecc.). Un esempio 20 è riportato in Figura 6. 10 50 150 250 350 450 X Figura 6 pag. 15/23 550 Il calcolo dell’intervallo di predizione di un nuovo valore y0 ad un corrispondente x0 sarà invece calcolato in base alla seguente relazione: y0 ± t 0n.−052 1 (x 0 − x) 2 2 ⋅s ⋅ 1 + + 2 n − ( x x ) ∑ i 1/ 2 eq. 5.4 Questo intervallo intorno al valore di y calcolato, è aumentato rispetto al precedente per cui le bande cosiddette di “predizione” sono più ampie di quelle di fiducia della regressione stessa. Nel caso in cui si effettuino q misure replicate di yi per un dato livello x0 allora l’equazione precedente si trasforma nella seguente: 1 1 ( x − x ) 2 0 ⋅ s2 y 0 ± t 0n.−052 ⋅ + + q n ∑ ( x i − x ) 2 1/ 2 eq. 5.5 5.4 Regressione inversa Si parla di regressione inversa quando viene utilizzata la retta di regressione calcolata al fine di stimare un valore x̂ * quando è noto, perché misurato, il valore y*. Quest’ultimo può essere derivato da una misura singola (q=1) oppure dal valore medio di più misure replicate q dello stesso campione y * . La regressione inversa costituisce lo scopo primario di un’analisi di regressione nell’ambito della chimica analitica. Il calcolo di x̂ * può essere fatto con una delle seguenti espressioni: x̂ * = x + ( y * − y) b1 oppure x̂ * = y* − b 0 b1 Mentre l’intervallo di predizione intorno al valore di x̂ * stimato può essere calcolato dalle seguenti relazioni: 1 s2 ( y * − y) 2 ⋅ x̂ * ± t 0n.−052 ⋅ 1 + + 2 2 n b1 ⋅ ∑ ( x i − x ) b12 1/ 2 eq. 5.6 per q > 1 xˆ ± t * 0.05 n−2 1 1 ( y* − y)2 ⋅ + + 2 2 q n b1 ⋅ ∑ ( xi − x ) s2 ⋅ b2 1 1/ 2 eq. 5.7 pag. 16/23 sempre ipotizzando un rischio accettato per la predizione di x̂ * pari al 5%. E’ evidente da quanto detto che le bande di predizione saranno tanto più strette quanto più aumentano il numero di misure replicate e il numero totale di punti. E’ importante sottolineare che le equazioni 5.6 e 5.7, sono delle formule approssimate la cui validità è verificata quando la funzione: t2 g= b s2 2 ∑ ( xi − x ) 1/ 2 2 assume un valore minore a 0.05. Per avere valori di g inferiori al valore precedentemente indicato è evidente che b e ∑ (x i − x ) 2 debbano essere relativamente grandi mentre s 2 sufficientemente piccolo. Prima di usare le equazioni 5.6 e 5.7 per la determinazione dell’incertezza che accompagna la stima di una data concentrazione x̂ * , è consigliato verificare che il valore di g sia inferiore al valore massimo accettabile. 6. La validazione della procedura di taratura Prima di poter utilizzare un modello di taratura al fine di produrre un dato analitico, la procedura di taratura dovrebbe essere validata sperimentalmente. La fase di validazione ha il compito di definire la capacità predittiva del modello date certe modalità operative. Una modalità di validazione molto semplice consiste nell’effettuare la determinazione della concentrazione di materiali di riferimento attraverso l’applicazione del modello di taratura. Le concentrazioni stimate xest. possono essere confrontate con quelle note xtrue attraverso la costruzione di un modello lineare del tipo: xest = b0 + b1( xtrue ) I valori aspettati dei coefficienti del modello saranno: b0 = 0 e b1 = 1. Applicando le equazioni viste in precedenza si calcoleranno i coefficienti del modello, l’incertezza associata alla loro stima, e si verificheranno le ipotesi: H0: b0 = 0 contro HA: b0 ≠ 0 e H0: b1 = 1 contro HA: b1 ≠ 1 attraverso l’esecuzione di un t-Test come già descritto. Lo scopo di questa modalità di validazione è quello di verificare l’assenza di scostamenti sistematici nella capacità predittiva del modello di taratura ottenuto. Tuttavia è bene ricordare che oltre al rifiuto delle ipotesi precedenti, in condizioni ideali, ci si aspetta anche di trovare degli intervalli di fiducia dei parametri del modello di validazione molto ristretti. pag. 17/23 7. I minimi quadrati in presenza di eteroscedasticità Per molte procedure analitiche, la condizione di varianza uniforme lungo tutto l’intervallo di valori di x, sul quale è stata costruita la retta di taratura, non viene rispettata. In questi casi cade una delle condizioni necessarie per applicare il metodo dei minimi quadrati per il calcolo della retta di taratura, almeno nella modalità precedentemente descritta. In generale la presenza di una condizione di eteroscedasticità comporta una perdita di accuratezza nel calcolo della retta di taratura. I motivi che portano ad una varianza del segnale non uniforme sono molteplici ed imputabili normalmente a sorgenti di rumore contenute nella strumentazione analitica; queste generano una varianza intrinseca del segnale misurato che risulta essere una qualche funzione del segnale stesso. Per queste ragioni sarebbe quindi indispensabile verificare sempre la condizione di omoscedasticità. Per effettuare tale verifica, il modo concettualmente più semplice è quello di fare un numero di misure replicate sufficientemente grande almeno a tre livelli di x corrispondenti alle due zone prossime agli estremi dell’intervallo di taratura e a quella centrale. Se il numero di repliche è sufficientemente grande sarà possibile stimare la varianza del segnale con buona accuratezza e quindi verificarne l’andamento rispetto al valore del segnale. L’analisi grafica dei residui può dare informazioni qualitative dirette sull’eventuale presenza di eteroscedasticità. Nel caso di più misure replicate ad almeno due livelli xi, coincidenti o molto prossimi agli estremi dell’intervallo di taratura, la condizione di omoscedasticità può essere verificata attraverso l’applicazione di un F test sulle varianze dei due sottogruppi di misure replicate: s2 Fmax = max s 2min Per eseguire questo test il numero di repliche q dei due sottogruppo deve essere uguale. E’ importante sottolineare che le sorgenti di eteroscedasticità del segnale saranno visibili solo se la variabilità casuale associata alla preparazione di più campioni uguali è inferiore a quella del segnale misurato. E’ bene inoltre non dimenticare che una misura replicata non consiste nell’eseguire più volte la misura di una stessa soluzione di un analita ad una data concentrazione, bensì di effettuare una sola misura per più soluzioni dello stesso analita preparate alla stessa concentrazione. La rimozione dell’eteroscedasticità può in alcuni casi essere raggiunta attraverso una qualche trasformazione della variabile eteroscedastica. Tra le trasformazioni più comuni ricordiamo la trasformazione logaritmica z = logy , la trasformazione z = y1/2 oppure la trasformazione z = 1/y. pag. 18/23 Per evitare che le trasformazioni modifichino la natura della relazione lineare tra la x e la y la stessa trasformazione deve essere applicata alla variabile x: log y = b 0 + b1 * log x y = b 0 + b1 * x 1 y = b0 + b1 * 1 x Un effetto collaterale alla trasformazione delle variabili è che in funzione del tipo di trasformazione matematica, quando si utilizza il modello di taratura per determinare un valore di x0 misurato un y0, gli intervalli di fiducia tradotti nella scala della variabile x originale possono non essere simmetrici oppure richiedere delle trasformazioni successive per ricondurli alla variabile originale. 8. I minimi quadrati pesati In chimica analitica il calcolo di una curva di taratura utilizzando il metodo dei minimi quadrati ordinari è ampiamente diffuso anche quando è noto che la variabilità associata al segnale misurato è funzione dell’intensità del segnale stesso. Esempi di tecniche analitiche generalmente affette da eteroscedasticità sono: metodi gas-cromatografici, metodi il cui segnale misurato è un conteggio e metodi fotometrici. Le ragioni di una variabilità casuale non omogenea all’interno del dominio sperimentale di taratura possono essere molteplici, in alcuni casi una variabilità non uniforme è aspettata su base teorica come nel caso dei conteggi, in altri casi la diminuzione della precisione del segnale misurato è funzione di un aumento del rumore (di natura stocastica) dovuto a fotomoltiplicatori, a fluttuazioni delle sorgenti di luce, all’elettronica dell’apparecchiatura, alla non omogeneità di una fiamma ed altri ancora. L’aumento della variabilità casuale nel segnale che si genera alle concentrazioni più alte ha come conseguenza pratica che i campioni incogniti a più bassa concentrazione avranno uno scostamento dai valori reali inutilmente maggiore, così come più ampia sarà l’incertezza ad essi associata. L’aumentata incertezza per le concentrazioni più basse comporterà anche un incremento dei limiti di rivelabilità e di quantificazione: in altri termini in presenza di eteroscedasticità la curva di taratura risulterà meno precisa. Per risolvere questo problema, è possibile ripartire il dominio sperimentale delle concentrazioni iniziali in due o più intervalli costruendo per ognuno di essi la corrispondente curva di taratura. Se all’interno di ogni nuovo dominio sperimentale la variabilità casuale associata al segnale risulta sostanzialmente omogenea (vedi test F), è accettabile l’utilizzo dei minimi quadrati ordinari per la costruzione pag. 19/23 di curve di taratura locali. Nell’ipotesi che la varianza del segnale aumenti monotonicamente con il valore del segnale stesso, si avrà che la curva di taratura calcolata nel dominio delle basse concentrazioni sarà caratterizzata da una precisione maggiore rispetto alla curva di taratura ottenuta nel dominio delle alte concentrazioni. Un metodo molto più consistente per la costruzione di una curva di taratura in caso di dati caratterizzati da eteroscedasticità riconosciuta è quello dei minimi quadrati pesati. Per quanto il metodo sia noto da molto tempo, il suo impiego in chimica analitica non è particolarmente diffuso nonostante alcune linee guida o manuali ne sollecitino un utilizzo più sistematico. Tra le possibili ragioni della scarsa popolarità del metodo dei minimi quadrati pesati nel calcolo della curva di taratura possiamo indicare la poca familiarità del chimico con i concetti di questo tipo di statistica e la scarsità di software d’immediato utilizzo. UNICHIM, comunque, ha recentemente (6 maggio 2003) presentato un software convalidato che, tra l’altro, riporta le modalità per trattare tarature secondo minimi quadrati pesati. 8.1. Calcolo del modello di regressione L’applicazione del metodo dei minimi quadrati pesati consiste: (a) nella stima dei pesi da associare ad ogni valore di yi con la relazione wi = 1 / σˆ i2 dove σˆ i2 è generalmente la varianza delle misure yi. (b) nel calcolo del modello di regressione con il metodo dei minimi quadrati pesati (WLS). Il calcolo del modello di taratura attraverso il metodo WLS prevede di associare un peso ad ogni osservazione in modo tale che, i residui pesati della regressione, siano caratterizzati da una varianza costante σ i2 = 1. Questo viene fatto scegliendo dei pesi come descritto precedentemente al punto a), riducendo l’importanza di quei dati caratterizzati da una minore precisione. La funzione obiettivo sarà analoga a quella dei minimi quadrati a meno dei pesi wi: S = Σ wi . ei2 = Σ wi . ( yi – b0 – b1 . xi )2 Al fine di dimostrare la logica con la quale vengono scelti i pesi in base alla wi = 1 / σˆ i2 supponiamo di moltiplicare entrambi i termini dell’equazione relativa al modello di una retta per wi1 / 2 : pag. 20/23 wi1 / 2 ⋅ y i = wi1 / 2 ⋅ bo + wi1 / 2 ⋅ b1 ⋅ xi + wi1 / 2 ⋅ ε i per cui la varianza dei residui pesati diventa costante come si può dimostrare applicando la formula della varianza V(a.y) = a2.V(y), ed assumendo che wi = 1 / σˆ i2 : V(wi1/2 . εi) = wi . V(εi) = 1/σi 2. σi2 = 1 Le stime dei parametri del modello di taratura secondo il metodo WLS si ottengono applicando le seguenti formule: b1 w = ∑w x y ∑w x * i i i − n xw yw * 2 2 i i − n xw = ∑ w ( x − x )( y − y ) ∑ w (x − x ) ∗ i i w ∗ i i w eq. 8.1 2 i w b0 w = yw − b1w ⋅ xw eq.8.2 dove: wi ∑ wi / n wi∗ = eq.8.3 e: xw = ∑ wi xi / ∑ wi e yw = ∑ wi yi / ∑ wi I pesi così trasformati (eq. 8.3) sono scalati in modo tale che ∑w * i = n dove n è il numero di osservazioni effettuate. La varianza pesata dei residui è data in questo caso dalla seguente relazione: s 2 w ∑ w (y = * i i − yˆ i ) 2 eq. 8.4 n−2 Le bande di fiducia intorno alla retta di taratura sono calcolabili con relazioni analoghe a quelle determinate per i minimi quadrati classici: 1 ( xi − xw ) 2 yˆ iw = bow + b1w ⋅ xi ± tn0−.052 ⋅ sw2 ⋅ + * 2 w ( x − x ) w ∑ i ∑ i eq. 8.5 Il calcolo dell’intervallo di predizione di un nuovo valore y0w ad un corrispondente x0 sarà invece calcolato in base alla seguente relazione: y0 w ± t n0−.052 1 ⋅ * + wo 1 + wi* ∑ ( x0 − xw ) 2 2 ⋅ sw wi* ( xi − xw ) 2 ∑ 1/ 2 eq. 8.6 Nel caso in cui y0w sia il valore medio ottenuto da q misure replicate ad un dato livello x0 allora l’equazione precedente si trasforma nella seguente: pag. 21/23 y0 w ± t n0−.052 1 ⋅ * + wo ⋅ q 1 + wi* ∑ ( x0 − xw ) 2 2 ⋅ sw wi* ( xi − xw ) 2 1/ 2 ∑ eq. 8.7 Utilizzando un modello di taratura pesato per la stima di una concentrazione incognita x̂ * corrispondente ad un valore misurato y* si dovranno utilizzare le seguenti relazioni: xˆ * ± t n0−.052 1 ⋅ * + wo ⋅ q xˆ ∗ = x w + ( y∗ − yw ) b1w 1 ( y* − yw ) 2 ∑w * i + b12w ⋅ ∑ s2 ⋅ w ∗ 2 wi ( xi − x w ) b12w eq. 8.8 1/ 2 eq. 8.9 dove il calcolo dell’intervallo di predizione della concentrazione incognita è stato espresso nella sua forma più generale comprendente anche il caso in qui y* sia un valore medio ottenuto da q misure replicate. pag. 22/23 Bibliografia [1] Agterdenbos, J.; Maessen, F.J.M.J.; Balke, J. “Calibration in quantitative analysis. Part I. General considerations”, Anal. Chim. Acta, 1979, 108, 315 [2] Agterdenbos, J.; Maessen, F.J.M.J.; Balke, J. “Calibration in quantitative analysis. Part II. Confidence regions for the sample content in the case of linear calibration relations”, Anal. Chim. Acta, 1981, 132, 127 [3] Danzer, K.; Currie, L.A. “Guidelines for calibration in analytical chemistry – Part 1 : Fundamentals and single component calibration”, Pure & Appl. Chem. 1998, 70, 993 [4] Davidian, M.; Haaland, P.D. “Regression and calibration with nonconstant error variance” Chemom. Intell. Lab. Syst. 1990, 9, 231 [5] Draper, N.R.; Smith, H. Applied Regression Analysis, Wiley, New York, 2nd Ed., 1981 [6] Harter, H.L. “The method of Least Squares and some alternatives”, Parts I-IV, Intern. Statist. Rev. 1974, 42, 147 (I); 235 (II); 1975, 43, 1 (III); 269 (IV) [7] Hubaux, A.; Vos, G. “Decision and Detection limits for Linear Calibration Curves” Anal. Chem., 1970, 42, 849 [8] Hunter, J.S. “Calibration and the straight line: Current statistical practices”, J. Assoc. Off. Anal. Chem., 1981, 574 [9] MacTaggart, D.L.; Farwell, S.O. “Analytical use of linear regression”, Part I: “Regression procedures for calibration and quantitation”, J. Assoc. Off. Anal. Chem., 1992, 75, 594 [10] Massart, D.L.; Vandeginste, B.G.M.; Deming, S.N.; Michotte, Y.; Kaufman, L. Chemometrics: a textbook, Elsevier, New York, 1988 [11] Meloun, M.; Militky, J.; Forina M. Chemometrics for Analytical Chemistry, Vol.2, Ellis Horwood, New York, 1994 [12] Miller, J.N. “Basic Statistical Methods for Analytical Chemistry Part2. Calibration and Regression Methods. A Review” Analyst, 1991, 116, 9 pag. 23/23