trattamento statistico dei dati analitici

TRATTAMENTO STATISTICO DEI DATI ANALITICI
Nell’analisi chimica un analista effettua un numero limitato di prove e considera la media
dei risultati ottenuti per poter arrivare a determinare non il valore VERO di una determinata
grandezza ma una stima che sia il più possibile vicino ad esso e nel modo più riproducibile
possibile.
Il risultato finale dell’analisi dovrà essere rappresentativo ed affidabile, con associata una
incertezza che sia la più bassa possibile.
Perché questo si possa realizzare è assolutamente indispensabile adottare una strategia
di controllo statistico sulle fonti di errore e sulla qualità del dato analitico.
In generale qualsiasi misura di grandezza fisica o chimica comprende un certo margine di
incertezza (o errore) dovuto a diversi fattori, che possono essere distinti in due classi
fondamentali:
1. ERRORI SISTEMATICI (bias) legati alla capacità dell’operatore, agli strumenti, al
metodo analitico, e possono essere:
 Additivi o sottrattivi: falsano il risultato sempre di una stessa quantità
 Proporzionali: dipendono dall’entità della grandezza misurata
2. ERRORI CASUALI (indeterminati o Random) sono inevitabili e non possono mai
essere eliminati completamente
L’influenza di questi errori sul dato analitico può essere stimata, da un punto di vista
teorico, mediante l’analisi statistica dei dati raccolti attraverso una serie ripetuta di misure.
Prima di poter eseguire una tale analisi statistica è necessario introdurre alcuni termini che
verranno utilizzati:
VALORE VERO (µ)
È il risultato ottenuto da un analista esperto, in perfette condizioni fisiche che effettua un
numero ipoteticamente infinito di prove analitiche usando metodi appropriati e strumenti
efficienti. Questo insieme di dati rappresenta la popolazione dei dati ottenibili e la media
aritmetica coincide con il valore vero
ACCURATEZZA (xi) – ESATTEZZA ( x )
Indicano quanto un singolo dato o la media aritmetica di una serie di dati si avvicina al
valore vero (µ).
Esse vengono espresse in termini di:
ERRORE ASSOLUTO O SCARTO

Eass  x i  
riferito ad una media (esattezza)
Eass  x i   riferito ad una singola misura (accuratezza)
ERRORE RELATIVO
x 
riferito ad una singola misura e detto ACCURATEZZA
Erel  i

xi  
Erel 
riferito ad una media e detto ESATTEZZA

ERRORE RELATIVO PERCENTUALE
x 
Erel%  i
*100 riferito ad una singola misura e detto ACCURATEZZA

Erel% 
xi  
* 100 riferito ad una media e detto ESATTEZZA

Conseguentemente l’errore associato ad una singola misura estratta da una serie di dati
analitici sarà dato da :
Ei  xi    Ei  xi  x  x  

dove
x  x
x   
 
i

è l’errore assoluto casuale
è l’errore assoluto sistematico
PRECISIONE
Indica il grado di accordo di una serie di dati tra di loro, in genere viene espressa come
deviazione dei dati dalla media aritmetica e quindi è una misura della dispersione dei
risultati, per cui viene chiamata anche DEVIAZIONE STANDARD
INTERVALLO o RANGE
Corrisponde alla differenza tra il valore massimo e il valore minimo di una serie di misure
Es. 2,77 …… 4,03 R = 4,03 – 2,77  R = 1,26
VARIANZA ( s 2 )
È uguale alla somma dei quadrati delle differenze tra ogni dato (xi) e il valore medio ( x ),
 x  x 

2
divisa per i gradi di libertà
s
DEVIAZIONE STANDARD
È la radice quadrata della varianza:
sx  s 
2
x
2
x
i
n 1
 x
i
x

2
n 1
Nel caso di piccole serie di dati, la deviazione standard viene calcolata con la relazione :
sx = KRx
dove
K è il fattore di deviazione che è funzione del numero (n) di dati della serie;
K è ricavato dalla tabella allegata:
n
2
3
4
5
6
K
0,89
0,59
0,49
0,43
0,40
n
7
8
9
10
K
0,37
0,35
0,34
0,33
COEFFICIENTE DI VARIAZIONE (CV)
È la deviazione standard espressa come percentuale sulla media
 CV 
sx
*100
x
GRADI DI LIBERTA’
Se si effettuano n misure si ottengono n risultati i quali sono tutti indipendenti tra di loro.
Difatti non è possibile prevedere alcun nuovo dato conoscendo quello precedente o
successivo; in questi casi si dice che la serie di dati ha n gradi di libertà.
Se invece si considerano gli scarti della media si può prevedere uno scarto in base alla
somma di tutti gli altri, poiché la somma totale deve essere uguale a zero. Di
conseguenza, quando si prendono in considerazione gli scarti, i valori fra loro indipendenti
sono uno in meno rispetto al numero dei dati ( n – 1 ).
In generale, ogni volta che si può stabilire una relazione che lega tra loro una serie di dati,
si perde un grado di libertà e al limite, maggiore è il numero di relazioni, minore è il
numero di gradi di libertà.
MEDIANA
La mediana di una serie di dati è quel valore intorno al quale gli altri sono egualmente
distribuiti:
a) Se la serie è costituita da un numero dispari di misure, il valore della mediana
coincide con il valore centrale
b) Se la serie è costituita da un numero pari di misure, il valore della mediana coincide
con il valore medio della coppia centrale
ATTENDIBILITA’ (o affidabilità)
Caratterizza complessivamente un risultato analitico e dipende da diversi fattori:
sensibilità, precisione, accuratezza,..
RIPETIBILITA’
La ripetibilità indica la possibilità che un operatore alle prese con aliquote diverse di uno
stesso campione, ottenga risultati più o meno dispersi con la stessa procedura, con gli
stessi strumenti, in momenti diversi
RIPRODUCIBILITA’
La riproducibilità si riferisce ai risultati ottenuti da operatori diversi con strumenti diversi,
ma usando la stessa procedura.
RACCOLTA E SINTESI DEI DATI
Il dato analitico è un numero che deriva da una misura strumentale, mentre il risultato di
una prova è un numero che si ottiene del precedente dopo aver effettuato dei calcoli. Il
data analitico deve essere riportato in modo tale da contenere solo CIFRE
SIGNIFICATIVE, cioè le cifre che sono giustificate dalle prestazioni dello strumento e dal
metodo usato per l’analisi. In particolare si devono riportare le cifre significative note con
certezza più la prima cifra incerta, indicando l’intervallo di incertezza.
Es.
4,00 ± 0,02 g
0,897 ± 0,001 A
Un numero ottenuto attraverso un calcolo deve conservare esclusivamente le cifre
significative, eliminando le non significative attraverso l’operazione di arrotondamento
Es.
2,38  2,4
2,51 A 2,5
ADDIZIONI E SOTTRAZIONI
Nel caso di addizioni e sottrazioni il risultato deve avere tante cifre decimali quante ne
possiede il termine che ne ha di meno e la sua incertezza è uguale alla radice quadrata
della somma dei quadrati delle singole incertezze:
Es.
10,1 ± 0,2
+
223,23 ± 0,01 +
1456,72 ± 0,05 =
1690,05
 ± (0,2) 2  (0,01) 2  0(0,05) 2  0,2
Il risultato pertanto verrà espresso come :  1690,1 ± 0,2
MOLTIPLICAZIONE E DIVISIONE
Il risultato deve avere tante cifre significative quante ne ha il termine che ne ha meno;
l’incertezza è uguale alla radice quadrata della somma dei quadrati delle incertezze dei
moltiplicandi e dei dividendi, espresse in percentuale rispetto al valore cui si riferiscono
(56  1) * (0,033  0,002 ) * (15,0  0,05)
Es.
l’incertezza sarà:
 0,115852
(239 ,27  0,15
2
2
2
2
  0,5
  0,15

 1
  0,002
*100   
* / 100   
*100   7,14384 %
 *100   
 56
  0,033
  15,0
  239 ,27

7,14384 : 100 = x : 0,115852
 x = 0,0082763
Il risultato sarà quindi espresso come : 0,12 ± 0,01
SINTESI DEI DATI
Quando si applica un metodo analitico raccogliendo una serie numerosa di dati, per
stabilire quanto essi siano dispersi e con quale frequenza si presenti ciascuno di essi, si
può costruire un istogramma in cui l’altezza rappresenta la densità di frequenza.
Aumentando il numero di analisi, aumenta il numero di dati e l’istogramma tende a
diventare più simmetrico.
Al limite con un numero infinito di misure, l’istogramma tenderà ad assumere la forma di
una curva a campana, centrata sul valore medio e con l’area totale sottesa alla curva
uguale ad 1. Questa curva rappresenta dunque la distribuzione delle frequenze di tutti i
valori o anche la distribuzione di probabilità di ottenere un certo risultato e perciò viene
detta CURVA DI DENSITA’ DI PROBABILITA’.
L’area compresa tra due valori qualsiasi x1 e x2 corrisponde alla probabilità di trovare un
qualsiasi valore in quell’intervallo. L’equazione che descrive la curva è detta funzione di
probabilità p(x) che obbedisce a due regole fondamentali:
1. la probabilità che un evento accada è compresa tra 0 e 1
2. alla probabilità è associato il rischio (α) che l’evento non accada
Probabilità e rischio sono legati dalla relazione
P=1-α
Le distribuzioni di probabilità più comuni e che meglio interpretano le misure sperimentali
di cui si occupa l’analisi chimica sono:
 la distribuzione normale o gaussiana
 la distribuzione del t di Student
1. DISTRIBUZIONE NORMALE O GAUSSIANA
La curva normale o gaussiana è
caratterizzata di un andamento
simmetrico a campana e la funzione di
probabilità che la descrive, detta
distribuzione normale è data da:
f ( x) 
1
 ( x  )2

 2 2





dove
e
 * 2
σ = deviazione standard
µ = Valore medio
l’area sottesa alla curva ha valore 1
La probabilità che un valore sia compreso in un determinato intervallo corrisponde all’area
sottesa alla curva delimitata dalle ordinate che corrispondono agli estremi di tale intervallo.
Il calcolo di quest’area e, quindi, matematicamente dell’integrale, non è facile, in ogni caso
si assume che:
 95,45% dell’intera superficie è compreso nell’intervallo (µ ± 2σ), ovverosia il
 95% dell’intera superficie è compreso nell’intervallo (µ ± 1,96σ) e quindi la
probabilità di trovare valori all’esterno di tale intervallo è del 5%
2. DISTRIBUZIONE DEL t DI STUDENT
La distribuzione normale o gaussiana è tipica dell’analisi chimica, anche se non sempre
valida, e comunque applicabile ad un numero elevato di prove. Nella comune pratica di
laboratorio il numero di prove è molto limitato per cui tale distribuzione è applicabile con
estrema difficoltà. Di questo problema si occupò GOSSET (che si firmava student) il quale
studiò la distribuzione del rapporto t, detto di Student giungendo ad una funzione di
probabilità, detta distribuzione di Student, i cui valori sono riportati in tabella in funzione di
t*s
p e ν. Questo valore ci permette di calcolare l’intervallo di fiducia: CL  x 
dove:
n
 t = costante di student calcolata per
α = (1-p)/2 e
v = (n – 1)
 s = deviazione standard
 n = numero di misure
TEST DI SIGNIFICATIVITA’
Sono dei semplici test che permettono di verificare la presenza di dati anomali in una
serie; noi esamineremo il TEST DI DIXON supponendo che uno o più valori agli estremi
siano anomali.
In particolare l’ipotesi è verificare due dati sospetti. Uno all’inizio e uno alla fine della serie.
Si dispongono i dati sistemandoli x1, x2, …, xn in ordine crescente
Si calcola il parametro r:
x x
per il primo valore rA  2 1
xn1  x1
x x
per l’ultimo valore rB  n n1
xn  x2
Si confrontano i valori rA e rB con il valore rt (tabulato in funzione di n e α 0 0,05
(probabilità del 95%)
Se rA ≤ rt
Se rB ≤ rt
l’ipotesi è nulla e il dato non va eliminato
l’ipotesi è nulla e il dato non va eliminato
Se rA > rt
Se rB > rt
l’ipotesi è valido e il dato va eliminato
l’ipotesi è valida e il dato va eliminato
RELAZIONI TRA DUE VARIABILI
In generale tra due variabili vi è un legame quando le variazioni di una causano variazioni
dell’altra. Esamineremo il caso in cui le variabili possono essere correlate in modo
generico, tracciando una curva di regressione che permette di evidenziare un legame più
o meno forte tra di loro.
CORRELAZIONE
Quando due variabili non sono legate da una legge nota, ma riportate su un diagramma
cartesiano, mostrano un certo grado di associazione, è possibile quantificare tale legame
mediante un parametro detto COEFFICIENTE DI CORRELAZIONE che nel caso di una
2
s xy
correlazione lineare diventa:
dove
r
s x2 * s y2
 sx = varianza di x
 sy = varianza di y
 s2xy = covarianza di x ed y
 x  x * y

i
y

n
 x  x * y  y 
 x  x  *  y  y 
r

più semplicemente
i
i
i
2
i
2
i
 il valore di r varia tra (-1) e (+1).
 Valori di r uguali o vicini a zero indicano che non vi è alcuna correlazione lineare tra
le due variabili;
 valori di r uguali o molto vicini a (+1) indicano una forte correlazione positiva.
Per verificare ora se due variabili possono essere considerate correlate o indipendenti tra
di loro:
1. si calcola il valore di r in base alla formula vista
2. si confronta il valore di r calcolato (rc) con quello riportato in tabella in
corrispondenza dell’α prescelto e per ν = n – 2
3. l’ipotesi è nulla, i dati sono correlati se rc < rt
n2
si può verificare il grado di correlazione (r) usando la funzione: t  r *
1 r2
si confronta poi il valore tc calcolato con il valore tt ricavato dalla tabella in corrispondenza
dell’α prescelto e per ν = n – 2
se tc ≥ tt l’ipotesi è nulla; le variabili sono correlate
REGRESSIONE
La relazione di regressione si stabilisce quando tra le due variabili esiste, per esempio,
una legge di dipendenza lineare, come nel caso della relazione che lega l’assorbanza (A)
alla concentrazione (C), data dalla Legge di BEER  A = K * C
La retta di regressione è data dall’equazione 
y = b0 + b1x
con
1. Coefficiente angolare
b1 
x y
i
i

x
2
i
2. Termine noto
b0  y  b1 x
 x  y 
i

n
 xi 2
n
i
dove x e y sono, rispettivamente, il valore medio di (x) ed (y).
Una volta definita l’equazione che meglio interpreta la relazione tra la variabile dipendente
e la variabile indipendente, dobbiamo verificare se questo modello è quello valido.
Il modello matematico che viene comunemente utilizzato è il metodo detto dei “minimi
quadrati” secondo il quale la retta che meglio si adatta ai punti sperimentali è quella che
consente di minimizzare i quadrati delle distanze (misurate lungo l’asse delle ordinate) tra i
punti osservati e la retta stessa.
In pratica la validità del modello di regressione è fornita dal coefficiente di correlazione o
meglio dal coefficiente di determinazione (R2) che altro non è che il quadrato del
coefficiente di correlazione lineare (r2)
 x y   x *  y 
 x   *  y   y  
x 
2
R 
i
2



i
i
2
2
i
i
n
 

i
2
2
i
i
n

RETTA DI TARATURA
Il modello della regressione lineare si presta bene per l’interpolazione delle rette di
taratura. (Conc.  Segnale) permettendoci di ricavare informazioni su tre importanti
parametri relativi ad un metodo analitico.
1) SENSIBILITA’ DI UN METODO
Se si riporta su un grafico la conc. di un analita (asse x) e la corrispondente risposta
strumentale (asse y), il coefficiente angolare della retta (b1), che si può interpolare con il
metodo dei minimi quadrati, rappresentala la sensibilità del metodo. In definitiva la
dy
sensibilità è data da : S 
ovvero dal rapporto tra la variazione del segnale (dy) e la
dx
corrispondente variazione di concentrazione (dx) che esprime la variazione di
concentrazione unitaria al variare del segnale.
2) LIMITE DI RIVELABILITA’
Il limite di rivelabilità che può essere raggiunto con una determinata procedura analitica,
corrisponde alla concentrazione (o alla quantità) che può essere determinata effettuando
una misura che sia al tempo stesso significativa e la più bassa possibile. Tale valore può
essre determinato con approcci diversi a seconda della tecnica analitica, per la precisione:
 Metodi basati sulla sottrazione del bianco con i quali si procede alla misura di una
serie di bianchi, poi si determina il valore medio e la deviazione standard. Questi
valori vengono poi trasformati in termini di concentrazione, usando il grafico di
taratura o il fattore di conversione stechiometrico
 Metodi basati sulla misura dell’area e dell’altezza, nei quali l’unico punto di
riferimento è il disturbo della linea di base. Pertanto si può monitorare la variazione
del segnale per un certo periodo di tempo o lungo un determinato intervallo di
misura. Il segnale di disturbo viene considerato significativo se aumenta di 2 o 3
volte rispetto alla media delle variazioni registrate.
3) INTERVALLO DI LINEARITA’
I grafici di taratura hanno un andamento lineare solo entro limiti ben precisi di
concentrazione. Il limite superiore dell’intervallo di linearità, detto limite di linearità,
corrisponde a quella concentrazione (o quantità) che produce un segnale inferiore del 5%
rispetto a quello previsto dall’equazione di regressione.