Ogni misura è composta di almeno tre dati:
un numero, un'unità di misura, un'incertezza.
Misure ripetute forniscono dati numerici distribuiti attorno ad un
valore centrale indicabile con un indice (indice di localizzazione
o di posizione). A seconda dei casi si potrà adottare l'uno o l'altro
indice in base all'esperienza.
Indici di localizzazione
Media aritmetica: x = Σixi/N dove xi sono i risultati delle N misure.
"Scarto dalla media" o scarto: (xi - x). La media aritmetica
costituisce il legame (vincolo) tra la somma dei dati (Σ
Σ xi) ed il loro
numero (N), e gode delle seguenti proprietà:
1) Σ (xi - x) = 0, per cui gli scarti indipendenti sono (N-1).
2) Σ (xi - x)2= minimo (metodo dei minimi quadrati).
Frequenza dati
La media si applica direttamente alla curva normale dell’errore,
curva di Gauss,
x≡µ
Frequenza dati
Altri indici di posizione si applicano ad altri tipi di
distribuzione, come questa di frequenze unimodali e
modestamente asimmetrica:
x≡µ
b) MODA: valore cui corrisponde il massimo di frequenza.
c) MEDIANA: valore che divide in due il campo di misura, quando
i dati replicati sono ordinati in ordine crescente o decrescente,
con metà dati a destra e metà a sinistra (media dei valori di
mezzo se n è pari).
Questi indici di posizione sono significativi in alcuni casi
particolari, ma sono insensibili a quanto avviene ai margini.
In una distribuzione di frequenze unimodale e moderatamente
asimmetrica, gli indici di posizione sono legati fra loro secondo la
relazione empirica:
[(MEDIA – MODA) = 3 (MEDIA - MEDIANA)]
Moda
Mediana
Media
Un'estensione del concetto di mediana (valore che divide
l'insieme dei dati in due parti uguali) è quello che riguarda i valori
che dividono l'insieme in quattro parti uguali. Tali valori
vengono chiamati "quartili".
0
25
I quartile
50
II quartile
75
III quartile
100
IV quartile
Allo stesso modo, vengono definiti "decili" e "percentili" i valori
che dividono l'insieme dei dati rispettivamente in 10 e 100 parti
uguali.
d) MEDIA TRONCATA: si calcola come media aritmetica della
porzione centrale dei dati ; vengono scartate (di solito
simmetricamente) le code della distribuzione.
e) MEDIA GEOMETRICA: rappresenta il prodotto di N numeri.
Media geometrica = N√πi xi
i=1 → N
Il simbolo π indica il prodotto di tutti i valori.
In relazione alla diversa sensibilità ai dati aberranti, la media ne
è influenzata, la mediana non è influenzata dalla loro presenza, la
media troncata rappresenta un compromesso tra le prime due, in
quanto si basa su un numero consistente di dati ma non usa gli
estremi del campione, tra i quali si possono trovare i valori
aberranti.
Indici di dispersione
a) CAMPO DI VARIAZIONE: Il modo più semplice per indicare la
variabilità di un insieme di dati, è di esprimerlo come differenza tra
il più grande (valore massimo) ed il più piccolo (valore minimo)
dei dati sperimentali o misure.
b) DEVIAZIONE MEDIA (Mean Deviation): MD = [∑
∑ xi – x ]/N
Viene definita anche «scostamento semplice medio assoluto dalla
media aritmetica»
∑(xi – x)2
c) DEVIAZIONE STANDARD:
√
(N-1)
La deviazione standard, chiamata anche scarto quadratico medio,
viene indicata con s.
s è cioè la radice quadrata dei quadrati degli scarti dalla media
aritmetica divisi per il numero di gradi di libertà.
d) VARIANZA: s2 = [∑
∑ (xi - x)2] / (N-1)
La varianza di un insieme di dati è definita come il quadrato della
deviazione standard.
Quando il numero di dati sperimentali disponibili è molto
elevato (al limite tende ad infinito) la deviazione standard è
definita dalla relazione: σ = √ [∑
∑ (xi – x)2] / N dove xi è la misura
iesima, x è la media e N il numero di prove.
Nel caso più frequente, in cui i dati sperimentali sono limitati, la
deviazione standard viene stimata attraverso la grandezza s
definita dalla relazione: s = √ [∑
∑ (xi – x)2] / (N – 1) dove N-1
rappresenta i gradi di libertà.
Si utilizza s, al posto di σ per evidenziare il fatto che, avendo a
disposizione una serie limitata di dati, non si ha la pretesa di
calcolare la deviazione standard, ma solo di darne una
valutazione che risulterà tanto più attendibile quanto maggiore è
il numero di prove effettuate.
Proprietà della deviazione standard o dello scarto
quadratico medio
Se la variabile x ha distribuzione normale con media x e varianza
s2, allora:
a) Il 68,27% dei casi è compreso tra x – s e x + s (cioè una
deviazione standard da ogni parte della media).
b) Il 95,45% dei casi è compreso tra x – 2s e x + 2s (cioè due
deviazioni standard da ogni parte della media).
c) Il 99,73% dei casi è compreso tra x – 3s e x + 3s (cioè tre
deviazioni standard da ogni parte della media).
Quando N tende ad infinito, il valore medio delle misure
sperimentali (in assenza di errori sistematici) tende al valore
vero, convenzionalmente indicato con µ, mentre la deviazione
standard stimata s (o campionaria) tende alla deviazione
standard della popolazione σ.
Il valore di s (deviazione standard campionaria) indica la
imprecisione di una misura ed è legata agli errori casuali.
Quindi l’imprecisione, di solito, viene espressa come deviazione
standard (s) e descrive l’accordo tra due o più misure replicate,
cioè la vicinanza reciproca delle misure all’interno di un insieme
di misurazioni e risulta correlata agli errori casuali.
Più utile può essere l’espressione della imprecisione (come
ripetibilità o riproducibilità) in termini di coefficiente di
variazione o deviazione standard relativa percentuale
(RSD%), cioè di imprecisione percentuale : CV = RSD % =
[s / x] x 100
È chiaro che ad un piccolo CV corrisponde poca dispersione dei
dati attorno ad un valore medio e quindi un’elevata precisione ed
una bassa imprecisione.
Il Laboratorio può stimare la imprecisione del proprio metodo
effettuando misure replicate dello stesso materiale di controllo
nella stessa serie analitica (ripetibilità, imprecisione entrosaggio), oppure in serie analitiche differenti (riproducibilità,
imprecisione tra-saggi).
È evidente che la ripetibilità risulterà migliore della
riproducibilità; infatti, nella replica dello stesso campione in serie
analitiche differenti, concorreranno ad aumentare la variabilità
anche cause di errore (differenze nelle condizioni sperimentali del
saggio, differenze nei reattivi) che non sono presenti quando le
misure vengono replicate all’interno della stessa serie analitica.
Per lo stesso motivo la riproducibilità calcolata da replicati
eseguiti in un periodo molto lungo potrà risultare più elevata
rispetto a quella stimata da replicati eseguiti in un intervallo di
tempo relativamente più breve.
Dispersione o Range: è un altro termine che spesso viene
utilizzato per descrivere la precisione di un insieme di risultati
replicati. Esso è la differenza tra il valore più grande e quello più
piccolo dell’insieme.
Livelli di fiducia
Il valore esatto della media per una popolazione di dati non può
mai essere determinato con assoluta precisione perché
richiederebbe un infinito numero di misure.
La teoria statistica ci permette comunque di fissare dei limiti
attorno ad una media sperimentale x nei quali il valore vero µ si
trova con una certa probabilità.
Questi limiti sono denominati limiti di fiducia e l’intervallo da essi
definito è noto come intervallo di fiducia.
L’estensione dell’intervallo di fiducia, che deriva dalla deviazione
standard del campione, dipende dall’accuratezza di s.
I limiti di fiducia definiscono quindi un intervallo attorno ad x che
con una certa probabilità contiene µ.
L’intervallo di fiducia è, a sua volta, definito dai limiti di fiducia.
Il livello di fiducia fissa i limiti entro cui deve trovarsi il valore vero.
L’espressione generale per i limiti di fiducia (LF) di una singola
misura è data dall’equazione:
LF per µ = x ± zσ
Per la media di N misure si utilizza l’errore standard della media
σ/√
√N al posto di σ, per cui LF per µ = x ± zσ/√N
Quando non si conosce σ, ma si dispone di s, che essendo
ottenuto da un piccolo insieme di dati, può essere piuttosto incerto
e quindi affetto da notevole variabilità.
Come conseguenza, non disponendo di una buona stima di σ, i
limiti di fiducia saranno necessariamente più ampi.
Per tenere in considerazione la variabilità di s, si utilizza
l’importante parametro statistico t (t di Student), definito
dall’equazione:
x-µ
t =
s
Il valore di t dipenderà dal livello di fiducia desiderato ed anche
dal numero di gradi di libertà utilizzati nel calcolo di s.
I limiti di fiducia per la media x di N misure replicate possono
essere derivati da t attraverso l’equazione:
LF per µ = x ±
ts
√N
Il Metodo dei Minimi Quadrati per la
realizzazione di Curve di Calibrazione
La maggior parte dei metodi analitici è basata su
curva
di
calibrazione
ricavata
una
sperimentalmente, in cui viene riportata una
quantità
misurata
(y)
in
funzione
della
concentrazione nota (x) di una serie di standard.
y
x
Esiste una tecnica statistica, chiamata Analisi di
Regressione,
Regressione che consente di ottenere tale retta
in maniera obiettiva, e di specificare le incertezze
associate al suo utilizzo.
Normalmente, a causa degli errori indeterminati
associati al processo di misurazione, non tutti i
punti si trovano esattamente sulla retta.
Di conseguenza, è necessario cercare di
derivare la retta “migliore”
migliore” che interpoli i punti.
Consideriamo la procedura di regressione più
più
semplice, il metodo dei minimi quadrati.
quadrati.
Per applicare questo metodo deve esistere una
relazione lineare tra la variabile misurata (y) e la
concentrazione dell’analita (x).
Questa relazione è espressa come:
y = a + bx
a intercetta (sull’asse delle y)
b coefficiente di regressione, pendenza della retta
La deviazione verticale di un punto dalla retta è
chiamato residuo.
Assorbanza
5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
Residuo = yi – (bxi + a)
0
0,5
1
1,5
2
2,5
Concentrazione
La linea costruita con il metodo dei minimi quadrati è tale da
minimizzare la somma dei quadrati dei residui corrispondenti a
tutti i punti.
Si può dimostrare che per l’equazione di questa retta, che è del
tipo y = a + bx, il coefficiente angolare b (coefficiente di
regressione) è dato dalla relazione.
Σ (xi – x) (yi – y)
b=
Σ (xi – x)2
Dove xi sono tuti i valori della variabile indipendente x ed yi quelli
della variabile dipendente y.
L’intercetta a si ottiene poi dall’equazione: a = y - bx
Per stabilire fino a che punto l’equazione di regressione calcolata
con il metodo dei minimi quadrati può essere usata al fine di
trovare un valore di x conoscendo quello di y, si calcola un
particolare parametro, chiamato coefficiente di determinazione.
[ Σxy – (Σ
Σx)(Σ
Σy)/n ]2
R2 =
[ Σx2 – (Σ
Σx)2/n] [ Σy2 – (Σ
Σy)2/n]
R2 può assumere valori compresi tra 0 ed 1. Se R2 = 1 esiste una
perfetta relazione lineare fra x ed y, per cui ad un determinato
valore di x corrisponde uno ed un solo valore di y.
La radice quadrata del coefficiente di
determinazione è il coefficiente di correlazione:
r = √R2
r può assumere valori compresi tra -1 ed +1
Un coefficiente di correlazione > 0,99 viene
considerato in indicatore di linearità
β-CAROTENE negli oli di semi (λ = 464nm)
Abs
ppm
STD 5 3,4810
20,00
STD 4 1,7517
10,00
STD 3 0,3747
2,00 a =
0,01751
STD 2 0,1134
0,50 b = 0,17327
STD 1 0,0412
0,25 r =
0,99997
4,0000
3,5000
3,0000
Abs
2,5000
y = 0,0175 + 0,1733x
2,0000
1,5000
R2 = 0,9999
1,0000
0,5000
0,0000
0,0
5,0
10,0
15,0
ppm
20,0
25,0
β-CAROTENE negli oli di semi (λ = 464nm)
x = (y - a)/b
conc (ppm) = (Abs - 0,0175)/0,1733
Abs
ppm
girasole 0,0304
0,1
mais
0,1771
0,9
zucca
0,9713
5,5
LA SENSIBILITÀ
La sensibilità di un metodo indica quanto esso sia
sensibile alle variazioni di concentrazione di un
analita. Può essere individuata attraverso la
pendenza (b) della retta.