x - Università del Salento

CHEMIOMETRIA
Applicazione di metodi matematici e statistici per estrarre
(massima) informazione chimica (affidabile) da dati
chimici
INCERTEZZA DI MISURA (intervallo di confidenza/fiducia)
CONFRONTO CON VALORE ATTESO (test d’ipotesi)
CONFRONTO DI VALORI MISURATI (test d’ipotesi)
CONFRONTO DI RIPRODUCIBILITA’ (test d’ipotesi)
CURVE DI CALIBRAZIONE (regressione lineare)
OTTIMIZZAZIONE DI METODI (simplex)
CLASSIFICAZIONE DI OGGETTI (PCA, Cluster Analysis)
……
Errore sperimentale:
-casuali o indeterminati (distribuzione normale)
-sistematici o determinati
Una maniera di ridurre il ruolo dell’errore indeterminato è quello di fare misure replicate ed usare la
media come stima del valore vero.
PROBLEMI
- stabilire l’intervallo di confidenza (qual è l’intervallo di valori, intorno al valor medio, in cui si trova, con una certa
probabilità, il valore vero)
-c’è differenza (statisticamente) significativa tra:
- il valore misurato e quello vero (atteso)?
- il valore misurato con due procedure differenti per la stessa quantità?
- la riproducibilità (varianza) di due procedure differenti per la stessa quantità?
- Quali sono i parametri della relazione lineare esistente tra Segnale analitico e Concentrazione per una particolare
procedura? (regressione lineare)
4
ERRORI NELL’ANALISI CHIMICA
E’ possibile definire un intervallo in cui poter assumere
ragionevolmente che sia compreso il valore vero
vero..
Tale intervallo si chiama intervallo di confidenza (fiducia)
(fiducia),, ed i suoi
limiti estremi sono chiamati limiti dell'intervallo di confidenza
confidenza.. La
probabilità che il valore atteso di un parametro stimato sia incluso
in un intervallo stimato del parametro stesso si chiama livello di
confidenza,, e si indica con 1-α. Il livello di fiducia è espresso da un
confidenza
numero tra 0 e 1 (o in percento)
percento).. La quantità complementare, α, si
chiama livello di significatività
significatività..
Quindi la scelta di un determinato livello di confidenza non esclude
totalmente la possibilità di fare previsioni sbagliate
sbagliate:: se abbiamo
scelto 1-α = 95%
95% avremo comunque 5 possibilità su cento che il
valore vero cada al di fuori dell'intervallo di confidenza
confidenza..
ERRORI NELL’ANALISI CHIMICA
5
Intervalli di fiducia (confidenza)
Le equazioni
σ è nota
µ=x±
z⋅σ
N
σ non è nota
µ=x±
t⋅s
N
definiscono gli intervalli di confidenza nei due casi indicati
indicati.. In
pratica, σ non è mai nota
nota..
t è la t di Student (pseudonimo di W.S. Gossett), scelta tra i
valori tabulati in funzione del numero di gradi di libertà, ν , e del
livello di fiducia prescelto
prescelto..
Quando si stima l’intervallo di fiducia, i gradi di libertà sono
uguali al numero delle misurazioni diminuito di 1. Infatti, il calcolo
di s implica la sommatoria delle deviazioni dalla media
media,, ma solo
N-1 deviazioni sono indipendenti in quanto si può dimostrare che
la loro somma è uguale a zero, e che quindi, note N-1
deviazioni, anche l’Nesima è nota
nota..
ERRORI NELL’ANALISI CHIMICA
6
z è la variabile standard
normalizzata
−( x−µ )2
y ( x) =
e
2⋅σ 2
σ ⋅ 2π
x−µ
z=
σ
ERRORI NELL’ANALISI CHIMICA
7
Vi dice niente
questo valore?
* Se, ad es. α=0.05: per test a due code si legge t dalla colonna con livello di probabilità
95% per test ad una coda, si legge t dalla colonna con livello di probabilità 90%,
ERRORI NELL’ANALISI CHIMICA
8
Esempi
Scrivere l’intervallo di fiducia dei dati (mg/L) (α = 0,05).
X1 = 23,23; X2 = 21,29;
X3 = 20,66; X4 = 29,05;
X5 = 23,33;
i
1.. 5
xi
23.23
21.29
20.66
29.05
23.33
xi
xm
i
5
x m = 23.512
xi x m
s
i
5 1
s = 3.311
RSD% s .
100
RSD%= 14.083
xm
µ = 23,512 ± 2,78•3,311/√5 = 23,512 ± 4,116
µ = 23,5 ± 4,1mg/L (1-α: 0,95; n = 5)
2
ERRORI NELL’ANALISI CHIMICA
9
Confronto di una media con un valore vero
Un test statistico implica sempre la formulazione di un'
un'ipotesi
ipotesi nulla (H0),
quella da verificare, contro un'
un'ipotesi
ipotesi alternativa (H1). L'aggettivo nulla è
usato per sottolineare che la differenza da valutare non è significativa, e
quindi è spiegabile sulla base dei soli errori casuali
casuali.. Le due ipotesi si
escludono a vicenda
vicenda..
Ipotesi alternativa (H1): xm ≠ xt
Ipotesi nulla (H0): xm = xt
t=
(xm − µ )
N
s
Se t è maggiore del valore critico tabulato per il tipo di test (a due code), il
livello di fiducia (0,95,
95, 0,99,
99, ecc
ecc..
..)) e i gradi di libertà ν in oggetto, allora è
probabile che sia presente un errore sistematico e l'ipotesi nulla è
respinta..
respinta
Attenzione: le tabelle riportanti la t di Student possono essere a 1 o a 2 code.
ERRORI NELL’ANALISI CHIMICA
10
Test a 1 o 2 code
Il valore critico di t è diverso per test da effettuare ad una o due vie
(una/due coda/e)
coda/e)..
1 coda
Frequenza
Frequenza
2 code
4
4
3
2
1
0
1
2
3
4
3
2
1
0
1
2
3
4
Segnale (SD)
Segnale (SD)
k(P = 95%)2code = 1,95
Nei test a 2 code si è interessati
ad
entrambi
i
lati
della
distribuzione.. Il 95%
distribuzione
95% dell’area è
compreso nell’intervallo µ ± kσ.
k(P = 95%)1coda =
k(P = 90%)2code = 1,645
Nei test a 1 coda si è interessati
ad un solo lato della distribuzione
distribuzione..
Il 95%
95% dell’area è compreso
nell’intervallo compreso tra -∞ e
(µ + kσ).
ERRORI NELL’ANALISI CHIMICA
11
Esempi
Una serie d’analisi replicate del contenuto alcolico di un
campione standard di vino, contenente il 12,55% di alcol etilico, dà i
seguenti risultati (%):
12,32; 12,19; 11,98; 12,24; 12,15; 11,99
Verificare la presenza d’errori sistematici nel metodo analitico
(1-α = 0,95).
Il valore medio e la deviazione standard risultano uguali a 12,145% e
0,136%, rispettivamente.
t=
(12,145 − 12,55 ) ⋅
0,136
6
= 7,28
Il valore critico di t per 5 gradi di libertà è 2,57 (1-α = 0,95). Dato che
il valore calcolato è maggiore di quello critico, l'ipotesi nulla è
rigettata. La probabilità che la differenza tra i due valori sia dovuta al
caso è minore del 5%.
Al 95% di confidenza posso affermare che vi è errore sistematico.
ERRORI NELL’ANALISI CHIMICA
12
Esempi
Una serie d’analisi replicate del contenuto alcolico di un
campione standard di vino, contenente il 12,55% di alcol etilico, dà i
seguenti risultati (%):
13,32; 12,19; 11,98; 12,24; 12,15; 10,99
Verificare la presenza d’errori sistematici (1-α = 0,95).
Il valore medio e la deviazione standard risultano uguali a 12,145%
(come nell’esempio precedente) e 0,742 % (invece di 0,136%),
rispettivamente.
t=
(12,145 − 12,55) ⋅
0.742
6
= 1.337
Il valore critico di t per 5 gradi di libertà è 2,57 (1-α = 0,95). Dato che
il valore calcolato è minore di quello critico, l'ipotesi nulla è accettata.
La differenza tra i due valori è spiegabile sulla base degli errori
casuali (con un livello di confidenza, P pari al 95%).
ERRORI NELL’ANALISI CHIMICA
13
Confronto di due medie sperimentali
Ipotesi alternativa (H1): xm1 ≠ xm2
Ipotesi nulla (H0): xm1 = xm2
Se i due set di risultati hanno deviazioni standard non significativamente
differenti, si può stimare la deviazione standard raggruppata relativa ad
entrambi i gruppi di dati mediante l'equazione
s
2
2
2
(
N1 − 1) ⋅ s1 + (N2 − 1) ⋅ s2
=
N1 + N2 − 2
e poi si calcola il valore sperimentale di
t=
x m1 − x m2
 1
1 

s ⋅  +
 N1 N2 
in cui t ha (ν = N1 + N2 - 2) gradi di libertà
libertà.. Se t è maggiore del valore
critico tabulato per ν e 1-α, allora è probabile che la differenza tra le
medie non sia spiegabile sulla sola base degli errori casuali
casuali..
ERRORI NELL’ANALISI CHIMICA
14
Esempi
La concentrazione di albumina (mg/L) nelle urine di un gruppo di
sei pazienti, determinata per coagulazione a caldo in ambiente acido,
è la seguente
52; 48; 47; 47; 51; 50
L'analisi degli stessi campioni effettuata mediante una nuova
metodica ha dato invece i seguenti risultati (mg/L)
52; 49; 47 49; 52; 51
Verificare se le due metodiche danno risultati significativamente
differenti (1-α = 0,95).
Per prima cosa devono essere calcolate le medie e le deviazioni
standard (mg/L) dei due metodi:
xm1 = 49,17; s1 = 2,14
xm2 = 50,00; s2 = 2,00
Quindi si calcola spool
5 . 2.14
2
s pool
10
49.17 50.00
5.2
2
s pool = 2.071
ERRORI NELL’ANALISI CHIMICA
15
Infine si calcola il valore sperimentale di t:
t exp
49.17 50.00
s pool .
1
1
6
6
t exp = 0.694
Dato che t è minore di 2,23, valore critico per un livello di fiducia del
95% e 10 gradi di libertà, la differenza non è significativa a un livello di
fiducia del 95%, cioè esistono meno di 5 probabilità su 100 che la
differenza sia significativa.
Ricordate che se le deviazioni standard sono significativamente differenti il test deve essere
eseguito usando una diversa formulazione.
Ricordate che anche in questo caso possono essere eseguiti test a 1 o a 2 code.
Confronto di due medie sperimentali
Metodo dei minimi quadrati
scal si riduce:
- sr piccolo
- m piccolo
- M piccolo
- N piccolo
- incognito vicino centroide
yc
0.352
1.09
4.5
0.803
1.78
4
1.08
2.6
3.5
1.38
3.03
1.75
4.01
y = 2.0925x + 0.2567
R2 = 0.9877
3
2.5
Serie1
2
Lineare (Serie1)
1.5
1
Statistica della regressione
R multiplo
0.993837158
R al quadrato
0.987712297
R al quadrato corretto
0.983616396
Errore standard
0.144211147
Osservazioni
0.5
0
0
0.5
1
1.5
2
5
ANALISI
VARIANZA
gdl
SQ
MQ
Regressione
1
5.015089435
5.015089435
Residuo
3
0.062390565
0.020796855
Totale
4
5.07748
Coefficienti
Errore standard
Intercetta
0.256740511
0.158317598
Variabile X 1
2.092506513
0.134749235
F
241.1465312
Significatività F
0.000580234
Uso di EXCEL
Dati > Analisi dei dati > test F, test t, statistica descrittiva
fx > INV.F, INV.T