CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON VALORE ATTESO (test d’ipotesi) CONFRONTO DI VALORI MISURATI (test d’ipotesi) CONFRONTO DI RIPRODUCIBILITA’ (test d’ipotesi) CURVE DI CALIBRAZIONE (regressione lineare) OTTIMIZZAZIONE DI METODI (simplex) CLASSIFICAZIONE DI OGGETTI (PCA, Cluster Analysis) …… Errore sperimentale: -casuali o indeterminati (distribuzione normale) -sistematici o determinati Una maniera di ridurre il ruolo dell’errore indeterminato è quello di fare misure replicate ed usare la media come stima del valore vero. PROBLEMI - stabilire l’intervallo di confidenza (qual è l’intervallo di valori, intorno al valor medio, in cui si trova, con una certa probabilità, il valore vero) -c’è differenza (statisticamente) significativa tra: - il valore misurato e quello vero (atteso)? - il valore misurato con due procedure differenti per la stessa quantità? - la riproducibilità (varianza) di due procedure differenti per la stessa quantità? - Quali sono i parametri della relazione lineare esistente tra Segnale analitico e Concentrazione per una particolare procedura? (regressione lineare) 4 ERRORI NELL’ANALISI CHIMICA E’ possibile definire un intervallo in cui poter assumere ragionevolmente che sia compreso il valore vero vero.. Tale intervallo si chiama intervallo di confidenza (fiducia) (fiducia),, ed i suoi limiti estremi sono chiamati limiti dell'intervallo di confidenza confidenza.. La probabilità che il valore atteso di un parametro stimato sia incluso in un intervallo stimato del parametro stesso si chiama livello di confidenza,, e si indica con 1-α. Il livello di fiducia è espresso da un confidenza numero tra 0 e 1 (o in percento) percento).. La quantità complementare, α, si chiama livello di significatività significatività.. Quindi la scelta di un determinato livello di confidenza non esclude totalmente la possibilità di fare previsioni sbagliate sbagliate:: se abbiamo scelto 1-α = 95% 95% avremo comunque 5 possibilità su cento che il valore vero cada al di fuori dell'intervallo di confidenza confidenza.. ERRORI NELL’ANALISI CHIMICA 5 Intervalli di fiducia (confidenza) Le equazioni σ è nota µ=x± z⋅σ N σ non è nota µ=x± t⋅s N definiscono gli intervalli di confidenza nei due casi indicati indicati.. In pratica, σ non è mai nota nota.. t è la t di Student (pseudonimo di W.S. Gossett), scelta tra i valori tabulati in funzione del numero di gradi di libertà, ν , e del livello di fiducia prescelto prescelto.. Quando si stima l’intervallo di fiducia, i gradi di libertà sono uguali al numero delle misurazioni diminuito di 1. Infatti, il calcolo di s implica la sommatoria delle deviazioni dalla media media,, ma solo N-1 deviazioni sono indipendenti in quanto si può dimostrare che la loro somma è uguale a zero, e che quindi, note N-1 deviazioni, anche l’Nesima è nota nota.. ERRORI NELL’ANALISI CHIMICA 6 z è la variabile standard normalizzata −( x−µ )2 y ( x) = e 2⋅σ 2 σ ⋅ 2π x−µ z= σ ERRORI NELL’ANALISI CHIMICA 7 Vi dice niente questo valore? * Se, ad es. α=0.05: per test a due code si legge t dalla colonna con livello di probabilità 95% per test ad una coda, si legge t dalla colonna con livello di probabilità 90%, ERRORI NELL’ANALISI CHIMICA 8 Esempi Scrivere l’intervallo di fiducia dei dati (mg/L) (α = 0,05). X1 = 23,23; X2 = 21,29; X3 = 20,66; X4 = 29,05; X5 = 23,33; i 1.. 5 xi 23.23 21.29 20.66 29.05 23.33 xi xm i 5 x m = 23.512 xi x m s i 5 1 s = 3.311 RSD% s . 100 RSD%= 14.083 xm µ = 23,512 ± 2,78•3,311/√5 = 23,512 ± 4,116 µ = 23,5 ± 4,1mg/L (1-α: 0,95; n = 5) 2 ERRORI NELL’ANALISI CHIMICA 9 Confronto di una media con un valore vero Un test statistico implica sempre la formulazione di un' un'ipotesi ipotesi nulla (H0), quella da verificare, contro un' un'ipotesi ipotesi alternativa (H1). L'aggettivo nulla è usato per sottolineare che la differenza da valutare non è significativa, e quindi è spiegabile sulla base dei soli errori casuali casuali.. Le due ipotesi si escludono a vicenda vicenda.. Ipotesi alternativa (H1): xm ≠ xt Ipotesi nulla (H0): xm = xt t= (xm − µ ) N s Se t è maggiore del valore critico tabulato per il tipo di test (a due code), il livello di fiducia (0,95, 95, 0,99, 99, ecc ecc.. ..)) e i gradi di libertà ν in oggetto, allora è probabile che sia presente un errore sistematico e l'ipotesi nulla è respinta.. respinta Attenzione: le tabelle riportanti la t di Student possono essere a 1 o a 2 code. ERRORI NELL’ANALISI CHIMICA 10 Test a 1 o 2 code Il valore critico di t è diverso per test da effettuare ad una o due vie (una/due coda/e) coda/e).. 1 coda Frequenza Frequenza 2 code 4 4 3 2 1 0 1 2 3 4 3 2 1 0 1 2 3 4 Segnale (SD) Segnale (SD) k(P = 95%)2code = 1,95 Nei test a 2 code si è interessati ad entrambi i lati della distribuzione.. Il 95% distribuzione 95% dell’area è compreso nell’intervallo µ ± kσ. k(P = 95%)1coda = k(P = 90%)2code = 1,645 Nei test a 1 coda si è interessati ad un solo lato della distribuzione distribuzione.. Il 95% 95% dell’area è compreso nell’intervallo compreso tra -∞ e (µ + kσ). ERRORI NELL’ANALISI CHIMICA 11 Esempi Una serie d’analisi replicate del contenuto alcolico di un campione standard di vino, contenente il 12,55% di alcol etilico, dà i seguenti risultati (%): 12,32; 12,19; 11,98; 12,24; 12,15; 11,99 Verificare la presenza d’errori sistematici nel metodo analitico (1-α = 0,95). Il valore medio e la deviazione standard risultano uguali a 12,145% e 0,136%, rispettivamente. t= (12,145 − 12,55 ) ⋅ 0,136 6 = 7,28 Il valore critico di t per 5 gradi di libertà è 2,57 (1-α = 0,95). Dato che il valore calcolato è maggiore di quello critico, l'ipotesi nulla è rigettata. La probabilità che la differenza tra i due valori sia dovuta al caso è minore del 5%. Al 95% di confidenza posso affermare che vi è errore sistematico. ERRORI NELL’ANALISI CHIMICA 12 Esempi Una serie d’analisi replicate del contenuto alcolico di un campione standard di vino, contenente il 12,55% di alcol etilico, dà i seguenti risultati (%): 13,32; 12,19; 11,98; 12,24; 12,15; 10,99 Verificare la presenza d’errori sistematici (1-α = 0,95). Il valore medio e la deviazione standard risultano uguali a 12,145% (come nell’esempio precedente) e 0,742 % (invece di 0,136%), rispettivamente. t= (12,145 − 12,55) ⋅ 0.742 6 = 1.337 Il valore critico di t per 5 gradi di libertà è 2,57 (1-α = 0,95). Dato che il valore calcolato è minore di quello critico, l'ipotesi nulla è accettata. La differenza tra i due valori è spiegabile sulla base degli errori casuali (con un livello di confidenza, P pari al 95%). ERRORI NELL’ANALISI CHIMICA 13 Confronto di due medie sperimentali Ipotesi alternativa (H1): xm1 ≠ xm2 Ipotesi nulla (H0): xm1 = xm2 Se i due set di risultati hanno deviazioni standard non significativamente differenti, si può stimare la deviazione standard raggruppata relativa ad entrambi i gruppi di dati mediante l'equazione s 2 2 2 ( N1 − 1) ⋅ s1 + (N2 − 1) ⋅ s2 = N1 + N2 − 2 e poi si calcola il valore sperimentale di t= x m1 − x m2 1 1 s ⋅ + N1 N2 in cui t ha (ν = N1 + N2 - 2) gradi di libertà libertà.. Se t è maggiore del valore critico tabulato per ν e 1-α, allora è probabile che la differenza tra le medie non sia spiegabile sulla sola base degli errori casuali casuali.. ERRORI NELL’ANALISI CHIMICA 14 Esempi La concentrazione di albumina (mg/L) nelle urine di un gruppo di sei pazienti, determinata per coagulazione a caldo in ambiente acido, è la seguente 52; 48; 47; 47; 51; 50 L'analisi degli stessi campioni effettuata mediante una nuova metodica ha dato invece i seguenti risultati (mg/L) 52; 49; 47 49; 52; 51 Verificare se le due metodiche danno risultati significativamente differenti (1-α = 0,95). Per prima cosa devono essere calcolate le medie e le deviazioni standard (mg/L) dei due metodi: xm1 = 49,17; s1 = 2,14 xm2 = 50,00; s2 = 2,00 Quindi si calcola spool 5 . 2.14 2 s pool 10 49.17 50.00 5.2 2 s pool = 2.071 ERRORI NELL’ANALISI CHIMICA 15 Infine si calcola il valore sperimentale di t: t exp 49.17 50.00 s pool . 1 1 6 6 t exp = 0.694 Dato che t è minore di 2,23, valore critico per un livello di fiducia del 95% e 10 gradi di libertà, la differenza non è significativa a un livello di fiducia del 95%, cioè esistono meno di 5 probabilità su 100 che la differenza sia significativa. Ricordate che se le deviazioni standard sono significativamente differenti il test deve essere eseguito usando una diversa formulazione. Ricordate che anche in questo caso possono essere eseguiti test a 1 o a 2 code. Confronto di due medie sperimentali Metodo dei minimi quadrati scal si riduce: - sr piccolo - m piccolo - M piccolo - N piccolo - incognito vicino centroide yc 0.352 1.09 4.5 0.803 1.78 4 1.08 2.6 3.5 1.38 3.03 1.75 4.01 y = 2.0925x + 0.2567 R2 = 0.9877 3 2.5 Serie1 2 Lineare (Serie1) 1.5 1 Statistica della regressione R multiplo 0.993837158 R al quadrato 0.987712297 R al quadrato corretto 0.983616396 Errore standard 0.144211147 Osservazioni 0.5 0 0 0.5 1 1.5 2 5 ANALISI VARIANZA gdl SQ MQ Regressione 1 5.015089435 5.015089435 Residuo 3 0.062390565 0.020796855 Totale 4 5.07748 Coefficienti Errore standard Intercetta 0.256740511 0.158317598 Variabile X 1 2.092506513 0.134749235 F 241.1465312 Significatività F 0.000580234 Uso di EXCEL Dati > Analisi dei dati > test F, test t, statistica descrittiva fx > INV.F, INV.T