TRATTAMENTO DEI DATI ANALITICI

annuncio pubblicitario
Capitolo 1
TRATTAMENTO DEI DATI ANALITICI
INTRODUZIONE
Quando viene condotta un'analisi chimica, è necessario porre attenzione ai seguenti passaggi:
• Registrazione accurata dei dati sperimentali e corretta esecuzione dei calcoli
•Scelta del valore migliore qualora la stessa determinazione sia stata eseguita piu’ volte
•Valutazione dei risultati ottenuti e calcolo dei limiti probabili dell’errore che poi vanno indicati insieme al
risultato
•Elaborazione di una strategia per controllare le fonti di errore e migliorare così la qualità delle prestazioni
analitiche
Ogni misura comporta sempre una incertezza, dovuta alla presenza non eliminabile di errori nella misura; ne
consegue che il valore che si ottiene non è il valore vero ma è una sua stima. Scopo dell’analista è far si che il
valore misurato sia ragionevolmente vicino al valore vero, riducendo entro valori tollerabili il margine di
incertezza, cioè l’errore.
Ovviamente tale incertezza dipende dal numero di misure effettuate: infatti, generalmente, si effettuano più
misure della stessa grandezza; effettuando infinite misure si potrebbe pensare di compensare i molteplici errori
ma in pratica il numero di misure è limitato.
La statistica offre gli strumenti matematici per valutare, partendo da un numero limitato di risultati quanto il
risultato finale di un’analisi sia rappresentativo, cioè esprima effettivamente la grandezza misurata e quanto sia
affidabile, cioè sia ragionevolmente vicino al valore vero; quindi la statistica è fondamentale nella trattazione dei
dati sperimentali e si occupa della raccolta, classificazione e analisi dei dati.
Nella statistica si usano alcuni termini specifici:
- Osservazione: esito di una misura. È un dato numerico!
- valore vero (μ): si intende il valore ottenuto da un analista esperto in perfette condizioni operative (assenza di
errori sistematici) che effettui un numero infinito di prove analitiche usando metodi appropriati e strumenti
efficienti. Naturalmente si tratta di una situazione ipotetica, non realizzabile in pratica: in linea teorica, la media
aritmetica di questa serie infinita di dati viene fatta coincidere col valore vero, in quanto vi è la massima
probabilità che gli errori casuali si compensino
- popolazione: insieme di tutte le possibili osservazioni che si possono effettuare della grandezza in questione
(teoricamente infinito!!!)
- campione: è un insieme limitato di dati estratto dall’intera popolazione (infinita) di dati possibili; lo scopo
dell’analista è quello di estrarre dalla popolazione un campione significativo (che rappresenti cioè la
popolazione). Poiché il numero di analisi effettuate su un campione sarà necessariamente limitato, la media
aritmetica di un campione non coincide col valore vero ma la statistica permette di valutare quanto si avvicini e
quindi di valutare l’efficacia del metodo analitico seguito.
Cifre significative
Il dato analitico è un numero che deriva da una misura sperimentale mentre il risultato di una prova è un numero che
deriva dai dati analitici dopo elaborazioni numeriche e grafiche. Il dato analitico deve quindi essere registrato in modo
da contenere esclusivamente cifre significative, coerenti con la precisione degli strumenti utilizzati e col metodo
seguito. In particolare si devono riportare tutte le cifre note con certezza più la prima incerta, indicando eventualmente
di fianco l’intervallo di certezza; in mancanza di altre indicazioni l’ultima cifra deve essere considerata incerta a meno
di (+) o (-) una unità.
1
Alcuni esempi:
o
o
o
bilancia digitale con precisione di + 0,1 mg una ipotetica pesata verrà espressa come 4,0057 ± 0,0001 g
potenziometro digitale con precisione di 1 mV si scrive 434 ± 1 mV
buretta con divisioni da 0,05 ml e tolleranza di + 0,03 ml indicherò la lettura del volume come 5,25 ± 0,03 ml
Per quanto riguarda il trattamento degli zeri:
- gli zeri che compaiono in mezzo a cifre significative sono significativi; per es. 3,0046 ha 5 cifre significative
- gli zeri iniziali non sono significativi a meno che si trovino a destra della virgola nei logaritmi; per es. 0,0102 ha 3
cifre significative e può essere meglio scritto mediante la notazione scientifica 1,02·10-2; al contrario il log(1,02) è
0,049 che ha 3 cifre significative
- gli zeri al fondo di un numero sono di solito significativi: per es. 5,00 ha 3 cifre significative;
- se in un calcolo aritmetico si ottiene il valore 5000 ed è necessario che abbia solo 2 cifre significative allora va
espresso come 5,0·103 in modo da evidenziare la precisione.
Durante i calcoli si combinano numeri con un diverso numero di cifre significative: il risultato finale va espresso
considerando con attenzione le operazioni aritmetiche effettuate e cioè:
o
o
se con i dati a disposizione ho svolto un'addizione o una sottrazione il risultato deve essere espresso con un
numero di decimali pari al dato che ne aveva meno
se con i dati a disposizione ho svolto una moltiplicazione o una divisione il risultato deve avere lo stesso
numero di cifre significative del numero che ne aveva di meno.
Le cifre non significative devono essere eliminate dai calcoli mediante arrotondamento secondo le seguenti
regole:
- l’ultima cifra significativa viene aumentata di 1 se quella successiva è maggiore di 5
- viene invece lasciata inalterata se quella successiva è minore di 5
- se è uguale a 5 si approssima al numero pari più vicino (per es: 2,25 = 2,2
2,35 = 2,4)
FONTI DI ERRORE
Qualsiasi misura di grandezze chimico-fisiche comporta 2 tipi di errori:
- errori sistematici (o determinati), legati alle capacità dell’operatore, all’organizzazione del laboratorio, alla
taratura degli strumenti, al metodo analitico adottato. Questi errori possono essere facilmente eliminati
eliminando le sostanze interferenti, migliorando la pulizia dei recipienti, tarando periodicamente gli apparecchi
di misura. Devono comunque essere assenti da qualsiasi misura e quindi anche da un’analisi chimica
- errori casuali (o indeterminati o random): sono casuali, non prevedibili e non eliminabili; dovuti per es. a
piccole fluttuazioni dell’ambiente del laboratorio (piccole variazioni di temperatura, umidità, ecc.). E’ proprio
l’esistenza di questi errori che fa si che il valore misurato non sia quello vero ma una sua stima. La loro influenza
sui risultati può essere analizzata mediante metodi statistici applicati ai dati raccolti mediante una serie ripetuta
di misure.
Esempi di errori accidentali : oscillazioni di temperatura nella stanza, l’uso di diverse quantità di indicatore tra le
diverse titolazioni (quindi il viraggio viene colto in maniera sempre diversa; ciò è anche possibile se viene
modificata la luminosità dell’ambiente di lavoro tra una titolazione e l’altra, o se l’operatore non “ricorda” il
colore del viraggio osservato nella titolazione precedente), errori nella lettura del menisco della buretta o nella
pipetta (ad esempio se l’operatore non legge il volume in asse ma in maniera accidentale, talvolta dall’alto e
talvolta dal basso), eccetera. Tutti questi errori possono essere diminuiti operando con cura, o termostatando la
stanza, o acquistando vetreria migliore, ma comunque non possono mai essere eliminati del tutto. La
caratteristica di un errore accidentale è di essere imprevedibile: se la misura viene ripetuta, l’errore si ripresenta
con un’entità ed un segno sempre diversi rispetto alla misura precedente.
Esempi di errori sistematici : una buretta difettosa (che eroga sistematicamente un volume diverso da quello
dichiarato), un errore della concentrazione di NaOH usato per titolare, un errore del suo volume prelevato con la
pipetta, uno strumento di misura non tarato ecc. Tutti questi errori possono essere diminuiti operando con cura
e usando una buona strumentazione e buoni reagenti, ma comunque non possono mai essere eliminati del tutto.
A differenza dell’errore accidentale, l’errore sistematico presenta la caratteristica di essere sempre costante (in
entità e in segno) anche ripetendo la misura.
2
Un metodo affetto da errori accidentali trascurabili è un metodo preciso, mentre un metodo affetto da
errori sistematici trascurabili è un metodo accurato.
Nel linguaggio comune i termini “preciso”, “esatto” ed “accurato” sono quasi sinonimi; in chimica analitica, al
contrario, essi non vanno confusi!
Quando si applica un metodo, sarebbe desiderabile che gli errori accidentali e sistematici fossero ridotti al
minimo. Quindi si dovrebbe scegliere la migliore strumentazione disponibile, acquistare i reagenti più puri, e fare
eseguire l’analisi al migliore analista disponibile sul mercato, lasciandogli tempo in abbondanza per fargli
eseguire tutto il procedimento con la massima cura. Questo approccio, che in linea di principio è quello
desiderabile, non è quasi mai possibile in pratica, dati i costi esorbitanti e i tempi lunghissimi che richiederebbe
un’analisi chimica. Nella pratica si preferisce scegliere dei metodi rapidi ed economici, che abbiano esattezza e
precisione ad un livello “soddisfacente”, cioè ad un livello tale che, una volta ottenuto un dato, questo sia
sufficientemente affidabile per l’uso che se ne vuol fare.
Incertezza della SINGOLA misura
Non sempre il dato analitico è espresso con molte misure: spesso abbiamo a disposizione il singolo dato
sperimentale ( per es. la singola pesata di un solido o il prelievo di un volume con una buretta). Allora
l'incertezza è legata alle prestazioni del singolo strumento, che vengono espresse come:
 Risoluzione della scala dello strumento
 Tolleranza: non è una grandezza legata alla misura effettuata ma è una specifica di produzione dello
strumento e rappresenta lo scarto massimo tra il valore nominale indicato dallo strumento e quello
effettivo
 Riproducibilità: quanto uno strumento può fornire misure simili dello stesso campione (solitamente
fornita dal produttore)
Espressione del risultato di una serie di misure
Per esprimere correttamente il risultato di un'analisi occorre indicare il valore centrale di una serie di misure
(supposto come valore vero) e l'incertezza associata a questo dato cioè l'intervallo numerico entro cui potrebbe
rientrare il valore vero.
Normalmente il risultato di un'analisi deriva da molte misure, che ovviamente potranno essere diverse tra loro.
E' necessario quindi esprimere il risultato finale con un valore che sia rappresentativo di tutto l'insieme delle
misure cioè che si suppone "vero".
I modi per esprimere il valore centrale di una serie di misure sono:
Precisione e accuratezza
Ogni volta che collezioniamo i risultati di un’analisi è necessario stimarne precisione ed accuratezza
Dati con precisione ed accuratezza ignote sono privi di significato.
ACCURATEZZA : Rappresenta lo scostamento tra il valore misurato ed il valore vero o accettato
In altri termini è una misura della bontà dell’accordo tra il risultato, xi, o il valore medio dei risultati di
un’analisi , ed il valore vero o supposto tale. E’ espressa in termini di errore assoluto o errore relativo
3
Lo scarto può essere espresso in 3 modi:
Errore Assoluto
Eass = xi - μ
Errore Relativo
Erel = xi - μ/ μ
Errore Relativo percentuale
(differenza tra il dato e il valore vero)
(rapporto tra errore assoluto e valore vero)
E % = Erel ∙ 100
PRECISIONE: Indica l’accordo di una serie di dati tra loro ed è sempre riferita alla serie e non alla singola misura;
viene espressa come “deviazione” dalla media aritmetica ed è una misura della dispersione dei dati cioè alla
distribuzione dei dati ottenuti all’interno della serie.
Poiché vi è una certa tendenza a confondere accuratezza e precisione, si deve notare che si può essere precisi ma non
accurati e viceversa: per es. la presenza di un errore sistematico non eliminato comporta una bassa accuratezza (i dati
ottenuti sono lontani dal valore vero) ma possono essere invece poco dispersi, cioè vicini al valore medio, se la precisione
è stata elevata.
Gli schemi seguenti chiariscono quanto detto in precedenza:
INDICATORI DI DISPERSIONE
Come detto in precedenza, per valutare la precisione di un'analisi, è necessario determinare la dispersione dei dati
intorno al valore centrale (solitamente la media); si possono utilizzare vari parametri statistici:

deviazione (d) : è la differenza tra ogni singolo valore della serie ed il valore medio di = xi - 𝑥̅

deviazione media: è la media aritmetica dei valori assoluti (senza il segno) delle deviazioni della serie di n dati
𝑛
𝑑̅= ∑
𝑖=1
|𝑥i - 𝑥̅ |
𝑛
il valore assoluto di di è necessario per eliminare i segni negativi di alcune deviazioni
La deviazione media fornisce indicazioni sulla precisione ottenuta nella serie di misure, tanto è vero che spesso viene
utilizzata nella presentazione dei risultati e il risultato finale x viene espresso come:
̅
̅±𝒅
𝒙= 𝒙


range (R): è l'intervallo dei valori cioè la differenza tra il valore massimo e il valore minimo
semidispersione assoluta : è la metà del range
4
Distribuzione statistica dei dati
Le analisi di laboratorio spesso producono serie di dati dalle quali, con metodi statistici, deve essere dedotto un unico
significativo risultato analitico. La statistica ha sviluppato numerosi strumenti per il trattamento delle serie di dati, che si
basano sulla distribuzione statistica (cioè casuale) della serie di dati ottenuti: la presenza di errori statistici non eliminabili
produce infatti risultati diversi per misure ripetute della stessa grandezza.
Supponendo di disporre di una serie di x1,x2…xn dati, si calcola il valor medio , si calcolano le n deviazioni dal valor medio e
quindi si produce l’istogramma delle deviazioni d: gli intervalli più popolati sono quelli attorno al valor medio: ciò perché,
in presenza di soli errori casuali, è più probabile compiere un piccolo errore mentre la probabilità di compiere errori
molto grandi diminuisce drasticamente e quindi diminuisce anche il numero di prove con grandi deviazioni.
Si supponga ora di aumentare il numero di dati fino ad avere una serie infinita e di restringere gli intervalli di deviazione
fino a renderli infinitesimi: l’istogramma delle deviazioni si trasformerà in una curva continua detta curva di Gauss, con la
tipica forma a campana (detta appunto distribuzione normale o gaussiana) ed un andamento simmetrico con le code che si
estendono all’infinito.
In pratica la curva di Gauss rappresenta la probabilità di distribuzione in una serie infinita di misure di una grandezza
fisica: ovviamente il più probabile sarà il valore vero, mentre sempre meno probabili saranno i valori che mano a mano si
allontanano da quest’ultimo. Rappresenta quindi la distribuzione dell’errore casuale.
Si possono avere più distribuzioni aventi larghezza ed altezza diversa: ciò è correlabile alla precisione della serie di misure.
Una serie di misure precise fornirà una curva alta e stretta, una serie di misure poco precise produrrà una curva larga e
bassa. Tuttavia l’area sottesa da tutte le infinite curve sarà sempre la stessa e pari ad 1.
Vi è quindi la necessità di esprimere questa situazione per evidenziare la precisione della serie di misure: si ricorre alla
deviazione standard σ che graficamente rappresenta appunto la semilarghezza della distribuzione nei punti di flesso.
La deviazione standard si può calcolare mediante la seguenti equazione:
̅̅̅2
∑𝑛𝑖=1(𝑥i − 𝑥)
√
𝜎=
𝑛
dove (xi- x ) è la deviazione della misura i-esima ed n è il numero di prove.
Questa è detta deviazione standard effettiva ma non è calcolabile in pratica perché è riferita ad una serie infinita di misure
(popolazione) che non si possono realizzare poiché sarebbe necessario un tempo infinito.
Si utilizza invece la deviazione standard stimata s riferita ad un numero limitato di prove (campione).
5
Quindi il valor medio tende al valore vero μ, la deviazione standard stimata s tende alla deviazione standard effettiva σ.
𝑠=√
∑𝑛𝑖=1(𝑥i − ̅̅̅
𝑥)2
𝑛−1
Limiti di attendibilità
Un problema che si può manifestare quando si effettua una serie di misure è la presenza di uno o più valori anomali
(aberranti) molto diversi dagli altri; si deve prendere la decisione se accettarlo o scartarlo quando si calcola il valore
medio. Il criterio di accettabilità o meno deriva dalla stessa distribuzione di Gauss. Si può infatti dimostrare che l’area
sottesa da ±1σ rappresenta una
probabilità del 63,8% di trovare un valore misurato, quella sottesa da ±2σ rappresenta una probabilità del 95% ed infine
quella sottesa da ±3σ rappresenta una probabilità del 99,7% (in pratica la certezza): quindi è estremamente improbabile
che, con una corretta distribuzione gaussiana dell’errore casuale, una misura presenti una deviazione standard superiore a
3σ.
Si può stabilire un criterio per determinare i limiti di attendibilità (o di affidabilità, o di confidenza) cioè un criterio per
decidere se accettare o scartare un valore ottenuto da una misura nettamente diverso da tutti gli altri della serie: vengono
accettati
tutti quei valori sperimentali compresi nell’intervallo: ( x - 3σ) e ( x + 3σ) ; vengono invece scartati perché affetti
probabilmente
da qualche errore sistematico tutti quei valori derivanti da misure sperimentali che sono al di fuori di questo intervallo,
con il 99,7% di probabilità di prendere una decisione corretta.
Sono stati elaborati vari test statistici, tutti basati sul concetto di limite di attendibilità, che permettono di prendere
decisioni sulla serie di risultati analitici .

Test di Dixon (o Q-test)
Innanzitutto si ordinano i valori della serie in senso crescente: x1, x2 ... xn dal più piccolo al più grande
Poi si calcola r secondo questa relazione:
r=
𝒙𝒏 −𝒙𝒏−𝟏
𝒙𝒏 −𝒙𝟏
dove x1 è il primo dato della serie ordinata e xn è l’ultimo.
Si confronta il valore di r con i valori del quoziente critico Q (tabulato con una probabilità prefissata, ad esempio del 90%):
se r < Q il dato viene accettato con una sicurezza del 90% altrimenti viene scartato . I valori del test di Dixon sono raccolti
nella seguente tabella:
6
numero di
prove
3
4
5
6
7
8
9
10

Q critico (90%
di sicurezza)
0,94
0,76
0,64
0,56
0,51
0,47
0,44
0,41
Coefficiente t di Student
Avendo a disposizione una serie infinita di misure, prive di errori sistematici, il valore medio della serie x coincide con il
valore vero μ; in realtà questa situazione non si verifica mai, perché quando si effettuano delle misure si dispone di un
campione e non dell’intera popolazione; quindi la media è solo una stima del valore vero, tanto più corretta quanto più è
elevato il numero delle misure effettuate.
Quel che si può fare è di definire un intervallo attorno alla media, nel quale si può assumere con una certa probabilità che
sia compreso il valore vero. Tale intervallo si chiama intervallo di fiducia, ed i suoi limiti estremi sono chiamati limiti
dell’intervallo di fiducia .La statistica permette di valutare, con un grado di probabilità prefissata, l’intervallo di fiducia
mediante la relazione di Student, così chiamata perchè adatta a valutare il risultato analitico quando si hanno a
disposizione 20-30 misure (il numero di studenti in una classe!)
̅ è il valore medio, t è il coefficiente di Student opportunamente tabulato, s è la deviazione standard
μ è il valore vero, 𝒙
stimata, n è il numero delle prove effettuate:
̅∓
𝝁= 𝒙
𝒕 ∙𝒔
√𝒏
Se ad esempio il grado di fiducia è del 95 %, avremo 95 possibilità su cento che il valore vero cada all’interno
dell’intervallo di fiducia; d’altra parte, vi è un 5 % di possibilità che invece il valore vero cada al di fuori di tale intervallo
(cioè c’è sempre la possibilità di sbagliare).
Il coefficiente t di Student è tabellato in funzione del numero di prove e dell’intervallo di probabilità che viene scelto (vedi
tabella allegata)
Presentazione dei risultati
Nella pratica analitica, quindi si effettueranno i seguenti passaggi:




riportare i dati analitici con il corretto numero di cifre significative e tenerne conto anche nello svolgimento di
tutti i calcoli richiesti nell' analisi
valutare la presenza di un dato anomalo con il test Q e quindi se è necessario scartarlo
calcolare il valore medio x
esprimere il risultato finale tenendo conto della dispersione dei dati
Vi sono due modi per esprimere il risultato numerico di una serie di misure:
̅
̅±𝒅
𝒙= 𝒙
OPPURE
̅ ∓
μ= 𝒙
𝒕 ∙𝒔
√𝒏
La seconda espressione, che attualmente viene preferita alla prima, non è altro che la miglior valutazione del valore vero μ
espressa dalla relazione di Student e quindi riassume i parametri statistici richiesti per la presentazione e valutazione del
risultato ottenuto.
I dati vanno riportati con un numero di cifre significative che è rappresentativo della accuratezza con cui il dato stesso è
noto. Se si dessero cifre in più, si darebbe l'impressione di conoscere il dato con una accuratezza migliore di quella reale.
7
Se si dessero cifre in meno, si sacrificherebbe inutilmente una parte delle proprie conoscenze sul dato.
Nell' espressione finale del risultato il valore che definisce l'intervallo di fiducia non potrà avere più cifre decimali della
media . Per esempio:
( potrebbe essere la molarità di una soluzione acida o basica ottenuta dopo diverse titolazioni)
μ = 0,107 ± 0,013
e NON
μ = 0,107 ± 0,0134
e nemmeno
μ = 0,107 ± 0,01
ESERCIZI
1) In un laboratorio si deve standardizzare una soluzione circa 0,1 M di KOH e sono stati ottenuti i seguenti dati di
molarità:
0,0995 0,0975 0,0998 0,0986 0,0992 0,101
individua se c’è un dato da scartare in base al test Q, calcola la media, la deviazione standard e esprimi il valore vero con
un livello di affidabilità del 90%.
2) Dai una definizione di accuratezza, precisione e valore vero. Quali sono i parametri per determinare il valore centrale di
una serie di dati? Cita e spiega tutti quelli che conosci.
3) Il contenuto di Ca di un campione di minerale è stato analizzato e sono stati ottenuti i seguenti valori in % m/m:
0,0271 ; 0,0282; 0,0279; 0,0271; 0,0275; 0,0263; 0,0269
Calcola media e mediana. Esprimi il risultato finale dell'analisi con un livello di fiducia del 90%.
8
9
Scarica