Capitolo 1 TRATTAMENTO DEI DATI ANALITICI INTRODUZIONE Quando viene condotta un'analisi chimica, è necessario porre attenzione ai seguenti passaggi: • Registrazione accurata dei dati sperimentali e corretta esecuzione dei calcoli •Scelta del valore migliore qualora la stessa determinazione sia stata eseguita piu’ volte •Valutazione dei risultati ottenuti e calcolo dei limiti probabili dell’errore che poi vanno indicati insieme al risultato •Elaborazione di una strategia per controllare le fonti di errore e migliorare così la qualità delle prestazioni analitiche Ogni misura comporta sempre una incertezza, dovuta alla presenza non eliminabile di errori nella misura; ne consegue che il valore che si ottiene non è il valore vero ma è una sua stima. Scopo dell’analista è far si che il valore misurato sia ragionevolmente vicino al valore vero, riducendo entro valori tollerabili il margine di incertezza, cioè l’errore. Ovviamente tale incertezza dipende dal numero di misure effettuate: infatti, generalmente, si effettuano più misure della stessa grandezza; effettuando infinite misure si potrebbe pensare di compensare i molteplici errori ma in pratica il numero di misure è limitato. La statistica offre gli strumenti matematici per valutare, partendo da un numero limitato di risultati quanto il risultato finale di un’analisi sia rappresentativo, cioè esprima effettivamente la grandezza misurata e quanto sia affidabile, cioè sia ragionevolmente vicino al valore vero; quindi la statistica è fondamentale nella trattazione dei dati sperimentali e si occupa della raccolta, classificazione e analisi dei dati. Nella statistica si usano alcuni termini specifici: - Osservazione: esito di una misura. È un dato numerico! - valore vero (μ): si intende il valore ottenuto da un analista esperto in perfette condizioni operative (assenza di errori sistematici) che effettui un numero infinito di prove analitiche usando metodi appropriati e strumenti efficienti. Naturalmente si tratta di una situazione ipotetica, non realizzabile in pratica: in linea teorica, la media aritmetica di questa serie infinita di dati viene fatta coincidere col valore vero, in quanto vi è la massima probabilità che gli errori casuali si compensino - popolazione: insieme di tutte le possibili osservazioni che si possono effettuare della grandezza in questione (teoricamente infinito!!!) - campione: è un insieme limitato di dati estratto dall’intera popolazione (infinita) di dati possibili; lo scopo dell’analista è quello di estrarre dalla popolazione un campione significativo (che rappresenti cioè la popolazione). Poiché il numero di analisi effettuate su un campione sarà necessariamente limitato, la media aritmetica di un campione non coincide col valore vero ma la statistica permette di valutare quanto si avvicini e quindi di valutare l’efficacia del metodo analitico seguito. Cifre significative Il dato analitico è un numero che deriva da una misura sperimentale mentre il risultato di una prova è un numero che deriva dai dati analitici dopo elaborazioni numeriche e grafiche. Il dato analitico deve quindi essere registrato in modo da contenere esclusivamente cifre significative, coerenti con la precisione degli strumenti utilizzati e col metodo seguito. In particolare si devono riportare tutte le cifre note con certezza più la prima incerta, indicando eventualmente di fianco l’intervallo di certezza; in mancanza di altre indicazioni l’ultima cifra deve essere considerata incerta a meno di (+) o (-) una unità. 1 Alcuni esempi: o o o bilancia digitale con precisione di + 0,1 mg una ipotetica pesata verrà espressa come 4,0057 ± 0,0001 g potenziometro digitale con precisione di 1 mV si scrive 434 ± 1 mV buretta con divisioni da 0,05 ml e tolleranza di + 0,03 ml indicherò la lettura del volume come 5,25 ± 0,03 ml Per quanto riguarda il trattamento degli zeri: - gli zeri che compaiono in mezzo a cifre significative sono significativi; per es. 3,0046 ha 5 cifre significative - gli zeri iniziali non sono significativi a meno che si trovino a destra della virgola nei logaritmi; per es. 0,0102 ha 3 cifre significative e può essere meglio scritto mediante la notazione scientifica 1,02·10-2; al contrario il log(1,02) è 0,049 che ha 3 cifre significative - gli zeri al fondo di un numero sono di solito significativi: per es. 5,00 ha 3 cifre significative; - se in un calcolo aritmetico si ottiene il valore 5000 ed è necessario che abbia solo 2 cifre significative allora va espresso come 5,0·103 in modo da evidenziare la precisione. Durante i calcoli si combinano numeri con un diverso numero di cifre significative: il risultato finale va espresso considerando con attenzione le operazioni aritmetiche effettuate e cioè: o o se con i dati a disposizione ho svolto un'addizione o una sottrazione il risultato deve essere espresso con un numero di decimali pari al dato che ne aveva meno se con i dati a disposizione ho svolto una moltiplicazione o una divisione il risultato deve avere lo stesso numero di cifre significative del numero che ne aveva di meno. Le cifre non significative devono essere eliminate dai calcoli mediante arrotondamento secondo le seguenti regole: - l’ultima cifra significativa viene aumentata di 1 se quella successiva è maggiore di 5 - viene invece lasciata inalterata se quella successiva è minore di 5 - se è uguale a 5 si approssima al numero pari più vicino (per es: 2,25 = 2,2 2,35 = 2,4) FONTI DI ERRORE Qualsiasi misura di grandezze chimico-fisiche comporta 2 tipi di errori: - errori sistematici (o determinati), legati alle capacità dell’operatore, all’organizzazione del laboratorio, alla taratura degli strumenti, al metodo analitico adottato. Questi errori possono essere facilmente eliminati eliminando le sostanze interferenti, migliorando la pulizia dei recipienti, tarando periodicamente gli apparecchi di misura. Devono comunque essere assenti da qualsiasi misura e quindi anche da un’analisi chimica - errori casuali (o indeterminati o random): sono casuali, non prevedibili e non eliminabili; dovuti per es. a piccole fluttuazioni dell’ambiente del laboratorio (piccole variazioni di temperatura, umidità, ecc.). E’ proprio l’esistenza di questi errori che fa si che il valore misurato non sia quello vero ma una sua stima. La loro influenza sui risultati può essere analizzata mediante metodi statistici applicati ai dati raccolti mediante una serie ripetuta di misure. Esempi di errori accidentali : oscillazioni di temperatura nella stanza, l’uso di diverse quantità di indicatore tra le diverse titolazioni (quindi il viraggio viene colto in maniera sempre diversa; ciò è anche possibile se viene modificata la luminosità dell’ambiente di lavoro tra una titolazione e l’altra, o se l’operatore non “ricorda” il colore del viraggio osservato nella titolazione precedente), errori nella lettura del menisco della buretta o nella pipetta (ad esempio se l’operatore non legge il volume in asse ma in maniera accidentale, talvolta dall’alto e talvolta dal basso), eccetera. Tutti questi errori possono essere diminuiti operando con cura, o termostatando la stanza, o acquistando vetreria migliore, ma comunque non possono mai essere eliminati del tutto. La caratteristica di un errore accidentale è di essere imprevedibile: se la misura viene ripetuta, l’errore si ripresenta con un’entità ed un segno sempre diversi rispetto alla misura precedente. Esempi di errori sistematici : una buretta difettosa (che eroga sistematicamente un volume diverso da quello dichiarato), un errore della concentrazione di NaOH usato per titolare, un errore del suo volume prelevato con la pipetta, uno strumento di misura non tarato ecc. Tutti questi errori possono essere diminuiti operando con cura e usando una buona strumentazione e buoni reagenti, ma comunque non possono mai essere eliminati del tutto. A differenza dell’errore accidentale, l’errore sistematico presenta la caratteristica di essere sempre costante (in entità e in segno) anche ripetendo la misura. 2 Un metodo affetto da errori accidentali trascurabili è un metodo preciso, mentre un metodo affetto da errori sistematici trascurabili è un metodo accurato. Nel linguaggio comune i termini “preciso”, “esatto” ed “accurato” sono quasi sinonimi; in chimica analitica, al contrario, essi non vanno confusi! Quando si applica un metodo, sarebbe desiderabile che gli errori accidentali e sistematici fossero ridotti al minimo. Quindi si dovrebbe scegliere la migliore strumentazione disponibile, acquistare i reagenti più puri, e fare eseguire l’analisi al migliore analista disponibile sul mercato, lasciandogli tempo in abbondanza per fargli eseguire tutto il procedimento con la massima cura. Questo approccio, che in linea di principio è quello desiderabile, non è quasi mai possibile in pratica, dati i costi esorbitanti e i tempi lunghissimi che richiederebbe un’analisi chimica. Nella pratica si preferisce scegliere dei metodi rapidi ed economici, che abbiano esattezza e precisione ad un livello “soddisfacente”, cioè ad un livello tale che, una volta ottenuto un dato, questo sia sufficientemente affidabile per l’uso che se ne vuol fare. Incertezza della SINGOLA misura Non sempre il dato analitico è espresso con molte misure: spesso abbiamo a disposizione il singolo dato sperimentale ( per es. la singola pesata di un solido o il prelievo di un volume con una buretta). Allora l'incertezza è legata alle prestazioni del singolo strumento, che vengono espresse come: Risoluzione della scala dello strumento Tolleranza: non è una grandezza legata alla misura effettuata ma è una specifica di produzione dello strumento e rappresenta lo scarto massimo tra il valore nominale indicato dallo strumento e quello effettivo Riproducibilità: quanto uno strumento può fornire misure simili dello stesso campione (solitamente fornita dal produttore) Espressione del risultato di una serie di misure Per esprimere correttamente il risultato di un'analisi occorre indicare il valore centrale di una serie di misure (supposto come valore vero) e l'incertezza associata a questo dato cioè l'intervallo numerico entro cui potrebbe rientrare il valore vero. Normalmente il risultato di un'analisi deriva da molte misure, che ovviamente potranno essere diverse tra loro. E' necessario quindi esprimere il risultato finale con un valore che sia rappresentativo di tutto l'insieme delle misure cioè che si suppone "vero". I modi per esprimere il valore centrale di una serie di misure sono: Precisione e accuratezza Ogni volta che collezioniamo i risultati di un’analisi è necessario stimarne precisione ed accuratezza Dati con precisione ed accuratezza ignote sono privi di significato. ACCURATEZZA : Rappresenta lo scostamento tra il valore misurato ed il valore vero o accettato In altri termini è una misura della bontà dell’accordo tra il risultato, xi, o il valore medio dei risultati di un’analisi , ed il valore vero o supposto tale. E’ espressa in termini di errore assoluto o errore relativo 3 Lo scarto può essere espresso in 3 modi: Errore Assoluto Eass = xi - μ Errore Relativo Erel = xi - μ/ μ Errore Relativo percentuale (differenza tra il dato e il valore vero) (rapporto tra errore assoluto e valore vero) E % = Erel ∙ 100 PRECISIONE: Indica l’accordo di una serie di dati tra loro ed è sempre riferita alla serie e non alla singola misura; viene espressa come “deviazione” dalla media aritmetica ed è una misura della dispersione dei dati cioè alla distribuzione dei dati ottenuti all’interno della serie. Poiché vi è una certa tendenza a confondere accuratezza e precisione, si deve notare che si può essere precisi ma non accurati e viceversa: per es. la presenza di un errore sistematico non eliminato comporta una bassa accuratezza (i dati ottenuti sono lontani dal valore vero) ma possono essere invece poco dispersi, cioè vicini al valore medio, se la precisione è stata elevata. Gli schemi seguenti chiariscono quanto detto in precedenza: INDICATORI DI DISPERSIONE Come detto in precedenza, per valutare la precisione di un'analisi, è necessario determinare la dispersione dei dati intorno al valore centrale (solitamente la media); si possono utilizzare vari parametri statistici: deviazione (d) : è la differenza tra ogni singolo valore della serie ed il valore medio di = xi - 𝑥̅ deviazione media: è la media aritmetica dei valori assoluti (senza il segno) delle deviazioni della serie di n dati 𝑛 𝑑̅= ∑ 𝑖=1 |𝑥i - 𝑥̅ | 𝑛 il valore assoluto di di è necessario per eliminare i segni negativi di alcune deviazioni La deviazione media fornisce indicazioni sulla precisione ottenuta nella serie di misure, tanto è vero che spesso viene utilizzata nella presentazione dei risultati e il risultato finale x viene espresso come: ̅ ̅±𝒅 𝒙= 𝒙 range (R): è l'intervallo dei valori cioè la differenza tra il valore massimo e il valore minimo semidispersione assoluta : è la metà del range 4 Distribuzione statistica dei dati Le analisi di laboratorio spesso producono serie di dati dalle quali, con metodi statistici, deve essere dedotto un unico significativo risultato analitico. La statistica ha sviluppato numerosi strumenti per il trattamento delle serie di dati, che si basano sulla distribuzione statistica (cioè casuale) della serie di dati ottenuti: la presenza di errori statistici non eliminabili produce infatti risultati diversi per misure ripetute della stessa grandezza. Supponendo di disporre di una serie di x1,x2…xn dati, si calcola il valor medio , si calcolano le n deviazioni dal valor medio e quindi si produce l’istogramma delle deviazioni d: gli intervalli più popolati sono quelli attorno al valor medio: ciò perché, in presenza di soli errori casuali, è più probabile compiere un piccolo errore mentre la probabilità di compiere errori molto grandi diminuisce drasticamente e quindi diminuisce anche il numero di prove con grandi deviazioni. Si supponga ora di aumentare il numero di dati fino ad avere una serie infinita e di restringere gli intervalli di deviazione fino a renderli infinitesimi: l’istogramma delle deviazioni si trasformerà in una curva continua detta curva di Gauss, con la tipica forma a campana (detta appunto distribuzione normale o gaussiana) ed un andamento simmetrico con le code che si estendono all’infinito. In pratica la curva di Gauss rappresenta la probabilità di distribuzione in una serie infinita di misure di una grandezza fisica: ovviamente il più probabile sarà il valore vero, mentre sempre meno probabili saranno i valori che mano a mano si allontanano da quest’ultimo. Rappresenta quindi la distribuzione dell’errore casuale. Si possono avere più distribuzioni aventi larghezza ed altezza diversa: ciò è correlabile alla precisione della serie di misure. Una serie di misure precise fornirà una curva alta e stretta, una serie di misure poco precise produrrà una curva larga e bassa. Tuttavia l’area sottesa da tutte le infinite curve sarà sempre la stessa e pari ad 1. Vi è quindi la necessità di esprimere questa situazione per evidenziare la precisione della serie di misure: si ricorre alla deviazione standard σ che graficamente rappresenta appunto la semilarghezza della distribuzione nei punti di flesso. La deviazione standard si può calcolare mediante la seguenti equazione: ̅̅̅2 ∑𝑛𝑖=1(𝑥i − 𝑥) √ 𝜎= 𝑛 dove (xi- x ) è la deviazione della misura i-esima ed n è il numero di prove. Questa è detta deviazione standard effettiva ma non è calcolabile in pratica perché è riferita ad una serie infinita di misure (popolazione) che non si possono realizzare poiché sarebbe necessario un tempo infinito. Si utilizza invece la deviazione standard stimata s riferita ad un numero limitato di prove (campione). 5 Quindi il valor medio tende al valore vero μ, la deviazione standard stimata s tende alla deviazione standard effettiva σ. 𝑠=√ ∑𝑛𝑖=1(𝑥i − ̅̅̅ 𝑥)2 𝑛−1 Limiti di attendibilità Un problema che si può manifestare quando si effettua una serie di misure è la presenza di uno o più valori anomali (aberranti) molto diversi dagli altri; si deve prendere la decisione se accettarlo o scartarlo quando si calcola il valore medio. Il criterio di accettabilità o meno deriva dalla stessa distribuzione di Gauss. Si può infatti dimostrare che l’area sottesa da ±1σ rappresenta una probabilità del 63,8% di trovare un valore misurato, quella sottesa da ±2σ rappresenta una probabilità del 95% ed infine quella sottesa da ±3σ rappresenta una probabilità del 99,7% (in pratica la certezza): quindi è estremamente improbabile che, con una corretta distribuzione gaussiana dell’errore casuale, una misura presenti una deviazione standard superiore a 3σ. Si può stabilire un criterio per determinare i limiti di attendibilità (o di affidabilità, o di confidenza) cioè un criterio per decidere se accettare o scartare un valore ottenuto da una misura nettamente diverso da tutti gli altri della serie: vengono accettati tutti quei valori sperimentali compresi nell’intervallo: ( x - 3σ) e ( x + 3σ) ; vengono invece scartati perché affetti probabilmente da qualche errore sistematico tutti quei valori derivanti da misure sperimentali che sono al di fuori di questo intervallo, con il 99,7% di probabilità di prendere una decisione corretta. Sono stati elaborati vari test statistici, tutti basati sul concetto di limite di attendibilità, che permettono di prendere decisioni sulla serie di risultati analitici . Test di Dixon (o Q-test) Innanzitutto si ordinano i valori della serie in senso crescente: x1, x2 ... xn dal più piccolo al più grande Poi si calcola r secondo questa relazione: r= 𝒙𝒏 −𝒙𝒏−𝟏 𝒙𝒏 −𝒙𝟏 dove x1 è il primo dato della serie ordinata e xn è l’ultimo. Si confronta il valore di r con i valori del quoziente critico Q (tabulato con una probabilità prefissata, ad esempio del 90%): se r < Q il dato viene accettato con una sicurezza del 90% altrimenti viene scartato . I valori del test di Dixon sono raccolti nella seguente tabella: 6 numero di prove 3 4 5 6 7 8 9 10 Q critico (90% di sicurezza) 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41 Coefficiente t di Student Avendo a disposizione una serie infinita di misure, prive di errori sistematici, il valore medio della serie x coincide con il valore vero μ; in realtà questa situazione non si verifica mai, perché quando si effettuano delle misure si dispone di un campione e non dell’intera popolazione; quindi la media è solo una stima del valore vero, tanto più corretta quanto più è elevato il numero delle misure effettuate. Quel che si può fare è di definire un intervallo attorno alla media, nel quale si può assumere con una certa probabilità che sia compreso il valore vero. Tale intervallo si chiama intervallo di fiducia, ed i suoi limiti estremi sono chiamati limiti dell’intervallo di fiducia .La statistica permette di valutare, con un grado di probabilità prefissata, l’intervallo di fiducia mediante la relazione di Student, così chiamata perchè adatta a valutare il risultato analitico quando si hanno a disposizione 20-30 misure (il numero di studenti in una classe!) ̅ è il valore medio, t è il coefficiente di Student opportunamente tabulato, s è la deviazione standard μ è il valore vero, 𝒙 stimata, n è il numero delle prove effettuate: ̅∓ 𝝁= 𝒙 𝒕 ∙𝒔 √𝒏 Se ad esempio il grado di fiducia è del 95 %, avremo 95 possibilità su cento che il valore vero cada all’interno dell’intervallo di fiducia; d’altra parte, vi è un 5 % di possibilità che invece il valore vero cada al di fuori di tale intervallo (cioè c’è sempre la possibilità di sbagliare). Il coefficiente t di Student è tabellato in funzione del numero di prove e dell’intervallo di probabilità che viene scelto (vedi tabella allegata) Presentazione dei risultati Nella pratica analitica, quindi si effettueranno i seguenti passaggi: riportare i dati analitici con il corretto numero di cifre significative e tenerne conto anche nello svolgimento di tutti i calcoli richiesti nell' analisi valutare la presenza di un dato anomalo con il test Q e quindi se è necessario scartarlo calcolare il valore medio x esprimere il risultato finale tenendo conto della dispersione dei dati Vi sono due modi per esprimere il risultato numerico di una serie di misure: ̅ ̅±𝒅 𝒙= 𝒙 OPPURE ̅ ∓ μ= 𝒙 𝒕 ∙𝒔 √𝒏 La seconda espressione, che attualmente viene preferita alla prima, non è altro che la miglior valutazione del valore vero μ espressa dalla relazione di Student e quindi riassume i parametri statistici richiesti per la presentazione e valutazione del risultato ottenuto. I dati vanno riportati con un numero di cifre significative che è rappresentativo della accuratezza con cui il dato stesso è noto. Se si dessero cifre in più, si darebbe l'impressione di conoscere il dato con una accuratezza migliore di quella reale. 7 Se si dessero cifre in meno, si sacrificherebbe inutilmente una parte delle proprie conoscenze sul dato. Nell' espressione finale del risultato il valore che definisce l'intervallo di fiducia non potrà avere più cifre decimali della media . Per esempio: ( potrebbe essere la molarità di una soluzione acida o basica ottenuta dopo diverse titolazioni) μ = 0,107 ± 0,013 e NON μ = 0,107 ± 0,0134 e nemmeno μ = 0,107 ± 0,01 ESERCIZI 1) In un laboratorio si deve standardizzare una soluzione circa 0,1 M di KOH e sono stati ottenuti i seguenti dati di molarità: 0,0995 0,0975 0,0998 0,0986 0,0992 0,101 individua se c’è un dato da scartare in base al test Q, calcola la media, la deviazione standard e esprimi il valore vero con un livello di affidabilità del 90%. 2) Dai una definizione di accuratezza, precisione e valore vero. Quali sono i parametri per determinare il valore centrale di una serie di dati? Cita e spiega tutti quelli che conosci. 3) Il contenuto di Ca di un campione di minerale è stato analizzato e sono stati ottenuti i seguenti valori in % m/m: 0,0271 ; 0,0282; 0,0279; 0,0271; 0,0275; 0,0263; 0,0269 Calcola media e mediana. Esprimi il risultato finale dell'analisi con un livello di fiducia del 90%. 8 9