Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
Quattro passi nella statistica per chimici
Lo scopo dell’analisi statistica applicata a serie di dati sperimentali è quella di ottenere informazioni per
valutare la validità di una procedura o la accettabilità di un dato analitico.
La statistica ci consente di fornire i risultati sperimentali in maniera tale che chi li legge possa, a prima vista,
rendersi conto del grado di affidabilità della misura.
LA MISURA
Ricavare una misura è una operazione piuttosto semplice. Possiamo misurare lunghezze, masse, volumi ecc.
Alcune di queste operazioni di misura semplice fanno parte della quotidiana attività di tecnici e ricercatori.
Ad esempio, se voglio preparare la soluzione di una sale, dovrò innanzitutto pesarne l’opportuno
quantitativo. La bilancia è caratterizzata da una portata e da una precisione (o divisione) di lettura.
Ad esempio nella scheda tecnica della bilancia Sartorius mod CPA225D, si trova
La divisione di lettura avverte l’operatore che se si posizionerà nel campo di pesata di 100g, la lettura della
massa sarà fornita fino al centesimo di mg. Se, in definitiva, devo pesare circa 37 g del sale in questione,
leggerò, ad esempio: 37,42346g. Se utilizzo l’altro fondo scala di 220 g, leggerò 37,4235.
L’informazione del costruttore della bilancia sulla precisione della sua bilancia ci dice qualcosa sul numero
di cifre con cui esprimere il dato di massa (quattro nel primo caso, tre nel secondo). L’ultima cifra letta è
l’ultima cifra significativa, quella sulla quale cade l’incertezza. In definitiva la massa del sale vera sarà
compresa fra 37,42347 e 37, 42345 g, oppure fra 37,4236 e 37,4234 g. In un caso l’incertezza è dello 0,03 %
e nel secondo dello 0,3 %.
Una volta pesato, il sale dovrà essere solubilizzato in acqua in un volume adeguato ad ottenere la
concentrazione voluta. Potrò ad esempio utilizzare un matraccio tarato da 100mL.
Ora, se si sfoglia un catalogo di vetreria1 si scopre che essa è divisa in due Classi: Classe A e Classe B. Per i
matracci Blaubrand delle due classi sono riportate le seguenti specifiche tecniche:
Classe A
Capacità Tolleranza
mL
mL
5
10
20
25
50
50
100
200
±0,04
±0,04
±0,04
±0,04
±0,06
±0,08
±0,1
± 0,15
Classe B
Capacità
Tolleranza
mL
mL
10
± 0,06
20
25
± 0,06
± 0,06
50
± 0,09
100
200
± 0,15
± 0,23
1
http://www.globopharma.com/labware/matracci_tarati.pdf; una raccolta più completa si trova al sito
http://www.globopharma.com/prodotti_strumenti.htm
A.A. 2013-2014
1/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
Come si vede ad ogni classe è ad ogni volume è associata una specifica tolleranza. Che cosa rappresenta?
Come nel caso della pesata, il costruttore ci informa sul grado di precisione che può essere ottenuta
portando a volume in maniera corretta in un determinato matraccio. La Classe A è quella che garantisce
una maggiore precisione. L’incertezza associata all’operazione di diluizione a 100 mL utilizzando un
matraccio tarato di Classe A è fissa e corrispondente allo 0,1%.
Quanto descritto vale anche per altri attrezzi comunemente usati in laboratorio come le pipette e le
burette.
Per le burette:
Dalla Misura al Dato sperimentale
In genere, un dato sperimentale è il frutto della combinazione di più misure. Un esempio che ci è vicino è il
dato ricavabile da una titolazione volumetrica.
Esaminiamo i passaggi che si compiono: si preleva il campione con una pipetta, si riempie la buretta con la
soluzione standard, si titola fino al punto equivalente (o meglio di arresto).
Il volume prelevato con la pipetta e quello erogato dalla buretta sono affetti da una incertezza: quella
riportata dal costruttore sullo strumento usato. Anche la soluzione standard non ha un titolo “certo”:
anch’esso sarà affetto da una incertezza, in genere se si tratta di una fiala Normex, si considera ±1
sull’ultima cifra decimale del valore di concentrazione.
La domanda che ci si pone è dunque: l’incertezza che si ha su tutte le misure che accompagnano la
produzione di un dato sperimentale che effetto hanno sul dato stesso? Come si riesce a quantificare questo
effetto? Come, in definitiva, se ne dovrà tenerne conto nell’espressione del risultato?
Consideriamo un operatore che in una singola prova di titolazione ottiene un certo valore di durezza totale
di un’acqua potabile. Supponiamo che egli abbia condotto la determinazione con EDTA 0.0100 M
(incertezza ± 0.0001), utilizzando una buretta da 50 mL (di tolleranza 0.05 ml) su un campione di 100 mL
prelevato con una pipetta da 100 ml classe A (di tolleranza 0.05 ml). La titolazione raggiunge il punto di
arresto a 37,05 mL.
Il calcolo che porta al valore di durezza totale è:
[(37,05•10-3 L X 0.0100 mol/L x 100.0869 g/mol) / 0,100 L]x100
A.A. 2013-2014
2/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
I valori indicati in rosso sono quelli accompagnati da un incertezza, gli altri valori, la massa molare del
Carbonato di calcio e la costante 100 usata per convertire a °f (gCaCO3/100L), si assumono come costanti
prive di errore.
Eseguendo il calcolo si ottiene questo valore di durezza:
37.082196450 °f
L’ultimo valore che precede lo zero, rappresenta una quantità pari a 5 10-8g, ossia50 nanogrammi. Appare
abbastanza intuitivo che è un livello di precisione che non è raggiungibile con la tecnica a disposizione.
Molte delle cifre con cui abbiamo espresso il dato sono quindi superflue, perché non forniscono una
informazione utile e realistica sul dato fornito.
Allora si pone un nuovo problema. Come faccio a scegliere quali cifre conservare. Per aiutarci in questo
compito bisogna applicare una tecnica denominata propagazione degli errori.
Prima dobbiamo però introdurre due concetti fondamentali quello di Media e quello di Deviazione
standard.
La Media
Consideriamo questo caso. Due operatori hanno analizzato per via gravimetrica il contenuto di rame nello
stesso campione di lega. Hanno eseguito cinque repliche, ottenendo i seguenti risultati sperimentali
Op. A
OP. B
0.755
0.923
0.885
0.645
0.806
0.811
0.790
0.802
L’incertezza associata a ciascun dato è piccola, in quanto l’unica misura effettuata è stata la pesata finale
del precipitato, eseguita su una bilancia precisa al milligrammo (± 0,001).
In questi casi, avendo valori di diverse misure indipendenti, è necessario esprimere un valore medio delle
determinazioni effettuate. L’espressione che fornisce la media è molto semplice trattandosi della somma di
tutti i dati ottenuti diviso per il loro numero:
x=
∑x
i
i
n
Nel caso specifico è:
Op. A
Op.B
0.755 + 0.923 + 0.885 + 0.645
= 0.802
4
0.806 + 0.811 + 0.790 + 0.802
= 0.802
4
La media delle due serie di dati è identica (0.802 mg kg-1) anche se i singoli valori ottenuti dai due operatori
differiscono tra loro, talvolta anche in misura apparentemente notevole
Quindi definire il valore medio appare abbastanza immediato. Gli statistici definiscono la media indicatore
di tendenza centrale. Un po’ più complicato è trovare un adeguato indicatore di precisione.
La Deviazione Standard
Osservando i dati dei due operatori e, soprattutto, se li mettiamo su un grafico (vedi sotto), appare
evidente che i due operatori hanno prodotto dati di qualità diversa.
A.A. 2013-2014
3/20
Prof. Sergio Zappoli – Dipartimento di Chimica
imica Industriale, Università degli Studi di Bologna
L’operatore B ha ottenuto risultati più prossimi tra loro
l
rispetto a quelli ottenuti dall’operatore
l’operatore A.
L’indicatore che si utilizza per quantificare questa dispersione dei dati intorno al valore medio è la
deviazione standard (s)) o la sua espressione quadratica la varianza standard (s2).
Se si ha la pazienza di seguire alcuni brevi passaggi matematici riportati nell’Appendice
Appendice 1, risulterà chiaro
perché la deviazione standard è stata assunta come indicatore della dispersione e perché la formula con la
quale si calcola la deviazione standard sia la seguente:
σ=
∑ (y
− y) n
2
i
Nel caso di poche misure, la formula considera il grado di libertà (n-1)
(n 1) al posto del numero n dei dati.
s=
∑ (y
− y ) (n − 1)
2
i
In queste condizioni la deviazione standard,
standa indicata con la lettera s¸ prende il nome,
nome più correttamente, di
deviazione standard stimata.
Da un punto di vista più qualitativo, si
s può osservare che questa equazione “somma
somma” tutte le differenze
(dette scarti) fra le singole misure e il valore medio, dopo averle portate al quadrato, in modo da non
consentire l’elisione degli
gli scarti positivi e negativi, divide poi questa somma per il numero dei dati (ridotti di
uno nel caso di pochi dati) e infine fa la radice quadrata, per riportare il valore di s alle dimensioni originarie
delle misure. Di conseguenza, maggiore
aggiore sarà l’ampiezza degli scarti fra ogni singolo dato e il valor medio,
maggiore sarà il valore di s.
La deviazione standard è usualmente utilizzata per esprimere l’errore
l’errore associato a una serie di misure,
ossia il grado di dispersione attorno al valor medio, ossia ancora la precisione di una misura. Tanto più il
valore di s sarà piccolo tanto più la misura sarà precisa.
Nei due casi considerati le deviazioni standard sono
son le seguenti
sA = 0.13;
sB = 0.009
La precisione di un dato è importante, perché permette di capire l’intervallo di valori (ad esempio:
concentrazioni) entro i quali il valore vero (ipotetico) del mio campione può ricadere (VEDREMO MEGLIO
TRA UN PO’ QUESTO CONCETTO).
L’ERRORE DILAGA: LA PROPAGAZIONE DELL’ERRORE
Adesso che abbiamo definito media e deviazione standard,, che si possono ricavare solo se si ha un numero
sufficiente di misure (almeno tre) ritorniamo al problema iniziale:: assegnare una incertezza a risultati
sperimentali singoli derivati dalla combinazione di più misure.
misure Per capire come funziona la tecnica che
A.A. 2013-2014
4/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
consente di derivare l’errore associato alla combinazione di più misure affette da incertezze, si deve
considerare il fatto che, nel momento in cui si esegue il calcolo per ricavare il dato sperimentale, vedi
l’esempio precedente della determinazione della durezza dell’acqua, si dovrebbe anche sviluppare il calcolo
per le incertezze. In altre parole si potrebbe utilizzare la stessa formula precedente, utilizzando al posto dei
volumi e delle concentrazioni le rispettive incertezze:
[(0,05•10-3 L X 0.0001 mol/L x 100.0869 g/mol) / 0,00008 L]x100 = 0.625543125
In questo caso si sono considerate tutte le incertezze positive, come se l’operatore avesse sempre misurato
in eccesso. Nel caso particolare dell’equazione usata per ottenere il risultato finale, se si fosse lavorato
sempre in difetto, ossia con tutte le incertezze negative, si sarebbe ottenuto lo stesso valore solo che di
segno opposto: -0, 6255. Naturalmente sono possibili anche i casi nei quali una delle incertezze è presa col
segno negativo e le altre con il segno positivo, e viceversa. Comunque si operi si otterranno sempre questi
due valori estremi. Sembra quindi che un modo per esprimere l’incertezza sia quello di assegnare alla
nostra misura un intervallo di variazione, in questo caso definito dagli estremi ± 0,6255….
In realtà la cosa è più sottile, e operare nel modo appena descritto non rende giustizia agli sforzi del nostro
sperimentatore. Infatti quegli estremi, così definiti, rappresentano il caso più sfavorevole, in positivo o in
negativo, di variazione possibile, nei limiti delle tolleranze della strumentazione (e della soluzione standard
usata).
In realtà sono possibili, e per certi aspetti più probabili, anche tutti i valori intermedi che cadono
nell’intervallo di tolleranza o incertezza dei valori che compaiono nella espressione di calcolo. Bisogna
quindi trovare una forma, una equazione, che sia meno pessimista e tenga conto della continuità dei valori
degli oggetti misurati (tra un estremo e l’altro vi è una infinita serie di possibili valori)
La procedura matematica (semplificata) che ci porta all’espressione dell’errore associato a dati derivanti da
misure di altre grandezze è riportata, per i curiosi e volenterosi, nell’Appendice 2. Di seguito si riportano
solo le formule finali, brevemente commentate.
I casi più comuni che si incontrano sono la somma o la differenza di grandezze (ad esempio la misura di un
perimetro) e il prodotto o il quoziente, vedi l’esempio precedente del calcolo di una concentrazione.
L’equazione pratica per misure derivate da somme o differenze è la seguente
=
+
Dove ε è l’errore da associare alla misura derivata e εX e εY sono gli errori associati alle medie delle misure
(se se ne sono fatte più di una) o l’incertezza associata allo strumento di misura).
Nel caso di prodotti e quozienti la formula è la seguente.
=
+
In questo caso si opera con gli errori relativi (se il valore X o Y deriva da una media) o le
incertezze/tolleranze relative (se la misura è singola). Il risultato è un errore relativo, il cui termine dovrà
essere moltiplicato per la misura derivata per ricavare l’errore da associare ad essa.
Il caso di propagazione dell’errore per misure derivate da prodotti a quozienti si può applicare al caso della
misura della durezza dell’acqua.
Applicando la formula sopra scritta si ottiene
A.A. 2013-2014
5/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
=
.
.
+
.
.
+
.
.
∙
∙
= 0.010122
= 37.05 × ε% = 37.05 × 0.01012 = 0.3750317
Come si vede, il valore trovato di errore è decisamente inferiore a quello ricavabile assumendo solo gli
errori estremi.
Ora possiamo quindi esprimere il risultato finale della determinazione associandovi l’errore così calcolato.
Ma prima dobbiamo riflettere sul numero di cifre significative da mantenere. Si ragiona in questo modo:
dato che l’errore è espresso con la prima cifra dopo la virgola sarà in quella posizione che la mia misura si
mostra poco certa. Come nel caso della bilancia, se la massa viene misurata con una precisione al
centesimo di grammo è inutile esprimere la massa con la precisione del milligrammo.
Scriveremo quindi che la durezza dell’acqua è pari a: 37.1 ± 0.4 °f
Un primo punto
Abbiamo allora definito due diversi ma analoghi modi per definire l’errore su un dato sperimentale. Uno si
basa sulla propagazione delle misure che concorrono a determinarlo, l’altro sugli scarti rispetto alla media
del valore del dato ottenuto (per via diretta o derivata) da una serie di misure.
Facciamoci allora una domanda.
Che cosa effettivamente rappresenta l’errore associato alla misura di durezza riportata nel paragrafo
precedente? Per rispondere a questa domanda dobbiamo scavare ancora un po’.
QUESTIONE DI PROBABILITA’
La deviazione standard s é un parametro un po’ particolare. Essa infatti figura nell’equazione della legge di
probabilità di Laplace-Gauss. Tale legge si applica alle variabili le cui variazioni sono dovute all’azione
concomitante di numerose sorgenti di variazione indipendenti fra loro e i cui effetti si sommano senza che
nessuno di essi abbia a prevalere.
La figura a fianco rappresenta il tipico andamento della
curva di Gauss, l’equazione ad essa relativa è questa:
y = f (x ) =
[
exp − ( x − µ ) 2σ 2
σ 2π
2
]
I parametri della distribuzione sono la media (valore
dell’ascissa corrispondente al massimo della curva) e la
deviazione standard che qui viene indicata con σ,
perché la distribuzione si riferisce a un numero infinito
di osservazioni. La curva rappresenta la frequenza
(numero di osservazioni sul totale) delle osservazioni di una variabile statistica. Il massimo della frequenza
si ha in corrispondenza della media, mentre scostandosi da questo punto le frequenze diminuiscono
sempre più. In parole povere ciò significa che, dato un certo oggetto da misurare, sarà più probabile
(maggiore frequenza) fornire un valore che cada nei pressi della media, piuttosto che agli estremi della
curva.
La curva rappresenta tutte le possibili misure (ossia la popolazione). Questo significa che ho il 100% di
probabilità che la misura ricada intorno al valore medio ± gli estremi della curva.
Peccato che la curva (anche se non sembra) è asintotica, sia a destra che a sinistra e quindi tocca l’asse
delle x, da entrambi i lati, all’infinito…
A.A. 2013-2014
6/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
È possibile accontentarsi di una minore sicurezza (ma di un dato più… usabile) individuando solo una
porzione della curva. E qui entra in gioco il valore di σ (o s).
Se si prende l’area sottesa dalla curva intorno al valor medio ± σ si copre il 68% della curva, considerando
(quasi) 2 volte il valore di σ si copre circa il 95% della curva.
Questo significa che se fornisco il dato nella forma m ± σ si intende che se si rifacesse la misura, nelle
identiche condizioni, si avrebbe il 68% di probabilità di ottenere un valore compreso in quell’intervallo. Il
valore che moltiplica σ è un parametro, Z, ricavabile da opportune tabelle di cui si riportano di seguito
alcuni valori notevoli:
P%
Z
90
95
98
99
1.645
1.960
2.326
2.576
La probabilità del 95%, che è quella di solito scelta si ricava per Z = 1.96, ossia m ± 1.96σ.
L’errore standard o deviazione standard della media
Ora dobbiamo considerare che non è possibile eseguire infinite misure. In genere eseguiamo un numero
ridotto di misure che possiamo considerare rappresentative (medie) della popolazione di origine. In
definitiva quando facciamo cinque repliche di un campione, otteniamo cinque valori che possono essere
assimilati a valori “medi” della popolazione di origine a cui appartiene il campione. Questi valori sono detti
medie campionarie, intendendo che non si riferiscono alla media della popolazione ma, per l’appunto, del
piccolo numero di campioni che ho estratto.
Bisogna allora valutare quanto valga la media delle medie campionarie e, soprattutto, la deviazione
standard di questa nuova distribuzione di medie
Per far questo conviene fare uso di un esempio pratico.
A.A. 2013-2014
7/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
-------------------------------------------------------------------------------------------------------------
Esempio:
Si supponga di avere una popolazione originaria composta dai seguenti valori:
2; 21; 12 ; 34; 35; 5; 9; 12; 23; 3
Di media 15.6 e varianza (s2) = 132.4. La distribuzione è rappresentata dalla seguente figura
Supponiamo di estrarre da questa popolazione tutti i possibili campioni composti da due oggetti della
popolazione stessa. La cosa apparirebbe così:
Ad ogni coppia di valori corrisponde un valore medio:
Come si vede ogni coppia ha generato valori medi diversi fra loro. La media di questi nuovi oggetti è
esattamente uguale a quella dei dati originari: 15.6. La media così calcolata,
che si chiama media campionaria, non viene modificata dal processo fatto
con i dati a disposizione. Cosa succede invece alla σ2?
La distribuzione delle medie campionari è riportata a fianco:
Calcolando la varianza della nuova popolazione (s2m) si ottiene il valore di
66.2. Tale valore è pari alla metà della varianza della popolazione
2
originaria: s2c = σ /2. Ma 2 rappresenta proprio la dimensione dei campioni
estratti dalla popolazione di origine.
----------------------------------Questa conclusione ha carattere generale ed è garantita dall’esistenza di uno specifico teorema della
statistica, noto con il nome di “teorema limite centrale”, la cui risoluzione lasciamo agli statistici, che
afferma che se si prendono tutti i possibili campioni, ognuno di dimensione n, da qualsiasi popolazione di
media µ e deviazione standard σ, la distribuzione delle medie dei campioni avrà
A.A. 2013-2014
8/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
Media, µx = µ
e
varianza o errore standard della media, σ2c = σ2/n
La popolazione delle medie dei campioni, sarà distribuita normalmente se lo sarà la distribuzione di origine
oppure tenderà ad essere normale per un numero grande di campioni.
Nella pratica operativa significa che ogni misura su una popolazione può essere assunta come singola
media di valori e che la varianza di n misure replicate si dovrà esprimere come errore standard della media.
Medie e intervalli di confidenza
Consideriamo di nuovo il caso della determinazione del rame da parte degli operatori A e B. Riportiamo ora,
poiché le sappiamo calcolare, le medie e le deviazioni standard
Tabella 1.
Op. A
Op B
n1
0.755
0.806
n2
0.749
0.811
n3
0.769
0.790
n4
0.765
0.802
Media
s
0.760
0.009
0.802
0.009
In questo caso le serie di dati sono entrambe poco disperse ma i valori medi sono molto distanti fra loro.
La prima cosa che ci chiediamo è come esprimere la dispersione di questi dati. In particolare sarebbe utile
esprimere la dispersione espressa come probabilità che un operatore, ripetendo la misura nelle nostre
stesse condizioni, possa ottenere un valore compreso in un determinato intervallo intorno alla media.
Chiamiamo questa nuova espressione dell’errore intervallo di confidenza, ic.
Se possiedo molte misure su una popolazione (ossia molte medie campionarie), almeno 30, l’intervallo di
confidenza si potrà esprimere utilizzando la distribuzione normale. Se, come in genere è il caso, si vuole
avere il 95% di probabilità che il nostro valore ricada all’interno dell’intervallo esprimeremo l’intervallo di
confidenza come ± 1.96
σ
n
.
Ma se di misure ce ne sono poche non è lecito usare la distribuzione normale, che vale per infinite misure.
Come si può fare?
Il primo che risolse il problema fu William Sealy Gosset, dipendente delle birrerie Guinnes, che si imbatteva
quotidianamente nel problema di confrontare parametri di qualità del prodotto del birrificio avendo a
disposizione pochi campioni per volta.
Mr. Gosset elaborò una nuova distribuzione statistica, valida per piccoli numeri di campioni (piccole
popolazioni) simile a quella normale di Gauss ma dipendente dal numero di gradi di libertà g.l. (N-1).
Mr. Guinness non permise a Mr. Gosset di pubblicare il metodo con il proprio nome, così egli dovette
adottare uno pseudonimo, Student, con il quale ancora oggi è nota la distribuzione statistica e il test ad
essa associato, che vedremo fra poco. All’aumentare del g.l. la distribuzione di Student tende a sovrapporsi
a quella normale
A.A. 2013-2014
9/20
Prof. Sergio Zappoli – Dipartimento di Chimica
imica Industriale, Università degli Studi di Bologna
A questa distribuzione è associata una tavola di valori (indicati con la lettera t) che sono riportati nella
Appendice 3.
Il valore di t può essere impiegato per “correggere” l’informazione sull’errore espresso in termini di
deviazione standard σ.
Avendo a che fare con una popolazione costituita da pochi oggetti, si utilizzerà la deviazione standard
Per farlo devo scrivere l’espressione
’espressione dell’intervallo di confidenza in questo modo:
µ = m±t
s
n
Per scegliere il valore di t devo prima di tutto decidere il livello di confidenza, diciamo che sia del 95%.
Posta pari a 1 la percentuale di probabilità totale, P, scegliere
scegliere il 95 % di confidenza, significa dire che esiste
un “rischio”, che chiamiamo α,, pari a 0.05
0.0 (1-0,95)
0,95) che un valore misurato cada fuori del nostro intervallo.
Questo rischio sarà egualmente ripartito fra i due rami della distribuzione, quindi ci sarà un 2,5 % (0,025) di
rischio di avere valori che escano dall’intervallo a destra della media (valori alti) e un rischio identico che si
collochino nella parte sinistra (valori bassi). Dovrò quindi trovare un valore di t che rappresenti questo
rischio di 0,025 per parte. Dato che la curva è simmetrica, nella tabella andrò a cercare il valore di t nella
colonna di P = 1-0,025
0,025 = 0.0975. Fatto questo si deve scegliere la riga corrispondente ai gradi di libera delle
proprie misure e trovare il valore di t adeguato al caso in esame.
-------------------------------------------------------------------------------------------------------------
Esempio:
Calcoliamo l’intervallo di confidenza 95% e 99% per i dati dell’Op A e dell’Op.B della Tabella 1.
Op.A Sono stati ottenuti 4 dati, i gradi di libertà sono dunque 3.
Per 95% α=0.05, α/2
/2 = 0.025, P = 0.0975 sulla tabella si trova t= 3.182. L’i.c. è pari a
± 3.182
0.009
= 0.016
3
Analogamente. Per 99% α=0.01, α/2
/2 = 0.005, P = 0.0995 sulla tabella si trova t=
= 5.841, i.c. = 0.030
I valori dell’ic per l’Op.B sono identici, visto che dipendono solo dal numero di dati e dalla deviazione
standard
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------
A.A. 2013-2014
10/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
CONFRONTO DI DATI
Ritorniamo alla Tabella 1. Abbiamo osservato che queste serie di dati differiscono per il valore medio. A
questo punto si aprono due questioni. Quando, dal punto di vista statistico, i risultati forniti da due
operatori potranno ritenersi “coincidenti”?. E, forse più importante, quale dei due valori scelgo come
“giusto”?
Anche a queste due domande la statistica cerca di dare una risposta, fornendo strumenti, i test statistici,
per potere prendere delle decisioni in un senso o nell’altro
Partiamo dalla seconda domanda: chi ha ragione fra i due operatori.
Per rispondere bisogna operare in due fasi. La prima riguarda la procedura analitica, la seconda il
trattamento statistico dei dati. Nel caso in cui si osservino delle forti discrepanze fra le medie, come
nell’esempio precedente, è indispensabile ricorrere alla analisi di materiali di riferimento o certificati. Tali
materiali sono commercializzati assieme a un certificato di analisi che certifica il dosaggio dei diversi
componenti che li costituiscono. Se non fosse disponibile tale materiale si può, in subordine, preparare un
campione il più possibile simile alla matrice a partire da composti o miscele di composti puri. In entrambi i
casi il titolo dell’analita sarà noto e il risultato analitico dovrà tendere ad esso.
In generale una serie di misure limitate fornisce un valore medio che si dice essere una stima del valore
vero. Più le misure (indipendenti) aumentano più questa stima si dovrebbe avvicinare al valore vero. Il
valore vero si assume essere quello di standard certificati, oppure, in seconda battuta, quello di un
campione sintetico prodotto in laboratorio.
Abbiamo quindi bisogno di uno strumento, detto test di significatività, per operare il confronto fra il valore
vero e le nostre medie (stime del valore vero).
Vedremo poi che sarà utile anche definire un test per il confronto delle precisioni dei metodi
IL TEST T DI ACCURATEZZA
Per confrontare medie si fa ricorso a test di significatività. Il più semplice è quello che utilizza la tabella t di
Student, ma si presta a confrontare solo coppie di dati. Per confrontare più dati bisogna fare ricorso a test
leggermente più complessi come l’Analisi della Varianza (ANOVA).
Il test t si basa sull’utilizzo della formula che descrive la media e l’intervallo di confidenza.
Consideriamo il caso del confronto di una media sperimentale con un valore noto.
In questo caso la domanda che ci si pone è: Il campione di dimensione n media m e varianza s2, può
considerarsi appartenete alla popolazione di media µ?
Il risultato della misura si esprime in questo modo:
µ = m±t
s
da questa espressione ricavo il valore di t:
n
tcalc = µ − m
n
s
Ora se il valore di tcalc è inferiore al valore di tcrit che ricavo dalle tabelle, è chiaro che il valore m rientra
all’interno dell’intervallo di confidenza definito dal tcrit. Se invece tale valore sarà maggiore ci sarà una
probabilità superiore al livello di confidenza del test, che il valore m esca fuori dall’intervallo e quindi sia
con buona probabilità facente parte di un’altra popolazione di dati.
Una visualizzazione di quello che si è detto può essere fornita da questa immagine:
A.A. 2013-2014
11/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
I valori all’interno dei limiti segnati dal tcrit non è lecito non considerarli facenti parte della popolazione.
Mentre la stessa affermazione non si può fare per quelli che cadono al di là.
Bisogna infatti immaginare che vicino alla distribuzione della popolazione in esame ce ne sono
innumerevoli altre possibili, nella figura che segue è illustrato come i valori della coda di una distribuzione
possano sovrapporsi a quelli di un’altra.
Confronto fra varianze.
Volendo confrontare fra loro le medie di due operatori è per prima cosa necessario valutare la
“omogeneità” delle varianze (omoschedasticità). Come si intuisce anche dall’osservazione della figura
precedente, l’allargamento delle distribuzioni, anche solo di una di essa,può rendere più probabile la
sovrapposizione fra due distribuzioni.
Per confrontare varianze si fa uso del test F che prevede di calcolare un indice Fcalc che poi deve essere
confrontato con tabelle opportune.
F=
s12
s 22
Il rapporto va scritto in modo che il rapporto sia positivo (varianza maggiore al denominatore)
Il test, come si può facilmente intuire, ha interesse anche per valutare la precisione di due diversi metodi o
operatori. Se F calc > Ftab, le precisioni differiscono significativamente e le deviazioni standard devono
essere considerate non omogenee (eteroschedastiche).
L’eteroschedasticità delle varianza ha delle implicazione nelle formule di calcolo del valore di tcrit per i test
fra medie
A.A. 2013-2014
12/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
Confronto fra medie.
Per confrontare le medie provenienti da due serie di misure si deve innanzitutto calcolare un valore di tcalc:
tcalc =
x1 − x2
s n1 + s22 n2 )
2
1
Nel caso di varianze omoschedastiche (non differiscono significativamente) si può sostituire a si2 la
varianza comune:
s
2
(
n1 − 1)s12 + (n2 − 1)s22
=
(n1 + n2 − 2)
n1 e n2 rappresentano il numero di dati delle due serie di misure.
Una volta trovato tcalc lo si confronta con il tcrit ricavato usando questa formula
'
tcrit
=
(
(
) ( )
) ( )
t1 s12 n1 + t 2 s22 n2
s12 n1 + s22 n2
Anche in questo caso, se tcalc > tcrit il test NON è superato
Nel caso di varianze eteroschedastiche è possibile vedere se esiste qualche outlier nelle serie di dati, e
vedere se, rimuovendoli con opportuni test (ad esempio il test di Dixon, Q) si possa incrementare la qualità
dei dati.
Nell’Appendice 4 è riportato uno schema illustrativo semplificato delle modalità di trattamento dei dati in
funzione del numero di misure effettuate
A.A. 2013-2014
13/20
Prof. Sergio Zappoli – Dipartimento di Chimica
imica Industriale, Università degli Studi di Bologna
APPENDICE 1
Derivazione dell’espressione della deviazione standard
Consideriamo tre serie di dati di uguale media e numero di dati e calcoliamo la somma dei quadrati dei
dati
Si osservi che laa somma dei quadrati dei dati cresce con la dispersione dei dati
Una delle proprietà della media è che la sommatoria degli scarti è uguale a zero
∑ (y − y) = 0
∑ ( y − y ) = (8 -13) + (9 - 13) + (10 -13) + (13 - 13) + (16 - 13) + (17 − 13) + (18 -13)
i
i
= −5 − 4 − 3 + 0 + 3 + 4 + 5 = 0
Sviluppiamo il quadrato degli scarti:
∑ ( y − y ) = ∑ (y
2
i
2
i
)
− 2 yi y + y 2 =∑ y 2i − 2 y ∑ yi + ∑ y
2
Consideriamo ora che:
∑y
∑y
= Ny ;
i
2
= Ny 2
Allora, sviluppando l’espressione precedente e sostituendo questi valori si ha:
∑ (y
(
)
− y ) = ∑ y i2 − 2 yi y + y 2 =∑ y 2i − 2 yNy + Ny 2
2
i
= ∑ y 2i − 2 Ny 2 + Ny 2 = ∑ y i2 − Ny 2
che consente di scomporre la somma dei quadrati dei dati in due termini
∑ y = ∑ (y
− y ) + Ny 2
2
2
i
i
Ora, se esplicitiamo l’ultima equazione utilizzando i valori delle misure riportate in tabella si ottiene:
∑ y = (0
∑ y = (3
∑ y = (5
2
2
+ 02 + L + 0 2 + 7 ⋅132 = 0
2
+ 22
2
+ 42
i
2
i
)
+ L + 3 ) + 7 ⋅13
+ L + 5 ) + 7 ⋅13
2
i
+ 1183 = 1183
2
2
= 28 + 1183 = 1211
2
2
= 100 + 1183 = 1283
Si nota che il secondo termine, che dipende direttamente dalla media, rimane costante (1183), mentre il
primo cresce all’aumentare della dispersione dei dati e dipende dalla somma delle differenze fra il valore
medio e ciascuna delle singole misure fatte (scarti
(
della serie di dati).
Tale termine, la sommatoria dei quadrati degli scarti, viene assunta come indicatore della precisione. Per
tenere conto che le misure possono avere un numero variabile di osservazioni, si normalizza tale valore
dividendolo per il numero di misure
isure fatte. L’indice di dispersione così definito è detto varianza e ha
2
simbolo σ :
A.A. 2013-2014
14/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
σ
2
∑ (y
=
− y)
2
i
N
Dato che la misura originaria non è al quadrato, la dispersione associato al dato misurato è espressa con la
radice quadrata della varianza. Tale indice è detto deviazione standard e ha simbolo σ:
σ=
∑ (y
− y) N
2
i
Nel caso di un piccolo numero di osservazioni, al posto di N si utilizza (N-1), ossia i gradi libertà, e il simbolo
usato è s2 per la varianza (stimata) e s per la deviazione standard (stimata)
A.A. 2013-2014
15/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
APPENDICE 2
La propagazione degli errori
Base teorica
La propagazione degli indici di precisione (errore) è necessaria qualora un dato sperimentale sia il risultato
di un calcolo effettuato utilizzando due o più valori derivanti da misure di altre grandezze. Un esempio
tipico della pratica di laboratorio è l’operazione di preparazione di una soluzione a una certa
concentrazione di un sale: massa / PM volume, dove, all’incertezza associata alla concentrazione risultante,
vi sarà il contributo della precisione della pesata e della tolleranza del matraccio in cui preparo la soluzione,
mentre il PM è assunto essere privo di incertezza per lo specifico problema.
I casi più comuni che si incontrano sono la somma o la differenza di grandezze (ad esempio la misura di un
perimetro) e il prodotto o il quoziente, vedi l’esempio precedente.
Caso di una somma o di una differenza
Consideriamo una grandezza G derivante dal seguente calcolo:
&=
+
X e Y sono le medie o le singole misure alle quali è associato un errore probabile o una
tolleranza/precisione.
Ad ogni coppia di misure X1 e Y1 sono associati i rispettivi errori x1 e y1. Di conseguenza possiamo scrivere
& =&+' =
& =&+' =
da cui
+
+
=
=
+( +
+( +
+)
+ ) , ecc.
' =( +)
' = ( + ) ecc
Eq.1
Ora la deviazione standard di una serie di n misure è data da:
ora per l’Eq. 1 si ha:
*+ =
∑ '.
/ '- = / (- + 2 / (- )- + / )-
il prodotto degli errori ha la stessa probabilità di essere positivo o negativo e quindi tenderà a un valore
nullo. Rimane così:
*+ =
∑ (- ∑ )+
=* +*
.
.
Risulta infine l’equazione pratica per misure derivate da somme o differenze:
=
A.A. 2013-2014
+
16/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
Caso di un prodotto o di un quoziente
Consideriamo una grandezza la cui misura derivi da:
&=
∙
Analogamente al procedimento precedente avremo:
& + ' = 0 + ( 10 + ) 1 =
+(
+)
+( )
Il termine x1y1 è trascurabile rispetto agli altri, per cui possiamo scrivere che:
da cui
' =(
/ '- =
+)
/ (- + 2
∑ '∑ (=
+
.
.
da cui infine, dividendo per X2Y2, si ottiene:
*+ =
*+
e quindi:
&
=
*
/ (- )- +
∑ )=
.
=
+
*
/ )+
*
*
+
ovvero l’errore relativo risulta essere la radice quadrata della sommatoria dei quadrati degli errori relativi di
ogni singola misura.
Esempi pratici
Determinazione del titolo di una soluzione incognita tramite titolazione acido-base.
Si suppone di usare la formula:
VxCx = VsCs
Valida se le concentrazioni sono espresse in equivalenti.
Si consideri che nel caso delle titolazioni volumetriche si prescrive di interrompere le misure dopo avere
ottenuto due valori di volume di titolante identici, nei limiti della tolleranza della buretta utilizzata (ad
esempio 20.3 mL e 20.2 mL si possono considerare identici se la buretta ha tolleranza 0.1 mL, ma sarebbe
richiesta un’altra misura se la tolleranza è 0.05 mL).
Esempi.
1. In un esperimento si ottengono due valori uguali di volume di titolante: prova 1, 20.2 mL; prova 2, 20.2
mL. Il volume di campione si preleva con una pipetta di classe A da 25,00 (± 0.03) mL. La soluzione titolante
ha un titolo di 0.0998 (± 0.0002) mol/L
In questo caso la concentrazione della soluzione incognita è:
A.A. 2013-2014
17/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
Cx =
VsCs
= 0.123515
Vx
L’errore relativo si calcola usando i valori medi delle varie grandezze, in questo caso 20.2, 25.00 e 0.0998,
utilizzando la formula:
2
ε rel =
2
2
 eVs 
 eCs 
 eVx 

 +
 +
 = 0.005474 Eq1
 Vx 
 Vs 
 Cs 
Da cui si ottiene l’errore assoluto 0.000676106.
ε = ε relCx = 0.005474... × 0.123515... = 0.000676...
Per cui il dato da fornire è:
Cx = 0.1235 ± 0.0007
2. Supponiamo di avere condotto tre titolazioni che hanno portato a tre valori di volume che NON rientrano
nell’intervallo di tolleranza (nota che questo è un caso che non si dovrebbe verificare se l’operatore ha
sufficiente esperienza e le condizioni di lavoro sono adeguate.)
Ad esempio, nelle titolazioni successive di tre aliquote di 25,00 (± 0.03) mL con HCL 0.0998 (± 0.0002) mol/L
si sono ottenuti i seguenti valori di volume: 20.1, 20.3, 20.0.
In questo caso la cosa più corretta è calcolare il valore medio dei volumi 20.13333 e la deviazione standard
stimata della misura, che risulta s = 0.152752. Questa stima dell’errore va inserito nell’Eq. 1 per calcolare
l’errore relativo che in questo caso risulta essere:
2
ε rel =
2
2
 0.03 
 0.0002 
 0.15 
 25  +  0.0998  +  20.1  = 0.007938






Che porta a un errore assoluto pari a 0.0009838.
Per cui il dato da fornire è:
Cx = 0.124 ± 0.001
A.A. 2013-2014
18/20
Prof. Sergio Zappoli – Dipartimento di Chimica Industriale, Università degli Studi di Bologna
APPENDICE 3
Tavola di valori tdi Student
A.A. 2013-2014
19/20
Prof. Sergio Zappoli – Dipartimento di Chimica
imica Industriale, Università degli Studi di Bologna
APPENDICE 4
Schema illustrativo semplificato delle modalità di trattamento dei dati in
funzione del numero di misure effettuate
A.A. 2013-2014
20/20