TRATTAMENTO
STATISTICO
DEI DATI ANALITICI
Cos’è la statistica e
perché parliamo di statistica in un corso di chimica?
La statistica è un ramo della matematica che fornisce uno strumento
per la descrizione, attraverso la formulazione di modelli, di fenomeni
affetti da errore casuale.
La statistica è fondamentale nella trattazione dei dati sperimentali.
Statistica descrittiva: alcune definizioni
Osservazione:
esito di una misura. È un dato numerico!
Popolazione:
insieme di tutte le possibili osservazioni che si possono effettuare
della grandezza in questione (teoricamente infinito!!!)
Campione:
sottoinsieme della popolazione; insieme limitato di osservazioni
Valore atteso o valore vero (μ):
risultato ottenuto effettuando infinite osservazioni in perfette
condizioni senza effettuare errore. È il parametro che voglio stimare!!
TIPI DI ERRORE
Errore sistematico: errore che può essere riconosciuto
e la cui incidenza può teoricamente
essere valutata
es: sensibilità dello” strumento” occhio umano
nell’individuare la variazione del colore nel
punto di viraggio
Errore casuale: errore che sfugge ad ogni possibilità
di previsione e controllo
es: quantità di vapor d’acqua assorbita durante la
manipolazione e la pesata
per una singola misura
Errore assoluto
xi - μ
valore ottenuto – valore vero
Errore relativo
(xi – μ)
μ
valore ottenuto – valore vero
valore vero
Errore relativo percentuale
valore ottenuto – valore vero
valore vero
X 100
(xi – μ) X 100
μ
Accuratezza:
Grado di accordo tra il valore ottenuto nella
misura effettuata e il valore vero
Precisione:
Grado di accordo tra il valore ottenuto e il valore
medio della serie dei dati
a) Misure precise ma non accurate
x
m
x1 x2
x3 x4
x2
x3
b) Misure né accurate né precise
m
c) Misure accurate e precise
x1 x2 m x3 x4
x1
x4
SCELTA DEL VALORE CENTRALE DI UNA SERIE DI DATI
Media aritmetica:
Totale delle osservazioni diviso per il numero delle osservazioni
Moda:
Osservazione che si verifica con maggior frequenza
Mediana:
Osservazione tale per cui il 50% delle osservazioni è maggiore
e il 50% delle osservazioni è minore di essa
!! N.B: in pratica la media aritmetica è la più utilizzata
Come esprimo la dispersione dei dati?
Range: differenza tra valore massimo e valore minimo
Varianza
( xi  x) 2
2

S
1 i (n  1)
n
Deviazione Standard
( xi  x) 2
1 i (n  1)  S
n
TEST Q PER VALORI ANOMALI
Q = distanza / intervallo
Distanza : differenza fra il punto in discussione e il
punto più vicino
Intervallo = differenza fra il valore max e il valore
minimo
Da scartare se
Qoss > Qtab
Istogrammi
•
•
•
•
È un diagramma a colonne
È un utile strumento per visualizzare la distribuzione
Occorre suddividere il campione in classi (10-20)
L’altezza della colonna rappresenta il numero di
osservazioni relativi alla classe (frequenza di occorrenza fi)
• Si definisce frequenza relativa:
e di conseguenza
fi
ntot
fi
 n 1
tot
Dagli Istogrammi alle curve di distribuzione di probabilità
Quanto più è numeroso il campione, tanto più l’istogramma
delle frequenze assume un andamento “a campana”
caratteristico delle curve di densità di probabilità.
Grafico
Curve di distribuzione di probabilità
Utile strumento per:
1) Interpretare le misure sperimentali
2) Calcolare la probabilità di eventi futuri
Noi studieremo:
• La distribuzione normale o gaussiana
• La distribuzione del t di Student
La distribuzione normale o gaussiana
È la capostipite di tutte le curve di distribuzione di probabilità ed
è caratterizzata da 2 parametri
m valore atteso : corrisponde al valore centrale
 deviazione standard: fornisce la posizione (m  )
dei punti di flesso
Grafico
• Per una distribuzione gaussiana ideale circa 2/3
delle misurazioni è compresa nell’intervallo m  
• Posso anche dire che 1 misura su 20 giacerà fuori
dell’intervallo x  2s
La distribuzione del t di Student
Nella realtà molto spesso non si conosce la deviazione standard 
della popolazione ma si può calcolare la deviazione standard del
campione S
In questo caso si usa una nuova distribuzione
X m
S/ n
Va bene anche per n<30
t
m= x  t ∙ s/√n
questo è l’INTERVALLO DI FIDUCIA: cioè posso
stimare con un certo grado di probabilità che il
valore vero giaccia in un intervallo attorno alla
media.
Relazione lineare fra due variabili
Tra due variabili vi è un legame quando:
y = f (x)
Quindi studio :
CORRELAZIONE: grado di associazione fra due variabili
REGRESSIONE : quale relazione esiste tra le due
variabili
CORRELAZIONE
Quando due variabili riportate su un grafico
mostrano un certo legame si può quantificarne
l’intensità :
Coefficiente di correlazione
r = s2xy/ √ s2x s2y
-1 <r < +1
Esempio di correlazione
REGRESSIONE
IL METODO DEI MINIMI QUADRATI
y = mx +b
Con questo metodo si vogliono minimizzare i quadrati delle
deviazioni delle y cioè:
di2=(y-yi)2=(y-mxi-b)2
Attraverso questi calcoli si determinano i valori di m e di b
della retta che meglio si avvicina ai punti sperimentali
Grafico dei minimi quadrati
Esempio di curva di calibrazione
assorbanza
retta di taratura
y = 0,6154x + 1,3462
R2 = 0,9846
6
4
2
0
0
2
4
conc
6
8
Coefficiente di determinazione
Come faccio a verificare se il modello è
valido?
Si calcola il coefficiente di determinazione R2
0 < R2< 1
Corrisponde al quadrato di r