TRATTAMENTO STATISTICO DEI DATI ANALITICI Cos’è la statistica e perché parliamo di statistica in un corso di chimica? La statistica è un ramo della matematica che fornisce uno strumento per la descrizione, attraverso la formulazione di modelli, di fenomeni affetti da errore casuale. La statistica è fondamentale nella trattazione dei dati sperimentali. Statistica descrittiva: alcune definizioni Osservazione: esito di una misura. È un dato numerico! Popolazione: insieme di tutte le possibili osservazioni che si possono effettuare della grandezza in questione (teoricamente infinito!!!) Campione: sottoinsieme della popolazione; insieme limitato di osservazioni Valore atteso o valore vero (μ): risultato ottenuto effettuando infinite osservazioni in perfette condizioni senza effettuare errore. È il parametro che voglio stimare!! TIPI DI ERRORE Errore sistematico: errore che può essere riconosciuto e la cui incidenza può teoricamente essere valutata es: sensibilità dello” strumento” occhio umano nell’individuare la variazione del colore nel punto di viraggio Errore casuale: errore che sfugge ad ogni possibilità di previsione e controllo es: quantità di vapor d’acqua assorbita durante la manipolazione e la pesata per una singola misura Errore assoluto xi - μ valore ottenuto – valore vero Errore relativo (xi – μ) μ valore ottenuto – valore vero valore vero Errore relativo percentuale valore ottenuto – valore vero valore vero X 100 (xi – μ) X 100 μ Accuratezza: Grado di accordo tra il valore ottenuto nella misura effettuata e il valore vero Precisione: Grado di accordo tra il valore ottenuto e il valore medio della serie dei dati a) Misure precise ma non accurate x m x1 x2 x3 x4 x2 x3 b) Misure né accurate né precise m c) Misure accurate e precise x1 x2 m x3 x4 x1 x4 SCELTA DEL VALORE CENTRALE DI UNA SERIE DI DATI Media aritmetica: Totale delle osservazioni diviso per il numero delle osservazioni Moda: Osservazione che si verifica con maggior frequenza Mediana: Osservazione tale per cui il 50% delle osservazioni è maggiore e il 50% delle osservazioni è minore di essa !! N.B: in pratica la media aritmetica è la più utilizzata Come esprimo la dispersione dei dati? Range: differenza tra valore massimo e valore minimo Varianza ( xi x) 2 2 S 1 i (n 1) n Deviazione Standard ( xi x) 2 1 i (n 1) S n TEST Q PER VALORI ANOMALI Q = distanza / intervallo Distanza : differenza fra il punto in discussione e il punto più vicino Intervallo = differenza fra il valore max e il valore minimo Da scartare se Qoss > Qtab Istogrammi • • • • È un diagramma a colonne È un utile strumento per visualizzare la distribuzione Occorre suddividere il campione in classi (10-20) L’altezza della colonna rappresenta il numero di osservazioni relativi alla classe (frequenza di occorrenza fi) • Si definisce frequenza relativa: e di conseguenza fi ntot fi n 1 tot Dagli Istogrammi alle curve di distribuzione di probabilità Quanto più è numeroso il campione, tanto più l’istogramma delle frequenze assume un andamento “a campana” caratteristico delle curve di densità di probabilità. Grafico Curve di distribuzione di probabilità Utile strumento per: 1) Interpretare le misure sperimentali 2) Calcolare la probabilità di eventi futuri Noi studieremo: • La distribuzione normale o gaussiana • La distribuzione del t di Student La distribuzione normale o gaussiana È la capostipite di tutte le curve di distribuzione di probabilità ed è caratterizzata da 2 parametri m valore atteso : corrisponde al valore centrale deviazione standard: fornisce la posizione (m ) dei punti di flesso Grafico • Per una distribuzione gaussiana ideale circa 2/3 delle misurazioni è compresa nell’intervallo m • Posso anche dire che 1 misura su 20 giacerà fuori dell’intervallo x 2s La distribuzione del t di Student Nella realtà molto spesso non si conosce la deviazione standard della popolazione ma si può calcolare la deviazione standard del campione S In questo caso si usa una nuova distribuzione X m S/ n Va bene anche per n<30 t m= x t ∙ s/√n questo è l’INTERVALLO DI FIDUCIA: cioè posso stimare con un certo grado di probabilità che il valore vero giaccia in un intervallo attorno alla media. Relazione lineare fra due variabili Tra due variabili vi è un legame quando: y = f (x) Quindi studio : CORRELAZIONE: grado di associazione fra due variabili REGRESSIONE : quale relazione esiste tra le due variabili CORRELAZIONE Quando due variabili riportate su un grafico mostrano un certo legame si può quantificarne l’intensità : Coefficiente di correlazione r = s2xy/ √ s2x s2y -1 <r < +1 Esempio di correlazione REGRESSIONE IL METODO DEI MINIMI QUADRATI y = mx +b Con questo metodo si vogliono minimizzare i quadrati delle deviazioni delle y cioè: di2=(y-yi)2=(y-mxi-b)2 Attraverso questi calcoli si determinano i valori di m e di b della retta che meglio si avvicina ai punti sperimentali Grafico dei minimi quadrati Esempio di curva di calibrazione assorbanza retta di taratura y = 0,6154x + 1,3462 R2 = 0,9846 6 4 2 0 0 2 4 conc 6 8 Coefficiente di determinazione Come faccio a verificare se il modello è valido? Si calcola il coefficiente di determinazione R2 0 < R2< 1 Corrisponde al quadrato di r