Diapositiva 1 - Docenti.unina

annuncio pubblicitario
Qualità dei dati
Fabio Murena
Operazioni di campionamento
CAMPIONAMENTO Tutte le operazioni effettuate per
ottenere informazioni sul sito /area da monitorare (a parte
quelle di analisi)
CAMPIONAMENTO può essere spaziale o temporale
CAMPIONAMENTO può fornire data set UNIVARIATO o
MULTIVARIATO (una misura per campione o più misure
per campione)
DEFINIZIONE DI POPOLAZIONE E SAMPLE
TERRENO
n
CAMPIONI
DATI
POPOLAZIO
NE
SAMPLE
(campione)
SET di
DATI
OBIETTIVO: Dal set di dati vogliamo informazioni certe sulla popolazione
PROBLEMI:
1) La dimensione del sample è sempre inferiore alla popolazione
2) I dati ottenuti sono affetti da errori o margini di incertezza NON
ELIMINABILI
Il risultato di un’analisi chimica è
un’informazione costituita da:
• valore numerico
• unità di misura
• incertezza
…. T,P e tempo di mediazione per analisi gas
Variabili aleatorie
PROBLEMA:
• da un campione otteniamo n dati analitici diversi tra loro qual’è quello vero?
• che relazione c’è tra i valori misurati e quello vero?
Le misure che facciamo sono VARIABILI ALEATORIE caratterizzate da:
• INTERVALLO DI VARIAZIONE
• DISTRIBUZIONE DI PROBABILITA’
Noi possiamo solo:
• stimare il valore “vero” di queste variabili
• stimare la probabilità che il valore vero sia all’interno di un certo intervallo
• descrivere in modo statistico il data-set
• verificare delle ipotesi
PARAMETRI STATISTICI
n
MEDIA
MEDIANA (50° percentile)
 xi
x  i 1
n
Valore centrale di una serie di n numeri ordinata
in modo crescente o decrescente
Se n è pari bisogna definire il criterio di
valutazione (valore medio, inferiore o maggiore)
PERCENTILE
Il calcolo dell‘n.esimo percentile deve essere effettuato a partire
dai valori effettivamente misurati.
Tutti i valori saranno riportati in un elenco in ordine crescente:
X1 < o = X2 < o = X3 < o =.. < o =Xk < o =.. < o = XN-1 < o = XN
L'n.esimo percentile è il valore dell'elemento di rango k, per il
quale k viene calcolato per mezzo della formula seguente:
k = (q * N)
q = n/100
N = numero dei valori effettivamente misurati.
Il valore di (q * N) viene arrotondato al numero intero più vicino.
PARAMETRI STATISTICI
DEVIAZIONE
STANDARD
La deviazione standard (scarto quadratico
medio o scarto tipo) è un indice di dispersione
statistico, vale a dire una stima della variabilità di
una popolazione di dati o di una variabile casuale
intorno ad un valore di riferimento (valore medio)
 x
n

VARIANZA
i
i 1
x

2
n 1
una misura della variabilità dei valori assunti dalla
variabile, nello specifico, di quanto essi si
discostino quadraticamente da un valore di
riferimento (media aritmetica o valore atteso)
2
CENNI DI TEORIA DEGLI ERRORI
DEFINIZIONE DI ERRORE : L’errore è lo scostamento tra la
misura ed il valore vero
ERRORE = MISURA - VALORE VERO
  X 
CLASSIFICAZIONE ERRORI
 grossolani (da non fare!)
 sistematici
 casuali
La teoria statistica degli errori si occupa solo degli errori sistematici e casuali
ERRORI SISTEMATICI ()
Rappresentano una tendenza deterministica a
SOVRASTIMARE o SOTTOSTIMARE il valore vero 
   
 è la media delle misure
 è il valore vero
Gli errori sistematici hanno cause ben precise che
possono anche essere individuate e rimosse (strumento
non calibrato, insufficiente purezza dei reagenti
utilizzati ...).
Quindi possono essere eliminati o almeno compensati
o quantificati.
ERRORI CASUALI ()
L’errore casuale è’ dato dalla somma di tutte le
IMPREVEDIBILI variazioni nella esecuzione delle
varie operazioni analitiche che determinano un
certo scostamento della misura dal valore medio
delle misure stesse
  X 
X è la singola misura
 è la media delle misure
La loro presenza è messa in evidenza dal fatto
che, se per uno stesso campione si ripete più volte
e con lo stesso metodo la misura di un certo
elemento, si ottengono in genere risultati diversi
ERRORE TOTALE
E’ dato dalla somma degli errori sistematici e casuali
Totale
=
Sistematico
+
Casuale
X 
=
 
+
X 

=

+

X è la singola misura
 è il valore vero
 è la media delle misure
Esattezza (Accuratezza) e Ripetibilità (Precisione)
ESATTEZZA (ACCURATEZZA) = scostamento del valore
medio delle misure dal valore esatto (dipende dalla media
quindi dall’ errore sistematico)
RIPETIBILITA’ (PRECISIONE) = scostamento dei dati dal
valore medio (dipende dalla deviazione standard quindi dagli
errori casuali)
Esempio Bersaglio
ESATTEZZA o ACCURATEZZA
Misura accurata e
precisa
Misura né accurata
né precisa
PRECISIONE o RIPETIBILITA’
Sistematico e
casuale
No sistematico
Si casuale
Sistematico
No casuale
No sistematico
No casuale
INCERTEZZA
l'incertezza di misura è la stima dell'escursione dei valori entro cui si suppone che
cada il valore vero (del misurando); ha le dimensioni di uno scarto quadratico medio
La definizione formale dell’incertezza è: “parametro, associato al risultato di una
misurazione, che caratterizza la dispersione dei valori ragionevolmente attribuibili al
misurando”.
Pertanto, mentre l’errore è un singolo valore, l’incertezza rappresenta un intervallo di
valori che, ad un certo livello di fiducia stabilito, possono essere attribuiti al
misurando.
La variabilità delle misure viene espressa attraverso la deviazione standard come
C  C 
La incertezza viene espressa in termini relativi come
 C
oppure in termini percentuali
Espressione dei dati
Si riportano le cifre significative note fino alla prima cifra incerta
indicando l’intervallo di incertezza.
ESEMPI:
Bilancia digitale con precisione di ± 0.1 mg
Misura: 4.0057 ± 0.0001 g
Bilancia digitale con precisione di ± 0.02 g
Misura 4.00 ± 0.02 g
Potenziometro digitale con precisione di ± 1mV
Misura 434 ± 1 mV
MODELLI DI VARIABILI ALEATORIE
Utilizzati per interpretare
fenomeni
Statistica descrittiva
Gaussiana
Utilizzati per effettuare
inferenze ottenere
informazioni su nature e/o
valori dei parametri delle
v.a.
Chi-quadrato
t-Student
Fisher
PROBABILITA’ E FUNZIONI DI DISTRIBUZIONE DI PROBABILITA’
Data una v.a. X si definisce la funzione distribuzione cumulata (Cdf) F(x) che
rappresenta la probabilità che la v.a. assuma un valore inferiore a x
F ( x)  PrX  x
Risulta
PrX  x  1  F ( x)
e
Prx1  X  x2   F ( x2 )  F ( x1)
Se la v.a. è continua per esprimere la probabilità che la v.a. assuma valori
prossimi ad un determinato x si definisce la funzione densità di probabilità (pdf)
F ( x  x)  F ( x) dF ( x)
f ( x)  lim

x
dx
x 0
PROBABILITA’ E FUNZIONI DI DISTRIBUZIONE DI PROBABILITA’
Dalle definizioni precedenti risulta:
PrX  x1  F ( X1)   f ( x)dx
x  x1
x2
Prx1  X  x2   F ( X 2 )  F ( X1)   f ( x)dx
x1

 f ( x)dx  1

Distribuzione normale o Gaussiana
E’ il modello di v.a. più adoperato. Può essere definita come:
modello interpretativo degli errori o scostamenti da un valore medio
Introducendo la v.a. Gaussiana standard (o ridotta)
U
z

che esprime gli errori di misura come multipli della loro ampiezza  e
ipotizzando che:
• sia nulla la media degli errori
• la pdf degli errori sia simmetrica e tenda a zero per +/- infinito
• la pdf abbia un unico massimo in corrispondenza del valore nullo di U
si ottiene la pdf:
1
 1 2
f (U ) 
exp   U 
2
 2

che rispetto alla v.a. z diventa
 1  z   2 
1
f ( z) 
exp  
 
 2
 2    
In caso di elaborazioni di valori discreti si può utilizzare la espressione:
2

n i
1 z  
Y
exp  
 
 2
 2    
Dove Y è il n° di osservazioni o valori all’interno di un certo intervallo di
ampiezza i ed n è il n° totale di osservazioni
Distribuzione gaussiana
 1  z   2 
1
f ( z) 
exp  
 
 2
 2    
Coda destra
f ( x) 
gaussiana standard
1
 1 
exp   x 2 
2
 2 
x
z

In tabella sono riportati i
valori di probabilità (a
che f(x)>x in
corrispondenza di x
L’area sottesa tra
–x e x è pari a 1-2a
z= area tra –1 e +1 =0.68
z=2 area tra –2 e +2 =0.95
z=3 area tra –3 e +3 =0.997
Modello di v.a. Log-normale
Se la pdf non può che essere asimmetrica (ad esempio una
variabile che assume solo valori positivi) cade una delle ipotesi
della gaussiana.
Si definisce una distribuzione Log-normale:
una v.a. Y tale che il suo logaritmo è una v.a. Normale z di
parametri  e 
ln Y  z (  , )
La sua p.d.f. è
2

1
1  ln( y)   
f y 
exp  
 

 y 2
 
 2 
Modello di v.a. Log-normale
DATA set x
si trasforma in ln x
si calcola  e 
della v.a. ln(x)
x   e
e

x
x g g e
g
Media e deviazione standard della v.a. x
Il 68.3 % dei dati è compreso tra x g
 g  X  xg  g
2
2


x

X


x
g
g
g
Il 95.5% dei dati è compreso tra g
Esercizio par. 10.8 distribuzione Log-normale
Concentrazione
16
Abbiamo la seguente
distribuzione della
concentrazione di un
campione (curva a
istogramma) molto
asimmetrica.
Se proviamo a modellarla
assumendo una
distribuzione normale
otteniamo la curva in blu
12
10
8
6
4
2
C  18
72
.5
62
.5
52
.5
42
.5
32
.5
22
.5
12
.5
0
2.
5
N° di osservazioni
14
Esercizio par. 10.8 distribuzione Log-normale
Se facciamo il lnC otteniamo una
distribuzione più vicina a una normale
Concentrazione
16
14
ln Concentrazione
12
10
12
6
N° di osservazioni
8
10
4
2
8
6
72
.5
62
.5
4
2
X  ln( C )
4.
35
3.
75
3.
15
2.
55
1.
95
1.
35
0.
75
0
0.
15
52
.5
42
.5
32
.5
22
.5
12
.5
2.
5
0
Distribuzione della v.a.
X=ln (C)
ln Concentrazione
Con il modello gaussiano
applicato alla variabile
X = ln(C)
12
10
Si ottengono i valori media e
deviazione standard
8
6
Da cui si ha
4
xln C   2.44  ln C   0.89
2
4.
35
3.
75
3.
15
2.
55
1.
95
1.
35
0.
75
0.
15
0
Esercizio par. 10.8 distribuzione Log-normale
Concentrazione
La pdf utilizzando il modello di variabile aleatoria
lognormale è riportata in figura (curva rossa)
Come si osserva il fitting è migliore
di quello ottenuto assumendo
come modello una distribuzione normale (curva blu)
16
14
12
10
I parametri sono:
xg = 11.46 g = 2.43
il 68.3% dei dati si trova tra 4.72 e 27.83
8
6
4
2
72
.5
62
.5
52
.5
42
.5
32
.5
22
.5
12
.5
2.
5
0
INTERVALLO DI CONFIDENZA (IC o LC)
E’ un intervallo di valori all’interno del quale il valore reale si trova con
una certa probabilità a questo scopo si usano diversi modelli di variabili
aleatorie
Per calcolare IC di
Si usa
Media
t-Student
Varianza
Chi-quadrato
Rapporto di varianze
Fisher
IC della media
t
IC  x 
n
dove:
t = variabile t-Student
x
= valore medio stimato
 = deviazione standard stimata
n = gradi di libertà (numero di valori - 1)
Il valore del parametro statistico t si ricava da tabelle in funzione di n
e dell’intervallo desiderato (ad es. 95% o 90% etc.).
Al crescere del numero di valori (n-1) l’ampiezza dell’intervallo
diminuisce, sia perchè cresce il denominatore sia perchè diminuisce il
valore di t
Esempio: Calcolare l’intervallo di confidenza (95%)per una serie di analisi di
BOD di un campione di acqua
DATI:
Numero di misure 11
C media = 16 mg/L
 = 8 mg/L
CALCOLI:
Numero gradi di libertà = 11-1 = 10
t student = 2.228
ts
2.228  8
IC  x 
 16 
 16  5.6 mg / L
n
10
BOD  16  6 mg / L
INCERTEZZA  37.5%
N.B. con 80 misure assumendo che la deviazione standard non cambi
ts
1.99  8
IC  x 
 16 
 1,8 mg / L
n
79
BOD  16  2 mg / L
INCERTEZZA  12.5%
IC per una variabile Log-normale
Per una v.a. Log- normale l’intervallo di
confidenza si calcola come

IC  x g g

t
n
IC del rapporto di varianze
Si utilizza la distribuzione di Fisher F:
 12
F  2 1   2
2
Definito l’IC si legge dalla tabella in funzione dei gradi di libertà con cui sono
state calcolate le 2 varianze il valore del loro rapporto F.
TEST DELLE IPOTESI
In statistica i test verificano in termini probabilistici la validità di una ipotesi
detta ipotesi nulla (o ipotesi zero indicata con H0) se l’ipotesi viene rifiutata
si accetta l’ipotesi alternativa (H1)
I problemi che si intendono risolvere sono del tipo:
•
•
se la differenza che si registra tra la media calcolata ed il valore “vero” è
significativa o meno.
se la differenza che si registra tra due valori medi è significativa o meno.
Con metodi statistici si verifica se l’ipotesi è:
•
•
non respinta (accettabile)
oppure
respinta
Confronto tra media e valore reale
Si intende verificare se la differenza tra valore medio e valore reale è
significativa o meno.
Si valuta
t
x  
n
•La differenza è significativa
se:
t
x  
n
•La differenza non è
significativa se:
t
x  
n
Confronto tra due medie
• verifica del risultato di due diverse metodiche di analisi sullo stesso
campione
• verifica di due diversi set di dati (dati di due stazioni di monitoraggio
relative allo stesso inquinante)
Si vuole verificare se la differenza dei due valori medi è statisticamente
significativa (ipotesi nulla) o meno (ipotesi alternativa).
Si valuta
x1  x 2  
La differenza è significativa se:
(altrimenti non è significativa)
t
n1n2
n1  n2
x1  x 2  
t
n1n2
n1  n2
Scarica