Modello per la redazione dell'esercitazione di laboratorio
Facoltà di Medicina Veterinaria, Università di Padova
Corso di Laurea in
Sicurezza igienico-sanitaria degli alimenti
Metodologie statistiche per l’analisi del rischio
Esercitazione di laboratorio
Statistica descrittiva 1
Data:
Gruppo:
Datasheet:
Dr. ing. Manuel Monti
[email protected]
Esercitazione di laboratorio - Statistica descrittiva 1
INDICE
1. Descrizione dell'esperimento ..........................................................................................................3
2. Analisi statistiche .............................................................................................................................4
2.1
Rappresentazione grafica mediante dotplot ...................................................................4
2.2
Istogramma di frequenza e di frequenza cumulata ........................................................5
2.3
Indici statistici di posizione e di variabilità ......................................................................7
2.4
Boxplot .............................................................................................................................7
2.5
Probability plot ................................................................................................................8
3. Considerazioni conclusive ..............................................................................................................10
2
Esercitazione di laboratorio - Statistica descrittiva 1
1. Descrizione dell'esperimento
Una pipetta graduata viene utilizzata per prelevare 1 ml di acqua distillata. Il contenuto di liquido
prelevato viene successivamente pesato. L'esperimento viene replicato 50 volte. Scopo
dell'esperimento è valutare la variabilità nell'erogazione del liquido.
I dati ricavati dalla sperimentazione sono riportati nella Tabella 1.
Esperim_N Peso
1
0.948
2
1.012
3
1.085
4
1.063
5
1.01
6
1
7
0.994
8
0.986
9
0.995
10
0.999
11
0.969
12
0.965
13
0.945
14
0.977
15
0.957
16
0.946
17
0.96
18
0.955
19
1.01
20
0.965
21
0.975
22
0.972
23
0.957
24
0.961
25
0.975
26
0.988
27
0.989
28
0.974
29
0.98
30
0.98
31
1.001
32
0.977
33
1.021
34
1.051
35
0.965
36
0.963
37
0.971
38
0.983
39
0.962
40
0.984
41
0.978
42
0.968
43
0.96
44
1.027
3
Esercitazione di laboratorio - Statistica descrittiva 1
45
46
47
48
49
50
0.959
0.985
0.985
0.967
0.96
0.992
Tabella 1: Dati sperimentali
2. Analisi statistiche
Le analisi statistiche condotte sui dati sperimentali sono:






Rappresentazione grafica mediante dotplot
Istogramma di frequenza e di frequenza cumulata
Calcolo di indici statistici di posizione (mediana, quartili, media) e di variabilità
Boxplot modificato
Probability plot
Sommario grafico delle analisi statistiche condotte
2.1 Rappresentazione grafica mediante dotplot
Per creare il dotplot, cliccare su graph ---> Dotplot.
Nella finestra di dialogo selezionare One Y - Simple
La Figura 1 riporta il Dotplot del peso dell'acqua erogata dalla pipetta.
E' possibile osservare che la maggior parte dei dati tende ad "addensarsi" attorno ad un valore
centrale (che però è minore di 1 ml).
Il valore massimo di peso è pari a 1.085 ml
Il valore minimo di peso è pari a 0.945 ml
I dati cadono quindi in un range di 0.14 ml.
Dotplot of Peso [ml]
0.96
0.98
1.00
1.02
Peso [ml]
1.04
1.06
1.08
Figura 1: Dotplot del peso dell'acqua erogata dalla pipetta
4
Esercitazione di laboratorio - Statistica descrittiva 1
Ricordarsi di utilizzare il comando brush (Editor ---> Brush), per conoscere valori di dati
presenti in un grafico
2.2 Istogramma di frequenza e di frequenza cumulata
L'istogramma di frequenza può essere generato da riga di comando.
Prima occorre abilitare i comandi (Editor ---> Enable commands).
Quindi digitare Histogram 'nome della variabile', seguito da invio:
MTB > Histogram 'Peso [ml]'
Per creare un grafico di frequenza cumulata, utilizzare la sintassi che segue:
MTB > Histogram 'Peso [ml]';
SUBC> cumulative;
SUBC> area.
In questo caso è necessario far seguire tutti i comandi (tranne l'ultimo) dal punto e virgola.
L'ultimo comando finisce con il punto.
Per approfondire la descrizione della distribuzione dei dati, partendo dal valore minimo di 0.945,
l'intervallo di osservazione dei dati (di ampiezza 0.14 ml) viene diviso in 15 intervalli di uguale
ampiezza. L'istogramma di frequenza per la variabile Peso è riportato in Figura 2. Dalla figura è
possibile notare che la frequenza maggiore (10) si ha per intervallo di peso compreso tra 0.955 e
0.965 ml.
Histogram of Peso [ml]
10
Frequency
8
6
4
2
0
0.96
0.98
1.00
1.02
Peso
1.04
1.06
1.08
Figura 2: Istogramma di frequenza per la variabile Peso.
5
Esercitazione di laboratorio - Statistica descrittiva 1
Posizionando il mouse sopra le barre è possibile ottenere informazioni sui dati (frequenza
e intervallo)
Sommando via via le frequenze in maniera cumulata rispetto agli intervalli, si ottiene la cosiddetta
frequenza cumulata, che dice quante osservazioni cadono fino ad una certa soglia. Questo grafico
è riportato in Figura 3.
Histogram of Peso [ml]
100
Cumulative Percent
80
60
40
20
0
0.96
0.98
1.02
Peso
1.00
1.04
1.06
1.08
Figura 3: Istogramma di frequenza cumulata per la variabile Peso.
Dal grafico è possibile osservare che il peso è inferiore a 1 ml per circa l'80% delle osservazioni.
Per default minitab nella scala Y riporta la frequenza cumulata. Per avere in Y la
percentuale, occorre cliccare col tasto destro sulla scala Y, selezionare Edit Y scale e nella
finestra di dialogo, alla voce Type, selezionare Percent
Minitab suddivide in maniera automatica la scala X. Per suddividerla in un numero
diverso di intervalli occorre cliccare col tasto destro sulla scala X, selezionare Edit X scale, alla
voce Binning, selezionare number of intervals e digitare il numero di intervalli desiderato.
6
Esercitazione di laboratorio - Statistica descrittiva 1
2.3 Indici statistici di posizione e di variabilità
Indici di posizione e variabilità sono calcolati da minitab anche mediante istruzione da
riga di comando. I risultati dell'analisi sono visualizzati nella session window
Prima occorre abilitare i comandi (Editor ---> Enable commands).
Quindi digitare Describe 'nome della variabile', seguito da invio:
MTB > Describe 'Peso [ml]'
Gli indici statistici di posizione e di variabilità sono riassunti nella Tabella 2
Minimo 0.94500
Massimo 1.08500
Mediana 0.97700
Q1 0.96275
Q3 0.99425
IQR 0.03150
Media 0.98302
Deviazione standard 0.02868
Tabella 2: Indici statistici di posizione e di variabilità (dati espressi in ml).
2.4 Boxplot
Per generare il Boxplot occorre cliccare su Graph ---> Boxplot e nella finestra di dialogo,
selezionare One Y e Simple. Nella successiva finestra di dialogo selezionare la variabile e cliccare
quindi su OK.
Il Boxplot modificato fornisce la rappresentazione grafica dei 5 numeri di sintesi: Min*, Q1,
Mediana, Q3 e Max*. I valori che oltrepassano le soglie Max* sono indicati con un asterisco. Essi
possono essere cosiderati come dati anomali (outlier) nel campione di dati. Per costruzione,
all'interno del box è contenuto il 50 % dei dati osservati. Il Boxplot dei dati relativi al peso
dell'acqua erogata dalla pipetta è riportato in Figura 4. Nel boxplot sono evidenziati 3 outlier. La
forma del box indica che la maggior parte delle pipette contiene una quantità di liquido inferiore
rispetto al valore nominale di 1 [ml].
7
Esercitazione di laboratorio - Statistica descrittiva 1
Boxplot of Peso [ml]
0.950
0.975
1.000
1.025
Peso [ml]
1.050
1.075
1.100
Figura 4: Boxplot del peso dell'acqua erogata dalla pipetta.
2.5 Probability plot
Un probability plot è un grafico a due dimensioni in cui le osservazioni sono riportate sull'asse
verticale e a ciascuna di esse viene fatto corrispondere sull'asse orizzontale il relativo quantile di
una distribuzione di probabilità (normale, log-normale, ecc.).
Per creare una probability plot cliccare su Graph ---> Probability plot e quindi nella
finestra di dialogo selezionare la variabile e quindi la distribuzione cui confrontare i dati.
Le probability plot della variabile peso per la distribuzione log-normale e normale sono mostrate
rispettivamente in Figura 5a e 5b.
Probability Plot of Peso [ml]
Probability Plot of Peso [ml]
Lognormal - 95% CI
Normal - 95% CI
99
Loc
Scale
N
AD
P-Value
95
90
80
80
70
70
60
50
40
30
30
20
10
10
5
5
0.90
0.95
1.00
Peso [ml]
1.05
1
1.10
0.9830
0.02868
50
1.768
<0.005
60
50
40
20
1
Mean
StDev
N
AD
P-Value
95
Percent
Percent
90
99
-0.01753
0.02857
50
1.592
<0.005
0.90
0.95
1.00
Peso [ml]
1.05
1.10
(a)
(b)
Figura 5: Normal probability plot per distribuzione Log-normale (a) e normale (b).
Per valutare se i dati osservati si distribuiscono approssimativamente secondo la legge di
distribuzione di probabilità scelta occorre valutare i risultati del test di Anderson-Darling (AD nel
grafico) e il relativo p-value. In generale è possibile affermare che valori bassi della statistica
8
Esercitazione di laboratorio - Statistica descrittiva 1
Anderson-Darling e p-value non significativo indicano che la distribuzione ipotizzata si adatta bene
ai dati. In questo caso i p-value significativi (< 0.005) indicano che nessuna delle due distribuzioni
si adatta ai dati sperimentali.
2.6
Sommario grafico delle analisi statistiche condotte
Per creare sommario grafico (Graphical Summary) cliccare su Stat ---> Basic Statistics --->
Graphical Summary. Nella finestra di dialogo che si apre selezionare la variabile su cui condurre
le analisi e cliccare quindi su OK.
In Figura 6 è riportato un sommario grafico delle analisi statistiche condotte.
Summary for Peso [ml]
A nderson-Darling N ormality Test
0.96
0.98
1.00
1.02
1.04
1.06
1.08
A -S quared
P -V alue <
1.77
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
0.98302
0.02868
0.00082
1.61433
3.20499
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0.94500
0.96275
0.97700
0.99425
1.08500
95% C onfidence Interv al for M ean
0.97487
0.99117
95% C onfidence Interv al for M edian
0.96867
0.98500
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
0.02396
0.03574
Mean
Median
0.970
0.975
0.980
0.985
0.990
Figura 6: Sommario grafico delle analisi condotte sulla variabile Peso.
Il sommario grafico include quattro grafici:
 l'istogramma dei dati con la distribuzione normale,
 il boxplot, l'intervallo di confidenza al 95% per ,
 l'intervallo di confidenza al 95% per la mediana.
Il sommario grafico mostra inoltre
 Test di Anderson-Darling per la distribuzione normale,
 Statistica descrittiva,
 Intervalli di confidenza per media, mediana e deviazione standard.
9
Esercitazione di laboratorio - Statistica descrittiva 1
Osservando i dati è possibile notare come l'intervallo di confidenza per la media non contiene il
valore 1 ml. Questo dato rileva che lo strumento utilizzato non è tarato e/o è stato commesso un
errore sistematico in fase di prelievo.
3. Considerazioni conclusive
L'analisi dei dati ha evidenziato che la maggior parte delle pipette contiene una quantità di liquido
inferiore rispetto al valore nominale di 1 [ml]. L'intervallo di confidenza per la media non contiene
il valore 1 [ml].
Questo fatto potrebbe essere indicatore o di un errore sistematico da parte dell'operatore nel
prelevare il liquido (si è fermato a prelevare sempre poco prima di raggiungere il livello di 1 ml),
oppure l'operatore ha eseguito correttamente i prelievi ma è presente un'imprecisione nella
gradazione della pipetta utilizzata. Forse una numerosità campionaria maggiore e affidare il
prelievo a diversi tecnici di laboratorio potrebbe chiarire meglio il motivo di questo andamento
dei dati.
10