Modello per la redazione dell'esercitazione di laboratorio
Facoltà di Medicina Veterinaria, Università di Padova
Corso di Laurea in
Sicurezza igienico-sanitaria degli alimenti
Metodologie statistiche per l’analisi del rischio
Esercitazione di laboratorio
Statistica descrittiva 2
Data:
Gruppo:
Datasheet:
Dr. ing. Manuel Monti
[email protected]
Esercitazione di laboratorio - Statistica descrittiva 2
Indice
1. Descrizione dell'esperimento ..........................................................................................................3
2. Analisi statistiche .............................................................................................................................5
2.1
Rappresentazione grafica mediante dotplot ...................................................................5
2.2
Istogramma di frequenza e di frequenza cumulata ........................................................6
2.3
Indici statistici di posizione e di variabilità ......................................................................7
2.4
Boxplot .............................................................................................................................8
2.5
Sommario grafico delle analisi statistiche condotte .......................................................9
2.6
Test Chi-quadrato per il confronto con il modello di Poisson .......................................10
2.7
Test Chi-quadrato per il confronto con il modello di Binomiale negativa ....................11
3. Considerazioni conclusive ..............................................................................................................12
2
Esercitazione di laboratorio - Statistica descrittiva 2
1. Descrizione dell'esperimento
Un centinaio di campi di microscopio su di un singolo vetrino sono stati esaminati ed è stato
contato il numero di batteri per campo. Scopo dell'esperimento è valutare la variabilità del
numero di cellule batteriche contate al microscopio
I dati ricavati dalla sperimentazione sono riportati nella Tabella 1.
Campo Numero batteri
1
19
2
12
3
7
4
11
5
9
6
9
7
7
8
7
9
9
10
13
11
18
12
13
13
10
14
12
15
12
16
13
17
6
18
10
19
17
20
14
21
18
22
13
23
7
24
5
25
9
26
4
27
13
28
11
29
24
30
11
31
18
32
11
33
4
34
16
35
10
36
15
37
13
38
8
39
15
40
16
41
9
42
8
43
6
3
Esercitazione di laboratorio - Statistica descrittiva 2
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
9
18
10
7
11
16
17
7
14
17
17
17
5
19
10
17
12
15
13
10
9
5
7
11
21
10
20
8
5
8
10
13
18
19
21
23
19
17
23
7
23
15
18
14
11
16
8
10
18
14
26
14
6
4
Esercitazione di laboratorio - Statistica descrittiva 2
97
98
99
100
15
10
10
14
Tabella 1: Dati sperimentali
2. Analisi statistiche
Le analisi statistiche condotte sui dati sperimentali sono:







Rappresentazione grafica mediante dotplot
Istogramma di frequenza e di frequenza cumulata
Calcolo di indici statistici di posizione (mediana, quartili, media) e di variabilità
Boxplot modificato
Sommario grafico delle analisi statistiche condotte
Test Chi-quadrato per il confronto con il modello di Poisson
Test Chi-quadrato per il confronto con il modello di Binomiale negativa
2.1 Rappresentazione grafica mediante dotplot
Per creare il dotplot, cliccare su graph ---> Dotplot.
Nella finestra di dialogo selezionare One Y - Simple
La Figura 1 riporta il Dotplot del numero di cellule batteriche contate al microscopio.
E' possibile osservare che i dati non tendono ad "addensarsi" attorno ad un valore centrale. ma
sembrano piuttosto distribuirsi in maniera abbastanza omogenea tra 6 e 19 e al di sopra di questo
valore si possono notare poche osservazioni.
Il valore massimo di cellule batteriche è pari a 26.
Il valore minimo di cellule batteriche è pari a 4.
I dati cadono quindi in un range di 22.
Dotplot of Numero batteri
6
9
12
15
18
Numero batteri
21
24
Figura 1: Dotplot del numero di cellule batteriche contate al microscopio.
5
Esercitazione di laboratorio - Statistica descrittiva 2
Ricordarsi di utilizzare il comando brush (Editor ---> Brush), per conoscere valori di dati
presenti in un grafico
2.2 Istogramma di frequenza e di frequenza cumulata
L'istogramma di frequenza può essere generato da riga di comando.
Prima occorre abilitare i comandi (Editor ---> Enable commands).
Quindi digitare Histogram 'nome della variabile', seguito da invio:
MTB > Histogram 'numero batteri'
Per creare un grafico di frequenza cumulata, utilizzare la sintassi che segue:
MTB > Histogram 'numero batteri';
SUBC> cumulative;
SUBC> area.
In questo caso è necessario far seguire tutti i comandi (tranne l'ultimo) dal punto e virgola.
L'ultimo comando finisce con il punto.
Per approfondire la descrizione della distribuzione dei dati, partendo dal valore minimo di 4,
l'intervallo di osservazione dei dati (di ampiezza 22) viene diviso in 12 intervalli di uguale
ampiezza. L'istogramma di frequenza per la variabile Numero di batteri è riportato in Figura 2.
Dalla figura è possibile notare che la frequenza maggiore (18) si ha per intervallo di numero di
batteri compreso tra 9 e 11.
Histogram of Numero batteri
20
Frequency
15
10
5
0
4
8
12
16
Numero batteri
20
24
Figura 2: Istogramma di frequenza per la variabile numero di batteri.
Posizionando il mouse sopra le barre è possibile ottenere informazioni sui dati (frequenza
e intervallo)
6
Esercitazione di laboratorio - Statistica descrittiva 2
Sommando via via le frequenze in maniera cumulata rispetto agli intervalli, si ottiene la cosiddetta
frequenza cumulata, che dice quante osservazioni cadono fino ad una certa soglia. Questo grafico
è riportato in Figura 3.
Histogram of Numero batteri
Cumulative Frequency
100
80
60
40
20
0
4
8
12
16
Numero batteri
20
24
Figura 3: Istogramma di frequenza cumulata per la variabile numero di batteri.
Il grafico conferma le considerazioni iniziali desunte dall'andamento del dotplot. Al crescere della
frequenza cumulata, il numero di batteri cresce in maniera abbastanza regolare (da 4 a 20 batteri)
fino a circa l'85% delle osservazioni. Da 85% al 100%, il numero di batteri cresce da 20 a 24.
Per default minitab nella scala Y riporta la frequenza cumulata. Per avere in Y la
percentuale, occorre cliccare col tasto destro sulla scala Y, selezionare Edit Y scale e nella
finestra di dialogo, alla voce Type, selezionare Percent
Minitab suddivide in maniera automatica la scala X. Per suddividerla in un numero
diverso di intervalli occorre cliccare col tasto destro sulla scala X, selezionare Edit X scale, alla
voce Binning, selezionare number of intervals e digitare il numero di intervalli desiderato.
2.3 Indici statistici di posizione e di variabilità
Indici di posizione e variabilità sono calcolati da minitab anche mediante istruzione da
riga di comando. I risultati dell'analisi sono visualizzati nella session window
Prima occorre abilitare i comandi (Editor ---> Enable commands).
Quindi digitare Describe 'nome della variabile', seguito da invio:
MTB > Describe 'numero batteri'
7
Esercitazione di laboratorio - Statistica descrittiva 2
Gli indici statistici di posizione e di variabilità sono riassunti nella Tabella 2
Minimo
4
Massimo
26
Mediana
12
Q1
9
Q3
17
IQR
8
Media
12.690
Deviazione standard
4.966
Tabella 2: Indici statistici di posizione e di variabilità.
2.4 Boxplot
Per generare il Boxplot occorre cliccare su Graph ---> Boxplot e nella finestra di dialogo,
selezionare One Y e Simple. Nella successiva finestra di dialogo selezionare la variabile e cliccare
quindi su OK.
Il Boxplot modificato fornisce la rappresentazione grafica dei 5 numeri di sintesi: Min*, Q1,
Mediana, Q3 e Max*. I valori che oltrepassano le soglie Min* e Max* sono indicati con un
asterisco. Essi possono essere cosiderati come dati anomali (outlier) nel campione di dati. Per
costruzione, all'interno del box è contenuto il 50 % dei dati osservati. Il Boxplot dei dati relativi al
numero di batteri è mostrato in Figura 4. Nel boxplot non sono evidenziati outlier.
Boxplot of Numero batteri
25
Numero batteri
20
15
10
5
Figura 4: Boxplot del numero di batteri.
8
Esercitazione di laboratorio - Statistica descrittiva 2
2.5
Sommario grafico delle analisi statistiche condotte
Per creare sommario grafico (Graphical Summary) cliccare su Stat ---> Basic Statistics --->
Graphical Summary. Nella finestra di dialogo che si apre selezionare la variabile su cui condurre
le analisi e cliccare quindi su OK.
In Figura 5 è riportato un sommario grafico delle analisi statistiche condotte.
Summary for Numero batteri
A nderson-Darling N ormality Test
4
8
12
16
20
A -S quared
P -V alue
0.81
0.035
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
12.690
4.996
24.964
0.400329
-0.455800
100
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
24
4.000
9.000
12.000
17.000
26.000
95% C onfidence Interv al for M ean
11.699
13.681
95% C onfidence Interv al for M edian
10.742
14.000
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
4.387
5.804
Mean
Median
11.0
11.5
12.0
12.5
13.0
13.5
14.0
Figura 5: Sommario grafico delle analisi condotte sulla variabile numero di batteri.
Il sommario grafico include quattro grafici:



l'istogramma dei dati con la distribuzione normale,
il boxplot, l'intervallo di confidenza al 95% per ,
l'intervallo di confidenza al 95% per la mediana.
Il sommario grafico mostra inoltre
 Test di Anderson-Darling per la distribuzione normale,
 Statistica descrittiva,
 Intervalli di confidenza per media, mediana e deviazione standard.
Osservando i dati è possibile notare come l'intervallo di confidenza per la media varia tra 11.699 e
13.681 batteri.
9
Esercitazione di laboratorio - Statistica descrittiva 2
2.6 Test Chi-quadrato per il confronto con il modello di Poisson
Dal momento che la variabile casuale oggetto di indagine (numero di batteri) è una variabile
discreta, per poter valutare se i dati osservati si distribuiscono approssimativamente secondo la
legge di distribuzione di probabilità di Poisson è necessario ricorrere al test chi-quadrato.
Per verificare l'ipotesi nulla secondo cui la legge di probabilità Pbatteri del fenomeno numero di
batteri è uguale a Ppoisson,
H0 : Pbatteri  Ppoisson
contro l'alternativa:
H1 : Pbatteri  Ppoisson
si ricorrerà alla statistica  2 per il confronto tra leggi di probabilità.
2 

 f0  fe 2
tutte le celle
fe
in cui f0 è la frequenza osservata e fe quella attesa.
Fissato  , l'ipotesi nulla dovrà essere rifiutata se il valore osservato della statistica  2 è maggiore
del valore critico di una distribuzione  2 con (r-1) gradi di libertà.
Questa analisi condotta sui dati relativi al numero di batteri è riassunta nella Tabella 3.
Intervallo
<4
4-5
6-7
8-9
10-11
12-13
14-15
16-17
18-19
20-21
22-23
24-25
>=26
X<x
4
6
8
10
12
14
16
18
20
22
24
26
28
F(e)_Poiss
0.5
2.6
8.4
16.4
21.8
20.9
15.1
8.5
3.8
1.4
0.4
0.1
0.0
Fr_oss
0
6
11
12
18
12
11
11
11
3
3
1
1
(Att-Oss)^2/Att
0.5
4.3
0.8
1.2
0.7
3.8
1.1
0.8
13.4
1.8
15.0
6.9
24.8
Chi-Sq.Stat. =
DF =
alpha =
Crit. value =
P-value =
74.98
12
0.05
18.74
3.70389E-11
Tabella 3: Test Chi-quadrato per il confronto con il modello di distribuzione di Poisson.
Il p-value <0.05 associato al test Chi-quadrato e il valore osservato della statistica  2 (74.98)
maggiore del valore critico (18.74) indicano che l'ipotesi nulla dovrà essere rifiutata. I risultati del
test consentono perciò di concludere che i dati osservati non si distribuiscono secondo la legge di
distribuzione di Poisson. In Figura 6 è riportato un confronto tra le frequenze osservate e la
distribuzione di Poisson.
10
Esercitazione di laboratorio - Statistica descrittiva 2
Conteggio dei batteri: frequenze osservate vs distribuzione di Poisson
22
20
Fr_oss
F(e)_bin_neg
18
Frequenza
16
14
12
10
8
6
4
2
0
1
2
3
4
5
6
7
8
9
10
11
12
13
Numero di batteri
Figura 6: Confronto tra frequenze osservate e distribuzione di Poisson.
2.7 Test Chi-quadrato per il confronto con il modello di Binomiale
negativa
Per poter valutare se i dati osservati si distribuiscono approssimativamente secondo la legge di
distribuzione di probabilità di Binomiale negativa è necessario anche in questo caso ricorrere al
test chi-quadrato.
Per verificare l'ipotesi nulla secondo cui la legge di probabilità Pbatteri del fenomeno numero di
batteri è uguale a Pbinomiale negativa,
H0 : Pbatteri  Pbinomiale negativa
contro l'alternativa:
H1 : Pbatteri  Pbinomiale
negativa
si ricorrerà alla statistica  2 per il confronto tra leggi di probabilità.
2 

 f0  fe 2
fe
tutte le celle
in cui f0 è la frequenza osservata e fe quella attesa.
Fissato  , l'ipotesi nulla dovrà essere rifiutata se il valore osservato della statistica  2 è maggiore
del valore critico di una distribuzione  2 con (r-1) gradi di libertà.
Per poter condurre l'analisi si è reso necessario determinare inizialmente i parametri k (hot) e p
(hot) della distribuzione binomiale negativa. I calcoli sono stati effettuati utilizzando un applet
presente sul web all'indirizzo http://www.wessa.net/rwasp_fitdistrnegbin.wasp#output e i
parametri sono riportati in Tabella 4.
k(hot) =
p(hot) =
13.06
0.507
Tabella 4: Stima dei parametri della distribuzione Binomiale negativa
11
Esercitazione di laboratorio - Statistica descrittiva 2
I risultati del test Chi-quadrato per il confronto con il modello di distribuzione Binomiale negativa
sono riportati in Tabella 5.
Intervallo F(e)_bin_neg
<4
1.2
4-5
4.2
6-7
9.1
8-9
13.8
10-11
16.3
12-13
15.9
14-15
13.3
16-17
10.0
18-19
6.7
20-21
4.2
22-23
2.4
24-25
1.3
>=26
1.3
Fr_oss
0
6
11
12
18
12
11
11
11
3
3
1
1
(Att-Oss)^2/Att
1.2
0.8
0.4
0.2
0.2
0.9
0.4
0.1
2.7
0.3
0.1
0.1
0.1
Chi-Sq.Stat. =
DF =
alpha =
Crit. value =
P-value =
7.6
12
0.05
18.74
0.816156306
Tabella 5: Test Chi-quadrato per il confronto con il modello di distribuzione Binomiale negativa.
Il p-value >0.05 associato al test Chi-quadrato e il valore osservato della statistica  2 (7.6) minore
del valore critico (18.74) indicano che l'ipotesi nulla può essere accettata. I risultati del test
consentono perciò di concludere che i dati osservati si distribuiscono secondo la legge di
distribuzione Binomiale negativa. In Figura 7 è riportato un confronto tra le frequenze osservate e
la distribuzione di Poisson.
Conteggio dei batteri: frequenze osservate vs distribuzione binomiale negativa
22
20
Fr_oss
F(e)_bin_neg
18
Frequenza
16
14
12
10
8
6
4
2
0
1
2
3
4
5
6
7
8
9
10
11
12
13
Numero di batteri
Figura 7: Confronto tra frequenze osservate e distribuzione Binomiale negativa..
3. Considerazioni conclusive
L'analisi dei dati ha evidenziato che i dati non tendono ad "addensarsi" attorno ad un valore
centrale. ma sembrano piuttosto distribuirsi in maniera abbastanza omogenea tra 6 e 19 batteri e
al di sopra di questo valore si possono notare poche osservazioni.
La conoscenza della posizione dei campi osservati al microscopio potrebbe essere utile per
comprendere se i batteri si addensano in alcune zone oppure se sono sparsi casualmente in tutto
12
Esercitazione di laboratorio - Statistica descrittiva 2
il vetrino. Nel primo caso la presenza di un singolo organismo patogeno potrebbe aumentare o
diminuire la probabilità che un altro organismo nocivo sia vicino.
Mediante test Chi-quadrato è stato possibile concludere che i dati osservati si distribuiscono
secondo la legge di distribuzione Binomiale negativa. Del resto studi hanno dimostrato che questo
è il miglior modello per descrivere la distribuzione di frequenze ottenute in ambito microbiologico
in cui gli aggregati di cellule si manifestano sia nei campioni naturali che in diluizioni, preparazione
di vetrini.
13