Modello per la redazione dell'esercitazione di laboratorio Facoltà di Medicina Veterinaria, Università di Padova Corso di Laurea in Sicurezza igienico-sanitaria degli alimenti Metodologie statistiche per l’analisi del rischio Esercitazione di laboratorio Statistica descrittiva 2 Data: Gruppo: Datasheet: Dr. ing. Manuel Monti [email protected] Esercitazione di laboratorio - Statistica descrittiva 2 Indice 1. Descrizione dell'esperimento ..........................................................................................................3 2. Analisi statistiche .............................................................................................................................5 2.1 Rappresentazione grafica mediante dotplot ...................................................................5 2.2 Istogramma di frequenza e di frequenza cumulata ........................................................6 2.3 Indici statistici di posizione e di variabilità ......................................................................7 2.4 Boxplot .............................................................................................................................8 2.5 Sommario grafico delle analisi statistiche condotte .......................................................9 2.6 Test Chi-quadrato per il confronto con il modello di Poisson .......................................10 2.7 Test Chi-quadrato per il confronto con il modello di Binomiale negativa ....................11 3. Considerazioni conclusive ..............................................................................................................12 2 Esercitazione di laboratorio - Statistica descrittiva 2 1. Descrizione dell'esperimento Un centinaio di campi di microscopio su di un singolo vetrino sono stati esaminati ed è stato contato il numero di batteri per campo. Scopo dell'esperimento è valutare la variabilità del numero di cellule batteriche contate al microscopio I dati ricavati dalla sperimentazione sono riportati nella Tabella 1. Campo Numero batteri 1 19 2 12 3 7 4 11 5 9 6 9 7 7 8 7 9 9 10 13 11 18 12 13 13 10 14 12 15 12 16 13 17 6 18 10 19 17 20 14 21 18 22 13 23 7 24 5 25 9 26 4 27 13 28 11 29 24 30 11 31 18 32 11 33 4 34 16 35 10 36 15 37 13 38 8 39 15 40 16 41 9 42 8 43 6 3 Esercitazione di laboratorio - Statistica descrittiva 2 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 9 18 10 7 11 16 17 7 14 17 17 17 5 19 10 17 12 15 13 10 9 5 7 11 21 10 20 8 5 8 10 13 18 19 21 23 19 17 23 7 23 15 18 14 11 16 8 10 18 14 26 14 6 4 Esercitazione di laboratorio - Statistica descrittiva 2 97 98 99 100 15 10 10 14 Tabella 1: Dati sperimentali 2. Analisi statistiche Le analisi statistiche condotte sui dati sperimentali sono: Rappresentazione grafica mediante dotplot Istogramma di frequenza e di frequenza cumulata Calcolo di indici statistici di posizione (mediana, quartili, media) e di variabilità Boxplot modificato Sommario grafico delle analisi statistiche condotte Test Chi-quadrato per il confronto con il modello di Poisson Test Chi-quadrato per il confronto con il modello di Binomiale negativa 2.1 Rappresentazione grafica mediante dotplot Per creare il dotplot, cliccare su graph ---> Dotplot. Nella finestra di dialogo selezionare One Y - Simple La Figura 1 riporta il Dotplot del numero di cellule batteriche contate al microscopio. E' possibile osservare che i dati non tendono ad "addensarsi" attorno ad un valore centrale. ma sembrano piuttosto distribuirsi in maniera abbastanza omogenea tra 6 e 19 e al di sopra di questo valore si possono notare poche osservazioni. Il valore massimo di cellule batteriche è pari a 26. Il valore minimo di cellule batteriche è pari a 4. I dati cadono quindi in un range di 22. Dotplot of Numero batteri 6 9 12 15 18 Numero batteri 21 24 Figura 1: Dotplot del numero di cellule batteriche contate al microscopio. 5 Esercitazione di laboratorio - Statistica descrittiva 2 Ricordarsi di utilizzare il comando brush (Editor ---> Brush), per conoscere valori di dati presenti in un grafico 2.2 Istogramma di frequenza e di frequenza cumulata L'istogramma di frequenza può essere generato da riga di comando. Prima occorre abilitare i comandi (Editor ---> Enable commands). Quindi digitare Histogram 'nome della variabile', seguito da invio: MTB > Histogram 'numero batteri' Per creare un grafico di frequenza cumulata, utilizzare la sintassi che segue: MTB > Histogram 'numero batteri'; SUBC> cumulative; SUBC> area. In questo caso è necessario far seguire tutti i comandi (tranne l'ultimo) dal punto e virgola. L'ultimo comando finisce con il punto. Per approfondire la descrizione della distribuzione dei dati, partendo dal valore minimo di 4, l'intervallo di osservazione dei dati (di ampiezza 22) viene diviso in 12 intervalli di uguale ampiezza. L'istogramma di frequenza per la variabile Numero di batteri è riportato in Figura 2. Dalla figura è possibile notare che la frequenza maggiore (18) si ha per intervallo di numero di batteri compreso tra 9 e 11. Histogram of Numero batteri 20 Frequency 15 10 5 0 4 8 12 16 Numero batteri 20 24 Figura 2: Istogramma di frequenza per la variabile numero di batteri. Posizionando il mouse sopra le barre è possibile ottenere informazioni sui dati (frequenza e intervallo) 6 Esercitazione di laboratorio - Statistica descrittiva 2 Sommando via via le frequenze in maniera cumulata rispetto agli intervalli, si ottiene la cosiddetta frequenza cumulata, che dice quante osservazioni cadono fino ad una certa soglia. Questo grafico è riportato in Figura 3. Histogram of Numero batteri Cumulative Frequency 100 80 60 40 20 0 4 8 12 16 Numero batteri 20 24 Figura 3: Istogramma di frequenza cumulata per la variabile numero di batteri. Il grafico conferma le considerazioni iniziali desunte dall'andamento del dotplot. Al crescere della frequenza cumulata, il numero di batteri cresce in maniera abbastanza regolare (da 4 a 20 batteri) fino a circa l'85% delle osservazioni. Da 85% al 100%, il numero di batteri cresce da 20 a 24. Per default minitab nella scala Y riporta la frequenza cumulata. Per avere in Y la percentuale, occorre cliccare col tasto destro sulla scala Y, selezionare Edit Y scale e nella finestra di dialogo, alla voce Type, selezionare Percent Minitab suddivide in maniera automatica la scala X. Per suddividerla in un numero diverso di intervalli occorre cliccare col tasto destro sulla scala X, selezionare Edit X scale, alla voce Binning, selezionare number of intervals e digitare il numero di intervalli desiderato. 2.3 Indici statistici di posizione e di variabilità Indici di posizione e variabilità sono calcolati da minitab anche mediante istruzione da riga di comando. I risultati dell'analisi sono visualizzati nella session window Prima occorre abilitare i comandi (Editor ---> Enable commands). Quindi digitare Describe 'nome della variabile', seguito da invio: MTB > Describe 'numero batteri' 7 Esercitazione di laboratorio - Statistica descrittiva 2 Gli indici statistici di posizione e di variabilità sono riassunti nella Tabella 2 Minimo 4 Massimo 26 Mediana 12 Q1 9 Q3 17 IQR 8 Media 12.690 Deviazione standard 4.966 Tabella 2: Indici statistici di posizione e di variabilità. 2.4 Boxplot Per generare il Boxplot occorre cliccare su Graph ---> Boxplot e nella finestra di dialogo, selezionare One Y e Simple. Nella successiva finestra di dialogo selezionare la variabile e cliccare quindi su OK. Il Boxplot modificato fornisce la rappresentazione grafica dei 5 numeri di sintesi: Min*, Q1, Mediana, Q3 e Max*. I valori che oltrepassano le soglie Min* e Max* sono indicati con un asterisco. Essi possono essere cosiderati come dati anomali (outlier) nel campione di dati. Per costruzione, all'interno del box è contenuto il 50 % dei dati osservati. Il Boxplot dei dati relativi al numero di batteri è mostrato in Figura 4. Nel boxplot non sono evidenziati outlier. Boxplot of Numero batteri 25 Numero batteri 20 15 10 5 Figura 4: Boxplot del numero di batteri. 8 Esercitazione di laboratorio - Statistica descrittiva 2 2.5 Sommario grafico delle analisi statistiche condotte Per creare sommario grafico (Graphical Summary) cliccare su Stat ---> Basic Statistics ---> Graphical Summary. Nella finestra di dialogo che si apre selezionare la variabile su cui condurre le analisi e cliccare quindi su OK. In Figura 5 è riportato un sommario grafico delle analisi statistiche condotte. Summary for Numero batteri A nderson-Darling N ormality Test 4 8 12 16 20 A -S quared P -V alue 0.81 0.035 M ean S tDev V ariance S kew ness Kurtosis N 12.690 4.996 24.964 0.400329 -0.455800 100 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 24 4.000 9.000 12.000 17.000 26.000 95% C onfidence Interv al for M ean 11.699 13.681 95% C onfidence Interv al for M edian 10.742 14.000 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 4.387 5.804 Mean Median 11.0 11.5 12.0 12.5 13.0 13.5 14.0 Figura 5: Sommario grafico delle analisi condotte sulla variabile numero di batteri. Il sommario grafico include quattro grafici: l'istogramma dei dati con la distribuzione normale, il boxplot, l'intervallo di confidenza al 95% per , l'intervallo di confidenza al 95% per la mediana. Il sommario grafico mostra inoltre Test di Anderson-Darling per la distribuzione normale, Statistica descrittiva, Intervalli di confidenza per media, mediana e deviazione standard. Osservando i dati è possibile notare come l'intervallo di confidenza per la media varia tra 11.699 e 13.681 batteri. 9 Esercitazione di laboratorio - Statistica descrittiva 2 2.6 Test Chi-quadrato per il confronto con il modello di Poisson Dal momento che la variabile casuale oggetto di indagine (numero di batteri) è una variabile discreta, per poter valutare se i dati osservati si distribuiscono approssimativamente secondo la legge di distribuzione di probabilità di Poisson è necessario ricorrere al test chi-quadrato. Per verificare l'ipotesi nulla secondo cui la legge di probabilità Pbatteri del fenomeno numero di batteri è uguale a Ppoisson, H0 : Pbatteri Ppoisson contro l'alternativa: H1 : Pbatteri Ppoisson si ricorrerà alla statistica 2 per il confronto tra leggi di probabilità. 2 f0 fe 2 tutte le celle fe in cui f0 è la frequenza osservata e fe quella attesa. Fissato , l'ipotesi nulla dovrà essere rifiutata se il valore osservato della statistica 2 è maggiore del valore critico di una distribuzione 2 con (r-1) gradi di libertà. Questa analisi condotta sui dati relativi al numero di batteri è riassunta nella Tabella 3. Intervallo <4 4-5 6-7 8-9 10-11 12-13 14-15 16-17 18-19 20-21 22-23 24-25 >=26 X<x 4 6 8 10 12 14 16 18 20 22 24 26 28 F(e)_Poiss 0.5 2.6 8.4 16.4 21.8 20.9 15.1 8.5 3.8 1.4 0.4 0.1 0.0 Fr_oss 0 6 11 12 18 12 11 11 11 3 3 1 1 (Att-Oss)^2/Att 0.5 4.3 0.8 1.2 0.7 3.8 1.1 0.8 13.4 1.8 15.0 6.9 24.8 Chi-Sq.Stat. = DF = alpha = Crit. value = P-value = 74.98 12 0.05 18.74 3.70389E-11 Tabella 3: Test Chi-quadrato per il confronto con il modello di distribuzione di Poisson. Il p-value <0.05 associato al test Chi-quadrato e il valore osservato della statistica 2 (74.98) maggiore del valore critico (18.74) indicano che l'ipotesi nulla dovrà essere rifiutata. I risultati del test consentono perciò di concludere che i dati osservati non si distribuiscono secondo la legge di distribuzione di Poisson. In Figura 6 è riportato un confronto tra le frequenze osservate e la distribuzione di Poisson. 10 Esercitazione di laboratorio - Statistica descrittiva 2 Conteggio dei batteri: frequenze osservate vs distribuzione di Poisson 22 20 Fr_oss F(e)_bin_neg 18 Frequenza 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Numero di batteri Figura 6: Confronto tra frequenze osservate e distribuzione di Poisson. 2.7 Test Chi-quadrato per il confronto con il modello di Binomiale negativa Per poter valutare se i dati osservati si distribuiscono approssimativamente secondo la legge di distribuzione di probabilità di Binomiale negativa è necessario anche in questo caso ricorrere al test chi-quadrato. Per verificare l'ipotesi nulla secondo cui la legge di probabilità Pbatteri del fenomeno numero di batteri è uguale a Pbinomiale negativa, H0 : Pbatteri Pbinomiale negativa contro l'alternativa: H1 : Pbatteri Pbinomiale negativa si ricorrerà alla statistica 2 per il confronto tra leggi di probabilità. 2 f0 fe 2 fe tutte le celle in cui f0 è la frequenza osservata e fe quella attesa. Fissato , l'ipotesi nulla dovrà essere rifiutata se il valore osservato della statistica 2 è maggiore del valore critico di una distribuzione 2 con (r-1) gradi di libertà. Per poter condurre l'analisi si è reso necessario determinare inizialmente i parametri k (hot) e p (hot) della distribuzione binomiale negativa. I calcoli sono stati effettuati utilizzando un applet presente sul web all'indirizzo http://www.wessa.net/rwasp_fitdistrnegbin.wasp#output e i parametri sono riportati in Tabella 4. k(hot) = p(hot) = 13.06 0.507 Tabella 4: Stima dei parametri della distribuzione Binomiale negativa 11 Esercitazione di laboratorio - Statistica descrittiva 2 I risultati del test Chi-quadrato per il confronto con il modello di distribuzione Binomiale negativa sono riportati in Tabella 5. Intervallo F(e)_bin_neg <4 1.2 4-5 4.2 6-7 9.1 8-9 13.8 10-11 16.3 12-13 15.9 14-15 13.3 16-17 10.0 18-19 6.7 20-21 4.2 22-23 2.4 24-25 1.3 >=26 1.3 Fr_oss 0 6 11 12 18 12 11 11 11 3 3 1 1 (Att-Oss)^2/Att 1.2 0.8 0.4 0.2 0.2 0.9 0.4 0.1 2.7 0.3 0.1 0.1 0.1 Chi-Sq.Stat. = DF = alpha = Crit. value = P-value = 7.6 12 0.05 18.74 0.816156306 Tabella 5: Test Chi-quadrato per il confronto con il modello di distribuzione Binomiale negativa. Il p-value >0.05 associato al test Chi-quadrato e il valore osservato della statistica 2 (7.6) minore del valore critico (18.74) indicano che l'ipotesi nulla può essere accettata. I risultati del test consentono perciò di concludere che i dati osservati si distribuiscono secondo la legge di distribuzione Binomiale negativa. In Figura 7 è riportato un confronto tra le frequenze osservate e la distribuzione di Poisson. Conteggio dei batteri: frequenze osservate vs distribuzione binomiale negativa 22 20 Fr_oss F(e)_bin_neg 18 Frequenza 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Numero di batteri Figura 7: Confronto tra frequenze osservate e distribuzione Binomiale negativa.. 3. Considerazioni conclusive L'analisi dei dati ha evidenziato che i dati non tendono ad "addensarsi" attorno ad un valore centrale. ma sembrano piuttosto distribuirsi in maniera abbastanza omogenea tra 6 e 19 batteri e al di sopra di questo valore si possono notare poche osservazioni. La conoscenza della posizione dei campi osservati al microscopio potrebbe essere utile per comprendere se i batteri si addensano in alcune zone oppure se sono sparsi casualmente in tutto 12 Esercitazione di laboratorio - Statistica descrittiva 2 il vetrino. Nel primo caso la presenza di un singolo organismo patogeno potrebbe aumentare o diminuire la probabilità che un altro organismo nocivo sia vicino. Mediante test Chi-quadrato è stato possibile concludere che i dati osservati si distribuiscono secondo la legge di distribuzione Binomiale negativa. Del resto studi hanno dimostrato che questo è il miglior modello per descrivere la distribuzione di frequenze ottenute in ambito microbiologico in cui gli aggregati di cellule si manifestano sia nei campioni naturali che in diluizioni, preparazione di vetrini. 13