Modello per la redazione dell'esercitazione di laboratorio Facoltà di Medicina Veterinaria, Università di Padova Corso di Laurea in Sicurezza igienico-sanitaria degli alimenti Metodologie statistiche per l’analisi del rischio Esercitazione di laboratorio Statistica descrittiva 1 Data: Gruppo: Datasheet: Dr. ing. Manuel Monti [email protected] Esercitazione di laboratorio - Statistica descrittiva 1 INDICE 1. Descrizione dell'esperimento ..........................................................................................................3 2. Analisi statistiche .............................................................................................................................4 2.1 Rappresentazione grafica mediante dotplot ...................................................................4 2.2 Istogramma di frequenza e di frequenza cumulata ........................................................5 2.3 Indici statistici di posizione e di variabilità ......................................................................7 2.4 Boxplot .............................................................................................................................7 2.5 Probability plot ................................................................................................................8 3. Considerazioni conclusive ..............................................................................................................10 2 Esercitazione di laboratorio - Statistica descrittiva 1 1. Descrizione dell'esperimento Una pipetta graduata viene utilizzata per prelevare 1 ml di acqua distillata. Il contenuto di liquido prelevato viene successivamente pesato. L'esperimento viene replicato 50 volte. Scopo dell'esperimento è valutare la variabilità nell'erogazione del liquido. I dati ricavati dalla sperimentazione sono riportati nella Tabella 1. Esperim_N Peso 1 0.948 2 1.012 3 1.085 4 1.063 5 1.01 6 1 7 0.994 8 0.986 9 0.995 10 0.999 11 0.969 12 0.965 13 0.945 14 0.977 15 0.957 16 0.946 17 0.96 18 0.955 19 1.01 20 0.965 21 0.975 22 0.972 23 0.957 24 0.961 25 0.975 26 0.988 27 0.989 28 0.974 29 0.98 30 0.98 31 1.001 32 0.977 33 1.021 34 1.051 35 0.965 36 0.963 37 0.971 38 0.983 39 0.962 40 0.984 41 0.978 42 0.968 43 0.96 44 1.027 3 Esercitazione di laboratorio - Statistica descrittiva 1 45 46 47 48 49 50 0.959 0.985 0.985 0.967 0.96 0.992 Tabella 1: Dati sperimentali 2. Analisi statistiche Le analisi statistiche condotte sui dati sperimentali sono: Rappresentazione grafica mediante dotplot Istogramma di frequenza e di frequenza cumulata Calcolo di indici statistici di posizione (mediana, quartili, media) e di variabilità Boxplot modificato Probability plot Sommario grafico delle analisi statistiche condotte 2.1 Rappresentazione grafica mediante dotplot Per creare il dotplot, cliccare su graph ---> Dotplot. Nella finestra di dialogo selezionare One Y - Simple La Figura 1 riporta il Dotplot del peso dell'acqua erogata dalla pipetta. E' possibile osservare che la maggior parte dei dati tende ad "addensarsi" attorno ad un valore centrale (che però è minore di 1 ml). Il valore massimo di peso è pari a 1.085 ml Il valore minimo di peso è pari a 0.945 ml I dati cadono quindi in un range di 0.14 ml. Dotplot of Peso [ml] 0.96 0.98 1.00 1.02 Peso [ml] 1.04 1.06 1.08 Figura 1: Dotplot del peso dell'acqua erogata dalla pipetta 4 Esercitazione di laboratorio - Statistica descrittiva 1 Ricordarsi di utilizzare il comando brush (Editor ---> Brush), per conoscere valori di dati presenti in un grafico 2.2 Istogramma di frequenza e di frequenza cumulata L'istogramma di frequenza può essere generato da riga di comando. Prima occorre abilitare i comandi (Editor ---> Enable commands). Quindi digitare Histogram 'nome della variabile', seguito da invio: MTB > Histogram 'Peso [ml]' Per creare un grafico di frequenza cumulata, utilizzare la sintassi che segue: MTB > Histogram 'Peso [ml]'; SUBC> cumulative; SUBC> area. In questo caso è necessario far seguire tutti i comandi (tranne l'ultimo) dal punto e virgola. L'ultimo comando finisce con il punto. Per approfondire la descrizione della distribuzione dei dati, partendo dal valore minimo di 0.945, l'intervallo di osservazione dei dati (di ampiezza 0.14 ml) viene diviso in 15 intervalli di uguale ampiezza. L'istogramma di frequenza per la variabile Peso è riportato in Figura 2. Dalla figura è possibile notare che la frequenza maggiore (10) si ha per intervallo di peso compreso tra 0.955 e 0.965 ml. Histogram of Peso [ml] 10 Frequency 8 6 4 2 0 0.96 0.98 1.00 1.02 Peso 1.04 1.06 1.08 Figura 2: Istogramma di frequenza per la variabile Peso. 5 Esercitazione di laboratorio - Statistica descrittiva 1 Posizionando il mouse sopra le barre è possibile ottenere informazioni sui dati (frequenza e intervallo) Sommando via via le frequenze in maniera cumulata rispetto agli intervalli, si ottiene la cosiddetta frequenza cumulata, che dice quante osservazioni cadono fino ad una certa soglia. Questo grafico è riportato in Figura 3. Histogram of Peso [ml] 100 Cumulative Percent 80 60 40 20 0 0.96 0.98 1.02 Peso 1.00 1.04 1.06 1.08 Figura 3: Istogramma di frequenza cumulata per la variabile Peso. Dal grafico è possibile osservare che il peso è inferiore a 1 ml per circa l'80% delle osservazioni. Per default minitab nella scala Y riporta la frequenza cumulata. Per avere in Y la percentuale, occorre cliccare col tasto destro sulla scala Y, selezionare Edit Y scale e nella finestra di dialogo, alla voce Type, selezionare Percent Minitab suddivide in maniera automatica la scala X. Per suddividerla in un numero diverso di intervalli occorre cliccare col tasto destro sulla scala X, selezionare Edit X scale, alla voce Binning, selezionare number of intervals e digitare il numero di intervalli desiderato. 6 Esercitazione di laboratorio - Statistica descrittiva 1 2.3 Indici statistici di posizione e di variabilità Indici di posizione e variabilità sono calcolati da minitab anche mediante istruzione da riga di comando. I risultati dell'analisi sono visualizzati nella session window Prima occorre abilitare i comandi (Editor ---> Enable commands). Quindi digitare Describe 'nome della variabile', seguito da invio: MTB > Describe 'Peso [ml]' Gli indici statistici di posizione e di variabilità sono riassunti nella Tabella 2 Minimo 0.94500 Massimo 1.08500 Mediana 0.97700 Q1 0.96275 Q3 0.99425 IQR 0.03150 Media 0.98302 Deviazione standard 0.02868 Tabella 2: Indici statistici di posizione e di variabilità (dati espressi in ml). 2.4 Boxplot Per generare il Boxplot occorre cliccare su Graph ---> Boxplot e nella finestra di dialogo, selezionare One Y e Simple. Nella successiva finestra di dialogo selezionare la variabile e cliccare quindi su OK. Il Boxplot modificato fornisce la rappresentazione grafica dei 5 numeri di sintesi: Min*, Q1, Mediana, Q3 e Max*. I valori che oltrepassano le soglie Max* sono indicati con un asterisco. Essi possono essere cosiderati come dati anomali (outlier) nel campione di dati. Per costruzione, all'interno del box è contenuto il 50 % dei dati osservati. Il Boxplot dei dati relativi al peso dell'acqua erogata dalla pipetta è riportato in Figura 4. Nel boxplot sono evidenziati 3 outlier. La forma del box indica che la maggior parte delle pipette contiene una quantità di liquido inferiore rispetto al valore nominale di 1 [ml]. 7 Esercitazione di laboratorio - Statistica descrittiva 1 Boxplot of Peso [ml] 0.950 0.975 1.000 1.025 Peso [ml] 1.050 1.075 1.100 Figura 4: Boxplot del peso dell'acqua erogata dalla pipetta. 2.5 Probability plot Un probability plot è un grafico a due dimensioni in cui le osservazioni sono riportate sull'asse verticale e a ciascuna di esse viene fatto corrispondere sull'asse orizzontale il relativo quantile di una distribuzione di probabilità (normale, log-normale, ecc.). Per creare una probability plot cliccare su Graph ---> Probability plot e quindi nella finestra di dialogo selezionare la variabile e quindi la distribuzione cui confrontare i dati. Le probability plot della variabile peso per la distribuzione log-normale e normale sono mostrate rispettivamente in Figura 5a e 5b. Probability Plot of Peso [ml] Probability Plot of Peso [ml] Lognormal - 95% CI Normal - 95% CI 99 Loc Scale N AD P-Value 95 90 80 80 70 70 60 50 40 30 30 20 10 10 5 5 0.90 0.95 1.00 Peso [ml] 1.05 1 1.10 0.9830 0.02868 50 1.768 <0.005 60 50 40 20 1 Mean StDev N AD P-Value 95 Percent Percent 90 99 -0.01753 0.02857 50 1.592 <0.005 0.90 0.95 1.00 Peso [ml] 1.05 1.10 (a) (b) Figura 5: Normal probability plot per distribuzione Log-normale (a) e normale (b). Per valutare se i dati osservati si distribuiscono approssimativamente secondo la legge di distribuzione di probabilità scelta occorre valutare i risultati del test di Anderson-Darling (AD nel grafico) e il relativo p-value. In generale è possibile affermare che valori bassi della statistica 8 Esercitazione di laboratorio - Statistica descrittiva 1 Anderson-Darling e p-value non significativo indicano che la distribuzione ipotizzata si adatta bene ai dati. In questo caso i p-value significativi (< 0.005) indicano che nessuna delle due distribuzioni si adatta ai dati sperimentali. 2.6 Sommario grafico delle analisi statistiche condotte Per creare sommario grafico (Graphical Summary) cliccare su Stat ---> Basic Statistics ---> Graphical Summary. Nella finestra di dialogo che si apre selezionare la variabile su cui condurre le analisi e cliccare quindi su OK. In Figura 6 è riportato un sommario grafico delle analisi statistiche condotte. Summary for Peso [ml] A nderson-Darling N ormality Test 0.96 0.98 1.00 1.02 1.04 1.06 1.08 A -S quared P -V alue < 1.77 0.005 M ean S tD ev V ariance S kew ness Kurtosis N 0.98302 0.02868 0.00082 1.61433 3.20499 50 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 0.94500 0.96275 0.97700 0.99425 1.08500 95% C onfidence Interv al for M ean 0.97487 0.99117 95% C onfidence Interv al for M edian 0.96867 0.98500 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 0.02396 0.03574 Mean Median 0.970 0.975 0.980 0.985 0.990 Figura 6: Sommario grafico delle analisi condotte sulla variabile Peso. Il sommario grafico include quattro grafici: l'istogramma dei dati con la distribuzione normale, il boxplot, l'intervallo di confidenza al 95% per , l'intervallo di confidenza al 95% per la mediana. Il sommario grafico mostra inoltre Test di Anderson-Darling per la distribuzione normale, Statistica descrittiva, Intervalli di confidenza per media, mediana e deviazione standard. 9 Esercitazione di laboratorio - Statistica descrittiva 1 Osservando i dati è possibile notare come l'intervallo di confidenza per la media non contiene il valore 1 ml. Questo dato rileva che lo strumento utilizzato non è tarato e/o è stato commesso un errore sistematico in fase di prelievo. 3. Considerazioni conclusive L'analisi dei dati ha evidenziato che la maggior parte delle pipette contiene una quantità di liquido inferiore rispetto al valore nominale di 1 [ml]. L'intervallo di confidenza per la media non contiene il valore 1 [ml]. Questo fatto potrebbe essere indicatore o di un errore sistematico da parte dell'operatore nel prelevare il liquido (si è fermato a prelevare sempre poco prima di raggiungere il livello di 1 ml), oppure l'operatore ha eseguito correttamente i prelievi ma è presente un'imprecisione nella gradazione della pipetta utilizzata. Forse una numerosità campionaria maggiore e affidare il prelievo a diversi tecnici di laboratorio potrebbe chiarire meglio il motivo di questo andamento dei dati. 10