Corso di Laurea in Sicurezza igienico-sanitaria degli alimenti Metodologie statistiche per l’analisi del rischio ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO Facoltà di Medicina Veterinaria, Università di Padova Docente: Dott. L. Corain ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 1 SOMMARIO ¾ Teoria della probabilità: concetti generali ¾ Modelli probabilistici per le variabili discrete: distribuzione binomiale e binomiale negativa distribuzione di Poisson ¾ Modelli probabilistici per le variabili continue: distribuzione normale (o gaussiana) distribuzione log-normale trasformazioni dei dati discreti ¾ Procedure di goodness-of-fit: test Chi-quadrato test di Anderson-Darling ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 2 1 TEORIA DELLA PROBABILITÀ: CONCETTI GENERALI La probabilità può essere definita come un numero che esprime la possibilità, il grado di verosimiglianza con cui un evento è destinato a verificarsi. Si parla così della probabilità di pescare una carta nera da un mazzo di carte, della probabilità che in un vetrino siano presenti 10 colonie di batteri o della probabilità che un processo produttivo non sia inquinato da agenti patogeni. La probabilità è una proporzione o frazione che varia tra i valori 0 e 1, estremi inclusi. Associamo il valore zero a un evento che non ha nessuna possibilità di verificarsi (evento impossibile) e il valore uno a un evento che si verificherà sicuramente (evento certo). Tra due estremi, si collocano eventi più o meno probabili. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 3 TEORIA DELLA PROBABILITÀ: CONCETTI GENERALI In teoria della probabilità, una variabile casuale (o variabile aleatoria – v.a.) può essere pensata come il risultato numerico di un esperimento quando questo non è prevedibile con certezza (ossia non è deterministico). Ad una variabile casuale X si associa la sua distribuzione, o legge di probabilità PX, che assegna ad ogni sottoinsieme dell'insieme dei possibili valori di X (eventi) la probabilità che la variabile casuale X assuma valore in esso. Le variabili casuali si dividono principalmente in due grandi classi: discrete, se l'insieme dei possibili valori (o supporto di X) è finito o numerabile; continue, se l'insieme dei possibili valori è l’insieme dei numeri reali. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 4 2 TEORIA DELLA PROBABILITÀ: CONCETTI GENERALI Per caratterizzare una variabile casuale X, dobbiamo specificarne la sua distribuzione, o legge di probabilità PX, che può essere, in base al tipo di variabile casuale, di due tipi: funzione di probabilità: p(x) = P(X=x), se la variabile aleatoria è discreta; funzione di densità di probabilità: f(x), tale per cui P(X ∈ A) = ∫A f(x) dx, se la variabile aleatoria è continua. Le due funzioni p(x) e f(x) dipenderanno da uno o più parametri (p, µ, σ, ecc.). Fissati i valori dei parametri, è possibile calcolare la probabilità di eventi di interesse, ovvero che la variabile X assume dei valori specifici. Si noti che nelle applicazioni reali i parametri sono ovviamente ignoti e non osservabili, ma possono essere stimati attraverso una procedura di inferenziale di stima. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 5 TEORIA DELLA PROBABILITÀ: CONCETTI GENERALI La media µ di una distribuzione di probabilità si dice valore medio (o valore atteso) della variabile aleatoria. Il valore atteso di una variabile aleatoria discreta è una media ponderata delle modalità (valori) assunte dalla variabile, dove i coefficienti di ponderazione sono rappresentati dalle probabilità associate a ciascuna modalità Valore atteso di una variabile aleatoria discreta N µ = E ( X ) = ∑ X i P( X i ) i =1 dove Xi = i-esima modalità della variabile aleatoria X P(Xi) = probabilità associata alla modalità Xi ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 6 3 TEORIA DELLA PROBABILITÀ: CONCETTI GENERALI La varianza σ2 di una variabile aleatoria discreta è definita come la media ponderata dei quadrati delle differenze tra ciascuna modalità e il valore atteso della variabile, dove i coefficienti di ponderazione sono rappresentati dalle probabilità associate a ciascuna modalità. Varianza di una variabile aleatoria discreta N σ = ∑ [ X i − E ( X )]2 P( X i ) 2 i =1 dove Xi = i-esima modalità della variabile aleatoria X P(Xi) = probabilità associata alla modalità Xi Lo scarto quadratico medio σ di una variabile aleatoria discreta è dato dalla radice quadrata della varianza: σ=√σ2 ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 7 TEORIA DELLA PROBABILITÀ: CONCETTI GENERALI La media (o valore atteso) µ e la varianza σ2 (e la deviazione standard σ) di una v.a. X sono i parametri di maggiore interesse della distribuzione di probabilità di X, in quanto essi esprimono rispettivamente la tendenza centrale e la variabilità della v.a. X. Nel caso la v.a. X sia continua, per il calcolo di µ e la varianza σ2, l’operatore sommatoria va sostituito con l’integrale: La probabilità che la v.a. assuma valori minori od uguali ad un valore specificato, viene detta funzione di ripartizione: FX = P (X ≤ x). ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 8 4 LA DISTRIBUZIONE BINOMIALE Tra i modelli probabilistici discreti più utilizzati vi è la distribuzione binomiale, caratterizzata da 4 proprietà: Si considera un numero prefissato di n osservazioni. Ciascuna osservazione può essere classificata in due categorie incompatibili ed esaustive, chiamate per convenzione successo e insuccesso La probabilità di ottenere un successo, p, è costante per ogni osservazione, così come la probabilità che si verifichi un insuccesso, q = (1 – p). Il risultato di un’osservazione, successo o insuccesso, è indipendente dal risultato di qualsiasi altra. La funzione di probabilità della distribuzione binomiale è definita dall’espressione: ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 9 LA DISTRIBUZIONE BINOMIALE Media e varianza della distribuzione binomiale sono rispettivamente µ = np e σ2 = npq = np(1-p). Una distribuzione binomiale può essere simmetrica o asimmetrica in base ai valori assunti dai parametri. Per qualsiasi valore di n, la distribuzione è simmetrica se p=0.5 e asimmetrica per valori di p diversi da 0.5. L’asimmetria diminuisce all’avvicinarsi di p a 0.5 e all’aumentare del numero di osservazioni n. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 10 5 LA DISTRIBUZIONE BINOMIALE La distribuzione binomiale è utilizzata come modello quando una specifica caratteristica in un campione può essere riconosciuta (ad esempio la presenza di elementi difettosi in un lotto). La distribuzione binomiale è spesso usata come base per l'elaborazione di schemi di campionamento in accettazione di alimenti e altri materiali. In tali schemi, q è definito come la probabilità che un generico campione non sia difettoso (ad esempio, che non vi siano contaminanti), mentre p è la probabilità che il campione sia difettoso (ad esempio, vi è almeno un elemento contaminante) e dove n rappresenta il numero di totale campioni esaminati. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 11 LA DISTRIBUZIONE DI POISSON In molte applicazioni si è interessati a contare il numero di volte in cui si osserva la realizzazione di un evento (contaminazione, presenza di un patogeno, ecc.) in una certa area di opportunità. Un’area di opportunità è un intervallo continuo quale un tempo, una lunghezza, una superficie, un volume o in generale un’area nella quale un certo evento può verificarsi più volte. Un esempio può essere quello di un processo di fertilizzazione industriale in cui si vuole inoculare in 1000 bottiglie di liquami di scarti di carne una sospensione di spore con un livello medio di 10 spore / bottiglia. Qual è la probabilità nella bottiglia che siano presenti 0 spore / bottiglia (evento: P(X < 1))? ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 12 6 LA DISTRIBUZIONE DI POISSON Per poter utilizzare la distribuzione di Poisson come modello matematico per la conta dei batteri in un campione alimentare, alcune condizioni devono essere soddisfatte: Il numero di singoli organismi per unità di campionamento (k) deve essere ben al di sotto del numero max possibile che potrebbe verificarsi (k→∝); La probabilità che una determinata posizione in una unità di campionamento sia occupata da un organismo deve essere allo stesso tempo costante e molto piccola; La presenza di un singolo organismo in qualsiasi posizione deve né aumentare né diminuire la probabilità che un altro organismo nocivo sia vicino; Le dimensioni dei campioni deve essere piccola rispetto a tutta la popolazione. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 13 LA DISTRIBUZIONE DI POISSON La funzione di probabilità della distribuzione di Poisson, il suo valore atteso e la sua varianza, sono definite dalle seguenti espressioni: ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 14 7 DISTRIBUZIONE POISSON ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 15 LA DISTRIBUZIONE BINOMIALE NEGATIVA Se la seconda e la terza condizione per l'uso della distribuzione di Poisson non sono soddisfatte, la varianza della popolazione di solito è maggiore della media (µ > σ2 ). Questo è particolarmente vero nel campo della microbiologia in cui gli aggregati di cellule si manifestano sia nei campioni naturali che in diluizioni, preparazione di vetrini, ecc. Dei vari modelli matematici disponibili, la distribuzione binomiale negativa è spesso il miglior modello per descrivere la distribuzione delle frequenze ottenute. La distribuzione binomiale negativa, che descrive il numero di fallimenti prima del x-esimo successo, quando n è il numero intero, è definita dall’espressione: 16 ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 8 LA DISTRIBUZIONE BINOMIALE NEGATIVA Un metodo molto semplice per ottenere un valore approssimativo per il k può essere ottenuta riordinando l'equazione per la varianza di una binomiale negativa: Per ottenere stime più affidabili è opportuno utilizzare il metodo di stima della massima verosimiglianza. Il metodo della massima verosimiglianza è implementato dal software statistico R (non Minitab), tuttavia esiste la possibilità di effettuare i calcoli usando degli applet presenti sul web: http://www.wessa.net/rwasp_fitdistrnegbin.wasp#output ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 17 MODELLI PROBABILISTICI PER VARIABILI CONTINUE z z z z Una funzione di densità di probabilità continua è un modello che definisce analiticamente come si distribuiscono i valori assunti da una variabile aleatoria continua. Quando si dispone di un’espressione matematica adatta alla rappresentazione di un fenomeno continuo, siamo in grado di calcolare la probabilità che la variabile aleatoria assuma valori compresi in intervalli (gli intervalli sono gli eventi di interesse, per una v.a. continua). Tuttavia, si noti che la probabilità che la variabile aleatoria continua assuma un particolare valore è pari a zero. I modelli continui hanno importanti applicazioni in ingegneria, scienze fisiche e naturale e scienze sociali. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 18 9 MODELLI PROBABILISTICI PER VARIABILI CONTINUE z Alcuni tipici fenomeni continui sono gli aspetti dimensionali dei campioni/prelievi (volume, peso, ecc.) o il tempo che intercorre fra il verificarsi di due eventi di interesse (ad esempio la contaminazione). z La figura rappresenta graficamente tre funzioni di densità di probabilità: normale, uniforme ed esponenziale. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 19 DISTRIBUZIONE NORMALE O GAUSSIANA La distribuzione normale (o distribuzione Gaussiana) è la distribuzione continua più utilizzata in statistica. La distribuzione normale è importante in statistica per tre motivi fondamentali: 1. Diversi fenomeni continui sembrano seguire, almeno approssimativamente, una distribuzione normale. 2. La distribuzione normale può essere utilizzata per approssimare numerose distribuzioni di probabilità discrete. 3. La distribuzione normale è alla base dell’inferenza statistica classica in virtù del teorema del limite centrale. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 20 10 DISTRIBUZIONE NORMALE O GAUSSIANA La distribuzione caratteristiche: normale ha alcune importanti La distribuzione normale ha una forma campanulare e simmetrica. Le sue misure di posizione centrale (valore atteso, mediana) coincidono. Il suo range interquartile è pari a 1.33 volte lo scarto quadratico medio, cioè copre un intervallo compreso tra µ – 2/3σ e µ + 2/3σ. La variabile aleatoria con distribuzione assume valori compresi tra -∞ e + ∞. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO normale 21 DISTRIBUZIONE NORMALE O GAUSSIANA ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 22 11 DISTRIBUZIONE NORMALE O GAUSSIANA Notiamo che, essendo e e π delle costanti matematiche, le probabilità di una distribuzione normale dipendono soltanto dai valori assunti dai due parametri µ e σ. Specificando particolari combinazioni di µ e σ, otteniamo differenti distribuzioni di probabilità normali. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 23 DISTRIBUZIONE NORMALE O GAUSSIANA Poiché esiste un numero infinito di combinazioni dei parametri µ e σ, per poter rispondere a quesiti relativi a una qualsiasi distribuzione normale avremmo bisogno di in numero infinito di tavole. Introduciamo ora una formula di trasformazione delle osservazioni, chiamata standardizzazione, che consente appunto di trasformare una generica variabile aleatoria normale in una variabile aleatoria normale standardizzata. La standardizzazione Z= X −µ σ Z è la variabile ottenuta sottraendo ad X il suo valore atteso µ e rapportando il risultato allo scarto quadratico medio, σ. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 24 12 DISTRIBUZIONE LOG-NORMALE ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 25 DISTRIBUZIONE LOG-NORMALE Figure 4-27 Lognormal probability density functions with θ = 0 for selected values of ω2. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 26 13 TRASFORMAZIONI DEI DATI DISCRETI La distribuzione normale è raramente un modello adatto per i dati microbiologici, ma è molto importante perché molti test statistici parametrici sono basati sulla distribuzione normale. Tali test includono l'analisi della varianza (ANOVA) e test per la significatività delle differenze. Per dati microbiologici, devono essere perciò prese in considerazione trasformazioni dette 'normalizzanti'. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 27 PROCEDURE DI GOODNESS-OF-FIT Una volta assunta una funzione p(x) e f(x) adeguata a rappresentare un problema reale (discreto o continuo), e disponendo di stime plausibili per i suoi parametri, è possibile calcolare la probabilità di un qualsiasi evento di interesse. Tuttavia, dal momento che la vera legge di probabilità PX di un fenomeno X rappresenta una caratteristica ignota e non osservabile della popolazione (come per altro lo sono i anche i suoi parametri), risulta di interesse valutare la bontà di adattamento (goodness of fit) di uno specifico modello probabilistico rispetto ad un campione di dati osservati. Più propriamente, un test statistico di goodness of fit consente di prendere una decisione in merito all’ipotesi che il vero modello della popolazione sia o meno uno prespecificato modello probabilistico. ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 28 14 TEST CHI-QUADRATO z Per verifica l’ipotesi nulla secondo cui legge di probabilità PX di un fenomeno X è uguale a P0, H0: PX = P0 contro l’alternativa H1: PX ≠ P0 si può considerare la statistica χ2 Statistica test χ2 per il confronto tra leggi di probabilità: χ = 2 ∑ tutte le celle z ( f0 − fe ) 2 fe La statistica χ2 si ottiene calcolando per ogni cella di una tabella di contingenza la differenza al quadrato fra la frequenza osservata (f0) e quella attesa (fe), divisa per fe, e sommando quindi il risultato ottenuto per ogni cella. 29 ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO TEST CHI-QUADRATO Fissato α, l’ipotesi nulla dovrà essere rifiutata se il valore osservato della statistica χ2 è maggiore del valore critico χ2U di una distribuzione χ2 con (r-1) gradi di libertà. Field 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 No. bacteria 19 12 7 11 9 9 7 7 9 13 18 13 10 12 12 Conteggio di No. bacteria No. bacteria Totale 4-5 6 6-7 11 8-9 12 10-11 18 12-13 12 14-15 11 16-17 11 18-19 11 20-21 3 22-23 3 24-26 2 Totale complessivo 100 Num. medio di batteri 12.69 X 4 6 8 10 12 14 16 18 20 22 24 26 28 Fr_att_Poiss 0.5 2.6 8.4 16.4 21.8 20.9 15.1 8.5 3.8 1.4 0.4 0.1 0.0 Fr_oss 0 6 11 12 18 12 11 11 11 3 0 3 2 Chi-Sq.Stat. = DF = alpha = Crit. value = ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO (Att-Oss)^2/Att 0.5 4.3 0.8 1.2 0.7 3.8 1.1 0.8 13.4 1.8 0.4 73.0 122.9 101.728 12 0.05 18.74 30 15 TEST CHI-QUADRATO Conteggio dei batteri: frequenze osservate vs distribuzione di Poisson 22 20 Fr_oss Fr_att 18 Frequenza 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Numero di batteri Chi-Sq. Stat. = 101.728 DF = 12 alpha = 0.05 Crit. value = 18.74 31 ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO TEST CHI-QUADRATO Conteggio dei batteri: frequenze osservate vs distribuzione binomiale negativa 22 20 Fr_oss Fr_att 18 Frequenza 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Numero di batteri Chi-Sq. Stat. = DF = alpha = Crit. value = 14.5 12 0.05 18.74 ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 32 16 TEST DI ANDERSON-DARLING La statistica di Anderson-Darling (A2) misura l'area il modello previsto (in base alla distribuzione scelta) e la funzione di ripartizione empirica. Più precisamente, la statistica Anderson-Darling è una distanza al quadrato che avrà un peso maggiore nelle code della distribuzione. Valori bassi della statistica Anderson-Darling indicano che la distribuzione ipotizzata si adatta bene i dati. La statistica A2 può essere applicata sia a modelli discreti sia continui, ma tradizionalmente viene applicata a variabili continue. La statistica test Anderson-Darling A2 è definita come A2 = - n – S, dove S=∑ni=1((2*i - 1)/n)*[ln(F(Y(i)) + ln(1 - F(Y(N+1-i))] F è la funzione di distribuzione cumulativa della distribuzione specificata 33 ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO TEST DI ANDERSON-DARLING Summary for Counts Anderson-Darling Normality Test A-Squared P-Value < Mean StDev Variance Skewness Kurtosis N 0 750000 1500000 2250000 Minimum 1st Quartile Median 3rd Quartile Maximum 3000000 5.08 0.005 731462 719651 5.17897E+11 1.99001 4.14066 80 26303 270721 519110 971676 3467369 Probability Plot of Counts 95% Confidence Interval for Mean 9 5 % C onfidence Inter vals 571312 Mean Normal - 95% CI 891612 95% Confidence Interval for Median 369663 Median 300000 400000 500000 600000 700000 800000 900000 99.9 99 95% Confidence Interval for StDev 622824 852407 95 90 Lognormal - 95% CI Loc Scale N AD P-Value 99 95 Percent 90 80 70 60 50 40 30 20 13.05 1.037 80 0.518 0.183 Percent Probability Plot of Counts 99.9 Mean 731462 StDev 719651 N 80 AD 5.081 P-Value <0.005 640945 80 70 60 50 40 30 20 10 5 1 0.1 -2000000 -1000000 0 1000000 2000000 3000000 4000000 Counts 10 5 1 0.1 10000 100000 1000000 Counts 10000000 ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 34 17 TEST DI ANDERSON-DARLING Summary for Peso Anderson-Darling Normality Test 1.77 0.005 A-Squared P-Value < 0.96 0.98 1.00 1.02 1.04 1.06 1.08 Mean StDev Variance Skewness Kurtosis N 0.98302 0.02868 0.00082 1.61433 3.20499 50 Minimum 1st Quartile Median 3rd Quartile Maximum 0.94500 0.96275 0.97700 0.99425 1.08500 Probability Plot of Peso Lognormal - 95% CI 99 Loc -0.01753 Scale 0.02857 N 50 AD 1.592 P-Value <0.005 95% Confidence Interval for Mean 9 5 % C onfidence Inter vals 0.97487 Mean 90 95% Confidence Interval for Median 0.970 0.975 0.980 0.985 0.98500 95% Confidence Interval for StDev 0.990 0 02396 0 03574 Probability Plot of Peso Normal - 95% CI 80 Percent 0.96867 Median 70 60 50 40 30 20 99 Mean 0.9830 StDev 0.02868 N 50 AD 1.768 P-Value <0.005 95 90 80 Percent 95 0.99117 70 10 5 1 0.90 0.95 1.00 Peso 1.05 1.10 60 50 40 30 20 10 5 1 0.90 0.95 1.00 Peso 1.05 1.10 ELEMENTI DI PROBABILITÀ PER L’ANALISI DEL RISCHIO 35 18