DISTRIBUZIONE NORMALE (1) Nella popolazione generale molte variabili presentano una distribuzione a forma di campana, bene caratterizzata da un chiamata punto di vista distribuzione matematico, normale o curva di Gauss ( o ancora detta curva degli errori accidentali ). 1 DISTRIBUZIONE NORMALE (2) Storicamente la distribuzione normale è nata dall’osservazione delle misurazioni ripetute di un fenomeno fisico. La maggior parte dei fenomeni che si osservano nella realtà assumono la forma di una distribuzione normale: • fenomeni biomedici (colesterolo, pressione arteriosa, ceppo genetico, ecc.); • fenomeni antropometrici (statura, peso, perimetro toracico, ecc.); • fenomeni fisici (misure del periodo di un 2 pendolo, ecc.). DISTRIBUZIONE NORMALE (3) La formula relativa alla distribuzione normale è 1 f ( x) = e 2πσ 2 x−µ ) ( − 2σ 2 dove: µ è la media; σ è la deviazione standard; π è una costante pari a 3,14159; e è una costante pari a 2,718282; i valori della x possono va da meno infinito a più infinito; f ( x ) corrisponde all'altezza della curva per ogni valore di x3 In termini meno matematici, la formula relativa alla distribuzione normale permette di stimare il valore di f(x) (il valore dell’ordinata y o altezza della curva) per ogni valore di x (il valore della ascissa). 4 La media e la deviazione standard della popolazione risultano completamente rappresentative della distribuzione, essendo questa simmetrica rispetto alla media, con i punti di flesso corrispondenti alla deviazione standard. 5 La media individua la posizione della curva, infatti, facendo variare lungo l’asse delle x. µ, la curva si sposta Tre distribuzioni normali con medie diverse ma con la stessa deviazione standard 6 La deviazione standard dà informazioni su come i valori sono più o meno concentrati intorno alla media, infatti, facendo variare σ , in più o in meno, si ottengono rispettivamente curve più appiattite o meno appiattite. 7 CARATTERISTICHE DELLA DISTRIBUZIONE NORMALE è simmetrica intorno alla sua media µ ; media, la moda e la mediana coincidono; l’area sottesa alla curva è uguale ad 1. A causa della simmetria rispetto alla media a destra e a sinistra della perpendicolare alzata dalla media si trova il 50% dell’area. presenta una diminuzione dell’addensamento delle osservazioni man mano che ci si allontana dal valore medio; 8 la percentuale di casi che cade fra la media ed i multipli della deviazione standard e' costante: 9 10 11 12 Gli indici statistici, in particolare i percentili, costituiscono un buon sistema per valutare quanto una popolazione si adatti alla distribuzione normale. In una distribuzione normale, infatti, i valori associati a percentili assegnati sono i seguenti: 2,5° percentile media-2deviazione standard 16° percentile media-1deviazione standard 50° percentile(mediana) media 84° percentile media+1deviazione standard 97,5° percentile media+2deviazione standard 13 Se i valori associati ai percentili non sono troppo diversi da quelli attesi sulla base della media e della deviazione standard, allora la distribuzione normale è una buona rappresentazione della popolazione reale e, di conseguenza, media e deviazione standard descrivono in modo adeguato tale popolazione. 14 DISTRIBUZIONE NORMALE STANDARDIZZATA (1) Per ogni coppia di valori µ e σ si ottengono tante distribuzioni normali. Si può riportare l’insieme di tali distribuzioni a un’unica distribuzione ponendo x−µ z= σ 15 DISTRIBUZIONE NORMALE STANDARDIZZATA (2) L’equazione per la distribuzione normale standardizzata è data da 1 f (z) = e 2π z2 − 2 Tale distribuzione ha media 0 e deviazione standard 1. 16 17 Esempio Da uno studio sulla malattia di Alzheimer, Dusheiko ha riportato i dati che sono compatibili con l'ipotesi che il peso del cervello delle vittime della malattia si distribuisca normalmente. Dai dati possiamo calcolare una media di 1076.80 grammi e una deviazione standard di 105.76 grammi. Se assumiamo che questi risultati sono applicabili a tutte le vittime della malattia di Alzheimer, ci chiediamo quale sia la probabilità che una vittima della malattia scelta a caso abbia un cervello che pesa meno di 800 grammi. 18 l'area tratteggiata corrisponde alla probabilità richiesta 19 Dobbiamo determinare quale valore corrisponde ad un x di 800. Per far questo usiamo la formula di z x−µ z= σ (Tale formula trasforma ogni valore di qualsiasi distribuzione normale nel corrispondente valore di z della distribuzione normale standardizzata) 20 Distribuzione Normale Distribuzione Normale standardizzata 21 Dalla tabella troviamo che l'area a sinistra di z = - 2.62 è .0044. Possiamo sintetizzare quanto detto nel seguente modo: Quindi la probabilità che un paziente scelto a caso abbia un peso del cervello minore di 800 grammi è uguale a 0.0044 22 Quindi: • qualsiasi essere distribuzione trasformata in normale curva può normale standardizzata con media 0 e d.s. 1; • l’uso della forma standardizzata ci consente di trovare, servendoci delle tavole apposite, la porzione di area compresa tra due valori qualsiasi. 23 Distribuzione binomiale al crescere di n L’asimmetria diminuisce, a parità di p e q, al crescere di n e la distribuzione si approssima alla curva normale 24 Distribuzione di Poisson al crescere di λ Per λ > 20 si può ammettere senza grande rischio di errore che la v.c. di Poisson si distribuisce come una normale standardizzata del tipo k − λ σ 25 Esercizio n. 1 Il 30% di una popolazione è immune da una malattia. Se si estrae un campione casuale di dimensione 10 da questa popolazione, ci si chiede qual è la probabilità che esso contenga esattamente quattro persone immuni. p q n x = = = = 0.3 0.7 10 4 10! P( x = 10) = ⋅ 0.7 6 ⋅ 0.34 = 0.2001 4!6! 26 Allo stesso risultato si poteva arrivare attraverso l’uso della tabella Binomiale: 27 Dalla tabella risulta che, in corrispondenza di p=0.3 e n=10 P ( X ≤ 3) = 0.6496 e che, in corrispondenza di p=0.4 e n=10 P ( X ≤ 4) = 0.8497 quindi P ( x = 4) = P ( X ≤ 4) − P ( X ≤ 3) = = 0.8497 − 0.6496 = 0.2001 28 Esercizio n. 2 Il 10% di una popolazione è daltonico. Se estraiamo un campione casuale di 25 soggetti da questa popolazione, si vuole trovare la probabilità che: •Un numero di soggetti minore o uguale a cinque sia daltonico: 29 con l’uso della tabella binomiale, in corrispondenza di n=25 e p=0.1 si ha P ( X ≤ 5 ) = 0,9666 •Un numero di soggetti maggiore o uguale a sei sia daltonico: si considera P ( X ≥ 6 ) = 1 − P ( X ≤ 5 ) = 1 − 0,9666 = 0, 0334 30 •Un numero di soggetti compreso tra sei e nove, estremi inclusi, sia daltonico: P ( 6 ≤ X ≤ 9 ) = P ( X ≤ 9 ) − P ( X ≤ 5) = 0,9999 − 0,9666 = 0, 0333 •Due, tre o quattro soggetti siano daltonici: P ( 2 ≤ X ≤ 4 ) = P ( X ≤ 4 ) − P ( X ≤ 1) = = 0.9020 − 0.2712 = 0.6308 31 Esercizio n. 3 In un certo organismo acquatico, è stato preso un gran numero di campioni da uno stagno ed è stato contato, in ciascun campione, il numero di organismi. Il numero medio di organismi è risultato uguale a due. Assumendo che il numero di organismi segua una distribuzione di Poisson, la probabilità che il prossimo campione preso contenga un numero di organismi minore o uguale ad uno si determina attraverso la tabella di Poisson infatti 32 Nella tabella di Poisson, per λ = 2 la probabilità che X ≤ 1 è 0.406. Analogamente, la probabilità che il prossimo campione contenga esattamente tre organismi è data da P ( X = 3 2 ) = P ( X ≤ 3) − P ( X ≤ 2 ) = 0,857 − 0, 677 = 0,180 La probabilità che il prossimo campione preso contenga più di cinque organismi è data da P ( X > 5 2 ) = 1 − P ( X ≤ 5 ) = 1 − 0,983 = 0, 017 33 34 Esercizio n. 4 Supponendo che da alcuni dati ufficiali rilevati sulla popolazione nazionale, risulti che il valore medio dell’HDL-colesterolo è . di 57 mg/100 quadratico medio ml con uno scarto σ =5 Sapendo che la distribuzione è di tipo normale, si vuole determinare: 35 a)La percentuale di valori HDL-colesterolo superiori a 60 mg/100 ml In tal caso il valore empirico è x = 60 quindi x − µ 60 − 57 z= = = 0, 6 5 σ Dalla tabella, a corrisponde il rappresenta l’area media e z = 0,6. tale valore valore di 0,2257, compresa tra z che la 36 Ma, poiché si vuole determinare la percentuale dei casi che supera z = 0,6 (e quindi l’area compresa tra z = 0,6 e l’infinito), valore sarà trovato necessario sulle sottrarre tavole alla il metà dell’area sottesa dalla curva: 0,5-0,2257=0,2743 pertanto i valori di HDL-colesterolo superiori a 60 mg/100 ml corrispondono al 27,43% di tutti i valori osservati. 37 38 b) La percentuale di valori HDL-colesterolo compresi tra 40 mg/100 ml e 45 mg/100 ml. In tal caso i valori empirici sono x1 = 40 e x2 = 45 quindi 40 − 57 z1 = = −3. 4 5 45 − 57 z2 = = −2,4 5 Dalla tabella, a tali valori di z corrispondono, rispettivamente, i valori 0,4996 e 0,4918. 39 Per determinare la percentuale dei casi che cadono tra i due valori -3,4 e -2,4 occorre sottrarre: 0,4996 - 0,4918 = 0,0078 pertanto i valori di HDL-colesterolo compresi tra 40 mg/100 ml e 45 mg/100 ml corrispondono allo 0,78% di tutti i valori osservati. 40 41 c) La percentuale di valori HDL-colesterolo compresi tra 55 mg/100 ml e 58 mg/100 ml. In tal caso i valori empirici sono x1 = 55 e x2 = 58 (in questo intervallo è compreso il valor medio) quindi 55 − 57 z1 = = − 0. 4 5 58 − 57 z2 = = 0,2. 5 42 Dalla tabella, a tali valori di z corrispondono rispettivamente i valori 0,1554 e 0,0793. Per determinare la percentuale dei casi che cadono tra i due valori -0,4 e 0,2 occorre sommare: 0,1554 + 0,0793 = 0,2347 pertanto i valori di HDL-colesterolo compresi tra 55 mg/100 ml e 58 mg/100 ml corrispondono al 23,47% di tutti i valori osservati. 43 Conclusioni: Sono stati trattati i concetti di variabili casuali discrete e continue e le loro distribuzioni di probabilità. In particolare, sono state esaminate due distribuzioni di probabilità discrete: Distribuzione Binomiale Distribuzione di Poisson Ed una distribuzione di probabilità continua: Distribuzione di Gauss Queste distribuzioni teoriche, opportunamente scelte in base al fenomeno considerato, permettono di fare considerazioni probabilistiche su alcune variabili casuali di interesse in campo 44 medico-sanitario.