DISTRIBUZIONE NORMALE (1)
Nella
popolazione
generale
molte
variabili presentano una distribuzione a
forma di campana, bene caratterizzata
da
un
chiamata
punto
di
vista
distribuzione
matematico,
normale
o
curva di Gauss ( o ancora detta curva
degli errori accidentali ).
1
DISTRIBUZIONE NORMALE (2)
Storicamente la distribuzione normale è nata
dall’osservazione delle misurazioni ripetute di un
fenomeno fisico.
La maggior parte dei fenomeni che si osservano
nella realtà assumono la forma di una
distribuzione normale:
• fenomeni biomedici (colesterolo, pressione
arteriosa, ceppo genetico, ecc.);
• fenomeni
antropometrici
(statura,
peso,
perimetro toracico, ecc.);
• fenomeni fisici (misure del periodo di un
2
pendolo, ecc.).
DISTRIBUZIONE NORMALE (3)
La formula relativa alla distribuzione normale è
1
f ( x) =
e
2πσ
2
x−µ )
(
−
2σ 2
dove:
µ è la media;
σ è la deviazione standard;
π è una costante pari a 3,14159;
e è una costante pari a 2,718282;
i valori della x possono va da meno infinito a più infinito;
f ( x ) corrisponde all'altezza della curva per ogni valore di x3
In termini meno matematici, la formula relativa
alla distribuzione normale permette di stimare il
valore di f(x) (il valore dell’ordinata y o altezza
della curva) per ogni valore di x (il valore della
ascissa).
4
La media e la deviazione standard della
popolazione risultano completamente rappresentative
della
distribuzione,
essendo
questa
simmetrica rispetto alla media, con i punti di
flesso corrispondenti alla deviazione standard.
5
La media individua la posizione della curva,
infatti, facendo variare
lungo l’asse delle x.
µ,
la curva si sposta
Tre distribuzioni normali con medie diverse ma con
la stessa deviazione standard
6
La deviazione standard dà informazioni su come
i valori sono più o meno concentrati intorno alla
media, infatti, facendo variare
σ
, in più o in
meno, si ottengono rispettivamente curve più
appiattite o meno appiattite.
7
CARATTERISTICHE DELLA DISTRIBUZIONE
NORMALE
è simmetrica intorno alla sua media µ ;
media, la moda e la mediana coincidono;
l’area sottesa alla curva è uguale ad 1. A causa
della simmetria rispetto alla media a destra e a
sinistra della perpendicolare alzata dalla media
si trova il 50% dell’area.
presenta una diminuzione dell’addensamento
delle osservazioni man mano che ci si allontana
dal valore medio;
8
la percentuale di casi che cade fra la media ed
i multipli della deviazione standard e'
costante:
9
10
11
12
Gli indici statistici, in particolare i percentili, costituiscono un buon sistema per valutare quanto una
popolazione si adatti alla distribuzione normale.
In una distribuzione normale, infatti, i valori associati a percentili assegnati sono i seguenti:
2,5° percentile
media-2deviazione standard
16° percentile
media-1deviazione standard
50° percentile(mediana)
media
84° percentile
media+1deviazione standard
97,5° percentile
media+2deviazione standard
13
Se i valori associati ai percentili non sono
troppo diversi da quelli attesi sulla base
della media e della deviazione standard,
allora la distribuzione normale è una buona
rappresentazione della popolazione reale e,
di
conseguenza,
media
e
deviazione
standard descrivono in modo adeguato tale
popolazione.
14
DISTRIBUZIONE NORMALE STANDARDIZZATA (1)
Per ogni coppia di valori
µ
e
σ
si
ottengono tante distribuzioni normali.
Si
può
riportare
l’insieme
di
tali
distribuzioni a un’unica distribuzione
ponendo
x−µ
z=
σ
15
DISTRIBUZIONE NORMALE STANDARDIZZATA (2)
L’equazione per la distribuzione normale
standardizzata è data da
1
f (z) =
e
2π
z2
−
2
Tale distribuzione ha media 0 e deviazione
standard 1.
16
17
Esempio
Da uno studio sulla malattia di Alzheimer,
Dusheiko ha riportato i dati che sono compatibili
con l'ipotesi che il peso del cervello delle vittime
della malattia si distribuisca normalmente.
Dai dati possiamo calcolare una media di
1076.80 grammi e una deviazione standard di
105.76 grammi.
Se assumiamo che questi risultati sono applicabili
a tutte le vittime della malattia di Alzheimer, ci
chiediamo quale sia la probabilità che una vittima
della malattia scelta a caso abbia un cervello che
pesa meno di 800 grammi.
18
l'area tratteggiata corrisponde alla probabilità
richiesta
19
Dobbiamo determinare quale valore
corrisponde ad un x di 800.
Per far questo usiamo la formula
di
z
x−µ
z=
σ
(Tale formula trasforma ogni valore di
qualsiasi
distribuzione
normale
nel
corrispondente valore di z della distribuzione
normale standardizzata)
20
Distribuzione
Normale
Distribuzione
Normale
standardizzata
21
Dalla tabella troviamo che l'area a sinistra di z =
- 2.62 è .0044. Possiamo sintetizzare quanto
detto nel seguente modo:
Quindi la probabilità che un paziente scelto a caso
abbia un peso del cervello minore di 800 grammi è
uguale a 0.0044
22
Quindi:
• qualsiasi
essere
distribuzione
trasformata
in
normale
curva
può
normale
standardizzata con media 0 e d.s. 1;
• l’uso
della
forma
standardizzata
ci
consente di trovare, servendoci delle
tavole
apposite,
la
porzione
di
area
compresa tra due valori qualsiasi.
23
Distribuzione binomiale al crescere di n
L’asimmetria diminuisce, a parità di p e q, al crescere
di n e la distribuzione si approssima alla curva normale
24
Distribuzione di Poisson al crescere di λ
Per λ > 20 si può ammettere senza grande rischio di
errore che la v.c. di Poisson si distribuisce come una
normale standardizzata del tipo k − λ
σ
25
Esercizio n. 1
Il 30% di una popolazione è immune da una
malattia. Se si estrae un campione casuale di
dimensione 10 da questa popolazione, ci si
chiede qual è la probabilità che esso contenga
esattamente quattro persone immuni.
p
q
n
x
=
=
=
=
0.3
0.7
10
4
10!
P( x = 10) =
⋅ 0.7 6 ⋅ 0.34 = 0.2001
4!6!
26
Allo stesso risultato si poteva arrivare attraverso l’uso
della tabella Binomiale:
27
Dalla tabella risulta che, in corrispondenza di p=0.3 e n=10
P ( X ≤ 3) = 0.6496
e che, in corrispondenza di p=0.4 e n=10
P ( X ≤ 4) = 0.8497
quindi
P ( x = 4) = P ( X ≤ 4) − P ( X ≤ 3) =
= 0.8497 − 0.6496 = 0.2001
28
Esercizio n. 2
Il 10% di una popolazione è daltonico.
Se estraiamo un campione casuale di
25 soggetti da questa popolazione, si
vuole trovare la probabilità che:
•Un
numero
di
soggetti
minore
o
uguale a cinque sia daltonico:
29
con l’uso della tabella binomiale, in
corrispondenza di n=25 e p=0.1 si ha
P ( X ≤ 5 ) = 0,9666
•Un numero di soggetti maggiore o
uguale a sei sia daltonico:
si considera
P ( X ≥ 6 ) = 1 − P ( X ≤ 5 ) = 1 − 0,9666 = 0, 0334
30
•Un numero di soggetti compreso tra sei
e nove, estremi inclusi, sia daltonico:
P ( 6 ≤ X ≤ 9 ) = P ( X ≤ 9 ) − P ( X ≤ 5) =
0,9999 − 0,9666 = 0, 0333
•Due, tre o quattro soggetti siano daltonici:
P ( 2 ≤ X ≤ 4 ) = P ( X ≤ 4 ) − P ( X ≤ 1) =
= 0.9020 − 0.2712 = 0.6308
31
Esercizio n. 3
In un certo organismo acquatico, è stato preso
un gran numero di campioni da uno stagno ed è
stato contato, in ciascun campione, il numero di
organismi.
Il numero medio di organismi è risultato uguale
a due.
Assumendo che il numero di organismi segua
una distribuzione di Poisson, la probabilità che il
prossimo campione preso contenga un numero
di organismi minore o uguale ad uno si
determina attraverso la tabella di Poisson infatti
32
Nella tabella di Poisson, per λ = 2 la probabilità
che
X ≤ 1 è 0.406.
Analogamente, la probabilità che il prossimo
campione contenga esattamente tre organismi è
data da
P ( X = 3 2 ) = P ( X ≤ 3) − P ( X ≤ 2 ) = 0,857 − 0, 677 = 0,180
La probabilità che il prossimo campione preso
contenga più di cinque organismi è data da
P ( X > 5 2 ) = 1 − P ( X ≤ 5 ) = 1 − 0,983 = 0, 017
33
34
Esercizio n. 4
Supponendo che da alcuni dati ufficiali
rilevati sulla popolazione nazionale, risulti
che
il valore medio dell’HDL-colesterolo è
.
di
57
mg/100
quadratico medio
ml
con
uno
scarto
σ =5
Sapendo che la distribuzione è di tipo
normale, si vuole determinare:
35
a)La percentuale di valori HDL-colesterolo superiori a 60 mg/100 ml
In tal caso il valore empirico è x = 60
quindi
x − µ 60 − 57
z=
=
= 0, 6
5
σ
Dalla
tabella,
a
corrisponde
il
rappresenta
l’area
media e z = 0,6.
tale
valore
valore
di
0,2257,
compresa
tra
z
che
la
36
Ma,
poiché
si
vuole
determinare
la
percentuale dei casi che supera z = 0,6 (e
quindi l’area compresa tra z = 0,6 e
l’infinito),
valore
sarà
trovato
necessario
sulle
sottrarre
tavole
alla
il
metà
dell’area sottesa dalla curva:
0,5-0,2257=0,2743
pertanto
i
valori
di
HDL-colesterolo
superiori a 60 mg/100 ml corrispondono al
27,43% di tutti i valori osservati.
37
38
b) La percentuale di valori HDL-colesterolo
compresi tra 40 mg/100 ml e 45
mg/100 ml.
In tal caso i valori empirici sono x1 = 40
e x2 = 45 quindi
40 − 57
z1 =
= −3. 4
5
45 − 57
z2 =
= −2,4
5
Dalla tabella, a tali valori di z
corrispondono, rispettivamente, i valori
0,4996 e 0,4918.
39
Per determinare la percentuale dei casi
che cadono tra i due valori
-3,4 e -2,4
occorre sottrarre:
0,4996 - 0,4918 = 0,0078
pertanto
i
valori
di
HDL-colesterolo
compresi tra 40 mg/100 ml e 45 mg/100
ml corrispondono allo 0,78% di tutti i
valori osservati.
40
41
c) La percentuale di valori HDL-colesterolo
compresi
tra
55
mg/100
ml
e
58
mg/100 ml.
In tal caso i valori empirici sono x1 = 55
e x2 = 58
(in questo intervallo è
compreso il valor medio)
quindi
55 − 57
z1 =
= − 0. 4
5
58 − 57
z2 =
= 0,2.
5
42
Dalla tabella, a tali valori di z corrispondono
rispettivamente
i
valori
0,1554
e
0,0793.
Per determinare la percentuale dei casi che
cadono
tra
i
due
valori -0,4 e 0,2
occorre sommare:
0,1554 + 0,0793 = 0,2347
pertanto
i
valori
di
HDL-colesterolo
compresi tra 55 mg/100 ml e 58 mg/100
ml corrispondono al 23,47% di tutti i valori
osservati.
43
Conclusioni:
Sono stati trattati i concetti di variabili casuali
discrete e continue e le loro distribuzioni di
probabilità. In particolare, sono state esaminate
due distribuzioni di probabilità discrete:
Distribuzione Binomiale
Distribuzione di Poisson
Ed una distribuzione di probabilità continua:
Distribuzione di Gauss
Queste distribuzioni teoriche, opportunamente
scelte
in
base
al
fenomeno
considerato,
permettono di fare considerazioni probabilistiche
su alcune variabili casuali di interesse in campo
44
medico-sanitario.