LA DISTRIBUZIONE NORMALE Allo scopo di interpolare un

LA DISTRIBUZIONE NORMALE
(Vittorio Colagrande)
Allo scopo di interpolare un istogramma di un carattere statistico X con una funzione
continua (di densità), si può far ricorso nell’analisi statistica alla distribuzione normale o
distribuzione di Gauss come modello teorico di riferimento. Ciò, in particolare, quando il
numero delle classi dell’istogramma è elevato e l’ampiezza di ogni classe piccola.
Ad esempio, la figura che segue si riferisce alla distribuzione empirica della statura di 700
maschi di età 13-18 anni; l’istogramma può essere “interpolato” con una curva normale con
media μ = 172.8 cm e varianza σ 2 = 56.7 cm2 (deviazione standard σ = 7.53 cm):
0.03
0.00
0.01
0.02
Densità
0.04
0.05
0.06
Statura di 700 maschi di età 13-18 anni
150
154
158
162
166
170
174
178
182
186
190
194
statura
In realtà, la variabilità di alcuni caratteri biologici (peso, statura, pressione arteriosa,
glicemia, temperatura corporea,…) dipende dall’apporto di molteplici fattori genetici e
ambientali e le loro distribuzioni sono tanto più “vicine” alla distribuzione normale quanto più
grande è il numero di fattori che entrano in gioco.
La densità di un carattere X distribuito normalmente è individuata dalla funzione:
f ( x) =
1
2π ⋅ σ
e −(x −μ)
2
2σ 2
ed è caratterizzata dai due parametri di media μ e varianza σ 2 .
La figura seguente rappresenta la curva di una distribuzione normale con μ =5 e σ 2 = 6.3 e
sull’asse orizzontale sono evidenziati i valori di μ + σ = 2.5 , μ = 5 e μ + σ = 7.5 :
La curva normale risulta:
1
•
•
•
simmetrica rispetto alla retta parallela all’asse verticale e passante per la media, ovvero,
presi due punti qualsiasi sull’asse orizzontale equidistanti dalla mediana (=media), uno a
sinistra e l’altro a destra, la funzione di densità assume per essi lo stesso valore;
asintotica rispetto all’asse delle ascisse, cioè per valori sempre più distanti dalla media
l’ordinata della curva tende a zero;
crescente nell’intervallo (−∞, μ ) e decrescente nell’intervallo (μ,+∞ ) ; la crescita è
“meno veloce” fino a μ − σ (punto di flesso) e più rapida da tale valore a μ ; si ha un
massimo in μ e poi l’andamento è decrescente con ritmo più veloce dal massimo a μ + σ
(punto di flesso).
Un significato importante assume l’area “al di sotto” della curva tra i valori X=x1 e X=x2:
Area tra x1 e x2 = Frequenza % dei valori di X compresi tra x1 e x2 = P(x1<X ≤ x2)
L’area totale al di sotto della curva è uguale a 1 e si può osservare che:
P(X>x1) = 1 ─ P(X ≤ x1) e P(x1<X ≤ x2) = P(X ≤ x2) ─ P(X ≤ x1).
La media è il parametro di posizione, nel senso che, al variare del suo valore, la curva non
cambia nella forma ma subisce una traslazione rispetto all’asse orizzontale; nella figura sono
rappresentate tre distribuzioni di pesi aventi la stessa varianza ma media diversa:
La varianza è il parametro di scala: al suo variare cambia la forma della curva di
distribuzione. In particolare, per bassi valori di σ , l’area sotto la curva è concentrata intorno
alla media, mentre per alti valori di σ , la curva è “schiacciata” rispetto all’asse orizzontale;
nella figura sono riportate tre distribuzioni di pesi aventi ugual media, ma varianze diverse:
2
Evidentemente esiste un numero infinito di distribuzioni normali diverse tra loro, ottenute
al variare dei due parametri. Tutte queste distribuzioni diverse possono essere ricondotte ad
un unica distribuzione standard: la distribuzione normale standard, avente media μ = 0 e
varianza σ 2 =1.
All’uopo va considerata la trasformazione (standardizzazione):
Z=
X −μ
,
σ
e Z è la variabile normale standardizzata e ha densità f ( z ) =
1
2π
e
−
z2
2
.
Graficamente:
Per il calcolo delle aree al di sotto della curva normale standardizzata si può far ricorso ad un
programma informatico (ad esempio all’ambiente R) o a tavole della distribuzione normale
standardizzata (come quella riportata in Appendice).
In merito alle aree, un risultato importante è schematizzato nella figura che segue:
3
Esempio 1. Una popolazione di maschi si distribuisce normalmente secondo la statura (X)
con media μ = 173 cm e deviazione standard σ =13 cm.
Determinare la frequenza relativa degli individui:
1. con statura maggiore di 200 cm;
2. con statura compresa tra 175 e 190 cm;
3. con statura minore di 156 cm.
Per rispondere alle domande poste è necessario procedere alla standardizzazione
dell’altezza e utilizzare la tavola riportata in Appendice.
1. standardizzando x = 200 cm:
200 − 173
z=
= 2.08 ,
13
si ha:
P(X>200) = P(Z>2.08) = 1 ─ P(Z ≤ 2.08) =
(ricercando all’interno della tavola nell’incrocio
tra la riga del 2.0 e la colonna di 0.08)
= 1─0.9812 = 0.019 = 1.9% ≅ 2% di individui;
2. standardizzando 175 e 190 cm:
175 − 173
190 − 173
z1 =
= 0.15 e z 2 =
= 1.31 ,
13
13
si ha:
P(175<X ≤ 199)=P(0.15<Z ≤ 1.31)=P(Z ≤ 1.31)–
–P(Z ≤ 0.15)= (valori interni alla tavola
nell’incrocio tra la riga di 1.3 e 0.01 e
nell’incrocio tra la riga di 0.1 e 0.05)
= 0.9049–0.5596 ≅ 35% di maschi;
4
3. standardizzando 156 cm:
156 − 173
z=
= −1.31 ,
13
risulta:
P(X ≤ 156)=P(Z ≤ ─1.31)=
(per
la
simmetria della curva) = P(Z >1.31) = 1 –
P(Z ≤ 1.31) = (valore interno alla tavola
nell’incrocio tra la riga 1.3 e la colonna
0.01) =1 – 0.9049 ≅ 10% di individui.
Sempre in riferimento all’esempio considerato, ci si può chiedere:
4. qual è la statura massima del 10% degli individui più bassi;
5. qual è la statura minima del 5% degli individui più alti.
Per rispondere alle due domande è necessario partire dai valori interni alla tavola (che sono
valori di frequenze relative/probabilità).
4. Va determinato, anzitutto, il valore z1 della variabile Z per il quale risulta
P(Z ≤ z1)=10%=0.1. Per la simmetria della curva (vedi grafico) risulta che: P(Z ≤ z1) =
P(Z>z2)=1–P(Z ≤ z2).Osservando all’interno
della tabella di Appendice, il valore z2 di Z al
quale corrisponde una probabilità di 0.90
(data da 1–0.1) è pari a 1.28 (riga di 1.2 e
colonna di 0.08). Pertanto, sempre per la
simmetria, si ha: z1=–1.28 e, per la
standardizzazione, il valore x1 della variabile
X corrispondente a z1 è dato da
(x1–
173)/13= –1.28 ⇒ x1 = 156 cm. Tale valore
è proprio la massima altezza del 10% degli
individui più bassi.
5. In questo caso il valore z1 di z è tale che P(Z>z1) = 5% = 0.05 e va determinato in modo
che risulti 1– P(Z ≤ z1) = 0.95. Dall’interno
della tavola si evince che il valore di Z al
quale corrisponde una probabilità del 95% è
pari a z1 = 1.645 (media dei valori di Z
corrispondenti al probabilità di 0.9495 e
0.9505). Il valore x1 dell’altezza di ottiene da:
(x1–173)/13= 1.645 ⇒ x1 = 194 cm, che
rappresenta proprio la statura minima del 5%
degli individui più alti nella popolazione presa
in esame.
Esempio 2. In una data popolazione è noto che l’HDL-colesterolo si distribuisce
normalmente con media μ = 57 mg/100ml e deviazione standard σ = 5 mg/100ml.
Determinare la percentuale di soggetti della popolazione con
a) HDL maggiore di 60 mg/100ml,
b) HDL compreso tra 40 e 45 mg/100ml,
c) HDL minore di 58 mg/100ml,
d) HDL tra 55 e 58 mg/100ml.
(risultati: a) 27.43%, b) 0.79%, c) 57.93%, d) 23.47%).
5
APPENDICE
6