LA DISTRIBUZIONE
NORMALE
Italo Nofroni
Statistica medica - Facoltà di Medicina
Sapienza - Roma
La più nota ed
importante
distribuzione di
probabilità è, senza
alcun dubbio, la
Distribuzione normale,
anche detta
distribuzione di Gauss
(1777 – 1855), ben
noto matematico
tedesco
Curva Normale o di Gauss
Il nome normale deriva dal fatto che
molte variabili di interesse biologico
(circonferenza cranica, statura,
glicemia, colesterolo, QI, pressione
sistolica ecc.) si presentano secondo
una distribuzione comune,
prevedibile, con frequenze più alte in
corrispondenza dei valori prossimi al
valor medio centrale e più basse
simmetricamente per i valori estremi
E’ detta anche Curva degli errori
accidentali perché, soprattutto nelle
discipline fisiche, gli errori commessi
misurando numerose volte la stessa
grandezza, con lo stesso strumento di
misura, approssimano molto bene questa
curva
Fu proprio in questo ambito che Gauss la
propose nel 1809
Gli errori casuali di misura, considerati
nel loro complesso, mostrano un
comportamento tipico che può essere
così descritto
¾ Gli errori piccoli sono più frequenti
di quelli grandi
¾ Gli errori di segno negativo tendono
a manifestarsi con la stessa
frequenza di quelli con segno
positivo
1
Tale curva teorica, costituisce anche la
principale distribuzione cui fare riferimento in
molte applicazioni di inferenza statistica
Infatti le medie campionare, sotto certe
condizioni, tendono a distribuirsi in modo
normale (Teorema del limite centrale) il che
consente di stimare i valori caratteristici di una
popolazione partendo da quelli di un suo
campione, nonché di verificare ipotesi basate
sui dati campionari
Proprietà
9 E’ continua
9 Varia fra – ∞ e + ∞
9 E’ asintotica
9 E’ simmetrica con asse si
simmetria passante per un punto
ove Media, Mediana e Moda
coincidono
9 Presenta il massimo in µ
E’ quindi evidente che la forma della
funzione dipende dai due parametri che la
caratterizzano
Funzione della Curva Normale
f (x ) =
1
2π σ
2
e
− 12 ( x σ− μ )
2
dove σ = SD della totalità delle misure
μ = media della totalità delle misure
e = base dei logaritmi naturali (e = 2.7182...)
π = π greco = 3.14159...
Al ridursi di σ la curva si innalza e si “restringe”,
al crescere di σ si abbassa e si “allarga”
Media µ
Standard deviation σ
f (x ) =
1
2π σ
2
e
− 12 ( x σ− μ )
2
Al variare di µ la curva trasla sull’asse delle
ascisse
2
Le distribuzioni normali sono quindi una
famiglia di distribuzioni che hanno le
stesse caratteristiche e lo stesso
andamento
Sono curve simmetriche con valori più
concentrati verso il centro e meno nelle
estremità laterali
Esempi di
normali
Caratteristiche
Caratteristiche
L’area totale sottesa alla curva è pari
ad 1
Facendo quindi tendere all’infinito il
loro numero, i gradini degli istogrammi
si ridurranno sempre più fino a
costituire una curva continua, ma
conservando sempre l’area totale pari
ad 1
Questa affermazione si può verificare
empiricamente:
scelta una variabile continua, questa
viene rappresentata con istogrammi,
facendo riferimento alla frequenza
relativa la cui somma è pari ad 1
La curva ottenuta, per N = ∞ , manterrà
l’area pari ad 1
LA DISTRIBUZIONE NORMALE
Caratteristiche
L’area totale della curva è quindi pari
ad 1, corrispondendo perciò alla
probabilità totale
Grande parte dell’area della curva
(circa il 68 %) è però compresa entro
l’intervallo µ ± σ
Esempio 1
Si supponga di eseguire, in condizioni
assai simili e con lo stesso metodo
analitico, un gran numero di titolazioni di
una soluzione di glucosio avente
concentrazione θ = 90 mg/dl e di
riportare in grafico le frequenze relative
dei valori ottenuti (x) con le prime 20,
40, ... 5120 misure
3
n=20
0,15
n=40
0,15
0,12
0,12
0,09
0,09
0,09
0,06
0,06
0,06
0,03
0,03
0,03
0
0
0
75
0.15
80
85
90
95 100 105
n=160
75
0.15
80
85
90
95
100
105
n=320
0.15
0,15
80
85
90
95
100
105
n=1280
0.12
0,09
0.09
0.06
0,06
0.06
0.03
0,03
0.03
0
80
85
90
95
100 105
flesso
flesso
0 .0 6
σ
0.15
0,12
0.09
75
0 .0 9
n=640
75
0.12
0
100 105
0
75
n=2560
95
0.03
0
0
90
0.06
0.03
0.03
85
0.09
0.06
0.06
80
0.12
0.09
0.09
massimo
f(x)
75
0.15
0.12
0.12
LA DISTRIBUZIONE NORMALE
n=80
0,15
0,12
80
85
90
95
100
105
0 .0 3
μ
n=5120
0
75
80
85
90
95
100
105
x = c o n c e n t ra z i o n e d i g l u c o s i o ( m g /d l )
0
75
80
85
90
95
100 105
75
80
85
90
95
100
Poiché ciascuno dei due parametri µ e σ
può assumere infiniti valori,
teoricamente potremmo avere infinito
alla seconda (∞2) curve di Gauss
… tante!
Nota la funzione, l’area (quindi la
probabilità) si ottiene tramite
l’integrale definito fra X1 e X2 (punti
arbitrari) della funzione stessa
Ovviamente l’integrale fra ∞ – e + ∞ è
pari ad 1 (probabilità totale, ovvero
probabilità dell’evento certo)
105
La curva normale è una funzione di
densità di probabilità di una Variabile
Casuale normale, ovvero una funzione
la cui area esprime la probabilità che
un determinato valore sia compreso
entro un qualunque intervallo
arbitrario
Integrare la funzione, considerata
anche la sua complessità, non è
certamente agevole, ma le ∞2 curve
normali possono essere ricondotte ad
una unica curva, detta Curva normale
standardizzata, tramite un semplice
cambio di variabile
4
La nuova variabile è detta
deviata standardizzata e si
ottiene dalla seguente formula
zi =
xi − μ
σ
In pratica si è espressa la variabile
originaria X nella nuova variabile Z
espressa come media μ ± multipli di σ,
prescindendo dai valori reali di tali
parametri
Questo corrisponde ad una traslazione
di assi, con la quale si è fatta
coincidere l’Origine con la media μ
La nuova variabile Z avrà quindi
media = μ = 0
SD = σ = 1
Pertanto le ∞2 Curve normali saranno
ricondotte ad una unica curva,
utilizzabile per qualunque fenomeno, le
cui aree saranno disponibile su
apposite tavole
Confronto fra i valori originali di X e i nuovi di Z
LA DISTRIBUZIONE NORMALE STANDARDIZZATA
Aree della curva normale per multipli
simmetrici di σ
5