LA DISTRIBUZIONE NORMALE Italo Nofroni Statistica medica - Facoltà di Medicina Sapienza - Roma La più nota ed importante distribuzione di probabilità è, senza alcun dubbio, la Distribuzione normale, anche detta distribuzione di Gauss (1777 – 1855), ben noto matematico tedesco Curva Normale o di Gauss Il nome normale deriva dal fatto che molte variabili di interesse biologico (circonferenza cranica, statura, glicemia, colesterolo, QI, pressione sistolica ecc.) si presentano secondo una distribuzione comune, prevedibile, con frequenze più alte in corrispondenza dei valori prossimi al valor medio centrale e più basse simmetricamente per i valori estremi E’ detta anche Curva degli errori accidentali perché, soprattutto nelle discipline fisiche, gli errori commessi misurando numerose volte la stessa grandezza, con lo stesso strumento di misura, approssimano molto bene questa curva Fu proprio in questo ambito che Gauss la propose nel 1809 Gli errori casuali di misura, considerati nel loro complesso, mostrano un comportamento tipico che può essere così descritto ¾ Gli errori piccoli sono più frequenti di quelli grandi ¾ Gli errori di segno negativo tendono a manifestarsi con la stessa frequenza di quelli con segno positivo 1 Tale curva teorica, costituisce anche la principale distribuzione cui fare riferimento in molte applicazioni di inferenza statistica Infatti le medie campionare, sotto certe condizioni, tendono a distribuirsi in modo normale (Teorema del limite centrale) il che consente di stimare i valori caratteristici di una popolazione partendo da quelli di un suo campione, nonché di verificare ipotesi basate sui dati campionari Proprietà 9 E’ continua 9 Varia fra – ∞ e + ∞ 9 E’ asintotica 9 E’ simmetrica con asse si simmetria passante per un punto ove Media, Mediana e Moda coincidono 9 Presenta il massimo in µ E’ quindi evidente che la forma della funzione dipende dai due parametri che la caratterizzano Funzione della Curva Normale f (x ) = 1 2π σ 2 e − 12 ( x σ− μ ) 2 dove σ = SD della totalità delle misure μ = media della totalità delle misure e = base dei logaritmi naturali (e = 2.7182...) π = π greco = 3.14159... Al ridursi di σ la curva si innalza e si “restringe”, al crescere di σ si abbassa e si “allarga” Media µ Standard deviation σ f (x ) = 1 2π σ 2 e − 12 ( x σ− μ ) 2 Al variare di µ la curva trasla sull’asse delle ascisse 2 Le distribuzioni normali sono quindi una famiglia di distribuzioni che hanno le stesse caratteristiche e lo stesso andamento Sono curve simmetriche con valori più concentrati verso il centro e meno nelle estremità laterali Esempi di normali Caratteristiche Caratteristiche L’area totale sottesa alla curva è pari ad 1 Facendo quindi tendere all’infinito il loro numero, i gradini degli istogrammi si ridurranno sempre più fino a costituire una curva continua, ma conservando sempre l’area totale pari ad 1 Questa affermazione si può verificare empiricamente: scelta una variabile continua, questa viene rappresentata con istogrammi, facendo riferimento alla frequenza relativa la cui somma è pari ad 1 La curva ottenuta, per N = ∞ , manterrà l’area pari ad 1 LA DISTRIBUZIONE NORMALE Caratteristiche L’area totale della curva è quindi pari ad 1, corrispondendo perciò alla probabilità totale Grande parte dell’area della curva (circa il 68 %) è però compresa entro l’intervallo µ ± σ Esempio 1 Si supponga di eseguire, in condizioni assai simili e con lo stesso metodo analitico, un gran numero di titolazioni di una soluzione di glucosio avente concentrazione θ = 90 mg/dl e di riportare in grafico le frequenze relative dei valori ottenuti (x) con le prime 20, 40, ... 5120 misure 3 n=20 0,15 n=40 0,15 0,12 0,12 0,09 0,09 0,09 0,06 0,06 0,06 0,03 0,03 0,03 0 0 0 75 0.15 80 85 90 95 100 105 n=160 75 0.15 80 85 90 95 100 105 n=320 0.15 0,15 80 85 90 95 100 105 n=1280 0.12 0,09 0.09 0.06 0,06 0.06 0.03 0,03 0.03 0 80 85 90 95 100 105 flesso flesso 0 .0 6 σ 0.15 0,12 0.09 75 0 .0 9 n=640 75 0.12 0 100 105 0 75 n=2560 95 0.03 0 0 90 0.06 0.03 0.03 85 0.09 0.06 0.06 80 0.12 0.09 0.09 massimo f(x) 75 0.15 0.12 0.12 LA DISTRIBUZIONE NORMALE n=80 0,15 0,12 80 85 90 95 100 105 0 .0 3 μ n=5120 0 75 80 85 90 95 100 105 x = c o n c e n t ra z i o n e d i g l u c o s i o ( m g /d l ) 0 75 80 85 90 95 100 105 75 80 85 90 95 100 Poiché ciascuno dei due parametri µ e σ può assumere infiniti valori, teoricamente potremmo avere infinito alla seconda (∞2) curve di Gauss … tante! Nota la funzione, l’area (quindi la probabilità) si ottiene tramite l’integrale definito fra X1 e X2 (punti arbitrari) della funzione stessa Ovviamente l’integrale fra ∞ – e + ∞ è pari ad 1 (probabilità totale, ovvero probabilità dell’evento certo) 105 La curva normale è una funzione di densità di probabilità di una Variabile Casuale normale, ovvero una funzione la cui area esprime la probabilità che un determinato valore sia compreso entro un qualunque intervallo arbitrario Integrare la funzione, considerata anche la sua complessità, non è certamente agevole, ma le ∞2 curve normali possono essere ricondotte ad una unica curva, detta Curva normale standardizzata, tramite un semplice cambio di variabile 4 La nuova variabile è detta deviata standardizzata e si ottiene dalla seguente formula zi = xi − μ σ In pratica si è espressa la variabile originaria X nella nuova variabile Z espressa come media μ ± multipli di σ, prescindendo dai valori reali di tali parametri Questo corrisponde ad una traslazione di assi, con la quale si è fatta coincidere l’Origine con la media μ La nuova variabile Z avrà quindi media = μ = 0 SD = σ = 1 Pertanto le ∞2 Curve normali saranno ricondotte ad una unica curva, utilizzabile per qualunque fenomeno, le cui aree saranno disponibile su apposite tavole Confronto fra i valori originali di X e i nuovi di Z LA DISTRIBUZIONE NORMALE STANDARDIZZATA Aree della curva normale per multipli simmetrici di σ 5