Corso di biomatematica lezione 4:
La funzione di Gauss
Davide Grandi
Sommario
•Distribuzione di Gauss:
•Rappresentazione matematica
•integrali
•valor medio
•Stima della varianza
•Somma in quadratura
Distribuzioni continue
• Funzione di distribuzione normale o di Gauss
Partendo dall’idea di distribuzioni limite, abbiamo il
passaggio da una serie di valori discreti ad una funzione
continua (distribuzione di probabilità).
Quindi
xi  f(x)
quindi avremo che f(x)dx saranno le misure che cadono in
un intervallo compreso tra x e x+ dx
La sommatoria si sosituirà con l’integrale
Davide Grandi - Dottorato in Biologia
Distribuzioni continue
• Funzione di distribuzione normale o di Gauss
E avremo in particolare il valor medio

x   xf ( x)dx

Ed inoltre la varianza sarà

   ( x  x) f ( x)dx
2
2

Corrispondente allo scarto quadratico medio (detti ei
gli scarti)
 e 


N
2
i
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
Valore vero di una grandezza: quello a cui ci si avvicina
sempre più facendo un gran numero di misure (vedi esempi
dei dadi)
Se le misure sono soggette ad errori casuali “piccoli” e posso
trascurare gli errori sistematici, la loro distribuzione può
assumere la forma di una campana centrata sul valore più
probabile, in altre parole da funzione di distribuzione di
probabilità che meglio approssima la mia distribuzione di
dati può essere la funzione di Gauss:
( x  m)
1
p( x)
e 2
 2

2
2
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
La curva è centrata sul valore x=m ed in corrispondenza di
1
esso assume il valore
 2
La funzione è normalizzata
posso partire dalla distribuzione
f ( x)
( x  m)

2
2

Ne
2
e trovare il coefficiente di
normalizzazione dalla condizione

 f ( x)dx  1

Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Teorema del limite centrale
Le medie di campioni di dimensioni n sufficientemente
grandi estratti da una popolazione comunque distribuita,
seguono la legge di distribuzione normale con
media m e varianza 2/n
Da questo si deduce immediatamente l’importanza di
studiare la distribuzione normale o gaussiana
Il teorema si può utilizzare anche nel limite della somma di
un numero relativamente piccolo di variabili, dell’ordine
della decina
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Integrali della funzione
L’integrale della funzione di Gauss non è risolvibile
matematicamente, ma attraverso metodi numerici. La
probabilità che una variabile aleatoria cada in un intervallo
centrato su m (valor medio) di larghezza  è data da:
m

m
p( x)dx 
( x  m)

1

 e 2
 2
m

2
2
dx
m
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Integrali della funzione
Nel grafico si vede la probabilità che la mia variabile
aleatoria cada in un intervallo di larghezza t centrato
sempre sul valo medio m
mt

mt
p( x)dx 
( x  m)

1

  e 2
 2
m t

2
2
dx
m t
Questo corrisponde al un limite
di confidenza del 68% t=1,
95% t=2 etc.
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Integrali della funzione
Ricapitolando:
Probabilità che le misure siano comprese tra
1. m –  e m+ 
68,27%
2. m – 2 e m+ 2
95,45%
3. m –3 e m+ 3
99,73%
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Distribuzione standardizzata
Eseguendo la sostituzione X=(x – m)/ riduco alla stessa
forma tutte le distribuzioni normali, rendendo m=0 il valor
medio (distribuzione centrata nello zero) e prendo  come
unità di misura, ovvero ho
una distribuzione con
1
Gli scarti x – m diventano
scarti ridotti (x – m)/
e la probabilità sarà
1
p( x)
2
x

e2
2
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Utilizzo distribuzione standardizzata
ricordiamo che ora abbiamo lo scarto standardizzato
z=(x – m)/
• Data una popolazione di pesci di lunghezza media m=35
cm e deviazione standard  =5 cm
Calcoliamo la probabilità di avere
l 40
(a destra di z=1)
l<40
(a sinistra di z=1)
l<25
(a sinistra di z= – 2)
l 40 e l 50
(tra z=1 e z=3)
l 30 e l 40
(tra z=– 1 e z=1)
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Utilizzo distribuzione standardizzata
Sapendo che area sottesa tra
m e z=+1 è
34,13%
a sinistra z= – 2
2,28%
Avremo….
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Utilizzo distribuzione standardizzata
Sapendo che area sottesa tra
m e z=+1 è
34,13%
a sinistra z= – 2
2,28%
Avremo….
l 40
l<40
l<25
l 40 e l 50
l 30 e l 40
(a destra di z=1)
(a sinistra di z=1)
(a sinistra di z= – 2)
(tra z=1 e z=3)
(tra z=– 1 e z=1)
Davide Grandi - Dottorato in Biologia
15,87%
84,13%
2,28%
15,73%
68,26%
Distribuzione Normale
• Applicazione alle distribuzioni discrete
Molte distribuzioni discrete sono approssimate dalla
distribuzione gaussiana
Le distribuzioni discrete forniscono probabilità per singoli
valori, cioè la probabilità di ottenere esattamente il numero
x, mentre con le distribuzioni continue si calcola l’area
sottesa,
quindi per applicarlo a distribuzioni discrete si deve o
meglio “dovrebbe” calcolare l’area sottesa nell’intervallo
x 0,5
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Media come migliore stima
Non essendo mai nota la funzione f(x) eventualmente
gaussiana, abbiamo solo a che fare con le misure (discrete)
{x1, x2, x3,……xn}
e vorrei arrivare alla miglior stima di X
Se fossero noti X e  potrei risalire alla f(x) e quindi anche
alla probabilità di ottenere i valori x1, x2, x3,……xn
Ovvero per ottenere x compreso tra x1 e x+dx1 abbiamo
( x1 X )
1
P( x1 x x1  dx ) 
e 2 dx
 2
2
2
1
Davide Grandi - Dottorato in Biologia
1
Distribuzione Normale
• Media come migliore stima
Semplificando avremo
( x N  X )
2
e 2
2
1
P( x N )


La probabilità di ottenere l’intero insieme di N valori sarà il
prodotto delle probabilità, quindi
 ( xi  X )
2
2
2
PX , ( x1.....xN )

1

N

e
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Media come migliore stima
Le stime migliori per X e  sono quelle più probabili, ovvero
quelle che massimizzano P(x..), cioè dobbiamo minimizzare
l’esponente, quindi dovremo avere
 x  X
N
i 1
i


2
0
2
Ovvero
 x  X   0
N
i 1
N
2
i
da cui
Davide Grandi - Dottorato in Biologia
 x
X
N
i 1
i
Distribuzione Normale
• Media come migliore stima
La stima migliore per  si ottiene derivando rispetto a  e
ponendo la derivata uguale a zero, quindi
 x  X
N


i 1
i

2
N
O sostituendo il valor medio al valore vero
 x  x 
2
N


i 1
i
N
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Stima dello scarto quadratico medio
Partendo da una serie di dati vogliamo confrontarci con la
distribuzione gaussiana, ovvero stimare i parametri che la
caratterizzano (m e  ).
Ricordiamo l’errore di una singola misura:
e  z e
i
i
Dove zi è lo scarto dalla media della misura i-esima, al
quadrato avrò
e
2
2
i
2


  zi  e   zi  e 2  2 zi e


Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Stima dello scarto quadratico medio
Sommando otteniamo
2
2
2


 e
i

 z
i

Ne
Divido per N otteniamo


e


N
2
2
i
   z  
2
i
N
e
2
Ora abbiamo che (distribuzione gaussiana)
2
2


2   ei    ei
e  N 
2


N
 
Davide Grandi - Dottorato in Biologia
 
Distribuzione Normale
• Stima dello scarto quadratico medio
Ovvero
2
2  
e
N


z


N
2
2
i
 
2
N
Ed infine




z

2
2
i
N 1

 z 
N 1
2

Davide Grandi - Dottorato in Biologia
i
Distribuzione Normale
• Stima dello scarto quadratico medio
Inoltre dalla relazione
e
2


2
N
Deduco l’errore della media che sarà dunque
x
 z 
N ( N 1)
2

i



e
e  N
i
E non semplicemente
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Somma in quadratura
Per introdurre la propagazione degli errori vediamo come
ad esempio stimare l’errore nella misura di una grandezza
Z=X+Y date le misure delle due grandezze X e Y e le
rispettive deviazioni standard sono x e y .
Date le due distribuzioni di probabilità avremo:
P( x )
( X )
 e 2 2 x
P( y )
(Y )
 e 2 2 y
2
2
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Somma in quadratura
Essendo X e Y misurati indipendentemente, la probabilità di
ottenere X e Y è data dal prodotto delle due, ovvero:

1
 
2

P( x, y )  e
2
2
X2 Y 2

x

y





Ora possiamo calcolare la probabilità di ottenere X+Y si può
dimostrare che:







P( x, y )  e
X Y 
2
Z
2( 2 x  2 y ) 2

2







Davide Grandi - Dottorato in Biologia
Distribuzione Normale
• Somma in quadratura
Cioè che vale
P( x, y ) P( x  y, z )
Da cui







P( x  y )   P( x  y, z)dz  e
ovvero

z

 
2
2
x
y
Davide Grandi - Dottorato in Biologia
X Y 
2
2( 2 x  2 y )







Distribuzione Normale
• Media pesata e deviazione standard
Ricordiamo la definizione IMPRECISA data della media
pesata e ridefiniamola correttamente, date le incertezze i
definiamo il peso wi
wi 
1

da cui ottengo il valor medio
2
i
x

x
p



i
2
i
1

2
i
Davide Grandi - Dottorato in Biologia
Distribuzione Normale
Ed ottengo l’espressione dell’errore che sarà:

x
1


1

2
i
Che per i = si riduce a

x


N
Davide Grandi - Dottorato in Biologia