Corso di biomatematica lezione 4: La funzione di Gauss Davide Grandi Sommario •Distribuzione di Gauss: •Rappresentazione matematica •integrali •valor medio •Stima della varianza •Somma in quadratura Distribuzioni continue • Funzione di distribuzione normale o di Gauss Partendo dall’idea di distribuzioni limite, abbiamo il passaggio da una serie di valori discreti ad una funzione continua (distribuzione di probabilità). Quindi xi f(x) quindi avremo che f(x)dx saranno le misure che cadono in un intervallo compreso tra x e x+ dx La sommatoria si sosituirà con l’integrale Davide Grandi - Dottorato in Biologia Distribuzioni continue • Funzione di distribuzione normale o di Gauss E avremo in particolare il valor medio x xf ( x)dx Ed inoltre la varianza sarà ( x x) f ( x)dx 2 2 Corrispondente allo scarto quadratico medio (detti ei gli scarti) e N 2 i Davide Grandi - Dottorato in Biologia Distribuzione Normale Valore vero di una grandezza: quello a cui ci si avvicina sempre più facendo un gran numero di misure (vedi esempi dei dadi) Se le misure sono soggette ad errori casuali “piccoli” e posso trascurare gli errori sistematici, la loro distribuzione può assumere la forma di una campana centrata sul valore più probabile, in altre parole da funzione di distribuzione di probabilità che meglio approssima la mia distribuzione di dati può essere la funzione di Gauss: ( x m) 1 p( x) e 2 2 2 2 Davide Grandi - Dottorato in Biologia Distribuzione Normale La curva è centrata sul valore x=m ed in corrispondenza di 1 esso assume il valore 2 La funzione è normalizzata posso partire dalla distribuzione f ( x) ( x m) 2 2 Ne 2 e trovare il coefficiente di normalizzazione dalla condizione f ( x)dx 1 Davide Grandi - Dottorato in Biologia Distribuzione Normale • Teorema del limite centrale Le medie di campioni di dimensioni n sufficientemente grandi estratti da una popolazione comunque distribuita, seguono la legge di distribuzione normale con media m e varianza 2/n Da questo si deduce immediatamente l’importanza di studiare la distribuzione normale o gaussiana Il teorema si può utilizzare anche nel limite della somma di un numero relativamente piccolo di variabili, dell’ordine della decina Davide Grandi - Dottorato in Biologia Distribuzione Normale • Integrali della funzione L’integrale della funzione di Gauss non è risolvibile matematicamente, ma attraverso metodi numerici. La probabilità che una variabile aleatoria cada in un intervallo centrato su m (valor medio) di larghezza è data da: m m p( x)dx ( x m) 1 e 2 2 m 2 2 dx m Davide Grandi - Dottorato in Biologia Distribuzione Normale • Integrali della funzione Nel grafico si vede la probabilità che la mia variabile aleatoria cada in un intervallo di larghezza t centrato sempre sul valo medio m mt mt p( x)dx ( x m) 1 e 2 2 m t 2 2 dx m t Questo corrisponde al un limite di confidenza del 68% t=1, 95% t=2 etc. Davide Grandi - Dottorato in Biologia Distribuzione Normale • Integrali della funzione Ricapitolando: Probabilità che le misure siano comprese tra 1. m – e m+ 68,27% 2. m – 2 e m+ 2 95,45% 3. m –3 e m+ 3 99,73% Davide Grandi - Dottorato in Biologia Distribuzione Normale • Distribuzione standardizzata Eseguendo la sostituzione X=(x – m)/ riduco alla stessa forma tutte le distribuzioni normali, rendendo m=0 il valor medio (distribuzione centrata nello zero) e prendo come unità di misura, ovvero ho una distribuzione con 1 Gli scarti x – m diventano scarti ridotti (x – m)/ e la probabilità sarà 1 p( x) 2 x e2 2 Davide Grandi - Dottorato in Biologia Distribuzione Normale • Utilizzo distribuzione standardizzata ricordiamo che ora abbiamo lo scarto standardizzato z=(x – m)/ • Data una popolazione di pesci di lunghezza media m=35 cm e deviazione standard =5 cm Calcoliamo la probabilità di avere l 40 (a destra di z=1) l<40 (a sinistra di z=1) l<25 (a sinistra di z= – 2) l 40 e l 50 (tra z=1 e z=3) l 30 e l 40 (tra z=– 1 e z=1) Davide Grandi - Dottorato in Biologia Distribuzione Normale • Utilizzo distribuzione standardizzata Sapendo che area sottesa tra m e z=+1 è 34,13% a sinistra z= – 2 2,28% Avremo…. Davide Grandi - Dottorato in Biologia Distribuzione Normale • Utilizzo distribuzione standardizzata Sapendo che area sottesa tra m e z=+1 è 34,13% a sinistra z= – 2 2,28% Avremo…. l 40 l<40 l<25 l 40 e l 50 l 30 e l 40 (a destra di z=1) (a sinistra di z=1) (a sinistra di z= – 2) (tra z=1 e z=3) (tra z=– 1 e z=1) Davide Grandi - Dottorato in Biologia 15,87% 84,13% 2,28% 15,73% 68,26% Distribuzione Normale • Applicazione alle distribuzioni discrete Molte distribuzioni discrete sono approssimate dalla distribuzione gaussiana Le distribuzioni discrete forniscono probabilità per singoli valori, cioè la probabilità di ottenere esattamente il numero x, mentre con le distribuzioni continue si calcola l’area sottesa, quindi per applicarlo a distribuzioni discrete si deve o meglio “dovrebbe” calcolare l’area sottesa nell’intervallo x 0,5 Davide Grandi - Dottorato in Biologia Distribuzione Normale • Media come migliore stima Non essendo mai nota la funzione f(x) eventualmente gaussiana, abbiamo solo a che fare con le misure (discrete) {x1, x2, x3,……xn} e vorrei arrivare alla miglior stima di X Se fossero noti X e potrei risalire alla f(x) e quindi anche alla probabilità di ottenere i valori x1, x2, x3,……xn Ovvero per ottenere x compreso tra x1 e x+dx1 abbiamo ( x1 X ) 1 P( x1 x x1 dx ) e 2 dx 2 2 2 1 Davide Grandi - Dottorato in Biologia 1 Distribuzione Normale • Media come migliore stima Semplificando avremo ( x N X ) 2 e 2 2 1 P( x N ) La probabilità di ottenere l’intero insieme di N valori sarà il prodotto delle probabilità, quindi ( xi X ) 2 2 2 PX , ( x1.....xN ) 1 N e Davide Grandi - Dottorato in Biologia Distribuzione Normale • Media come migliore stima Le stime migliori per X e sono quelle più probabili, ovvero quelle che massimizzano P(x..), cioè dobbiamo minimizzare l’esponente, quindi dovremo avere x X N i 1 i 2 0 2 Ovvero x X 0 N i 1 N 2 i da cui Davide Grandi - Dottorato in Biologia x X N i 1 i Distribuzione Normale • Media come migliore stima La stima migliore per si ottiene derivando rispetto a e ponendo la derivata uguale a zero, quindi x X N i 1 i 2 N O sostituendo il valor medio al valore vero x x 2 N i 1 i N Davide Grandi - Dottorato in Biologia Distribuzione Normale • Stima dello scarto quadratico medio Partendo da una serie di dati vogliamo confrontarci con la distribuzione gaussiana, ovvero stimare i parametri che la caratterizzano (m e ). Ricordiamo l’errore di una singola misura: e z e i i Dove zi è lo scarto dalla media della misura i-esima, al quadrato avrò e 2 2 i 2 zi e zi e 2 2 zi e Davide Grandi - Dottorato in Biologia Distribuzione Normale • Stima dello scarto quadratico medio Sommando otteniamo 2 2 2 e i z i Ne Divido per N otteniamo e N 2 2 i z 2 i N e 2 Ora abbiamo che (distribuzione gaussiana) 2 2 2 ei ei e N 2 N Davide Grandi - Dottorato in Biologia Distribuzione Normale • Stima dello scarto quadratico medio Ovvero 2 2 e N z N 2 2 i 2 N Ed infine z 2 2 i N 1 z N 1 2 Davide Grandi - Dottorato in Biologia i Distribuzione Normale • Stima dello scarto quadratico medio Inoltre dalla relazione e 2 2 N Deduco l’errore della media che sarà dunque x z N ( N 1) 2 i e e N i E non semplicemente Davide Grandi - Dottorato in Biologia Distribuzione Normale • Somma in quadratura Per introdurre la propagazione degli errori vediamo come ad esempio stimare l’errore nella misura di una grandezza Z=X+Y date le misure delle due grandezze X e Y e le rispettive deviazioni standard sono x e y . Date le due distribuzioni di probabilità avremo: P( x ) ( X ) e 2 2 x P( y ) (Y ) e 2 2 y 2 2 Davide Grandi - Dottorato in Biologia Distribuzione Normale • Somma in quadratura Essendo X e Y misurati indipendentemente, la probabilità di ottenere X e Y è data dal prodotto delle due, ovvero: 1 2 P( x, y ) e 2 2 X2 Y 2 x y Ora possiamo calcolare la probabilità di ottenere X+Y si può dimostrare che: P( x, y ) e X Y 2 Z 2( 2 x 2 y ) 2 2 Davide Grandi - Dottorato in Biologia Distribuzione Normale • Somma in quadratura Cioè che vale P( x, y ) P( x y, z ) Da cui P( x y ) P( x y, z)dz e ovvero z 2 2 x y Davide Grandi - Dottorato in Biologia X Y 2 2( 2 x 2 y ) Distribuzione Normale • Media pesata e deviazione standard Ricordiamo la definizione IMPRECISA data della media pesata e ridefiniamola correttamente, date le incertezze i definiamo il peso wi wi 1 da cui ottengo il valor medio 2 i x x p i 2 i 1 2 i Davide Grandi - Dottorato in Biologia Distribuzione Normale Ed ottengo l’espressione dell’errore che sarà: x 1 1 2 i Che per i = si riduce a x N Davide Grandi - Dottorato in Biologia