Variabili aleatorie gaussiane La distribuzione normale (riconoscibile dalla curva a forma di campana) è la più usata tra tutte le distribuzioni, perché molte distribuzioni che ricorrono naturalmente sono molto simili ad essa. La sua derivazione matematica fu presentata per la prima volta da De Moivre nel 1733, ma è spesso riportata come la distribuzione Gaussiana, dal nome di Carl Gauss (1777-1855), che ricavò anche la sua equazione da uno studio degli errori nelle misure ripetute della stessa quantità. Gaussiana standard Variabili aleatorie gaussiane L’espressione della funzione densità della curva normale è: 1 & 1 2# f ( x) = exp%− 2 ( x − µ ) ". σ 2π $ 2σ ! E(X)=µ σ(X)= σ Variabili aleatorie gaussiane Densità gaussiane per diversi valori delle varianze 0,45 0,4 0,35 f(x) 0,3 0,25 0,2 0,15 0,1 0,05 0 x varianza=1.5 varianza=1 varianza=3 Variabili aleatorie gaussiane Variabili aleatorie gaussiane Per una distribuzione normale o quasi normale, eventualmente standardizzando la variabile e utilizzando le tavole della gaussiana standard (media 0 e varianza 1), si osserva che (a) approssimativamente il 95% di tutti i valori dovrebbe essere compreso entro due deviazioni standard dalla media. (b) praticamente tutti i valori dovrebbero essere entro 3 D.S. dalla media. Variabili aleatorie gaussiane e dati empirici (materiale didattico Prof.Carla Rossi, Università La SapienzaRoma) Variabili aleatorie gaussiane e dati empirici Il modello normale con stessa media (76,17) e stessa deviazione standard (11,08) approssima bene la funzione di ripartizione empirica. Confronto tra distribuzione osservata e modello normale Funzioni di ripartizione 1,2 1 0,8 Funzione di ripartizione empirica 0,6 Distribuzione normale 0,4 0,2 0 0 50 100 pesi 150 Variabili aleatorie gaussiane e dati empirici Per meglio confrontare le due funzioni di ripartizione riportiamo i loro corrispondenti valori su un piano cartesiano: Per ogni valore di x osservato, consideriamo la funzione di ripartizione empirica F*(x) e la funzione di ripartizione teorica (normale) F(x) e rappresentiamo nel piano il punto che ha per ascissa F*(x) e per ordinata F(x). Se il modello approssima bene la distribuzione empirica i punti si addensano attorno alla diagonale del primo quadrante e sono bene interpolati dalla bisettrice con equazione y=x. Variabili aleatorie gaussiane e dati empirici: P-plot Funzione di ripartizione normale in funzione della funzione di ripartizione empirica Funzione di ripartizione normale 1,2 y = 0,9757x 1 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 Funzione di ripartizione empirica 1 1,2 Teorema del limite centrale Il teorema afferma che, se si ha un certo numero di variabili aleatorie indipendenti Xi (i=1,2,…,n) con la stessa media m e la stessa varianza σ2, allora la successione di variabili aleatorie: Zn=(Yn-m)/√(σ2/n) con: 1 n Yn = ∑ X i n i =1 tende in distribuzione ad una variabile aleatoria con distribuzione gaussiana standardizzata. Teorema del limite centrale La v.a. 1 n Yn = ∑ X i n i =1 ha valor medio µ e varianza σ2/n . La media di n dati campionari indipendenti (y1+…+yn)/n verrà interpretata come se fosse la v.a. Yn, per n grande; essa non avrà esattamente valore µ, ma ci aspettiamo che non sia troppo lontana da questo valore, essendo la varianza σ2/n →0 per n→∞ Teorema del limite centrale In un piccolo paese la probabilità che un individuo, scelto a caso, in un dato giorno abbia bisogno di un ricovero ospedaliero è 1/4000. Gli abitanti del paese sono 12000. Di quanti letti dovrebbe disporre l’ospedale locale affinchè la probabilità che sia rimandato indietro un malato per mancanza di posti letto sia minore dell’1%? Teorema del limite centrale DISTRIBUZIONI GAUSSIANE La distribuzione di un certo tipo di batteri in un ml di acqua tende alla distribuzione gaussiana N(100,64). Qual è la probabilità che vi siano più di 90 batteri di quel tipo in un ml di acqua? DISTRIBUZIONI GAUSSIANE Il peso alla nascita in una data popolazione animale è una variabile aleatoria X distribuita secondo una gaussiana di media 0,824 grammi e deviazione standard 0,042 g. a) Determinare la probabilità P(0,784≤X≤0,934) b) Determinare k tale che P(|X-0,824|≤k)=0,95 DISTRIBUZIONI GAUSSIANE Sia X una v.a. gaussiana di media 2 e deviazione standard 3, calcolare a) P(-1.5≤X≤4.2) b) Determinare k tale che P(X≥k)=0.90 DISTRIBUZIONI GAUSSIANE In un esperimento ciascun topo, di un campione casuale di 25 unità, deve essere iniettato con un farmaco ad un livello di dose di 0.004 mg per grammo di peso corporeo. Per questo ceppo di topi è noto che il peso è approssimativamente distribuito secondo una legge normale di media 19 g e deviazione standard 4g. a) Se il ricercatore possiede un totale di 2 mg di farmaco, qual è la probabilità che questo non sia sufficiente per trattare tutti i topi? b) Quanto farmaco dovrebbe possedere il ricercatore al fine di correre un rischio dell’1% di non trattare tutti gli animali? DISTRIBUZIONI GAUSSIANE Si assuma che tra i non diabetici il livello ematico di glucosio a digiuno sia distribuito in maniera approssimativamente normale con media 105mg per 100 ml ed una deviazione standard di 9 mg per 100ml. a) Quale percentuale di non diabetici ha livelli compresi tra i 90 e i 125 mg per 100 ml? b) Quale livello lascia il 10% dei non diabetici nella coda di sinistra? c) Quali livelli comprendono il 95% dei non diabetici? DISTRIBUZIONI GAUSSIANE In un ampio gruppo di pazienti coronarici si trovò che i loro livelli di colesterolo serico presentavano approssimativamente una distribuzione normale. Si trovò inoltre che il 10% del gruppo aveva livelli di colesterolo serico al di sotto di 182.3 mg per 100 ml, mentre il 5% aveva valori superiori a 359.0 mg per 100 ml. Calcola la media e la deviazione standard della distribuzione. TEOREMA DEL LIMITE CENTRALE Un commerciante sa che il numero di articoli di una certa marca che può vendere in un giorno è una variabile aleatoria di Poisson di parametro a=5 a) Calcola la probabilità che in un anno (365 giorni) venda più di 1740 articoli b) Quanti articoli di quella marca dovrebbe immagazzinare per essere sicuro al 95% che gli basteranno per tutto l' anno? TEOREMA DEL LIMITE CENTRALE Se la probabilità di nascita di maschio è 0.512, calcola la probabilità che in 1000 nascite ci siano meno maschi che femmine. TEOREMA DEL LIMITE CENTRALE In una data popolazione una certa caratteristica è presente con probabilità p=1/6. Scegliendo a caso un campione di n individui da questa popolazione, determina n in modo tale che la frequenza campionaria di coloro che presentano la caratteristica nel campione differisca da p, in valore assoluto, per meno di 0.01, con probabilità superiore a 0.95.