Calcolo delle probabilità Obiettivi lezione 3 Statisticians do it continuously but… discretely. 1. COMPRENDERE: – Concetto di distribuzione per variabili continue – Relazione tra istogrammi di frequenza e funzioni densità di probabilità – come calcolare una probabilità conoscendo la funzione densità di probabilità – legge dei grandi numeri – teorema del limite centrale (legame tra distribuzione normale e distribuzione binomiale; correzione di continuità per l’approssimazione normale della binomiale) 2. CONOSCERE: – la distribuzione normale (o di Gauss ): proprietà e utilizzo – legame tra la distribuzione normale e la binomiale – correzione di continuità per l’approssimazione normale 3. ELABORARE: – per mezzo di esercizi 1 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Distribuzioni continue -3,s +3,s 450 400 350 Frequency 300 250 200 150 100 50 0 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800 Se la variabile è continua e aumentiamo MOLTO la taglia del campione l’istogramma può utilizzare un numero MOLTO alto di classi: i rettangolini divengono così vicini da essere approssimabili con una curva continua: questa curva si chiama FUNZIONE DENSITA’ DI PROBABILITA’ 2 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Densità di probabilità Come le probabilità delle variabili discrete le densità delle variabili continue godono di due proprietà che ci sono già familiari Non agitatevi per quegli infiniti! Significano solo che stiamo calcolando l’intera area sotto la curva da un capo all’altro (solo che non c’è una fine)! E s e m p i Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Densità Normale Densità Uniforme 3 Calcolo di probabilità conoscendo la densità di probabilità • La probabilità che la variabile aleatoria continua assuma valori compresi tra a e b è data da: 4 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Valore medio e varianza di una variabile casuale continua La media e la varianza di una variabile casuale X sono definite da: In analogia con le formule discrete: Esempio: Normale (µ,σ2 ) I parametri della normale hanno il significato di media e varianza!!! Se µ=0 e σ2 =1 la variabile normale si dice STANDARD 5 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Distribuzione normale 1 Ruolo della media Per traslare una Gaussiana non occorrono magie: basta cambiare la media. Se µ diminuisce la curva si sposta verso sinistra. Però la forma non cambia. 6 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Distribuzione normale 2 Ruolo della varianza Per far “dimagrire” una Gaussiana non occorre una dieta: si deve diminuire la varianza. Se σ2 diminuisce la curva si restringe. Però, non variando la media non si sposta. 7 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Distribuzione normale 2: Ruolo della varianza −3σ −2σ −σ σ 2σ 3σ 4σ σ 5σ σ σ −3σσ −2σσ −σ σ σ −3σ −2σ −σ σ σ σ 2σ σ 3σ σ 4σ σ σ 2σσ 3σσ 4σ σ σ Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 8 Standardizzazione di una variabile normale Se X è Normale con media µ e scarto quadratico σ ed effettuiamo la trasformazione Z = (X-µ )/σ la variabile casuale Z risulta Normale standard, cioè ha media nulla e scarto quadratico unitario. Posso preparare delle tavole per calcolare la probabilità di una normale standard. Poi potrò utilizzarle per una qualunque normale! 9 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Tavole della distribuzione normale In genere le tavole si riferiscono alla distribuzione della variabile normale standardizzata P r o m e m o r i a Spesso l’integrale riportato dalle tavole è: 10 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino E’ meglio mantenere l’INDIPENDENZA?! Verifichiamo almeno che ci sia. Media e varianza di una somma di variabili La media di una somma di variabili casuali è uguale alla somma delle medie (SEMPRE): La media del prodotto di variabili casuali è uguale al prodotto delle medie SE le variabili sono INDIPENDENTI La varianza di una somma di variabili casuali è uguale alla somma delle varianze SE le variabili sono INDIPENDENTI Cov(X1 X2) Var(X1) Var(X2) 11 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Media e Varianza 2 Did you hear about the statistician who put his head in the oven and his feet in the refrigerator ? He said, "On average I feel just fine." • Se X e Y sono variabili casuali e a e b sono costanti, la media di aX±bY è data da aE(X) ± bE(Y) • Se X e Y sono variabili casuali INDIPENDENTI e a e b sono costanti, la Varianza di aX ± bY è data da a2 Var(X)+b2 Var(Y) Attenzione: le costanti sono elevate al quadrato (è logico: diversamente le dimensioni sarebbero sbagliate) inoltre le varianze si sommano anche nel caso di differenze. 12 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Somme di variabili casuali: qualche risultato da memorizzare • Se X e Y sono variabili casuali Binomiali INDIPENDENTI di parametri (n,p) e (m,p) la somma X + Y è ancora una variabile Binomiale di parametri ((n+m,p). • Se X e Y sono variabili casuali di Poisson INDIPENDENTI di parametri λ e µ rispettivamente, la somma X + Y è ancora una variabile di Poisson di parametro λ+µ. λ+µ • Se X e Y sono variabili casuali Normali INDIPENDENTI di parametri (µ µ1,σ12) e (µ µ2,σ22) la somma X + Y è ancora una variabile Normale di parametri (µ µ1 + µ2,σ12 + σ22) • IN GENERALE il calcolo della distribuzione della somma (o del prodotto) di due variabili casuali richiede MOLTI calcoli. 13 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Teorema del limite centrale Se X1,…, Xn sono variabili casuali indipendenti, identicamente distribuite e per n che diverge si ha: Inutile faticare a sommare variabili. Se sono TANTE il risultato è normale Il teorema resta valido se le variabili non sono identicamente distribuite ma sono tutte DELLO STESSO ORDINE DI GRANDEZZA Questo spiega perché la distribuzione normale sia così importante dovunque: dalla finanza, ai pesi degli studenti, alle temperature media annuali, alla genetica, alle malattie… e anche per gli ERRORI DI MISURA 14 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Teorema del limite centrale per variabili binomiali 1 Promemoria: una variabile binomiale di parametri (n,p), X può sempre venir interpretata come somma Sn= di n variabili Xi di Bernoulli di parametro p. Se sommo molte variabili discrete: il risultato è una variabile continua. E’ ragionevole: se guardo da lontano una somma di variabili discrete non vedo i singoli salti e tutto mi sembra continuo Il teorema del limite centrale vale anche per variabili di Bernoulli quindi L’approssimazione è migliore (è vera per valori di n non molto grandi) se p è vicino a 0.5. Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 15 Teorema del limite centrale per variabili binomiali 2 •Il teorema del limite centrale vale per n grande ma possiamo usare la normale, senza fare grossi errori, anche per n abbastanza piccolo. •Se p è circa 0.5 l’approssimazione è buona per n=20 Esempio Calcolo diretto utilizzando la binomiale Media Varianza Regola pratica: possiamo usare l’approssimazione normale se sia np che np(1-p) valgono almeno 5 Calcolo approssimato utilizzando la normale 16 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino One day there was a fire in a wastebasket in the dean's office and in rushed a physicist, a chemist, and a statistician. The physicist immediately starts to work on how much energy would have to be removed from the fire to stop the combustion. The chemist works on which regent would have to be added to the fire to prevent oxidation. While they are doing this, the statistician is setting fires to all the other wastebaskets in the office. "What are you doing?" they demanded. "Well to solve the problem, obviously you need a large sample size" the statistician replies. 17 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Correzione di continuità Esempio: La probabilità che uno studente superi l’esame di CPS con un voto superiore a 26 sia uguale a 0.5. Determinare la probabilità che su 10 studenti presenti a un appello il numero di studenti che supera l’esame con più di 26 sia compreso tra 3 e 6 (estremi inclusi) Soluzione Se X è una variabile Binomiale di parametri 10 e 0.5, la probabilità richiesta è Calcolo diretto tramite la distribuzione binomiale L’approssimazione normale migliora se si decrementa di 0.5 il valore inferiore e si aumenta di 0.5 quello superiore Media di X Varianza di X Calcolo con l’approssimazione normale 18 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Statisticians do it with large numbers Legge dei grandi numeri Se X1,…, Xn sono variabili casuali indipendenti, identicamente distribuite e X = per n che diverge si ha Questo giustifica l’utilizzo della media campionaria per stimare la media della popolazione (Migliore stima) n ` E(X ) i Osservazione: se le Xi sono variabili binomiali è la frequenza relativa: posso utilizzare la frequenza relativa per stimare la probabilità p (Migliore stima) 19 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Statisticians do it. After all, it's only normal Applicazione agli errori casuali Se gli errori di misura sono ESCLUSIVAMENTE di tipo casuale e possiamo ritenere che la cause che li generano siano INDIPENDENTI l’errore risultante è una variabile casuale normale. Possiamo stimare la media di tale variabile utilizzando la media campionaria X e possiamo stimare la deviazione standard di tale variabile utilizzando Bisognerebbe dimostrare che questa è la migliore stima di σ, ci vogliono un po’ di conti: crediamoci, li hanno fatti degli esperti 20 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esercizi 1 • Utilizzando le tavole della distribuzione normale valutare se X è una variabile normale standard e se X è una variabile normale con media 2 e varianza 9. • Se X è una variabile normale standard, determinare il valore di a affinché: • Se Y è una variabile normale con media 1 e deviazione standard uguale a 2 determinare il valore di a affinché: 21 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esercizi 2 • L’altezza degli studenti di una certa università può essere considerata distribuita normalmente con media 1.75 m e deviazione standard di 25 cm. – Calcolare la percentuale di studenti caratterizzati da un’altezza superiore a 1.60 m – Calcolare la percentuale di studenti caratterizzati da un’altezza minore di 1.75 m. – calcolare la percentuale di studenti caratterizzati da un’altezza compresa tra 1.65 e 1.85 m. • Un ascensore ha una portata massima di 1000 Kg e una capacità massima di 10 persone. Se i pesi di tutte le persone che usano l’ascensore sono distribuiti normalmente con una media 90 Kg e deviazione standard di 15 Kg, qual è la probabilità che un gruppo di 10 persone ecceda il limite di portata dell’ascensore? 22 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino