Calcolo delle probabilità Obiettivi lezione 3

Calcolo delle probabilità
Obiettivi lezione 3
Statisticians do it continuously
but…
discretely.
1. COMPRENDERE:
– Concetto di distribuzione per variabili continue
– Relazione tra istogrammi di frequenza e funzioni
densità di probabilità
– come calcolare una probabilità conoscendo
la funzione densità di probabilità
– legge dei grandi numeri
– teorema del limite centrale (legame tra distribuzione normale e distribuzione binomiale;
correzione di continuità per l’approssimazione normale della binomiale)
2. CONOSCERE:
– la distribuzione normale (o di Gauss ): proprietà e utilizzo
– legame tra la distribuzione normale e la binomiale
– correzione di continuità per l’approssimazione normale
3. ELABORARE:
– per mezzo di esercizi
1
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzioni continue
-3,s
+3,s
450
400
350
Frequency
300
250
200
150
100
50
0
100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800
Se la variabile è continua e aumentiamo MOLTO la taglia del campione l’istogramma può utilizzare
un numero MOLTO alto di classi: i rettangolini divengono così vicini da essere approssimabili con
una curva continua: questa curva si chiama FUNZIONE DENSITA’ DI PROBABILITA’
2
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Densità di probabilità
Come le probabilità delle variabili discrete le densità delle
variabili continue godono di due proprietà che ci sono già
familiari
Non agitatevi per quegli infiniti!
Significano solo che stiamo calcolando
l’intera area sotto la curva da un capo
all’altro (solo che non c’è una fine)!
E
s
e
m
p
i
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Densità Normale
Densità Uniforme
3
Calcolo di probabilità conoscendo
la densità di probabilità
•
La probabilità che la variabile aleatoria continua assuma valori compresi
tra a e b è data da:
4
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Valore medio e varianza
di una variabile casuale continua
La media e la varianza di una variabile casuale X sono definite da:
In analogia
con le formule
discrete:
Esempio: Normale (µ,σ2 )
I parametri della
normale hanno il
significato di media
e varianza!!!
Se µ=0 e
σ2 =1 la variabile
normale si
dice STANDARD
5
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione normale 1
Ruolo della media
Per traslare una Gaussiana
non occorrono magie:
basta cambiare la media.
Se µ diminuisce la curva si
sposta verso sinistra. Però
la forma non cambia.
6
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione normale 2
Ruolo della varianza
Per far “dimagrire” una
Gaussiana non occorre una dieta:
si deve diminuire la varianza.
Se σ2 diminuisce la curva si
restringe. Però, non variando
la media non si sposta.
7
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione normale 2: Ruolo della varianza
−3σ −2σ −σ
σ
2σ
3σ
4σ
σ
5σ
σ
σ −3σσ −2σσ −σ σ
σ
−3σ −2σ −σ
σ
σ
σ
2σ
σ
3σ
σ
4σ
σ σ 2σσ
3σσ 4σ σ
σ
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
8
Standardizzazione di una variabile normale
Se X è Normale con media µ e scarto quadratico σ ed effettuiamo la
trasformazione
Z = (X-µ )/σ
la variabile casuale Z risulta Normale standard, cioè ha media nulla e
scarto quadratico unitario.
Posso preparare delle tavole
per calcolare la probabilità
di una normale standard. Poi
potrò utilizzarle per una
qualunque normale!
9
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Tavole della
distribuzione normale
In genere le tavole si riferiscono
alla distribuzione della variabile
normale standardizzata
P
r
o
m
e
m
o
r
i
a
Spesso l’integrale riportato dalle
tavole è:
10
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
E’ meglio
mantenere
l’INDIPENDENZA?!
Verifichiamo
almeno che ci sia.
Media e varianza di una somma di variabili
La media di una somma di variabili casuali è uguale alla somma
delle medie (SEMPRE):
La media del prodotto di variabili casuali è uguale al prodotto
delle medie SE le variabili sono INDIPENDENTI
La varianza di una somma di variabili casuali è uguale alla somma delle varianze
SE le variabili sono INDIPENDENTI
Cov(X1 X2)
Var(X1)
Var(X2)
11
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Media e Varianza 2
Did you hear about the statistician
who put his head in the oven
and his feet in the refrigerator ?
He said, "On average I feel just fine."
• Se X e Y sono variabili casuali e a e b sono costanti, la
media di aX±bY è data da
aE(X) ± bE(Y)
• Se X e Y sono variabili casuali INDIPENDENTI e a e b
sono costanti, la Varianza di aX ± bY è data da
a2 Var(X)+b2 Var(Y)
Attenzione: le costanti sono elevate al quadrato
(è logico: diversamente le dimensioni sarebbero sbagliate)
inoltre le varianze si sommano anche nel caso di differenze.
12
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Somme di variabili casuali: qualche risultato da
memorizzare
• Se X e Y sono variabili casuali Binomiali INDIPENDENTI di
parametri (n,p) e (m,p) la somma X + Y è ancora una variabile
Binomiale di parametri ((n+m,p).
•
Se X e Y sono variabili casuali di Poisson INDIPENDENTI di
parametri λ e µ rispettivamente, la somma X + Y è ancora una
variabile di Poisson di parametro λ+µ.
λ+µ
• Se X e Y sono variabili casuali Normali INDIPENDENTI di
parametri (µ
µ1,σ12) e (µ
µ2,σ22) la somma X + Y è ancora una
variabile Normale di parametri (µ
µ1 + µ2,σ12 + σ22)
• IN GENERALE il calcolo della distribuzione della somma (o del
prodotto) di due variabili casuali richiede MOLTI calcoli.
13
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Teorema del limite centrale
Se X1,…, Xn sono variabili casuali indipendenti, identicamente
distribuite e
per n che diverge si ha:
Inutile faticare a
sommare variabili.
Se sono TANTE
il risultato è normale
Il teorema resta valido se le variabili non sono identicamente
distribuite ma sono tutte DELLO STESSO ORDINE DI GRANDEZZA
Questo spiega perché la distribuzione
normale sia così importante dovunque:
dalla finanza, ai pesi degli studenti,
alle temperature media annuali,
alla genetica, alle malattie…
e anche per gli ERRORI DI MISURA
14
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Teorema del limite centrale per variabili
binomiali 1
Promemoria: una variabile binomiale di parametri (n,p), X può sempre venir
interpretata come somma Sn=
di n variabili Xi di Bernoulli di parametro p.
Se sommo molte variabili discrete: il risultato è una variabile continua.
E’ ragionevole: se guardo da lontano una somma di variabili discrete
non vedo i singoli salti e tutto mi sembra continuo
Il teorema del limite centrale vale anche per variabili di Bernoulli quindi
L’approssimazione è migliore (è vera per valori di n non
molto grandi) se p è vicino a 0.5.
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
15
Teorema del limite centrale per variabili
binomiali 2
•Il teorema del limite centrale vale per n grande ma possiamo usare la normale, senza fare
grossi errori, anche per n abbastanza piccolo.
•Se p è circa 0.5 l’approssimazione è buona per n=20
Esempio
Calcolo diretto
utilizzando la binomiale
Media
Varianza
Regola pratica:
possiamo usare
l’approssimazione
normale se sia np
che np(1-p)
valgono almeno 5
Calcolo
approssimato
utilizzando
la normale
16
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
One day there was a fire in a wastebasket in the dean's office and in
rushed a physicist, a chemist, and a statistician. The
physicist immediately starts to work on how much energy would
have to be removed from the fire to stop the combustion. The
chemist works on which regent would have to be added to the fire to
prevent oxidation. While they are doing this, the
statistician is setting fires to all the other wastebaskets in the office.
"What are you doing?" they demanded.
"Well
to solve the problem, obviously you need a
large sample size" the statistician replies.
17
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Correzione di continuità
Esempio: La probabilità che uno studente superi l’esame di CPS con un voto superiore a 26
sia uguale a 0.5. Determinare la probabilità che su 10 studenti presenti a un appello il
numero di studenti che supera l’esame con più di 26 sia compreso tra 3 e 6 (estremi
inclusi)
Soluzione Se X è una variabile Binomiale di parametri 10 e 0.5, la probabilità richiesta è
Calcolo diretto tramite
la distribuzione binomiale
L’approssimazione
normale migliora
se si decrementa
di 0.5 il valore
inferiore e si
aumenta di 0.5
quello superiore
Media di X
Varianza di X
Calcolo con
l’approssimazione normale
18
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Statisticians do it with
large numbers
Legge dei grandi
numeri
Se X1,…, Xn sono variabili casuali indipendenti, identicamente
distribuite e X =
per n che diverge si ha
Questo giustifica
l’utilizzo della
media campionaria
per stimare la
media della
popolazione
(Migliore stima)
n ` E(X )
i
Osservazione: se le Xi sono variabili binomiali
è la frequenza relativa: posso utilizzare la
frequenza relativa per stimare la probabilità p
(Migliore stima)
19
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Statisticians do it. After all, it's only normal
Applicazione agli errori casuali
Se gli errori di misura sono ESCLUSIVAMENTE di tipo
casuale e possiamo ritenere che la cause che li generano siano
INDIPENDENTI l’errore risultante è una variabile casuale
normale. Possiamo stimare la media di tale variabile
utilizzando la media campionaria X e possiamo stimare la
deviazione standard di tale variabile utilizzando
Bisognerebbe dimostrare che
questa è la migliore stima di σ,
ci vogliono un po’ di conti:
crediamoci, li hanno fatti degli
esperti
20
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 1
• Utilizzando le tavole della distribuzione normale valutare
se X è una variabile normale standard e se X è una variabile normale con
media 2 e varianza 9.
• Se X è una variabile normale standard, determinare il valore di a
affinché:
• Se Y è una variabile normale con media 1 e deviazione standard uguale a
2 determinare il valore di a affinché:
21
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 2
• L’altezza degli studenti di una certa università può essere considerata
distribuita normalmente con media 1.75 m e deviazione standard di 25
cm.
– Calcolare la percentuale di studenti caratterizzati da un’altezza
superiore a 1.60 m
– Calcolare la percentuale di studenti caratterizzati da un’altezza
minore di 1.75 m.
– calcolare la percentuale di studenti caratterizzati da un’altezza
compresa tra 1.65 e 1.85 m.
• Un ascensore ha una portata massima di 1000 Kg e una capacità
massima di 10 persone. Se i pesi di tutte le persone che usano
l’ascensore sono distribuiti normalmente con una media 90 Kg e
deviazione standard di 15 Kg, qual è la probabilità che un gruppo di 10
persone ecceda il limite di portata dell’ascensore?
22
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino