Cenni di calcolo delle probabilità ARGOMENTI TRATTATI

Cenni di calcolo delle probabilità
OBIETTIVO: capire i concetti di base che serviranno alla
statistica inferenziale
Allora non impariamo a
formulare modelli
probabilistici!
ARGOMENTI TRATTATI:
• Assiomi del calcolo delle probabilità
• Probabilità di eventi e variabili aleatorie
Lezione 2 • Distribuzioni binomiale, multinomiale, ipergeometrica, di Poisson,
• Media, varianza, momenti di una variabile casuale
• Distribuzioni uniforme, esponenziale, normale
Lezione 3 • Legge dei grandi numeri e suo utilizzo
• Teorema del limite centrale e suo utilizzo
1
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Calcolo delle probabilità
Fenomeno deterministico
Determino la legge che lo
regola
PREVISIONI
DETERMINISTICHE
Fenomeno casuale
Studio le regolarità del
fenomeno
PREVISIONI
STOCASTICHE
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
2
Probabilità:
un metro di misura per fenomeni casuali
Nomenclatura: eventi, spazio degli eventi, eventi incompatibili
Esempio:
Mi aspetto che la capra abbia il vello a
macchie o che l’abbia nero?
Come posso “misurare” la facilità con cui si
produce un evento o l’altro?
Misuro la probabilità di ciascun evento
3
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità: gli assiomi
• La probabilità dell’evento certo vale1
• La probabilità di un qualunque evento è sempre compresa tra 0 e 1
• La probabilità dell’unione di due eventi tra loro incompatibili è
uguale alla somma delle probabilità dei singoli eventi
D’accordo, la probabilità gode
di queste belle proprietà, ma come la
calcolo per sapere il colore del vello
della mia capra?
4
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità: definizioni operative
Definizione classica: rapporto tra il numero di casi favorevoli e
numero di casi possibili
Rispetta gli assiomi e... per le
capre funziona
(se ho studiato genetica!)
Esempio: pensiamo
ancora alle capre ma…
e se non conoscessimo le
leggi dell’ereditarietà?
La definizione classica
diviene inutilizzabile
Definizione frequentista: rapporto tra il numero di volte in cui si è
verificato l’evento e il numero di prove fatte
Avremo bisogno di far fare molti
figli alle nostre capre!
5
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esempio: ancora le capre
-Semplifichiamo: La probabilità che un figlio sia nero è 1/2 e
che sia a macchie è 1-1/2=1/2)
Supponiamo che le nostre capre abbiano 3 figli, gli eventi elementari sono:
Tutti gli 8 eventi sono equiprobabili!
( nnn )
P(nnn)=1/8
Con quale probabilità 2 capretti
( nnm)
P(nnm)=1/8
saranno neri e uno sarà a macchie?
( nmn )
P(nmn)=1/8
P(mnn)=1/8 P(2 neri e 1 a chiazze)= P(nnm)+ P(nmn)+P(mnn)=3/8
( mnn )
( mnm )
=1/8
=1/8
( mmn )
E se la probabilità che un figlio
=1/8
( nmm )
=1/8
sia nero fosse 3/4, con quale
( mmm )
probabilità ci saranno 2 capretti
neri e uno a macchie? 6
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità di combinazioni di eventi
Con quale probabilità dei 3 capretti meno di due saranno a macchie?
( nnn )
( nnm)
( nmn )
( mnn )
( mnm )
( mmn )
( nmm )
( mmm )
P(almeno 2 a chiazze)= P(nmm)+ P(mnm)+P(mmn)+ P(mmm) =1/2
Con quale probabilità il secondo capretto sarà a macchie e il III nero?
P(II a chiazze)= P(nmn)+ P(mmn)=1/4
Con quale probabilità si verifica uno tra i due eventi
(almeno 2 a chiazze) o (tutti uguali)?
P=1/2+1/8=5/8
Se capitano sia A che B
scriviamo A∩B
Se capita A o B
scriviamo A∪B
Se gli eventi non sono incompatibili
P(A∪B)=P(A)+P(B)-P(A∩B) 7
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Combinazioni di eventi
• E and F ( E∩F ) : si verificano sia l’evento E che
l’evento F
Esempio: E: {L’errore della lunghezza è minore di 0.1 cm}
F: {L’errore della temperatura supera 1°}
• E or F ( E∪F ): si verifica l’evento E o l’evento F o
entrambi
Esempio: E: {Mario supera l’esame di CPS}
F: {Luigi supera l’esame di CPS}
• not E ( E ) :
l’evento E non si verifica
Diagrammi di Venn
F
E∪F
E
E
E∩
∩F
E
F
E
8
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità condizionata
Se sappiamo che il primo capretto è a macchie, con quale probabilità tra i
3 capretti almeno 2 sono a macchie?
P(A∩B)
P(A|B)
=
Spazio campione in assenza
P(B)
di informazioni sul I capretto
P(A∩B)= P(A|B)P(B)
( nnn )
Spazio campione avendo
informazioni sul I capretto
( nnm)
( nmn )
( mnn )
( mnm )
( mmn )
( nmm )
( mmm )
( mnn )
( mnm )
( mmn )
( mmm )
P(almeno 2 |I a macchie) =
P(almeno 2 a macchie|I a macchie)=3/4
P (almeno 2 a macchie e il I è a macchie)
P(il I è a macchie)
=
3/8
1/2
9
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
= 3/4
Indipendenza
Sia A l’evento il primo capretto è a macchie e sia B l’evento il secondo capretto
è a macchie, valutare la probabilità P(A|B)
( nnn )
( nnm)
( nmn )
( mnn )
( mnm )
( mmn )
( nmm )
( mmm )
P(A|B) =
( nmn )
( mmn )
( nmm )
( mmm )
2
1
=
4
2
Sono uguali!!
P(A|B)=P(A)
1
P(A) =
2
A e B sono indipendenti
Trovate degli esempi di eventi indipendenti
10
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili casuali
Lavorare con gli eventi è “faticoso”:
conviene contare gli eventi che ci interessano
Non posso
passare il tempo a
guardare se è
uscito testa
o croce!
Associamo dei numeri agli eventi: se
possiamo
associare a questi numeri le probabilità
degli
eventi originari diciamo che questi valori
sono variabili casuali
11
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili aleatorie
Eventi: difficili da utilizzare
Preferiamo lavorare con i numeri
Variabile
aleatoria
ℜ
S
I
A
0
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
1
P
12
Variabili casuali discrete
Una variabile casuale X discreta assume diversi valori con
probabilità specificate dalla sua funzione di distribuzione
X: numero di capretti a macchie
( nnn )
( nnm)
( nmn )
( mnn )
( mnm )
( mmn )
( nmm )
( mmm )
X
X
P(X)
0
1/8
X
1
3/8
x1
P(x1)
2
3/8
1/8
x2
P(x2)
x3
P(x3)
…
….
3
Generalizzando
xn
P(X)
P(xn)
Posso introdurre media e
varianza di una variabile casuale
13
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili aleatorie discrete 1
• Assumono un numero finito o un’infinità nuberabile di
valori, Xi =xi i=1,2,...;
• Sono completamente descritte quando sia nota la
probabilità con cui si può verificare ciascun valore:
`
P(Xi =xi) =pi con µ pi=1
i=1
Distribuzione di X
• Media e Varianza sono indici riassuntivi delle proprietà di
tali variabili
`
EX= µ xi pi
i=1
`
Var (X)= µ (xi -EX )2pi
i=1
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
14
Media e varianza di una variabile casuale discreta
µ = E(X) =
m
∑ i=1 x iP(x i)
m
σ2 = Var(X) = ∑ i=1( x i - µ) 2P(x i)
Caratterizzano l’intera
popolazione
m numero di possibili esiti dell’esperimento
n
X=
∑X
i =1
n
V(X) =
i
n
2
Σ
(X
X
)
i
i=1
Caratterizzano il campione
n-1
n taglia del campione
La media campionaria e la varianza campionaria caratterizzano
solo il campione
15
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Statistica
Calcolo delle probabilità
Media e Varianza
EX= µ xi pi
Var (X)= µ (xi -EX )2pi
Proprietà del modello
X = µ Xi
n
s2 (X) = µ (Xi -X )2
n-1
Proprietà del campione
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
16
Campione/Modello
17
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili aleatorie discrete
• Bernoulli: X=
0
1
P(X=1)=p; P(X=0)=1-p
P
EX=p
Var(X)=p(1-p)
0
1
x
Esempi 1. Testa o croce, p=1/2.
2. Capretto con il vello nero/a macchie, p=3/4.
3. Verificarsi o meno di una mutazione genetica p=?
4. Ibrido/non ibrido p=?
18
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili aleatorie Binomiali B(n,p)
Numero di successi in n prove INDIPENDENTI
0
• Binomiale: X= 1
.
.
n
Esempi
P(X=i)= n
i
pi(1-p)n-i
n! = n(n-1) · · · 3·=2 · 1
i!(n-i)! i(i-1) · · ·2 ·1 · !(n-i) · · ·1
a. Numero di ibridi su n osservazioni;
b. Numero di studenti su n che superano l’esame con un voto
maggiore di 28.
19
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Coefficiente binomiale
Teorema binomiale
n
(a+b)n =
Σ
i=0
100
15
Abbiamo bisogno
di nuovi mezzi di
calcolo!
Un foglio più
grande potrebbe
bastare!
n
i
ai bn-i
Triangolo di Pascal
5
3
7
2
20
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili Binomiali: media e varianza
Una variabile Y ∼ B(n,p) è la somma di n variabili Xi ,
i=1,…,n di Bernoulli INDIPENDENTI
EY=E X1 + E X2 + …+ E Xn = p+…+p = np
La varianza della somma di variabili indipendenti è uguale
alla somma delle varianze
Var (Y)=Var ( X1 )+ Var ( X2 )+ …+ Var ( Xn )= np(1-p)
21
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Binomiale: esempio
Una certa malattia ha un’evoluzione per cui non si conoscono terapie, tuttavia tra le
persone colpite il 40% guarisce spontaneamente nell’arco di due mesi. Non conoscendo
particolarità della malattia, la possibilità di guarigione nell’arco di due mesi viene vista
come puramente casuale.
• Con quale probabilità tra 6 persone colpite dalla malattia 2 guariranno spontaneamente
nell’arco di due mesi? Qual è il numero medio di guarigioni spontanee? Quanto vale la
varianza?
• Con quale probabilità nessuno guarirà spontaneamente?
Soluzione
I.
Conta il numero di persone che guariscono spontaneamente
Sono uguali!
E(N) = 2.4
Var(N)=2.16
Conta il numero di persone che NON guariscono spontaneamente
II.
Potrei valutare questa
probabilità utilizzando
la variabile casuale M?
22
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esempio
Supponiamo che effettuando una misura vi siano 10 cause di errori casuali indipendenti.
Per semplicità, ciascuna di queste cause produca un errore di 0.1 mm. Se con probabilità
1/2 un errore casuale aumenta il valore da noi misurato e con probabilità 1/2 lo
diminuisce, qual è la distribuzione del valore misurato.
Soluzione Y= {valore misurato}} V= { misura esatta, senza errori }
Variabile casuale
Quantità deterministica
N= {numero di errori di misura che producono un aumento rispetto al valore esatto}}
Variabile casuale: Bi(10,1/2)
Y= V + n · 0.1 - (10 - n ) · 0.1
23
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione Binomiale
Bi (5, 0.5)
Bi (5, 0.3)
Bi (5, 0.7)
Bi (6, 0.5)
24
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 1
Vediamo se questa
macchina inquina.
Quanto è in media il
guadagno della compagnia
dopo 10 trivellazioni?
Si valuti anche la varianza
di tale cifra.
Una vettura viene controllata
ogni anno. Sia 0.1 la probabilità
che abbia una cattiva carburazione e
sia 0.9 la probabilità che, in presenza
cattiva carburazione i tecnici se ne
accorgano imponendo la riparazione.
Con quale probabilità la vettura non
supera il controllo 3 volte in 8 anni?
La probabilità di
trovare il petrolio è
uguale a 0.1 ogni volta
che si effettua una nuova
trivellazione
Se c’è petrolio
la mia compagnia
guadagna 1 milione
di dollari se non c’è
perde 100000 dollari
25
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 2
• Si lanciano 3 dadi. Con quale probabilità non si ottiene
nessun 1? In media quante volte comparirà 2?
• Calcolare 6! Calcolare 25!/23!
3
• Calcolare i coefficienti binomiali i i=0,1,2,3
• Quattro bambini vengono vaccinati contro il morbillo. Il
vaccino attecchisce con probabilità 0.8, garantendo
l’immunità del bambino alla malattia. Con quale probabilità
tutti i bambini risultano immunizzati? Se 100 bambini
vengono vaccinati, qual è il numero medio di bambini
immunizzati? Quanto vale la varianza di tale numero?
26
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 3
• Nell’esercizio relativo ai bambini vaccinati contro il morbillo, si
supponga che se il vaccino non attecchisce il bambino si ammali con
probabilità 0.8. Con quale probabilità su 100 bambini vaccinati si
riscontrano 4 casi di morbillo?
• Una popolazione si compone per il 40% di fumatori. Si sa che il 60%
dei fumatori e il 7% dei non fumatori sono affetti da una malattia
respiratoria.
a. Con quale probabilità un individuo scelto a caso è affetto da questa
malattia?
B. Con quale probabilità su 15 individui più della metà è affetto dalla
malattia respiratoria?
27
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Se oggi mangio una caramella rossa, con quale probabilità
domani ne estrarrò una verde?
E se invece mi mettessi a dieta e rimettessi la caramella rossa
nel recipiente… cambierebbe la probabilità che domani scelga
una caramella verde?
Attenzione: se mangi
la caramella la probabilità
per domani dipende
dalla scelta di
oggi!
Non sono quantità
INDIPENDENTI!
Estrazioni con o senza reimbussolamento
Binomiale o ipergeometrica
28
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione Ipergeometrica/Binomiale
(estrazioni senza/con reimbussolamento)
p ∼ r/N = 0.3
S
e
n
z
a
R
e
i
m
b
u
s
s
o
l
a
m
e
n
t
o
P(X=i)=
r N-r
i n-i
N
n
n
P(X=i)=
i
C
o
n
pi (1-p)n-i
Regola pratica: se n/N ≤ 0.05 posso usare la Binomiale al posto
Statistica per ladell’Ipergeometrica
biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
29
R
e
i
m
b
u
s
s
o
l
a
m
e
n
t
o
Distribuzione multinomiale
Ho k palline bianche e j palline nere.
Estraggo n palline con reimbussolamento.
Numero di palline
bianche estratte?
Distribuzione Binomiale: Bi(n,p)
con p = k/n
Ho k palline bianche, j palline nere, i rosse e l verdi.
Estraggo n palline con reimbussolamento.
Probabilità di trovarne 3 bianche
2 nere, 4 rosse e 1 verde se n=10
30
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione di Poisson
P(X = i ) = e -λ λi
i!
i = 0,1,...
31
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Media e Varianza di una variabile di Poisson
Potrebbe essere
distribuita secondo
Poisson: media e
varianza sono
UGUALI!
Il parametro che caratterizza la
distribuzione di Poisson è il numero
medio di conteggi.
32
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Binomiale/Poisson
Legge degli eventi RARI
Binomiale
Se la probabiltà di un
evento in ogni intervallino è
piccola e ho molti intervallini
posso usare Poisson invece
della Binomiale
Probabilità di
avere i eventi in
un intervallo di
ampiezza t
Poisson
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
33
Numero di nuovi brevetti registrati
da un inventore in un decennio.
Segue la distribuzione di Poisson?
Quando usare la
distribuzione di Poisson?
• La probabilità con cui si verifica un nuovo evento NON cambia se
conosco QUANDO si è verificato l’evento precedente.
• In un intervallo di ampiezza finita può verificarsi un qualunque
numero di eventi. (n=0, 1,2, …)
• La probabilità che si verifichino due o più eventi in un intervallino
infinitesimo è trascurabile (cioè o c’è un evento o non ce n’è
nessuno)
Numero chiamate a
un centralino in
un’ora
è distribuita secondo
Poisson?
Numero di guarigioni
non imputabili alla
cura sono distribuite
secondo Poisson?
Numero di auto in attesa
al semaforo: è distribuita
secondo Poisson?
34
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi: conteggio raggi cosmici
e somme di variabili
Particelle cariche
protoni o particelle α
• Il numero di raggi cosmici che colpisce una determinata
area in un intervallo di tempo fissato segue la distribuzione
di Poisson. Giustificare questa affermzione.
• Due studenti contano il numero di raggi che colpiscono un
contatore Geiger in un minuto ed un terzo conta quelli che
lo colpiscono in 10 minuti. Ottengono, rispettivamente, 9,
12 e 120. Questi risultati sono contraddittori ?
• Si considerino due variabili X e Y indipendenti distribuite
secondo Bernoulli di parametro p. Com’è distribuita la
somma X+Y ? Calcolare i valori attesi di X+Y e di X-Y
35
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 2
• Verificare che se in il numero di raggi cosmici che colpisce un
contatore Geiger in un minuto segua la distribuzione di Poisson di
parametro λ = 9, il numero di raggi che colpisce il contatore in 5
minuti segue la distribuzione di Poisson di parametro λ = 45.
(suggerimento: verificare che la somma di due variabili di Poisson
indipendenti è ancora una variabile di Poisson con parametro somma
dei parametri)
• Uno studente osserva il numero di decadimenti un campione
radioattivo in 100 intervalli disgiunti di un minuto ottenendo i seguenti
risultati:
n. decadimenti ν 0 1 2 3 4 5 6 7 8 9
n. volte osservate 5 19 23 21 14 12 3 2 1 0
– Tracciare un istogramma di questi risultati (utilizzare prima le frequenze
assolute e poi le relative)
– Tracciare sullo stesso grafico la distribuzione attesa se si pensa che il
campione segua una legge di Poisson di parametro λ=3 al minuto. Quale
degli istogrammi è prossimo alla distribuzione attesa?
36
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 3
• Nel corso di 28 giorni un allevatore osserva che le sue
galline depongono in media 2.5 uova tra le 10 e le 10:30.
– Con quale probabilità in 10 giorni vengono deposte almeno 2 uova
nell’orario considerato?
– Assumendo che il numero di uova deposto giornalmente in tale
orario segua la distribuzione di Poisson, determinare la
distribuzione del numero di giorni in cui non vengono deposte
uova nell’orario considerato.
• La distribuzione di Poisson, come ogni distribuzione,
deve
∞
verificare la condizione di normalizzazione Σ
P(X=i)=1.
i=0
Verificare che tale affermazione è verificata.
37
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 4
• Stabilire quale delle seguenti situazioni può venire
descritta con un modello binomiale e quale con un modello
ipergeometrico:
– su un autobus sono presenti 25 persone, di cui 18 occupano un
posto a sedere. 5 persone scenderanno alla prossima fermata. Qual
è la probabilità che si liberino esattamente due posti a sedere?
– Il controllore sale sull’autobus, sia p=0.05 la probabilità che un
passeggero non abbia il biglietto. Con quale probabilità il
controllore trova due persone prive di biglietto?
– Ogni giorno arrivo alla fermata dell’autobus alle ore 8:00. Sia
p=0.2 la probabilità che l’autobus arrivi entro 5 minuti. Qual è la
probabilità che in un mese (30 giorni) l’autobus non arrivi mai
entro 5 minuti?
38
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Spazio degli eventi Ω
Insieme di tutti i possibili esiti dell’esperimento
Può convenirmi riconoscere eventi elementari ed eventi composti
la capra è a macchie: evento elementare
la capra è a macchie o è nera: evento composto
Se voglio studiare lo
spazio campione mi
conviene capire quali
siano gli eventi elementari
che lo compongono
39
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Eventi
Ogni esito possibile di un esperimento
costituisce un evento
Esempio: guardo il colore del vello di una capra.
Eventi possibili: nero, a macchie,
nero o a macchie
non nero, a macchie o nero
non a macchie,….
Vorrei la probabilità di ciascun
evento in base alla mia
conoscenza sui genitori della
capra
40
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino