La probabilità nella vita quotidiana
Introduzione elementare ai modelli probabilistici
Bruno Betrò
[email protected]
CNR - IMATI
San Pellegrino, 6/9/2011 – p. 1/31
La probabilità fa parte della vita quotidiana
• non partecipo perché non ho nessuna probabilità di farcela
• al 90% la squadra X quest’anno vincerà il campionato
• spero di vincere al
• per oggi il meteo prevede probabilità di pioggia del 60%
• “I fumatori hanno 10 volte maggiore probabilità di soffrire di
malattie vascolari” (INAIL, Rischi per la salute legati ai vari
modi di consumare il tabacco www.ispesl.it/tabagismo/fumoOltre-rischi.asp )
San Pellegrino, 6/9/2011 – p. 2/31
Probabilità come misura dell’incertezza
• Significato intuitivo
• L’intuizione può portare a conclusioni scorrette
• Necessario dotarsi di strumenti logici e rigorosi
• Calcolo delle probabilità come teoria matematica
dell’incertezza
San Pellegrino, 6/9/2011 – p. 3/31
Alle origini del Calcolo delle Probabilità
• Corrispondenza tra Pascal e Fermat originata da un
problema di gioco d’azzardo (1654)
La disperazione dei perdenti e la gioia dei vincitori nel gioco delle carte,
raffigurate in una stampa del Settecento.
San Pellegrino, 6/9/2011 – p. 4/31
Il problema del Cavalier De Méré
• Scommessa su/contro uscita del “sei” almeno una volta in
quattro lanci di un dado: osservazione empirica che la
sorte favorisce scommessa su sei
• Variante: 24 (4 × 6) lanci di due dadi (6 × 6 risultati possibili),
scommessa su/contro doppio sei; secondo De Méré ancora
favorita scommessa su doppio sei, ma risultati dicevano il
contrario
• De Méré si rivolse a Pascal chiedendo lumi
• Pascal e Fermat elaborarono i primi elementi del Calcolo
delle Probabilità
• Contro intuizione di De Méré, teoria e pratica in accordo!
• Problema: Ci si può arricchire con i giochi d’azzardo?
San Pellegrino, 6/9/2011 – p. 5/31
Problemi di compleanni
• Quante persone ci devono essere almeno in una stanza
perché sia più probabile che almeno due compiano gli anni
lo stesso giorno piuttosto che il viceversa?
• In quanti dobbiamo essere almeno in una stanza perché sia
più probabile che sia presente un mio “gemello”
(compleanno nello stesso giorno) piuttosto che il viceversa?
• Facciamo un test ...
San Pellegrino, 6/9/2011 – p. 6/31
Il problema di Monty Hall
Gioco a premi in cui puoi scegliere tra tre scatole: dentro una ci
sono 100.000 e, dentro le altre 1 e. Scegli una scatola e il
conduttore del gioco, che sa il contenuto di ciascuna scatola, ne
apre un’altra, rivelando un premio da 1e e domanda: “Vuoi
cambiare la tua scelta?”.
Conviene cambiare la tua scelta originale?
È più probabile vincere cambiando la scelta iniziale o non
cambiandola?
Risposta giusta?
San Pellegrino, 6/9/2011 – p. 7/31
Calcolo delle probabilità:
Teoria matematica dell’incertezza
La teoria dice come si devono formulare in maniera corretta
delle valutazioni probabilistiche, o, in altri termini, come si deve
formulare un modello matematico probabilistico.
Modello matematico:
→ trattazione problema in modo logico e rigoroso
→ astrazione della realtà, cattura solo alcuni aspetti
→ deve condurre a risultati utili
→ in accordo con evidenza sperimentale
San Pellegrino, 6/9/2011 – p. 8/31
Modelli probabilistici
• Problemi interessanti che illustrano le potenzialità del
Calcolo delle probabilità possono essere trattati con modelli
semplici e matematica (relativamente) elementare
• Questo non vuole dire che il Calcolo delle probabilità sia
una disciplina “facile”
• Molti problemi interessanti richiedono modelli più complessi
e strumenti matematici sofisticati, come è il caso dei modelli
di fenomeni aleatori che evolvono nel tempo
Zt
2
∂
1 ∂
Mt = p(Wt , t)− a(Ws , s)d s, a(x, t) =
+
p(x, t)
2
∂t
2
∂x
0
• Nei modelli più complessi problemi non banali anche dal
punto di vista computazionale.
San Pellegrino, 6/9/2011 – p. 9/31
Definizione di probabilità
• Formalizzare il concetto di probabilità come “misura
dell’incertezza”
• Impostazione assiomatica Kolmogorov (1933):
X insieme, eventi sono i sottoinsiemi di X, ad ogni evento A
associato un numero reale P(A), detto probabilità di A, tale
che
1. P(A) > 0 per ogni evento A;
2. P(X) = 1;
3. se A e B sono eventi incompatibili (A ∩ B = ∅), allora
P(A ∪ B) = P(A) + P(B).
• da 3. ⇒ P(Ā) = 1 − P(A)
Ā evento negato o complementare
San Pellegrino, 6/9/2011 – p. 10/31
Assiomi di Kolmogorov
• Assiomi 1,2,3 inclusi in sistema di assiomi fondamento
rigoroso del Calcolo delle probabilità.
• Impostazione assiomatica è anche “utile”? Permette
costruzione di modelli in accordo con l’evidenza
sperimentale?
• Risposta positiva: ad es. possibile dare formulazione
rigorosa della “legge empirica del caso” suggerita
dall’evidenza sperimentale: in successive repliche di un
esperimento sotto stesse condizioni, la frequenza relativa di
un evento associato all’esperimento tende a stabilizzarsi;
• Legge dei grandi numeri: frequenza relativa limite =
probabilità dell’evento
San Pellegrino, 6/9/2011 – p. 11/31
Valutazione delle probabilità.
Il problema del Cavalier De Méré
• L’esito dei 4 lanci è una quaterna di numeri da 1 a 6;
• X insieme di tutte le quaterne
• A evento = sottoinsieme costituito da un certo numero di
quaterne
• Tutte le quaterne siano equiprobabili (partita non truccata!)
• Le quaterne sono in tutto 64
• Probabilità di ogni singola quaterna: 1/64
• P(A): 1/64 × numero di quaterne in A
• soddisfatti assiomi di Kolmogorov
San Pellegrino, 6/9/2011 – p. 12/31
Valutazione delle probabilità.
Il problema del Cavalier De Méré (cont.)
• Evento Ē che non interessa chi scommette sul sei:
sottoinsieme delle quaterne di numeri da 1 a 5; numero di
queste quaterne = 54
• P(Ē) = 1/64 × 54 −→ P(E) = 1 − (5/6)4 = 0, 518
• Per legge grandi numeri, percentuale di partite vinte dallo
scommettitore sul sei, su un grande numero di partite, è
circa pari a 51,8% e quindi maggiore di % avversario.
San Pellegrino, 6/9/2011 – p. 13/31
Valutazione delle probabilità.
Il problema del Cavalier De Méré (cont.)
• Con 24 lanci di due dadi, esiti possibili sono le 24-uple di
coppie di numeri da 1 a 6: numero tutte 24-uple = (6 × 6)24
• 24-uple equiprobabili, probabilità singola 24-upla = 1/3624
• Evento Ē che non interessa chi scommette su doppio sei:
sottoinsieme delle 24-uple di coppie di numeri da 1 a 6 non
entrambi = 6; (36 − 1)24 24-uple.
• P(Ē) = 1/3624 × 3524 −→ P(E) = 1 − (35/36)24 = 0, 491
• Il gioco è ora sfavorevole a chi punta su doppio sei, la sua
percentuale di partite vinte è, su un numero grande di
partite, inferiore a quella dell’avversario
• Contrariamente a quanto pensava De Méré, teoria e
osservazione sperimentale in accordo!
San Pellegrino, 6/9/2011 – p. 14/31
Valutazione classica delle probabilità
• P(A) =
numero di casi favorevoli ad A
numero totale casi
• i casi devono essere equiprobabili
• quando i casi sono equiprobabili?
• valutazione utile nel caso in cui il numero dei casi sia finito
• inapplicabile, ad es.
◦ probabilità 1 X 2 in schedina totocalcio
◦ valutazione probabilità che la quantità di pioggia
giornaliera in una certa zona superi un certo limite
• probabilità frequentista
• probabilità soggettiva
San Pellegrino, 6/9/2011 – p. 15/31
Problemi di compleanni risolti/1
• Quante persone ci devono essere almeno in una stanza
perché sia più probabile che alcune di loro compiano gli
anni lo stesso giorno piuttosto che il viceversa?
• Ipotesi: niente anni bisestili, uguale possibilità di nascita in
ogni giorno dell’anno (?), numero persone n 6 365
• numeriamo persone da 1 a n e compiliamo liste di n giorni:
365n
liste possibili, assumiamole equiprobabili.
In quante liste non compare 2 volte lo stesso giorno?
• D365,n = 365 · 364 · . . . · (365 − n + 1) ⇒ p = 1 − D365,n /365n
n = 23 ⇒ p ≈ 0.507
n = 30 ⇒ p ≈ 0.706
n = 50 ⇒ p ≈ 0.97
• Bastano 23 persone affinché la probabilità che due persone
abbiano lo stesso compleanno sia > 1/2.
San Pellegrino, 6/9/2011 – p. 16/31
Problemi di compleanni risolti/2
• In quanti dobbiamo essere almeno in una stanza perché sia
più probabile che sia presente almeno un mio “gemello”
(nato nello stesso giorno) piuttosto che il viceversa?
• P(che almeno un altro abbia il mio compleanno) = 1 −
n > 253 ⇒ p > 0.5
364n
365n
;
San Pellegrino, 6/9/2011 – p. 17/31
Valutazione delle probabilità di vincere al
SuperEnalotto (vincita massima)
• vincita massima indovinando una sestina di numeri tra 1 e
90
• probabilità di vincita = probabilità uscita dei sei numeri
giocati (non conta l’ordine)
• quante le sestine possibili?
• . . . = 622.614.630 (!)
90
6
=
90·89·88·87·86·85·
2·3·4·5·6·
= ...
• stessa possibilità di essere estratte per tutte le sestine? Sì,
altrimenti c’è truffa!
• giocata minima due sestine (2 e) ⇒ 2 casi favorevoli
• la probabilità cercata è (valutazione classica)
2/622.614.630
= 0, 00000000321225988538
San Pellegrino, 6/9/2011 – p. 18/31
La leggenda (metropolitana) dei numeri ritardatari
• la leggenda dice che un numero (o una combinazione di
numeri) che non esce da molte estrazioni ha maggiore
probabilità di essere estratto (estratta) nella prossima
• N = numero di casi possibili nella singola estrazione, N − 1
casi sfavorevoli (non uscita) in singola estrazione ⇒ casi
sfavorevoli su 100 estrazioni = (N − 1)100
• = casi di non uscita in 100 estrazioni e di uscita alla
101-esima
• casi possibili in 101 estrazioni, con non uscita in 100
estrazioni = (N − 1)100 · N
San Pellegrino, 6/9/2011 – p. 19/31
La leggenda (metropolitana)
dei numeri ritardatari (cont.)
•
casi di non uscita in 100 estrazioni e di uscita alla 101-esima
casi possibili in 101 estrazioni, con non uscita in 100 estrazioni
=
1
N
• Il fatto che l’uscita favorevole abbia ritardato per 100
estrazioni non modifica la sua probabilità alla 101-esima!
• La probabilità condizionata coincide con la probabilità non
condizionata
• P(A|B) = P(A ∩ B)/P(B) probabilità condizionata
• se P(A|B) = P(A), si dice che A e B sono indipendenti
San Pellegrino, 6/9/2011 – p. 20/31
Valutazione del guadagno del giocatore incallito
• Se in un gioco p è probabilità di vincita e V è il valore della
vincita, e P la posta, dopo N partite il guadagno è
V · n − P · N, n numero di partite vinte.
• La legge dei grandi numeri (formulazione teorica della legge
n
si
empirica del caso) dice che, al crescere di N, V N
avvicina sempre più a V · p
• Per N abbastanza grande sarà quindi |V n − V · p| < ǫ per
N
ogni ǫ piccolo
• ⇒
V ·n−P·N=V ·n−V ·p·N+V ·p·N−P·N
= (V · n/N − V · p) N + (V · p · −P) N < (ǫ + V · p − P) · N
San Pellegrino, 6/9/2011 – p. 21/31
Valutazione del guadagno del giocatore incallito
del SuperEnalotto
• In SuperEnalotto, V non è costante; per semplicità, sia V =
180.000.000 (massima vincita finora avvenuta =
178.000.000 e);
• se P = 2 (giocata minima)
⇒
V · p − P = 180.000.000 · 0, 00000000321225988538 − 2 = −1, 42
• Probabilità di nessuna vincita (massima) in n estrazioni
(1 − p)n ; per n = 100.000 ∼ 0, 9997
• La rovina del giocatore incallito è certa!
• Gioco equo se con P = 1 V · p = 1, sfavorevole al giocatore
se V · p < 1
• il banco calcola V in modo che il gioco sia sfavorevole al
giocatore (anche le assicurazioni!)
San Pellegrino, 6/9/2011 – p. 22/31
Soluzione del problema di Monty Hall
• Tre scenari:
scelgo una scatola
scelgo
scatola 1 e
cambio
vinco
100.000 e
scelgo
scatola 1 e
non
cambio
cambio
vinco 1 e
vinco
100.000 e
non
cambio
vinco 1 e
scelgo
scatola
100.000 e
cambio
non
cambio
vinco 1 e
vinco
100.000 e
• Probabilità dei 3 scenari? Ognuno determinato da scelta
iniziale. Giocatore non ha ragione di preferire all’inizio una
scatola ad un’altra, quindi scelta “a caso”, e quindi
probabilità 1/3 di ciascuna delle tre scelte possibili
San Pellegrino, 6/9/2011 – p. 23/31
Soluzione del problema di Monty Hall (cont.)
• La strategia "cambiare" porta alla vittoria in due casi su tre,
quindi la probabilità di vincere adottando la strategia è 2/3.
• L’argomentazione che porta a conclusione sbagliata che sia
indifferente cambiare o meno non tiene conto di indicazioni
aggiuntive date da mossa del conduttore, che modifica la
probabilità che la scelta iniziale del giocatore sia quella
vincente.
• Formalizzazione matematica del problema porta ad analisi
rigorosa e a soluzione corretta.
San Pellegrino, 6/9/2011 – p. 24/31
Aggiornamento delle probabilità, il Teorema di Bayes
• visto nel problema di Monty Hall come le informazioni
aggiuntive cambino le valutazioni iniziali
• E evento che implica uno tra Aj incompatibili tra loro. Cosa
dice verificarsi di E su verificarsi di un certo Ai ?
• E sintomo e Aj malattie che possono dare sintomo.
Probabilità che paziente con sintomo abbia Ai ?
• formula di Bayes (Bayes, 1702-1761)
P(E | Ai )P(Ai )
P
P(Ai | E) =
j P(Aj )P(E | Aj )
• P(Aj ) probabilità a priori; P(Aj | E) probabilità a posteriori;
aggioramento rigoroso dell’incertezza su Ai
• uso in statistica bayesiana per combinare informazioni a
priori su fenomeno osservato con informazioni fornite dai
dati sperimentali
San Pellegrino, 6/9/2011 – p. 25/31
Screening di massa o panico di massa?
• vale sempre la pena di fare screening di massa ?
• M presenza malattia; indagine con test, T+ test positivo;
P(M|T+ ) ?
• formula di Bayes
P(T+ |M)P(M)
P(M|T+ ) =
P(T+ |M)P(M) + P(T+ |M̄)P(M̄)
•
◦ P(M) = 0, 004 - popolazione a basso rischio
P(M̄) = 0, 996
◦ P(T+ |M) = 0, 80
◦ P(T+ |M̄) = 0, 10
• P(M|T+ ) =
0,80·0,004
0,80·0,004+0,10·0,996
=
0,0032
0,1028
⋍ 0, 03
San Pellegrino, 6/9/2011 – p. 26/31
Probabilità e computer
• Modello probabilistico è spesso un compromesso tra
esigenza di aderenza a fenomeno reale e trattabilità
matematica ⇒ modello troppo semplificato ma che può
essere analizzato matematicamente
• Evoluzione dei mezzi di calcolo rende possibile modello più
accurato, da analizzare attraverso uno studio di simulazione
• Generatori di numeri (pseudo) casuali + legge dei grandi
numeri
• Simulazione rende anche possibile studiare fenomeni
virtuali o organizzare esperimenti virtuali
San Pellegrino, 6/9/2011 – p. 27/31
Probabilità e computer (cont.)
• Problema dell’ubriaco sul ciglio del burrone: 1/2 probabilità
di muovere un passo lontano dal burrone e 1/2 probabilità di
un passo verso il burrone.
◦ a posizione iniziale dell’ubriaco
◦ 0 posizione del burrone
◦ b distanza da casa nella posizione iniziale
◦ p probabilità di cadere nel burrone
San Pellegrino, 6/9/2011 – p. 28/31
Probabilità e computer (cont.)
• simulazione di una “passeggiata”: generare un numero a
caso x, se x 6 0, 5 un passo verso destra, altrimenti verso
sinistra, iterare finchè si arriva in 0 o in a + b.
• ripetere n volte la passeggiata: p ≃ frequenza relativa
dell’arrivo in 0
a
a+b
• se la casa è lontana, l’ubriaco è condannato!
• valore esatto p = 1 −
• allo stesso modo problema della rovina del giocatore
San Pellegrino, 6/9/2011 – p. 29/31
La probabilità oggi
• Probabilità nasce con i giochi d’azzardo
• Laplace (1812) “È notevole il fatto che una scienza iniziata
con l’analisi dei giochi d’azzardo dovesse essere elevata al
rango dei più importanti oggetti della conoscenza umana”
• Oggi diffusa in ogni ramo della scienza, della tecnologia,
dell’economia e della finanza, insieme a Statistica che
permette di definire modelli probabilistici in accordo con dati
• In fisica moderna superata idea newtoniana che
acquisizione sempre più completa di dati avrebbe portato a
scomparsa di ogni incertezza: per principio di
indeterminazione di Heisenberg, è impossibile conoscere
esattamente sia posizione che velocità di particelle molto
piccole, si può solo fare valutazione probabilistica
San Pellegrino, 6/9/2011 – p. 30/31
Conclusioni
• Meglio non fidarsi dell’intuizione
• Trattamento dell’incertezza possibile con modello
matematico - modello probabilistico
• Modello è astrazione e approssimazione della realtà
• Modello fornisce conclusioni logiche e rigorose in base alle
ipotesi formulate
• Conclusioni fornite dal modello vanno verificate “sul campo”
(Statistica)
• Non giocate con la speranza di arricchirvi!
San Pellegrino, 6/9/2011 – p. 31/31