La probabilità nella vita quotidiana Introduzione elementare ai modelli probabilistici Bruno Betrò [email protected] CNR - IMATI San Pellegrino, 6/9/2011 – p. 1/31 La probabilità fa parte della vita quotidiana • non partecipo perché non ho nessuna probabilità di farcela • al 90% la squadra X quest’anno vincerà il campionato • spero di vincere al • per oggi il meteo prevede probabilità di pioggia del 60% • “I fumatori hanno 10 volte maggiore probabilità di soffrire di malattie vascolari” (INAIL, Rischi per la salute legati ai vari modi di consumare il tabacco www.ispesl.it/tabagismo/fumoOltre-rischi.asp ) San Pellegrino, 6/9/2011 – p. 2/31 Probabilità come misura dell’incertezza • Significato intuitivo • L’intuizione può portare a conclusioni scorrette • Necessario dotarsi di strumenti logici e rigorosi • Calcolo delle probabilità come teoria matematica dell’incertezza San Pellegrino, 6/9/2011 – p. 3/31 Alle origini del Calcolo delle Probabilità • Corrispondenza tra Pascal e Fermat originata da un problema di gioco d’azzardo (1654) La disperazione dei perdenti e la gioia dei vincitori nel gioco delle carte, raffigurate in una stampa del Settecento. San Pellegrino, 6/9/2011 – p. 4/31 Il problema del Cavalier De Méré • Scommessa su/contro uscita del “sei” almeno una volta in quattro lanci di un dado: osservazione empirica che la sorte favorisce scommessa su sei • Variante: 24 (4 × 6) lanci di due dadi (6 × 6 risultati possibili), scommessa su/contro doppio sei; secondo De Méré ancora favorita scommessa su doppio sei, ma risultati dicevano il contrario • De Méré si rivolse a Pascal chiedendo lumi • Pascal e Fermat elaborarono i primi elementi del Calcolo delle Probabilità • Contro intuizione di De Méré, teoria e pratica in accordo! • Problema: Ci si può arricchire con i giochi d’azzardo? San Pellegrino, 6/9/2011 – p. 5/31 Problemi di compleanni • Quante persone ci devono essere almeno in una stanza perché sia più probabile che almeno due compiano gli anni lo stesso giorno piuttosto che il viceversa? • In quanti dobbiamo essere almeno in una stanza perché sia più probabile che sia presente un mio “gemello” (compleanno nello stesso giorno) piuttosto che il viceversa? • Facciamo un test ... San Pellegrino, 6/9/2011 – p. 6/31 Il problema di Monty Hall Gioco a premi in cui puoi scegliere tra tre scatole: dentro una ci sono 100.000 e, dentro le altre 1 e. Scegli una scatola e il conduttore del gioco, che sa il contenuto di ciascuna scatola, ne apre un’altra, rivelando un premio da 1e e domanda: “Vuoi cambiare la tua scelta?”. Conviene cambiare la tua scelta originale? È più probabile vincere cambiando la scelta iniziale o non cambiandola? Risposta giusta? San Pellegrino, 6/9/2011 – p. 7/31 Calcolo delle probabilità: Teoria matematica dell’incertezza La teoria dice come si devono formulare in maniera corretta delle valutazioni probabilistiche, o, in altri termini, come si deve formulare un modello matematico probabilistico. Modello matematico: → trattazione problema in modo logico e rigoroso → astrazione della realtà, cattura solo alcuni aspetti → deve condurre a risultati utili → in accordo con evidenza sperimentale San Pellegrino, 6/9/2011 – p. 8/31 Modelli probabilistici • Problemi interessanti che illustrano le potenzialità del Calcolo delle probabilità possono essere trattati con modelli semplici e matematica (relativamente) elementare • Questo non vuole dire che il Calcolo delle probabilità sia una disciplina “facile” • Molti problemi interessanti richiedono modelli più complessi e strumenti matematici sofisticati, come è il caso dei modelli di fenomeni aleatori che evolvono nel tempo Zt 2 ∂ 1 ∂ Mt = p(Wt , t)− a(Ws , s)d s, a(x, t) = + p(x, t) 2 ∂t 2 ∂x 0 • Nei modelli più complessi problemi non banali anche dal punto di vista computazionale. San Pellegrino, 6/9/2011 – p. 9/31 Definizione di probabilità • Formalizzare il concetto di probabilità come “misura dell’incertezza” • Impostazione assiomatica Kolmogorov (1933): X insieme, eventi sono i sottoinsiemi di X, ad ogni evento A associato un numero reale P(A), detto probabilità di A, tale che 1. P(A) > 0 per ogni evento A; 2. P(X) = 1; 3. se A e B sono eventi incompatibili (A ∩ B = ∅), allora P(A ∪ B) = P(A) + P(B). • da 3. ⇒ P(Ā) = 1 − P(A) Ā evento negato o complementare San Pellegrino, 6/9/2011 – p. 10/31 Assiomi di Kolmogorov • Assiomi 1,2,3 inclusi in sistema di assiomi fondamento rigoroso del Calcolo delle probabilità. • Impostazione assiomatica è anche “utile”? Permette costruzione di modelli in accordo con l’evidenza sperimentale? • Risposta positiva: ad es. possibile dare formulazione rigorosa della “legge empirica del caso” suggerita dall’evidenza sperimentale: in successive repliche di un esperimento sotto stesse condizioni, la frequenza relativa di un evento associato all’esperimento tende a stabilizzarsi; • Legge dei grandi numeri: frequenza relativa limite = probabilità dell’evento San Pellegrino, 6/9/2011 – p. 11/31 Valutazione delle probabilità. Il problema del Cavalier De Méré • L’esito dei 4 lanci è una quaterna di numeri da 1 a 6; • X insieme di tutte le quaterne • A evento = sottoinsieme costituito da un certo numero di quaterne • Tutte le quaterne siano equiprobabili (partita non truccata!) • Le quaterne sono in tutto 64 • Probabilità di ogni singola quaterna: 1/64 • P(A): 1/64 × numero di quaterne in A • soddisfatti assiomi di Kolmogorov San Pellegrino, 6/9/2011 – p. 12/31 Valutazione delle probabilità. Il problema del Cavalier De Méré (cont.) • Evento Ē che non interessa chi scommette sul sei: sottoinsieme delle quaterne di numeri da 1 a 5; numero di queste quaterne = 54 • P(Ē) = 1/64 × 54 −→ P(E) = 1 − (5/6)4 = 0, 518 • Per legge grandi numeri, percentuale di partite vinte dallo scommettitore sul sei, su un grande numero di partite, è circa pari a 51,8% e quindi maggiore di % avversario. San Pellegrino, 6/9/2011 – p. 13/31 Valutazione delle probabilità. Il problema del Cavalier De Méré (cont.) • Con 24 lanci di due dadi, esiti possibili sono le 24-uple di coppie di numeri da 1 a 6: numero tutte 24-uple = (6 × 6)24 • 24-uple equiprobabili, probabilità singola 24-upla = 1/3624 • Evento Ē che non interessa chi scommette su doppio sei: sottoinsieme delle 24-uple di coppie di numeri da 1 a 6 non entrambi = 6; (36 − 1)24 24-uple. • P(Ē) = 1/3624 × 3524 −→ P(E) = 1 − (35/36)24 = 0, 491 • Il gioco è ora sfavorevole a chi punta su doppio sei, la sua percentuale di partite vinte è, su un numero grande di partite, inferiore a quella dell’avversario • Contrariamente a quanto pensava De Méré, teoria e osservazione sperimentale in accordo! San Pellegrino, 6/9/2011 – p. 14/31 Valutazione classica delle probabilità • P(A) = numero di casi favorevoli ad A numero totale casi • i casi devono essere equiprobabili • quando i casi sono equiprobabili? • valutazione utile nel caso in cui il numero dei casi sia finito • inapplicabile, ad es. ◦ probabilità 1 X 2 in schedina totocalcio ◦ valutazione probabilità che la quantità di pioggia giornaliera in una certa zona superi un certo limite • probabilità frequentista • probabilità soggettiva San Pellegrino, 6/9/2011 – p. 15/31 Problemi di compleanni risolti/1 • Quante persone ci devono essere almeno in una stanza perché sia più probabile che alcune di loro compiano gli anni lo stesso giorno piuttosto che il viceversa? • Ipotesi: niente anni bisestili, uguale possibilità di nascita in ogni giorno dell’anno (?), numero persone n 6 365 • numeriamo persone da 1 a n e compiliamo liste di n giorni: 365n liste possibili, assumiamole equiprobabili. In quante liste non compare 2 volte lo stesso giorno? • D365,n = 365 · 364 · . . . · (365 − n + 1) ⇒ p = 1 − D365,n /365n n = 23 ⇒ p ≈ 0.507 n = 30 ⇒ p ≈ 0.706 n = 50 ⇒ p ≈ 0.97 • Bastano 23 persone affinché la probabilità che due persone abbiano lo stesso compleanno sia > 1/2. San Pellegrino, 6/9/2011 – p. 16/31 Problemi di compleanni risolti/2 • In quanti dobbiamo essere almeno in una stanza perché sia più probabile che sia presente almeno un mio “gemello” (nato nello stesso giorno) piuttosto che il viceversa? • P(che almeno un altro abbia il mio compleanno) = 1 − n > 253 ⇒ p > 0.5 364n 365n ; San Pellegrino, 6/9/2011 – p. 17/31 Valutazione delle probabilità di vincere al SuperEnalotto (vincita massima) • vincita massima indovinando una sestina di numeri tra 1 e 90 • probabilità di vincita = probabilità uscita dei sei numeri giocati (non conta l’ordine) • quante le sestine possibili? • . . . = 622.614.630 (!) 90 6 = 90·89·88·87·86·85· 2·3·4·5·6· = ... • stessa possibilità di essere estratte per tutte le sestine? Sì, altrimenti c’è truffa! • giocata minima due sestine (2 e) ⇒ 2 casi favorevoli • la probabilità cercata è (valutazione classica) 2/622.614.630 = 0, 00000000321225988538 San Pellegrino, 6/9/2011 – p. 18/31 La leggenda (metropolitana) dei numeri ritardatari • la leggenda dice che un numero (o una combinazione di numeri) che non esce da molte estrazioni ha maggiore probabilità di essere estratto (estratta) nella prossima • N = numero di casi possibili nella singola estrazione, N − 1 casi sfavorevoli (non uscita) in singola estrazione ⇒ casi sfavorevoli su 100 estrazioni = (N − 1)100 • = casi di non uscita in 100 estrazioni e di uscita alla 101-esima • casi possibili in 101 estrazioni, con non uscita in 100 estrazioni = (N − 1)100 · N San Pellegrino, 6/9/2011 – p. 19/31 La leggenda (metropolitana) dei numeri ritardatari (cont.) • casi di non uscita in 100 estrazioni e di uscita alla 101-esima casi possibili in 101 estrazioni, con non uscita in 100 estrazioni = 1 N • Il fatto che l’uscita favorevole abbia ritardato per 100 estrazioni non modifica la sua probabilità alla 101-esima! • La probabilità condizionata coincide con la probabilità non condizionata • P(A|B) = P(A ∩ B)/P(B) probabilità condizionata • se P(A|B) = P(A), si dice che A e B sono indipendenti San Pellegrino, 6/9/2011 – p. 20/31 Valutazione del guadagno del giocatore incallito • Se in un gioco p è probabilità di vincita e V è il valore della vincita, e P la posta, dopo N partite il guadagno è V · n − P · N, n numero di partite vinte. • La legge dei grandi numeri (formulazione teorica della legge n si empirica del caso) dice che, al crescere di N, V N avvicina sempre più a V · p • Per N abbastanza grande sarà quindi |V n − V · p| < ǫ per N ogni ǫ piccolo • ⇒ V ·n−P·N=V ·n−V ·p·N+V ·p·N−P·N = (V · n/N − V · p) N + (V · p · −P) N < (ǫ + V · p − P) · N San Pellegrino, 6/9/2011 – p. 21/31 Valutazione del guadagno del giocatore incallito del SuperEnalotto • In SuperEnalotto, V non è costante; per semplicità, sia V = 180.000.000 (massima vincita finora avvenuta = 178.000.000 e); • se P = 2 (giocata minima) ⇒ V · p − P = 180.000.000 · 0, 00000000321225988538 − 2 = −1, 42 • Probabilità di nessuna vincita (massima) in n estrazioni (1 − p)n ; per n = 100.000 ∼ 0, 9997 • La rovina del giocatore incallito è certa! • Gioco equo se con P = 1 V · p = 1, sfavorevole al giocatore se V · p < 1 • il banco calcola V in modo che il gioco sia sfavorevole al giocatore (anche le assicurazioni!) San Pellegrino, 6/9/2011 – p. 22/31 Soluzione del problema di Monty Hall • Tre scenari: scelgo una scatola scelgo scatola 1 e cambio vinco 100.000 e scelgo scatola 1 e non cambio cambio vinco 1 e vinco 100.000 e non cambio vinco 1 e scelgo scatola 100.000 e cambio non cambio vinco 1 e vinco 100.000 e • Probabilità dei 3 scenari? Ognuno determinato da scelta iniziale. Giocatore non ha ragione di preferire all’inizio una scatola ad un’altra, quindi scelta “a caso”, e quindi probabilità 1/3 di ciascuna delle tre scelte possibili San Pellegrino, 6/9/2011 – p. 23/31 Soluzione del problema di Monty Hall (cont.) • La strategia "cambiare" porta alla vittoria in due casi su tre, quindi la probabilità di vincere adottando la strategia è 2/3. • L’argomentazione che porta a conclusione sbagliata che sia indifferente cambiare o meno non tiene conto di indicazioni aggiuntive date da mossa del conduttore, che modifica la probabilità che la scelta iniziale del giocatore sia quella vincente. • Formalizzazione matematica del problema porta ad analisi rigorosa e a soluzione corretta. San Pellegrino, 6/9/2011 – p. 24/31 Aggiornamento delle probabilità, il Teorema di Bayes • visto nel problema di Monty Hall come le informazioni aggiuntive cambino le valutazioni iniziali • E evento che implica uno tra Aj incompatibili tra loro. Cosa dice verificarsi di E su verificarsi di un certo Ai ? • E sintomo e Aj malattie che possono dare sintomo. Probabilità che paziente con sintomo abbia Ai ? • formula di Bayes (Bayes, 1702-1761) P(E | Ai )P(Ai ) P P(Ai | E) = j P(Aj )P(E | Aj ) • P(Aj ) probabilità a priori; P(Aj | E) probabilità a posteriori; aggioramento rigoroso dell’incertezza su Ai • uso in statistica bayesiana per combinare informazioni a priori su fenomeno osservato con informazioni fornite dai dati sperimentali San Pellegrino, 6/9/2011 – p. 25/31 Screening di massa o panico di massa? • vale sempre la pena di fare screening di massa ? • M presenza malattia; indagine con test, T+ test positivo; P(M|T+ ) ? • formula di Bayes P(T+ |M)P(M) P(M|T+ ) = P(T+ |M)P(M) + P(T+ |M̄)P(M̄) • ◦ P(M) = 0, 004 - popolazione a basso rischio P(M̄) = 0, 996 ◦ P(T+ |M) = 0, 80 ◦ P(T+ |M̄) = 0, 10 • P(M|T+ ) = 0,80·0,004 0,80·0,004+0,10·0,996 = 0,0032 0,1028 ⋍ 0, 03 San Pellegrino, 6/9/2011 – p. 26/31 Probabilità e computer • Modello probabilistico è spesso un compromesso tra esigenza di aderenza a fenomeno reale e trattabilità matematica ⇒ modello troppo semplificato ma che può essere analizzato matematicamente • Evoluzione dei mezzi di calcolo rende possibile modello più accurato, da analizzare attraverso uno studio di simulazione • Generatori di numeri (pseudo) casuali + legge dei grandi numeri • Simulazione rende anche possibile studiare fenomeni virtuali o organizzare esperimenti virtuali San Pellegrino, 6/9/2011 – p. 27/31 Probabilità e computer (cont.) • Problema dell’ubriaco sul ciglio del burrone: 1/2 probabilità di muovere un passo lontano dal burrone e 1/2 probabilità di un passo verso il burrone. ◦ a posizione iniziale dell’ubriaco ◦ 0 posizione del burrone ◦ b distanza da casa nella posizione iniziale ◦ p probabilità di cadere nel burrone San Pellegrino, 6/9/2011 – p. 28/31 Probabilità e computer (cont.) • simulazione di una “passeggiata”: generare un numero a caso x, se x 6 0, 5 un passo verso destra, altrimenti verso sinistra, iterare finchè si arriva in 0 o in a + b. • ripetere n volte la passeggiata: p ≃ frequenza relativa dell’arrivo in 0 a a+b • se la casa è lontana, l’ubriaco è condannato! • valore esatto p = 1 − • allo stesso modo problema della rovina del giocatore San Pellegrino, 6/9/2011 – p. 29/31 La probabilità oggi • Probabilità nasce con i giochi d’azzardo • Laplace (1812) “È notevole il fatto che una scienza iniziata con l’analisi dei giochi d’azzardo dovesse essere elevata al rango dei più importanti oggetti della conoscenza umana” • Oggi diffusa in ogni ramo della scienza, della tecnologia, dell’economia e della finanza, insieme a Statistica che permette di definire modelli probabilistici in accordo con dati • In fisica moderna superata idea newtoniana che acquisizione sempre più completa di dati avrebbe portato a scomparsa di ogni incertezza: per principio di indeterminazione di Heisenberg, è impossibile conoscere esattamente sia posizione che velocità di particelle molto piccole, si può solo fare valutazione probabilistica San Pellegrino, 6/9/2011 – p. 30/31 Conclusioni • Meglio non fidarsi dell’intuizione • Trattamento dell’incertezza possibile con modello matematico - modello probabilistico • Modello è astrazione e approssimazione della realtà • Modello fornisce conclusioni logiche e rigorose in base alle ipotesi formulate • Conclusioni fornite dal modello vanno verificate “sul campo” (Statistica) • Non giocate con la speranza di arricchirvi! San Pellegrino, 6/9/2011 – p. 31/31