SCHEDE SULLA PROBABILITÀ Nozione di probabilità Tutti abbiamo almeno una nozione generica di probabilità: sappiamo che ½ è un valore sensato per una probabilità, mentre 23 o 4 non lo sono. Sappiamo che un evento con una probabilità del 90% è quasi sicuro, mentre uno con una probabilità del 2% è quasi trascurabile. Si tratta di rendere chiaro il concetto e di preparare il terreno per usarlo nei calcoli. Il calcolo delle probabilità, nonostante la diffidenza di qualcuno, è utile per più di un motivo. * Serve a capire che si può indagare con successo anche situazioni incerte, senza dover per forza gettare la spugna affidandosi al caso. * Serve a imparare che nelle decisioni non conta soltanto quanto è grande la posta in gioco, ma anche quanto è probabile ottenerla. * Serve a rendersi conto che non tutto è sempre vero o falso, come non tutto è sempre buono o cattivo, bello o brutto e così via. * Più in generale, serve a sistemare un po’ di concetti filosofici, di quelli che in genere toccano anche (a volte soprattutto) gli adolescenti. * Serve a imparare nuove tecniche matematiche e quindi di ragionamento. * Serve a capire come funzionano le assicurazioni, soprattutto nel ramo vita. * Aiuta un po’ a capire come funziona il mercato di borsa. * Serve a capire parecchia fisica moderna, che fino a prova contraria appartiene alla cultura più alta a cui una persona di discrete capacità intellettuali oggigiorno possa arrivare. Probabilità soggettiva Probabilità soggettiva: misura della fiducia che capiti un certo evento. Naturalmente, questa misura cambia da persona a persona e, a volte, da momento a momento, ma ha il vantaggio di poter essere usata per ogni evento. Il modo più generale per misurare una simile fiducia impiega naturalmente un metodo soggettivo: anzitutto, si accetta che su ogni evento sia possibile scommettere con qualcuno; poi si stabilisce che il giocatore o lo scommettitore paga una somma s; in cambio, il banco o l’allibratore paga (senza restituire s) una vincita V se l’evento capita e niente se l’evento non capita. Lo scommettitore quindi affronta due possibili esiti: o guadagna Vs se l’evento capita o guadagna s (cioè perde s) se l’evento non capita. È suggestivo scrivere i guadagni così: si guadagna 100%Vs se l’evento capita, cioè se è certo al 100%, mentre si guadagna 0%Vs se l’evento non capita, cioè se è certo allo 0%. In una formula: si guadagna pVs se l’evento capita, cioè se ha una percentuale p di certezza. Quindi p misura la certezza dell’evento; e perché allora non può misurare anche la fiducia nello stesso evento e assumere valori intermedi fra 100% e 0%, cioè fra 1 e 0? Naturalmente, un evento, dopo che viene conosciuto, può assumere soltanto le misure di certezza estreme 100% e 0%, ma prima di essere conosciuto nulla impedisce che gli si attribuisca una misura di certezza intermedia. Resta il fatto che p non è ancora determinato. Per determinarlo, si stabilisce che una scommessa dev’essere equa, cioè né il giocatore né il banco si devono aspettare una perdita; in altri termini: una stessa persona dev’essere disposta a fare sia da giocatore sia da banco. Ma, dato che il guadagno di uno è la perdita dell’altro, dev’essere sia pVs 0 sia (pVs) 0. Cambiando di segno alla seconda disequazione, si ottiene pVs 0. Quindi devono valere insieme sia pVs 0 e pVs 0. Si arriva dunque a pVs = 0. Questa può essere interpretata come un’equazione in p, che si risolve subito e dà p s . V In sostanza: la probabilità soggettiva di un evento è misurata dal rapporto fra quanto si scommetterebbe con equità su quell’evento e quanto si otterrebbe se l’evento capitasse. 1 Esempio: Alice propone a Bruno questa scommessa: se Bruno, nel giro di 10 anni, le troverà una foglia caduta che risalga da sola sul suo ramo, si riattacchi da sola e riprenda vita, Alice pagherà V, altrimenti niente. Quale somma s sarà disposto a puntare Bruno? Naturalmente, per quanto le probabilità siano soggettive, l’evento in questione è chiaramente da classificare come impossibile. Pertanto Bruno, se è appena sano di mente, non scommetterà nemmeno un centesimo, perché sarebbe un affare in perdita. La probabilità quindi è p = 0/V = 0. Esempio: Alice, puntando s, propone a Bruno questa scommessa: se nel prossimo anno scolastico ci sarà almeno un giorno di pioggia sulla scuola, compresi i giorni di festa e gli scioperi, Bruno le pagherà una vincita, altrimenti niente. Quale vincita V sarà disposto ad offrire Bruno? È decisamente probabile, anzi sostanzialmente certo, che in un intero anno scolastico almeno un giorno pioverà sulla scuola. Sempre contando sulla sua sanità mentale, Bruno potrà offrire al massimo una vincita uguale alla puntata s, altrimenti la perdita sarebbe quasi sicura. La probabilità quindi è p = s/s = 1. L’equità della scommessa è un criterio utile anche per rendere un po’ più consistente la misura della probabilità: concretamente, una scommessa è equa se una persona è disposta ad essere indifferentemente il giocatore o il banco. Magari non si riesce a trovare un valore unico, ma almeno si restringe il campo delle probabilità accettabili. Esempio: Alice e Bruno si accordano per scommettere sul risultato di un referendum; l’evento è: il referendum è valido e i referendari vincono. Alice stabilisce che, ponendosi come giocatrice e scommettendo s = 5 euro, dovrebbe avere, se capitasse l’evento, V = 12 euro; ponendosi come banco, in cambio dei 5 euro di Bruno sarebbe disposta a dargliene soltanto 9. Naturalmente, la scommessa non viene accettata. Tuttavia Bruno nota che le probabilità di Alice sono come giocatrice pG = 5/12 = 0,4167 e come banco pB = 5/9 = 0,5556; perciò è chiaro che, secondo Alice, l’evento ha una probabilità di capitare compresa fra 0,4167 e 0,5556. Bruno si fa l’idea che, secondo Alice, l’evento capiterà con una probabilità di circa (0,4167+0,5556)/2 = 0,4861. La nozione di probabilità esposta sopra è la più moderna e viene chiamata probabilità soggettiva. È una nozione debole, ma generale. Ci sono altre nozioni, che si possono ottenere come casi particolari di questa; determinano la probabilità con maggior forza, ma non sono sempre applicabili. Ne trattiamo di seguito. Probabilità frequentistica Ammettiamo che si voglia conoscere la probabilità di un certo evento, sapendo questa volta che in passato, in N situazioni giudicate simili, l’evento è capitato K volte. Dovrebbe essere intuitivo che la probabilità da usare sia p = K/N, ma si vuole mostrare che questa conclusione discende dalla definizione soggettiva. È ragionevole stabilire che, scommettendo a favore tutte le N volte, il guadagno totale sarebbe stato KVNs. Se le scommesse, nel loro insieme, devono essere state eque, bisogna che questo guadagno sia stato nullo. Se ne ottiene KVNs = 0, da cui si ha K/N = s/V. Dato poi che s/V è la probabilità che l’evento capiti, la probabilità frequentistica è p K . N In sostanza: la probabilità frequentistica di un evento è misurata dal rapporto fra le volte che l’evento è capitato e le volte che sono capitate situazioni simili a quella in cui si scommette. (Naturalmente c’è ancora un margine di soggettività nel determinare che cosa sia un evento simile) Esempio: si vuole sapere qual è la probabilità che, guardando dalla finestra, la macchina più vicina al semaforo rosso sia nera. Si accumula una certa esperienza, ad esempio guardando 100 volte il semaforo diventare rosso e contando quante volte la macchina più vicina è nera. Se la macchina è risultata nera 16 volte, la probabilità frequentistica del nostro evento è 16/100 = 0,16. Nota per gli accademici: la nozione tradizionale di probabilità frequentistica stabilisce che, per qualunque , dato l’evento EN = |K/Np| < , è lim pE N 1 . Tale nozione usa già, come predefinita, la nozione di probabilità; senza contare che gli N N eventi vanno trattati come equiprobabili. Si tratta quindi di una cattiva definizione; che fra l’altro è ben poco pratica, stante il limite a infinito! Si rimanda per un esame più articolato al convincente Scozzafava R. (1997), Probabilità soggettiva. Significato, valutazione, applicazioni, Masson (Milano), pagg. 43-47. 2 Probabilità classica Quando si dispone di uno schema casuale con una struttura ben definita, è possibile stabilire in che rapporto stanno tutti i casi in cui un certo evento può capitare e tutti i casi in cui quell’evento capita davvero. La possibilità di trattare con tutti i casi possibili caratterizza la probabilità classica. Esempio: se lancio un dado cubico e mi interessa l’evento per cui esce un 4, so che gli eventi possibili sono le uscite delle 6 facce del dado e gli eventi favorevoli le uscite della faccia con il 4. È la definizione di probabilità più nota: numero di casi favorevoli diviso il numero di casi possibili. Anche questa si ottiene dalla definizione soggettiva, più o meno come la frequentistica. Ammettiamo che si voglia conoscere la probabilità di un certo evento, sapendo questa volta che in teoria, su N situazioni giudicate simili, l’evento può capitare K volte. Dovrebbe essere intuitivo che la probabilità da usare sia p = K/N, ma si vuole mostrare che questa conclusione discende dalla definizione soggettiva. È ragionevole stabilire che, scommettendo a favore tutte le N volte, il guadagno totale sarebbe KVNs. Se le scommesse, nel loro insieme, devono essere eque, bisogna che questo guadagno sia nullo. Se ne ottiene KVNs = 0, da cui si ha K/N = s/V. Dato poi che s/V è la probabilità che l’evento capiti, la probabilità classica è sempre p K . N In sostanza: la probabilità classica di un evento è misurata dal rapporto fra i casi favorevoli, cioè quelli in cui l’evento capita, e i casi possibili, cioè tutti i casi in cui l’evento può capitare. Assiomi di Kolmogorov Tutte le varie interpretazioni della probabilità si dissolvono nei tre assiomi di Kolmogorov. Ma prima non è male spiegare che cosa si intende per assioma. Un po’ di storia: quando Euclide, intorno al 300 a. C., pubblicò i suoi Elementi, il mondo colto del tempo rimase sbalordito: partendo da cinque nozioni di grande evidenza, riusciva ad ottenere un fiume di risultati matematici, i teoremi. Le nozioni di partenza erano chiamate assiomi o postulati. L’impresa era tale che da allora molti cercarono, e cercano ancora oggi, di fondare le loro teorie sulla base di pochi assiomi, per ottenere tutti gli altri risultati semplicemente ragionando. Oggigiorno in logica il concetto di assioma è slegato dalla necessità di essere evidente: un assioma è soltanto un punto di partenza per una serie di ragionamenti che portano ai teoremi. Tuttavia, quando si fa matematica applicata, l’evidenza resta una caratteristica appetibile. I tre assiomi di Kolmogorov (un grande matematico russo, attivo soprattutto fra le due guerre mondiali) non se la fanno mancare. Prima di cominciare, serve una nozione fondamentale: le probabilità si usano per misurare la fiducia verso le possibili risposte ad una data domanda. L’insieme di queste possibili risposte, che si indicherà con , viene chiamato normalmente spazio campionario, ma non c’è alcun motivo per usare un nome così antipatico; nel seguito, lo si chiamerà appunto l’insieme delle risposte. Nota: dato che, se una domanda è sensata, è sicuro che almeno una risposta capita, può anche rappresentare qualunque evento certo; in effetti, quando un evento è certo, significa che la domanda ha una sola risposta possibile; questa quindi è l’unico elemento di . Inoltre, come è l’insieme delle risposte possibili, così (l’insieme vuoto, cioè quello che non contiene alcun elemento) può essere interpretato come l’insieme delle risposte impossibili e rappresentare quindi qualunque evento impossibile; in effetti, quando un evento è impossibile, significa che la domanda non ha risposte possibili; queste quindi non sono elemento di alcun insieme. Qualche esempio. * Chi vincerà il prossimo derby di Milano? L’insieme delle risposte è Milan, Inter, Nessuna squadra. * Che esito avrà il lancio di questo dado (da 6)? L’insieme delle risposte è 1, 2, 3, 4, 5, 6. * Mi presti l’auto questa sera? L’insieme delle risposte è sì, no, forse, altro (tipo: sì, ma...). * Che tempo farà domani a mezzogiorno sulla nostra scuola? L’insieme delle risposte è soleggiato, piovoso, nebbioso, nevoso, nuvoloso e così via. Si fa notare che tutti gli eventi possono essere rappresentati da risposte ad una data domanda e che tutte le risposte ad una domanda rappresentano eventi. 3 Assioma sull’intero. È p() = 1. Con questo assioma si stabilisce che la probabilità di tutte le risposte prese insieme è pari a 1, cioè al 100%. L’affermazione è non soltanto di buon senso, ma anche comoda: se invece di 1 si usasse 3,56, i ragionamenti sulle probabilità risulterebbero molto meno immediati. Assioma sui valori. Per qualunque evento A, è p(A) 0. In effetti, è difficile (anche se intellettualmente possibile) dare un senso ad una probabilità negativa. Per il terzo assioma serve introdurre una nuova nozione (o forse vecchia, se è stata fatta in prima): una partizione di un insieme A è una collezione di insiemi (non vuoti) A1 , A2 , ..., An , che hanno due proprietà: sono disgiunti a due a due, cioè è AiAj ; la loro unione è l’insieme A, cioè è A1A2...An = A. Questo in termini insiemistici; in termini logici, una partizione di un elenco di giudizi A è una collezione di elenchi (non vuoti) A1 , A2 , ..., An , che hanno due proprietà: sono disgiunti a due a due, cioè è AiAj ; la loro unione è l’insieme A, cioè è A1A2...An = A. È suggestivo anche notare che la relazione AB = si può leggere come l’evento AB è un evento impossibile; perciò è impossibile che A e B siano veri insieme; perciò A e B sono incompatibili. Ne segue che la scrittura AB significa invece che A e B sono compatibili. Esempio: dato l’insieme A dei gatti, non è una partizione A1 : i gatti rossi; A2 : i gatti neri. Infatti, restano fuori tutti gli altri colori, per cui A1A2 non è uguale ad A, ma è soltanto una parte di A. In termini logici, si ha A: il tal animale è un gatto; A1 : il tal animale è un gatto rosso; A2 : il tal animale è un gatto nero. Esempio: dato l’insieme A dei gatti, non è una partizione A1 : i gatti con gli occhi chiusi; A2 : i gatti svegli. Infatti, ci sono gatti che sono svegli, ma con gli occhi chiusi, per cui l’intersezione dei due insiemi non è vuota, cioè gli insiemi non sono disgiunti. In termini logici, si ha A: il tal animale è un gatto; A1 : il tal animale è un gatto con gli occhi chiusi; A2 : il tal animale è un gatto sveglio. Esempio: dato l’insieme A delle fibre tessili, è una partizione A1 : le fibre vegetali; A2 : le fibre animali; A3 : le fibre artificiali. Infatti, gli insiemi sono disgiunti a due a due e la loro unione è l’insieme delle fibre tessili. In termini logici, si ha A: la tal fibra è tessile; A1 : la tal fibra tessile è vegetale; A2 : la tal fibra tessile è animale; A3 : la tal fibra tessile è artificiale. In sostanza, una partizione è semplicemente un metodo razionale di classificare gli elementi di un insieme; le due condizioni per una partizione si interpretano come segue: le categorie di classificazione non devono essere ambigue, cioè non ci dev’essere nessun elemento che potrebbe stare in più di una categoria; tutti gli elementi vanno classificati. È utile applicare il concetto di partizione sull’insieme delle risposte, perché così le si classifica razionalmente: * le risposte non devono essere ambigue, cioè ciò che succede deve corrispondere ad una sola risposta; * le risposte devono essere esaurienti, per cui tutto ciò che succede deve corrispondere a qualche risposta. Assioma sulla partizione: se A1 , A2 , ..., An è una partizione di , allora è p(A1)+p(A2)+...+p(An) = 1. Quindi, confrontando questo assioma e quello sull’intero, se gli eventi individuati nell’insieme delle risposte sono ben classificati, allora la somma delle loro probabilità è uguale alla probabilità dell’intero insieme delle risposte. Teoremi sugli assiomi di Kolmogorov Dagli assiomi è possibile ottenere una serie di teoremi che aiutano a capire meglio il concetto di probabilità e che danno alcune utili regole di calcolo. Teorema (delle probabilità soggettive): per le probabilità soggettive valgono gli assiomi di Kolmogorov. Dimostrazione. * Le probabilità soggettive rispettano l’assioma sull’intero, perché, essendo certo che qualche evento di capiterà, l’unica scommessa equa è quella in cui la somma scommessa è pari alla vincita, cioè in cui è s = V, da cui si ottiene p() = V/V = 1. * Le probabilità soggettive rispettano l’assioma sui valori, perché V è una somma positiva (se fosse nulla non ci sarebbe scommessa) e s non è negativa (è nulla soltanto quando l’evento è impossibile), perciò è p = s/V 0. * Le probabilità soggettive rispettano l’assioma sulla partizione, per quanto segue. 4 Dato che sull’insieme delle risposte è stata fatta una partizione, l’evento che capita è esattamente uno; perciò, mentre tutti hanno scommesso, per un totale di scommesse pari a s1+s2+...+sn , la vincita V è una. Il guadagno totale è quindi V(s1+s2+...+sn ) e deve valere 0 per l’equità delle scommesse. La formula per il guadagno totale è dunque V(s1+s2+...+sn) = 0; da qui si ottiene s1+s2+...+sn = V, cioè (s1+s2+...+sn)/V = 1, cioè s1/V+s2/V+...+sn/V = 1; ma s1/V, s2/V, ..., sn/V sono le singole probabilità delle scommesse sui singoli eventi, perciò si arriva a p(A1)+p(A2)+...p(An) = 1. CVD Naturalmente, se gli assiomi valgono per le probabilità soggettive, valgono anche per quelle frequentistiche e classiche, che sono casi particolari delle soggettive. Teorema (della negazione): per qualunque evento A, è p(A) = 1p(A). Dimostrazione. Nell’assioma sulla partizione, limitiamoci a due eventi, per cui è n = 2. Ne risulta che si può chiamare A1 semplicemente come A e A2 come tutto ciò che non è A, cioè A. Ne risulta anche che è p(A)+p(A) = 1. Basta isolare p(A) e si ottiene subito la tesi. CVD L’importanza di questo teorema sta nel fatto che dà una regola per calcolare la negazione di un evento: se nego un evento, la sua probabilità si ottiene sottraendo dall’intero la probabilità dell’evento (affermato). Teorema (dell’evento impossibile): è p() = 0. Dimostrazione. Nel caso in cui A si riduce a , è p() = 1, allora, per il teorema della negazione, è p() = 1p() = 11 = 0. Chiaramente è = : se nego un evento certo, ottengo un evento impossibile. Quindi è anche p() = p(). Quindi è p() = 0. CVD Con questo teorema, abbiamo fondato con certezza l’intuizione secondo cui un evento impossibile ha probabilità nulla. Teorema (dell’imperfezione): per qualunque evento A, è p(A) 1. Dimostrazione. Per il teorema della negazione, è p(A) = 1p(A). L’evento A è un evento qualunque, quindi, per l’assioma sui valori, è p(A) 0. Quindi, confrontando, si arriva a 1p(A) 0. Isolando p(A), si ottiene la tesi. CVD Con questo teorema abbiamo fondato con certezza l’intuizione secondo cui non esistono eventi con probabilità maggiore dell’evento certo. Teorema (delle probabilità totali o della disgiunzione incompatibile): se A e B sono incompatibili (cioè se è AB = ), allora è p(AB) = p(A)+p(B). Dimostrazione. Nell’assioma sulla partizione, si prendono 3 eventi, per cui è n = 3; A1 si può chiamare semplicemente A, A2 si può chiamare B e A3 indica tutti gli altri eventi, cioè (AB). Dato che lavoriamo su una partizione, per definizione di partizione è è AB = , perciò l’ipotesi è rispettata. Sempre per il fatto che lavoriamo su una partizione, è p(A)+p(B)+p[(AB)] = 1. Di nuovo per il fatto che lavoriamo su una partizione, è p(AB)+p[(AB)] = 1. Confrontando le sue ultime uguaglianze e semplificando, si ottiene la tesi. CVD L’importanza di questo teorema sta nel fatto che dà una regola per calcolare la disgiunzione di due eventi: se due eventi sono logicamente collegati con la O e sono incompatibili, le loro probabilità si possono sommare. Teorema (della disgiunzione compatibile): per due eventi qualunque A e B, è p(AB) = p(A)+p(B)p(AB). Dimostrazione. 5 Si hanno le tre equazioni (si noti che gli eventi dei membri a destra sono partizioni dei rispettivi eventi dei membri a sinistra, per cui la somma delle probabilità è legittima): p(A) = p(AB)+p(A SENZA B); p(B) = p(BA)+p(B SENZA A); p(AB) = p(AB)+p(A SENZA B)+p(B SENZA A). Isolando nelle prime due l’addendo che contiene il connettivo SENZA e sostituendo nella terza, si ottiene p(AB) = p(AB)+p(A)p(AB)+p(B)p(BA). Notando che è BA = AB e semplificando, si ottiene la tesi. CVD Con questo teorema, si trova la regola della disgiunzione in tutti i casi, anche quando c’è compatibilità fra gli eventi: se due eventi sono logicamente collegati con la O, allora le loro probabilità si possono sommare, purché si sottragga la probabilità della congiunzione. Inoltre, il teorema delle probabilità totali è soltanto un caso particolare, che capita quando gli eventi sono incompatibili e quindi è AB = . Usando l’equivalenza trovata in logica secondo cui è AB = AB, si può trovare un interessante risultato sulla probabilità dell’implicazione. Teorema (delle premesse esaurienti): è p(AB)+p(AB) = 1. Dimostrazione. Dalla relazione AB = AB, si ottiene subito p(AB)+p(AB) = p(AB)+p(AB) = p(AAB) =p(B) = p() = 1. CVD Il teorema mostra che sommare la probabilità di due implicazioni, con due premesse alternative ad un’unica conclusione, dà un risultato certo; ad esempio, è sicuro che se mangio sono vivo o se non mangio sono vivo; infatti, una delle implicazioni è vera. Le probabilità condizionate Facciamo una statistica su 20 studenti, distinguendoli secondo i loro gusti per l’aglio e il brodo. Ci sono 3 persone a cui piace sia l’aglio (A) sia il brodo (B). Ci sono 7 persone a cui piace l’aglio (A), ma non il brodo (B). Ci sono 6 persone a cui l’aglio non piace (A), ma il brodo sì (B). Ci sono 4 persone a cui non piace né l’aglio (A) né il brodo (B). I dati possono essere messi in tabella. B B A 3 7 A 6 4 Poniamoci allora la domanda: qual è la probabilità che a una persona piaccia il brodo, stabilito che le piace l’aglio? Per rispondere arricchiamo la tabella con qualche totale. B B Tot. A 3 7 10 A 6 4 10 Tot. 9 11 20 Se si è stabilito che siamo nell’ambito di quelli a cui piace l’aglio, la tabella si riduce a questa. B B Tot. A 3 7 10 Pertanto, usando la definizione frequentistica di probabilità, si ottiene p = 3/10 = 0,3. 6 Esercizio: nel campione sopra, qual è la probabilità di un’eccezione alla regola se piace il brodo, allora piace l’aglio? Le eccezioni a questa regola sono tutte le persone a cui piace il brodo, ma non l’aglio. Nella nostra tabella, sono 6. Il totale esaminato è di 20 persone. Quindi la probabilità di eccezione nel nostro campione è 6/20 = 0,3. Poniamo il concetto più in generale e usiamo la seguente tabella. A B B Tot. fAB fAB fA A fAB fAB fA Tot. fB fB n Il simbolo fA rappresenta la frequenza del carattere A, fAB quella del carattere AB e così via; il totale di tutte le frequenze è n. Ci si chiede ora qual è la probabilità di B, stabilito che capita A. Questa probabilità viene scritta come p(B|A) e si legge in vari modi: la probabilità di B, sapendo che è capitato A; la probabilità di B, condizionata da A; la probabilità di B, dato A; la probabilità di B, se è capitato A; e così via. Ripetendo in astratto il ragionamento precedente, si prende in considerazione soltanto una parte della tabella. B B Tot. A fAB fAB fA Il risultato è quindi p(B|A) = fAB/fA . Questo risultato, tuttavia, non è ancora espresso in termini di probabilità, perciò bisogna tradurre le frequenze in probabilità. Lo scopo è subito raggiunto dividendo le frequenze per il loro totale: sono p(A) = fA/n e p(AB) = fAB/n. Quindi si ha pB | A p B | A f A B f / n p A B A B . La formula della probabilità condizionata quindi è fA fA / n p A p A B . p A Esempio: qual è la probabilità di ottenere 3 con un dado, sapendo che è uscito un numero dispari? La probabilità di avere un numero dispari è 3/6. La probabilità di avere 3 e insieme di avere un numero dispari è uguale alla probabilità di avere 3, perciò è 1/6. La probabilità condizionata è allora (1/6)/(3/6) = 1/3. Teorema (delle probabilità condizionate): per le probabilità condizionate valgono gli assiomi di Kolmogorov. Dimostrazione. * Le probabilità condizionate rispettano l’assioma sull’intero, perché è p(|A) = p(A)/p(A) = p(A)/p(A) = 1. * Le probabilità condizionate rispettano l’assioma sui valori, perché sono rapporti di probabilità, che non possono essere negative (anzi, il denominatore non può nemmeno essere nullo). * Le probabilità condizionate rispettano l’assioma sulla partizione, perché è, se k assume tutti i valori interi da 1 a n, pBk | A pBk A 1 pBk A . p A p A Per lavorare sull’espressione sopra, si costruisca il seguente schema, che è come quello impiegato per definire le probabilità condizionate, soltanto che l’insieme B è partito in più di due sottoinsiemi e che tutte le frequenze sono state divise per n, in modo da disporre di probabilità frequentistiche. B1 B2 ... Bn Tot. A p(AB1) p(AB2) ... p(ABn) p(A) A p(AB1) p(AB2) ... p(ABn) p(A) Tot. p(B1) p(B2) ... p(Bn) 1 7 Si nota che la somma delle probabilità p(AB1), p(AB2), ..., p(ABn) dà p(A), perciò si ha p(BkA)/p(A) = 1. CVD La dimostrazione sull’assioma della partizione dà come caso particolare p(B|A)+p(B|A) = 1. Si ha quindi un teorema delle conseguenze esaurienti, da confrontare con il teorema delle premesse esaurienti dimostrato sopra, secondo cui è p(AB)+p(AB) = 1. Si può anche trovare qual è la probabilità che valga una certa regola AB. Infatti, la probabilità che valga la regola sarà uguale alla probabilità che non valgano eccezioni alla regola, cioè che non si abbia AB. In formule, è p(AB) = 1p(AB). Indipendenza probabilistica La definizione di probabilità condizionata si può anche scrivere rendendo esplicita p(AB) e ottenendo p(AB) = p(A)p(B|A). Si ha quindi una regola che indica come trasformare un legame logico fra eventi in un calcolo algebrico sulle probabilità: la probabilità di una disgiunzione è il prodotto di due probabilità. Il problema è che spesso non è facile determinare direttamente il valore della probabilità condizionata p(B|A), perciò la regola, pur chiarendo i rapporti fra i concetti in discussione, non è molto pratica. Tuttavia, esistono casi, tutto sommato abbastanza diffusi, in cui la regola prende un aspetto trattabile: quando due eventi sono indipendenti, in particolare quando B è indipendente da A, risulta p(B|A) = p(B); perciò la regola diventa p(AB) = p(A)p(B). Si ribadisce che questa regola vale soltanto quando A e B sono indipendenti. Anzi questa regola può anche essere adottata come test per verificare se due eventi sono davvero probabilisticamente indipendenti. Esempio: si suddivide l’intera regione alpina in zone. Per ogni zona, la probabilità di trovarvi un orso è 0,002; la probabilità di trovarvi una lince è 0,009; la probabilità di trovarvi entrambi è 0,000012. La presenza di orsi e quella linci in una certa zona sono eventi probabilisticamente indipendenti? Basta moltiplicare le probabilità sui singoli eventi e controllare se il risultato è uguale alla probabilità sulla congiunzione; dato che è 0,0020,009 = 0,000018 0,000012, gli eventi sono dipendenti. Riassunto dei principali risultati contenuti negli assiomi e nei teoremi La probabilità è un numero compreso fra 0 e 1, estremi inclusi. La probabilità di un evento certo è 1, quella di un evento impossibile è 0. La probabilità della negazione è: p(A) = 1p(A). La probabilità della disgiunzione è: p(AB) = p(A)+p(B)p(AB). Nel caso particolare in cui A e B sono incompatibili, si ha AB = 0, perciò ci si riduce a p(AB) = p(A)+p(B). La probabilità della congiunzione è: p(AB) = p(A)p(B|A). Nel caso particolare in cui A e B sono indipendenti, si ha B|A = B, perciò ci si riduce a p(AB) = p(A)p(B). Un’applicazione tratta da Dei delitti e delle pene Nel capitolo XIV (Indizi, e forme di giudizi) di Dei delitti e delle pene, Beccaria scrive: “Quando le prove di un fatto tutte dipendono egualmente da una sola, il numero delle prove non aumenta né sminuisce la probabilità del fatto, perché tutto il loro valore si risolve nel valore di quella sola da cui dipendono.” Il calcolo delle probabilità ci permette di dare una forma matematica ben precisa a questi ragionamenti. Poniamo A: il fatto è basato sulla prova fondamentale; B: il fatto è basato su un’altra prova. Allora è p(B|A) = 1: è sicuro che, dato che A prova il fatto, allora anche B lo prova. Da qui, con la definizione di probabilità condizionata, si trova p(AB)/p(A) = 1, cioè p(AB) = p(A). 8 Secondo il teorema della disgiunzione compatibile, è p(AB) = p(A)+p(B)p(AB), ma usando l’uguaglianza appena trovata si arriva a p(AB) = p(B), il cui significato è: la probabilità che il fatto sia basato sul mettere insieme A e B non è diversa dalla probabilità che il fatto sia basato soltanto sulla prova B. Subito dopo, Beccaria scrive: “Quando le prove sono indipendenti l’una dall’altra, cioè quando gli indizi si provano d’altronde che da se stessi, quanto maggiori prove si adducono, tanto più cresce la probabilità del fatto, perché la fallacia di una prova non influisce sull’altra.” Il modo di operare è simile al precedente; soltanto, qui non c’è una completa dipendenza, per cui è p(B|A) < 1: anche se A prova il fatto, non è sicuro che B lo provi. Letto in modo più intuitivo: B può non provare il fatto mentre A sì. In tal caso, procedendo come sopra, ma usando disuguaglianze invece che uguaglianze, si arriva a p(AB) > p(B): considerare anche la prova A ha più valore che considerare la prova B da sola. Si noti che l’indipendenza piena, cioè p(AB) = p(A)p(B), è un caso particolare di p(B|A) < 1, purché sia p(B) < 1; infatti si ha p(AB)/p(A) < 1, cioè p(AB) < p(A). Quando p(B) vale p(AB)/p(A), si ottiene appunto il caso di indipendenza piena. Subito prima di questi due ragionamenti, Beccaria scrive: “Quando le prove di un fatto sono dipendenti l’una dall’altra, cioè quando gl’indizi non si provano che tra di loro, quanto maggiori prove si adducono tanto è minore la probabilità del fatto, perché i casi che farebbero mancare le prove antecedenti fanno mancare le susseguenti.” Questo punto è piuttosto strano e verrebbe da giudicarlo un’illusione: non si capisce davvero come aggiungere prove, sia pure inutili, possa diminuire una certezza. L’unico modo di dare un senso al ragionamento mi sembra notare che, se si deriva la formula p(B|A) = p(AB)/p(A) rispetto a p(A) e si suppone p(AB) costante rispetto a p(A) (ipotesi decisamente forte e ben poco coerente con la premessa di Beccaria), si ottiene dp(B|A)/dp(A) = p(AB)/ p(A)2 < 0. In ogni caso, non riesco a pensare ad alcun esempio a sostegno di quest’ultimo ragionamento di Beccaria. Il teorema di Bayes Le probabilità condizionate si legano fra loro in modi di notevole interesse. Eccone alcuni. Teorema (di Bayes, per una conseguenza): è p B | A p A | B p B . p A Dimostrazione. La definizione di probabilità condizionata dà p(AB) = p(A)p(B|A). Invertendo A e B, si cambiano soltanto gli aspetti nominali, ma la sostanza non è toccata, perciò si può anche scrivere p(BA) = p(B)p(A|B). Dato che i membri a sinistra sono uguali, lo sono anche i membri a destra, perciò è p(A)p(B|A) = p(B)p(A|B). Isolando p(B|A), si ottiene la tesi. CVD Esempio (dati inventati): il 30% dei dipendenti è in buoni rapporti con il proprio responsabile; il 15% dei dipendenti ottiene un aumento a fine anno; fra quelli che sono in buoni rapporti con il responsabile, uno su 4 ottiene un aumento. Qual è la probabilità che un aumento sia dovuto a buoni rapporti con il proprio responsabile? Prima di tutto, vanno formulate le varie probabilità, cioè A: c’è un aumento di stipendio a fine anno; R: un dipendente è in buoni rapporti con il proprio responsabile. È pratico partire sempre dalla domanda, che si formula come p(R|A). Bisogna ora trovare p(A), p(R) e p(A|R). Si ottiene p(A) = 15% = 0,15, p(R) = 30% = 0,3 e p(A|R) = 1/4 = 0,25. Il teorema di Bayes perciò porta a p(R|A) = 0,250,3/0,15 = 0,5. Esempio: qual è la probabilità che esista un creatore di tutto, sapendo che la vita si è sviluppata? In formule, si ha B: esiste un creatore di tutto; A: la vita si è sviluppata. Interessa conoscere p(B|A). Per farlo, bisogna conoscere p(A|B), p(A) e p(B). Il valore di p(A) si ottiene subito: siamo vivi e circondati da un mondo vivo, perciò è sicuro che la vita si è sviluppata; si ha dunque p(A) = 1. Il valore di p(A|B) è altrettanto semplice da trovare: se esiste un creatore (se...), allora sicuramente la vita si sviluppa, se no che creatore è? Quindi si ha subito p(A|B) = 1. Non è invece così immediato trovare un valore per p(B), che quindi manteniamo in forma letterale. Anche senza conoscere il valore di p(B), si ottiene comunque un risultato significativo: sostituendo i valori trovati nel teorema di Bayes, si ottiene p(B|A) = p(B). 9 In parole: la probabilità che esista un creatore, sapendo che la vita si è sviluppata, è la stessa che esista un creatore non sapendolo. Sapere che la vita si è sviluppata non aumenta la probabilità che esista un creatore. Naturalmente, ciò è valido anche per alcune altre interpretazioni di A, come il mondo è (abbastanza) ordinato. Tutto ciò comunque non dovrebbe stupire: notoriamente, l’esistenza di un creatore è oggetto di fede e la fede, per definizione, non è conoscenza; pertanto, elementi di evidenza empirica difficilmente possono influire. Si lascia come esercizio di interpretare A con altre informazioni sull’esistenza. Teorema (di Bayes, per più conseguenze): è pBh | A p A | Bh pBh . p A | Bk pBk Dimostrazione. Sostituendo Bh a B nel teorema di Bayes per una conseguenza, si ottiene pBh | A p A | Bh pBh . Basta quindi p A mostrare che è p(A) = p(A|Bk)p(Bk) e la tesi è dimostrata. Intanto si può notare che, per definizione di probabilità condizionata, è p(A|Bk) = p(AB)/p(Bk). Poi si sostituisce questo risultato nell’ultima equazione scritta, ottenendo, dopo la semplificazione di p(Bk), il risultato p(A) = p(ABk). Dimostrando il teorema delle probabilità condizionate, si è già trovato che questa uguaglianza è sempre vera. Pertanto, a furia di sostituzioni, si arriva alla tesi. CVD Esempio: sapendo che una linea elettrica ha guasti nel primo terzo della sua lunghezza in 3 giorni all’anno e nei secondi due terzi in 4 giorni all’anno, qual è la probabilità che un’interruzione di corrente sia dovuto ad un guasto nel primo terzo della linea? Si ponga I: c’è un’interruzione; P: c’è un guasto nel primo terzo; S: c’è un guasto nei secondi due terzi. Per formulare il problema, conviene partire dalla domanda, che porta a p(P|I). Il numeratore del teorema di Bayes sarà quindi dato da p(I|P)p(P). Il denominatore sarà dato da p(I|P)p(P)+p(I|S)p(S). Sostituendo i valori numerici, si ha per il numeratore (3/365)(1/3) e per il denominatore (3/365)(2/3). 3 1 3 1 3 365 3 Si arriva perciò a pP | I . 3 1 4 2 3 1 4 2 11 365 3 365 3 Il teorema di Bayes per più conseguenze è anche chiamato teorema delle cause, perché gli eventi B1 , B2 , ..., Bn possono essere interpretati come le possibili cause dell’evento A. Esempio (dati inventati): la metà dei ritardi sui treni è dovuta a disorganizzazione, il 30% a errori dei singoli e il 20% a guasti. La disorganizzazione porta a ritardi in 5 casi su 10, gli errori in 7 casi su 10 e i guasti in 9 casi su 10. Qual è la probabilità che un ritardo sia dovuto a disorganizzazione? Gli eventi possono essere indicati come R: ritardo di un treno; D: disorganizzazione delle ferrovie; S: errore di un singolo; G: guasto al treno o alla linea. La domanda si formula come p(D|R). Il numeratore allora è p(R|D)p(D). Il denominatore è quindi p(R|D)p(D)+p(R|S)p(S)+p(R|G)p(G). Ne risulta p(D|R) = 0,50,5/(0,50,5+0,30,7+0,20,9) = 0,390625. La probabilità che sia la disorganizzazione delle ferrovie a determinare un certo ritardo quindi è pari a circa 0,39. C’è poi un’ulteriore interpretazione del teorema di Bayes per più conseguenze: le probabilità p(B1), p(B2), ..., p(Bn) possono essere interpretate come le probabilità che capitino gli eventi B1 , B2 , ..., Bn valutate prima di conoscere l’evento A (probabilità a priori), mentre le probabilità p(B1|A), p(B2|A), ..., p(Bn|A) si possono interpretare come le probabilità che capitino gli eventi B1 , B2 , ..., Bn valutate dopo che si conosce l’evento A (probabilità a posteriori). Il passaggio dalle probabilità a priori a quelle a posteriori, chiamato apprendimento bayesiano, è regolato dalle p(A|B1), p(A|B2), ..., p(A|Bn), chiamate verosimiglianze. Esempio: in un’indagine, l’inquirente si è fatto l’idea che una certa persona abbia una probabilità del 70% di essere innocente (probabilità a priori); è lì lì per passare ad altri sospetti, quando la scientifica gli fa avere il risultato di alcune analisi, secondo le quali il DNA della persona è uguale a quello trovato sotto le unghie della vittima. Facciamo l’ipotesi, per niente realistica, che gli esami sul DNA siano infallibili. È intuitivo che un innocente non lascia il suo DNA sotto le unghie della vittima, mentre un colpevole può benissimo lasciarlo; per esperienza su casi precedenti, si sa che lascia il DNA nel 20% dei casi. 10 La domanda naturalmente è: qual è la probabilità che la persona sia colpevole, dopo il rapporto della scientifica (probabilità a posteriori)? Si ponga C: la persona è colpevole; D: il DNA sotto le unghie della vittima è quello della persona. La domanda si formula come p(C|D). Vale la pena di chiarire che le verosimiglianze sono p(D|C) = 20% = 0,2 e p(D|C) = 0. Il numeratore allora è p(D|C)p(C). Il denominatore è quindi p(D|C)p(C)+p(D|C)p(C). Ne risulta p(C|D) = 0,2,07/(0,20,7+00,3) = 1. Come si nota e come è intuitivo, in un caso come questo non ha alcuna importanza il valore di p(D|C), perché comunque, che capiti spesso o no, l’unico a poter lasciare il proprio DNA sotto le unghie della vittima è il colpevole. In sintesi: mentre l’inquirente, prima di conoscere le verosimiglianze fornite dall’esame del DNA, era convinto al 70% che la persona fosse innocente, dopo l’esame è sicuro che è colpevole. L’apprendimento bayesiano mostra un aspetto particolarmente interessante: se una persona è convinta di sapere qual è l’evento Bh che capita, non c’è alcuna verosimiglianza che possa fargli cambiare idea. Ecco perché: poniamo, senza perdita di generalità, che la persona sia convinta che capiterà l’evento B1 . In tal caso, si ha p(B1) = 1 e quindi p(B2) = ... = p(Bn) = 0. Il teorema di Bayes prende allora questo aspetto: p B1 | A p A | B1 1 1. p A | B1 1 p A | B2 0 ... p A | Bn 0 Tutte le altre probabilità a posteriori dunque valgono 0, come è facile capire anche con un calcolo diretto. Quindi, anche dopo aver conosciuto l’evento A, la persona resta convinta che sarà l’evento B1 a capitare. Morale: in assenza di qualunque dubbio, non c’è esperienza concreta che possa far cambiare idea. Dalle probabilità condizionate alle frequenze Spesso è più intuitivo leggere, o presentare ad altre persone, una tabella di frequenze, eventualmente relative, invece che alcune probabilità condizionate. Ecco come passare dalle probabilità alle frequenze, basandoci sull’esempio dei dipendenti in buoni rapporti col responsabile che ottengono un aumento. Poniamo che ci vengano fornite soltanto le seguenti probabilità: p(A) = 0,15, p(R) = 0,3 e p(A|R) = 0,25. Se poniamo pari a 1 il totale dei casi, si ha chiaramente p(A) = 0,85 e p(R) = 0,7. Inoltre, si ottiene p(AR) = p(A|R)p(R) = 0,250,3 = 0,075. La tabella quindi è già parzialmente compilata: R R Tot. A 0,075 A 0,15 0,85 Tot. 0,3 0,7 1 I dati rimanenti si ottengono per differenza, ad esempio p(AR) = p(A)p(AR) = 0,150,075 = 0,075. Alla fine si ha: R R Tot. A 0,075 0,075 0,15 A 0,225 0,625 0,85 Tot. 0,3 0,7 1 Se poi si preferiscono i numeri interi, si può ad esempio moltiplicare per 1.000 (tenendo sempre presente che questo è un totale di comodo e non la numerosità del campione indagato): R R Tot. A 75 75 150 A 225 625 850 Tot. 300 700 1000 11