Statistica Teoria della probabilità alessandro polli facoltà di scienze politiche, sociologia, comunicazione Obiettivo La teoria della probabilità, prima ancora che una branca della matematica, è un «modo di vedere il mondo» e ripercorrerne la nascita e l’evoluzione è interessante per capire come l’uomo ha cambiato nei secoli la sua percezione e la sua capacità di interpretare la realtà. Verosimilmente, l’idea di «caso» è antica quanto il genere umano e nasce dalla precarietà dell’esistenza dei nostri antenati. Tuttavia, le specie animali al vertice della piramide evolutiva e il genere umano in particolare condividono un particolare vantaggio evolutivo rispetto alle altre specie, rappresentato dalla capacità di osservare una situazione, le cui manifestazioni possono variare nel tempo e nello spazio, e risalire in qualche modo, in maniera più o meno accurata, al processo generatore. Tuttavia la filosofia e via via tutte le altre discipline hanno impiegato millenni a raggiungere consapevolezza circa la natura del processo cognitivo in sé e a trattare il problema dell’incertezza, su un piano formale, con strumenti matematici adeguati. La teoria della probabilità è un insieme di risultati matematici, riconducibili alla teoria della misura, che consentono di formalizzare tutte quelle situazioni in cui il set informativo a disposizione di un osservatore è incompleto e a quantificare la plausibilità di un’affermazione circa un fenomeno in condizioni di incertezza. Teoria della probabilità 10/05/2016 Pagina 2 Evoluzione di una disciplina Il probabilismo gnoseologico. La dottrina del Probabilismo trae le sue origini dall’Accademia platonica legata alla corrente scettica (III sec. a.C.) con Arcesila di Pitane (315 – 241 a.C.) e soprattutto con Carneade di Cirene (219 – 129 a.C.). Poiché per questa scuola la verità (ideale e assoluta) è inconoscibile (pensate al mito platonico della caverna, tanto per capirci), si può assumere come «vera» l’opinione più probabile. Parleremo in questo caso di probabilismo gnoseologico. Questo approccio è vivo ancora oggi nella Epistemologia critica, proprio per la serrata analisi che fa sul concetto di conoscenza. Teoria della probabilità 10/05/2016 Pagina 3 Evoluzione di una disciplina Primi contributi all’elaborazione di una teoria matematica della probabilità. Risalgono alla fine del XV secolo. Luca Pacioli, amico di Leonardo da Vinci, in uno dei volumi della Summa de arithmetica, geometria, proportioni et proportionalita pubblicata nel 1494, si occupa del problema della ripartizione della posta tra giocatori nel caso di interruzione di un popolare gioco, problema presentato originariamente in un manoscritto anonimo degli inizi del XV secolo. Il problema della ripartizione della posta in Pacioli. Si considerino due giocatori π΄ e π΅ che stiano giocando una partita, ad esempio giocando con una moneta a «testa o croce», in cui vince la somma π (scommessa per metà da ciascun giocatore) chi per primo raggiunge π punti. Al momento dell’interruzione della partita, il giocatore π΄ ha totalizzato π punti, mentre π΅ ne ha totalizzati π, con π, π < π. Luca Pacioli propone il problema con π = 60, π = 50 e π = 20 e la soluzione da lui individuata è di dividere la posta assegnando ad π΄ e a π΅ rispettivamente le somme π π΄ =π π π+π π π΅ =π π π+π e quindi non tenendo conto del fatto che uno dei due giocatori possa essere «più vicino» ad ottenere il punteggio che gli farebbe vincere la posta in palio. Teoria della probabilità 10/05/2016 Pagina 4 Evoluzione di una disciplina La critica di Tartaglia. Il problema è successivamente studiato da Tartaglia, che critica la soluzione di Pacioli, osservando che, nel caso di interruzione dopo la prima partita, se π΄ ha vinto e π΅ ha perso, poiché π = 1, π = 0 e a + π = 1 + 0 = 1, si avrebbe che π π΄ =π 1 =π 1 π π΅ =π 0 =0 1 con la conclusione paradossale che in caso di interruzione del gioco dopo la prima partita π΄ otterrebbe la stessa somma che avrebbe vinto nel caso di π partite effettivamente disputate. Teoria della probabilità 10/05/2016 Pagina 5 Evoluzione di una disciplina Pascal e Fermat giocano a testa o croce. Il problema è risolto nel XVII secolo da Fermat e Pascal, sulla base di un ragionamento che è alla base del moderno calcolo combinatorio. Vediamo come. Fermat e Pascal giocano a testa o croce. Ciascuno scommette 50 ducati, per un totale di 100 ducati. Ogni partita vinta vale un punto. Se esce testa il punto è di Fermat, se esce croce il punto è di Pascal. I due uomini stabiliscono che quando uno di essi avrà raggiunto 10 punti, potrà prendersi i 100 ducati. Purtroppo devono smettere di giocare quando Fermat sta vincendo per 8 a 7. Come si divideranno i 100 ducati? Per Pacioli la soluzione sarebbe la seguente: indicando con π = 8 il numero di vittorie di Fermat e con π = 7 le vittorie di Pascal, la suddivisione della posta sarebbe la seguente: π 8 = 100 = 53,33 π+π 15 π 7 π π =π = 100 = 46,67 π+π 15 π πΉ =π ma sappiamo (lo dimostra Tartaglia) che tale soluzione non è soddisfacente sotto molti punti di vista. Teoria della probabilità 10/05/2016 Pagina 6 Evoluzione di una disciplina La soluzione di Fermat. A Fermat mancano ancora 2 punti per vincere, mentre a Pascal ne mancano 3, quindi sarebbero necessarie al massimo 4 partite per decidere il vincitore: infatti, in 3 partite, nella peggiore delle ipotesi Fermat potrebbe conquistare 1 punto e Pascal 2 e in questo caso la quarta partita sarebbe quella decisiva Indicando con π l’evento «testa» e con πΆ l’evento «croce», la seguente tabella riporta tutte le possibili sequenze di risultati nelle 4 partite: ππππ ∗ ππππΆ ∗ πππΆπ ∗ ππΆππ ∗ πΆπππ ∗ πππΆπΆ ∗ ππΆππΆ ∗ ππΆπΆπ ∗ πΆππΆπ ∗ πΆπππΆ ∗ πΆπΆππ ∗ ππΆπΆπΆ πΆππΆπΆ πΆπΆππΆ πΆπΆπΆπ πΆπΆπΆπΆ Le sequenze in cui Fermat vince il gioco sono contrassegnate dal simbolo *: è evidente che in 11 delle 16 sequenze possibili, Fermat vince, mentre in 5 delle 16 sequenze vince Pascal Teoria della probabilità 10/05/2016 Pagina 7 Evoluzione di una disciplina Poiché su 16 eventi possibili, 11 sono favorevoli a Fermat e 5 sono favorevoli a Pascal, in caso di interruzione del gioco la soluzione più ragionevole è dividere i 100 scudi in parti proporzionali in ragione di 11 a 5 e quindi 11 = 68,75 16 5 π π = 100 = 31,25 16 π πΉ = 100 È evidente che la soluzione appare più equa di quella proposta da Pacioli (che, a dire il vero, non era completamente convinto della soluzione da lui stesso proposta … ) Teoria della probabilità 10/05/2016 Pagina 8 Evoluzione di una disciplina La generalizzazione di Pascal. Pascal propone una soluzione più generale. Affinché Fermat vinca il gioco, è sufficiente che nelle ultime 4 partite si verifichi almeno 2 volte l’evento «testa» (cioè 2, 3 o 4 volte «testa») In quanti modi possono uscire 2 «teste» in 4 lanci? Consultando la precedente tabella, il numero di sequenze di 4 lanci in cui l’evento «testa» si verifica 2 volte è pari a 6. Più in particolare: πππΆπΆ ππΆππΆ ππΆπΆπ πΆπππΆ πΆππΆπ πΆπΆππ Analogamente, in quanti modi possono verificarsi 3 «teste» in 4 lanci? Consultando la tabella, ci accorgiamo che il numero di sequenze di 4 lanci in cui «testa» si verifica 3 volte è pari a 4. Infatti: ππππΆ πππΆπ ππΆππ πΆπππ In ultimo, in quanti modi possiamo ottenere 4 volte «testa» in 4 lanci? È agevole verificare che vi è solo una sequenza in cui si verifica 4 volte «testa» in 4 lanci: ππππ Quindi i casi a favore di Fermat sono 6 + 4 + 1 = 11 su 16 casi possibili Teoria della probabilità 10/05/2016 Pagina 9 Evoluzione di una disciplina Detto in altri termini, il numero di sequenze in cui si ottengono o π o π o π volte «testa» è pari alla somma del numero di sequenze in cui si ottengono π volte testa, del numero in cui se ne ottengono π e di quello in cui se ne ottengono π (tenete a mente questo risultato, perché come vedremo ci consentirà di enunciare un assioma teorico molto importante … ). Domandiamoci adesso se è possibile evitare di elencare materialmente tutte le combinazioni e di risalire al numero di sequenze favorevoli a Fermat attraverso una semplice procedura di carattere matematico. Quello che segue è il triangolo di Tartaglia: 1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 Osservate ad esempio la quarta riga, formata dai numeri 1, 4, 6, 4, 1. Questi numeri indicano proprio quanti sono i modi in cui ottenere rispettivamente 0, 1, 2, 3, 4 «teste» (o «croci») in 4 lanci di una moneta Teoria della probabilità 10/05/2016 Pagina 10 Evoluzione di una disciplina Possiamo scrivere una formula più semplice e generale basata appunto sull'utilizzo del triangolo di Tartaglia. Due giocatori, π΄ e π΅, giocano a «testa o croce». Ogni partita vinta vale un punto. Se esce l’evento «testa» il punto è di π΄, se esce «croce» il punto è di π΅. I due giocatori stabiliscono che quando uno di essi avrà raggiunto π punti, potrà prendersi la posta. Purtroppo essi devono smettere di giocare quando ad π΄ mancano ancora π₯ punti per vincere e a π΅ ne mancano π¦. Come si divideranno la posta? Con riferimento al triangolo di Tartaglia, la soluzione è la seguente: • • • Collochiamoci in corrispondenza della π₯ + π¦ -esima riga del triangolo di Tartaglia; Indichiamo con π π₯ + π¦ la somma di tutti gli elementi posti sulla π₯ + π¦ -esima riga; Indichiamo con π π₯ la somma dei primi π₯ termini; Teoria della probabilità 10/05/2016 Pagina 11 Evoluzione di una disciplina La somma che spetterà al giocatore π΄ sarà proporzionale al rapporto: π π₯ = π π₯ π π₯+π¦ Analogamente, la somma che spetterà al giocatore π΅ sarà proporzionale al rapporto π π¦ = π π₯+π¦ −π π₯ π π₯ = 1− = 1−π π₯ π π₯+π¦ π π₯+π¦ Naturalmente, esiste anche un metodo meno empirico del triangolo di Tartaglia per determinare il numero di sequenze favorevoli a Fermat, basato sul calcolo combinatorio: lo esamineremo più avanti nel corso della trattazione. Teoria della probabilità 10/05/2016 Pagina 12 Evoluzione di una disciplina La probabilità dopo il carteggio Fermat-Pascal. Lo scienziato olandese Christian Huygens, un insegnante di Leibnitz, ispirato dal carteggio tra Fermat e Pascal, pubblica nel 1657 il primo trattato di teoria della probabilità, dal titolo De ratiociniis in ludo aleae. Poiché il libro si occupava di giochi aleatori, la cui «febbre» stava dilagando in quel periodo, la teoria della probabilità divenne presto famosa e si sviluppò rapidamente durante il XVIII secolo. Tra gli studiosi ai quali si devono fondamentali contributi alla teoria della probabilità in questo periodo, ricordiamo Jacob Bernoulli (1654-1705) e Abraham De Moivre (1667-1754). Teoria della probabilità 10/05/2016 Pagina 13 Evoluzione di una disciplina Il contributo di Laplace. Nel 1812 Pierre Simon de Laplace (1749-1827) introduce nuove idee e tecniche matematiche nel suo testo Théorie Analytique des Probabilités. Se prima di Laplace la teoria della probabilità si occupava per lo più dello sviluppo di una matematica dei giochi aleatori, allo studioso francese si deve l’applicazione di un approccio probabilistico in molti problemi scientifici e pratici: la teoria degli errori, la matematica attuariale e la meccanica statistica sono esempi di alcune delle applicazioni della teoria della probabilità sviluppate nel XIX secolo. In quegli stessi anni, Gauss, con il contributo dello stesso Laplace, presentava una prima formulazione della distribuzione normale, conosciuta anche come distribuzione di Gauss-Laplace, che come sappiamo costituisce uno dei cardini su cui si fonda la statistica moderna. Dai tempi di Laplace, molti studiosi hanno contribuito alla sviluppo formale della teoria della probabilità. Tra i più importanti Chebychev, Markov, von Mises, De Finetti e Kolmogorov. Teoria della probabilità 10/05/2016 Pagina 14 La teoria della probabilità come teoria della misura Una delle difficoltà nello sviluppo di una teoria matematica della probabilità è stata il raggiungimento di una definizione di probabilità sufficientemente rigorosa e precisa per il suo utilizzo all’interno di un modello matematico ma, al tempo stesso, flessibile al fine di essere utilizzata per l’analisi di un’ampia gamma di fenomeni. Il problema è stato definitivamente risolto nel XX secolo, quando la teoria della probabilità è stata riformulata su basi completamente assiomatiche. Nel 1933, nella monografia Grundbegriffe der Wahrscheinlichkeitsrechnung (Fondamenti di teoria della probabilità), Kolmogorov delinea l’approccio assiomatico che è alla base della moderna teoria della probabilità. Da allora, queste idee sono state alquanto sviluppate e la teoria della probabilità ora è parte di una più generale disciplina matematica, la teoria della misura. Teoria della probabilità 10/05/2016 Pagina 15 La teoria della probabilità come teoria della misura Alcuni concetti di base. La realtà che ci circonda è la sintesi – il prodotto – di infiniti fatti le cui cause si intrecciano e si sovrappongono. Nonostante l’estrema complessità della realtà fenomenica e la difficoltà di individuare leggi generali, l’osservazione e l’esperienza pongono in evidenza ripetizioni e regolarità (è il cosiddetto problema sull’induzione di Hume) che possono essere condensate in affermazioni del tipo: «Ogni volta che si realizza un certo insieme di condizioni B, si verifica l’evento E». In questo caso, l’evento E è detto evento certo, in quanto definito in maniera univoca dall’insieme delle condizioni B. In notazione logica scriveremo che πΈ⊂π΅ che si legge «πΈ implica π΅». Se il set informativo a disposizione dell’agente non è π΅, ma un sottoinsieme parziale di condizioni πΆ, non si avrà come conseguenza necessaria il verificarsi di πΈ. Si parlerà in questo caso di evento incerto, o evento casuale. La teoria della probabilità è la branca delle discipline matematiche che studia i problemi di definizione e misurazione dell’incertezza. Teoria della probabilità 10/05/2016 Pagina 16 La teoria della probabilità come teoria della misura Il concetto di probabilità si presenta con due significati: • quello di chance, quando l’osservazione sul risultato di un esperimento e la sua valutazione dipendono dal caso – nel senso chiarito in precedenza – e l’esperimento è suscettibile di essere ripetuto un gran numero di volte; • quello di probabilità in senso stretto, attinente ad un esperimento difficilmente ripetibile. Introduciamo tre concetti, che risulteranno utili nel seguito della trattazione: • Esperimento casuale. Operazione (o sequenza di operazioni) il cui esito è incerto, nel senso che non può essere previsto con certezza (pensate ad esempio al lancio di una moneta … ) • Evento elementare. Qualunque risultato cui può dare luogo un esperimento. Gli eventi elementari ππ possono essere considerati come elementi di un più generale spazio degli eventi • Spazio campione. È l’insieme di tutti gli eventi elementari o evento certo Ω, nel senso che dato un esperimento casuale, o l’uno o l’altro degli eventi elementari cui può condurre l’esperimento deve necessariamente verificarsi. In generale gli eventi elementari costituiranno sottoinsiemi in Ω. Teoria della probabilità 10/05/2016 Pagina 17 La teoria della probabilità come teoria della misura La definizione classica di probabilità. Originariamente dovuta a Laplace, afferma che dato uno spazio finito di eventi π, la probabilità è il rapporto tra il numero ππ dei casi favorevoli al verificarsi di un qualunque evento π e il numero π dei casi possibili, posto che gli eventi siano tutti equiprobabili ππ π = ππ π ∀π ∈ Ω Esempio 1. Consideriamo un semplice esperimento di lancio di una moneta ben bilanciata. Il lancio di una moneta può avere come esito l’uno o l’altro dei due eventi elementari «testa» e «croce». Lo spazio campione sarà quindi composto dai due eventi elementari «testa» e «croce» e quindi Ω = π, πΆ . Con riferimento all’evento elementare π = π‘ππ π‘π, poiché nel corso di un esperimento casuale di lancio di una moneta gli eventi possibili sono due, di cui soltanto uno favorevole al verificarsi dell’evento elementare «testa», avremo che π = 2, ππ = 1 e quindi la probabilità che si verifichi π sarà data dal rapporto ππ π = ππ 1 = π 2 Lo stesso ragionamento, ovviamente, può essere seguito per valutare la probabilità del verificarsi dell’evento elementare «croce». Teoria della probabilità 10/05/2016 Pagina 18 La teoria della probabilità come teoria della misura La definizione classica è una definizione a priori. Per esempio, con riferimento all’esperimento consistente nel lancio di una moneta ben bilanciata, l’agente conosce ex ante gli eventi elementari (testa, croce) cui l’esperimento può dare luogo Gli eventi hanno la caratteristica fondamentale di essere: • necessari, in quanto nel corso dell’esperimento o l’uno o l’altro degli eventi elementari deve necessariamente verificarsi; • mutuamente esclusivi (o incompatibili), tali cioè che il verificarsi dell’uno esclude il verificarsi dell’altro; • equiprobabili, in quanto si assume che nessuno dei due eventi elementari abbia maggiori chance di manifestarsi rispetto all’altro. Teoria della probabilità 10/05/2016 Pagina 19 La teoria della probabilità come teoria della misura Per quanto di immediata comprensibilità e di pronta applicazione a semplici problemi pratici, la definizione classica è insoddisfacente da un punto di vista logico. Infatti, il riferimento nella definizione alla nozione di equiprobabilità degli eventi elementari configura una tautologia: in logica la tautologia è un’affermazione vera per definizione e, in quanto tale, fondamentalmente priva di contenuto informativo; una tautologia, in altre parole, ragiona circolarmente attorno agli argomenti o alle definizioni. Inoltre, a prescindere dalle sue lacune logiche, l’applicabilità della definizione classica è confinata a quei contesti in cui l’osservatore sia in grado di rappresentare ex ante lo spazio degli eventi elementari e che questi, come detto, siano equiprobabili, condizioni che difficilmente si presentano nella realtà. Teoria della probabilità 10/05/2016 Pagina 20 La teoria della probabilità come teoria della misura La definizione frequentista. Formulata da Venn (1834-1923), emerge da un ragionamento a posteriori fondato sull’osservazione dei risultati di un esperimento. Consideriamo un esperimento articolato in π prove, nel corso del quale si verifichino π eventi elementari π1 , π2 , … , ππ tra loro incompatibili, ma non equiprobabili. Ipotizziamo che in π prove l’evento elementare ππ si sia manifestato ππ volte. Definendo la frequenza relativa dell’evento ππ il rapporto ππ = ππ π la misura di probabilità del generico evento elementare ππ è il limite della sua frequenza relativa al divergere del numero di prove. In simboli avremo che ππ π→∞ π ππ ππ = lim La definizione frequentista è stata anche indicata come legge empirica del caso. Teoria della probabilità 10/05/2016 Pagina 21 La teoria della probabilità come teoria della misura Esempio 2. Ipotizziamo di lanciare un dado, ma di non sapere a priori a quali esiti può dare luogo l’esperimento. Replicando alcune volte l‘esperimento, all’ottava prova ci accorgiamo che uno degli eventi elementari che si verificano è la faccia contrassegnata dal numero 6. Concentriamoci sulla probabilità di ottenere come risultato la faccia contrassegnata dal numero 6 e, a questo scopo, replichiamo l’esperimento 20.000 volte e calcoliamo la frequenza assoluta e quella relativa dell’evento π6 = ππππππ 6 πππ ππππ. L’esperimento è condotto utilizzando la funzione di «campionamento» di Excel: Teoria della probabilità 10/05/2016 Pagina 22 La teoria della probabilità come teoria della misura Al divergere del numero delle prove, la frequenza relativa associata al verificarsi dell’evento π6 ha il seguente andamento: Come appare evidente dal grafico, il valore della frequenza relativa mostra notevoli oscillazioni, per poi stabilizzarsi a partire dalla prova π∗ ≅ 4.800. Da quel punto in poi, la frequenza relativa di uscita della faccia numero 6 è approssimativamente costante: si è «trasformata» in una probabilità. Teoria della probabilità 10/05/2016 Pagina 23 La teoria della probabilità come teoria della misura Proprio perché formulata a posteriori, in quanto emerge nel corso di un esperimento articolato in un grande numero di prove, la definizione frequentista presenta alcune limitazioni. Quella più ovvia è che la misura di probabilità nella definizione frequentista presuppone lo svolgimento di un esperimento articolato su un gran numero di prove. Se un evento non si è manifestato nel corso dell’esperimento, non se ne può misurare la probabilità: sarebbe infatti necessario ripetere l’esperimento infinite volte per avere la certezza che tutti gli eventi elementari si siano effettivamente manifestati. Inoltre, sebbene la definizione frequentista sia largamente diffusa nelle scienze applicate, non è universale. Per risolvere il problema dell’universalità sono stati proposti due approcci più consistenti sul piano matematico, l’impostazione soggettiva e quella assiomatica. Teoria della probabilità 10/05/2016 Pagina 24 La teoria della probabilità come teoria della misura La definizione soggettiva. L’approccio in termini soggettivi appare alla fine degli anni venti del XX secolo in risposta alle citate lacune logiche dell’impostazione classica e di quella frequentista. Partiamo da una premessa generale. Nella vita di tutti i giorni possono manifestarsi eventi unici, irripetibili, rispetto ai quali un osservatore potrebbe essere chiamato a prendere decisioni, senza conoscerne pienamente conseguenze e implicazioni. In questi contesti, dominati dall’incertezza più che dal rischio, le misure classiche e frequentiste di probabilità non risultano più applicabili. In che termini parliamo di incertezza e di rischio? La distinzione tra rischio (measurable uncertainty) e incertezza (unmeasurable uncertainty) è un tema introdotto da Knight: • Una decisione in condizioni di rischio si realizza quando il decisore ha cognizione di tutti gli stati in cui può manifestarsi un fenomeno e può associare una misura di probabilità a ciascuno stato • Di contro, quando l’agente non dispone di una rappresentazione completa dello spazio degli stati e/o non è in grado di assegnare una misura di probabilità a ciascuno di essi, si parlerà più propriamente di decisioni in condizioni di incertezza Teoria della probabilità 10/05/2016 Pagina 25 La teoria della probabilità come teoria della misura Sviluppata indipendentemente da Ramsey (1903-1930) e da De Finetti (1906-1985), l’impostazione soggettiva afferma che la probabilità di un evento π è una misura π del grado di fiducia che un individuo attribuisce al verificarsi di π sulla base delle sue opinioni ed informazioni sull’evento e il principio di coerenza. In realtà De Finetti preferiva utilizzare una definizione più operativa: la probabilità di un evento π, secondo l’opinione di un individuo π°, è il prezzo π che π° giudica equo pagare per riscuotere un importo unitario nel caso in cui π si verifichi. Per i soggettivisti la probabilità è una misura del grado di fiducia – in inglese degree of belief – che una qualsiasi affermazione sia vera. E poiché quanto più si crede in un’affermazione, tanto più si è disposti a scommettere su di essa, si può utilizzare il concetto di scommessa coerente per definire in maniera operativa la misura di probabilità. Nella concezione di De Finetti una scommessa è coerente quando non determina una perdita certa a priori per il banco o per lo scommettitore, mentre il prezzo pagato si definisce equo se lo scommettitore non muta i termini della scommessa anche quando cambia il suo ruolo con quello di banco. Teoria della probabilità 10/05/2016 Pagina 26 La teoria della probabilità come teoria della misura Quindi coerenza significa il rispetto di alcuni criteri di carattere logico. Con la diretta implicazione che, per quanto in questa impostazione la valutazione sia un atto soggettivo, non è arbitraria. Infatti, se nell’analisi di un problema le valutazioni di una pluralità di osservatori potrebbero non concordare, quando il set informativo di cui dispone l’osservatore rimane immutato, non deve mutare il suo grado di fiducia circa l’avverarsi di π. Teoria della probabilità 10/05/2016 Pagina 27 La teoria della probabilità come teoria della misura Esempio 3. Consideriamo l’evento π =«vittoria del pilota π nella gara automobilistica π». Ipotizziamo che dietro pagamento di 0 euro un allibratore ve ne promettesse 100 nel caso si verifichi π: voi accettereste di partecipare alla scommessa? Sicuramente sì, in quanto l’allibratore vi ha chiesto 0 euro per partecipare al gioco e l’evento π potrebbe verificarsi. Ipotizziamo adesso che l’allibratore vi chieda di scommettere 10 eurocent. In questo caso accettereste di partecipare? Quasi certamente la risposta sarebbe ancora affermativa, perché a fronte di una perdita massima di 10 eurocent la vincita potrebbe essere molto superiore. Ma se per scommettere l’allibratore vi chiedesse 90 euro, accettereste di partecipare? Verosimilmente no, a meno che il vostro information set non vi inducesse a ritenere che comunque la scommessa è vantaggiosa. Teoria della probabilità 10/05/2016 Pagina 28 La teoria della probabilità come teoria della misura In sintesi, con un prezzo di 10 eurocent partecipate alla scommessa, mentre non partecipate se non a condizioni stringenti quando il prezzo è di 90 euro. Generalizzando, se accettate di partecipare al gioco pagando un prezzo π, accetterete a maggior ragione al prezzo π ∗ < π. Di contro, se non partecipate al gioco al prezzo π, rifiuterete a maggior ragione al prezzo π∗∗ > π. Esisterà quindi un valore soglia di π che separa la decisione di partecipare alla scommessa da quella di non partecipare. Quel valore soglia π è la probabilità soggettiva da voi assegnata a π In generale, se un certo evento π, nell’ambito di una scommessa coerente e ipotizzando che il prezzo sia equo, viene dato «π contro π», la probabilità soggettiva di π risulterà pari a π π = Teoria della probabilità π¦ π₯+π¦ 10/05/2016 Pagina 29 La teoria della probabilità come teoria della misura Esempio 4. Un allibratore vi propone una scommessa «4 contro 1» sul verificarsi di un certo evento π, il che significa che l’allibratore si impegna, al verificarsi dell’evento, a riconoscervi un premio pari a 4 più il rimborso del prezzo da voi pagato per partecipare al gioco, pari ad 1 Se accettate di partecipare alla scommessa, la vostra misura di probabilità soggettiva circa il verificarsi di π sarà data da π π = Teoria della probabilità π¦ 1 = = 0,2 π₯+π¦ 4+1 10/05/2016 Pagina 30 Elementi di teoria degli insiemi Per introdurre la quarta definizione di probabilità, quella assiomatica, è necessario richiamare alcune semplici nozioni di teoria degli insiemi. L’insieme può essere visto come una collezione di oggetti che presentano una o più caratteristiche comuni. Nel caso dello spazio campione Ω, l’elemento comune agli eventi ππ ∈ Ω è quello di essere i risultati ottenibili nel corso di un esperimento casuale. Nella teoria degli insiemi, due sono le tematiche principali: le relazioni su insiemi e le operazioni che possiamo svolgere tra sottoinsiemi. Relazioni su insiemi. In matematica, per relazione intendiamo un collegamento tra oggetti. La prima relazione fondamentale è quella di appartenenza. Diremo che un evento elementare π appartiene ad un sottoinsieme π΄ di eventi elementari (e indicheremo tale relazione come π ∈ π΄) se soddisfa un criterio di appartenenza specifico Se per esempio π΄ è l’insieme dei numeri naturali minori di 10, il criterio di appartenenza sarà descritto come π΄ = π: π ππ’ππππ πππ‘π’ππππ ππππππ ππ 10 = π: π ∈ β; π < 10 Tale definizione si legge come «π΄ insieme degli eventi elementari π appartenenti ai numeri naturali minori di dieci» Teoria della probabilità 10/05/2016 Pagina 31 Elementi di teoria degli insiemi Da un punto di vista grafico, avremo che Definita l’appartenenza è immediato derivare la relazione di non appartenenza. Infatti, fissato l’insieme π΅ dei numeri naturali maggiori o uguali a 10: π΅ = π: π ππ’ππππ πππ‘π’ππππ ππππππππ π π’ππ’πππ π 10 = π: π ∈ β; π ≥ 10 allora se π ∈ π΄ → π ∉ π΅ Teoria della probabilità 10/05/2016 Pagina 32 Elementi di teoria degli insiemi Relazione di inclusione. La seconda relazione fondamentale, riferita a due sottoinsiemi, è quella di inclusione. Dati due sottoinsiemi π΄ e π΅, si ha una relazione di inclusione se tutti gli elementi appartenenti ad uno dei due sottoinsiemi appartengono anche all’altro. In simboli avremo che π΄ ⊆ π΅ βΊ ∀π ∈ π΄, π ∈ π΅ La definizione va letta come «π΄ è incluso in π΅ se e solo se, per ogni π appartenente ad π΄, π appartiene a B». Da un punto di vista grafico, avremo che Teoria della probabilità 10/05/2016 Pagina 33 Elementi di teoria degli insiemi Parleremo poi di relazione di inclusione stretta (indicata come π΄ ⊂ π΅) se ogni elemento di π΄ è anche elemento di π΅, ma esistono alcuni elementi di π΅ che con certezza non appartengono ad π΄ La relazione di inclusione è riflessiva, antisimmetrica e transitiva. Infatti: • • • π΄⊆π΄ π΄ ⊆π΅∧π΅ ⊆π΄ βΉπ΄ =π΅ π΄ ⊆π΅∧π΅ ⊆πΆ βΉπ΄ ⊆πΆ La proprietà di antisimmetria è importante in quanto consente di definire la relazione di uguaglianza tra due o più sottoinsiemi. Teoria della probabilità 10/05/2016 Pagina 34 Elementi di teoria degli insiemi Relazione di disgiunzione. La terza relazione fondamentale è quella di disgiunzione. Dati due sottoinsiemi π΄ e π΅, diremo che π¨ e π© sono disgiunti se non hanno alcun elemento in comune, cioè se la loro intersezione è insieme vuoto. In simboli: π΄∩π΅ =∅ La relazione di disgiunzione tra sottoinsiemi è simmetrica, nel senso che se π΄ è disgiunto da π΅, deve valere anche la relazione opposta, ma non è riflessiva né transitiva. Infatti, se è chiaro che un insieme π΄ non può essere disgiunto da π΄, cioè da sé stesso, potrebbe non risultare immediato che la relazione di disgiunzione non è transitiva. Per convincerci della validità dell’affermazione, tuttavia, basta fare riferimento alla situazione rappresentata nel seguente diagramma: Teoria della probabilità 10/05/2016 Pagina 35 Elementi di teoria degli insiemi Dall’osservazione del diagramma, appare evidente che π΄ è disgiunto da π΅, π΅ è disgiunto da πΆ, ma πΆ non è disgiunto da π΄. Quindi in generale la relazione di disgiunzione non è transitiva. Infine, estendiamo la relazione di disgiunzione a famiglie di sottoinsiemi. Una famiglia di sottoinsiemi π΄π ; π = 1, 2, … , π si dirà costituita da insiemi mutuamente disgiunti, o mutuamente esclusivi, se per ogni coppia di indici distinti π e π, con π ≠ π, i corrispondenti sottoinsiemi risultano disgiunti. Nel caso in cui, infine, lo spazio degli eventi Ω possa essere suddiviso in un certo numero di sottoinsiemi mutuamente esclusivi appartenenti ad una famiglia πΉ, si dirà che πΉ è una partizione di Ω. Teoria della probabilità 10/05/2016 Pagina 36 Elementi di teoria degli insiemi Operazioni su insiemi. In matematica, si definisce operazione una legge di composizione da uno o più insiemi agli elementi compresi in essi. In maniera meno «criptica», definiamo operazione un qualsiasi procedimento che, a partire da numeri o enti dati, fornisce come risultato un numero o altro ente astratto. Nel seguito, tuttavia, preferiamo riferirci ad un concetto primitivo di operazione, come confronto tra due o più sottoinsiemi. Le operazioni su insiemi che considereremo sono: • • • • Unione Intersezione Complemento assoluto o negazione Complemento relativo o differenza Teoria della probabilità 10/05/2016 Pagina 37 Elementi di teoria degli insiemi Unione. Con riferimento a due sottoinsiemi π΄, π΅ ∈ Ω, l’unione è l’insieme composto dagli eventi elementari compresi in π¨ o in π© o in entrambi. In simboli avremo che ∀π΄, π΅ ∈ Ω π΄ ∪ π΅ = π: π ∈ π΄ ∨ π ∈ π΅ La definizione precedente si legge come «dati due sottoinsiemi di eventi elementari π΄, π΅ appartenenti allo spazio di eventi Ω, l’evento unione è l’insieme di eventi elementari che appartengono a π΄ o a π΅». Notare che nel diagramma a destra i due sottoinsiemi presentano eventi elementari in comune. Se questa situazione non si verifica, parleremo di unione di eventi disgiunti. Teoria della probabilità 10/05/2016 Pagina 38 Elementi di teoria degli insiemi Intersezione. La seconda operazione è quella di intersezione tra sottoinsiemi. Con riferimento a due sottoinsiemi π΄, π΅ ∈ Ω, l’intersezione è l’insieme composto dagli eventi elementari compresi in π΄ e in π΅. In simboli avremo che ∀π΄, π΅ ∈ Ω π΄ ∩ π΅ = π: π ∈ π΄ ∧ π ∈ π΅ La definizione si legge come «dati due sottoinsiemi di eventi elementari π΄, π΅ appartenenti allo spazio di eventi Ω, l’evento intersezione è l’insieme di eventi elementari che appartengono a π΄ e a π΅» Teoria della probabilità 10/05/2016 Pagina 39 Elementi di teoria degli insiemi Complemento assoluto o negazione. Con riferimento ad un sottoinsieme π΄ ∈ Ω, definiamo il complemento assoluto o negazione di π¨ l’insieme degli eventi elementari compresi in Ω e non appartenenti al sottoinsieme π΄. In simboli avremo che ∀π΄ ∈ Ω ¬π΄ = π: π ∉ π΄ L’evento ¬π΄ quindi si verifica se e solo se non si verifica π΄. Alcune implicazioni dell’operazione di complemento assoluto: • • • • • ¬ ¬π΄ = π΄ π΄ ∪ ¬π΄ = Ω π΄ ∩ ¬π΄ = ∅ ¬Ω = ∅ ¬∅ = Ω Teoria della probabilità 10/05/2016 Pagina 40 Elementi di teoria degli insiemi Complemento relativo o differenza. L’estensione dell’operazione di complemento assoluto è indicata come complemento relativo o differenza. Con riferimento a due sottoinsiemi π΄, π΅ ∈ Ω caratterizzati dall’avere uno o più eventi elementari in comune, tali cioè che π΄ ∩ π΅ ≠ ∅, il complemento relativo o evento differenza π΄ − π΅ è l’insieme composto dagli eventi elementari compresi in π΄ e non compresi in π΅. In simboli avremo che ∀π΄, π΅ ∈ Ω π΄ − π΅ = π: π ∈ π΄ ∧ π ∉ π΅ Notare che, diversamente dalle operazioni di unione e intersezione, in generale l’operazione di complemento relativo non è simmetrica, per cui potremo definire, dati i due sottoinsiemi π΄, π΅ ∈ Ω, un secondo evento differenza π΅ − π΄ , definito come l’insieme composto dagli eventi elementari compresi in π΅ e non compresi in π΄. In simboli ∀π΄, π΅ ∈ Ω Naturalmente π΄ − π΅ ≠ π΅ − π΄ βΊ π΄ ≠ π΅ π΅ − π΄ = π: π ∉ π΄ ∧ π ∈ π΅ Teoria della probabilità 10/05/2016 Pagina 41 Elementi di teoria degli insiemi Proprietà delle operazioni su insiemi. Le operazioni su insiemi (e in particolare le operazioni di unione e intersezione) godono di alcune fondamentali proprietà, elencate di seguito: Proprietà commutativa: π΄∪π΅ =π΅∪π΄ π΄∩π΅ =π΅∩π΄ Proprietà associativa: π΄∪ π΅∪πΆ = π΄∪π΅ ∪πΆ π΄∩ π΅∩πΆ = π΄∩π΅ ∩πΆ Proprietà distributiva: π΄∪ π΅∩πΆ = π΄∪π΅ ∩ π΄∪πΆ π΄∩ π΅∪πΆ = π΄∩π΅ ∪ π΄∩πΆ Leggi di De Morgan: ¬ π΄ ∪ π΅ = ¬π΄ ∩ ¬π΅ ¬ π΄ ∩ π΅ = ¬π΄ ∪ ¬π΅ Teoria della probabilità 10/05/2016 Pagina 42 Elementi di teoria degli insiemi Estensione a più eventi. Dato un numero finito di eventi π΄π ; π = 1, 2, … , π , la loro unione è l’insieme composto dagli eventi elementari π appartenenti a π΄1 o π΄2 o … o π΄π , mentre la loro intersezione sarà data dall’insieme composto dagli eventi elementari π appartenenti a π΄1 e π΄2 e … e π΄π In simboli, per l’operazione di unione avremo che π π=1 π΄π = π: π ∈ π΄1 ∨ π ∈ π΄2 ∨ … ∨ π ∈ π΄π mentre per l’operazione di intersezione potremo scrivere che π π=1 π΄π = π: π ∈ π΄1 ∧ π ∈ π΄2 ∧ β― ∧ π ∈ π΄π Quanto alle leggi di De Morgan, la loro estensione a π eventi assume la seguente formulazione: ¬ ¬ Teoria della probabilità π π=1 π π=1 π΄π = π΄π = π π=1 π π=1 ¬π΄π ¬π΄π 10/05/2016 Pagina 43 Elementi di teoria degli insiemi Estensione a successioni di eventi. Data una successione di eventi π΄π ; π = 1, 2, … , per l’operazione di unione scriveremo che ∞ π=1 π΄π = π: π ∈ π΄1 ∨ π ∈ π΄2 ∨ … mentre per l’operazione di intersezione avremo che ∞ π=1 π΄π = π: π ∈ π΄1 ∧ π ∈ π΄2 ∧ β― Quanto alle leggi di De Morgan, la loro estensione ad una successione di eventi è formulata come segue: ¬ ¬ Teoria della probabilità ∞ π=1 ∞ π=1 π΄π = π΄π = ∞ π=1 ∞ π=1 ¬π΄π ¬π΄π 10/05/2016 Pagina 44 Elementi di teoria degli insiemi Classi completamente additive (π−algebre). In matematica, una π-algebra o tribù su un insieme di eventi π è una famiglia di sottoinsiemi di π che gode di alcune proprietà di stabilità rispetto a operazioni quali l’unione numerabile e il passaggio al complementare Il concetto di π-algebra è alla base della teoria della misura, della teoria assiomatica della probabilità e di tutte le nozioni di misurabilità, sia di insiemi, sia di funzioni. Infatti la π-algebra è un caso particolare di algebra di insiemi, ed è utilizzata ampiamente in analisi matematica, per gli svariati vantaggi che le misure definite su π-algebre hanno rispetto alle operazioni di passaggio al limite (ricordate l’approccio frequentista?) Teoria della probabilità 10/05/2016 Pagina 45 Elementi di teoria degli insiemi Definizione. Sia dato uno spazio di eventi Ω e un suo sottoinsieme di eventi elementari π΄. Consideriamo una classe β tale che 1. 2. 3. Contenga Ω βΉ Ω ∈ β Se π΄ ∈ β βΉ ¬ π΄ ∈ β. In altri termini, se la classe β contiene il sottoinsieme π΄, deve contenere anche la sua negazione ¬π΄ Data una successione finita o infinita di sottoinsieme di eventi elementari π΄1 , π΄2 , … = π΄π ; π = Teoria della probabilità 10/05/2016 Pagina 46 Elementi di teoria degli insiemi Perché introduciamo il concetto di π-algebra? Perché è uno strumento che ci consente di «condensare» e riassumere l’insieme dei risultati di tutte le operazioni di confronto fra eventi elementari o sottoinsiemi di eventi elementari, con particolare riferimento alle operazioni di unione, intersezione, differenza. A partire da uno stesso spazio campione Ω, possono essere costruite più classi di eventi β, ognuna delle quali deve contenere almeno Ω (proprietà 1) e l’evento complemento ¬Ω = ∅ (proprietà 2). Quindi la più piccola classe completamente additiva è formata solo da Ω e ∅: β= ∅ Ω Nel caso di insiemi numerici continui definiti su β, è impossibile effettuare confronti, per cui preliminarmente devono essere fissati intervalli di valori quali πΌ = −∞, π₯ πΌ = π₯1 , π₯2 a partire dai quali è nuovamente possibile costruire la π-algebra Teoria della probabilità 10/05/2016 Pagina 47 Elementi di teoria degli insiemi Esempio 5. Dato lo spazio degli eventi Ω = 1, 2, 3 costruiamo la π-algebra completa dei sottoinsiemi di eventi elementari appartenenti a Ω. Avremo che ∅ 1 2 3 β= 12 13 23 123 Verifichiamo se effettivamente β è una π-algebra, verificando che la proprietà 2, in virtù della quale se π΄ ∈ β βΉ ¬ π΄ ∈ β, sia soddisfatta. Scegliamo arbitrariamente due sottoinsiemi rispettivamente di ampiezza 1 o 2, ad esempio π΄1 = 3 e π΄2 = 1, 2 . È agevole mostrare che π π π΄ = 3 ∈ β βΉ ¬π΄ = 1, 2 ∈ β π π π΄ = 1, 2 ∈ β βΉ ¬π΄ = 3 ∈ β Teoria della probabilità 10/05/2016 Pagina 48 Elementi di teoria degli insiemi Inoltre, scegliendo arbitrariamente due sottoinsiemi di ampiezza unitaria, quali ad esempio π΄1 = 1 e π΄2 = 3 , verifichiamo se β è una π-algebra alla luce della proprietà 3, in virtù della quale data una successione finita o infinita di sottoinsieme di eventi elementari π΄1 , π΄2 , … = π΄π ; π = 1, 2, … appartenenti a β, anche la loro unione appartiene a β. Avremo che • • π΄1 ∪ π΄2 = 1, 3 βΉ ¬ π΄1 ∪ π΄2 = 2 ∈ β 2 π=1 ¬π΄π = ¬π΄1 ∩ ¬π΄2 = 2, 3 ∩ 1, 2 = 2 ∈ β Teoria della probabilità 10/05/2016 Pagina 49 La teoria assiomatica della probabilità Formulata da Kolmogorov (1903-1987), è considerata la definizione più consistente sul piano matematico, in quanto, come chiarito in precedenza, si fonda su alcuni principi generali di teoria della misura. Data una π-algebra β di sottoinsiemi π¨ ⊆ π΄, la misura di probabilità π·π è una funzione che associa ad ogni sottoinsieme π¨ un numero reale non negativo. In simboli ππ: π΄ → β+ Come appare evidente, tale definizione prescinde dalle nozioni di casi favorevoli, casi possibili, equiprobabilità, esperimenti articolati in infinite prove, quindi «tiene» da un punto di vista sia logico, sia operativo, in quanto è sufficientemente generale da ricomprendere tutti i contesti concretamente osservabili. Teoria della probabilità 10/05/2016 Pagina 50 La teoria assiomatica della probabilità Assiomi della misura di probabilità. La misura di probabilità così definita soddisfa quattro assiomi: 1. Non negatività. ∀π΄ ∈ β ππ π΄ ≥ 0 2. Normalizzazione ππ Ω = 1 3. Additività finita. Dati due eventi π΄, π΅ ∈ Ω incompatibili, cioè tali che π΄ ∩ π΅ = ∅, la probabilità dell’evento unione è data dalla somma delle singole probabilità degli eventi. In simboli: ππ π΄ ∪ π΅ = ππ π΄ + ππ π΅ 4. Completa additività. Data una famiglia composta da un’infinità numerabile di sottoinsiemi di eventi elementari π΄1 , π΄2 , … = π΄π ; π = 1, 2, … a due a due incompatibili, cioè tali che ∀π ≠ π π΄π ∩ π΄π = ∅ ππ Teoria della probabilità ∞ π=1 π΄π = ∞ ππ π΄π π=1 10/05/2016 Pagina 51 La teoria assiomatica della probabilità Proprietà della misura di probabilità. La misura di probabilità gode di alcune proprietà che consentono di quantificare l’incertezza dell’osservatore non soltanto circa il verificarsi di eventi elementari, ma anche circa il verificarsi di sottoinsiemi di eventi, cioè di suddivisioni dello spazio campione Ω. Queste proprietà sussistono indipendentemente dalla definizione adottata di probabilità. Nel caso delle definizioni classiche e frequentiste, le proprietà sono una conseguenza della formula di calcolo adottata (una frequenza relativa), mentre nelle definizioni soggettivistiche e assiomatiche trovano fondamento in alcuni principi di natura logica. Ad ogni modo, nel seguito della trattazione, preferiamo attenerci esclusivamente all’impostazione assiomatica. Dagli assiomi 1β4 elencati in precedenza derivano tutte le proprietà della probabilità. Teoria della probabilità 10/05/2016 Pagina 52 La teoria assiomatica della probabilità Proprietà 1. Probabilità dell’evento negazione Dato un sottoinsieme di eventi π΄ ∈ Ω, siamo interessati a calcolare la probabilità associata all’evento ¬π΄. Per risalire a tale probabilità, è sufficiente osservare che ¬π΄ = π: π ∉ π΄ , quindi: • • π΄ ∪ ¬π΄ = Ω π΄ ∩ ¬π΄ = ∅ Osservando che in virtù dell’assioma 2 (normalizzazione) ππ Ω = 1 e che π΄ e ¬π΄ sono sottoinsiemi incompatibili, possiamo applicare l’assioma 3 (additività finita) e scrivere ππ π΄ ∪ ¬π΄ = ππ Ω ππ π΄ + ππ ¬π΄ = 1 e quindi ππ ¬π΄ = 1 − ππ π΄ Teoria della probabilità 10/05/2016 Pagina 53 La teoria assiomatica della probabilità Esempio 6. Consideriamo l’esperimento consistente nel lancio di un dado. Lo spazio campione sarà composto dai sei eventi elementari Ω = 1, 2, 3, 4, 5, 6 Poiché lo spazio campione Ω ha cardinalità 6 (cioè contiene 6 eventi elementari), mentre ciascun evento elementare ha cardinalità 1 (essendo un «punto» appartenente ad Ω), la probabilità teorica che si verifichi uno dei sei eventi elementari (ad esempio la faccia del dado contrassegnata dal numero 6) sarà data dal rapporto ππ π6 = Teoria della probabilità #π6 1 = #Ω 6 10/05/2016 Pagina 54 La teoria assiomatica della probabilità Domandiamoci adesso a quanto ammonta la probabilità che lanciando il dado «non» si ottenga la faccia contrassegnata dal numero 6». Tale probabilità può essere calcolata facendo riferimento all’evento negazione ¬π6 Osservando che: • ¬π6 = 1, 2, 3, 4, 5 • π6 ∪ ¬π6 = 6 ∪ 1, 2, 3, 4, 5 = 1, 2, 3, 4, 5, 6 = Ω • π6 ∩ ¬π6 = ∅ avremo che ππ ¬π6 = 1 − ππ π6 = 1 − Teoria della probabilità 10/05/2016 1 5 = 6 6 Pagina 55 La teoria assiomatica della probabilità In alternativa, osservando che la cardinalità del sottoinsieme ¬π6 è pari a 5, possiamo scrivere in maniera del tutto equivalente che ππ ¬π6 = #¬π6 5 = #Ω 6 Una delle più dirette conseguenze della prima proprietà è la seguente: poiché ¬Ω = ∅, avremo che ππ ∅ = ππ ¬Ω = 1 − ππ Ω = 1 − 1 = 0 Quindi la probabilità dell’insieme vuoto è nulla (ad esempio, con riferimento al precedente esperimento, a quanto ammonta la probabilità di ottenere la faccia del dado contrassegnata dal numero 7?) Teoria della probabilità 10/05/2016 Pagina 56 La teoria assiomatica della probabilità Proprietà 2. Estremi della misura di probabilità La proprietà 2 individua l’insieme di definizione della misura di probabilità. Intuitivamente, poiché abbiamo già sottolineato l’analogia che lega la nozione di frequenza relativa a quella di probabilità nella definizione classica e in quella frequentista, è immediato comprendere che la misura di probabilità deve variare tra 0 (probabilità dell’insieme vuoto ∅, cioè la probabilità che si verifichi un qualche evento elementare o sottoinsieme di eventi elementari non compreso in Ω) e 1 (probabilità che si verifichi l’uno o l’altro degli eventi elementari compresi in Ω), per cui con riferimento ad un generico sottoinsieme di eventi elementari π΄ ∈ Ω possiamo scrivere che 0 ≤ ππ π΄ ≤ 1 Naturalmente, in un’impostazione di tipo assiomatico di intuitivo c’è ben poco, per cui vediamo come dimostrare formalmente questa proprietà Teoria della probabilità 10/05/2016 Pagina 57 La teoria assiomatica della probabilità Osservando che • • in virtù dell’assioma 1 (non negatività) ππ π΄ ≥ 0; tale assioma vale anche per la probabilità dell’evento negazione, per cui possiamo scrivere che ππ ¬π΄ ≥ 0. Poiché abbiamo appena dimostrato che ππ ¬π΄ = 1 − ππ π΄ , sostituendo nella precedente relazione avremo che 1 − ππ π΄ ≥ 0 e quindi ππ π΄ ≤ 1. Combinando i due risultati avremo che 0 ≤ ππ π΄ ≤ 1 Teoria della probabilità 10/05/2016 Pagina 58 La teoria assiomatica della probabilità Esempio 7. Consideriamo l’esperimento consistente nell’estrazione con reintroduzione di due palline da un’urna contenente 5 palline bianche e 5 palline nere. Lo spazio campione, come sappiamo, è l’insieme degli eventi elementari, cioè l’insieme dei risultati dell’esperimento di estrazione, quindi in questo caso Ω assumerà la seguente struttura: Ω = π΅π΅, π΅π, ππ΅, ππ Poiché si può dimostrare che in questo caso i 4 eventi elementari compresi in Ω (a causa della particolare composizione dell’urna e delle particolari modalità con cui è condotta l’estrazione) sono equiprobabili, la probabilità del generico evento ππ sarà data da ππ ππ = Teoria della probabilità #ππ 1 = ≥0 #Ω 4 10/05/2016 Pagina 59 La teoria assiomatica della probabilità Esempio 7. Consideriamo l’esperimento consistente nell’estrazione con reintroduzione di due palline da un’urna contenente 5 palline bianche e 5 palline nere. Lo spazio campione, come sappiamo, è l’insieme degli eventi elementari, cioè l’insieme dei risultati dell’esperimento di estrazione, quindi in questo caso Ω assumerà la seguente struttura: Ω = π΅π΅, π΅π, ππ΅, ππ Poiché si può dimostrare che in questo caso i 4 eventi elementari compresi in Ω (a causa della particolare composizione dell’urna e delle particolari modalità con cui è condotta l’estrazione) sono equiprobabili, la probabilità del generico evento ππ sarà data da ππ ππ = Teoria della probabilità #ππ 1 = ≥0 #Ω 4 10/05/2016 Pagina 60 La teoria assiomatica della probabilità È interessante verificare anche a quanto ammonta la probabilità su un qualche sottoinsieme π΄ di eventi elementari. Ad esempio, la probabilità di ottenere almeno una pallina nera nel corso dell’esperimento di estrazione sarà data da A = π΅π, ππ΅, ππ la cui misura di probabilità è pari a ππ π΄ = #π΄ 3 = #Ω 4 Naturalmente, anche in questo caso si ha che 0 ≤ ππ π΄ ≤ 1 Teoria della probabilità 10/05/2016 Pagina 61 La teoria assiomatica della probabilità Proprietà 3. Additività in una successione finita Con riferimento all’esempio precedente, fissiamo i tre eventi π΄1 = 0 πππππππ ππππ ππππ ′ ππ π‘πππ§ππππ = π΅π΅ π΄2 = 1 πππππππ ππππ ππππ ′ ππ π‘πππ§ππππ = π΅π, ππ΅ π΄3 = 2 πππππππ ππππ ππππ ′ ππ π‘πππ§ππππ = ππ I tre sottoinsiemi così individuati costituiscono una famiglia π di sottoinsiemi di eventi elementari π΄π ; π = 1, 2, 3 , a due a due incompatibili, cioè tali che ∀π ≠ π, π΄π ∩ π΄π = ∅, quindi πΉ = π΄1 , π΄2 , π΄3 costituisce una partizione di Ω La proprietà di additività di una successione finita di sottoinsiemi stabilisce che π ππ π΄π = π=1 π π=1 ππ π΄π Detto in altri termini, la proprietà di additività di una successione finita stabilisce che la probabilità dell’unione di una successione finita di sottoinsiemi di eventi disgiunti è pari alla somma delle probabilità dei relativi sottoinsiemi. Teoria della probabilità 10/05/2016 Pagina 62 La teoria assiomatica della probabilità #π΄1 #Ω Ad esempio, nel caso precedente, ππ π΄1 = Poiché in generale si ha che 1 = 4 , ππ π΄2 = #π΄2 #Ω 2 = 4 , ππ π΄3 = #π΄3 #Ω 1 = 4. 3 ππ π΄π = ππ π΄1 ∪ π΄2 ∪ π΄3 π=1 Quindi = ππ π΅π΅ ∪ π΅π, ππ΅ ∪ ππ = ππ Ω = 1 o anche 3 π=1 ππ π΄π = 1 2 1 + + =1 4 4 4 Con riferimento all’esempio precedente, quindi, abbiamo dimostrato empiricamente che π ππ π΄π = π=1 Teoria della probabilità π π=1 ππ π΄π 10/05/2016 Pagina 63 La teoria assiomatica della probabilità Su un piano formale, consideriamo per semplicità 3 sottoinsiemi π΄1 , π΄2 e π΄3 disgiunti, costituenti una famiglia πΉ = π΄1 , π΄2 , π΄3 ∈ β. Poiché i tre sottoinsiemi sono a due a due incompatibili (e quindi π΄π ∩ π΄π = ∅), in virtù della proprietà distributiva delle operazioni di unione e intersezione tra sottoinsiemi risulterà che π΄1 ∪ π΄2 ∩ π΄3 = π΄1 ∩ π΄3 ∪ π΄2 ∩ π΄3 = ∅ ∪ ∅ = ∅ e poiché per l’assioma 3 (additività finita) si ha che ππ π΄ ∪ π΅ = ππ π΄ + ππ π΅ , potremo scrivere ππ π΄1 ∪ π΄2 ∪ π΄3 = ππ π΄1 ∪ π΄2 + ππ π΄3 = ππ π΄1 + ππ π΄2 + ππ π΄2 Naturalmente, quanto mostrato con riferimento a tre sottoinsiemi è valido, in generale, per una qualunque successione finita di eventi. Teoria della probabilità 10/05/2016 Pagina 64 La teoria assiomatica della probabilità Proprietà 4. Teorema delle probabilità totali Il teorema delle probabilità totali generalizza la misura della probabilità dell’evento unione al caso di eventi compatibili, cioè caratterizzati da un’intersezione non vuota. Dati due sottoinsiemi di eventi π΄, π΅ ∈ β compatibili, cioè tali che π΄ ∩ π΅ ≠ ∅, il teorema delle probabilità totali le misure di probabilità dell’evento differenza π΅ − π΄ e dell’evento unione π΄ ∪ π΅ . Per comprendere l’ambito di applicazione del teorema delle probabilità totali, facciamo riferimento al diagramma a fianco. Nel caso di eventi compatibili non possiamo ottenere la probabilità dell’evento unione semplicemente sommando le singole probabilità dei sottoinsiemi, applicando la relazione ππ π΄ ∪ π΅ = ππ π΄ + ππ π΅ , in quanto ci esporremmo all’errore logico del «doppio conteggio» degli eventi appartenenti all’intersezione π΄ ∩ π΅ . Teoria della probabilità 10/05/2016 Pagina 65 La teoria assiomatica della probabilità Il problema può essere aggirato esprimendo l’evento unione π΄ ∪ π΅ in termini di due sottoinsiemi equivalenti, ma disgiunti, che ci consentano di applicare l’assioma 3. In primo luogo, osserviamo che il sottoinsieme π΅ può essere espresso come l’evento unione π΅ = π΅−π΄ ∪ π΄∩π΅ Poiché π΅ − π΄ ∩ π΄ ∩ π΅ = ∅, in virtù dell’assioma 3 possiamo scrivere che ππ π΅ = ππ π΅ − π΄ ∪ π΄ ∩ π΅ = ππ π΅ − π΄ + ππ π΄ ∩ π΅ Poiché, una volta introdotta la misura di probabilità, siamo nel «territorio» dell’algebra, potremo quindi scrivere che ππ π΅ − π΄ = ππ π΅ − ππ π΄ ∩ π΅ Quindi, un primo risultato del teorema delle probabilità totale riguarda la misura di probabilità dell’evento differenza. Teoria della probabilità 10/05/2016 Pagina 66 La teoria assiomatica della probabilità Ben più importante tuttavia è l’implicazione diretta di tale risultato. Infatti, possiamo esprimere l’evento unione π΄ ∪ π΅ come π΄∪π΅ =π΄∪ π΅−π΄ Notare che π΄ e π΅ − π΄ sono eventi incompatibili, cioè tali che π΄ ∩ π΅ − π΄ = ∅, quindi possiamo applicare l’assioma 3 e scrivere ππ π΄ ∪ π΅ = ππ π΄ ∪ π΅ − π΄ = ππ π΄ + ππ π΅ − π΄ Avendo dimostrato in precedenza che ππ π΅ − π΄ = ππ π΅ − ππ π΄ ∩ π΅ combinando i due risultati otteniamo che ππ π΄ ∪ π΅ = ππ π΄ + ππ π΅ − ππ π΄ ∩ π΅ Questa relazione estende l’applicabilità dell’assioma 3 anche al caso più generale di unione di sottoinsiemi di eventi compatibili. Teoria della probabilità 10/05/2016 Pagina 67 La teoria assiomatica della probabilità Esempio 8. Ipotizziamo di effettuare un esperimento di lancio di due dadi e di considerare lo spazio di eventi π = π ππππ πππ ππ’ππ‘ππππ πππ ππ’π ππππ La seguente tabella riporta la distribuzione di π in termini di una tabella a doppia entrata, in cui i punteggi ottenibili con il lancio del primo dado figurano in fiancata, quelli ottenibili con il lancio del secondo dado sono riportati in testata, mentre nel quadro centrale figura la somma dei due punteggi: Teoria della probabilità 10/05/2016 Pagina 68 La teoria assiomatica della probabilità Definiamo i seguenti sottoinsiemi di eventi: π΄ = ππ πππ π’ππ‘ππ‘π πππ ππππππ πππ πππππ ππππ è ππππ π 3 π΅ = ππ π ππππ πππ ππ’ππ‘ππππ ππ‘π‘πππ’π‘π πππ ππ’π πππππ è ππππ π 7 Domandiamoci a quanto ammonta la probabilità dell’evento unione π΄ ∪ π΅ , cioè la probabilità che come risultato dell’esperimento di lancio di due dadi si ottenga o π al primo lancio o π come somma dei due lanci. Intanto introduciamo qualche convenzione di notazione: indichiamo con π π₯π¦ un generico punto dell’insieme π, individuato dai due numeri π₯ e π¦, dove π₯ è il punteggio ottenuto nel lancio del primo dado e π¦ è quello relativo al lancio del secondo dado. Ad esempio, π 12 rappresenta la somma dei due punteggi quando π₯ = 1 e π¦ = 2. Da notare che i 36 eventi elementari appartenenti a π sono equiprobabili, cioè tali che ππ π π₯π¦ = #π π₯π¦ 1 = #π 36 e necessari, nel senso che nello svolgimento dell’esperimento di lancio se ne dovrà osservare necessariamente uno. Teoria della probabilità 10/05/2016 Pagina 69 La teoria assiomatica della probabilità Il sottoinsieme π΄ è composto dagli eventi elementari il cui criterio di appartenenza al sottoinsieme è dato dal fatto di essere caratterizzati da un valore di π₯ = 3, cioè un punteggio ottenuto con il lancio del primo dado pari a 3. In simboli: π΄ = π π₯π¦ : π₯ = 3 = π 31 , π 32 , π 33 , π 34 , π 35 , π 36 Quindi π΄ ha cardinalità pari a 6 e la probabilità associata sarà pari a ππ π΄ = Teoria della probabilità #π΄ 6 1 = = #π 36 6 10/05/2016 Pagina 70 La teoria assiomatica della probabilità Il sottoinsieme π΅ è composto dagli eventi elementari il cui criterio di appartenenza al sottoinsieme è dato dal fatto che la somma dei punteggi ottenuti dal lancio dei due dadi è pari a 7 Osservando che gli eventi elementari appartenenti a π΅ sono dislocati lungo la diagonale secondaria del quadro centrale della tabella a doppia entrata, potremo scrivere che π΅ = π π₯π¦ : π₯ + π¦ = 7 = π 16 , π 25 , π 34 , π 43 , π 52 , π 61 Anche π΅ ha cardinalità pari a 6, quindi la probabilità associata sarà pari a ππ π΅ = Teoria della probabilità #π΅ 6 1 = = #π 36 6 10/05/2016 Pagina 71 La teoria assiomatica della probabilità Domandiamoci adesso a quanto ammonta la probabilità di ottenere π come risultato del lancio del primo dado o π come somma dei due punteggi. Confrontando gli eventi elementari compresi nel sottoinsieme π΄ e quelli appartenenti a π΅, è agevole verificare che l’intersezione π΄ ∩ π΅ ≠ ∅, in quanto π΄ ∩ π΅ = π 34 , quindi i sottoinsiemi π΄ e π΅ sono compatibili e ciò esclude l’applicabilità dell’assioma 3. Quanto alla cardinalità dell’evento intersezione, essendo composto dall’unico punto π 34 , la sua cardinalità sarà pari all’unità e quindi potremo scrivere che ππ π΄ ∩ π΅ = # π΄∩π΅ 1 = #π 36 Ad ogni modo, in virtù del teorema delle probabilità totali, applicabile nel caso di unione fra sottoinsiemi di eventi compatibili, sappiamo che ππ π΄ ∩ π΅ = ππ π΄ + ππ π΅ − ππ π΄ ∩ π΅ Nel problema esaminato risulterà quindi che ππ π΄ ∩ π΅ = Teoria della probabilità 1 1 1 11 + − = 6 6 36 36 10/05/2016 Pagina 72 La teoria assiomatica della probabilità Con riferimento alla tabella a doppia entrata, la situazione può essere rappresentata nei termini seguenti: Teoria della probabilità 10/05/2016 Pagina 73 La teoria assiomatica della probabilità Generalizzazione. Data una famiglia di π eventi π΄π ; π = 1,2, … , π a due a due compatibili, la probabilità della loro unione è uguale alla somma delle probabilità degli eventi, meno la somma delle intersezioni tra coppie di eventi, più la somma delle intersezioni tra triple di eventi, meno la somma delle intersezioni tra quadruple di eventi, e così via, per giungere alla probabilità dell’intersezione della π −upla di eventi, con segno positivo se π è dispari, negativo in caso contrario. Teoria della probabilità 10/05/2016 Pagina 74 La teoria assiomatica della probabilità Proprietà 5. Probabilità in una relazione di inclusione È una proprietà relativamente banale e quindi ci affidiamo soprattutto ad un ragionamento intuitivo. Dati due sottoinsiemi π΄, π΅ ∈ Ω, ipotizziamo che fra i due sottoinsiemi valga la seguente relazione di inclusione: π΄⊆π΅ Ricordando che π΄ ⊆ π΅ βΊ ∀π ∈ π΄, π ∈ π΅, la probabilità in una relazione di inclusione stabilisce che π π π΄ ⊆ π΅ βΉ ππ π΄ ≤ ππ π΅ Tale proposizione è ovvia, non appena rappresentiamo la relazione tramite il diagramma di Venn. Teoria della probabilità 10/05/2016 Pagina 75 La teoria assiomatica della probabilità Infatti, con riferimento al concetto di cardinalità dei due sottoinsiemi, appare ovvio che il sottoinsieme π΄ comprende eventi elementari che appartengono anche al sottoinsieme π΅, mentre in generale non vale la relazione opposta, fatta eccezione per il caso in cui π΄ = π΅. Poiché la cardinalità di π΄ è minore della cardinalità di π΅, ne discende che ππ π΄ ≤ ππ π΅ , con il segno di uguaglianza che vale quando π΄ = π΅. Dimostriamo formalmente questo risultato. Con riferimento al precedente diagramma, possiamo scrivere che π΅ =π΄∪ π΅−π΄ Poiché π΄ ∩ π΅ − π΄ = ∅, possiamo applicare l’assioma 3 e scrivere che ππ π΅ = ππ π΄ + ππ π΅ − π΄ ≥ ππ π΄ Teoria della probabilità 10/05/2016 Pagina 76 La teoria assiomatica della probabilità Proprietà 6. Probabilità condizionata Ipotizziamo di effettuare un esperimento di estrazione in blocco di 2 palline da un’urna contenente 5 palline bianche e 5 nere. Naturalmente, questo esperimento non ha particolare interesse in sé, ma perché concettualizza situazioni del mondo reale che sono caratterizzate da una complessità ben diversa. Si ha estrazione bernoulliana o con ripetizione quando, in un esperimento di estrazione di π unità da un’urna probabilistica, le unità sono reimmesse nell’urna dopo la registrazione del risultato e possono essere estratte nuovamente, per cui la composizione dell’urna non si modifica al susseguirsi delle prove. Si ha viceversa estrazione in blocco o senza ripetizione, quando le unità estratte non sono reimmesse nell’urna dopo la registrazione del risultato. Nel secondo caso, il manifestarsi di un certo risultato nello svolgimento della prova π −esima dipenderà dall’intera sequenza dei risultati che lo hanno preceduto. Teoria della probabilità 10/05/2016 Pagina 77 La teoria assiomatica della probabilità Ipotizziamo che alla prima estrazione si sia ottenuta una pallina di colore nero (evento π΅) e che questa, conformemente allo schema di estrazione scelto, non sia reintrodotta nell’urna, alterando quindi la composizione di quest’ultima. Ci domandiamo a quanto ammonta la probabilità di ottenere nell’estrazione successiva una pallina bianca (evento π΄), essendosi verificato l’evento condizionante B nella prima estrazione. Con la composizione di partenza dell’urna la probabilità di estrarre nella prima prova una pallina bianca sarebbe pari al rapporto tra il numero delle palline bianche e il totale delle palline contenute nell’urna, cioè ππ π΄ = 0,5. Notare che questa probabilità non cambierebbe, nelle estrazioni successive, se si adottasse uno schema di estrazione con ripetizione, la cui principale caratteristica è quella di lasciare immutata la composizione dell’urna dopo lo svolgimento di ciascuna delle prove. Se viceversa si adotta uno schema di estrazione in blocco, la composizione dell’urna si altera ad ogni successiva estrazione, influenzando i successivi risultati. Estratta nella prima prova una pallina nera, infatti, la probabilità di ottenere nella seconda estrazione una pallina bianca sarà pari a 5 su 9, cioè 0,555. L’implicazione più diretta di questo semplice esperimento è che il meccanismo di estrazione delle palline dall’urna determina la relazione di dipendenza o l’indipendenza tra eventi. Teoria della probabilità 10/05/2016 Pagina 78 La teoria assiomatica della probabilità Tentiamo una prima formalizzazione del risultato appena ottenuto. Dati due eventi π΄, π΅ ∈ β, si ipotizzi che π΅ ≠ ∅ e che non risulti vuota l’intersezione tra i due sottoinsiemi π΄ e π΅ π΄ ∩ π΅ ≠ ∅. Ipotizziamo di essere interessati all’evento condizionato π΄ π π π£πππππππ ππ π πππππ π π£ππππππππ‘π π΅ , evento che denoteremo come π΄|π΅ . Possiamo pensare all’evento condizionante π΅ come ad una partizione di eventi elementari Ωπ΅ ⊆ Ω. Tanto per essere chiari, con riferimento all’esempio precedente, se siamo interessati all’estrazione di una pallina bianca avendo estratto in precedenza una pallina nera, a noi non interessano tutte le sequenze di estrazioni di due palline, ma soltanto quelle in cui otteniamo una pallina nera alla prima estrazione: gli esiti dell’esperimento di estrazione in cui otteniamo una pallina nera alla prima estrazione costituiscono una partizione di Ω e da questo momento in poi è a tale partizione che faremo riferimento. A partire dalla partizione Ωπ΅ , possiamo costruire una π −algebra βπ΅ : quali elementi conterrà βπ΅ ? Ricordando i principi esposti in precedenza, βπ΅ dovrà contenere lo spazio campione (che in questo caso coincide con la partizione Ωπ΅ ), la sua negazione ∅ e l’evento condizionato π΄|π΅ β che a ben riflettere coincide con l’intersezione π΄ ∩ π΅ , nel senso che l’evento condizionato π΄|π΅ si verifica se e solo se si manifesta un evento elementare presente nell’intersezione π΄ ∩ π΅ . Teoria della probabilità 10/05/2016 Pagina 79 La teoria assiomatica della probabilità Nel complesso avremo che ∅ βπ΅ = π΄ ∩ π΅ Ωπ΅ Associamo ad ogni evento compreso in βπ΅ una misura di probabilità πππ΅ : π΄|π΅ → β+ in cui Ωπ΅ assume la funzione di evento certo. Nella partizione Ωπ΅ l’evento π΄ ∩ π΅ non ha probabilità ππ π΄ ∩ π΅ , ma una misura di probabilità πππ΅ π΄ ∩ π΅ > ππ π΄ ∩ π΅ Ricordando che vale l’identità π΄|π΅ = π΄ ∩ π΅ , possiamo scrivere la seguente proporzione: ππ π΄ ∩ π΅ : πππ΅ π΄ ∩ π΅ = ππ Ωπ΅ : ππ Ω =ππ π΄|π΅ Teoria della probabilità ππ π΅ 10/05/2016 =1 Pagina 80 La teoria assiomatica della probabilità Quindi ππ π΄ ∩ π΅ : ππ π΄|π΅ = ππ π΅ : 1 da cui è immediato scrivere che ππ π΄|π΅ = ππ π΄ ∩ π΅ ππ π΅ Naturalmente, se si considera come evento condizionante π΄, vale anche il seguente risultato: ππ π΅|π΄ = ππ π΄ ∩ π΅ ππ π΄ ππ π΄ ≠ 0 La principale conseguenza della proprietà appena illustrata è che se risolviamo le due precedenti relazioni per ππ π΄ ∩ π΅ , otteniamo la probabilità dell’evento intersezione: ππ π΄ ∩ π΅ = ππ π΄ ππ π΅|π΄ = ππ π΅ ππ π΄|π΅ Tale relazione è definita principio o postulato della probabilità composta. Teoria della probabilità 10/05/2016 Pagina 81 La teoria assiomatica della probabilità Come dobbiamo considerare l’evento condizionato π΄|π΅ ? L’evento π΄|π΅ esprime una revisione nelle aspettative dell’osservatore circa il manifestarsi di π¨, che in qualche modo risulta collegato al verificarsi dell’evento condizionante π΅, al fine di tenere conto del cambiamento avvenuto nell’information set a seguito del verificarsi di π©. Il verificarsi dell’evento π© potrebbe migliorare la conoscenza delle circostanze che determinano il verificarsi dell’evento π¨, il che in precedenza ci ha consentito di affermare che πππ΅ π΄ ∩ π΅ > ππ π΄ ∩ π΅ . Ma ciò non si verifica necessariamente. Può accadere che il manifestarsi di π© potrebbe non rappresentare un’informazione rilevante per l’osservatore. È il caso dell’estrazione con ripetizione, in cui ππ π΄|π΅ = ππ π΄ , condizione che ci consente di affermare che l’evento π¨ è stocasticamente indipendente dall’evento π©. Nel caso di indipendenza tra eventi, scriveremo quindi che ππ π΄|π΅ = ππ π΄ ∩ π΅ = ππ π΄ ππ π΅ βΉ ππ π΄ ∩ π΅ = ππ π΄ ππ π΅ In altri termini, nel caso di indipendenza tra eventi la probabilità dell’evento intersezione è data dal prodotto delle probabilità associate ai singoli sottoinsiemi che formano l’intersezione Teoria della probabilità 10/05/2016 Pagina 82 La teoria assiomatica della probabilità Esempio 8. Ipotizziamo che in una scuola ci siano 80 studentesse e 120 studenti. I 2 5 delle studentesse e 1 2 degli studenti portano gli occhiali. Se scegliamo 2 studenti in modo casuale fra tutti gli studenti della scuola, a quanto ammonta la probabilità che • • • il primo studente scelto porti gli occhiali? il primo studente scelto sia una ragazza, sapendo che porta gli occhiali? il secondo studente scelto porti gli occhiali, sapendo che il primo non li porta? In primo luogo, per visualizzare la situazione, è conveniente rappresentare la distribuzione degli studenti in base ai caratteri «genere» e «indossa occhiali» in una tabella a doppia entrata: Abbiamo già una certa familiarità con questo tipo di rappresentazione, in quanto l’abbiamo già incontrata in analisi bivariata (si tratta di una tabella tetracorica, ricordate?) Teoria della probabilità 10/05/2016 Pagina 83 La teoria assiomatica della probabilità Risolviamo il primo quesito: la probabilità che il primo studente scelto estraendolo casualmente dal collettivo porti gli occhiali non è altro che il rapporto tra numero di studenti che portano gli occhiali (detto altrimenti, la cardinalità del sottoinsieme degli studenti che portano gli occhiali) sulla numerosità (cardinalità) del collettivo Formalmente, se indichiamo con π΄ il sottoinsieme degli studenti che portano gli occhiali, allora la probabilità che estraendo casualmente dal collettivo uno studente che porta gli occhiali sarà pari a ππ π΄ = Teoria della probabilità #π΄ 92 = = 0,46 π 200 10/05/2016 Pagina 84 La teoria assiomatica della probabilità Occupiamoci del secondo quesito: la probabilità che il primo studente scelto sia un’alunna, sapendo che porta gli occhiali. Per noi il fatto di sapere che lo studente scelto casualmente porta gli occhiali è un’informazione rilevante? In linea di massima sì, poiché se sappiamo che porta gli occhiali, non siamo più interessati al collettivo nel suo complesso, ma concentriamo il nostro interesse sul sottoinsieme di studenti che indossano occhiali, il che significa considerare solo la prima colonna del quadro centrale (ciò che in precedenza abbiamo indicato come Ωπ΅ e che in questo caso dovremmo indicare come Ωπ΄ ). Se π΅ è il sottoinsieme del collettivo di genere femminile, potremo fare riferimento alla nozione di evento condizionato π΅|π΄ e scrivere ππ π΅|π΄ = ππ π΄ ∩ π΅ ππ π΄ Al numeratore del rapporto figura la probabilità dell’evento intersezione π΄ ∩ π΅ = ππ π π‘π’ππππ‘π ππππ‘π πππ πππβππππ π è ππ ππππππ πππππππππ che ha cardinalità 32, mentre al numeratore del rapporto figura la probabilità dell’evento che uno studente scelto casualmente indossi occhiali, sottoinsieme che ha cardinalità 92, per cui nel complesso si avrà ππ π΅|π΄ = Teoria della probabilità ππ π΄ ∩ π΅ 32 200 32 = = ≅ 0,348 ππ π΄ 92 200 92 10/05/2016 Pagina 85 La teoria assiomatica della probabilità In ultimo, la probabilità che il secondo studente estratto porti gli occhiali, sapendo che il primo non li porta, può essere ricavata semplicemente osservando che, una volta estratto il primo studente e accertato che non indossa occhiali, rimangono 199 studenti, di cui 92 portano occhiali e i 107 rimanenti (108 meno quello già estratto) no, per cui ππ π΅2 |¬π΅1 = Teoria della probabilità 92 ≅ 0,462 199 10/05/2016 Pagina 86 La teoria assiomatica della probabilità Proprietà 7. Probabilità assoluta È una diretta conseguenza e, in un certo senso, l’estensione della proprietà precedente ad un certo numero π di eventi condizionanti. Sia data una partizione di Ω in π sottoinsiemi πΉ = π΄π : π = 1,2, … , π mutuamente esclusivi e necessari. Se π΅ è un qualsiasi evento la cui manifestazione è condizionata al verificarsi dell’uno o l’altro degli eventi condizionanti compresi in πΉ, allora potremo scrivere che ππ π΅ = Teoria della probabilità π π=1 ππ π΄π ∩ π΅ = π π=1 ππ π΄π ππ π΅ π΄π 10/05/2016 Pagina 87 La teoria assiomatica della probabilità Come abbiamo ottenuto la precedente relazione? Immaginiamo un qualche evento π΅, il cui verificarsi può essere determinato dall’una o l’altra di un certo insieme di cause πΉ = π΄π : π = 1,2, … π . In altri termini, possiamo pensare a π΅ come ad un particolare evento unione, determinato dal verificarsi dell’uno o dell’altro degli π eventi intersezione π΄π ∩ π΅ . Potremo quindi scrivere che π π΅ = π΄1 ∩ π΅ ∪ π΄2 ∩ π΅ ∪ … ∪ π΄π ∩ π΅ = π=1 π΄π ∩ π΅ Essendo gli π eventi π΄π ∩ π΅ a due a due incompatibili, cioè tali che ∀π, π π΄π ∩ π΅ ∩ π΄π ∩ π΅ = ∅ in virtù della proprietà 3 (additività in una successione finita di eventi) potremo scrivere che ππ π΅ = ππ Teoria della probabilità π π=1 π΄π ∩ π΅ = π ππ π΄π ∩ π΅ π=1 10/05/2016 Pagina 88 La teoria assiomatica della probabilità Ricordando la proprietà 6 (probabilità di eventi condizionati), che definisce la misura di probabilità dell’evento intersezione ππ π΄π ∩ π΅ = ππ π΄π ππ π΅ π΄π possiamo quindi scrivere che ππ π΅ = π π=1 ππ π΄π ∩ π΅ = π π=1 ππ π΄π ππ π΅ π΄π Questo risultato, che indichiamo come teorema delle probabilità assolute, riveste un ruolo fondamentale, come vedremo, nella definizione della successiva proprietà. Teoria della probabilità 10/05/2016 Pagina 89 La teoria assiomatica della probabilità Esempio 9. Ipotizziamo che in una popolazione il 15% degli individui sia a rischio di contrarre una certa patologia. Studi epidemiologici hanno stabilito che la probabilità di contrarre la malattia è pari a 0,2 (cioè al 20%) per i soggetti a rischio e pari a 0,06 (cioè al 6%) per i soggetti rimanenti. Per chiarezza espositiva, potremmo pensare ai fumatori come soggetti a rischio, ai non fumatori come soggetti non a rischio, e alla bronchite cronica come patologia, che ovviamente avrà una diversa incidenza tra i soggetti caratterizzati o meno dal comportamento a rischio. Il nostro obiettivo è calcolare la probabilità che un generico individuo appartenente alla popolazione contragga la malattia. In primo luogo, la popolazione può essere suddivisa in due gruppi. Il primo, che indichiamo con π΄1 , è rappresentato dagli individui che sono a rischio di contrarre la patologia, mentre il secondo, che indichiamo con π΄2 , è rappresentato da coloro i quali non sono esposti a questo rischio. Poiché π΄1 ∪ π΄2 = Ω e π΄1 ∩ π΄2 = ∅, i due sottoinsiemi rappresentano una partizione πΉ = π΄1 , π΄2 di Ω La probabilità che un individuo estratto casualmente dalla popolazione appartenga al gruppo π΄1 è pari a ππ π΄1 = 0,15, mentre la probabilità che appartenga al gruppo π΄2 è pari a ππ π΄2 = ππ ¬π΄1 e quindi, ricordando la proprietà 1 (probabilità dell’evento negazione), sarà pari a ππ π΄2 = 1 − ππ π΄1 = 1 − 0,15 = 0,85. Teoria della probabilità 10/05/2016 Pagina 90 La teoria assiomatica della probabilità La probabilità di contrarre la patologia, essendo il soggetto caratterizzato dal comportamento a rischio, è un particolare evento condizionato π΅ π΄1 , la cui probabilità, come evidenzia lo studio epidemiologico, è pari a 0,2 e quindi risulterà ππ π΅ π΄1 = 0,2. Lo stesso studio afferma che la stessa probabilità, per un individuo appartenente all’altro sottogruppo, è pari a 0,06, per cui potremo scrivere che ππ π΅ π΄2 = 0,06. Con questi elementi, in virtù del teorema delle probabilità condizionate, la probabilità che un individuo sia a rischio E contragga la patologia sarà pari a ππ π΄1 ∩ π΅ = ππ π΄1 ππ π΅ π΄1 = 0,15 × 0,2 = 0,03 Analogamente, la probabilità che un individuo non sia a rischio E contragga la patologia è data da ππ π΄2 ∩ π΅ = ππ π΄2 ππ π΅ π΄2 = 0,85 × 0,06 = 0,051 In generale, poiché i due eventi π¨π ∩ π© e π¨π ∩ π© sono disgiunti, nel senso che un individuo appartenente al gruppo a rischio non appartiene all’altro gruppo, la probabilità che un individuo appartenente alla popolazione nel complesso contragga la patologia, π·π π© , sarà data dalla somma delle due probabilità definite sopra: ππ π΅ = Teoria della probabilità 2 ππ π΄π ππ π΅ π΄π = 0,03 + 0,051 = 0,081 π=1 10/05/2016 Pagina 91 La teoria assiomatica della probabilità Osservando che i due eventi (rischio e patologia) sono dicotomici, è interessante rappresentare la situazione tramite una tabella tetracorica. Possiamo compilare il seguente schema: Tabe lla 1 - Rappresentazione della distribuzione di probabilità congiunta dell'Esercizio 9 Patologia Comportamento ππ π΄ π Contrae Non contrae A rischio Non a rischio 0,030 0,051 0,120 0,799 0,150 0,850 ππ π΅ 0,081 0,919 1,000 La lettura delle informazioni riportate nella tabella 1 è agevole: nel quadro centrale figurano le probabilità degli eventi intersezione, definite sulla base del teorema delle probabilità condizionate. Nel caso in cui tra comportamento e patologia non sussistessero relazioni, allora avremmo che ππ π΄π ∩ π΅ = ππ π΄π β ππ π΅ cioè la probabilità dell’intersezione sarebbe determinata dal prodotto delle singole probabilità degli eventi. Vi ricorda qualcosa? Teoria della probabilità 10/05/2016 Pagina 92 La teoria assiomatica della probabilità Proprietà 8. Teorema di Bayes o sulla probabilità delle cause Formulato da Thomas Bayes (1702-1761) nel 1774, anche se pubblicato postumo due anni dopo la sua morte in Essays towards solving a problem in the doctrine of chances, e da Laplace, che forse non era al corrente del lavoro di Bayes, è alla base di innumerevoli applicazioni pratiche e di un particolare approccio statistico, detto appunto bayesiano. Il teorema di Bayes, come sarà immediatamente chiaro, è una diretta conseguenza della proprietà 7 sulla probabilità assoluta. Enunciamo il teorema: Sia data una partizione di Ω in π sottoinsiemi πΉ = π΄π : π = 1,2, … , π esaustivi e mutuamente esclusivi. Sia inoltre π΅ un qualsiasi evento la cui manifestazione è condizionata al verificarsi dell’uno o dell’altro degli eventi compresi nella partizione πΉ. Allora, verificatosi l’evento π΅, la probabilità che π΄π sia la causa che ha determinato il manifestarsi di π΅ è data dal seguente rapporto: ππ π΄π π΅ = Teoria della probabilità ππ π΄π ππ π΅ π π=1 ππ π΄π ππ π΄π π΅ π΄π 10/05/2016 Pagina 93 La teoria assiomatica della probabilità Dimostrazione. Dalla Proprietà 6 e, in particolare, dalla definizione di probabilità condizionata, sappiamo che ππ π΄π π΅ = ππ π΄π ∩ π΅ ππ π΅ Applicando al numeratore del rapporto il principio della probabilità composta, possiamo scrivere che ππ π΄π ∩ π΅ = ππ π΄π ππ π΅ π΄π Infine, possiamo applicare al denominatore del rapporto la definizione di probabilità assoluta (Proprietà 7): ππ π΅ = π ππ π΄π ππ π΅ π΄π π=1 Combinando i due risultati, potremo quindi scrivere che ππ π΄π π΅ = Teoria della probabilità ππ π΄π ππ π΅ π π=1 ππ π΄π ππ π΄π = ππ π΄π β πΎ π΅ π΄π 10/05/2016 Pagina 94 La teoria assiomatica della probabilità Dove πΎ= ππ π΅ π΄π π΄π ππ π΅ π΄π π π=1 ππ L’interpretazione del teorema è particolarmente densa di implicazioni. Consideriamo un esperimento articolato in un’unica prova, durante la quale può avvenire uno e uno solo tra π eventi compresi in una partizione πΉ = π΄π : π = 1,2, … , π e che, verificatosi il generico evento π΄π con probabilità ππ π΄π , si manifesti un certo evento π΅ π΄π con probabilità ππ π΅ π΄π . Il teorema di Bayes consente di risalire alla probabilità π·π π¨π π© che, essendosi verificato π©, tale evento sia stato determinato dall’evento π¨π , motivo per cui è indicato come teorema sulla probabilità delle cause. Da notare che: • • La probabilità ππ π΄π è una probabilità a priori assegnata dall’osservatore; La probabilità ππ π΄π π΅ è una probabilità a posteriori, in quanto assegnata dopo il verificarsi dell’evento π©. Teoria della probabilità 10/05/2016 Pagina 95 La teoria assiomatica della probabilità La distinzione tra probabilità a priori e probabilità a posteriori è essenziale per la corretta comprensione del teorema. Nelle parole di Henri Poincaré( 1 ) infatti, “... questi problemi sono classificati come probabilità delle cause e sono i più importanti di tutti per le loro applicazioni scientifiche [...] Un effetto potrebbe essere prodotto dalla causa a o dalla causa b. L'effetto è appena stato osservato. Ci domandiamo la probabilità che sia dovuto alla causa a. Questa è una probabilità di causa a posteriori. Ma non la potrei calcolare, se una convenzione più o meno giustificata non mi dicesse in anticipo qual è la probabilità a priori che la causa a entri in gioco”. ( 1 ) Henri Poincaré (1854 –1912), matematico, fisico, astronomo e filosofo della scienza, è stato candidato 12 volte al premio Nobel in fisica. È noto per una serie di risultati nettamente in anticipo sui tempi, quali la scoperta dell’attrattore strano che è alla base della teoria del caos e la formulazione della teoria della relatività ristretta. Teoria della probabilità 10/05/2016 Pagina 96 La teoria assiomatica della probabilità Esempio 10. Ipotizziamo che 10 anni fa nel mercato automobilistico fossero presenti i costruttori π΄1 , π΄2 e π΄3 , le cui quote di mercato ammontavano rispettivamente al 70, al 25 e al 5 per cento del totale. Dopo 10 anni sono ancora funzionanti il 6% delle auto della marca π΄1 , il 22% di quelle della marca π΄2 e il 75% di quelle della marca π΄3 . Un nostro amico possiede un'automobile funzionante acquistata 10 anni fa. Qual è la probabilità che sia della marca π΄1 ? Per avere ben chiari gli elementi del problema, costruiamo la seguente tabella a doppia entrata: Tabe lla 2 - Rappresentazione della distribuzione di probabilità congiunta dell'Esercizio 10 Stato dopo 10 anni Marca Teoria della probabilità ππ π΄ π Funziona Non funziona A1 0,0420 0,6580 0,7000 A2 0,0550 0,1950 0,2500 A3 0,0375 0,0125 0,0500 ππ π΅ 0,1345 0,8655 1,0000 10/05/2016 Pagina 97 La teoria assiomatica della probabilità Applichiamo il teorema di Bayes: ππ π΄1 π΅ = ππ π΄1 ππ π΅ 3 π=1 ππ π΄π ππ π΄1 0,0420 = = 0,3123 0,1345 π΅ π΄π Quindi la probabilità che un automobile funzionante con 10 anni di vita sia della marca π΄1 è pari a circa il 31,23%. Teoria della probabilità 10/05/2016 Pagina 98 La teoria assiomatica della probabilità Naturalmente, questo è un modo estremamente semplificato di applicare il teorema di Bayes. Ben più interessante è l’interpretazione adottata da una particolare scuola statistica, definita appunto bayesiana. Visto attraverso lenti bayesiane, il teorema fornisce una rappresentazione formalizzata del processo attraverso il quale un osservatore esprime un grado di fiducia su una congettura relativa un certo fenomeno aleatorio d’interesse π¨π e ne verifica empiricamente la validità tramite un esperimento. L’esperimento incrementa l’information set dell’osservatore, determinando l’aumento o la diminuzione del grado di fiducia sulla congettura iniziale. Naturalmente, fondandosi su una valutazione soggettiva del grado di fiducia, l’interpretazione bayesiana non è completamente riconducibile al principio di induzione. Teoria della probabilità 10/05/2016 Pagina 99 La teoria assiomatica della probabilità L’interpretazione bayesiana. Ipotizziamo che un osservatore formuli una congettura su π¨π . Non sempre il generico evento π¨π risulta osservabile. Quindi la misura π·π π¨π è una probabilità a priori attraverso cui l’osservatore assegna soggettivamente un grado di fiducia alla congettura su π΄π prima di verificarne la validità. La verifica empirica si svolge tramite un esperimento, il cui scopo è quello di costituire un information set sull’evento π¨π . Poiché π¨π non è osservabile, la costruzione dell’information set si baserà su un evento osservabile π©, in qualche modo collegato ad π¨π . Condotto l’esperimento, l’osservatore assegnerà alla congettura un nuovo grado di fiducia ππ π΄π π΅ , configurato come probabilità a posteriori, in quanto ottenuto combinando la probabilità a priori ππ π΄π con le evidenze derivanti dalle verifiche svolte. Nella relazione definitoria del teorema, il rapporto πΎ= ππ π΅ π΄π π΄π ππ π΅ π΄π π π=1 ππ è un fattore di scala che misura l’impatto derivante dall’osservazione dell’evento π΅ sulla probabilità a priori ππ π΄π . Al numeratore del rapporto figura la verosimiglianza, un concetto che svolge un ruolo chiave nell’inferenza statistica, mentre al denominatore figura la probabilità marginale, cioè la probabilità di osservare π΅ a seguito del manifestarsi dell’una o dell’altra delle cause π΄π . Teoria della probabilità 10/05/2016 Pagina 100 La teoria assiomatica della probabilità È importante notare che in generale ππ π΄π π΅ ≤ 1 Questo implica che nella relazione definitoria della ππ π΄π π΅ ππ π΄π π΅ = ππ π΄π ππ π΅ π π=1 ππ π΄π ππ π΄π π΅ π΄π il numeratore deve risultare sempre inferiore o al limite uguale al denominatore, il che è ovvio in quanto il denominatore del rapporto, come è possibile verificare con riferimento alla tabella 2, non è altro che il totale colonna della distribuzione delle probabilità congiunte. Teoria della probabilità 10/05/2016 Pagina 101 La teoria assiomatica della probabilità Formalmente, ricordando che • • ππ π΄π ππ π΅ π΄π = ππ π΄π ∩ π΅ π π=1 ππ π΄π ππ π΅ π΄π = ππ π΅ la condizione può essere scritta come ππ π΄π ∩ π΅ ≤ ππ π΅ Nella precedente disuguaglianza, il segno di uguaglianza, ricordando il teorema delle probabilità condizionate, vale quando π·π π© π¨π = π, cioè quando al manifestarsi della causa π¨π , π© si verifica sempre. In qualunque altro caso la probabilità a posteriori ππ π΄π π΅ assumerà valori strettamente inferiori all’unità. Teoria della probabilità 10/05/2016 Pagina 102