La teoria assiomatica della probabilità

annuncio pubblicitario
Statistica
Teoria della probabilità
alessandro polli
facoltà di scienze politiche, sociologia, comunicazione
Obiettivo
La teoria della probabilità, prima ancora che una branca della matematica, è un «modo di vedere il mondo»
e ripercorrerne la nascita e l’evoluzione è interessante per capire come l’uomo ha cambiato nei secoli la
sua percezione e la sua capacità di interpretare la realtà.
Verosimilmente, l’idea di «caso» è antica quanto il genere umano e nasce dalla precarietà dell’esistenza
dei nostri antenati. Tuttavia, le specie animali al vertice della piramide evolutiva e il genere umano in
particolare condividono un particolare vantaggio evolutivo rispetto alle altre specie, rappresentato dalla
capacità di osservare una situazione, le cui manifestazioni possono variare nel tempo e nello spazio, e
risalire in qualche modo, in maniera più o meno accurata, al processo generatore.
Tuttavia la filosofia e via via tutte le altre discipline hanno impiegato millenni a raggiungere consapevolezza
circa la natura del processo cognitivo in sé e a trattare il problema dell’incertezza, su un piano formale, con
strumenti matematici adeguati. La teoria della probabilità è un insieme di risultati matematici, riconducibili
alla teoria della misura, che consentono di formalizzare tutte quelle situazioni in cui il set informativo a
disposizione di un osservatore è incompleto e a quantificare la plausibilità di un’affermazione circa un
fenomeno in condizioni di incertezza.
Teoria della probabilità
10/05/2016
Pagina 2
Evoluzione di una disciplina
Il probabilismo gnoseologico. La dottrina del Probabilismo trae le sue origini dall’Accademia platonica
legata alla corrente scettica (III sec. a.C.) con Arcesila di Pitane (315 – 241 a.C.) e soprattutto con
Carneade di Cirene (219 – 129 a.C.).
Poiché per questa scuola la verità (ideale e assoluta) è inconoscibile (pensate al mito platonico della
caverna, tanto per capirci), si può assumere come «vera» l’opinione più probabile. Parleremo in questo
caso di probabilismo gnoseologico.
Questo approccio è vivo ancora oggi nella Epistemologia critica, proprio per la serrata analisi che fa sul
concetto di conoscenza.
Teoria della probabilità
10/05/2016
Pagina 3
Evoluzione di una disciplina
Primi contributi all’elaborazione di una teoria matematica della probabilità. Risalgono alla fine del XV
secolo. Luca Pacioli, amico di Leonardo da Vinci, in uno dei volumi della Summa de arithmetica,
geometria, proportioni et proportionalita pubblicata nel 1494, si occupa del problema della ripartizione
della posta tra giocatori nel caso di interruzione di un popolare gioco, problema presentato originariamente
in un manoscritto anonimo degli inizi del XV secolo.
Il problema della ripartizione della posta in Pacioli. Si considerino due giocatori 𝐴 e 𝐡 che stiano
giocando una partita, ad esempio giocando con una moneta a «testa o croce», in cui vince la somma 𝑠
(scommessa per metà da ciascun giocatore) chi per primo raggiunge 𝑛 punti.
Al momento dell’interruzione della partita, il giocatore 𝐴 ha totalizzato π‘Ž punti, mentre 𝐡 ne ha totalizzati 𝑏,
con π‘Ž, 𝑏 < 𝑛. Luca Pacioli propone il problema con 𝑛 = 60, π‘Ž = 50 e 𝑏 = 20 e la soluzione da lui individuata
è di dividere la posta assegnando ad 𝐴 e a 𝐡 rispettivamente le somme
𝑠 𝐴 =𝑠
π‘Ž
π‘Ž+𝑏
𝑠 𝐡 =𝑠
𝑏
π‘Ž+𝑏
e quindi non tenendo conto del fatto che uno dei due giocatori possa essere «più vicino» ad ottenere il
punteggio che gli farebbe vincere la posta in palio.
Teoria della probabilità
10/05/2016
Pagina 4
Evoluzione di una disciplina
La critica di Tartaglia. Il problema è successivamente studiato da Tartaglia, che critica la soluzione di
Pacioli, osservando che, nel caso di interruzione dopo la prima partita, se 𝐴 ha vinto e 𝐡 ha perso, poiché
π‘Ž = 1, 𝑏 = 0 e a + 𝑏 = 1 + 0 = 1, si avrebbe che
𝑠 𝐴 =𝑠
1
=𝑠
1
𝑠 𝐡 =𝑠
0
=0
1
con la conclusione paradossale che in caso di interruzione del gioco dopo la prima partita 𝐴 otterrebbe la
stessa somma che avrebbe vinto nel caso di 𝑛 partite effettivamente disputate.
Teoria della probabilità
10/05/2016
Pagina 5
Evoluzione di una disciplina
Pascal e Fermat giocano a testa o croce. Il problema è risolto nel XVII secolo da Fermat e Pascal, sulla
base di un ragionamento che è alla base del moderno calcolo combinatorio. Vediamo come.
Fermat e Pascal giocano a testa o croce. Ciascuno scommette 50 ducati, per un totale di 100 ducati. Ogni
partita vinta vale un punto. Se esce testa il punto è di Fermat, se esce croce il punto è di Pascal. I due
uomini stabiliscono che quando uno di essi avrà raggiunto 10 punti, potrà prendersi i 100 ducati.
Purtroppo devono smettere di giocare quando Fermat sta vincendo per 8 a 7. Come si divideranno i 100
ducati? Per Pacioli la soluzione sarebbe la seguente: indicando con π‘Ž = 8 il numero di vittorie di Fermat e
con 𝑏 = 7 le vittorie di Pascal, la suddivisione della posta sarebbe la seguente:
π‘Ž
8
= 100
= 53,33
π‘Ž+𝑏
15
𝑏
7
𝑠 𝑃 =𝑠
= 100
= 46,67
π‘Ž+𝑏
15
𝑠 𝐹 =𝑠
ma sappiamo (lo dimostra Tartaglia) che tale soluzione non è soddisfacente sotto molti punti di vista.
Teoria della probabilità
10/05/2016
Pagina 6
Evoluzione di una disciplina
La soluzione di Fermat. A Fermat mancano ancora 2 punti per vincere, mentre a Pascal ne mancano 3,
quindi sarebbero necessarie al massimo 4 partite per decidere il vincitore: infatti, in 3 partite, nella peggiore
delle ipotesi Fermat potrebbe conquistare 1 punto e Pascal 2 e in questo caso la quarta partita sarebbe
quella decisiva
Indicando con 𝑇 l’evento «testa» e con 𝐢 l’evento «croce», la seguente tabella riporta tutte le possibili
sequenze di risultati nelle 4 partite:
𝑇𝑇𝑇𝑇 ∗ 𝑇𝑇𝑇𝐢 ∗ 𝑇𝑇𝐢𝑇 ∗ 𝑇𝐢𝑇𝑇 ∗
𝐢𝑇𝑇𝑇 ∗ 𝑇𝑇𝐢𝐢 ∗ 𝑇𝐢𝑇𝐢 ∗ 𝑇𝐢𝐢𝑇 ∗
𝐢𝑇𝐢𝑇 ∗ 𝐢𝑇𝑇𝐢 ∗ 𝐢𝐢𝑇𝑇 ∗ 𝑇𝐢𝐢𝐢
𝐢𝑇𝐢𝐢
𝐢𝐢𝑇𝐢
𝐢𝐢𝐢𝑇
𝐢𝐢𝐢𝐢
Le sequenze in cui Fermat vince il gioco sono contrassegnate dal simbolo *: è evidente che in 11 delle 16
sequenze possibili, Fermat vince, mentre in 5 delle 16 sequenze vince Pascal
Teoria della probabilità
10/05/2016
Pagina 7
Evoluzione di una disciplina
Poiché su 16 eventi possibili, 11 sono favorevoli a Fermat e 5 sono favorevoli a Pascal, in caso di
interruzione del gioco la soluzione più ragionevole è dividere i 100 scudi in parti proporzionali in ragione di
11 a 5 e quindi
11
= 68,75
16
5
𝑠 𝑃 = 100
= 31,25
16
𝑠 𝐹 = 100
È evidente che la soluzione appare più equa di quella proposta da Pacioli (che, a dire il vero, non era
completamente convinto della soluzione da lui stesso proposta … )
Teoria della probabilità
10/05/2016
Pagina 8
Evoluzione di una disciplina
La generalizzazione di Pascal. Pascal propone una soluzione più generale. Affinché Fermat vinca il
gioco, è sufficiente che nelle ultime 4 partite si verifichi almeno 2 volte l’evento «testa» (cioè 2, 3 o 4 volte
«testa»)
In quanti modi possono uscire 2 «teste» in 4 lanci? Consultando la precedente tabella, il numero di
sequenze di 4 lanci in cui l’evento «testa» si verifica 2 volte è pari a 6. Più in particolare:
𝑇𝑇𝐢𝐢
𝑇𝐢𝑇𝐢
𝑇𝐢𝐢𝑇
𝐢𝑇𝑇𝐢
𝐢𝑇𝐢𝑇
𝐢𝐢𝑇𝑇
Analogamente, in quanti modi possono verificarsi 3 «teste» in 4 lanci? Consultando la tabella, ci
accorgiamo che il numero di sequenze di 4 lanci in cui «testa» si verifica 3 volte è pari a 4. Infatti:
𝑇𝑇𝑇𝐢
𝑇𝑇𝐢𝑇
𝑇𝐢𝑇𝑇
𝐢𝑇𝑇𝑇
In ultimo, in quanti modi possiamo ottenere 4 volte «testa» in 4 lanci? È agevole verificare che vi è solo una
sequenza in cui si verifica 4 volte «testa» in 4 lanci:
𝑇𝑇𝑇𝑇
Quindi i casi a favore di Fermat sono 6 + 4 + 1 = 11 su 16 casi possibili
Teoria della probabilità
10/05/2016
Pagina 9
Evoluzione di una disciplina
Detto in altri termini, il numero di sequenze in cui si ottengono o 𝟐 o πŸ‘ o πŸ’ volte «testa» è pari alla
somma del numero di sequenze in cui si ottengono 𝟐 volte testa, del numero in cui se ne ottengono
πŸ‘ e di quello in cui se ne ottengono πŸ’ (tenete a mente questo risultato, perché come vedremo ci
consentirà di enunciare un assioma teorico molto importante … ).
Domandiamoci adesso se è possibile evitare di elencare materialmente tutte le combinazioni e di
risalire al numero di sequenze favorevoli a Fermat attraverso una semplice procedura di carattere
matematico.
Quello che segue è il triangolo di Tartaglia:
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
Osservate ad esempio la quarta riga, formata dai numeri 1, 4, 6, 4, 1.
Questi numeri indicano proprio quanti sono i modi in cui ottenere rispettivamente 0, 1, 2, 3, 4 «teste» (o
«croci») in 4 lanci di una moneta
Teoria della probabilità
10/05/2016
Pagina 10
Evoluzione di una disciplina
Possiamo scrivere una formula più semplice e generale basata appunto sull'utilizzo del triangolo di
Tartaglia. Due giocatori, 𝐴 e 𝐡, giocano a «testa o croce». Ogni partita vinta vale un punto. Se esce
l’evento «testa» il punto è di 𝐴, se esce «croce» il punto è di 𝐡. I due giocatori stabiliscono che quando uno
di essi avrà raggiunto 𝑛 punti, potrà prendersi la posta. Purtroppo essi devono smettere di giocare quando
ad 𝐴 mancano ancora π‘₯ punti per vincere e a 𝐡 ne mancano 𝑦. Come si divideranno la posta?
Con riferimento al triangolo di Tartaglia, la soluzione è la seguente:
•
•
•
Collochiamoci in corrispondenza della π‘₯ + 𝑦 -esima riga del triangolo di Tartaglia;
Indichiamo con 𝑆 π‘₯ + 𝑦 la somma di tutti gli elementi posti sulla π‘₯ + 𝑦 -esima riga;
Indichiamo con 𝑆 π‘₯ la somma dei primi π‘₯ termini;
Teoria della probabilità
10/05/2016
Pagina 11
Evoluzione di una disciplina
La somma che spetterà al giocatore 𝐴 sarà proporzionale al rapporto:
𝑝 π‘₯ =
𝑆 π‘₯
𝑆 π‘₯+𝑦
Analogamente, la somma che spetterà al giocatore 𝐡 sarà proporzionale al rapporto
𝑝 𝑦 =
𝑆 π‘₯+𝑦 −𝑆 π‘₯
𝑆 π‘₯
= 1−
= 1−𝑝 π‘₯
𝑆 π‘₯+𝑦
𝑆 π‘₯+𝑦
Naturalmente, esiste anche un metodo meno empirico del triangolo di Tartaglia per determinare il
numero di sequenze favorevoli a Fermat, basato sul calcolo combinatorio: lo esamineremo più avanti
nel corso della trattazione.
Teoria della probabilità
10/05/2016
Pagina 12
Evoluzione di una disciplina
La probabilità dopo il carteggio Fermat-Pascal. Lo scienziato olandese Christian Huygens, un
insegnante di Leibnitz, ispirato dal carteggio tra Fermat e Pascal, pubblica nel 1657 il primo trattato di
teoria della probabilità, dal titolo De ratiociniis in ludo aleae.
Poiché il libro si occupava di giochi aleatori, la cui «febbre» stava dilagando in quel periodo, la teoria della
probabilità divenne presto famosa e si sviluppò rapidamente durante il XVIII secolo. Tra gli studiosi ai quali
si devono fondamentali contributi alla teoria della probabilità in questo periodo, ricordiamo Jacob Bernoulli
(1654-1705) e Abraham De Moivre (1667-1754).
Teoria della probabilità
10/05/2016
Pagina 13
Evoluzione di una disciplina
Il contributo di Laplace. Nel 1812 Pierre Simon de Laplace (1749-1827) introduce nuove idee e tecniche
matematiche nel suo testo Théorie Analytique des Probabilités. Se prima di Laplace la teoria della
probabilità si occupava per lo più dello sviluppo di una matematica dei giochi aleatori, allo studioso
francese si deve l’applicazione di un approccio probabilistico in molti problemi scientifici e pratici: la teoria
degli errori, la matematica attuariale e la meccanica statistica sono esempi di alcune delle applicazioni della
teoria della probabilità sviluppate nel XIX secolo.
In quegli stessi anni, Gauss, con il contributo dello stesso Laplace, presentava una prima formulazione
della distribuzione normale, conosciuta anche come distribuzione di Gauss-Laplace, che come sappiamo
costituisce uno dei cardini su cui si fonda la statistica moderna.
Dai tempi di Laplace, molti studiosi hanno contribuito alla sviluppo formale della teoria della probabilità. Tra
i più importanti Chebychev, Markov, von Mises, De Finetti e Kolmogorov.
Teoria della probabilità
10/05/2016
Pagina 14
La teoria della probabilità come teoria della
misura
Una delle difficoltà nello sviluppo di una teoria matematica della probabilità è stata il raggiungimento
di una definizione di probabilità sufficientemente rigorosa e precisa per il suo utilizzo all’interno di
un modello matematico ma, al tempo stesso, flessibile al fine di essere utilizzata per l’analisi di un’ampia
gamma di fenomeni.
Il problema è stato definitivamente risolto nel XX secolo, quando la teoria della probabilità è stata
riformulata su basi completamente assiomatiche. Nel 1933, nella monografia Grundbegriffe der
Wahrscheinlichkeitsrechnung (Fondamenti di teoria della probabilità), Kolmogorov delinea l’approccio
assiomatico che è alla base della moderna teoria della probabilità.
Da allora, queste idee sono state alquanto sviluppate e la teoria della probabilità ora è parte di una più
generale disciplina matematica, la teoria della misura.
Teoria della probabilità
10/05/2016
Pagina 15
La teoria della probabilità come teoria della
misura
Alcuni concetti di base. La realtà che ci circonda è la sintesi – il prodotto – di infiniti fatti le cui cause si
intrecciano e si sovrappongono. Nonostante l’estrema complessità della realtà fenomenica e la difficoltà di
individuare leggi generali, l’osservazione e l’esperienza pongono in evidenza ripetizioni e regolarità (è il
cosiddetto problema sull’induzione di Hume) che possono essere condensate in affermazioni del tipo:
«Ogni volta che si realizza un certo insieme di condizioni B, si verifica l’evento E».
In questo caso, l’evento E è detto evento certo, in quanto definito in maniera univoca dall’insieme delle
condizioni B. In notazione logica scriveremo che
𝐸⊂𝐡
che si legge «πΈ implica 𝐡».
Se il set informativo a disposizione dell’agente non è 𝐡, ma un sottoinsieme parziale di condizioni 𝐢,
non si avrà come conseguenza necessaria il verificarsi di 𝐸. Si parlerà in questo caso di evento incerto, o
evento casuale.
La teoria della probabilità è la branca delle discipline matematiche che studia i problemi di
definizione e misurazione dell’incertezza.
Teoria della probabilità
10/05/2016
Pagina 16
La teoria della probabilità come teoria della
misura
Il concetto di probabilità si presenta con due significati:
•
quello di chance, quando l’osservazione sul risultato di un esperimento e la sua valutazione
dipendono dal caso – nel senso chiarito in precedenza – e l’esperimento è suscettibile di essere
ripetuto un gran numero di volte;
•
quello di probabilità in senso stretto, attinente ad un esperimento difficilmente ripetibile.
Introduciamo tre concetti, che risulteranno utili nel seguito della trattazione:
•
Esperimento casuale. Operazione (o sequenza di operazioni) il cui esito è incerto, nel senso che non
può essere previsto con certezza (pensate ad esempio al lancio di una moneta … )
•
Evento elementare. Qualunque risultato cui può dare luogo un esperimento. Gli eventi elementari πœ”π‘–
possono essere considerati come elementi di un più generale spazio degli eventi
•
Spazio campione. È l’insieme di tutti gli eventi elementari o evento certo Ω, nel senso che dato un
esperimento casuale, o l’uno o l’altro degli eventi elementari cui può condurre l’esperimento deve
necessariamente verificarsi. In generale gli eventi elementari costituiranno sottoinsiemi in Ω.
Teoria della probabilità
10/05/2016
Pagina 17
La teoria della probabilità come teoria della
misura
La definizione classica di probabilità. Originariamente dovuta a Laplace, afferma che dato uno spazio
finito di eventi 𝛀, la probabilità è il rapporto tra il numero π’πŽ dei casi favorevoli al verificarsi di un
qualunque evento 𝝎 e il numero 𝒏 dei casi possibili, posto che gli eventi siano tutti equiprobabili
π‘ƒπ‘Ÿ πœ” =
π‘›πœ”
𝑛
∀πœ” ∈ Ω
Esempio 1. Consideriamo un semplice esperimento di lancio di una moneta ben bilanciata. Il lancio di
una moneta può avere come esito l’uno o l’altro dei due eventi elementari «testa» e «croce». Lo spazio
campione sarà quindi composto dai due eventi elementari «testa» e «croce» e quindi Ω = 𝑇, 𝐢 .
Con riferimento all’evento elementare πœ” = π‘‘π‘’π‘ π‘‘π‘Ž, poiché nel corso di un esperimento casuale di lancio di
una moneta gli eventi possibili sono due, di cui soltanto uno favorevole al verificarsi dell’evento elementare
«testa», avremo che 𝑛 = 2, π‘›πœ” = 1 e quindi la probabilità che si verifichi πœ” sarà data dal rapporto
π‘ƒπ‘Ÿ πœ” =
π‘›πœ” 1
=
𝑛
2
Lo stesso ragionamento, ovviamente, può essere seguito per valutare la probabilità del verificarsi
dell’evento elementare «croce».
Teoria della probabilità
10/05/2016
Pagina 18
La teoria della probabilità come teoria della
misura
La definizione classica è una definizione a priori. Per esempio, con riferimento all’esperimento
consistente nel lancio di una moneta ben bilanciata, l’agente conosce ex ante gli eventi elementari
(testa, croce) cui l’esperimento può dare luogo
Gli eventi hanno la caratteristica fondamentale di essere:
•
necessari, in quanto nel corso dell’esperimento o l’uno o l’altro degli eventi elementari deve
necessariamente verificarsi;
•
mutuamente esclusivi (o incompatibili), tali cioè che il verificarsi dell’uno esclude il verificarsi
dell’altro;
•
equiprobabili, in quanto si assume che nessuno dei due eventi elementari abbia maggiori
chance di manifestarsi rispetto all’altro.
Teoria della probabilità
10/05/2016
Pagina 19
La teoria della probabilità come teoria della
misura
Per quanto di immediata comprensibilità e di pronta applicazione a semplici problemi pratici, la definizione
classica è insoddisfacente da un punto di vista logico.
Infatti, il riferimento nella definizione alla nozione di equiprobabilità degli eventi elementari
configura una tautologia: in logica la tautologia è un’affermazione vera per definizione e, in quanto tale,
fondamentalmente priva di contenuto informativo; una tautologia, in altre parole, ragiona circolarmente
attorno agli argomenti o alle definizioni.
Inoltre, a prescindere dalle sue lacune logiche, l’applicabilità della definizione classica è confinata a
quei contesti in cui l’osservatore sia in grado di rappresentare ex ante lo spazio degli eventi
elementari e che questi, come detto, siano equiprobabili, condizioni che difficilmente si presentano
nella realtà.
Teoria della probabilità
10/05/2016
Pagina 20
La teoria della probabilità come teoria della
misura
La definizione frequentista. Formulata da Venn (1834-1923), emerge da un ragionamento a posteriori
fondato sull’osservazione dei risultati di un esperimento.
Consideriamo un esperimento articolato in 𝑛 prove, nel corso del quale si verifichino π‘˜ eventi elementari
πœ”1 , πœ”2 , … , πœ”π‘˜ tra loro incompatibili, ma non equiprobabili. Ipotizziamo che in 𝑛 prove l’evento
elementare πœ”π‘– si sia manifestato 𝑛𝑖 volte. Definendo la frequenza relativa dell’evento πœ”π‘– il rapporto
𝑓𝑖 =
𝑛𝑖
𝑛
la misura di probabilità del generico evento elementare πŽπ’Š è il limite della sua frequenza relativa al
divergere del numero di prove.
In simboli avremo che
𝑛𝑖
𝑛→∞ 𝑛
π‘ƒπ‘Ÿ πœ”π‘– = lim
La definizione frequentista è stata anche indicata come legge empirica del caso.
Teoria della probabilità
10/05/2016
Pagina 21
La teoria della probabilità come teoria della
misura
Esempio 2. Ipotizziamo di lanciare un dado, ma di non sapere a priori a quali esiti può dare luogo
l’esperimento. Replicando alcune volte l‘esperimento, all’ottava prova ci accorgiamo che uno degli eventi
elementari che si verificano è la faccia contrassegnata dal numero 6. Concentriamoci sulla probabilità di
ottenere come risultato la faccia contrassegnata dal numero 6 e, a questo scopo, replichiamo l’esperimento
20.000 volte e calcoliamo la frequenza assoluta e quella relativa dell’evento πœ”6 = π‘“π‘Žπ‘π‘π‘–π‘Ž 6 𝑑𝑒𝑙 π‘‘π‘Žπ‘‘π‘œ.
L’esperimento è condotto utilizzando la funzione di «campionamento» di Excel:
Teoria della probabilità
10/05/2016
Pagina 22
La teoria della probabilità come teoria della
misura
Al divergere del numero delle prove, la frequenza relativa associata al verificarsi dell’evento πœ”6 ha il
seguente andamento:
Come appare evidente dal grafico, il valore della frequenza relativa mostra notevoli oscillazioni, per poi
stabilizzarsi a partire dalla prova 𝑛∗ ≅ 4.800. Da quel punto in poi, la frequenza relativa di uscita della
faccia numero 6 è approssimativamente costante: si è «trasformata» in una probabilità.
Teoria della probabilità
10/05/2016
Pagina 23
La teoria della probabilità come teoria della
misura
Proprio perché formulata a posteriori, in quanto emerge nel corso di un esperimento articolato in un
grande numero di prove, la definizione frequentista presenta alcune limitazioni.
Quella più ovvia è che la misura di probabilità nella definizione frequentista presuppone lo
svolgimento di un esperimento articolato su un gran numero di prove. Se un evento non si è
manifestato nel corso dell’esperimento, non se ne può misurare la probabilità: sarebbe infatti
necessario ripetere l’esperimento infinite volte per avere la certezza che tutti gli eventi elementari si siano
effettivamente manifestati.
Inoltre, sebbene la definizione frequentista sia largamente diffusa nelle scienze applicate, non è universale.
Per risolvere il problema dell’universalità sono stati proposti due approcci più consistenti sul piano
matematico, l’impostazione soggettiva e quella assiomatica.
Teoria della probabilità
10/05/2016
Pagina 24
La teoria della probabilità come teoria della
misura
La definizione soggettiva. L’approccio in termini soggettivi appare alla fine degli anni venti del XX secolo
in risposta alle citate lacune logiche dell’impostazione classica e di quella frequentista.
Partiamo da una premessa generale. Nella vita di tutti i giorni possono manifestarsi eventi unici,
irripetibili, rispetto ai quali un osservatore potrebbe essere chiamato a prendere decisioni, senza
conoscerne pienamente conseguenze e implicazioni. In questi contesti, dominati dall’incertezza più
che dal rischio, le misure classiche e frequentiste di probabilità non risultano più applicabili.
In che termini parliamo di incertezza e di rischio? La distinzione tra rischio (measurable uncertainty) e
incertezza (unmeasurable uncertainty) è un tema introdotto da Knight:
•
Una decisione in condizioni di rischio si realizza quando il decisore ha cognizione di tutti gli stati
in cui può manifestarsi un fenomeno e può associare una misura di probabilità a ciascuno
stato
•
Di contro, quando l’agente non dispone di una rappresentazione completa dello spazio degli
stati e/o non è in grado di assegnare una misura di probabilità a ciascuno di essi, si parlerà più
propriamente di decisioni in condizioni di incertezza
Teoria della probabilità
10/05/2016
Pagina 25
La teoria della probabilità come teoria della
misura
Sviluppata indipendentemente da Ramsey (1903-1930) e da De Finetti (1906-1985), l’impostazione
soggettiva afferma che la probabilità di un evento 𝝎 è una misura 𝒑 del grado di fiducia che un
individuo attribuisce al verificarsi di 𝝎 sulla base delle sue opinioni ed informazioni sull’evento e il
principio di coerenza.
In realtà De Finetti preferiva utilizzare una definizione più operativa: la probabilità di un evento 𝝎,
secondo l’opinione di un individuo 𝑰, è il prezzo 𝒑 che 𝑰 giudica equo pagare per riscuotere un
importo unitario nel caso in cui 𝝎 si verifichi.
Per i soggettivisti la probabilità è una misura del grado di fiducia – in inglese degree of belief – che
una qualsiasi affermazione sia vera. E poiché quanto più si crede in un’affermazione, tanto più si è
disposti a scommettere su di essa, si può utilizzare il concetto di scommessa coerente per definire in
maniera operativa la misura di probabilità.
Nella concezione di De Finetti una scommessa è coerente quando non determina una perdita certa a
priori per il banco o per lo scommettitore, mentre il prezzo pagato si definisce equo se lo
scommettitore non muta i termini della scommessa anche quando cambia il suo ruolo con quello di
banco.
Teoria della probabilità
10/05/2016
Pagina 26
La teoria della probabilità come teoria della
misura
Quindi coerenza significa il rispetto di alcuni criteri di carattere logico. Con la diretta implicazione che,
per quanto in questa impostazione la valutazione sia un atto soggettivo, non è arbitraria.
Infatti, se nell’analisi di un problema le valutazioni di una pluralità di osservatori potrebbero non concordare,
quando il set informativo di cui dispone l’osservatore rimane immutato, non deve mutare il suo
grado di fiducia circa l’avverarsi di 𝝎.
Teoria della probabilità
10/05/2016
Pagina 27
La teoria della probabilità come teoria della
misura
Esempio 3. Consideriamo l’evento πœ” =«vittoria del pilota 𝑋 nella gara automobilistica π‘Œ».
Ipotizziamo che dietro pagamento di 0 euro un allibratore ve ne promettesse 100 nel caso si verifichi πœ”: voi
accettereste di partecipare alla scommessa? Sicuramente sì, in quanto l’allibratore vi ha chiesto 0 euro
per partecipare al gioco e l’evento πœ” potrebbe verificarsi.
Ipotizziamo adesso che l’allibratore vi chieda di scommettere 10 eurocent. In questo caso accettereste di
partecipare? Quasi certamente la risposta sarebbe ancora affermativa, perché a fronte di una perdita
massima di 10 eurocent la vincita potrebbe essere molto superiore.
Ma se per scommettere l’allibratore vi chiedesse 90 euro, accettereste di partecipare? Verosimilmente no,
a meno che il vostro information set non vi inducesse a ritenere che comunque la scommessa è
vantaggiosa.
Teoria della probabilità
10/05/2016
Pagina 28
La teoria della probabilità come teoria della
misura
In sintesi, con un prezzo di 10 eurocent partecipate alla scommessa, mentre non partecipate se non a
condizioni stringenti quando il prezzo è di 90 euro.
Generalizzando, se accettate di partecipare al gioco pagando un prezzo 𝑝, accetterete a maggior ragione
al prezzo 𝑝 ∗ < 𝑝. Di contro, se non partecipate al gioco al prezzo 𝑝, rifiuterete a maggior ragione al prezzo
𝑝∗∗ > 𝑝. Esisterà quindi un valore soglia di 𝒑 che separa la decisione di partecipare alla scommessa
da quella di non partecipare. Quel valore soglia 𝒑 è la probabilità soggettiva da voi assegnata a 𝝎
In generale, se un certo evento 𝝎, nell’ambito di una scommessa coerente e ipotizzando che il
prezzo sia equo, viene dato «π’™ contro π’š», la probabilità soggettiva di 𝝎 risulterà pari a
𝑝 πœ” =
Teoria della probabilità
𝑦
π‘₯+𝑦
10/05/2016
Pagina 29
La teoria della probabilità come teoria della
misura
Esempio 4. Un allibratore vi propone una scommessa «4 contro 1» sul verificarsi di un certo evento πœ”, il
che significa che l’allibratore si impegna, al verificarsi dell’evento, a riconoscervi un premio pari a 4 più il
rimborso del prezzo da voi pagato per partecipare al gioco, pari ad 1
Se accettate di partecipare alla scommessa, la vostra misura di probabilità soggettiva circa il verificarsi di πœ”
sarà data da
𝑝 πœ” =
Teoria della probabilità
𝑦
1
=
= 0,2
π‘₯+𝑦 4+1
10/05/2016
Pagina 30
Elementi di teoria degli insiemi
Per introdurre la quarta definizione di probabilità, quella assiomatica, è necessario richiamare alcune
semplici nozioni di teoria degli insiemi. L’insieme può essere visto come una collezione di oggetti che
presentano una o più caratteristiche comuni. Nel caso dello spazio campione Ω, l’elemento comune agli
eventi πœ”π‘– ∈ Ω è quello di essere i risultati ottenibili nel corso di un esperimento casuale.
Nella teoria degli insiemi, due sono le tematiche principali: le relazioni su insiemi e le operazioni che
possiamo svolgere tra sottoinsiemi.
Relazioni su insiemi. In matematica, per relazione intendiamo un collegamento tra oggetti.
La prima relazione fondamentale è quella di appartenenza. Diremo che un evento elementare πœ”
appartiene ad un sottoinsieme 𝐴 di eventi elementari (e indicheremo tale relazione come πœ” ∈ 𝐴) se
soddisfa un criterio di appartenenza specifico
Se per esempio 𝐴 è l’insieme dei numeri naturali minori di 10, il criterio di appartenenza sarà descritto
come
𝐴 = πœ”: πœ” π‘›π‘’π‘šπ‘’π‘Ÿπ‘œ π‘›π‘Žπ‘‘π‘’π‘Ÿπ‘Žπ‘™π‘’ π‘šπ‘–π‘›π‘œπ‘Ÿπ‘’ 𝑑𝑖 10
= πœ”: πœ” ∈ β„•; πœ” < 10
Tale definizione si legge come «π΄ insieme degli eventi elementari πœ” appartenenti ai numeri naturali minori
di dieci»
Teoria della probabilità
10/05/2016
Pagina 31
Elementi di teoria degli insiemi
Da un punto di vista grafico, avremo che
Definita l’appartenenza è immediato derivare la relazione di non appartenenza. Infatti, fissato
l’insieme 𝐡 dei numeri naturali maggiori o uguali a 10:
𝐡 = πœ”: πœ” π‘›π‘’π‘šπ‘’π‘Ÿπ‘œ π‘›π‘Žπ‘‘π‘’π‘Ÿπ‘Žπ‘™π‘’ π‘šπ‘Žπ‘”π‘”π‘–π‘œπ‘Ÿπ‘’ π‘œ π‘’π‘”π‘’π‘Žπ‘™π‘’ π‘Ž 10
= πœ”: πœ” ∈ β„•; πœ” ≥ 10
allora se πœ” ∈ 𝐴 → πœ” ∉ 𝐡
Teoria della probabilità
10/05/2016
Pagina 32
Elementi di teoria degli insiemi
Relazione di inclusione. La seconda relazione fondamentale, riferita a due sottoinsiemi, è quella di
inclusione. Dati due sottoinsiemi 𝐴 e 𝐡, si ha una relazione di inclusione se tutti gli elementi
appartenenti ad uno dei due sottoinsiemi appartengono anche all’altro. In simboli avremo che
𝐴 ⊆ 𝐡 ⟺ ∀πœ” ∈ 𝐴, πœ” ∈ 𝐡
La definizione va letta come «π΄ è incluso in 𝐡 se e solo se, per ogni πœ” appartenente ad 𝐴, πœ” appartiene a
B».
Da un punto di vista grafico, avremo che
Teoria della probabilità
10/05/2016
Pagina 33
Elementi di teoria degli insiemi
Parleremo poi di relazione di inclusione stretta (indicata come 𝐴 ⊂ 𝐡) se ogni elemento di 𝐴 è anche
elemento di 𝐡, ma esistono alcuni elementi di 𝐡 che con certezza non appartengono ad 𝐴
La relazione di inclusione è riflessiva, antisimmetrica e transitiva. Infatti:
•
•
•
𝐴⊆𝐴
𝐴 ⊆𝐡∧𝐡 ⊆𝐴 ⟹𝐴 =𝐡
𝐴 ⊆𝐡∧𝐡 ⊆𝐢 ⟹𝐴 ⊆𝐢
La proprietà di antisimmetria è importante in quanto consente di definire la relazione di
uguaglianza tra due o più sottoinsiemi.
Teoria della probabilità
10/05/2016
Pagina 34
Elementi di teoria degli insiemi
Relazione di disgiunzione. La terza relazione fondamentale è quella di disgiunzione. Dati due
sottoinsiemi 𝐴 e 𝐡, diremo che 𝑨 e 𝑩 sono disgiunti se non hanno alcun elemento in comune, cioè se
la loro intersezione è insieme vuoto. In simboli:
𝐴∩𝐡 =∅
La relazione di disgiunzione tra sottoinsiemi è simmetrica, nel senso che se 𝐴 è disgiunto da 𝐡, deve valere
anche la relazione opposta, ma non è riflessiva né transitiva. Infatti, se è chiaro che un insieme 𝐴 non
può essere disgiunto da 𝐴, cioè da sé stesso, potrebbe non risultare immediato che la relazione di
disgiunzione non è transitiva. Per convincerci della validità dell’affermazione, tuttavia, basta fare riferimento
alla situazione rappresentata nel seguente diagramma:
Teoria della probabilità
10/05/2016
Pagina 35
Elementi di teoria degli insiemi
Dall’osservazione del diagramma, appare evidente che 𝐴 è disgiunto da 𝐡, 𝐡 è disgiunto da 𝐢, ma 𝐢 non è
disgiunto da 𝐴. Quindi in generale la relazione di disgiunzione non è transitiva.
Infine, estendiamo la relazione di disgiunzione a famiglie di sottoinsiemi. Una famiglia di sottoinsiemi
π΄π‘˜ ; π‘˜ = 1, 2, … , 𝑛 si dirà costituita da insiemi mutuamente disgiunti, o mutuamente esclusivi, se per
ogni coppia di indici distinti 𝑖 e 𝑗, con 𝑖 ≠ 𝑗, i corrispondenti sottoinsiemi risultano disgiunti.
Nel caso in cui, infine, lo spazio degli eventi Ω possa essere suddiviso in un certo numero di sottoinsiemi
mutuamente esclusivi appartenenti ad una famiglia 𝐹, si dirà che 𝐹 è una partizione di Ω.
Teoria della probabilità
10/05/2016
Pagina 36
Elementi di teoria degli insiemi
Operazioni su insiemi. In matematica, si definisce operazione una legge di composizione da uno o più
insiemi agli elementi compresi in essi. In maniera meno «criptica», definiamo operazione un qualsiasi
procedimento che, a partire da numeri o enti dati, fornisce come risultato un numero o altro ente astratto.
Nel seguito, tuttavia, preferiamo riferirci ad un concetto primitivo di operazione, come confronto tra due o
più sottoinsiemi. Le operazioni su insiemi che considereremo sono:
•
•
•
•
Unione
Intersezione
Complemento assoluto o negazione
Complemento relativo o differenza
Teoria della probabilità
10/05/2016
Pagina 37
Elementi di teoria degli insiemi
Unione. Con riferimento a due sottoinsiemi 𝐴, 𝐡 ∈
Ω, l’unione è l’insieme composto dagli eventi
elementari compresi in 𝑨 o in 𝑩 o in entrambi. In
simboli avremo che
∀𝐴, 𝐡 ∈ Ω
𝐴 ∪ 𝐡 = πœ”: πœ” ∈ 𝐴 ∨ πœ” ∈ 𝐡
La definizione precedente si legge come «dati due
sottoinsiemi di eventi elementari 𝐴, 𝐡 appartenenti
allo spazio di eventi Ω, l’evento unione è l’insieme di
eventi elementari che appartengono a 𝐴 o a 𝐡».
Notare che nel diagramma a destra i due
sottoinsiemi presentano eventi elementari in
comune. Se questa situazione non si verifica,
parleremo di unione di eventi disgiunti.
Teoria della probabilità
10/05/2016
Pagina 38
Elementi di teoria degli insiemi
Intersezione. La seconda operazione è quella di
intersezione tra sottoinsiemi. Con riferimento a due
sottoinsiemi 𝐴, 𝐡 ∈ Ω, l’intersezione è l’insieme
composto dagli eventi elementari compresi in 𝐴 e in
𝐡. In simboli avremo che
∀𝐴, 𝐡 ∈ Ω
𝐴 ∩ 𝐡 = πœ”: πœ” ∈ 𝐴 ∧ πœ” ∈ 𝐡
La definizione si legge come «dati due sottoinsiemi
di eventi elementari 𝐴, 𝐡 appartenenti allo spazio di
eventi Ω, l’evento intersezione è l’insieme di eventi
elementari che appartengono a 𝐴 e a 𝐡»
Teoria della probabilità
10/05/2016
Pagina 39
Elementi di teoria degli insiemi
Complemento assoluto o negazione. Con
riferimento ad un sottoinsieme 𝐴 ∈ Ω, definiamo il
complemento assoluto o negazione di 𝑨
l’insieme degli eventi elementari compresi in Ω e
non appartenenti al sottoinsieme 𝐴. In simboli
avremo che
∀𝐴 ∈ Ω
¬π΄ = πœ”: πœ” ∉ 𝐴
L’evento ¬π΄ quindi si verifica se e solo se non si
verifica 𝐴.
Alcune implicazioni dell’operazione di complemento
assoluto:
•
•
•
•
•
¬ ¬π΄ = 𝐴
𝐴 ∪ ¬π΄ = Ω
𝐴 ∩ ¬π΄ = ∅
¬Ω = ∅
¬∅ = Ω
Teoria della probabilità
10/05/2016
Pagina 40
Elementi di teoria degli insiemi
Complemento relativo o differenza. L’estensione
dell’operazione di complemento assoluto è indicata
come complemento relativo o differenza.
Con riferimento a due sottoinsiemi 𝐴, 𝐡 ∈ Ω
caratterizzati dall’avere uno o più eventi elementari
in comune, tali cioè che 𝐴 ∩ 𝐡 ≠ ∅, il complemento
relativo o evento differenza 𝐴 − 𝐡 è l’insieme
composto dagli eventi elementari compresi in 𝐴 e
non compresi in 𝐡. In simboli avremo che
∀𝐴, 𝐡 ∈ Ω
𝐴 − 𝐡 = πœ”: πœ” ∈ 𝐴 ∧ πœ” ∉ 𝐡
Notare che, diversamente dalle operazioni di unione
e intersezione, in generale l’operazione di
complemento relativo non è simmetrica, per cui
potremo definire, dati i due sottoinsiemi 𝐴, 𝐡 ∈ Ω, un
secondo evento differenza 𝐡 − 𝐴 , definito come
l’insieme composto dagli eventi elementari compresi
in 𝐡 e non compresi in 𝐴. In simboli
∀𝐴, 𝐡 ∈ Ω
Naturalmente 𝐴 − 𝐡 ≠ 𝐡 − 𝐴 ⟺ 𝐴 ≠ 𝐡
𝐡 − 𝐴 = πœ”: πœ” ∉ 𝐴 ∧ πœ” ∈ 𝐡
Teoria della probabilità
10/05/2016
Pagina 41
Elementi di teoria degli insiemi
Proprietà delle operazioni su insiemi. Le operazioni su insiemi (e in particolare le operazioni di unione e
intersezione) godono di alcune fondamentali proprietà, elencate di seguito:
Proprietà commutativa:
𝐴∪𝐡 =𝐡∪𝐴
𝐴∩𝐡 =𝐡∩𝐴
Proprietà associativa:
𝐴∪ 𝐡∪𝐢 = 𝐴∪𝐡 ∪𝐢
𝐴∩ 𝐡∩𝐢 = 𝐴∩𝐡 ∩𝐢
Proprietà distributiva:
𝐴∪ 𝐡∩𝐢 = 𝐴∪𝐡 ∩ 𝐴∪𝐢
𝐴∩ 𝐡∪𝐢 = 𝐴∩𝐡 ∪ 𝐴∩𝐢
Leggi di De Morgan:
¬ 𝐴 ∪ 𝐡 = ¬π΄ ∩ ¬π΅
¬ 𝐴 ∩ 𝐡 = ¬π΄ ∪ ¬π΅
Teoria della probabilità
10/05/2016
Pagina 42
Elementi di teoria degli insiemi
Estensione a più eventi. Dato un numero finito di eventi π΄π‘˜ ; π‘˜ = 1, 2, … , 𝑛 , la loro unione è l’insieme
composto dagli eventi elementari πœ” appartenenti a 𝐴1 o 𝐴2 o … o 𝐴𝑛 , mentre la loro intersezione sarà data
dall’insieme composto dagli eventi elementari πœ” appartenenti a 𝐴1 e 𝐴2 e … e 𝐴𝑛
In simboli, per l’operazione di unione avremo che
𝑛
π‘˜=1
π΄π‘˜ = πœ”: πœ” ∈ 𝐴1 ∨ πœ” ∈ 𝐴2 ∨ … ∨ πœ” ∈ π΄π‘˜
mentre per l’operazione di intersezione potremo scrivere che
𝑛
π‘˜=1
π΄π‘˜ = πœ”: πœ” ∈ 𝐴1 ∧ πœ” ∈ 𝐴2 ∧ β‹― ∧ πœ” ∈ π΄π‘˜
Quanto alle leggi di De Morgan, la loro estensione a 𝑛 eventi assume la seguente formulazione:
¬
¬
Teoria della probabilità
𝑛
π‘˜=1
𝑛
π‘˜=1
π΄π‘˜ =
π΄π‘˜ =
𝑛
π‘˜=1
𝑛
π‘˜=1
¬π΄π‘˜
¬π΄π‘˜
10/05/2016
Pagina 43
Elementi di teoria degli insiemi
Estensione a successioni di eventi. Data una successione di eventi π΄π‘˜ ; π‘˜ = 1, 2, … , per l’operazione di
unione scriveremo che
∞
π‘˜=1
π΄π‘˜ = πœ”: πœ” ∈ 𝐴1 ∨ πœ” ∈ 𝐴2 ∨ …
mentre per l’operazione di intersezione avremo che
∞
π‘˜=1
π΄π‘˜ = πœ”: πœ” ∈ 𝐴1 ∧ πœ” ∈ 𝐴2 ∧ β‹―
Quanto alle leggi di De Morgan, la loro estensione ad una successione di eventi è formulata come segue:
¬
¬
Teoria della probabilità
∞
π‘˜=1
∞
π‘˜=1
π΄π‘˜ =
π΄π‘˜ =
∞
π‘˜=1
∞
π‘˜=1
¬π΄π‘˜
¬π΄π‘˜
10/05/2016
Pagina 44
Elementi di teoria degli insiemi
Classi completamente additive (𝝈−algebre). In matematica, una 𝝈-algebra o tribù su un insieme di
eventi 𝛀 è una famiglia di sottoinsiemi di 𝛀 che gode di alcune proprietà di stabilità rispetto a
operazioni quali l’unione numerabile e il passaggio al complementare
Il concetto di 𝝈-algebra è alla base della teoria della misura, della teoria assiomatica della
probabilità e di tutte le nozioni di misurabilità, sia di insiemi, sia di funzioni. Infatti la 𝜎-algebra è un
caso particolare di algebra di insiemi, ed è utilizzata ampiamente in analisi matematica, per gli svariati
vantaggi che le misure definite su 𝜎-algebre hanno rispetto alle operazioni di passaggio al limite (ricordate
l’approccio frequentista?)
Teoria della probabilità
10/05/2016
Pagina 45
Elementi di teoria degli insiemi
Definizione. Sia dato uno spazio di eventi ٠e un suo sottoinsieme di eventi elementari 𝐴. Consideriamo
una classe β„‚ tale che
1.
2.
3.
Contenga ٠⟹ Ω ∈ β„‚
Se 𝐴 ∈ β„‚ ⟹ ¬ 𝐴 ∈ β„‚. In altri termini, se la classe β„‚ contiene il sottoinsieme 𝐴, deve contenere
anche la sua negazione ¬π΄
Data una successione finita o infinita di sottoinsieme di eventi elementari 𝐴1 , 𝐴2 , … = π΄π‘˜ ; π‘˜ =
Teoria della probabilità
10/05/2016
Pagina 46
Elementi di teoria degli insiemi
Perché introduciamo il concetto di 𝝈-algebra? Perché è uno strumento che ci consente di
«condensare» e riassumere l’insieme dei risultati di tutte le operazioni di confronto fra eventi
elementari o sottoinsiemi di eventi elementari, con particolare riferimento alle operazioni di unione,
intersezione, differenza.
A partire da uno stesso spazio campione Ω, possono essere costruite più classi di eventi β„‚, ognuna delle
quali deve contenere almeno Ω (proprietà 1) e l’evento complemento ¬Ω = ∅ (proprietà 2). Quindi la più
piccola classe completamente additiva è formata solo da Ω e ∅:
β„‚=
∅
Ω
Nel caso di insiemi numerici continui definiti su ℝ, è impossibile effettuare confronti, per cui
preliminarmente devono essere fissati intervalli di valori quali
𝐼 = −∞, π‘₯
𝐼 = π‘₯1 , π‘₯2
a partire dai quali è nuovamente possibile costruire la 𝜎-algebra
Teoria della probabilità
10/05/2016
Pagina 47
Elementi di teoria degli insiemi
Esempio 5. Dato lo spazio degli eventi ٠= 1, 2, 3 costruiamo la 𝜎-algebra completa dei sottoinsiemi di
eventi elementari appartenenti a Ω. Avremo che
∅
1 2 3
β„‚=
12 13 23
123
Verifichiamo se effettivamente β„‚ è una 𝜎-algebra, verificando che la proprietà 2, in virtù della quale se 𝐴 ∈
β„‚ ⟹ ¬ 𝐴 ∈ β„‚, sia soddisfatta.
Scegliamo arbitrariamente due sottoinsiemi rispettivamente di ampiezza 1 o 2, ad esempio 𝐴1 = 3 e 𝐴2 =
1, 2 . È agevole mostrare che
𝑠𝑒 𝐴 = 3 ∈ β„‚ ⟹ ¬π΄ = 1, 2 ∈ β„‚
𝑠𝑒 𝐴 = 1, 2 ∈ β„‚ ⟹ ¬π΄ = 3 ∈ β„‚
Teoria della probabilità
10/05/2016
Pagina 48
Elementi di teoria degli insiemi
Inoltre, scegliendo arbitrariamente due sottoinsiemi di ampiezza unitaria, quali ad esempio 𝐴1 = 1 e 𝐴2 =
3 , verifichiamo se β„‚ è una 𝜎-algebra alla luce della proprietà 3, in virtù della quale data una successione
finita o infinita di sottoinsieme di eventi elementari 𝐴1 , 𝐴2 , … = π΄π‘˜ ; π‘˜ = 1, 2, … appartenenti a β„‚, anche la
loro unione appartiene a β„‚.
Avremo che
•
•
𝐴1 ∪ 𝐴2 = 1, 3 ⟹ ¬ 𝐴1 ∪ 𝐴2 = 2 ∈ β„‚
2
π‘˜=1 ¬π΄π‘˜ = ¬π΄1 ∩ ¬π΄2 = 2, 3 ∩ 1, 2 = 2 ∈ β„‚
Teoria della probabilità
10/05/2016
Pagina 49
La teoria assiomatica della probabilità
Formulata da Kolmogorov (1903-1987), è considerata la definizione più consistente sul piano matematico,
in quanto, come chiarito in precedenza, si fonda su alcuni principi generali di teoria della misura.
Data una 𝝈-algebra β„‚ di sottoinsiemi 𝑨 ⊆ 𝜴, la misura di probabilità 𝑷𝒓 è una funzione che associa
ad ogni sottoinsieme 𝑨 un numero reale non negativo. In simboli
π‘ƒπ‘Ÿ: 𝐴 → ℝ+
Come appare evidente, tale definizione prescinde dalle nozioni di casi favorevoli, casi possibili,
equiprobabilità, esperimenti articolati in infinite prove, quindi «tiene» da un punto di vista sia logico, sia
operativo, in quanto è sufficientemente generale da ricomprendere tutti i contesti concretamente
osservabili.
Teoria della probabilità
10/05/2016
Pagina 50
La teoria assiomatica della probabilità
Assiomi della misura di probabilità. La misura di probabilità così definita soddisfa quattro assiomi:
1. Non negatività.
∀𝐴 ∈ β„‚
π‘ƒπ‘Ÿ 𝐴 ≥ 0
2. Normalizzazione
π‘ƒπ‘Ÿ Ω = 1
3. Additività finita. Dati due eventi 𝐴, 𝐡 ∈ Ω incompatibili, cioè tali che 𝐴 ∩ 𝐡 = ∅, la probabilità
dell’evento unione è data dalla somma delle singole probabilità degli eventi. In simboli:
π‘ƒπ‘Ÿ 𝐴 ∪ 𝐡 = π‘ƒπ‘Ÿ 𝐴 + π‘ƒπ‘Ÿ 𝐡
4. Completa additività. Data una famiglia composta da un’infinità numerabile di sottoinsiemi di eventi
elementari 𝐴1 , 𝐴2 , … = π΄π‘˜ ; π‘˜ = 1, 2, … a due a due incompatibili, cioè tali che ∀𝑖 ≠ 𝑗 𝐴𝑖 ∩ 𝐴𝑗 = ∅
π‘ƒπ‘Ÿ
Teoria della probabilità
∞
π‘˜=1
π΄π‘˜ =
∞
π‘ƒπ‘Ÿ π΄π‘˜
π‘˜=1
10/05/2016
Pagina 51
La teoria assiomatica della probabilità
Proprietà della misura di probabilità. La misura di probabilità gode di alcune proprietà che
consentono di quantificare l’incertezza dell’osservatore non soltanto circa il verificarsi di eventi
elementari, ma anche circa il verificarsi di sottoinsiemi di eventi, cioè di suddivisioni dello spazio
campione Ω.
Queste proprietà sussistono indipendentemente dalla definizione adottata di probabilità. Nel caso
delle definizioni classiche e frequentiste, le proprietà sono una conseguenza della formula di calcolo
adottata (una frequenza relativa), mentre nelle definizioni soggettivistiche e assiomatiche trovano
fondamento in alcuni principi di natura logica.
Ad ogni modo, nel seguito della trattazione, preferiamo attenerci esclusivamente all’impostazione
assiomatica. Dagli assiomi 1β€’4 elencati in precedenza derivano tutte le proprietà della probabilità.
Teoria della probabilità
10/05/2016
Pagina 52
La teoria assiomatica della probabilità
Proprietà 1. Probabilità dell’evento negazione
Dato un sottoinsieme di eventi 𝐴 ∈ Ω, siamo interessati a calcolare la probabilità associata all’evento ¬π΄.
Per risalire a tale probabilità, è sufficiente osservare che ¬π΄ = πœ”: πœ” ∉ 𝐴 , quindi:
•
•
𝐴 ∪ ¬π΄ = Ω
𝐴 ∩ ¬π΄ = ∅
Osservando che in virtù dell’assioma 2 (normalizzazione) π‘ƒπ‘Ÿ Ω = 1 e che 𝐴 e ¬π΄ sono sottoinsiemi
incompatibili, possiamo applicare l’assioma 3 (additività finita) e scrivere
π‘ƒπ‘Ÿ 𝐴 ∪ ¬π΄ = π‘ƒπ‘Ÿ Ω
π‘ƒπ‘Ÿ 𝐴 + π‘ƒπ‘Ÿ ¬π΄ = 1
e quindi
π‘ƒπ‘Ÿ ¬π΄ = 1 − π‘ƒπ‘Ÿ 𝐴
Teoria della probabilità
10/05/2016
Pagina 53
La teoria assiomatica della probabilità
Esempio 6. Consideriamo l’esperimento consistente nel lancio di un dado. Lo spazio campione sarà
composto dai sei eventi elementari
Ω = 1, 2, 3, 4, 5, 6
Poiché lo spazio campione Ω ha cardinalità 6 (cioè contiene 6 eventi elementari), mentre ciascun evento
elementare ha cardinalità 1 (essendo un «punto» appartenente ad Ω), la probabilità teorica che si verifichi
uno dei sei eventi elementari (ad esempio la faccia del dado contrassegnata dal numero 6) sarà data dal
rapporto
π‘ƒπ‘Ÿ πœ”6 =
Teoria della probabilità
#πœ”6 1
=
#Ω
6
10/05/2016
Pagina 54
La teoria assiomatica della probabilità
Domandiamoci adesso a quanto ammonta la probabilità che lanciando il dado «non» si ottenga la faccia
contrassegnata dal numero 6». Tale probabilità può essere calcolata facendo riferimento all’evento
negazione ¬πœ”6
Osservando che:
•
¬πœ”6 = 1, 2, 3, 4, 5
•
πœ”6 ∪ ¬πœ”6 = 6 ∪ 1, 2, 3, 4, 5 = 1, 2, 3, 4, 5, 6 = Ω
•
πœ”6 ∩ ¬πœ”6 = ∅
avremo che
π‘ƒπ‘Ÿ ¬πœ”6 = 1 − π‘ƒπ‘Ÿ πœ”6 = 1 −
Teoria della probabilità
10/05/2016
1 5
=
6 6
Pagina 55
La teoria assiomatica della probabilità
In alternativa, osservando che la cardinalità del sottoinsieme ¬πœ”6 è pari a 5, possiamo scrivere in maniera
del tutto equivalente che
π‘ƒπ‘Ÿ ¬πœ”6 =
#¬πœ”6 5
=
#Ω
6
Una delle più dirette conseguenze della prima proprietà è la seguente: poiché ¬Ω = ∅, avremo che
π‘ƒπ‘Ÿ ∅ = π‘ƒπ‘Ÿ ¬Ω = 1 − π‘ƒπ‘Ÿ Ω = 1 − 1 = 0
Quindi la probabilità dell’insieme vuoto è nulla (ad esempio, con riferimento al precedente esperimento,
a quanto ammonta la probabilità di ottenere la faccia del dado contrassegnata dal numero 7?)
Teoria della probabilità
10/05/2016
Pagina 56
La teoria assiomatica della probabilità
Proprietà 2. Estremi della misura di probabilità
La proprietà 2 individua l’insieme di definizione della misura di probabilità.
Intuitivamente, poiché abbiamo già sottolineato l’analogia che lega la nozione di frequenza relativa a quella
di probabilità nella definizione classica e in quella frequentista, è immediato comprendere che la misura di
probabilità deve variare tra 0 (probabilità dell’insieme vuoto ∅, cioè la probabilità che si verifichi un qualche
evento elementare o sottoinsieme di eventi elementari non compreso in Ω) e 1 (probabilità che si verifichi
l’uno o l’altro degli eventi elementari compresi in Ω), per cui con riferimento ad un generico sottoinsieme di
eventi elementari 𝐴 ∈ Ω possiamo scrivere che
0 ≤ π‘ƒπ‘Ÿ 𝐴 ≤ 1
Naturalmente, in un’impostazione di tipo assiomatico di intuitivo c’è ben poco, per cui vediamo come
dimostrare formalmente questa proprietà
Teoria della probabilità
10/05/2016
Pagina 57
La teoria assiomatica della probabilità
Osservando che
•
•
in virtù dell’assioma 1 (non negatività) π‘ƒπ‘Ÿ 𝐴 ≥ 0;
tale assioma vale anche per la probabilità dell’evento negazione, per cui possiamo scrivere che
π‘ƒπ‘Ÿ ¬π΄ ≥ 0. Poiché abbiamo appena dimostrato che π‘ƒπ‘Ÿ ¬π΄ = 1 − π‘ƒπ‘Ÿ 𝐴 , sostituendo nella
precedente relazione avremo che 1 − π‘ƒπ‘Ÿ 𝐴 ≥ 0 e quindi π‘ƒπ‘Ÿ 𝐴 ≤ 1.
Combinando i due risultati avremo che
0 ≤ π‘ƒπ‘Ÿ 𝐴 ≤ 1
Teoria della probabilità
10/05/2016
Pagina 58
La teoria assiomatica della probabilità
Esempio 7. Consideriamo l’esperimento consistente nell’estrazione con reintroduzione di due palline da
un’urna contenente 5 palline bianche e 5 palline nere. Lo spazio campione, come sappiamo, è l’insieme
degli eventi elementari, cioè l’insieme dei risultati dell’esperimento di estrazione, quindi in questo caso Ω
assumerà la seguente struttura:
Ω = 𝐡𝐡, 𝐡𝑁, 𝑁𝐡, 𝑁𝑁
Poiché si può dimostrare che in questo caso i 4 eventi elementari compresi in Ω (a causa della particolare
composizione dell’urna e delle particolari modalità con cui è condotta l’estrazione) sono equiprobabili, la
probabilità del generico evento πœ”π‘– sarà data da
π‘ƒπ‘Ÿ πœ”π‘– =
Teoria della probabilità
#πœ”π‘– 1
= ≥0
#Ω 4
10/05/2016
Pagina 59
La teoria assiomatica della probabilità
Esempio 7. Consideriamo l’esperimento consistente nell’estrazione con reintroduzione di due palline da
un’urna contenente 5 palline bianche e 5 palline nere. Lo spazio campione, come sappiamo, è l’insieme
degli eventi elementari, cioè l’insieme dei risultati dell’esperimento di estrazione, quindi in questo caso Ω
assumerà la seguente struttura:
Ω = 𝐡𝐡, 𝐡𝑁, 𝑁𝐡, 𝑁𝑁
Poiché si può dimostrare che in questo caso i 4 eventi elementari compresi in Ω (a causa della particolare
composizione dell’urna e delle particolari modalità con cui è condotta l’estrazione) sono equiprobabili, la
probabilità del generico evento πœ”π‘– sarà data da
π‘ƒπ‘Ÿ πœ”π‘– =
Teoria della probabilità
#πœ”π‘– 1
= ≥0
#Ω 4
10/05/2016
Pagina 60
La teoria assiomatica della probabilità
È interessante verificare anche a quanto ammonta la probabilità su un qualche sottoinsieme 𝐴 di eventi
elementari. Ad esempio, la probabilità di ottenere almeno una pallina nera nel corso dell’esperimento di
estrazione sarà data da
A = 𝐡𝑁, 𝑁𝐡, 𝑁𝑁
la cui misura di probabilità è pari a
π‘ƒπ‘Ÿ 𝐴 =
#𝐴 3
=
#Ω 4
Naturalmente, anche in questo caso si ha che 0 ≤ π‘ƒπ‘Ÿ 𝐴 ≤ 1
Teoria della probabilità
10/05/2016
Pagina 61
La teoria assiomatica della probabilità
Proprietà 3. Additività in una successione finita
Con riferimento all’esempio precedente, fissiamo i tre eventi
𝐴1 = 0 π‘π‘Žπ‘™π‘™π‘–π‘›π‘’ π‘›π‘’π‘Ÿπ‘’ 𝑛𝑒𝑙𝑙 ′ π‘’π‘ π‘‘π‘Ÿπ‘Žπ‘§π‘–π‘œπ‘›π‘’ = 𝐡𝐡
𝐴2 = 1 π‘π‘Žπ‘™π‘™π‘–π‘›π‘Ž π‘›π‘’π‘Ÿπ‘Ž 𝑛𝑒𝑙𝑙 ′ π‘’π‘ π‘‘π‘Ÿπ‘Žπ‘§π‘–π‘œπ‘›π‘’ = 𝐡𝑁, 𝑁𝐡
𝐴3 = 2 π‘π‘Žπ‘™π‘™π‘–π‘›π‘’ π‘›π‘’π‘Ÿπ‘’ 𝑛𝑒𝑙𝑙 ′ π‘’π‘ π‘‘π‘Ÿπ‘Žπ‘§π‘–π‘œπ‘›π‘’ = 𝑁𝑁
I tre sottoinsiemi così individuati costituiscono una famiglia 𝑭 di sottoinsiemi di eventi elementari
π΄π‘˜ ; π‘˜ = 1, 2, 3 , a due a due incompatibili, cioè tali che ∀𝑖 ≠ 𝑗, 𝐴𝑖 ∩ 𝐴𝑗 = ∅, quindi 𝐹 = 𝐴1 , 𝐴2 , 𝐴3
costituisce una partizione di Ω
La proprietà di additività di una successione finita di sottoinsiemi stabilisce che
𝑛
π‘ƒπ‘Ÿ
π΄π‘˜ =
π‘˜=1
𝑛
π‘˜=1
π‘ƒπ‘Ÿ π΄π‘˜
Detto in altri termini, la proprietà di additività di una successione finita stabilisce che la probabilità
dell’unione di una successione finita di sottoinsiemi di eventi disgiunti è pari alla somma delle
probabilità dei relativi sottoinsiemi.
Teoria della probabilità
10/05/2016
Pagina 62
La teoria assiomatica della probabilità
#𝐴1
#Ω
Ad esempio, nel caso precedente, π‘ƒπ‘Ÿ 𝐴1 =
Poiché in generale si ha che
1
= 4 , π‘ƒπ‘Ÿ 𝐴2 =
#𝐴2
#Ω
2
= 4 , π‘ƒπ‘Ÿ 𝐴3 =
#𝐴3
#Ω
1
= 4.
3
π‘ƒπ‘Ÿ
π΄π‘˜
= π‘ƒπ‘Ÿ 𝐴1 ∪ 𝐴2 ∪ 𝐴3
π‘˜=1
Quindi
= π‘ƒπ‘Ÿ 𝐡𝐡 ∪ 𝐡𝑁, 𝑁𝐡 ∪ 𝑁𝑁
= π‘ƒπ‘Ÿ Ω = 1
o anche
3
π‘˜=1
π‘ƒπ‘Ÿ π΄π‘˜ =
1 2 1
+ + =1
4 4 4
Con riferimento all’esempio precedente, quindi, abbiamo dimostrato empiricamente che
𝑛
π‘ƒπ‘Ÿ
π΄π‘˜ =
π‘˜=1
Teoria della probabilità
𝑛
π‘˜=1
π‘ƒπ‘Ÿ π΄π‘˜
10/05/2016
Pagina 63
La teoria assiomatica della probabilità
Su un piano formale, consideriamo per semplicità 3 sottoinsiemi 𝐴1 , 𝐴2 e 𝐴3 disgiunti, costituenti una
famiglia 𝐹 = 𝐴1 , 𝐴2 , 𝐴3 ∈ β„‚. Poiché i tre sottoinsiemi sono a due a due incompatibili (e quindi 𝐴𝑖 ∩ 𝐴𝑗 = ∅),
in virtù della proprietà distributiva delle operazioni di unione e intersezione tra sottoinsiemi risulterà
che
𝐴1 ∪ 𝐴2 ∩ 𝐴3 = 𝐴1 ∩ 𝐴3 ∪ 𝐴2 ∩ 𝐴3 = ∅ ∪ ∅ = ∅
e poiché per l’assioma 3 (additività finita) si ha che π‘ƒπ‘Ÿ 𝐴 ∪ 𝐡 = π‘ƒπ‘Ÿ 𝐴 + π‘ƒπ‘Ÿ 𝐡 , potremo scrivere
π‘ƒπ‘Ÿ 𝐴1 ∪ 𝐴2 ∪ 𝐴3 = π‘ƒπ‘Ÿ 𝐴1 ∪ 𝐴2 + π‘ƒπ‘Ÿ 𝐴3 = π‘ƒπ‘Ÿ 𝐴1 + π‘ƒπ‘Ÿ 𝐴2 + π‘ƒπ‘Ÿ 𝐴2
Naturalmente, quanto mostrato con riferimento a tre sottoinsiemi è valido, in generale, per una qualunque
successione finita di eventi.
Teoria della probabilità
10/05/2016
Pagina 64
La teoria assiomatica della probabilità
Proprietà 4. Teorema delle probabilità totali
Il teorema delle probabilità totali generalizza la
misura della probabilità dell’evento unione al
caso di eventi compatibili, cioè caratterizzati da
un’intersezione non vuota.
Dati due sottoinsiemi di eventi 𝐴, 𝐡 ∈ β„‚ compatibili,
cioè tali che 𝐴 ∩ 𝐡 ≠ ∅, il teorema delle probabilità
totali le misure di probabilità dell’evento differenza
𝐡 − 𝐴 e dell’evento unione 𝐴 ∪ 𝐡 .
Per comprendere l’ambito di applicazione del
teorema delle probabilità totali, facciamo
riferimento al diagramma a fianco. Nel caso di
eventi compatibili non possiamo ottenere la
probabilità dell’evento unione semplicemente
sommando le singole probabilità dei sottoinsiemi,
applicando la relazione π‘ƒπ‘Ÿ 𝐴 ∪ 𝐡 = π‘ƒπ‘Ÿ 𝐴 + π‘ƒπ‘Ÿ 𝐡 ,
in quanto ci esporremmo all’errore logico del
«doppio conteggio» degli eventi appartenenti
all’intersezione 𝐴 ∩ 𝐡 .
Teoria della probabilità
10/05/2016
Pagina 65
La teoria assiomatica della probabilità
Il problema può essere aggirato esprimendo l’evento unione 𝐴 ∪ 𝐡 in termini di due sottoinsiemi
equivalenti, ma disgiunti, che ci consentano di applicare l’assioma 3. In primo luogo, osserviamo che il
sottoinsieme 𝐡 può essere espresso come l’evento unione
𝐡 = 𝐡−𝐴 ∪ 𝐴∩𝐡
Poiché 𝐡 − 𝐴 ∩ 𝐴 ∩ 𝐡 = ∅, in virtù dell’assioma 3 possiamo scrivere che
π‘ƒπ‘Ÿ 𝐡 = π‘ƒπ‘Ÿ 𝐡 − 𝐴 ∪ 𝐴 ∩ 𝐡
= π‘ƒπ‘Ÿ 𝐡 − 𝐴 + π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡
Poiché, una volta introdotta la misura di probabilità, siamo nel «territorio» dell’algebra, potremo quindi
scrivere che
π‘ƒπ‘Ÿ 𝐡 − 𝐴 = π‘ƒπ‘Ÿ 𝐡 − π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡
Quindi, un primo risultato del teorema delle probabilità totale riguarda la misura di probabilità
dell’evento differenza.
Teoria della probabilità
10/05/2016
Pagina 66
La teoria assiomatica della probabilità
Ben più importante tuttavia è l’implicazione diretta di tale risultato. Infatti, possiamo esprimere l’evento
unione 𝐴 ∪ 𝐡 come
𝐴∪𝐡 =𝐴∪ 𝐡−𝐴
Notare che 𝐴 e 𝐡 − 𝐴 sono eventi incompatibili, cioè tali che 𝐴 ∩ 𝐡 − 𝐴 = ∅, quindi possiamo applicare
l’assioma 3 e scrivere
π‘ƒπ‘Ÿ 𝐴 ∪ 𝐡 = π‘ƒπ‘Ÿ 𝐴 ∪ 𝐡 − 𝐴
= π‘ƒπ‘Ÿ 𝐴 + π‘ƒπ‘Ÿ 𝐡 − 𝐴
Avendo dimostrato in precedenza che
π‘ƒπ‘Ÿ 𝐡 − 𝐴 = π‘ƒπ‘Ÿ 𝐡 − π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡
combinando i due risultati otteniamo che
π‘ƒπ‘Ÿ 𝐴 ∪ 𝐡 = π‘ƒπ‘Ÿ 𝐴 + π‘ƒπ‘Ÿ 𝐡 − π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡
Questa relazione estende l’applicabilità dell’assioma 3 anche al caso più generale di unione di sottoinsiemi
di eventi compatibili.
Teoria della probabilità
10/05/2016
Pagina 67
La teoria assiomatica della probabilità
Esempio 8. Ipotizziamo di effettuare un esperimento di lancio di due dadi e di considerare lo spazio di
eventi 𝑆 = π‘ π‘œπ‘šπ‘šπ‘Ž 𝑑𝑒𝑖 𝑝𝑒𝑛𝑑𝑒𝑔𝑔𝑖 𝑑𝑒𝑖 𝑑𝑒𝑒 π‘‘π‘Žπ‘‘π‘–
La seguente tabella riporta la distribuzione di 𝑆 in termini di una tabella a doppia entrata, in cui i punteggi
ottenibili con il lancio del primo dado figurano in fiancata, quelli ottenibili con il lancio del secondo dado
sono riportati in testata, mentre nel quadro centrale figura la somma dei due punteggi:
Teoria della probabilità
10/05/2016
Pagina 68
La teoria assiomatica della probabilità
Definiamo i seguenti sottoinsiemi di eventi:
𝐴 = 𝑖𝑙 π‘Ÿπ‘–π‘ π‘’π‘™π‘‘π‘Žπ‘‘π‘œ 𝑑𝑒𝑙 π‘™π‘Žπ‘›π‘π‘–π‘œ 𝑑𝑒𝑙 π‘π‘Ÿπ‘–π‘šπ‘œ π‘‘π‘Žπ‘‘π‘œ è π‘π‘Žπ‘Ÿπ‘– π‘Ž 3
𝐡 = π‘™π‘Ž π‘ π‘œπ‘šπ‘šπ‘Ž 𝑑𝑒𝑖 𝑝𝑒𝑛𝑑𝑒𝑔𝑔𝑖 π‘œπ‘‘π‘‘π‘’π‘›π‘’π‘‘π‘– 𝑛𝑒𝑖 𝑑𝑒𝑒 π‘™π‘Žπ‘›π‘π‘– è π‘π‘Žπ‘Ÿπ‘– π‘Ž 7
Domandiamoci a quanto ammonta la probabilità dell’evento unione 𝐴 ∪ 𝐡 , cioè la probabilità che come
risultato dell’esperimento di lancio di due dadi si ottenga o πŸ‘ al primo lancio o πŸ• come somma dei
due lanci.
Intanto introduciamo qualche convenzione di notazione: indichiamo con 𝑠π‘₯𝑦 un generico punto dell’insieme
𝑆, individuato dai due numeri π‘₯ e 𝑦, dove π‘₯ è il punteggio ottenuto nel lancio del primo dado e 𝑦 è quello
relativo al lancio del secondo dado. Ad esempio, 𝑠12 rappresenta la somma dei due punteggi quando π‘₯ = 1
e 𝑦 = 2.
Da notare che i 36 eventi elementari appartenenti a 𝑆 sono equiprobabili, cioè tali che
π‘ƒπ‘Ÿ 𝑠π‘₯𝑦 =
#𝑠π‘₯𝑦
1
=
#𝑆
36
e necessari, nel senso che nello svolgimento dell’esperimento di lancio se ne dovrà osservare
necessariamente uno.
Teoria della probabilità
10/05/2016
Pagina 69
La teoria assiomatica della probabilità
Il sottoinsieme 𝐴 è composto dagli eventi elementari il cui criterio di appartenenza al sottoinsieme è dato
dal fatto di essere caratterizzati da un valore di π‘₯ = 3, cioè un punteggio ottenuto con il lancio del primo
dado pari a 3. In simboli:
𝐴 = 𝑠π‘₯𝑦 : π‘₯ = 3
= 𝑠31 , 𝑠32 , 𝑠33 , 𝑠34 , 𝑠35 , 𝑠36
Quindi 𝐴 ha cardinalità pari a 6 e la probabilità associata sarà pari a
π‘ƒπ‘Ÿ 𝐴 =
Teoria della probabilità
#𝐴
6
1
=
=
#𝑆 36 6
10/05/2016
Pagina 70
La teoria assiomatica della probabilità
Il sottoinsieme 𝐡 è composto dagli eventi elementari il cui criterio di appartenenza al sottoinsieme è dato
dal fatto che la somma dei punteggi ottenuti dal lancio dei due dadi è pari a 7
Osservando che gli eventi elementari appartenenti a 𝐡 sono dislocati lungo la diagonale secondaria del
quadro centrale della tabella a doppia entrata, potremo scrivere che
𝐡 = 𝑠π‘₯𝑦 : π‘₯ + 𝑦 = 7 = 𝑠16 , 𝑠25 , 𝑠34 , 𝑠43 , 𝑠52 , 𝑠61
Anche 𝐡 ha cardinalità pari a 6, quindi la probabilità associata sarà pari a
π‘ƒπ‘Ÿ 𝐡 =
Teoria della probabilità
#𝐡
6
1
=
=
#𝑆 36 6
10/05/2016
Pagina 71
La teoria assiomatica della probabilità
Domandiamoci adesso a quanto ammonta la probabilità di ottenere πŸ‘ come risultato del lancio del
primo dado o πŸ• come somma dei due punteggi.
Confrontando gli eventi elementari compresi nel sottoinsieme 𝐴 e quelli appartenenti a 𝐡, è agevole
verificare che l’intersezione 𝐴 ∩ 𝐡 ≠ ∅, in quanto 𝐴 ∩ 𝐡 = 𝑠34 , quindi i sottoinsiemi 𝐴 e 𝐡 sono
compatibili e ciò esclude l’applicabilità dell’assioma 3.
Quanto alla cardinalità dell’evento intersezione, essendo composto dall’unico punto 𝑠34 , la sua cardinalità
sarà pari all’unità e quindi potremo scrivere che
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡 =
# 𝐴∩𝐡
1
=
#𝑆
36
Ad ogni modo, in virtù del teorema delle probabilità totali, applicabile nel caso di unione fra sottoinsiemi
di eventi compatibili, sappiamo che
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡 = π‘ƒπ‘Ÿ 𝐴 + π‘ƒπ‘Ÿ 𝐡 − π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡
Nel problema esaminato risulterà quindi che
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡 =
Teoria della probabilità
1 1 1
11
+ −
=
6 6 36 36
10/05/2016
Pagina 72
La teoria assiomatica della probabilità
Con riferimento alla tabella a doppia entrata, la situazione può essere rappresentata nei termini seguenti:
Teoria della probabilità
10/05/2016
Pagina 73
La teoria assiomatica della probabilità
Generalizzazione. Data una famiglia di 𝑛 eventi
π΄π‘˜ ; π‘˜ = 1,2, … , 𝑛 a due a due compatibili, la
probabilità della loro unione è uguale alla somma
delle probabilità degli eventi, meno la somma
delle intersezioni tra coppie di eventi, più la
somma delle intersezioni tra triple di eventi, meno
la somma delle intersezioni tra quadruple di
eventi, e così via, per giungere alla probabilità
dell’intersezione della 𝑛 −upla di eventi, con
segno positivo se 𝑛 è dispari, negativo in caso
contrario.
Teoria della probabilità
10/05/2016
Pagina 74
La teoria assiomatica della probabilità
Proprietà 5. Probabilità in una relazione di
inclusione
È una proprietà relativamente banale e quindi ci
affidiamo soprattutto ad un ragionamento intuitivo.
Dati due sottoinsiemi 𝐴, 𝐡 ∈ Ω, ipotizziamo che fra i
due sottoinsiemi valga la seguente relazione di
inclusione:
𝐴⊆𝐡
Ricordando che 𝐴 ⊆ 𝐡 ⟺ ∀πœ” ∈ 𝐴, πœ” ∈ 𝐡, la
probabilità in una relazione di inclusione stabilisce
che
𝑠𝑒 𝐴 ⊆ 𝐡
⟹
π‘ƒπ‘Ÿ 𝐴 ≤ π‘ƒπ‘Ÿ 𝐡
Tale proposizione è ovvia, non appena
rappresentiamo la relazione tramite il diagramma di
Venn.
Teoria della probabilità
10/05/2016
Pagina 75
La teoria assiomatica della probabilità
Infatti, con riferimento al concetto di cardinalità dei due sottoinsiemi, appare ovvio che il sottoinsieme 𝐴
comprende eventi elementari che appartengono anche al sottoinsieme 𝐡, mentre in generale non vale la
relazione opposta, fatta eccezione per il caso in cui 𝐴 = 𝐡.
Poiché la cardinalità di 𝐴 è minore della cardinalità di 𝐡, ne discende che π‘ƒπ‘Ÿ 𝐴 ≤ π‘ƒπ‘Ÿ 𝐡 , con il segno di
uguaglianza che vale quando 𝐴 = 𝐡. Dimostriamo formalmente questo risultato.
Con riferimento al precedente diagramma, possiamo scrivere che
𝐡 =𝐴∪ 𝐡−𝐴
Poiché 𝐴 ∩ 𝐡 − 𝐴 = ∅, possiamo applicare l’assioma 3 e scrivere che
π‘ƒπ‘Ÿ 𝐡 = π‘ƒπ‘Ÿ 𝐴 + π‘ƒπ‘Ÿ 𝐡 − 𝐴 ≥ π‘ƒπ‘Ÿ 𝐴
Teoria della probabilità
10/05/2016
Pagina 76
La teoria assiomatica della probabilità
Proprietà 6. Probabilità condizionata
Ipotizziamo di effettuare un esperimento di estrazione in blocco di 2 palline da un’urna contenente 5
palline bianche e 5 nere. Naturalmente, questo esperimento non ha particolare interesse in sé, ma perché
concettualizza situazioni del mondo reale che sono caratterizzate da una complessità ben diversa.
Si ha estrazione bernoulliana o con ripetizione quando, in un esperimento di estrazione di 𝑛 unità da
un’urna probabilistica, le unità sono reimmesse nell’urna dopo la registrazione del risultato e possono
essere estratte nuovamente, per cui la composizione dell’urna non si modifica al susseguirsi delle prove.
Si ha viceversa estrazione in blocco o senza ripetizione, quando le unità estratte non sono reimmesse
nell’urna dopo la registrazione del risultato. Nel secondo caso, il manifestarsi di un certo risultato nello
svolgimento della prova 𝑖 −esima dipenderà dall’intera sequenza dei risultati che lo hanno preceduto.
Teoria della probabilità
10/05/2016
Pagina 77
La teoria assiomatica della probabilità
Ipotizziamo che alla prima estrazione si sia ottenuta una pallina di colore nero (evento 𝐡) e che
questa, conformemente allo schema di estrazione scelto, non sia reintrodotta nell’urna, alterando quindi
la composizione di quest’ultima. Ci domandiamo a quanto ammonta la probabilità di ottenere
nell’estrazione successiva una pallina bianca (evento 𝐴), essendosi verificato l’evento condizionante B
nella prima estrazione.
Con la composizione di partenza dell’urna la probabilità di estrarre nella prima prova una pallina
bianca sarebbe pari al rapporto tra il numero delle palline bianche e il totale delle palline contenute
nell’urna, cioè π‘ƒπ‘Ÿ 𝐴 = 0,5.
Notare che questa probabilità non cambierebbe, nelle estrazioni successive, se si adottasse uno
schema di estrazione con ripetizione, la cui principale caratteristica è quella di lasciare immutata la
composizione dell’urna dopo lo svolgimento di ciascuna delle prove.
Se viceversa si adotta uno schema di estrazione in blocco, la composizione dell’urna si altera ad
ogni successiva estrazione, influenzando i successivi risultati. Estratta nella prima prova una pallina
nera, infatti, la probabilità di ottenere nella seconda estrazione una pallina bianca sarà pari a 5 su 9, cioè
0,555.
L’implicazione più diretta di questo semplice esperimento è che il meccanismo di estrazione delle
palline dall’urna determina la relazione di dipendenza o l’indipendenza tra eventi.
Teoria della probabilità
10/05/2016
Pagina 78
La teoria assiomatica della probabilità
Tentiamo una prima formalizzazione del risultato appena ottenuto. Dati due eventi 𝐴, 𝐡 ∈ β„‚, si ipotizzi che
𝐡 ≠ ∅ e che non risulti vuota l’intersezione tra i due sottoinsiemi 𝐴 e 𝐡 𝐴 ∩ 𝐡 ≠ ∅. Ipotizziamo di essere
interessati all’evento condizionato 𝐴 𝑠𝑖 π‘£π‘’π‘Ÿπ‘–π‘“π‘–π‘π‘Ž π‘’π‘ π‘ π‘’π‘›π‘‘π‘œπ‘ π‘– π‘£π‘’π‘Ÿπ‘–π‘“π‘–π‘π‘Žπ‘‘π‘œ 𝐡 , evento che denoteremo come
𝐴|𝐡 .
Possiamo pensare all’evento condizionante 𝐡 come ad una partizione di eventi elementari Ω𝐡 ⊆ Ω. Tanto
per essere chiari, con riferimento all’esempio precedente, se siamo interessati all’estrazione di una
pallina bianca avendo estratto in precedenza una pallina nera, a noi non interessano tutte le
sequenze di estrazioni di due palline, ma soltanto quelle in cui otteniamo una pallina nera alla
prima estrazione: gli esiti dell’esperimento di estrazione in cui otteniamo una pallina nera alla prima
estrazione costituiscono una partizione di Ω e da questo momento in poi è a tale partizione che faremo
riferimento.
A partire dalla partizione Ω𝐡 , possiamo costruire una 𝜎 −algebra ℂ𝐡 : quali elementi conterrà ℂ𝐡 ?
Ricordando i principi esposti in precedenza, ℂ𝐡 dovrà contenere lo spazio campione (che in questo caso
coincide con la partizione Ω𝐡 ), la sua negazione ∅ e l’evento condizionato 𝐴|𝐡 ─ che a ben riflettere
coincide con l’intersezione 𝐴 ∩ 𝐡 , nel senso che l’evento condizionato 𝐴|𝐡 si verifica se e solo se si
manifesta un evento elementare presente nell’intersezione 𝐴 ∩ 𝐡 .
Teoria della probabilità
10/05/2016
Pagina 79
La teoria assiomatica della probabilità
Nel complesso avremo che
∅
ℂ𝐡 = 𝐴 ∩ 𝐡
Ω𝐡
Associamo ad ogni evento compreso in ℂ𝐡 una misura di probabilità
π‘ƒπ‘Ÿπ΅ : 𝐴|𝐡 → ℝ+
in cui Ω𝐡 assume la funzione di evento certo. Nella partizione Ω𝐡 l’evento 𝐴 ∩ 𝐡 non ha probabilità
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡 , ma una misura di probabilità π‘ƒπ‘Ÿπ΅ 𝐴 ∩ 𝐡 > π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡
Ricordando che vale l’identità 𝐴|𝐡 = 𝐴 ∩ 𝐡 , possiamo scrivere la seguente proporzione:
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡 : π‘ƒπ‘Ÿπ΅ 𝐴 ∩ 𝐡 = π‘ƒπ‘Ÿ Ω𝐡 : π‘ƒπ‘Ÿ Ω
=π‘ƒπ‘Ÿ 𝐴|𝐡
Teoria della probabilità
π‘ƒπ‘Ÿ 𝐡
10/05/2016
=1
Pagina 80
La teoria assiomatica della probabilità
Quindi
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡 : π‘ƒπ‘Ÿ 𝐴|𝐡 = π‘ƒπ‘Ÿ 𝐡 : 1
da cui è immediato scrivere che
π‘ƒπ‘Ÿ 𝐴|𝐡 =
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡
π‘ƒπ‘Ÿ 𝐡
Naturalmente, se si considera come evento condizionante 𝐴, vale anche il seguente risultato:
π‘ƒπ‘Ÿ 𝐡|𝐴 =
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡
π‘ƒπ‘Ÿ 𝐴
π‘ƒπ‘Ÿ 𝐴 ≠ 0
La principale conseguenza della proprietà appena illustrata è che se risolviamo le due precedenti relazioni
per π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡 , otteniamo la probabilità dell’evento intersezione:
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡 = π‘ƒπ‘Ÿ 𝐴 π‘ƒπ‘Ÿ 𝐡|𝐴 = π‘ƒπ‘Ÿ 𝐡 π‘ƒπ‘Ÿ 𝐴|𝐡
Tale relazione è definita principio o postulato della probabilità composta.
Teoria della probabilità
10/05/2016
Pagina 81
La teoria assiomatica della probabilità
Come dobbiamo considerare l’evento condizionato 𝐴|𝐡 ? L’evento 𝐴|𝐡 esprime una revisione nelle
aspettative dell’osservatore circa il manifestarsi di 𝑨, che in qualche modo risulta collegato al verificarsi
dell’evento condizionante 𝐡, al fine di tenere conto del cambiamento avvenuto nell’information set a
seguito del verificarsi di 𝑩.
Il verificarsi dell’evento 𝑩 potrebbe migliorare la conoscenza delle circostanze che determinano il
verificarsi dell’evento 𝑨, il che in precedenza ci ha consentito di affermare che π‘ƒπ‘Ÿπ΅ 𝐴 ∩ 𝐡 > π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡 .
Ma ciò non si verifica necessariamente. Può accadere che il manifestarsi di 𝑩 potrebbe non
rappresentare un’informazione rilevante per l’osservatore. È il caso dell’estrazione con ripetizione, in
cui π‘ƒπ‘Ÿ 𝐴|𝐡 = π‘ƒπ‘Ÿ 𝐴 , condizione che ci consente di affermare che l’evento 𝑨 è stocasticamente
indipendente dall’evento 𝑩.
Nel caso di indipendenza tra eventi, scriveremo quindi che
π‘ƒπ‘Ÿ 𝐴|𝐡 =
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡
= π‘ƒπ‘Ÿ 𝐴
π‘ƒπ‘Ÿ 𝐡
⟹ π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡 = π‘ƒπ‘Ÿ 𝐴 π‘ƒπ‘Ÿ 𝐡
In altri termini, nel caso di indipendenza tra eventi la probabilità dell’evento intersezione è data dal
prodotto delle probabilità associate ai singoli sottoinsiemi che formano l’intersezione
Teoria della probabilità
10/05/2016
Pagina 82
La teoria assiomatica della probabilità
Esempio 8. Ipotizziamo che in una scuola ci siano 80 studentesse e 120 studenti. I 2 5 delle studentesse
e 1 2 degli studenti portano gli occhiali. Se scegliamo 2 studenti in modo casuale fra tutti gli studenti della
scuola, a quanto ammonta la probabilità che
•
•
•
il primo studente scelto porti gli occhiali?
il primo studente scelto sia una ragazza, sapendo che porta gli occhiali?
il secondo studente scelto porti gli occhiali, sapendo che il primo non li porta?
In primo luogo, per visualizzare la situazione, è conveniente rappresentare la distribuzione degli studenti in
base ai caratteri «genere» e «indossa occhiali» in una tabella a doppia entrata:
Abbiamo già una certa familiarità
con questo tipo di rappresentazione,
in quanto l’abbiamo già incontrata in
analisi bivariata (si tratta di una
tabella tetracorica, ricordate?)
Teoria della probabilità
10/05/2016
Pagina 83
La teoria assiomatica della probabilità
Risolviamo il primo quesito: la probabilità che il primo studente scelto estraendolo casualmente dal
collettivo porti gli occhiali non è altro che il rapporto tra numero di studenti che portano gli occhiali (detto
altrimenti, la cardinalità del sottoinsieme degli studenti che portano gli occhiali) sulla numerosità
(cardinalità) del collettivo
Formalmente, se indichiamo con 𝐴 il sottoinsieme degli studenti che portano gli occhiali, allora la probabilità
che estraendo casualmente dal collettivo uno studente che porta gli occhiali sarà pari a
π‘ƒπ‘Ÿ 𝐴 =
Teoria della probabilità
#𝐴
92
=
= 0,46
𝑁
200
10/05/2016
Pagina 84
La teoria assiomatica della probabilità
Occupiamoci del secondo quesito: la probabilità che il primo studente scelto sia un’alunna, sapendo
che porta gli occhiali. Per noi il fatto di sapere che lo studente scelto casualmente porta gli occhiali
è un’informazione rilevante? In linea di massima sì, poiché se sappiamo che porta gli occhiali, non
siamo più interessati al collettivo nel suo complesso, ma concentriamo il nostro interesse sul sottoinsieme
di studenti che indossano occhiali, il che significa considerare solo la prima colonna del quadro centrale
(ciò che in precedenza abbiamo indicato come Ω𝐡 e che in questo caso dovremmo indicare come Ω𝐴 ).
Se 𝐡 è il sottoinsieme del collettivo di genere femminile, potremo fare riferimento alla nozione di evento
condizionato 𝐡|𝐴 e scrivere
π‘ƒπ‘Ÿ 𝐡|𝐴 =
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡
π‘ƒπ‘Ÿ 𝐴
Al numeratore del rapporto figura la probabilità dell’evento intersezione
𝐴 ∩ 𝐡 = π‘™π‘œ 𝑠𝑑𝑒𝑑𝑒𝑛𝑑𝑒 π‘π‘œπ‘Ÿπ‘‘π‘Ž 𝑔𝑙𝑖 π‘œπ‘π‘β„Žπ‘–π‘Žπ‘™π‘– 𝒆 è 𝑑𝑖 π‘”π‘’π‘›π‘’π‘Ÿπ‘’ π‘“π‘’π‘šπ‘šπ‘–π‘›π‘–π‘™π‘’
che ha cardinalità 32, mentre al numeratore del rapporto figura la probabilità dell’evento che uno studente
scelto casualmente indossi occhiali, sottoinsieme che ha cardinalità 92, per cui nel complesso si avrà
π‘ƒπ‘Ÿ 𝐡|𝐴 =
Teoria della probabilità
π‘ƒπ‘Ÿ 𝐴 ∩ 𝐡
32 200 32
=
=
≅ 0,348
π‘ƒπ‘Ÿ 𝐴
92 200 92
10/05/2016
Pagina 85
La teoria assiomatica della probabilità
In ultimo, la probabilità che il secondo studente estratto porti gli occhiali, sapendo che il primo non li porta,
può essere ricavata semplicemente osservando che, una volta estratto il primo studente e accertato che
non indossa occhiali, rimangono 199 studenti, di cui 92 portano occhiali e i 107 rimanenti (108 meno quello
già estratto) no, per cui
π‘ƒπ‘Ÿ 𝐡2 |¬π΅1 =
Teoria della probabilità
92
≅ 0,462
199
10/05/2016
Pagina 86
La teoria assiomatica della probabilità
Proprietà 7. Probabilità assoluta
È una diretta conseguenza e, in un certo senso, l’estensione della proprietà precedente ad un certo
numero 𝑛 di eventi condizionanti.
Sia data una partizione di Ω in 𝑛 sottoinsiemi 𝐹 = π΄π‘˜ : π‘˜ = 1,2, … , 𝑛 mutuamente esclusivi e necessari.
Se 𝐡 è un qualsiasi evento la cui manifestazione è condizionata al verificarsi dell’uno o l’altro degli eventi
condizionanti compresi in 𝐹, allora potremo scrivere che
π‘ƒπ‘Ÿ 𝐡 =
Teoria della probabilità
𝑛
π‘˜=1
π‘ƒπ‘Ÿ π΄π‘˜ ∩ 𝐡 =
𝑛
π‘˜=1
π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ 𝐡 π΄π‘˜
10/05/2016
Pagina 87
La teoria assiomatica della probabilità
Come abbiamo ottenuto la precedente relazione? Immaginiamo un qualche evento 𝐡, il cui verificarsi
può essere determinato dall’una o l’altra di un certo insieme di cause 𝐹 = π΄π‘˜ : π‘˜ = 1,2, … 𝑛 . In altri termini,
possiamo pensare a 𝐡 come ad un particolare evento unione, determinato dal verificarsi dell’uno o dell’altro
degli 𝑛 eventi intersezione π΄π‘˜ ∩ 𝐡 .
Potremo quindi scrivere che
𝑛
𝐡 = 𝐴1 ∩ 𝐡 ∪ 𝐴2 ∩ 𝐡 ∪ … ∪ 𝐴𝑛 ∩ 𝐡 =
π‘˜=1
π΄π‘˜ ∩ 𝐡
Essendo gli 𝑛 eventi π΄π‘˜ ∩ 𝐡 a due a due incompatibili, cioè tali che
∀𝑖, 𝑗
𝐴𝑖 ∩ 𝐡 ∩ 𝐴𝑗 ∩ 𝐡 = ∅
in virtù della proprietà 3 (additività in una successione finita di eventi) potremo scrivere che
π‘ƒπ‘Ÿ 𝐡 = π‘ƒπ‘Ÿ
Teoria della probabilità
𝑛
π‘˜=1
π΄π‘˜ ∩ 𝐡
=
𝑛
π‘ƒπ‘Ÿ π΄π‘˜ ∩ 𝐡
π‘˜=1
10/05/2016
Pagina 88
La teoria assiomatica della probabilità
Ricordando la proprietà 6 (probabilità di eventi condizionati), che definisce la misura di probabilità
dell’evento intersezione
π‘ƒπ‘Ÿ π΄π‘˜ ∩ 𝐡 = π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ 𝐡 π΄π‘˜
possiamo quindi scrivere che
π‘ƒπ‘Ÿ 𝐡 =
𝑛
π‘˜=1
π‘ƒπ‘Ÿ π΄π‘˜ ∩ 𝐡 =
𝑛
π‘˜=1
π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ 𝐡 π΄π‘˜
Questo risultato, che indichiamo come teorema delle probabilità assolute, riveste un ruolo fondamentale,
come vedremo, nella definizione della successiva proprietà.
Teoria della probabilità
10/05/2016
Pagina 89
La teoria assiomatica della probabilità
Esempio 9. Ipotizziamo che in una popolazione il 15% degli individui sia a rischio di contrarre una certa
patologia. Studi epidemiologici hanno stabilito che la probabilità di contrarre la malattia è pari a 0,2 (cioè al
20%) per i soggetti a rischio e pari a 0,06 (cioè al 6%) per i soggetti rimanenti.
Per chiarezza espositiva, potremmo pensare ai fumatori come soggetti a rischio, ai non fumatori come
soggetti non a rischio, e alla bronchite cronica come patologia, che ovviamente avrà una diversa incidenza
tra i soggetti caratterizzati o meno dal comportamento a rischio. Il nostro obiettivo è calcolare la probabilità
che un generico individuo appartenente alla popolazione contragga la malattia.
In primo luogo, la popolazione può essere suddivisa in due gruppi. Il primo, che indichiamo con 𝐴1 , è
rappresentato dagli individui che sono a rischio di contrarre la patologia, mentre il secondo, che indichiamo
con 𝐴2 , è rappresentato da coloro i quali non sono esposti a questo rischio. Poiché 𝐴1 ∪ 𝐴2 = Ω e 𝐴1 ∩
𝐴2 = ∅, i due sottoinsiemi rappresentano una partizione 𝐹 = 𝐴1 , 𝐴2 di Ω
La probabilità che un individuo estratto casualmente dalla popolazione appartenga al gruppo 𝐴1 è pari a
π‘ƒπ‘Ÿ 𝐴1 = 0,15, mentre la probabilità che appartenga al gruppo 𝐴2 è pari a π‘ƒπ‘Ÿ 𝐴2 = π‘ƒπ‘Ÿ ¬π΄1 e quindi,
ricordando la proprietà 1 (probabilità dell’evento negazione), sarà pari a π‘ƒπ‘Ÿ 𝐴2 = 1 − π‘ƒπ‘Ÿ 𝐴1 = 1 − 0,15 =
0,85.
Teoria della probabilità
10/05/2016
Pagina 90
La teoria assiomatica della probabilità
La probabilità di contrarre la patologia, essendo il soggetto caratterizzato dal comportamento a
rischio, è un particolare evento condizionato 𝐡 𝐴1 , la cui probabilità, come evidenzia lo studio
epidemiologico, è pari a 0,2 e quindi risulterà π‘ƒπ‘Ÿ 𝐡 𝐴1 = 0,2. Lo stesso studio afferma che la stessa
probabilità, per un individuo appartenente all’altro sottogruppo, è pari a 0,06, per cui potremo scrivere che
π‘ƒπ‘Ÿ 𝐡 𝐴2 = 0,06.
Con questi elementi, in virtù del teorema delle probabilità condizionate, la probabilità che un individuo
sia a rischio E contragga la patologia sarà pari a
π‘ƒπ‘Ÿ 𝐴1 ∩ 𝐡 = π‘ƒπ‘Ÿ 𝐴1 π‘ƒπ‘Ÿ 𝐡 𝐴1 = 0,15 × 0,2 = 0,03
Analogamente, la probabilità che un individuo non sia a rischio E contragga la patologia è data da
π‘ƒπ‘Ÿ 𝐴2 ∩ 𝐡 = π‘ƒπ‘Ÿ 𝐴2 π‘ƒπ‘Ÿ 𝐡 𝐴2 = 0,85 × 0,06 = 0,051
In generale, poiché i due eventi π‘¨πŸ ∩ 𝑩 e π‘¨πŸ ∩ 𝑩 sono disgiunti, nel senso che un individuo
appartenente al gruppo a rischio non appartiene all’altro gruppo, la probabilità che un individuo
appartenente alla popolazione nel complesso contragga la patologia, 𝑷𝒓 𝑩 , sarà data dalla somma
delle due probabilità definite sopra:
π‘ƒπ‘Ÿ 𝐡 =
Teoria della probabilità
2
π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ 𝐡 π΄π‘˜ = 0,03 + 0,051 = 0,081
π‘˜=1
10/05/2016
Pagina 91
La teoria assiomatica della probabilità
Osservando che i due eventi (rischio e patologia) sono dicotomici, è interessante rappresentare la
situazione tramite una tabella tetracorica. Possiamo compilare il seguente schema:
Tabe lla 1 - Rappresentazione della distribuzione
di probabilità congiunta dell'Esercizio 9
Patologia
Comportamento
π‘ƒπ‘Ÿ 𝐴 π‘˜
Contrae
Non contrae
A rischio
Non a rischio
0,030
0,051
0,120
0,799
0,150
0,850
π‘ƒπ‘Ÿ 𝐡
0,081
0,919
1,000
La lettura delle informazioni riportate nella tabella 1 è agevole: nel quadro centrale figurano le probabilità
degli eventi intersezione, definite sulla base del teorema delle probabilità condizionate. Nel caso in
cui tra comportamento e patologia non sussistessero relazioni, allora avremmo che
π‘ƒπ‘Ÿ π΄π‘˜ ∩ 𝐡 = π‘ƒπ‘Ÿ π΄π‘˜ βˆ™ π‘ƒπ‘Ÿ 𝐡
cioè la probabilità dell’intersezione sarebbe determinata dal prodotto delle singole probabilità degli eventi.
Vi ricorda qualcosa?
Teoria della probabilità
10/05/2016
Pagina 92
La teoria assiomatica della probabilità
Proprietà 8. Teorema di Bayes o sulla probabilità delle cause
Formulato da Thomas Bayes (1702-1761) nel 1774, anche se pubblicato postumo due anni dopo la sua
morte in Essays towards solving a problem in the doctrine of chances, e da Laplace, che forse non
era al corrente del lavoro di Bayes, è alla base di innumerevoli applicazioni pratiche e di un particolare
approccio statistico, detto appunto bayesiano.
Il teorema di Bayes, come sarà immediatamente chiaro, è una diretta conseguenza della proprietà 7
sulla probabilità assoluta. Enunciamo il teorema:
Sia data una partizione di Ω in 𝑛 sottoinsiemi 𝐹 = π΄π‘˜ : π‘˜ = 1,2, … , 𝑛 esaustivi e mutuamente
esclusivi. Sia inoltre 𝐡 un qualsiasi evento la cui manifestazione è condizionata al verificarsi dell’uno o
dell’altro degli eventi compresi nella partizione 𝐹. Allora, verificatosi l’evento 𝐡, la probabilità che π΄π‘˜ sia
la causa che ha determinato il manifestarsi di 𝐡 è data dal seguente rapporto:
π‘ƒπ‘Ÿ π΄π‘˜ 𝐡 =
Teoria della probabilità
π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ 𝐡
𝑛
π‘˜=1 π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ
π΄π‘˜
𝐡 π΄π‘˜
10/05/2016
Pagina 93
La teoria assiomatica della probabilità
Dimostrazione. Dalla Proprietà 6 e, in particolare, dalla definizione di probabilità condizionata, sappiamo
che
π‘ƒπ‘Ÿ π΄π‘˜ 𝐡 =
π‘ƒπ‘Ÿ π΄π‘˜ ∩ 𝐡
π‘ƒπ‘Ÿ 𝐡
Applicando al numeratore del rapporto il principio della probabilità composta, possiamo scrivere che
π‘ƒπ‘Ÿ π΄π‘˜ ∩ 𝐡 = π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ 𝐡 π΄π‘˜
Infine, possiamo applicare al denominatore del rapporto la definizione di probabilità assoluta (Proprietà
7):
π‘ƒπ‘Ÿ 𝐡 =
𝑛
π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ 𝐡 π΄π‘˜
π‘˜=1
Combinando i due risultati, potremo quindi scrivere che
π‘ƒπ‘Ÿ π΄π‘˜ 𝐡 =
Teoria della probabilità
π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ 𝐡
𝑛
π‘˜=1 π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ
π΄π‘˜
= π‘ƒπ‘Ÿ π΄π‘˜ βˆ™ 𝛾
𝐡 π΄π‘˜
10/05/2016
Pagina 94
La teoria assiomatica della probabilità
Dove
𝛾=
π‘ƒπ‘Ÿ 𝐡 π΄π‘˜
π΄π‘˜ π‘ƒπ‘Ÿ 𝐡 π΄π‘˜
𝑛
π‘˜=1 π‘ƒπ‘Ÿ
L’interpretazione del teorema è particolarmente densa di implicazioni. Consideriamo un esperimento
articolato in un’unica prova, durante la quale può avvenire uno e uno solo tra 𝑛 eventi compresi in una
partizione 𝐹 = π΄π‘˜ : π‘˜ = 1,2, … , 𝑛 e che, verificatosi il generico evento π΄π‘˜ con probabilità π‘ƒπ‘Ÿ π΄π‘˜ , si
manifesti un certo evento 𝐡 π΄π‘˜ con probabilità π‘ƒπ‘Ÿ 𝐡 π΄π‘˜ . Il teorema di Bayes consente di risalire alla
probabilità 𝑷𝒓 π‘¨π’Œ 𝑩 che, essendosi verificato 𝑩, tale evento sia stato determinato dall’evento π‘¨π’Œ ,
motivo per cui è indicato come teorema sulla probabilità delle cause.
Da notare che:
•
•
La probabilità π‘ƒπ‘Ÿ π΄π‘˜ è una probabilità a priori assegnata dall’osservatore;
La probabilità π‘ƒπ‘Ÿ π΄π‘˜ 𝐡 è una probabilità a posteriori, in quanto assegnata dopo il verificarsi
dell’evento 𝑩.
Teoria della probabilità
10/05/2016
Pagina 95
La teoria assiomatica della probabilità
La distinzione tra probabilità a priori e probabilità a posteriori è essenziale per la corretta
comprensione del teorema.
Nelle parole di Henri Poincaré( 1 ) infatti, “... questi problemi sono classificati come probabilità delle cause e
sono i più importanti di tutti per le loro applicazioni scientifiche [...] Un effetto potrebbe essere prodotto
dalla causa a o dalla causa b. L'effetto è appena stato osservato. Ci domandiamo la probabilità che sia
dovuto alla causa a. Questa è una probabilità di causa a posteriori. Ma non la potrei calcolare, se
una convenzione più o meno giustificata non mi dicesse in anticipo qual è la probabilità a priori
che la causa a entri in gioco”.
( 1 ) Henri Poincaré (1854 –1912), matematico, fisico, astronomo e filosofo della scienza, è stato candidato
12 volte al premio Nobel in fisica. È noto per una serie di risultati nettamente in anticipo sui tempi, quali
la scoperta dell’attrattore strano che è alla base della teoria del caos e la formulazione della teoria
della relatività ristretta.
Teoria della probabilità
10/05/2016
Pagina 96
La teoria assiomatica della probabilità
Esempio 10. Ipotizziamo che 10 anni fa nel mercato automobilistico fossero presenti i costruttori 𝐴1 , 𝐴2 e
𝐴3 , le cui quote di mercato ammontavano rispettivamente al 70, al 25 e al 5 per cento del totale. Dopo 10
anni sono ancora funzionanti il 6% delle auto della marca 𝐴1 , il 22% di quelle della marca 𝐴2 e il 75% di
quelle della marca 𝐴3 . Un nostro amico possiede un'automobile funzionante acquistata 10 anni fa. Qual è
la probabilità che sia della marca 𝐴1 ?
Per avere ben chiari gli elementi del problema, costruiamo la seguente tabella a doppia entrata:
Tabe lla 2 - Rappresentazione della distribuzione
di probabilità congiunta dell'Esercizio 10
Stato dopo 10 anni
Marca
Teoria della probabilità
π‘ƒπ‘Ÿ 𝐴 π‘˜
Funziona
Non funziona
A1
0,0420
0,6580
0,7000
A2
0,0550
0,1950
0,2500
A3
0,0375
0,0125
0,0500
π‘ƒπ‘Ÿ 𝐡
0,1345
0,8655
1,0000
10/05/2016
Pagina 97
La teoria assiomatica della probabilità
Applichiamo il teorema di Bayes:
π‘ƒπ‘Ÿ 𝐴1 𝐡 =
π‘ƒπ‘Ÿ 𝐴1 π‘ƒπ‘Ÿ 𝐡
3
π‘˜=1 π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ
𝐴1
0,0420
=
= 0,3123
0,1345
𝐡 π΄π‘˜
Quindi la probabilità che un automobile funzionante con 10 anni di vita sia della marca 𝐴1 è pari a circa il
31,23%.
Teoria della probabilità
10/05/2016
Pagina 98
La teoria assiomatica della probabilità
Naturalmente, questo è un modo estremamente semplificato di applicare il teorema di Bayes. Ben
più interessante è l’interpretazione adottata da una particolare scuola statistica, definita appunto bayesiana.
Visto attraverso lenti bayesiane, il teorema fornisce una rappresentazione formalizzata del processo
attraverso il quale un osservatore esprime un grado di fiducia su una congettura relativa un certo
fenomeno aleatorio d’interesse π‘¨π’Œ e ne verifica empiricamente la validità tramite un esperimento.
L’esperimento incrementa l’information set dell’osservatore, determinando l’aumento o la
diminuzione del grado di fiducia sulla congettura iniziale. Naturalmente, fondandosi su una
valutazione soggettiva del grado di fiducia, l’interpretazione bayesiana non è completamente riconducibile
al principio di induzione.
Teoria della probabilità
10/05/2016
Pagina 99
La teoria assiomatica della probabilità
L’interpretazione bayesiana. Ipotizziamo che un osservatore formuli una congettura su π‘¨π’Œ . Non
sempre il generico evento π‘¨π’Œ risulta osservabile. Quindi la misura 𝑷𝒓 π‘¨π’Œ è una probabilità a priori
attraverso cui l’osservatore assegna soggettivamente un grado di fiducia alla congettura su π΄π‘˜ prima di
verificarne la validità.
La verifica empirica si svolge tramite un esperimento, il cui scopo è quello di costituire un
information set sull’evento π‘¨π’Œ . Poiché π‘¨π’Œ non è osservabile, la costruzione dell’information set si
baserà su un evento osservabile 𝑩, in qualche modo collegato ad π‘¨π’Œ . Condotto l’esperimento,
l’osservatore assegnerà alla congettura un nuovo grado di fiducia π‘ƒπ‘Ÿ π΄π‘˜ 𝐡 , configurato come probabilità
a posteriori, in quanto ottenuto combinando la probabilità a priori π‘ƒπ‘Ÿ π΄π‘˜ con le evidenze derivanti dalle
verifiche svolte.
Nella relazione definitoria del teorema, il rapporto
𝛾=
π‘ƒπ‘Ÿ 𝐡 π΄π‘˜
π΄π‘˜ π‘ƒπ‘Ÿ 𝐡 π΄π‘˜
𝑛
π‘˜=1 π‘ƒπ‘Ÿ
è un fattore di scala che misura l’impatto derivante dall’osservazione dell’evento 𝐡 sulla probabilità a priori
π‘ƒπ‘Ÿ π΄π‘˜ . Al numeratore del rapporto figura la verosimiglianza, un concetto che svolge un ruolo chiave
nell’inferenza statistica, mentre al denominatore figura la probabilità marginale, cioè la probabilità di
osservare 𝐡 a seguito del manifestarsi dell’una o dell’altra delle cause π΄π‘˜ .
Teoria della probabilità
10/05/2016
Pagina 100
La teoria assiomatica della probabilità
È importante notare che in generale
π‘ƒπ‘Ÿ π΄π‘˜ 𝐡 ≤ 1
Questo implica che nella relazione definitoria della π‘ƒπ‘Ÿ π΄π‘˜ 𝐡
π‘ƒπ‘Ÿ π΄π‘˜ 𝐡 =
π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ 𝐡
𝑛
π‘˜=1 π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ
π΄π‘˜
𝐡 π΄π‘˜
il numeratore deve risultare sempre inferiore o al limite uguale al denominatore, il che è ovvio in quanto il
denominatore del rapporto, come è possibile verificare con riferimento alla tabella 2, non è altro che il totale
colonna della distribuzione delle probabilità congiunte.
Teoria della probabilità
10/05/2016
Pagina 101
La teoria assiomatica della probabilità
Formalmente, ricordando che
•
•
π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ 𝐡 π΄π‘˜ = π‘ƒπ‘Ÿ π΄π‘˜ ∩ 𝐡
𝑛
π‘˜=1 π‘ƒπ‘Ÿ π΄π‘˜ π‘ƒπ‘Ÿ 𝐡 π΄π‘˜ = π‘ƒπ‘Ÿ 𝐡
la condizione può essere scritta come
π‘ƒπ‘Ÿ π΄π‘˜ ∩ 𝐡 ≤ π‘ƒπ‘Ÿ 𝐡
Nella precedente disuguaglianza, il segno di uguaglianza, ricordando il teorema delle probabilità
condizionate, vale quando 𝑷𝒓 𝑩 π‘¨π’Œ = 𝟏, cioè quando al manifestarsi della causa π‘¨π’Œ , 𝑩 si verifica
sempre.
In qualunque altro caso la probabilità a posteriori π‘ƒπ‘Ÿ π΄π‘˜ 𝐡 assumerà valori strettamente inferiori all’unità.
Teoria della probabilità
10/05/2016
Pagina 102
Scarica