Appunti di Teoria della Probabilità
Università degli Studi di Bari
Corso di Laurea in Scienze Statistiche
A.A. 2011/2012
Alessio Pollice
2
Capitolo 1
Eventi e probabilità
1.1
Premessa
• Etimologia e significato letterale
probabile agg. 1. Di quanto si ammette in base a motivi seri o attendibili ma non certi
(...)
probabilità s.f. 1. Attendibilità confortata da motivi ragionevoli (...) com. la misura
in cui un evento si ritiene probabile (...) 2. In ambito filosofico o teologico, il carattere
distintivo dell’opinione, in quanto questa può essere sostenuta con ragioni tali che non
escludono la ‘possibilità del contrario’.
[G. Devoto, G.C. Oli, Il Dizionario della Lingua Italiana]
• In una prima grossolana definizione la teoria della probabilità può essere individuata come la
base per la rappresentazione di situazioni nelle quali sia necessario effettuare delle scelte o prendere
delle decisioni in condizioni di incertezza.
• Perché un corso di teoria della probabilità nel CdL in SSE.
Malgrado l’importanza e il crescente interesse nei metodi della statistica descrittiva,
questa branca della disciplina costituisce oggi solo una parte, relativamente modesta, della
moderna metodologia statistica. Lo sviluppo più cospicuo si è avuto nel campo della
cosiddetta statistica inferenziale o induttiva. Questa parte della statistica accoglie quelle
metodologie che si occupano di indicare come trarre conclusioni (o inferenze) circa gli
aspetti non noti dei fenomeni sulla base di limitate informazioni; conclusioni di solito
necessarie all’assunzione di decisioni.
Tuttavia, per affrontare la problematica inferenziale sono essenziali i concetti e le tecniche sviluppati da un altro settore disciplinare, quello della teoria della probabilità. Infatti
la risoluzione di problemi inerenti la inferenza (statistica) presuppone la valutazione delle
probabilità con cui certi eventi possono manifestarsi; e tali valutazioni rivestono e giocano
un ruolo tanto importante nelle conclusioni che la stessa statistica, in certa misura, può
essere riguardata come l’area applicativa della teoria della probabilità.
[D.M. Cifarelli, 1998]
3
4
A. Pollice - Appunti di Probabilità
1.2
Eventi e loro rappresentazione matematica
Le situazioni alle quali è possibile applicare il ragionamento probabilistico vengono denominate eventi
(aleatori): la probabilità è un numero associato ad un evento (risultante dall’osservazione di un esperimento) che può o meno verificarsi.
Esempio 1.1 Lancio una moneta (simmetrica) ed ottengo testa;
Esempio 1.2 Lancio due volte una moneta (simmetrica) e ottengo testa al primo lancio e croce al
secondo;
Esempio 1.3 Lancio un dado (non truccato) e ottengo 5 o 6;
Esempio 1.4 Estraggo (a caso) una carta da un mazzo di carte francesi e ottengo una carta di picche;
Esempio 1.5 Scelgo (a caso) un numero reale nell’intervallo [0, 1] e ottengo un numero inferiore a 0.3;
Esempio 1.6 Scelgo (a caso) un punto all’interno di un quadrato con vertici opposti nei punti di
coordinate (−1, −1) e (1, 1) e ottengo un punto la somma delle cui coordinate è inferiore all’unità.
Dagli esempi precedenti risulta che alla base della individuazione di un evento vi è una ben definita
prova o esperimento casuale (rispettivamente il lancio della moneta, il lancio del dado, l’estrazione della
carta e così via).
Definizione 1.1 L’insieme di tutti i possibili risultati di un esperimento casuale è detto spazio dei risultati
(o spazio campionario) e viene generalmente indicato con la lettera greca Ω.
Esempio 1.1 (cnt) Nel caso del lancio di una moneta lo spazio dei risultati è dato da Ω = {T, C}.
Esempio 1.2 (cnt) Nel caso di due lanci della stessa moneta (ovvero di un lancio di due monete
distinte) lo spazio dei risultati è dato da
Ω = {(T, T ) , (T, C) , (C, T ) , (C, C)}
Cap.1: Eventi e probabilità
5
Esempio 1.3 (cnt) Nel caso del lancio di un dado lo spazio dei risultati è dato da Ω = {1, 2, 3, 4, 5, 6}.
Esempio 1.4 (cnt) Nel caso dell’estrazione di una carta da un mazzo di carte francesi lo spazio dei
risultati Ω è dato dall’insieme che ha per elementi tutte le 52 carte del mazzo.
Esempio 1.5 (cnt) Nel caso della scelta di un numero reale nell’intervallo [0, 1] lo spazio dei risultati
Ω corrisponde all’insieme di tutti i punti dell’intervallo. Il numero di elementi di tale insieme è infinito.
Esempio 1.6 (cnt) Nel caso della scelta di un punto all’interno del quadrato lo spazio dei risultati Ω
corrisponde all’insieme di tutti i punti del quadrato. Anche in questo caso il numero di elementi dello
spazio dei risultati è infinito.
Definizione 1.2 Gli elementi di Ω corrispondenti ai possibili risultati dell’esperimento casuale sono detti
eventi elementari e vengono indicati con ϖ1 , ϖ2 , . . .. Se detti elementi sono in numero finito o un’infinità
numerabile, allora ogni sottoinsieme di Ω (ovvero ogni insieme di eventi elementari) è un evento.
Esempio 1.3 (cnt) L’evento “esce 5 o 6” corrisponde all’insieme che ha per elementi i due eventi
elementari “esce 5” ed “esce 6”.
Esempio 1.4 (cnt) L’evento “esce una carta di picche” è dato dall’insieme composto dai 13 eventi
elementari corrispondenti all’estrazione delle carte di picche presenti nel mazzo di carte francesi.
Definizione 1.3 Si dice che il generico evento A riferito allo spazio dei risultati Ω si è verificato (oppure
che esso è vero) quando l’esperimento casuale produce un risultato (elementare) ϖ che implica A, ovvero
quando ϖ ∈ A.
Esempio 1.3 (cnt) L’evento “esce 5 o 6” è vero quando lo è uno dei due eventi elementari “esce 5” ed
“esce 6”.
Esempio 1.4 (cnt) L’evento “esce una carta di picche” si verifica quando è vero uno dei 13 eventi
elementari relativi alle carte di picche.
Definizione 1.4 Si definisce spazio o classe degli eventi e si indica con F l’insieme di tutti gli eventi
associati a un certo esperimento casuale (da non confondere con lo spazio dei risultati che è l’insieme dei
soli eventi elementari).
6
A. Pollice - Appunti di Probabilità
Nel caso di un numero finito o un’infinità numerabile di elementi di Ω, lo spazio degli eventi F corrisponde
all’insieme delle parti (o insieme di potenza) dello spazio dei risultati. Infine nel caso in cui la numerosità
di Ω sia finita e pari ad n lo spazio degli eventi F è formato da un numero di elementi (sottoinsiemi di Ω)
pari a
( ) ( )
( ) ∑
n ( )
n
n
n
n
+
+ ··· +
=
= (1 + 1)n = 2n
(1.1)
0
1
n
i
i=0
Esempio 1.2 (cnt) Lancio di 2 monete distinte:
Spazio dei risultati: Ω = {(T, T ) , (T, C) , (C, T ) , (C, C)};
Esempio di evento: Ai = {“esce i volte testa”} i = 0, 1, 2;
Tutti i possibili 24 = 16 sottoinsiemi di Ω sono eventi e formano lo spazio degli eventi F.
Esempio 1.3 (cnt) Lancio di un dado:
Eventi elementari: ϖi = {“esce la faccia i”} i = 1, . . . , 6;
Spazio dei risultati: Ω = {1, 2, 3, 4, 5, 6};
Esempio di evento: A = {“esce un numero pari”} = {2, 4, 6};
Lo spazio degli eventi F è formato da 26 = 64 eventi corrispondenti a tutti i possibili sottoinsiemi di Ω.
Esempio 1.7 Conteggio del numero di nascite verificatesi in Italia nel 1999:
Eventi elementari: ϖi = {“esattamente i nascite”} i = 0, 1, 2, . . .;
Spazio dei risultati: Ω = {0, 1, 2, 3, . . .};
Esempio di evento: A = {“meno di 500 nascite”} = {0, 1, . . . , 499} ;
Lo spazio dei risultati Ω è un’infinità numerabile così come lo spazio degli eventi F.
Esempio 1.8 Conteggio del numero di piogge e misura del livello complessivo di piovosità:
Evento elementare: ϖ = (7, 46.5);
Spazio dei risultati: Ω = {(i, x) ; i = 0, 1, 2, . . . , x ≥ 0}
i = “numero delle piogge”
x = “precipitazione totale in cm”;
Esempio di evento: A = {(i, x) ; i = 5, . . . , 10, x ≥ 30};
I possibili sottoinsiemi dello spazio Ω sono un’infinità (non numerabile), pertanto non tutti sono eventi.
A questo punto dovrebbe essere chiaro che l’algebra degli insiemi costituisce un presupposto fondamentale per lo sviluppo della teoria della probabilità.
1.3
Algebra degli insiemi e logica degli eventi
L’evento Ω corrispondente all’intero spazio dei risultati dell’esperimento casuale è assimilabile all’insieme
totale o universo. Tale evento si verifica certamente (infatti certamente l’esperimento terminerà con un
elemento di Ω) e viene chiamato evento certo.
Definizione 1.5 Il complementare o la negazione Ā di un insieme A è l’insieme di tutti i punti dell’universo che non appartengono ad A.
Cap.1: Eventi e probabilità
7
Conseguentemente l’evento Ā è costituito da tutti gli eventi elementari ϖ di Ω che non appartengono ad A,
ovvero dagli elementi di F diversi da A. Quindi , dato un evento A = {ϖ ∈ Ω : ϖ ∈ A} la sua negazione
Ā = {ϖ ∈ Ω : ϖ ∈
/ A} è l’evento che si verifica se e solo se non si verifica A. Si noti che vale la seguente
proprietà: Ā = A.
Esempio 1.9 Si determini il complementare Ā dell’insieme A rispetto allo spazio F:
1. F = {x; 0 < x < 1}
{
}
A = x; 58 ≤ x < 1
{
}
Ā = x; 0 < x < 58 ;
{
}
2. F = (x, y, z) ; x2 + y 2 + z 2 ≤ 1
{
}
A = (x, y, z) ; x2 + y 2 + z 2 = 1
Ā è l’insieme dei punti interni ad un sfera di raggio 1 e centro nell’origine di un riferimento
cartesiano tridimensionale;
{
}
3. F = (x, y) ; x2 + y 2 ≤ 1
A = {(x, y) ;
|x| + |y| < 1}
Ā è l’insieme dei punti compresi tra il cerchio di raggio unitario e centro nell’origine ed un quadrato
di vertici opposti (0, −1) e (0, 1) (l’insieme contiene i suoi punti di frontiera).
Definizione 1.6 Il complementare di Ω è l’insieme vuoto ∅ anche detto evento impossibile.
Definizione 1.7 L’ unione A ∪ B di due insiemi A e B è l’insieme costituito dai punti appartenenti ad
uno dei due insiemi o a entrambi; l’evento A ∪ B si verifica dunque quando si verificano A, B o entrambi.
Si noti che l’unione gode delle seguenti proprietà:
A∪B = B∪A
A∪A = A
A∪∅ = A
(1.2)
A∪Ω = Ω
A ∪ Ā = Ω
Definizione 1.8 L’ intersezione A ∩ B di due insiemi A e B è l’insieme costituito dai punti comuni ad
entrambi gli insiemi; l’evento A ∩ B si verifica dunque quando si verificano sia A che B.
Si noti che l’intersezione gode delle seguenti proprietà:
A∩B = B∩A
A∩A = A
A∩∅ = ∅
(1.3)
A∩Ω = A
A ∩ Ā = ∅
Definizione 1.9 Due eventi A e B si dicono incompatibili se la loro intersezione è l’evento impossibile
A ∩ B = ∅, cioé se è impossibile che si verifichino entrambi.
8
A. Pollice - Appunti di Probabilità
Teorema 1.1 Leggi associative:
A ∪ (B ∪ C) = (A ∪ B) ∪ C
A ∩ (B ∩ C) = (A ∩ B) ∩ C
Teorema 1.2 Leggi distributive:
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Esempio 1.10 Siano A, B e C tre eventi appartenenti alla stessa famiglia F. Tramite le operazioni
logiche di unione, intersezione e negazione si determinino le espressioni per i seguenti eventi:
1. “solo A si verifica”= A ∩ B ∩ C;
2. “A e C si verificano, ma non B”= A ∩ B ∩ C;
3. “tutti e tre gli eventi si verificano”= A ∩ B ∩ C;
4. “nessuno dei tre eventi si verifica”= A ∩ B ∩ C;
(
) (
) (
)
5. “due dei tre eventi si verificano”= A ∩ B ∩ C ∪ A ∩ B ∩ C ∪ A ∩ B ∩ C ;
(
) (
) (
)
6. “almeno due dei tre eventi si verificano”= A ∩ B ∩ C ∪ A ∩ B ∩ C ∪ A ∩ B ∩ C ∪(A ∩ B ∩ C);
(
) (
) (
) (
)
7. “almeno
uno) dei( tre eventi si
(
) verifica”= A ∩ B ∩ C ∪ A ∩ B ∩ C ∪ A ∩ B ∩ C ∪ A ∩ B ∩ C ∪
A ∩ B ∩ C ∪ A ∩ B ∩ C ∪ (A ∩ B ∩ C) = A ∪ B ∪ C;
(
) (
) (
) (
)
8. “al più uno dei tre eventi si verifica”= A ∩ B ∩ C ∪ A ∩ B ∩ C ∪ A ∩ B ∩ C ∪ A ∩ B ∩ C ;
(
) (
) (
) (
)
9. (“al più due dei
A) ∩ B ∩ C ∪ A ∩ B ∩ C ∪ A ∩ B ∩ C ∪ A ∩ B ∩ C ∪
) tre
( eventi si )verificano”=
(
A∩B∩C ∪ A∩B∩C ∪ A∩B∩C .
Definizione 1.10 Si dice che l’insieme A è contenuto in o sottoinsieme di B e si indica A ⊂ B se ogni
elemento di A è anche elemento di B.
In tal caso se il risultato dell’esperimento casuale appartiene ad A appartiene anche a B, quindi A ⊂ B
equivale a dire che ogni volta che si verifica A si verifica anche B, ovvero che l’evento A implica B. Si noti
che se A ⊂ B valgono le seguenti proprietà:
A∪B =B
A∩B =A
Definizione 1.11 In generale l’unione
A1 ∪ A2 ∪ . . . ∪ An =
n
∪
Ai
(1.4)
i=1
è l’evento che si verifica quando si verifica almeno uno degli eventi Ai per i = 1, . . . , n.
Definizione 1.12 In generale l’intersezione
A1 ∩ A2 ∩ . . . ∩ An =
n
∩
Ai
i=1
è l’evento che si verifica quando si verificano tutti gli eventi Ai per i = 1, . . . , n.
(1.5)
Cap.1: Eventi e probabilità
9
Teorema 1.3 Legge di de Morgan dell’unione
n
∪
n
∩
Ai =
i=1
Ai
(1.6)
Ai
(1.7)
i=1
Teorema 1.4 Legge di de Morgan dell’intersezione
n
∩
n
∪
Ai =
i=1
i=1
Definizione 1.13 Un insieme indicizzato di eventi {Ai ; i = 1, 2, . . .} è detto successione.
Definizione 1.14 Il limite inferiore di una successione di eventi è definito da:
lim inf Ai = lim
i→∞
i→∞
∞
∩
Ah =
∞ ∩
∞
∪
Ah
(1.8)
i=1 h=i
h=i
∩
Il limite inferiore lim inf i→∞ Ai è dato dall’unione degli eventi ∞
h=i Ah e consiste pertanto nel verificarsi
di almeno uno di tali eventi. Ciò equivale a dire che l’evento lim inf i→∞ Ai si verifica se esiste un valore di
i per il quale si verificano tutti gli eventi Ai , Ai+1 , Ai+2 , . . .. In altri termini lim inf i→∞ Ai è l’evento che si
verifica se e solo se si verificano tutti gli eventi della successione tranne al più un numero finito di essi.
Definizione 1.15 Il limite superiore di una successione di eventi è definito da:
lim sup Ai = lim
i→∞
i→∞
∞
∪
Ah =
∞ ∪
∞
∩
Ah
(1.9)
i=1 h=i
h=i
Con ragionamento analogo a quello esposto
∪∞al punto precedente si può affermare che l’evento lim supi→∞ Ai
equivale al verificarsi di tutti gli eventi h=i Ah , ovvero di infiniti tra gli eventi Ai .
Definizione 1.16 Una successione {Ai ; i ≥ 1} di eventi si dice crescente se vale Ai ⊂ Ai+1 per ogni i.
Definizione 1.17 Una successione {Ai ; i ≥ 1} di eventi si dice decrescente se vale Ai+1 ⊂ Ai per ogni
i.
Definizione 1.18 Il limite di una successione crescente di eventi è definito da
lim Ai =
i→∞
∞
∪
Ai
(1.10)
i=1
Definizione 1.19 Il limite di una successione decrescente di eventi è definito da
lim Ai =
i→∞
∞
∩
i=1
Ai
(1.11)
10
A. Pollice - Appunti di Probabilità
Esempio 1.11 Si determini il limite delle seguenti successioni crescenti di eventi:
{
1. Ai = x :
1
i
≤x≤3−
1
i
}
,
i = 1, 2, . . .
limi→∞ Ai = {x : 0 < x < 3};
}
{
2. Ai = (x, y) : 1i ≤ x2 + y 2 ≤ 4 − 1i , i = 1, 2, . . .
{
}
limi→∞ Ai = (x, y) : 0 < x2 + y 2 < 4 .
Esempio 1.12 Si determini il limite delle seguenti successioni decrescenti di eventi:
}
<x≤2 ,
i = 1, 2, . . .
limi→∞ Ai = {x : x = 2};
{
}
2. Ai = x : 2 < x ≤ 2 + 1i ,
i = 1, 2, . . .
{
1. Ai = x : 2 −
1
i
limi→∞ Ai = ∅;
{
}
3. Ai = (x, y) : 0 ≤ x2 + y 2 ≤ 1i , i = 1, 2, . . .
{
}
limi→∞ Ai = (x, y) : x2 + y 2 = 0 .
Si noti come le seguenti tre proprietà risultano opportune per una semplice caratterizzazione matematica dello spazio degli eventi F:
Ω
∈
F
A ∈ F ⇔ Ā ∈ F
A1 , A2 ∈ F
(1.12)
⇒ A1 ∪ A2 ∈ F
E’ evidente come l’insieme di tutti gli eventi debba essere chiuso rispetto alle operazioni di unione e di
negazione (se si è in grado di dire se A è vero o falso, allora si è in grado di dire anche se Ā è vero o falso;
analogamente se si è in grado di dire se A1 e A2 sono veri o falsi si è in grado di dire se A1 ∪ A2 è vero o
falso).
Definizione 1.20 Una famiglia di insiemi con le suddette caratteristiche (1.15) è detta algebra di Boole.
Inoltre dalle tre condizioni precedenti discendono le seguenti proprietà:
∅
A1 , A2 ∈ F
A1 , A2 , . . . An ∈ F
A1 , A2 , . . . An ∈ F
∈
F
⇒ A1 ∩ A2 ∈ F
n
∪
⇒
Ai ∈ F
⇒
i=1
n
∩
(1.13)
Ai ∈ F
i=1
Definizione 1.21 Si ottiene una struttura algebrica denominata algebra di Boole completa o σ-algebra
o classe additiva se alle tre condizioni che definiscono l’algebra di Boole si aggiunge la condizione che la
Cap.1: Eventi e probabilità
11
famiglia F sia chiusa rispetto all’unione infinita:
A1 , A2 , . . . ∈ F ⇒
∞
∪
Ai ∈ F
(1.14)
i=1
Quando Ω è un’infinità numerabile, l’insieme delle parti di Ω è una σ-algebra. Si può dimostrare inoltre
che se F è una σ-algebra, allora essa è chiusa anche rispetto all’intersezione infinita, ovvero che vale la
proprietà:
∞
∩
A1 , A2 , . . . ∈ F ⇒
Ai ∈ F
(1.15)
i=1
Quando lo spazio Ω non è finito né numerabilmente infinito, il problema della determinazione di
F diviene più complesso. Essendo quello dei numeri reali uno dei più importanti insiemi infiniti (non
numerabili) si supponga Ω = R (o più in generale Ω = Rk , k ≥ 1) e siano inoltre gli intervalli i sottoinsiemi
di R ai quali si sia interessati.
Definizione 1.22 La minima classe di sottonsiemi di R che contiene gli intervalli ed è chiusa rispetto
alla negazione ed all’unione (finita e infinita) è detta σ-algebra di Borel di R.
Come si capisce dalla definizione, la σ-algebra di Borel di R è molto vasta e comprende tutti gli insiemi
di interesse nelle applicazioni, ovvero tutti i sottoinsiemi di R per i quali abbia senso parlare di lunghezza.
In particolare contiene gli insiemi costituiti da singoli punti e tutti gli intervalli aperti e chiusi. Si intende
che in tal caso gli eventi sono comunque sottoinsiemi di Ω = R, viceversa non tutti i sottoinsiemi di R sono
eventi (ma solo quelli che appartengono alla σ-algebra di Borel).
Definizione 1.23 Alla coppia (Ω, F) si dà il nome di spazio misurabile, cioè atto ad essere misurato.
1.4
Diverse interpretazioni della probabilità
Le origini del calcolo delle probabilità sono relativamente recenti. Esso era infatti sconosciuto nel mondo
antico, principalmente a causa dell’assenza del metodo sperimentale nella scienza antica. Già i filosofi
greci discutevano del concetto di probabilità senza addentrarsi in valutazioni quantitative. Dei primitivi
accenni a valutazioni quantitative di probabilità sembra si trovino nella lettura ebraica di commento alle
prescrizioni delle leggi.
Agli inizi dell’età moderna lo spirito sperimentale portò ad interrogarsi sulle regolarità riscontrabili nelle
frequenze dei risultati dell’antico gioco dei dadi (sulla presenza di regolarità pur nella indeterminatezza
dei risultati). La prima trattazione nota sulla probabilità risale al Rinascimento ed è dovuta a Gerolamo
Cardano che nel libro “De ludo aleae” del 1526 (pubblicato postumo nel 1663) discute del calcolo delle
probabilità della somma dei risultati ottenuti lanciando tre dadi (in questo libro viene per la prima volta
enunciata la legge empirica del caso).
La vera nascita del calcolo delle probabilità viene comunemente collegata con gli studi di Blaise Pascal
e Pierre Fermat (sec. XVII), sollecitati dall’interesse crescente per scommesse e giochi d’azzardo. Per
il primo lo studio della probabilità è inquadrabile in una precisa concezione filosofica contrapposta al
razionalismo di R. Descartes che lo precedeva di poche decine d’anni. Come in filosofia Pascal opponeva
“le ragioni del cuore che la ragione non comprende” alle “idee chiare e distinte” di Descartes, così dava inizio
al calcolo delle probabilità in contrasto con la perfetta e stabile sistemazione della geometria cartesiana.
Mentre la posizione di Descartes può essere considerata alla base degli sviluppi del determinismo scientifico
(conoscendo con precisione lo stato dell’universo in un determinato istante si può calcolare la sua evoluzione
in tutti gli istanti successivi), quella di Pascal può essere vista come anticipatrice della moderna visione
della scienza (ed in particolare della fisica) secondo cui i fenomeni osservabili sono unicamente descrivibili
approssimativamente e temporaneamente tramite modelli matematici basati su leggi probabilistiche.
12
A. Pollice - Appunti di Probabilità
Altri studiosi che hanno avuto un ruolo determinante nella nascita e nei primi sviluppi (secc. XVIXVIII) del Calcolo delle Probabilità sono: Christiaan Huygens, Jakob e Daniele Bernoulli, Abraham de
Moivre, Pierre Simon Laplace.
Definizione 1.24 La definizione classica della probabilità (già nota a Cardano come regola di calcolo,
successivamente adottata come definizione da Pascal, poi da de Moivre e Laplace) di un evento corrisponde
al rapporto tra il numero dei risultati favorevoli al verificarsi dell’evento in questione e quello di tutti i
risultati possibili purché tutti ugualmente probabili.
Esempio 1.13 La probabilità di ottenere testa lanciando una volta una moneta simmetrica è pari ad 12 .
Esempio 1.14 La probabilità di ottenere 4 lanciando una volta un dado non truccato è pari ad 16 .
La grave difficoltà di questa definizione sta nel suo carattere tautologico: per definire la probabilità
occorre sapere cosa significa probabile. Inoltre questa definizione ha un ambito di validità limitato: i
risultati possibili dell’esperimento devono essere un numero finito e devono essere ugualmente probabili.
Tuttavia la definizione classica dà luogo ad alcune proprietà. In particolare
1. la probabilità di un evento A risulta essere un numero sempre compreso tra zero (quando nessun
risultato dell’esperimento è favorevole al verificarsi di A, ovvero A è l’evento impossibile ∅) e uno
(quando tutti i risultati dell’esperimento sono favorevoli ad A,ovvero A è l’evento certo Ω)
P (∅) = 0 ≤ P (A) ≤ 1 = P (Ω)
(1.16)
2. le probabilità di eventi incompatibili risultano additive, ovvero la probabilità dell’unione di due
eventi incompatibili è uguale alla somma delle probabilità dei due eventi
A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)
(1.17)
Esempio 1.15 La probabilità di ottenere 4 o 5 lanciando una volta un dado non truccato è pari a
1
1
1
6 + 6 = 3.
Esempio 1.16 La probabilità di ottenere una carta di picche estraendo a caso una carta da un mazzo
1
1
1
+ · · · + 52
= 13 × 52
= 14 .
di carte francesi è pari a 52
È opinione comune che la probabilità del risultato di un certo esperimento sia strettamente legata
alla frequenza delle prove nelle quali l’evento stesso si verifica (successi). Formalmente ciò può essere
espresso nella cosiddetta legge empirica del caso: in una successione di prove fatte nelle stesse condizioni, la
frequenza di un evento si avvicina alla probabilità dell’evento stesso, e l’approssimazione tende a migliorare
con l’aumentare del numero delle prove.
Definizione 1.25 Nella definizione frequentista di probabilità tale legge viene rovesciata: piuttosto che
mettere in relazione la frequenza con la probabilità, è la stessa probabilità ad essere definita come limite
della frequenza relativa dei successi quando il numero delle prove tende all’infinito.
Cap.1: Eventi e probabilità
13
Ma poichè le frequenze sono numeri che dipendono dai dati rilevati sperimentalmente, la loro successione
non è governata da una legge matematica (può solo essere osservata per un numero grande ma finito di
prove), e non c’è nulla che ne garantisca la convergenza. Inoltre anche in questo caso la validità della
definizione è limitata ad esperimenti replicabili più volte nelle stesse condizioni.
Si osservi che anche per la definizione frequentista valgono le proprietà
1. la probabilità risulta essere un numero sempre compreso tra zero (quando l’evento non si è verificato
in nessuna prova - evento impossibile ∅) e uno (quando l’evento si è verificato in tutte le prove evento certo Ω);
2. vale l’additività della probabilità per eventi incompatibili.
In questa concezione, come in quella classica, la probabilità è un valore numerico “vero” determinato
dalla natura degli eventi. Essa assume pertanto un significato concreto, fisico, in altri termini, oggettivo.
Definizione 1.26 Nella sua definizione soggettiva (già accennata da Pascal, espressa da J. Bernoulli,
sviluppata in tempi più recenti da B. de Finetti e J. Savage), invece, la probabilità rappresenta un giudizio
quantitativo individuale espresso dalla misura del grado di fiducia che una persona ha nel verificarsi di un
evento. Tale misura dipende dall’individuo stesso, ovvero dalle sue conoscenze ed informazioni riguardo
all’evento e può perciò variare da individuo a individuo.
La ricerca di un metodo per misurare l’opinione individuale sul verificarsi di un evento porta a considerare
una ipotetica scommessa sul verificarsi dell’evento stesso come punto di partenza per la definizione operativa di probabilità dal punto di vista soggettivo (dovuta essenzialmente a B. de Finetti). La probabilità di
un evento corrisponde al prezzo che un individuo è disposto a pagare (riscuotere) per ricevere (pagare) 1
se l’evento si verifica e 0 se l’evento non si verifica. Le alternative tra parentesi stanno a significare che la
definizione non cambia se ci si riferisce allo scommettitore o al banco. La valutazione soddisfa il cosiddetto
principio di coerenza o equità secondo il quale la scommessa in questione (anche se replicata più volte)
non dà luogo a guadagni o perdite certi.
Si osservi che anche per la definizione soggettiva valgono le proprietà
1. la probabilità risulta essere un numero sempre compreso tra zero e uno. Infatti se Ω è l’evento certo e
pago P (Ω) per ricevere certamente 1, allora il guadagno è 1 − P (Ω). Se P (Ω) < 1 si avrà una vincita
certa, mentre se P (Ω) > 1 si avrà una perdita certa in violazione del principio di coerenza, dunque
in tal caso dovrà essere P (Ω) = 1. Se invece ∅ è l’evento impossibile, allora il guadagno è −P (∅),
dunque, affinché per il principio di coerenza tale guadagno sia nullo, dovrà essere necessariamente
P (∅) = 0.
2. vale l’additività della probabilità per eventi incompatibili. Siano infatti A e B due eventi incompatibili, dunque gli eventi A, B e A ∪ B sono incompatibili e necessari, ovvero hanno intersezione nulla
e unione pari all’evento certo.
(
)
(
(
))
P (A) + P (B) + P A ∪ B = P A ∪ B ∪ A ∪ B = P (Ω) = 1
anche gli eventi A ∪ B e A ∪ B sono incompatibili e necessari, quindi
(
)
(
(
))
P (A ∪ B) + P A ∪ B = P (A ∪ B) ∪ A ∪ B = P (Ω) = 1
dal confronto delle due espressioni precedenti si ottiene
A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)
14
A. Pollice - Appunti di Probabilità
1.5
Assiomi e rudimenti della probabilità
In un sistema assiomatico si parte da un insieme di assiomi o postulati che definiscono gli oggetti trattati dal
punto di vista matematico. Tramite le operazioni logiche, dagli assiomi vengono tratte delle conseguenze,
e la teoria che ne deriva può applicarsi ad un certo contesto se e solo se in quel contesto sono validi gli
assiomi di partenza.
Nei paragrafi precedenti si è visto come ciascuna delle diverse interpretazioni della probabilità implichi
alcune proprietà di cui essa gode. Con la definizione assiomatica (dovuta ad A. Kolmogorov) della probabilità questo procedimento viene ribaltato, e la probabilità viene vista come una qualsiasi attribuzione di
un valore numerico a un evento, nel rispetto di determinati requisiti matematici o assiomi.
Definizione 1.27 Posto che gli eventi sono sottoinsiemi dello spazio dei risultati possibili Ω e formano
una σ-algebra F, si definisce misura di probabilità di un evento A ∈ F una funzione reale P (A) tale che
1. P (A) ≥ 0;
2. P (Ω) = 1;
∪
∑∞
3. A1 , A2 , . . . ∈ F con Ai ∩ Aj = ∅ per i ̸= j ⇒ P ( ∞
i=1 Ai ) =
i=1 P (Ai ).
Definizione 1.28 La terna formata dallo spazio Ω, dalla σ-algebra F e dalla funzione P viene detta
spazio di probabilità (Ω, F, P ).
Definizione 1.29 Il valore P (A) della funzione P in corrispondenza dell’evento A è detto probabilità
dell’evento A.
Mentre i primi due assiomi sono compatibili con le tre definizioni di probabilità illustrate in precedenza,
il terzo richiede che la probabilità sia additiva per un’infinità numerabile di eventi (additività completa).
L’ultima condizione è ben più restrittiva rispetto all’additività finita derivante dalle definizioni classica,
frequentista e soggettiva, ma implica importanti conseguenze in termini di proprietà matematiche.
Ricordando che in analisi matematica si chiama misura una funzione di insieme non negativa, completamente additiva e che valga 1 se applicata all’intero spazio a cui è riferita, si può affermare che la
probabilità è una misura definita per gli elementi di F.
Ogni applicazione della definizione assiomatica di probabilità richiede un’adeguata specificazione della
terna (Ω, F, P ), un procedimento che coinvolge un certo grado di astrazione da parte di chi affronta il
problema.
Quando Ω è composto da un numero finito n di eventi elementari ϖ1 , . . . , ϖn , a questi può essere
associata la stessa probabilità che, per il secondo e terzo assioma, risulta pari ad 1/n. È questo il caso in
cui gli eventi elementari sono assunti equiprobabili. Se l’evento A è composto da n(A) eventi elementari
(ovviamente incompatibili), il terzo assioma permette di calcolare la probabilità di A, nel modo seguente
P (A) =
∑ 1
n (A)
# (eventi elementari in A)
=
=
n
n
# (eventi elementari in Ω)
(1.18)
ϖi ∈A
In altri termini quando i casi possibili (gli eventi elementari) sono ugualmente probabili, la probabilità
di un evento A è data dal rapporto tra il numero dei casi favorevoli ad A (gli eventi elementari che compongono A) e il numero di casi possibili [si osservi come tale risultato porti a considerare la definizione
classica di probabilità come l’unico modo per valutare la probabilità di un evento in presenza di un numero
finito di alternative equiprobabili].
Cap.1: Eventi e probabilità
15
Esempio 1.17 Si lancino insieme una moneta e un dado. In tal caso lo spazio dei risultati ha
dimensione n = 12, infatti è
Ω = {T 1, T 2, . . . , T 6, C1, C2, . . . , C6}
1. La probabilità che la moneta presenti testa è pari a
2. La probabilità che il dado presenti un numero pari è
6
12
= 12 ;
6
12
= 12 ;
3. La probabilità che il dado presenti una potenza di due è
4
12
= 13 .
Esempio 1.18 Si estragga una pallina a caso da un’urna contenente 90 palline numerate (da 1 a 90).
In tal caso lo spazio dei risultati ha dimensione n = 90, infatti è Ω = {1, 2, . . . , 90}.
1. La probabilità che il numero estratto sia pari è
45
90
= 12 ;
2. La probabilità che il numero estratto sia inferiore a 20 è
3. La probabilità che il numero estratto sia superiore a 9 è
19
90 ;
81
90
=
9
10 ;
4. La probabilità che il numero estratto sia compreso tra 11 e 25 (estremi inclusi) è
5. La probabilità che il numero estratto sia di due cifre di cui la prima sia 1 è
10
90
15
90
= 16 ;
= 19 .
Il campo nel quale più direttamente si può applicare la definizione classica di probabilità è quello dei
giochi d’azzardo. In essi le regole individuano con precisione le diverse alternative e si può ragionevolmente
supporre che esse siano ugualmente probabili. Poiché in tal caso nel calcolo del numero dei risultati
favorevoli e di quelli possibili gioca un ruolo fondamentale il calcolo combinatorio, si parla a volte di
probabilità combinatorie. Allo scopo nel seguito vengono riportate alcune definizioni utili agli sviluppi
successivi.
Definizione 1.30 Dato un insieme di n oggetti distinti, il numero degli allineamenti che si possono formare con r oggetti scelti tra gli n, ritenendo diversi due allineamenti o perché contengono oggetti differenti
o perché gli stessi oggetti si susseguono in ordine diverso o perché uno stesso oggetto si ripete un numero
diverso di volte, è dato da nr . In tal caso gli allineamenti vengono detti disposizioni con ripetizione di n
oggetti in classe r.
Definizione 1.31 Dato un insieme di n oggetti distinti, il numero degli allineamenti che si possono formare con r oggetti scelti tra gli n, ritenendo diversi due allineamenti o perché contengono oggetti differenti
o perché gli stessi oggetti si susseguono in ordine diverso, è dato da n (n − 1) · · · (n − r + 1) = n(r) . In tal
caso gli allineamenti vengono detti disposizioni semplici o senza ripetizione di n oggetti in classe r.
Definizione 1.32 Dato un insieme di n oggetti distinti, il numero degli allineamenti che si possono formare con tutti essi, ritenendo diversi due allineamenti perché gli stessi oggetti si susseguono in ordine
diverso, è dato da n (n − 1) · · · 1 = n!. In tal caso gli allineamenti vengono detti permutazioni di n oggetti.
Definizione 1.33 Dato un insieme di n oggetti distinti, il numero degli allineamenti che si possono formare con r oggetti scelti tra gli n, ritenendo diversi due allineamenti perché contengono oggetti differenti,
( )
(r)
è dato da nr! = nr . In tal caso gli allineamenti vengono detti combinazioni senza ripetizione di n oggetti
in classe r.
16
A. Pollice - Appunti di Probabilità
Esempio 1.19 Da un mazzo di 52 carte francesi vengono estratte casualmente 13 carte. La probabilità
di ottenere un poker d’assi è data dall’espressione
(4)(48)
(52)9
4
13
Esempio 1.20 Da un’urna contenente 20 palline delle quali 6 sono bianche vengono estratte a caso
simultaneamente 4 palline.
1. la probabilità che vengano estratte 2 palline bianche è data da
(6)(14)
(20)2
2
4
2. la probabilità che venga estratta una pallina bianca è data da
(6)(14)
(20)3
1
4
3. la probabilità che non venga estratta alcuna pallina bianca è data da
(6)(14)
(20)4
0
4
4. la probabilità che vengano estratte almeno 3 palline bianche è data da
(6)(14) (6)(14)
(20)1 + 4(20)0
3
4
4
Esempio 1.21 Da un’urna contenente X palline bianche ed Y palline rosse vengono estratte
simultaneamente 2 palline.
1. L’estrazione di due palline dello stesso colore si verifica quando esse sono entrambe rosse ovvero
entrambe bianche. La probabilità di estrarre due palline dello stesso colore è data pertanto
dall’espressione
(X )(Y ) (X )(Y )
X (X − 1) + Y (Y − 1)
(2X+Y0) + (0X+Y2) =
(X + Y ) (X + Y − 1)
2
2
2. Se la probabilità appena calcolata è nota essere uguale a 12 , allora la relazione tra X ed Y è data
da
X (X − 1) + Y (Y − 1)
1
=
(X + Y ) (X + Y − 1)
2
ovvero dopo alcuni passaggi
X + Y = (X − Y )2
Cap.1: Eventi e probabilità
1.6
17
Prime proprietà e teoremi della probabilità
Alcune proprietà della probabilità si deducono immediatamente dagli assiomi.
Teorema 1.5 La probabilità che un evento A non si verifichi è data da 1 − P (A)
( )
P A = 1 − P (A)
(1.19)
(
)
Dimostrazione:
( ) essendo A ∩ A = ∅ ed A ∪ A = Ω, dal primo e dal terzo assioma si ha 1 = P A ∪ A =
P (A) + P A .
Esempio 1.17 (cnt) Vengono lanciati insieme un dado e una moneta.
1. La probabilità che la moneta presenti croce è pari a 1 −
1
2
= 12 ;
2. La probabilità che il dado presenti un numero dispari è 1 −
1
2
= 12 ;
3. La probabilità che il dado non presenti una potenza di due è 1 −
1
3
= 23 .
Esempio 1.18 (cnt) Viene estratta casualmente una pallina da un’urna che contiene 90 palline
numerate.
1. La probabilità che il numero estratto sia dispari è 1 −
1
2
= 12 ;
2. La probabilità che il numero estratto sia superiore o uguale a 20 è 1 −
3. La probabilità che il numero estratto sia inferiore o uguale a 9 è 1 −
19
90
9
10
=
=
71
90 ;
1
10 ;
4. La probabilità che il numero estratto sia inferiore a 11 e superiore a 25 è 1 −
1
6
= 56 ;
5. La probabilità che il numero estratto sia inferiore a 10 e superiore a 19 è 1 −
1
9
= 89 .
Teorema 1.6 Se A è un evento che implica l’evento B, cioè se A ⊂ B, allora
(
)
P (B) = P (A) + P A ∩ B ≥ P (A)
(1.20)
(
)
Dimostrazione: essendo B = A ∪ A ∩ B ed essendo inoltre A ed A ∩ B eventi incompatibili, considerando
il terzo assioma, si ottiene l’enunciato del teorema.
La prima importante conseguenza del precedente teorema è che per qualsiasi evento A si ha P (A) ≤ 1
e si ottiene considerando B = Ω nell’enunciato. Inoltre se A e B sono eventi equivalenti, ovvero se A ⊂ B
e B ⊂ A, il teorema precedente porta a concludere che P (A) = P (B).
Si noti come dalle proprietà elementari dell’unione e dell’intersezione di eventi è possibile ricavare le
seguenti proprietà:
P (A ∩ ∅) = 0
P (A ∪ ∅) = P (A)
(1.21)
P (A ∩ Ω) = P (A)
P (A ∪ Ω) = 1
18
A. Pollice - Appunti di Probabilità
Inoltre l’applicazione ripetuta del precedente teorema permette di estenderne il risultato ad una
successione finita o numerabile di eventi Ai (disuguaglianza di Boole)
(
)
∑
∪
P
Ai ≤
P (Ai )
(1.22)
i
i
Un’altra proprietà molto importante della probabilità risulta dal seguente teorema.
Teorema 1.7 Se A1 , A2 , . . . ∈ F è una successione di eventi crescente o decrescente con A = limi→∞ Ai ,
si ha
)
(
P (A) = P lim Ai = lim P (Ai )
(1.23)
i→∞
i→∞
Dimostrazione: nel caso di una successione crescente di eventi A1 ⊂ A2 ⊂ . . . ∈ F , posto A0 = ∅, si ha
(∞
)
(∞ )
∞
∪(
∪
∑
)
(
)
Ai ∩ Ai−1
P (A) = P
Ai = P
=
P Ai ∩ Ai−1
i=1
i=1
i=1
l’ultimo passaggio è dovuto al fatto che( gli eventi )Ai ∩ Ai−1 sono a due a due incompatibili per i = 1, 2, . . ..
Inoltre poichè P (Ai ) = P (Ai−1 ) + P Ai ∩ Ai−1 posso scrivere
∞
∑
(
P Ai ∩ Ai−1
)
=
i=1
∞
∑
(P (Ai ) − P (Ai−1 ))
i=1
=
=
=
lim
n→∞
lim
n→∞
n
∑
(P (Ai ) − P (Ai−1 ))
i=1
( n
∑
P (Ai ) −
i=1
n
∑
)
P (Ai−1 )
i=1
lim P (An )
n→∞
In conclusione si ha P (A) = P (limi→∞ Ai ) = limi→∞ P (Ai ) c.v.d..
Nel caso di successione
∪∞decrescente
∩∞di eventi A1 ⊃ A2 ⊃ . . . ∈ F si osservi che vale A1 ⊂ A2 ⊂ . . . ∈ F
A
=
A
=
ed inoltre
lim
i=1
i=1 A
) i
(i =) A, quindi dalla prima parte della dimostrazione si ha che
( ) i→∞
( i
vale P A = P limi→∞ Ai = limi→∞ P Ai e quindi
(
)
P (A) = P lim Ai = lim P (Ai )
i→∞
i→∞
c.v.d..
Le proprietà espresse dal precedente teorema vengono dette continuità dal basso (nel caso di successione
crescente di eventi) e continuità dall’alto (nel caso di successione decrescente) della misura di probabilità.
Si è già parlato della probabilità dell’unione di due o più eventi incompatibili. In questo paragrafo
viene trattato lo stesso caso facendo cadere la condizione di incompatibilità.
Teorema 1.8 (Probabilità dell’unione di eventi compatibili) La probabilità che si verifichi almeno uno di
due eventi A e B è data da
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
(1.24)
Dimostrazione: si noti come valgano le seguenti due uguaglianze
)
(
A ∪ B = A ∪ (A ∩ B )
B = (A ∩ B) ∪ A ∩ B
Cap.1: Eventi e probabilità
19
le due unioni a secondo membro nelle due espressioni precedenti sono tra eventi incompatibili, quindi
(
)
P (A ∪ B) = P (A) + P (A ∩ B )
P (B) = P (A ∩ B) + P A ∩ B
(
)
Sostituendo nella prima uguaglianza l’espressione di P A ∩ B ricavata dalla seconda si ottiene l’enunciato. c.v.d.
Esempio 1.22 Lanciando due dadi distinti (ad esempio uno rosso e l’altro verde) si hanno 36 possibili risultati o eventi elementari rappresentati da coppie di numeri Ω = {(i, j) : i, j = 1, 2, . . . , 6}. Se
attribuiamo a tutti risultati la stessa probabilità questà sarà pari a 1/36.
1. La probabilità dell’evento A =“il dado rosso dà 6” è pari a
6
36
= 16 ;
2. Analogamente la probabilità dell’evento B =“il dado verde dà 6” è pari ad 16 ;
3. La probabilità dell’evento A ∩ B =“entrambi i dadi danno 6” è pari a
1
36 ;
4. La probabilità dell’evento A ∪ B =“almeno un dado dà 6” è pari ad
1
6
+
5. La probabilità dell’evento A ∪ B =“nessun dado dà 6” è pari ad 1 −
11
36
6. La probabilità dell’evento C =“solo il dado rosso dà 6” è pari a
1
6
=
−
1
36
=
11
36 ;
25
36 ;
5
36 ;
7. Analogamente la probabilità dell’evento D =“solo il dado verde dà 6” è pari a
8. La probabilità dell’evento C ∪ D =“solo uno dei due dadi dà 6” è pari a
5
36 ;
10
36 .
L’applicazione ripetuta del precedente teorema permette di estenderne il risultato ad una successione
finita o numerabile di eventi Ai : per n eventi, la probabilità dell’unione è data dalla somma delle probabilità
degli eventi meno la somma delle probabilità delle intersezioni a due a due, più la somma delle probabilità
delle intersezioni a tre a tre, e così via sino alla probabilità dell’intersezione di tutti gli n eventi col segno
(−1)n+1
)
(n
n
∪
∑
∑
Ai
=
P (Ai ) −
P (Aj ∩ Ah )
P
i=1
i=1
+
1≤j<h≤n
∑
P (Ak ∩ Al ∩ Am ) − · · ·
1≤k<l<m≤n
n+1
+ (−1)
P (A1 ∩ A2 ∩ · · · ∩ An )
(1.25)
20
A. Pollice - Appunti di Probabilità
Esempio 1.23 I primi n numeri interi vengono scritti a caso in un certo ordine, assumendo che ciascuno dei possibili n! ordinamenti abbia la stessa probabilità. Si dice che vi è una “coincidenza” se il
numero r occupa l’r-esima posizione nell’ordinamento.
1. La probabilità dell’evento Ai che si verifica quando l’ordinamento presenta una coincidenza nella i-esima posizione
è pari a
(n − 1)!
1
P (Ai ) =
=
i = 1, . . . , n
n!
n
2. La probabilità di due coincidenze nella i-esima e nella j-esima posizione è pari a
P (Ai ∩ Aj ) =
(n − 2)!
n!
1≤i<j≤n
3. La probabilità di tre coincidenze nella k-esima, nella l-esima e nella m-esima posizione è pari a
P (Ak ∩ Al ∩ Am ) =
(n − 3)!
n!
1≤k<l<m≤n
4. Più in generale la probabilità di k specifiche coincidenze è pari per k = 1, . . . , n a
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) =
(n − k)!
n!
1 ≤ i1 < i2 < · · · < ik ≤ n
5. La probabilità di almeno una coincidenza è dunque data da
(∪n
)
( )
( )
P
= nP (Ai ) − n2 P (Ai ∩ Aj ) + n3 P (Ak ∩ Al ∩ Am )
i=1 Ai
(n)
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) + · · ·
k
−
· · · + (−1)k+1
+
(−1)n+1 P (A1 ∩ A2 ∩ . . . ∩ An )
=
n n1 −
+
(−1)k+1
=
1−
1
2!
(n) (n−2)!
n!
2
+
+
(n) (n−k)!
k
1
3!
n!
(n) (n−3)!
3
n!
− ···
+ · · · + (−1)n+1
− · · · + (−1)k+1
1
k!
1
n!
+ · · · + (−1)n+1
1
n!
6. La probabilità di nessuna coincidenza è data da
( n
)
∪
1
1
1
1
1−P
Ai =
−
+ · · · − (−1)k+1
− · · · − (−1)n+1
2!
3!
k!
n!
i=1
Se A e B sono due eventi relativi a un certo esperimento, si indica con P (A|B) la probabilità (condizionata) di A dato B. In altri termini con P (A|B) si indica la probabilità dell’evento A condizionata
dal verificarsi di B, cioè la probabilità che ha A di verificarsi quando si sappia che B si è verificato. La
differenza tra la probabilità di A e quella di A dato B è che nel primo caso si assume che gli eventi
elementari (i possibili risultati dell’esperimento) siano gli elementi di Ω, mentre nel secondo caso gli eventi
elementari sono solo quelli contenuti in B.
Definizione 1.34 Dati due eventi A e B con P (B) ̸= 0 la probabilità (condizionata) di A dato B è data
dall’espressione
P (A ∩ B)
P (A|B) =
(1.26)
P (B)
Cap.1: Eventi e probabilità
21
Esempio 1.24 In una mano (estrazione in blocco di 13 carte dal mazzo di 52) di carte francesi si
determini la probabilità di ottenere almeno tre K condizionata all’ipotesi che la mano ne contenga almeno
due.
Sia nK l’evento che si verifica quando la mano contiene esattamente n K.
P (“almeno tre K”|“almeno due K”) = P (3K ∪ 4K|2K ∪ 3K ∪ 4K)
=
P ((3K∪4K)∩(2K∪3K∪4K))
P (2K∪3K∪4K)
=
P (3K∪4K)
P (2K∪3K∪4K)
=
P (3K)+P (4K)
P (2K)+P (3K)+P (4K)
=
(43)(48
(4)(48)
10)
+ 4 52 9
52
(13)
(13)
4 48
(42)(48
(
(4)(48)
11)
3)(10)
+ 52 + 4 52 9
52
(13)
(13)
(13)
∼
=
0.041+0.003
0.213+0.041+0.003
∼
= 0.171
Si dimostra agevolmente che per ogni prefissato B ∈ F la probabilità condizionata P (·|B) data dalla
definizione precedente gode delle proprietà
1. P (A|B) ≥ 0 ∀A ∈ F
2. P (Ω|B) = 1
3. A1 , A2 , . . . ∈ F, Ai ∩ Aj = ∅, i ̸= j
∪
∑∞
P( ∞
i=1 Ai | B) =
i=1 P (Ai |B)
Dunque la probabilità condizionata soddisfa i tre assiomi che definiscono una misura di probabilità su
F. Inoltre poiché P (Ω|B) = P (B|B), P (·|B) è anche una misura di probabilità sulla σ-algebra B ⊂ F
generata da B ⊂ Ω e dà luogo allo spazio di probabilità (B, B, P (·|B)).
Inoltre dalla definizione precedente è immediato ottenere la relazione nota sotto il nome di legge delle
probabilità composte che permette di calcolare la probabilità dell’intersezione di due eventi A e B quando
si conoscano la probabilità condizionata e quella dell’evento condizionante
P (A ∩ B) = P (A|B) P (B)
(1.27)
22
A. Pollice - Appunti di Probabilità
Esempio 1.25 Un’urna contenga 7 palline nere e 5 bianche. La probabilità che 2 palline estratte a caso
senza reinserimento (in blocco) siano nere è data da
(7)(5)
1. soluzione meccanica
(12)0 =
2
2
7
22
2. soluzione ragionata
N 1 =“la prima pallina estratta è nera”
N 2 =“la seconda pallina estratta è nera”
P (N 1) =
7
12 ,
P (N 2|N 1) =
P (N 1 ∩ N 2) = P (N 2|N 1) P (N 1) =
6
11
6×7
11×22
=
7
22
Esempio 1.26 Una persona sbadata cerca di aprire la sua porta di casa prendendo una chiave a caso
da un mazzo di n chiavi ed eliminando di volta in volta le chiavi che ha già provato. Si vuole calcolare
la probabilità che egli provi x chiavi (con x = 0, . . . , n − 1) prima di trovare quella giusta.
Sx =“le prime x chiavi sono sbagliate”
Gx+1 =“la (x + 1)-esima chiave è quella giusta”
(n−1)(1)
1
1
x( ) 0
P (Sx ∩ Gx+1 ) = P (Gx+1 |Sx ) P (Sx ) =
= ··· =
n
n−x
n
x
La legge delle probabilità composte può essere facilmente estesa per induzione a una famiglia di n
eventi A1 , A2 , . . . , An
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) P (A2 |A1 ) · · · P (An |A1 ∩ A2 ∩ . . . ∩ An−1 )
(1.28)
Cap.1: Eventi e probabilità
23
Esempio 1.27 Un’urna contiene 3 palline rosse e 5 verdi.Vengono estratte successivamente e senza
reinserimento 4 palline.
Ri =“pallina rossa alla i-esima estrazione” i = 1, . . . , 4
Vi =“pallina verde alla i-esima estrazione” i = 1, . . . , 4
1. La probabilità che i due colori si alternino nelle quattro estrazioni è data da
P [(R1 ∩ V2 ∩ R3 ∩ V4 ) ∪ (V1 ∩ R2 ∩ V3 ∩ R4 )]
=
P (R1 ∩ V2 ∩ R3 ∩ V4 ) + P (V1 ∩ R2 ∩ V3 ∩ R4 )
=
P (V4 |R1 ∩ V2 ∩ R3 ) P (R3 |R1 ∩ V2 ) P (V2 |R1 ) P (R1 )
+P (R4 |V1 ∩ R2 ∩ V3 ) P (V3 |V1 ∩ R2 ) P (R2 |V1 ) P (V1 )
ed essendo
P (R1 ) =
3
8
P (V1 ) =
P (V2 |R1 ) =
5
7
P (R3 |R1 ∩ V2 ) =
2
6
5
8
P (R2 |V1 ) =
3
7
4
6
=
1
3
P (V3 |V1 ∩ R2 ) =
=
2
3
P (V4 |R1 ∩ V2 ∩ R3 ) =
4
5
P (R4 |V1 ∩ R2 ∩ V3 ) =
2
5
si ha che la probabilità cercata è data da
3×5×1×4
5×3×2×2
1
+
=
8×7×3×5
8×7×3×5
7
2. La probabilità di ottenere la prima pallina verde alla terza estrazione è data da
P (V3 ∩ R1 ∩ R2 )
=
P (V3 |R1 ∩ R2 ) P (R1 ∩ R2 )
=
P (V3 |R1 ∩ R2 ) P (R2 |R1 ) P (R1 )
=
5
6
·
2
7
·
3
8
=
5
56
3. La probabilità di ottenere la prima pallina verde alla (x + 1)-esima estrazione (x = 1, 2, 3) è data da
P (Vx+1 ∩ R1 ∩ . . . ∩ Rx )
= P (Vx+1 |R1 ∩ . . . ∩ Rx ) P (R1 ∩ . . . ∩ Rx )
=
5
8−x
·
(x3)(50)
(x8)
x = 1, 2, 3
24
A. Pollice - Appunti di Probabilità
Esempio 1.28 Tre signori lasciano i loro cappelli in un guardaroba buio. Si vuole determinare la
probabilità che scegliendo a caso nessun signore recuperi il proprio cappello.
Ei =“l’i-esimo signore recupera il suo cappello”, i = 1, 2, 3
La probabilità richiesta dalla traccia è
1 − P (E1 ∪ E2 ∪ E3 ) = 1 − [P (E1 ) + P (E2 ) + P (E3 ) − P (E1 ∩ E2 )
−
P (E1 ∩ E3 ) − P (E2 ∩ E3 ) + P (E1 ∩ E2 ∩ E3 )]
poiché è
P (E1 ) = P (E2 ) = P (E3 ) =
1
3
P (E1 ∩ E2 ) = P (E1 ∩ E3 ) = P (E2 ∩ E3 ) = P (E2 |E3 ) P (E3 ) =
P (E1 ∩ E2 ∩ E3 ) = P (E1 |E2 ∩ E3 ) P (E2 ∩ E3 ) = 1 ·
dunque la probabilità cercata è
(
1 1
1
1− 3· −3· +
3
6 6
)
=
1
6
=
1
2
·
1
3
=
1
6
1
6
1
3
Teorema 1.9 (Legge delle probabilità totali) Sia B1 , B2 , . . . una famiglia di eventi dei quali uno e uno
solo si verifica (necessari e incompatibili). In altri termini
1.
∪∞
i=1 Bi
= Ω;
2. Bi ∩ Bj = ∅,
3. P (Bi ) > 0,
i ̸= j;
i = 1, 2, . . ..
Sia A un qualunque altro evento, allora
P (A) =
∞
∑
P (A ∩ Bi ) =
i=1
∞
∑
P (A|Bi ) P (Bi )
(1.29)
i=1
Dimostrazione:
A=A∩Ω=A∩
(∞
∪
)
Bi
=
∞
∪
(A ∩ Bi )
i=1
i=1
Essendo gli eventi A ∩ Bi a due a due incompatibili per i = 1, 2, . . ., dall’applicazione del teorema delle
probabilità totali per eventi incompatibili segue che
P (A) =
∞
∑
i=1
P (A ∩ Bi ) =
∞
∑
P (A|Bi ) P (Bi )
i=1
Il risultato precedente (ovviamente valido in particolare per una famiglia finita B1 , B2 , . . . , Bn di n
eventi) risulta essere estremamente utile per il calcolo delle probabilità di eventi mediante l’uso di probabilità condizionate, ovvero quando è difficile calcolare P (A) e invece risulta più agevole determinare
P (A|Bi ) per i = 1, 2, . . ., cioè la probabilità dello stesso evento A supponendo che si sia verificato Bi per
i = 1, 2, . . ..
Cap.1: Eventi e probabilità
25
Esempio 1.29 In un esperimento per valutarne le capacità di apprendimento un animale da laboratorio
(cavia) può scegliere tra due diverse fonti di cibo poste a destra e a sinistra della gabbia. Nella mangiatoia
a destra viene aggiunto un additivo inodore ed incolore che rende il cibo disgustoso. Si assume che
all’inizio dell’esperimento la cavia abbia la medesima probabilità di mangiare da entrambe le mangiatoie.
Dopo aver mangiato il cibo buono la probabilità che la cavia vada a destra al tentativo successivo è 0.4.
Tuttavia la cavia reagisce in modo più evidente al cibo disgustoso e la probabilità che, avendolo mangiato
essa torni a destra al tentativo successivo è pari a 0.2. Si vogliono conoscere le probabiiltà che la cavia
vada a destra al secondo e al terzo tentativo.
Di =“la cavia va a destra (cibo disgustoso) per la i-esima volta”
Si =“la cavia va a sinistra (cibo buono) per la i-esima volta”
Il problema richiede di determinare P (D2 ) e P (D3 ) sapendo che
P (D1 ) = P (S1 ) = 0.5
P (Di+1 |Si ) = 0.4 ⇒ P (Si+1 |Si ) = 0.6
P (Di+1 |Di ) = 0.2 ⇒ P (Si+1 |Di ) = 0.8
Dall’applicazione del teorema delle probabilità totali si ottiene
P (D2 ) = P (D2 |D1 ) P (D1 ) + P (D2 |S1 ) P (S1 ) = 0.2 × 0.5 + 0.4 × 0.5 = 0.3
ed essendo P (S2 ) = 1 − P (D2 ) = 0.7,
P (D3 ) = P (D3 |D2 ) P (D2 ) + P (D3 |S2 ) P (S2 ) = 0.2 × 0.3 + 0.4 × 0.7 = 0.34
Analogamente possono essere calcolate le probabilità relative ai tentativi successivi
P (D4 ) = 0.332
P (D5 ) = 0.336
P (D6 ) = 0.3328
P (D7 ) = 0.3334
···
che mostrano come al protrarsi dei tentativi la probabilità che la cavia vada a destra tenda a stabilizzarsi
attorno al valore 0.3.
Spesso si dispone di informazioni sotto forma di probabilità condizionate del tipo P (A|B) quando
servirebbe conoscere P (B|A). In altri termini spesso occorre invertire il ruolo di evento condizionato ed
evento condizionante. A titolo di esempio si pensi al caso di un test clinico per la diagnosi di una certa
malattia. Se T indica la presenza della malattia accertata dal test ed M indica l’effettivo stato di salute del
paziente, nella gran parte dei casi si conoscono le probabilità P (M ) (da fonti
e P (T |M )
( epidemiologiche)
)
(caratteristiche operative del test) e si vogliono conoscere P (M |T ) e P M |T , ovvero le probabilità
relative all’affidabilità della diagnosi.
Teorema 1.10 (di Bayes) Data una famiglia finita o numerabile
di eventi B1 , B2 , . . . incompatibili e
∪
necessari (per i quali cioè valgono Bi ∩ Bj = ∅ per i ̸= j e ∞
B
=
Ω con P (Bi ) > 0) e un qualunque
i
i=1
altro evento A con P (A) > 0, si ha
P (A|Bi ) P (Bi )
P (Bi |A) = ∑∞
i=1 P (A|Bi ) P (Bi )
i = 1, 2, . . .
(1.30)
26
A. Pollice - Appunti di Probabilità
Dimostrazione: per la legge delle probabilità composte vale
P (Bi |A) =
P (A ∩ Bi )
P (A|Bi ) P (Bi )
=
P (A)
P (A)
Utilizzando il teorema 5 per il calcolo del denominatore dell’espressione precedente si ottiene l’enunciato
del teorema, c.v.d..
L’espressione precedente, che corrisponde ad una delle formule più utili della teoria della probabilità,
è dovuta al teologo e matematico inglese Thomas Bayes (1702-1761). Gli eventi Bi possono essere considerati come possibili cause dell’evento A ed il teorema di Bayes permette di individuare la probabilità
di tali cause una volta osservato l’effettivo verificarsi dell’evento A. Le probabilità P (Bi ) sono dette probabilità a priori o iniziali, mentre P (Bi |A) sono le probabilità a posteriori o finali (valutate sapendo che
si è verificato A). Il verificarsi di A modifica dunque le probabilità degli eventi Bi e a determinare tale
modifica sono le cosiddette verosimiglianze P (A|Bi ).
Esempio 1.30 La produzione in serie di un certo manufatto abbia una difettosità pari al 2% dei pezzi
prodotti. Si sa che un test per il controllo in corso di produzione ha una probabilità pari a 0.03 di scartare
un pezzo non difettoso e una probabilità pari a 0.05 di accettare un pezzo difettoso.
D =“il pezzo è difettoso”
T =“il pezzo è difettoso secondo il test”
( )
P( (D) )= 0.02
P( D )= 0.98
P (T |D) = 0.03 P T |D = 0.97
P T |D = 0.05 P (T |D) = 0.95
La probabilità che il pezzo analizzato sia difettoso posto che il test dà un risultato non soddisfacente è
P (D|T ) =
P (T |D) P (D)
(
) ( )∼
= 0.39
P (T |D) P (D) + P T |D P D
Esempio 1.31 Si sappia che 5 uomini su 100 e 25 donne su 10000 sono daltonici. Nell’ipotesi che
uomini e donne siano in ugual numero, si voglia conoscere la probabilità che una persona daltonica scelta
a caso sia di sesso femminile.
M =“la persona scelta a caso è di sesso maschile”
F =“la persona scelta a caso è di sesso femminile”
D =“la persona scelta a caso è daltonica”
P (M ) = P (F ) =
P (D|M ) =
5
100
=
1
20
1
2
P (D|F ) =
25
10000
=
1
400
La traccia richiede di determinare la probabilità seguente:
P (D|F ) P (F )
P (F |D) =
=
P (D|F ) P (F ) + P (D|M ) P (M )
1
400 ·
1
1
400 · 2 +
1
2
1
20
·
1
2
=
1
21
Cap.1: Eventi e probabilità
27
Esempio 1.32 Si consideri il gioco seguente. Due buste contengono rispettivamente due banconote da
$100 e una da $1 e una banconota da $100 e due da $1. Dopo aver scelto a caso una delle due buste,
si osservi il valore di una sola delle tre banconote contenute e si decida quale delle due buste tenere. Si
calcoli la probabilità di ottenere la busta con più soldi se si adotta la strategia che porta a tenere la busta
se la banconota osservata vale $100 e a prendere l’altra se invece vale $1.
B1 =“scelgo la busta con 2 banconote da $100 e una da $1”
B2 =“scelgo la busta con 2 banconote da $1 e una da $100”
A =“la banconota osservata vale $100”
P (B1) = P (B2) =
P (A|B1) =
2
3
1
2
P (A|B2) =
1
3
La probabilità richiesta dalla traccia è
P (B1|A) =
P (A|B1) P (B1)
=
P (A|B1) P (B1) + P (A|B2) P (B2)
2
3
·
2 1
3 · 2
1
1
2 + 3
·
1
2
=
2
3
Intuitivamente dire che A è stocasticamente indipendente da B significa dire che il verificarsi di B non
influisce sulla probabilità del verificarsi di A. In altre parole la probabilità di A condizionata al verificarsi
di B è uguale alla probabilità di A (non condizionata)
(1.31)
P (A|B) = P (A)
Definizione 1.35 Due eventi A e B si dicono stocasticamente indipendenti se e solo se
P (A ∩ B) = P (A) · P (B)
(1.32)
Si noti come l’indipendenza stocastica risulti reciproca, essendo la condizione che la definisce simmetrica rispetto ai due eventi. Si noti inoltre come definizione di indipendenza stocastica corrisponda alla
relazione P (A|B) = P (A) quando P (B) ̸= 0, ovvero quando è possibile sostituire a P (A|B) la sua
espressione definitoria.
Esempio 1.33 Due arceri tirano indipendentemente l’uno dall’altro una freccia per ciascuno sullo stesso
bersaglio. Le probabilità che hanno rispettivamente di centrare il bersaglio sono pari a 97 per il primo
9
arcere e a 11
per il secondo. La probabilità che il bersaglio sia centrato da uno dei due arceri è data da
C1 =“il primo arcere fa centro”
C2 =“il secondo arcere fa centro”
P (C1 ∪ C2) = P (C1) + P (C2) − P (C1 ∩ C2)
= P (C1) + P (C2) − P (C1) · P (C2)
=
7
9
+
9
11
−
7×9
9×11
=
95
99
28
A. Pollice - Appunti di Probabilità
Esempio 1.34 Si lancino insieme un dado verde e uno rosso.
F =“il dado verde mostra la faccia 4”
E1 =“la somma dei punti e uguale a 6”
P (E1 ∩ F ) =
P (E1 ) P (F ) =
1
6
·
5
36
1
6
·
=
1
6
1
36
=
5
216
P (E1 ∩ F ) ̸= P (E1 ) P (F )
E1 ed F non sono indipendenti;
E2 =“la somma dei punti e uguale a 7”
P (E2 ∩ F ) =
P (E2 ) P (F ) =
·
1
6
=
6
36
·
1
6
1
6
1
36
=
1
36
P (E2 ∩ F ) = P (E2 ) P (F )
E2 ed F sono indipendenti;
E3 =“la somma dei punti e uguale a 8”
P (E3 ∩ F ) =
P (E3 ) P (F ) =
1
6
·
5
36
1
6
·
=
1
6
1
36
=
5
216
P (E3 ∩ F ) ̸= P (E3 ) P (F )
E3 ed F non sono indipendenti.
La nozione di indipendenza stocastica può essere estesa con riferimento a più di due eventi.
Definizione 1.36 Gli eventi A1 , A2 , . . . , An si dicono mutuamente (stocasticamente) indipendenti se e
solo se
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · · · · · P (Aik )
(1.33)
per ogni k = 2, 3, . . . , n e per ogni allineamento i1 < i2 < · · · < ik dei numeri 1, 2, . . . , n.
Si noti come l’indipendenza tra gli eventi presi a due a due non sia sufficiente a garantire la mutua
indipendenza tra tutti gli n eventi.
Cap.1: Eventi e probabilità
29
Esempio 1.35 Vengono lanciati indipendentemente un dado verde e un dado rosso. Le probabilità dei
tre eventi
A1 =“il dado verde mostra un numero pari”
A2 =“il dado rosso mostra un numero pari”
A3 =“la somma dei risultati dei due dadi è pari”
risultano intuitivamente P (A1 ) = P (A2 ) = P (A3 ) = 12 . Inoltre si verifica facilmente che
P (A1 ∩ A2 ) = P (A2 ∩ A3 ) = P (A1 ∩ A3 ) =
P (A1 ∩ A2 ∩ A3 ) =
1
4
1
4
I tre eventi non risultano dunque indipendenti, pur essendo indipendenti a due a due. Si noti come sia
immediato concludere circa la non indipendenza dei tre eventi, infatti se si verificano A1 e A2 , allora si
verifica necessariamente anche A3 . In altri termini l’evento A1 ∩ A2 implica A3 , quindi A1 ∩ A2 ∩ A3 =
A1 ∩ A2 e di conseguenza P (A3 |A1 ∩ A2 ) = 1.
Esempio 1.36 Sia p la probabilità di nascita di una femmina e 1 − p quella di un maschio. Assunta
l’indipendenza del sesso dei figli di una stessa coppia, la probabilità che una coppia abbia tre figlie femmine
è p3 , quella che abbia tre maschi è (1 − p)3 , quella che abbia tre figli dello stesso sesso è p3 + (1 − p)3 .
Esempio 1.37 Sia p la probablità di vincere a ciascun lancio di un dado. Il giocatore A lancia il dado la
prima volta e se perde lo passa al giocatore B che lo lancia a sua volta. Continuano a lanciare e passarsi
il dado sinché uno dei due vince. Le rispettive probabilità di vincita del giocatore A e del giocatore B
sono date da
P (“A vince”)
= p + (1 − p) (1 − p) p + (1 − p) (1 − p) (1 − p) (1 − p) p + · · ·
2
4
= p + (1 − p) p + (1 − p) p + · · ·
∞ [
]x
∑
1
2
= p
(1 − p)
=p·
2
1
−
(1
− p)
x=0
1
=
2−p
P (“B vince”)
3
5
(1 − p) p + (1 − p) p + (1 − p) p + · · ·
∞ [
]x
∑
2
= p (1 − p)
(1 − p)
=
x=0
=
1−p
2−p
30
A. Pollice - Appunti di Probabilità
Esempio 1.38 (estrazioni senza reimmissione) Da un’urna contenente M palline di cui m bianche ed
M − m nere, si estraggono successivamente n palline senza reimmissione (o in blocco). La probabilità
che x delle n palline estratte siano bianche è data, come è noto, da
(m)(M −m)
x
(Mn−x
)
sup (0, n − M + m) ≤ x ≤ inf (n, m)
(1.34)
n
l’espressione precedente, considerata come funzione dell’argomento x a valori naturali, prende il nome
di distribuzione ipergeometrica.
Esempio 1.39 (estrazioni con reimmissione) Da un’urna contenente M palline di cui m bianche ed M −
m nere, si estraggono successivamente n palline con reimmissione. In altri termini ciascuna estrazione
viene effettuata con la medesima composizione dell’urna. Intuitivamente i risultati di estrazioni successive
sono indipendenti tra loro e la probabilità di estrarre una pallina bianca è costante per ogni estrazione e
m
. La probabilità che x delle n palline estratte siano bianche è data da
pari a M
( )( ) (
n
m x
m )n−x
1−
x = 0, 1, . . . , n
(1.35)
x
M
M
( m )x (
)
m n−x
Infatti M
1− M
è la probabilità che si verifichi una particolare sequenza (di)n estrazioni di cui
x risultano in una pallina bianca e le restanti n − x in una pallina nera, mentre nx è il numero complessivo di possibili sequenze di questo tipo, ovviamente tra loro incompatibili. L’espressione precedente,
considerata come funzione di x, prende il nome di distribuzione binomiale.