CapitoloIV Probabilità condizionata

Capitolo IV
Probabilità condizionata
IV.1 Stato di informazione
In generale due o più individui possono giudicare diversamente, cioè attribuire
un diverso grado di fiducia allo stesso evento. Tuttavia aumentando le infor-
mazioni comuni in possesso dei due individui, anche la quota di scommessa
tenderà ad uniformarsi.
Per esempio, riguardo sempre ad una partita di calcio, se prima del fischio
di inizio, due scommettitori avevano dato rispettivamente il 60% e l’80% di
vittoria alla squadra di casa e quindi due quote differenti, se il primo tempo
finisce con la squadra di casa in vantaggio di due goal, sicuramente il primo
scommettitore sarà ben disposto ad equiparare la sua scommessa con quella
del secondo.
In generale, quindi per risolvere il problema della scelta di p, occorre che si
fissi l’attenzione non solo sull’evento E, oggetto diretto di studio, ma anche
Introduzione - Eventi condizionati e probabilità condizionata
su altri eventi, che contribuiscono a determinare ed a modificare il nostro stato
di informazione su E.
Si consideri il lancio di un dado per due volte. Vogliamo calcolare la probabilità che la somma dei due lanci sia 5. Indichiamo con A questo
4
evento. Prima di effettuare il lancioP (A) = 36
.
Supponiamo che al primo lancio sia uscito il 3. Allora la probabilità dell’evento A, visto l’esito del primo lancio, diventa P (A) = 16 , in quanto nel
secondo lancio dovrà uscire il 2, cioè un caso favorevole su sei possibili.
ESEMPIO 1.1
In un’urna vi sono 10 palline numerate da 1 a 10. La probabilità
di estrarre un numero pari è 12 . Una persona estrae una pallina senza farcela
vedere e ci dice che è minore di 8. Il nostro stato di informazione è cambiato
e lo spazio si riduce all’insieme H = 1, 2, 3, 4, 5, 6, 7 .
La probabilità dell’evento iniziale diventa 37 .
ESEMPIO 1.2
IV.2 Eventi condizionati e probabilità condizionata
Gli strumenti che ci aiuteranno nella scelta della probabilità più adatta tra
quelle coerenti sono il concetto di probabilità condizionata e il teorema di
Bayes che, come vedremo, hanno un’importanza fondamentale nelle appli-
cazioni al problema dell’inferenza statistica. Il calcolo della probabilità di un
evento E, anche se non specificato, è sempre condizionato all’evento certo .
Se per effetto di una scelta o di un aumento di informazione od altro, l’insieme
dei casi possibili
può ridursi ad un insieme H
il ruolo che prima era di
, quest’ultimo giocherà
, cioè verrà calcolata la probabilità dell’evento E
condizionata ad H, P (E H).
Definiamo l’evento E subordinato (o condizionato ) ad H,
E H, come l’evento tale che:
DEFINIZIONE 2.1
E H è vero se, essendo vero H, è vero E.
34
E H è falso se, essendo vero H, è falso E.
E H non assume alcun valore logico, cioè E H non è definito, se è falso
H.
OSSERVAZIONE 2.1
o falso.
Quando H risulta falso, non interessa sapere se E è vero
Nel caso H = la terza alternativa, cioè l’indeterminazione, non può presentarsi in quanto è sempre vero.
OSSERVAZIONE 2.2
Vediamo adesso di definire la probabilità dell’evento subordinato.
Da un punto di vista soggettivo, P (E H) è la misura del grado di fiducia che
un individuo coerente ripone nel verificarsi di E, valutata nell’ipotesi che H
sia vero.
Diremo che un individuo effettua una scommessa di importo p su un evento condizionato E H se, dato p
e qualunque sia la
quota S > 0, è disposto a pagare (o ricevere) la somma pS, con la condizione
di riscuotere la quota S se risulteranno veri sia H che E (scommessa vinta),
niente se risulterà vero H e falso M (scommessa persa), il rimborso della puntata pS se H risulterà falso (scommessa annullata).
DEFINIZIONE 2.2
In particolare quindi il concetto di scommessa condizionata su E H generalizza il concetto di scommessa, che avevamo già visto per gli eventi non con-
dizionati o per meglio dire condizionati ad , con l’aggiunta della scommessa
annullata, che non si poteva presentare nel caso E
vero.
, in quanto
è sempre
Si dice probabilità di un evento condizionato E H, e si
indica con P (E H), un numero reale p, tale che una scommessa di importo
p su E H sia equa e coerente.
DEFINIZIONE 2.3
Con una dimostrazione, basata sul principio di coerenza, analoga a quella fatta
per P (E), si trova che anche la P (E H) soddisfa le tre proprietà:
35
Introduzione - Il teorema delle probabilità composte
0 P (E H) 1,
P ( H) = 0, P (H H) = 1,
P (E1 H) + P (E2 H) + ....... + P (En H) = 1.
IV.3 Il teorema delle probabilità composte
Vediamo adesso il legame tra la probabilità condizionata P (E H) e la probabilità di H, P (H).
TEOREMA 3.1 (delle probabilità composte)
Siano E ed H due eventi. L’uguaglianza P (E H) = P (H)P (E H) è
condizione necessaria e sufficiente per la coerenza.
Dimostrazione. La valutazione sia coerente. Se P (H) S è l’importo che
giùdico equo pagare per ricevere S se si verifica H, prendendo S = P (E H),
giudico equo pagare P (H)P (E H) per ricevere P (E H) se si verifica H.
Se H è vero, è equo pagare P (E H) per ricevere 1 se si verifica anche E.
In conclusione, dovremo giudicare equo pagare P (H)P (E H) per ricevere
1 se si verificano entrambi H ed E, ma il prezzo equo per tale evento è per
definizione P (E
H). Allora si ha: P (E
H) = P (H)P (E H).
Viceversa supponiamo valga la relazione precedente e facciamo vedere che la
valutazione è coerente.
Posto p = P (E H), p0 = P (H), p00 = P (E
somme puntate rispettivamente su E H, H, E
I guadagni nei tre casi possibili saranno:
H), siano pS, p0 S 0 , p00 S 00 le
H.
1. Se non si verifica H, cioè si verifica H c :
g1 = pS
(pS + p0 S 0 + p00 S 00 ) =
p0 S 0
p00 S 00 ,
cioè, cade la scommessa su E H, non essendosi verificata l’ipotesi H e
lo scommettitore recupera la somma pS.
36
2. Se si verifica E
H:
g2 = S + S 0 + S 00
(pS + p0 S 0 + p00 S 00 ) = S(1
p) + S 0 (1
3. Se si verifica H ma non E, cioè si verifica E c
g3 = S 0
(pS + p0 S 0 + p00 S 00 ) =
guadagni avendo definito
= (1
1
H:
pS + S 0 (1
Consideriamo adesso la combinazione lineare
p0 ),
2
p0 ) + S 00 (1
1 g1
p0 )
+
p00 S 00 .
2 g2
= p p0 e
3
+
3 g3
dei tre
= p0 (1
Svolgendo i relativi calcoli elementari, che non stiamo a riportare, si ha:
(1
p0 ) ( p0 S 0
+p0 (1
p00 S 00 ) + p p0 (S(1
p) ( pS + S 0 (1
ma la quantità p p0
p0 )
p) + S 0 (1
p00 S 00 ) = S 00 (p p0
p00 non è altro che P (H
nulla per ipotesi. Dunque si ha:
p p0 g1 + p0 (1
e, essendo le quantità p, p0 , (1
p)g2 + (1
p) e (1
E)
p0 ) + S 00 (1
p00 );
p00 ).
p).
p00 )) +
P (H)P (E H), che è
p0 )g3 = 0
p0 ) tutte positive, i tre guadagni non
possono avere il medesimo segno e la valutazione è quindi coerente.
Si dimostra facilmente che, se H
allora: P (E H) = 1.
OSSERVAZIONE 3.1
Infatti P (E H) =
P (E H)
P (H)
=
P (H)
P (H)
E e P (H) > 0,
= = 1.
Quella sopra riportata è, evidentemente la definizione
bayesiana. Come visto nella nota 5.3, le impostazioni classica e frequentista
non danno definizioni qualitative e quindi si limitano a porre, per definizione
e nel caso in cui sia P (B) = 0, P (A B) = P P(A(B)B) .
OSSERVAZIONE 3.2
37
Introduzione - Il teorema delle probabilità composte
Tre macchine M1 , M2 e M3 producono lo stesso pezzo. La
prima produce il 20% di tutti i pezzi, la seconda il 45% e la terza il 35%.
Da rilevazioni statistiche si sa che la macchina M1 ha in media uno scarto
di pezzi (perché difettosi) del 5%, la maccina M2 dell’8% e la macchina M3
del 4%. Scelto a caso un pezzo dal magazzino qual è la probabilità che sia
difettoso?
Indicati rispettivamente con M1 , M2 , M3 gli eventi: M1 = ‘‘Il pezzo è prodotto
da M1 ’’, M2 = ‘‘Il pezzo è prodotto da M2 ’’, M3 = ‘‘Il pezzo è prodotto da
M3 ’’, D = ‘‘Il pezzo è difettoso’’, le rispettive probabilità sono P (M1 ) =
20
45
35
, P (M2 ) = 100
e P (M3 ) = 100
.
100
I valori 5%, 8%, e 4% rappresentano rispettivamente le probabilità degli eventi
condizionati P (D M1 ), P (D M2 ) e P (D M3 ) dove si è posto:
P (D Mi ) = ‘‘probabilità che il pezzo difettoso sia prodotto da Mi ’’. L’evento
D è unione degli eventi disgiunti D M1 , D M2 e D M3 cioè
D = (D M1 ) (D M2 ) (D M3 ) .
Applicando il teorema delle probabilità totali e successivamente quello delle
probabilità composte si ottiene:
P (D) = P ( D M1 ) + P ( D M2 ) + P ( D M3 ) =
= P ( M1 )P ( D M1 ) + P ( M2 )P ( D M2 ) + P ( M3 )P ( D M3 ) =
20 5
45 8
35 4
6
= 100
+ 100
+ 100
= 100
= 6%.
100
100
100
Quindi P (D) = 6%.
ESEMPIO 3.1
Continuando l’esempio precedente, supponiamo di aver preso
un pezzo dal magazzino e di averlo trovato difettoso. Qual è la probabilità che
esso sia stato prodotto dalla macchina M1 , sapendo che il tasso di difettosità
totale è del 6%, cioè quello appena trovato?
5 20
1 D)
1 )P (M1 )
P (M1 D) = P (M
= P (D | PM(D)
= 1006100 = 16 = 16%. E analogaP (D)
100
mente per le altre due macchine.
ESEMPIO 3.2
Cerchiamo adesso di applicare il concetto della probabilità condizionata a più
eventi.
TEOREMA 3.2 (delle cause totali)
Siano A1 , A2 , ..., An una partizione di
ha: P (B) =
n
i=1
P (B Ai )P (Ai ).
38
e sia B un evento in . Allora si
Dimostrazione - È facile vedere che B =
n
B), dove gli eventi tra
(Ai
i=1
parentesi sono a due a due incompatibili. Applicando l’Assioma di semplice
additività, si ottiene P (B) = P (
n
i=1
(Ai
B)) =
n
i=1
P (Ai
teorema delle probabilità composte, diventa: P (B) =
come si voleva.
n
i=1
B) che, per il
P (B Ai )P (Ai ),
Supponiamo che l’evento B si verifichi a diverse condizioni, relativamente
alla natura delle quali si possono fare n ipotesi H1 , H2 , ..., Hn mutuamente e-
sclusive. In qualche modo quindi noi conosciamo le probabilità P (H1 ), P (H2 ),
..., P (Hn ) di queste ipotesi prima di eseguire la prova.
Dunque sostituendo gli Ai con gli Hi , cioè con le ipotesi ammissibili per B, si
ottiene: P (B) =
n
i=1
P (B Hi )P (Hi ), cioè la probabilità di B è uguale alla
somma delle probabilità di B condizionate all’ipotesi Hi , per la probabilità
dell’ipotesi stesse, che avevamo prima dell’effettuazione dell’esperimento e
dette perciò a priori.
Le ipotesi Hi rappresentano quindi, le informazioni in possesso di colui che
effettua l’esperimento.
La probabilità è perciò sempre subordinata all’esperienza e, come diceva lo
stesso Laplace, varia con essa.
Vediamo come l’esempio seguente metta in evidenza tale concetto, che, ricordiamo, è alla base di tutta la concezione soggettivista-bayesiana della probabilità e della statistica.
ESEMPIO 3.3
due teste.
Supponiamo di avere 10 monete, 9 normali e una truccata con
39
Introduzione - Il teorema delle probabilità composte
Se ne estrae una a caso e senza guardarla, si lancia 6 volte, ottenendo 6 volte
testa. Indichiamo con E questo evento. Vogliamo calcolare la probabilità che
la moneta estratta sia quella truccata.
Ponendo H = ‘‘la moneta è quella truccata’’, si ha, prima dell’esperimento,
1
P (H) = 10
.
Poichè H E, ne segue P (E H) = P (H) ed inoltre, per il teorema delle
probabilità composte, P (E H c ) = P (E H c )P (H c ).
Essendo P (E H c ) = 216 , cioè la probabilità di ottenere 6 volte testa senza che
la moneta estratta sia quella truccata, e tenendo presente che H e H c costituiscono
un partizione di e che quindi si può applicare il teorema delle probabilità
totali, si ha:
1
H)
P (E | H)P (H)
10
P (H E) = P (E
=
=
= 64
.
1
c
c
P (E)
P (E | H)P (H)+P (E | H )P (H )
73
+ 1 9
1
Concludendo, abbiamo visto come la valutazione iniziale P (H) = 10
, che
non tiene conto dell’informazione acquisita con l’osservazione di E, cioè con
l’esperienza, si modifica in quella finale P (H E) = 64
, molto prossima ad
73
1.
10
26 10
Consideriamo l’estrazione di carte senza ripetizione. Alla prima
estrazione la probabilità di estrarre una figura da un mazzo di 40 carte è 12
.
40
11
12
Alla seconda estrazione vale 39 se è uscita una figura , o 39 se non è uscita una
figura alla prima estrazione.
Supponiamo adesso, che il risultato della prima estrazione non sia noto e si
calcoli la probabilità di scoprire una figura alla seconda estrazione. Indichiamo con B = ‘‘la seconda carta estratta è una figura’’. Si ha:
12
28
P (B) = P (B H)P (H) + P (B H c )P (H c ) = 11
+ 12
= 12
.
39 40
39 40
40
Cosi, se non sappiamo che cosa è successo alla prima estrazione, la probabilità
per noi resta la stessa; e questo vale anche per la terza estrazione, per la quarta,
e così via fino all’ultima carta.
ESEMPIO 3.4
A un individuo vengono presentate tre carte da gioco: l’asso di
cuori e i due re neri. Le carte vengono coperte e mischiate e gliene viene fatta
scegliere una a caso. Gli viene assicurato che se la carta selezionata è l’asso,
riceverà un premio. La probabilità che egli riceva il premio è evidentemente
1
.
3
A questo punto chi guida il gioco guarda le due carte restanti e ne scopre una,
mostrando un re. È cambiata la probabilità di aggiudicarsi il premio per il
nostro amico? e perché? Da una parte, le carte rimaste in gioco sono solo due
ESEMPIO 3.5
40
e quindi si può pensare che la nuova probabilità sia 12 ; dall’altra, che almeno
una delle due carte coperte raffigurasse un re era già noto dall’inizio e non
si vede come l’aver saputo quale fosse quella carta possa aver cambiato il
giudizio iniziale.
Se gli viene proposto di scambiare la sua carta con quella rimasta coperta,
deve accettare?
Rimandiamo la discussione di questo problema a quando ne sapremo di più
(Esempio 1.4 del Capitolo V)
IV.4 Indipendenza stocastica
Nella vita quotidiana il concetto di indipendenza è all’ordine del giorno e nello
stesso tempo molto intuitivo. Per esempio gli eventi: A =‘‘domani pioverà’’
e B =‘‘la ragazza del terzo piano ha i capelli rossi’’ sarebbero da qualunque
persona definiti indipendenti.
Il concetto di indipendenza intrinseco nelle persone è quindi un concetto di
tipo logico, o per meglio dire causale, cioè l’uomo comune cerca di trovare
dei collegamenti tra i vari eventi.
Noi qui introdurremo invece, un altro tipo di indipendenza che va sotto il nome
di indipendenza stocastica, ed abbiamo fatto questa breve introduzione proprio
per mettere in guardia il lettore da eventuali confusioni.
Siano A e B due eventi con probabilità diversa da zero. Consideriamo il caso
in cui la probabilità dell’evento A, noto B, sia uguale alla probabilità iniziale
di A, cioè: P (A B) = P (A). In tal caso quindi la conoscenza dell’evento B,
non influisce sulla previsione di A e analogamente neppure la conoscenza di
A influisce su quella di B. Sotto queste ipotesi allora possiamo dire che A e
B sono eventi stocasticamente indipendenti.
41
Introduzione - Indipendenza e probabilità soggettiva
Per arrivare a dare una definizione rigorosa del concetto di indipendenza stocastica, riferiamoci al teorema delle probabilità composte, che nel caso la
probabilità di A non venga influenzata dalla conoscenza di B, assume la seguente
forma:
P (A
B) = P (A B)P (B) = P (A)P (B).
Due eventi A e B si dicono stocasticamente indipendenti
o, semplicemente, indipendenti, se vale: P (A B) = P (A)P (B).
DEFINIZIONE 4.1
Lancio per due volte una moneta. Siano E1 , E2 i seguenti
eventi: E1 = ‘‘si ottiene testa al primo lancio’’ e E2 = ‘‘si ottiene croce al
secondo lancio’’. Sia = T T, T C, CT, CC .
Si ha: P (E1 ) = P ( T T, T C ) = 12 , P (E2 ) = P ( CC, T C ) = 12 e
P (E1 E2 ) = P ( T C ) = 14 = 12 12 = P (E1 )P (E2 ), quindi i due eventi
sono indipendenti.
ESEMPIO 4.1
Supponiamo che A e B siano due eventi indipendenti o eventi
che ci sembra ragionevole considerare tali. Consideriamo per esempio un insieme di 1000 persone. Di queste 70 fumano la pipa, le altre no; 300 hanno
un’altezza maggiore di 176 cm, gli altri no; 21 fumano la pipa ed hanno un’altezza maggiore di 176 cm.
Consideriamo i due eventi: A = ‘‘fumare la pipa’’ e B = ‘‘Avere un’altezza
maggiore di 176 cm’’. Essi sono ‘‘intuitivamente’’ indipendenti. Non vediamo
come l’uno possa influire sull’altro.
Ma che cosa succede per le corrispondenti probabilità? Esse sono: P (B) =
300
= 1000
= 0, 3; P (B A) = 21
= 0, 3.
70
Quindi P (B) = P (B A) e dunque sono anche stocasticamente indipendenti.
Tuttavia va osservato che non lo sarebbero più, se i fumatori più alti di 176 cm
fossero per esempio 20. Quindi questo esempio mette ancora in evidenza la
differenza tra indipendenza stocastica e indipendenza logica.
ESEMPIO 4.2
42
IV.5 Indipendenza e probabilità soggettiva
Adesso vogliamo indirizzare l’attenzione del lettore sul fatto che l’indipendenza non è una proprietà intrinseca degli eventi, ma dipende dalla probabilità
ed è dunque anch’essa un concetto soggettivo.
Si lancia una moneta per due volte. Si considerino gli eventi:
A = ‘‘non si ottiene sempre testa o sempre croce’’; B = ‘‘non si ottiene più di
una testa’’; allora = T T, CT, T C, CC , P (A) = 12 e P (B) = 34 . Dunque,
P (A B) = P ( T C, CT ) = 12 = 34 12 = P (A)P (B), quindi i due eventi
non sono indipendenti. Supponiamo adesso di fare tre lanci.
Allora = T T T, T CT, T T C, T CC, CT T, CCT, CT C, CCC . Si ha:
P (A) = P ( T CT, T T C, T CC, CT T, CCT, CT C ) = 34 ,
P (B) = P ( CCC, CT C, CCT, T CC ) = 12 e
P (A B) = P ( CT C, CCT, T CC ) = 38
Quindi si ottiene: P (A B) = 38 = 34 12 = P (A)P (B).
In questo caso A e B sono indipendenti. Il motivo per cui gli eventi A e
B danno luogo a conclusioni opposte per quanto riguarda l’indipendenza, è
dovuto al fatto che nei due casi è diversa l’assegnazione di probabilità dei
singoli eventi elementari.
ESEMPIO 5.1
Altro esempio a proposito è questo:
Si consideri un mazzo di 52 carte ed uno da 56 dove abbiamo
aggiunto quattro jolly. Dati gli eventi A = ‘‘si pesca una carta di cuori’’ e
B = ‘‘si pesca un tre’’, valutiamone l’indipendenza nel caso delle 52 carte e
1
in quello delle 56. Nel primo caso si ha P (A) = 14 e P (B) = 13
. Quindi
1
1
1
P (A B) = P (‘‘si pesca il tre di cuori) = 52 = 4 13 = P (A)P (B),
dunque A e B sono indipendenti.
1
Nel secondo caso invece P (A) = 13
e P (B) = 14
. Si ottiene:
56
1
13 1
P (A B) = 56 = 56 14 = P (A)P (B), dunque A e B non sono indipendenti.
ESEMPIO 5.2
Questo risultato conferma la natura soggettiva della probabilità, cioè dipen-
dente dalle informazioni di cui dispone il soggetto che effettua le valutazioni e
di conseguenza del concetto di indipendenza che coinvolge non solo gli eventi
considerati ma anche le probabilità ad essi assegnate.
43
Introduzione - Proprietà.
IV.6 Proprietà.
TEOREMA 6.1
Siano A e B due eventi indipendenti, con probabilità diversa da zero. Allora anche Ac e B , A e B c , Ac e B c sono indipendenti.
Dimostrazione. Dimostriamo per esempio la terza, lasciando le altre per esercizio.
P (Ac
+P (A
B c ) = P ((A
P (B)(1
B) =
1
P (A)) = (1
B)c ) = 1
P (A)
P (A
B) = 1
P (A)
P (B) + P (A)P (B) = 1
P (A))(1
P (B)) P (Ac )P (B c ).
P (B) +
P (A) +
Generalizziamo adesso il concetto di indipendenza a più eventi. Supponiamo
di avere un’urna con 8 palline indistinguibili di cui 4 rosse e 4 nere.
Peschiamo 3 palline, rimettendo ogni volta nell’urna la pallina estratta. Consideriamo gli eventi:
A = ‘‘La prima estratta e la seconda sono di colore diverso’’;
B = ‘‘La prima estratta e la terza sono di colore diverso’’;
C = ‘‘La seconda estratta e la terza sono di colore diverso’’;
= RRR, RRN, RNR, N RR, N RN, NN R, RNN, N NN .
A ciascuno degli eventi elementari è possibile assegnare probabilità . Si ha:
P (A) = P ( RNR, RN N, N RN, NRR ) = 12 ,
P (B) = P ( RRN, RNN, N NR, NRR ) = 12 ,
P (C) = P ( RRN, RNR, NRN, N NR ) =
P (A
B) = P ( RNN, NRR ) =
P (B
C) = P ( RRN, NN R ) =
P (A
C) = P ( RN R, N RN ) =
1
4
1
4
1
4
=
=
=
44
1
2
1
2
1
2
1
2
1
2
1
2
1
2
e
= P (A)P (B),
= P (A)P (C),
= P (B)P (C).
Capitolo V - Dal teorema di Bayes all’inferenza statistica
Tuttavia P (A
B
C) = 0 = P (A)P (B)P (C) =
12
.
8
Dunque gli eventi A, B, C sono a due due indipendenti ma non lo sono a tre
a tre.
Sia E1 , E2 , ..., En una famiglia di eventi. Essi si dicono
indipendenti se vale:
DEFINIZIONE 6.1
h
n, f :h
n f iniettiva, P (Ef (1) Ef (2) ... Ef (h) ) = P (Ef (1) )P (Ef (2) )
... P (Ef (h) ).
In parole povere, si dicono indipendenti, se comunque prendo un sottoinsieme
E10 , E20 , ..., Ek0 della famiglia, si ha:
P (E10
E20
...
Ek0 ) = P (E10 )P (E20 ) ... P (Ek0 ).
Questa definizione quindi non si limita a richiedere l’indipendenza a coppie
che, come abbiamo visto nell’esempio precedente, non è sufficiente.
45