1. probabilita - Benvenuto sul nuovo sito AISV

1. PROBABILITÀ
A. Federico
ENEA; Fondazione Ugo Bordoni
Scuola estiva di fonetica forense
Soriano al Cimino 17 – 21 settembre 2007
SOMMMARIO
1. Spazio degli eventi
2. Spazi degli eventi discreti e continui
3. Probabilità
4. Calcolo combinatorio
5. Esercizi
6. Formula di Bayes
7. Rapporti di verosimiglianza
8. I test di diagnostica medica
ESPERIMENTI, SPAZI DEGLI EVENTI
Un insieme S contenente tutti i possibili risultati di un
esperimento, come ad esempio l’alfabeto di un
messaggio, è detto spazio degli eventi; ciascun
risultato, come ciascun simbolo dell’alfabeto, è un
elemento di S.
Lo spazio degli eventi S corrispondente al lancio di un
dado contiene 6 elementi S = {1,2,3,4,5,6} ed è un
esempio di spazio degli eventi finito. Se si considera
come evento il numero di volte che un dado deve
essere lanciato prima di ottenere un 6, si ha invece
uno spazio degli eventi, ancora discreto, ma infinito,
dove ogni numero intero positivo è un possibile
risultato.
DEFINIZIONI
Spazio degli eventi “S”: l’insieme di tutti i risultati
possibili di un esperimento. Può essere discreto,
discreto non numerabile o continuo con un numero
qualsiasi di dimensioni.
Evento “E”: un qualsiasi sottoinsieme di S.
Ogni definizione di probabilità deve essere data con
rigoroso riferimento ad un evento “E” ed a uno spazio
degli eventi “S”.
Sono possibili diversi approcci alla definizione della
probabilità di un evento E  S.
DEFINIZIONI
Bernoulli: se un evento E può verificarsi in h modi tra
n equiprobabili che definiscono S, la probabilità P(E)
vale h/n.
Campionaria: se ripetendo un esperimento E un
numero di volte n, grande a piacere, l’evento si ripete
h volte, lim n∞ P(E) = h/n.
Assiomatica: una funzione reale P(E) definita per ogni
E S è una funzione di probabilità se P(E)0; P(S)=1
Se:
E1E2  … Ek = null:
P(E1E2  … Ek )= P(E1)+P(E2) + … P(Ek)
SPAZI BERNOUILLIANI DI EVENTI EQUIPROBABILI
La definizione classica di probabilità matematica P,
dovuta a Bernoulli e Laplace, assume che tutti i
risultati possibili di un esperimento siano ugualmente
probabili e che lo spazio degli eventi sia finito.
Queste circostanze si determinano in un grandissimo
numero di casi di interesse pratico. In molti casi
ancora ci si può ricondurre a questa ipotesi con
opportune scomposizioni degli eventi. Se s è un
insieme di n casi tra gli N possibili equiprobabili P =
n/N. Se P = 0 si ha il caso impossibile; se P = 1 il caso
certo. La probabilità diviene quindi un problema di
conteggio che si può gestire con i metodi del calcolo
combinatorio.
PROBABILITÀ
La teoria della probabilità studia concetti e metodi
per esprimere quantitativamente il grado di fiducia
sul verificarsi degli eventi.
A ciascun evento di uno spazio S può essere
associata una probabilità, che, dal punto di vista
matematico, è una funzione definita sull'insieme
degli eventi.
In assenza di informazioni sul processo stocastico
si stima la probabilità con la statistica, contando i
casi favorevoli nelle serie storiche. E’ tuttavia
perfettamente lecito assumere il proprio grado di
fiducia come misura soggettiva della probabilità
degli eventi.
PROPRIETÀ ADDITIVA (ASSIOMATICA)
Se A e B sono due eventi qualsiasi di S, allora:
P(A  B) = P(A) + P(B) − P (A  B) ≤ 1
Infatti sommando semplicemente P(A) e P(B), la
probabilità P (A  B) verrebbe contata due volte e P
potrebbe superare l’unità.
DIAGRAMMI AD ALBERO DEGLI EVENTI
DIAGRAMMI DI VENN
Si consideri un rettangolo: per ogni numero naturale
n, si disegnino, dentro 1, n linee chiuse Ai tali che
l’insieme S1,…,Sh delle h = 2n superfici individuate
costituisca una partizione di 1; si prova che ciò è
sempre possibile. La figura Vn così ottenuta è un
diagramma di Venn relativo ad n.
I TEOREMI DEL CALCOLO DELLE PROBABILITÀ_1
1.
Se E1E2 P(E1)  P(E2)
P(E2-E1) = P(E2) - P(E1)
2.
3.
4.
0  P(E) 1
P(S  E) = 1 - P(E)
“Delle probabilità composte”:
P(E1E2  E3 ) = P(E1) + P(E2) + P(E3)
- P(E1E2) - P(E3E2)) - P(E1E3))
+ P(E1E2 E3)
I TEOREMI DEL CALCOLO DELLE PROBABILITÀ_2
5. “Della probabilità condizionata”:
P(E2 , E1) = P(E2) P(E1E2) = P(E1) (E2E1)
in particolare, se gli eventi sono indipendenti:
P(E2 , E1) = P(E1) P(E2)
6. “Formula di Bayes”:
se i E i = S; per i =1, … k
P(EiE) = P(Ei) P(EEi) /
i P(Ei) P(EEi).
FORMULA DI BAYES PER DUE EVENTI
Siano B1 e B2 due eventi di SB mutuamente esclusivi e
tali che P(B1  B2) = 1:
Qualunque sia AS e P(B), vale la formula di Bayes:
P(B/A) = P(A/B) P(B) / [P (A  B1) P(B1) + P(A  B2) P(B2)]
PROPRIETÀ MOLTIPLICATIVA DELLA PROBABILITÀ
Se A e B sono due eventi qualsiasi appartenenti
rispettivamente agli spazi degli eventi SA, SB, allora la
probabilità che si verifichino entrambi:
P(A,B) = P(A) P(B/A) = P(B) P(A/B)
Le quantità P(A/B), P(B/A) sono probabilità
condizionate o condizionali. E' naturale che la
probabilità di un evento possa modificarsi se
cambiano le informazioni in nostro possesso. Il
concetto
di probabilità
condizionata
traduce
formalmente l'idea intuitiva che un evento possa
influenzare un altro evento.
Quando e se P(A,B) = P(A) P(B), gli eventi A e B sono
statisticamente indipendenti.
LA VEROSIMIGLIANZA
Sia stata estratta una sequenza  di 2 palle rosse e 3
bianche (con reimbussolamento) da una tra due
urne R (3/4 di palle rosse) e B (3/4 di palle bianche).
La probabilità della sequenza, se l’estrazione
avviene da R, è P(/R) = 32/45, se avviene da B, P(/B)
è 3 volte tanto.
Le due probabilità di , se considerate come funzioni
di R, L(R|) e di B, L(B|), sono le verosimiglianze
delle due ipotesi mutuamente esclusive R, B.
Si noti che L(A)+L(B)<1.
UN CASO ESEMPIO
Un’urna viene caricata con 10 palline scelte a caso
tra i colori rosso e bianco. Per un’ipotesi sulla
composizione più verosimile dell’urna (R;10-R) viene
estratta con reimbussolamento una serie che risulta
essere di a palline rosse e b bianche. La formula di
Bayes:
P(a,b/R) = P(R/a,b) P(a,b)/P(R) = L(a,b|R/) P(a,b)/P(R)
poiché gli ultimi due termini sono invarianti rispetto
a R, dice che la verosimiglianza è massima quando è
massima la probabilità a posteriori della sequenza :
d/dR (R/10)a ((10-R)/10)b = 0
R = 10 b/(a + b)
per a = b
R=5
LA PROBABILITÀ IN FORMA DI CHANCES (ODDS)
Le chances in favore di un evento E sono:
(E) = P(E)/(1 - P(E)).
Le chances contro E, ovvero in favore di S  E
(S  E) = (E) = (1 - P(E)/ P(E)).
CHANCES, ODDS
CONTRO "E"
IN FAVORE DI "E"
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
0
0.1
0.2
0.3
0.4
0.5
P(E)
0.6
0.7
0.8
0.9
1
CALCOLO COMBINATORIO_DISPOSIZIONI
Una disposizione senza ripetizione semplice di
lunghezza k di n oggetti, con k ≤ n, è una
presentazione ordinata di k tra gli n elementi nella
quale non si possono avere ripetizioni di uno stesso
oggetto. Per n = k parleremo di permutazione. Il primo
elemento può essere scelto in n modi diversi, il
secondo in (n - 1) e così via sino al k - esimo che può
essere scelto in (n - k + 1) modi diversi. Pertanto il
numero di disposizioni è dato dal prodotto:
Dnk = n (n-1) (n-k+1) = n!/(n-k)!
Dnn = Pn = n!
Se le ripetizioni sono ammesse il numero delle
disposizioni con ripetizione di lunghezza k di n
oggetti è:
DRnk = nk
CALCOLO COMBINATORIO_COMBINAZIONI
Dalle
disposizioni
otteniamo
le
combinazioni
eliminando le sequenze che differiscono solo per
l’ordine degli elementi, cioè accettando un solo tipo di
ordinamento degli elementi, ad esempio crescente. Si
tratta delle k! sequenze di ordine k ottenibili per
permutazione della sequenza ordinata.
Il numero delle combinazioni senza ripetizione semplici
di lunghezza k di n oggetti, con k ≤ n è dunque il
coefficiente binomiale:
Cnk = Dnk // Pk = n!/[k!(n-k)!]
E se le ripetizioni sono ammesse il numero delle
combinazioni con ripetizione di lunghezza k di n oggetti
si ottiene considerando che ogni elemento può essere
ripetuto k volte in una sequenza, come se agli n oggetti
da combinare ne aggiungessimo altri k-1:
CRnk = (n+k-1)!/[k!(n-1)!]
IL PARADOSSO DEI TRE PRIGIONIERI
Tre prigionieri A, B e C sono in attesa dell’esecuzione
che toccherà ad uno di loro. Solo la guardia sa chi
sarà la vittima.
A chiede alla guardia di dare una lettera scritta di suo
pugno al prigioniero innocente come lui e di dirgli il
nome. La guardia gli dice di aver dato la lettera a B.
A cade in depressione perché pensa che le chance
che aveva prima della sua improvvida iniziativa siano
ora spartite in egual misura con C.
Posto che ora, agli occhi di A P(B)=0 si calcolino:
P(A/B) ?
come P(B/A) P(A)/P(B)
P(C/B) ?
come P(B/C) P(C)/P(B)
SOLUZIONE DEL PARADOSSO DEI TRE PRIGIONIERI
Si scriva con diligenza e pazienza la formula di Bayes
per i due candidati all’esecuzione rimasti dopo
l’evento B cioè la consegna della lettera a B.
P(A/B) = P(B/A) P(A)/P(B) = 1/2
1/3 / 1/2 = 1/3
P(C/B) = P(B/C) P(C)/P(B) = 1
1/3 / 1/2 = 2/3
Fanno la differenza le verosimiglianze di B che, se la
vittima è A vale ½, ma vale ovviamente 1 se la vittima
è C perché la guardia non ha scelta. Tale
verosimiglianza e’ dunque informativa in senso
bayesiano e cambia le probabilità. Si noti en passant
che la somma delle due verosimiglianze e’ 1,5, non
può dunque trattarsi di misure di probabilità.
BAYES: I TEST DI DIAGNOSTICA MEDICA
In un test clinico, un individuo viene sottoposto ad un
esame di laboratorio, per stabilire se ha o non ha una
data malattia.
Il test può avere esito positivo o negativo. C’è però
sempre una possibilità di errore: può darsi che alcuni
degli individui risultati positivi siano in realtà sani
(“falsi positivi”), e che qualcuno degli individui
risultati negativi siano in realtà malati (“falsi
negativi”).
Prima di applicare su larga scala un test nei
laboratori, è quindi indispensabile valutarne la bontà,
sottoponendo al test un campione di persone che
sappiamo già se sono sane o malate.
EFFICACIA DEL TEST
Un paziente sano (S) o malato (M) si sottopone ad un
test diagnostico che può dare un risultato positivo (P)
o negativo (N). Si può scrivere la formula di Bayes per
i due esiti corretti del test tra i quattro possibili :
P(M / P) = P(P / M) P(M) / [P (P / M) P(M) + P (P / S) P(S)]
P(S / N) = P(N / S) P(S) / [P (N / M) P(M) + P (N / S) P(S)]
La qualità diagnostica del test è definita dai due
parametri:
Sensibilità = P(P / M) = 1 - P(falsi negativi)
Potere risolutivo = P-1(P / S) = P-1(falsi positivi)
IL TEST HIV
In Italia c’è un malato di HIV ogni 40.000 persone.
Un paziente si sottopone ad un test con una
procedura che dà statisticamente lo 0,7% di falsi
negativi e lo 0,01% di falsi positivi. Dalla formula
di Bayes risulta che, a test effettuato con esito
positivo, la probabilità a posteriori di essere
ammalato, a volte denominata valore predittivo del
test è pari soltanto al 20%. Se però paziente e
medico si convincono che, in base ai sintomi ed
alle circostanze del possibile contagio, la
probabilità a priori sia ad esempio 10 volte più alta
della media nazionale, il valore predittivo sale al
71%.
LA PROBABILITA’ A PRIORI
Emerge dunque il ruolo determinante della probabilità
a priori che è fondamentalmente determinabile
soltanto sulla base della valutazione soggettiva di un
esperto. L’effetto di moltiplicatore informativo di un
buon test, 8000 volte nel caso esempio, può essere
meno importante. Se il test è positivo:
P(M / P) = P(P / M) P(M) / [P (P / M) P(M) + P (P / S) P(S)]
P(S / P) = P(P / S) P(S) / [P (P / M) P(M) + P (P / S) P(S)]
Se invece il test è negativo il rischio di malattia per il
paziente, in assenza di altri indizi, è di appena 1 su 5
milioni.
BAYES IN FORMA DI CHANCES (ODDS)
Dividiamo termine a termine le probabilità a posteriori
in caso di esito positivo del test, ricordando che si
definisce chance CH (odds in favour of HIV) il
semplice rapporto P/(1-P):
CH(M / P) = P(M /P)/ [1-P(M / P)] =
P(P / M) P(M) / [P(P / S) P(S)]
Si ottiene:
CH(M / P) = sensibilità * risoluzione * CH(M)
e, simmetricamente, nel caso di esito negativo:
CH(S / N) = (1-1/risoluzione) /(1-sensibilità)*CH(S)
IL RAPPORTO DI VEROSIMIGLIANZA
La formule, molto importanti, definiscono nuove entità
statistiche denominate LR, rapporti di verosimiglianza
(likelihood ratio), i termini che moltiplicano
l’informazione a priori, nei due casi P ed S:
P(P / M) / P(P / S) ovvero P(N / S) / P(N / M )
sono rapporti tra probabilità condizionate, cioè nel
caso P : L(M ; P)/ L(S ; P). Si può scrivere anche in questo
modo:
CH(M / P) = LR (M ; P) CH(M) =
= CH(M) * [1 - P(falsi negativi)] / P(falsi positivi)
Mettendo così in relazione diretta il risultato
diagnostico con le proprietà che definiscono la qualità
del test dal punto di vista statistico.