Esercizi risolti di calcolo delle probabilità

ESERCIZI DI CALCOLO DELLE PROBABILITA’
ES 1
Se la probabilità di soffrire di insonnia è pari a 13%, e la probabilità di soffrire di insonnia e cefalee è del 3%,
qual è la probabilità di soffrire di cefalee se si soffre di insonnia?
P(I)=0.13
P(I&C)=0.03
P(C|I)= 0.03 / 0.13=0.23 =23%
ES 2
Supponiamo che la probabilità di ammalarsi di tumore nel corso della vita sia del 20%, e che la probabilità di
secondo tumore (per chi si è già ammalato) sia del 40%. Qual è la probabilità di ammalarsi di tumore due
volte nel corso della vita?
P(T1)=0.2
P(T2|T1)=0.4
P(T1&T2)= 0.2 · 0.4=0.08=8%
ES 3
Supponiamo che, a seguito di trapianto d’organo, ci sia una probabilità del 15% di morire entro 3 settimane.
Qual è la probabilità che, sottoponendo 2 pazienti a trapianto, entrambi sopravvivano alla terza settimana?
Attenzione: P(M)=0.15 si chiede però la probabilità di sopravvivenza dei due pazienti: P(S)=1-P(M)=0.85
P(S&S)= 0.85·0.85=0.7225
ES 4
Uno studente preparato da 30/30 deve sostenere un esame, e ha uguale probabilità di essere esaminato dal
docente A o dal docente B; si sa però che la probabilità di prendere la lode col docente A è del 50%, e col
docente B è del 30%. Qual è la probabilità che prenda la lode? E come cambia questa probabilità se ci sono
minori probabilità di essere interrogato dal docente A, e quindi maggiori di essere interrogato dal docente B?
Dati del problema:
P(A)=P(B)=1/2
P(L| A)=1/2
P(L| B)=3/10
P(L)=P(L|A)·P(A)+ P(L|B)·P(B)=0.5·0.5+0.3·0.5=0.4
Nel secondo caso, p(L) diminuisce, poiché diminuisce il “peso” che si dà a P(L|A) [la “scomposizione” ci fa
vedere che la prob. di L è una sorta di media pesata fra la prob. di L con A e la prob. di L con B]
ES 5
In un ospedale si teme vi sia contaminazione con un raro batterio, con probabilità di contrarne infezione
(evento B) pari a 5%. Un paziente presenta delle convulsioni (evento C). Si sa che in caso di infezione da
quel batterio la probabilità di convulsioni è 90%, mentre se agiscono altri batteri o altre cause essa è solo del
20%. Qual è la probabilità che quel paziente con le convulsioni sia infetto dal batterio B?
P(B)=0.05
P(C | B) =0.9
P(C | non B) =0.2
Si utilizza la formula di Bayes:
P(B | C) = P(B)·P(C | B) / [P(B)·P(C | B)+ P(non B)·P(C | non B)]
= 0.05·0.9 / (0.05·0.9+0.95·0.2) = 0.191
ES 6
Supponiamo che, a seguito di trapianto d’organo, ci sia una probabilità del 15% di morire entro 3 settimane.
Qual è la probabilità che, sottoponendo 10 pazienti a trapianto, 2 sopravvivano alla terza settimana? E la
probabilità che sopravvivano tutti?
Sappiamo che P(M)=0.15 quindi P(S)=1-P(M)=0.85
Qui non è facile risolvere utilizzando solo le formule di base del calcolo delle probabilità. Ad esempio per la
prima domanda posso calcolare la probabilità chei primi 2 sopravvivano P(S&S&M&M&M&…&M)=
2
8
0.85 ·0.15 ma questa è solo una delle possibili stringhe di 2 S e 8 M che danno 2 sopravviventi.
1
E’ molto più facile riconoscere chesi tratta di uno schema del tipo risolto dalla distribuzione Binomiale:
X=numero di sopravviventi ha distribuzione Binomiale con N=10 e π=0.85
10 
Pr ( X = 2 ) =  0.85 2 0.158 = 0.000008
2
10 
Pr ( X = 10) =  0.8510 0.15 0 = 0.197
10 
ES 7
Se la mortalità per influenza A H1N1 è pari a 1 caso di morte ogni 10,000 malati, qual è la probabilità che fra
100 malati non ne muoia nessuno?
Il dato è p(morte | malato) = π = 0.0001. Si vuole conoscere la probabilità che il numero di morti X fra n=100
individui malati sia pari a 0. Si tratterebbe di uno schema Binomiale, ma data la bassa probabilità dell’evento
e l’alto numero di prove, si può applicare la formula della Poisson (che viene infatti detta anche legge degli
“eventi rari”).
Il parametro della Poisson è λ=n·π=0.01
p( X = 0) =
e −0.01 0.010
= e − 0.01 = 0.99
0!
ES 8
Se il peso alla nascita dei neonati maschi è distribuito secondo una Normale di media 2.8 e varianza 0.16,
qual è la probabilità che nasca un bimbo che pesi meno di 1.8 kg?.
Questo è un semplice problema sull’utilizzo della curva Normale. I parametri sono: media µ= 2.8, varianza
2
σ =0.16
deviazione standard σ=0.4.
p(X<1.8) = probabilità sulla N(0,1) che Z sia < del valore standardizzato z:
1 .8 − 2 .8
z=
= −2.5
0 .4
La tabella non ci fornisce Φ(z) (l’area fino a z) se z è negativo; ma questa area è uguale a quella nella coda
destra, e cioè a 1-Φ(2.5); sulle tavole in dotazione agli Studenti (che potrebbero essere diverse se prese da
testi di statistica: attenzione!), in corrispondenza della riga 2.5 e della colonna 0, leggo Φ(2.5) = 0.994 → la
probabilità cercata è 0.006 ≈ 6‰.
ES 9
(Test diagnostico)
Si stima che la celiachia abbia nella popolazione una prevalenza del 1%. Il test diagnostico tTG per la
celiachia presenta sensibilità 97% e specificità 95%.
1) Dire quanto vale la probabilità che un celiaco risulti positivo al test, e quanto vale la probabilità che un
celiaco risulti negativo al test.
2) Dire quanto vale la probabilità che un individuo qualunque della popolazione sia celiaco, e quanto vale la
probabilità che un individuo a cui risulti test positivo sia celiaco.
1) rispettivamente, 0.97 e 0.03
2) la prima vale 0.01, per la seconda applichiamo la formula di Bayes:
P(C | TP) = (0.97·0.01)/(numeratore+0.05·0.99) = 0.164
Il livello di difficoltà dei prossimi esercizi è simile o appena superiore agli esercizi precedenti. Gli
ultimi esercizi (ad es. dal numero 25) possono risultare più complessi. Non seguiamo l’ordine di
presentazione degli argomenti nel corso, in maniera da abituarci a riconoscere il problema (il tipo di
esercizio).
2
ES 10
Supponiamo che una certa forma di allergia respiratoria colpisca di norma 1 individuo ogni 20, mentre le
intolleranze alimentari riguardano il 3.5% dei casi. Supponendo che i due eventi siano indipendenti, qual è la
probabilità di avere entrambi i problemi? e di averne almeno uno? e di averne solo uno?
Il primo step è sempre chiarire gli eventi di cui stiamo trattando, e cosa sappiamo in proposito (che
probabilità conosciamo, se gli eventi sono dipendenti o indipendenti, compatibili o incompatibili, etc)
A =Allergia Respiratoria, p(A)=1/20 =0.05
I = Intolleranza Alimentare, p(I)=0.035.
A ed I eventi indipendenti
Successivamente formalizziamo le domande, e risolviamo:
Probabilità di avere entrambi: p(A & I) [intersezione] = [per la proprietà di indipendenza]
= p(A) ·p(I)=0.05·0.035=0.00175 (approssimando: circa 2 per mille)
Probabilità di averne almeno uno: p(A oppure I) [unione]
= p(A)+p(I)-p(A&I) = 0.05+0.035-0.00175=0.08325 (circa 8.3%)
Probabilità di averne uno solo: vediamo 2 procedimenti.
Il primo utilizza una scomposizione dell’evento in questione:
p( (A & non I) oppure (I & nonA) )
Osserviamo che l’unione [“oppure”] riguarda due eventi incompatibili ossia disgiunti; quindi:
p( (A & non I) oppure (I & nonA) )= p(A & non I) + p(I & nonA) = (*)
Dobbiamo ora risolvere le probabilità di queste due intersezioni. Gli eventi “non I ” e “non A”sono
rispettivamente i complementari di I e A, e quindi:
p(non I)=1-0.035=0.965 ; p(non A)=1-0.05=0.95
Essendo A ed I eventi indipendenti, sono anche indipendenti ciascuno col complementare dell’altro; quindi:
(*) = p(A)·p(non I) + p(I) ·p(nonA)= 0.05·0.965+0.035·0.95=0.04825+0.03325=0.0815
Secondo procedimento, più intuitivo: “solo uno” vuol dire “o l’uno o l’altro ma non entrambi”, il che ci
suggerisce che la probabilità che cerchiamo è:
pr(l’uno o l’altro) - pr(entrambi) = pr(unione) - pr(intersezione) = 0.08325 - 0.00175 = 0.0815
ES 11
La probabilità di una certa malattia genetica (G) è dell’1% nei neonati maschi (M) e dello 0.5% nelle neonate
femmine (F). E’ noto che la probabilità che un neonato sia maschio è pari a 51%. Qual è la probabilità di
avere:
1)
un bimbo maschio malato?
2)
una bimba femmina malata?
3)
un bimbo/a malato/a?
Dati del problema:
P(M)=0.51
P(F)=1-0.51= 0.49 = P(non M)
P(G | M)=0.01
P(G | F)=0.005
1) P(M & G) = P(M) * P(G|M) = 0.51 * 0.01 = 0.0051
2) P(F & G) = 0.49 * 0.005 = 0.00245
3) P(G) = P( (G & M) oppure (G & F) ) = P(M & G) + P(F & G) = 0.0051 + 0.00245 = 0.00755
[Notare la tipica scomposizione: P(G) = P(M) * P(G|M) + P(F) * P(G|F)]
ES 12
In un ospedale un gruppo di 10 pazienti viene sottoposto a un intervento chirurgico in day hospital; dopo
l’intervento tuttavia di solito nel 10% dei casi si ha bisogno di ricovero prolungato.
3
Qual è la probabilità che tutti i pazienti vadano a casa dopo l’intervento?
Qual è la probabilità che almeno uno abbia bisogno del ricovero prolungato?
Rispondere alle stesse domande nel caso che i pazienti siano 300 e la probabilità di ricovero prolungato sia
1%.
X=numero di ricoveri prolungati ~ Binomiale (N=10, p=0.1)
10 
Pr ( X = 0) =  0.10 0.910 = 0.349
0
Pr(X>0) = 1- Pr(X=0) = 0.651
Nel secondo caso X ~ Poisson (λ=Np=300·0.01=3)
Pr(X=0)=0.887=exp(-3)=0.05
Pr(X>0)=1-Pr(X=0)=0.95
ES 13
Secondo uno studio sui consumi alimentari condotto su un gruppo di volontari, il consumo giornaliero di fibra
(in grammi) è distribuito come una Normale con media 5 e deviazione standard 1.5.
1) Quante persone su 100 consumano più di 7 grammi di fibra al giorno?
2) Quante persone su 100 consumano meno di 5 grammi di fibra al giorno?
Pr(X>7)=area nella coda superiore. Z=(7-5)/1.5=1.33
Pr(X<5)=0.5
phi(Z)=0.908
Pr(X>7)=1-0.908=0.092
ES 14
La prevalenza del diabete mellito in Italia è stimata intorno al 4% della popolazione; fra i diabetici, in circa 1
caso su 10 si tratta di diabete di tipo 1. Il 7% dei pazienti con diabete di tipo 1 soffre anche di celiachia.
1) Dire quanto vale la probabilità che una persona abbia il diabete di tipo I
2) Dire quanto vale la probabilità che una persona abbia il diabete di tipo I e la celiachia
Notazioni: Diabete: evento D; Diabete di tipo 1: evento DT1; Celiachia: evento C
Dati del problema:
Pr(D)=0.04
Pr(DT1 | D)=0.1
Pr(C | DT1)=0.07
1) Pr(DT1)=Pr(DT1 | D)·Pr(D) = 0.1·0.04 =0.004
2) Pr(C & DT1)=Pr(C | DT1) ·Pr(DT1)=0.07·0.004=0.00028
ES 15
Supponiamo che il 5% dei pazienti sottoposti a trapianto di cellule staminali muore nel breve termine. In un
reparto specializzato, si eseguono 20 trapianti all’anno.
1) Quanto vale la probabilità che si verifichi un decesso fra i trapiantati del prossimo anno?
2) Quanto vale la probabilità che non si verifichi alcun decesso fra i trapiantati del prossimo anno?
Binomiale con p=0.05 e N=20
1) Pr(X=1)=0.377
2) Pr(X=0)=0.358
 20 
Pr ( X = 1) =  0.0510.9519 = 0.377
1
 20 
Pr ( X = 0) =  0.0500.9520 = 0.358
0
ES 16
Supponiamo che sia noto che le donne che hanno una certa patologia hanno prolemi di sterilità e di
maggiore abortività spontanea; la probabilità che il concepimento riesca (la donna entra in gravidanza) è pari
al 20%, e in caso di gravidanza la probabilità di aborto spontaneo è pari a 15%.
1) Dire con che probabilità una donna con questa patologia ha una gravidanza che si conclude con un
aborto spontaneo.
2) Dire quanto vale la probabilità che una donna con questa patologia riesca a diventare madre.
4
3) Dire quanto vale la probabilità che una donna con questa patologia non riesca a diventare madre.
Notazioni: Gravidanza: evento G; Aborto spontaneo: evento A
Dati del problema:
Pr(G)=0.20
Pr(A | G)=0.15
1) Pr(G&A)=Pr(A | G)·Pr(G) = 0.15·0.20 =0.03
2) Pr(G & nonA)=Pr(nonA | G) ·Pr(G)= (1-Pr(A | G))·Pr(G)=0.85·0.20=0.17
3) Notando che l’evento è il complementare di (G & nonA): prob=1-0.17 = 0.83
Altro procedimento:
“non riesce” = nonG oppure [unione] G&A
p(nonM) = p(nonG) + p(G&A) – 0
=(1-0.2) + 0.03 = 0.83
ES 17
Un medico ha in cura 40 pazienti di una malattia molto grave, che guarisce solo nel 3 per mille dei pazienti.
1) Quanto vale la probabilità che nessuno dei suoi pazienti guarisca?
2) Quanto vale la probabilità che almeno uno dei suoi pazienti guarisca?
3) Quanto vale la probabilità che solamente uno dei suoi pazienti guarisca?
Poisson con tasso lambda=0.003·40=0.12
1) Pr(X=0) =exp(-0.12) =0.887
2) Pr(X>0)=1-Pr(X=0)=0.113
3) Pr(X=1)= =exp(-0.12)·0.12 = 0.106
ES 18
Una certa malattia insorge attorno a una età media pari a 50 anni, con distribuzione Normale caratterizzata
(oltre che da µ=50) da σ=10.
1) Quanti pazienti hanno un’età superiore a 70 al momento della diagnosi?
2) Quanti pazienti hanno un’età compresa fra 60 e 70 al momento della diagnosi?
Pr(X>70)=area nella coda superiore.
70
Z=(70-50)/10=2 phi(Z)=0.977
Pr(X>70)=1-0.977=0.023
Pr(X in (60-70)):
60
Z=(60-50)/10=1
phi(Z)=0.841
Pr(X in (60-70))=0.977-0.841 = 0.136
ES 19
Un insegnante di scuola media è convinto che l’alunno Mario non abbia studiato la lezione, diciamo con
probabilità 70%. Secondo l’esperienza dell’insegnante, se un alunno studia prende Ottimo con probabilità
90%, mentre se non studia solo nel 20% dei casi prende Ottimo. Al compito in classe, Mario prende Ottimo.
Con che probabilità Mario ha copiato – cioè, non aveva studiato?
Mario studia
p(S) = 0.3
Mario non studia [= Mario copia]
Prendere Ottimo
P(O | S) = 0.9
p(non S) = 0.7
P(O | non S) = 0.2
Domanda: P(non S | O).
Si applica la formula di Bayes:
P(non S | O) = P(non S)·P(O | non S) / [P(non S)·P(O | non S) + P(S)·P(O | S)]
= 0.7·0.2 / (0.7·0.2+0.3·0.9) = 0.34
Dunque vediamo come con la formula di Bayes la probabilità a priori si aggiorni attraverso l’acquisizione di
una evidenza. Senza conoscere il risultato del compito in classe, l’insegnante crede che Mario non abbia
5
studiato con probabilità 70%. Avendo visto che Mario ha preso Ottimo, l’insegnante rivede la sua aspettativa
nei confronti dell’evento: ora la probabilità che Mario non abbia studiato è scesa al 34%.
ES 20
Nel concepimento, per una certa tipologia di coppia, la probabilità che il feto presenti una certa
malformazione congenita è pari a 15%; effettuando in gravidanza un test che individua con certezza la
presenza di questa malformazione su 8 donne, con che probabilità si troveranno 2 casi di malformazione? e
nessuno?
Questo è il classico schema Binomiale: ci interessa l’evento (“successo”) “trovare una malformazione”, che
ha probabilità π=0.15, osservato in n=8 “prove” (test in gravidanza). X=numero di successi nelle 8 prove.
Domande: Pr(X=2) e Pr(X=0)
8 ⋅ 7 ⋅ 6 ⋅ K ⋅ 2 ⋅1
p( X = 2) =  8 0.152 ⋅ 0.856 =
0.152 ⋅ 0.856 = 0.237
2
 
(2 ⋅ 1) ⋅ (6 ⋅ 5 ⋅ K ⋅ 2 ⋅ 1)
8!
p( X = 0) =  8 0.150 ⋅ 0.858 =
1 ⋅ 0.858 = 0.272
0
 
0!⋅(8 − 0)!
ES 21
Supponiamo che, a seguito di trapianto d’organo, ci sia una probabilità del 15% di morire entro 3 settimane.
Qual è la probabilità che, sottoponendo 10 pazienti a trapianto, il 10% muoiano entro la terza settimana?
L’unica difficoltà è capire la domanda. Il 10% di 10 pazienti vuol dire 1 paziente. Per la Binomiale,
consideriamo “successo” il decesso, quindi π=0.15:
10 
Pr ( X = 1) =  0.1510.85 9 = 0.347
1
Ma ovviamente se avessimo considerato “successo” la sopravvivenza (come in esercizi molto simili in
questo gruppo) e quindi π=0.85, avremmo ottenuto lo stesso risultato:
10 
Pr ( X = 9) =  0.859 0.151 = 0.347
9
ES 22
La distribuzione del peso di un gruppo di soggetti con disabilità motorie è approssimativamente Normale,
con media 72 e deviazione standard 8. Individuare un intervallo di valori centrato sulla media tale che:
a)
contiene il 95% dei valori osservati
b)
contiene praticamente tutti i valori osservati (e quindi coincide con il range)
c)
contiene il 50% dei valori osservati
Dobbiamo utilizzare le proprietà della Normale.
Nell’intervallo media ± 2·dev.st. cade all’incirca il 95% dei valori (per un valore teorico più esatto, si dovrebbe
usare 1.96 al posto del fattore 2) . Questo risponde al quesito a) . Analogamente, per il quesito b) costruiamo
l’intervallo di raggio 3·dev.st., che contiene il 99.7% dei valori:
a)
72 ± 2·8 = (56,88)
b)
72 ± 3·8 = (48,96)
Per l’ultimo punto, osserviamo che l’intervallo centrato sulla media (=mediana) che contiene il 50% delle
osservazioni è, per definizione dei quartili, l’intervallo (Q1,Q3), dunque calcoliamo i due quartili con la nota
formula:
c)
72 ± 0.67·8 = (66.64,77.36)
ES 23
(Test diagnostico)
Secondo degli studi, il 25% dei figli di genitori che hanno avuto una certa malattia presentano un’anomalia
genetica che aumenta il rischio di sviluppare a loro volta tale malattia. Esiste un test diagnostico per rilevare
la presenza di quell’anomalia genetica con sensitività 80% e specificità 95%.
1) Dire quanto vale la probabilità che il test risulti negativo se il bambino ha l’anomalia genetica, e quanto
vale la probabilità che il test risulti negativo se il bambino non ha l’anomalia genetica.
2) Dire quanto vale la probabilità che un bambino a cui risulti test positivo presenti l’anomalia genetica, e
quanto vale la probabilità che un bambino con anomalia abbia test positivo.
6
1) rispettivamente, 0.20 e 0.95
2) la seconda vale 0.80, per la prima applichiamo la formula di Bayes:
P(A | TP) = (0.80·0.25)/(numeratore+0.05·0.75)= 0.842
ES 24
(Test diagnostico)
Se la prevalenza della microcitemia in una regione è del 15%, somministrando a 100 bambini un test che
individua la presenza di microcitemia con sensitività 80% e specificità 98, quanti test positivi dovremmo
avere?
Dati del test diagnostico:
sensitività = p(P | M) = 80%
specificità = p(N | non M) = 98%
(N = test Negativo)
La “malattia” (essere microcitemico) ha p(M)=15%
Il numero di test positivi è dato dalla somma dei Veri Positivi (i Positivi per i Microcitemici) più i Falsi Positivi
(i Positivi per i non-Microcitemici). I Microcitemici dovrebbero essere 15 (sempre il 15% dei bambini
osservati!), gli altri 85 sono non-Microcitemici. Dunque:
- il numero dei Veri Positivi atteso è: p(P | M)·15 = 0.8·15= 12
- il numero dei Falsi Positivi atteso è: p(P | non M)·85 = (1-0.98)·85= 1.7
→ in totale: circa 14 test risulteranno Positivi.
ES 25
(Test diagnostico)
Lo Skin-prick-test è utilizzato frequentemente per lo screening delle allergie agli alimenti; si tratta di un test
cutaneo che fornisce il risultato in 15 minuti, ha sensibilità pari ad almeno 90%, ma ha una scarsa specificità,
in media pari a 60%.
Parte I
Qual’è il problema principale di questo test? Dire se ciascuna delle seguenti affermazioni è Vera o Falsa.
a) Indica troppi falsi negativi
b) Indica troppi falsi positivi
c) Conduce spesso ad una diagnosi errata di allergia alimentare, mentre il soggetto non è allergico
d) E’ molto probabile che un soggetto allergico risulti negativo al test
Parte II
Secondo alcuni studi, le allergie alimentari si osservano nel 6% circa dei bambini e nell'1.5% degli adulti.
Dire se ciascuna delle seguenti affermazioni è Vera o Falsa e, se Falsa, suggerire una correzione alle parti
sottolineate.
e) Un bambino sottoposto allo Skin-prick-test ha test positivo con probabilità 6%.
f) Un bambino sottoposto allo Skin-prick-test ha test positivo con probabilità 90%.
g) Un adulto allergico sottoposto allo Skin-prick-test ha test positivo con probabilità 90%.
h) Un bambino con Skin-prick-test positivo ha probabilità di essere allergico pari a 13%.
i) La probabilità di essere allergico quando lo Skin-prick-test è positivo è la stessa per adulti e bambini
sensitività = 90% = (introduco un po’ di notazione) p(TP | AL)
specificità = 60% = p(N | non M)
Nella seconda parte del quesito, abbiamo anche la prevalenza, diversa a seconda dell’età del soggetto:
Pr(AL) è 0.6 per i bambini e 0.015 per gli adulti
a) Falso: i falsi negativi sono il 10% (1-sensitività)
b) Vero: i falsi positivi sono il 40% (1-specificità)
c) Vero, è la stessa affermazione del punto b)
d) Falso, è la stessa affermazione del punto a)
e) Falso. La probabilità di Test Positivo va calcolata nel seguente modo:
Sottintendiamo che parliamo di bambini. TP = “Test Positivo”. AL = “Allergico”.
7
Pr(TP)=Pr( (TP & AL) oppure (TP & non AL) ) =
= Pr(TP & AL) + Pr(TP & non AL) =
= Pr(TP | AL) · Pr(AL) + Pr(TP | non AL) · Pr(non AL) =
= sens. · 0.06 + (1-spec) · (1 – 0.06) =
= 0.9 · 0.06 + 0.4 · 0.94 = 0.43
Quindi 43% corregge 6%.
f) Falso: la correzione è “Un bambino allergico” (come suggerisce la seguente affermazione)
g) Vero
h) Vero: risulta calcolando il valore predittivo del test positivo:
Pr(AL | TP)= sens. · prev. / [sens. · prev + (1-spec) · (1 – prev) ] =
= 0.9 · 0.06 / 0.9 · 0.06 + 0.4 · 0.94 = 0.126
i) Falso, poiché per gli adulti la prevalenza è più bassa, ossia è minore la probabilità a priori di essere
allergico, e quindi lo sarà anche la probabilità a posteriori. Verifichiamo facendo il calcolo, in maniera
analoga al punto precedente:
Stavolta parliamo di adulti. TP = “Test Positivo”. AL = “Allergico”.
Pr(AL | TP)= sens. · prev. / [sens. · prev + (1-spec) · (1 – prev) ] =
= 0.9 · 0.015 / 0.9 · 0.015 + 0.4 · 0.985 = 0.033
Per gli adulti, la prob. di essere allergici avendo avuto un test positivo è solo del 3.3%.
ES 26
Un ambulatorio di dietologia si prepara a sottoporre a visita circa 160 persone sovrappeso, a cui
somministrare anche un questionario atto a stabilire quante calorie consumano giornalmente.
Durante la visita, si vorrebbe anche offrire la possibilità di partecipare ad un programma di rieducazione
alimentare, ma solo a soggetti con consumo calorico molto elevato, poichè le risorse a disposizione
permettono di offrire il programma solamente a 40 persone circa. Il problema è di fissare un criterio per
individuare i soggetti da invitare a partecipare al programma.
Supponendo che il consumo calorico giornaliero dei pazienti dell’ambulatorio si distribuisca Normalmente
con media 2100 e deviazione standard 150, quale criterio adottereste?
La proporzione di soggetti che è possibile arruolare nel programma di rieducazione è 40 / 160 = 25%.
Dunque vogliamo determinare la soglia x tale che i soggetti con consumo calorico più alto di x siano pari al
25%. Il valore x tale che Freq(X>x) = 25% è per definizione Q3, il terzo quartile.
Q3 in una N(µ=2100, σ=150) è pari a µ+0.67·σ = 2100+0.67·150 = 4300.5
Ogni soggetto dal cui questionario risulti un consumo calorico superiore a 4300 verrà invitato a partecipare al
programma di rieducazione alimentare
ES 27
Da uno studio sul Body Mass Index effettuato in una popolazione, si stima che il 33% degli individui è
Normopeso, il 50% Sovrappeso, e il 17% Obeso. In questi 3 gruppi, la probabilità di sviluppare una certa
tipologia di malattie cardiovascolari è rispettivamente pari a 1%, 3% e 6%. Sapendo che la popolazione
comprende complessivamente 10,000 individui, calcolare:
8
a) Quanti soggetti obesi dovrebbero complessivamente esserci in questa popolazione;
b) Qual è la probabilità, estraendo a caso un individuo dalla popolazione, che sia un soggetto Normopeso e
si ammali di una di queste malattie;
c) Qual è la probabilità che un individuo scelto a caso in questa popolazione sviluppi una di queste malattie
– e, quindi, quanti casi di malattia ci aspettiamo nella popolazione.
● Eventi e probabilità:
N=Normopeso, S=Sovrappeso, O=Obeso.
p(N)=0.33
p(S)=0.5
p(O)=0.17.
Sono 3 eventi sono incompatibili (disgiunti) e l’unione ricostruisce lo spazio Ω (per riprova: la somma delle
loro probabilità fa 1).
M=sviluppare quella certa tipologia di malattie cardiovascolari. Il testo ci fornisce le probabilità di M nelle 3
situazioni di peso precedenti (probabilità condizionate):
p(M|N)=0.01
p(M|S)=0.03
p(M|O)=0.06
Ultimo dato disponibile: la popolazione comprende n=10,000 individui.
● Passiamo alle domande:
a) p(O)·n = 0.17·10,000= 1,700
b) p(N ∩ M) = p(N)·p(M|N) = 0.33·0.01 = 0.0033 = 3.3 ‰ (per mille)
c) p(M): per impostare il calcolo, dobbiamo considerare che ci si ammala con probabilità diversa a seconda
della condizione di peso, e conosciamo queste probabilità, e inoltre che nella popolazione ciascuna
condizione ha una frequenza (prevalenza) diversa, che pure conosciamo; in pratica, partiamo dalla
considerazione che: ci si ammala e si è Normopeso, oppure Sovrappeso, oppure Obesi:
p(M) = p( (M ∩ N) U (M ∩ S) U (M ∩ O) ) =
= p(M ∩ N) + p(M ∩ S) + p(M ∩ O)
essendo eventi disgiunti (poiché N, S e O disgiunti)
La prima l’abbiamo calcolata, le altre due si calcolano in maniera analoga, quindi:
p(M) = p(M|N)·p(N) + p(M|S)·p(S) + p(M|O)·p(O) = 0.0033+0.015+0.0102 = 0.0285 ≈ 3%
→ numero malati = p(M)·n = 0.0285·10,000= 285
Osserviamo che abbiamo applicato una sorta di media ponderata delle probabilità condizionate di
ammalarsi, con pesi dati dalle prevalenze di ciascuna condizione (la somma dei pesi è pari a 1, come
osservato all’inizio).
Osserviamo anche che l’addendo più grande nell’ultima somma, e quindi il contributo più grande al numero
complessivo di malati, viene dal gruppo dei Sovrappeso: sebbene il rischio sia molto maggiore per gli Obesi
(RROvsN=6, RROvsS=3), esso si applica a una porzione più piccola della popolazione; un piccolo rischio,
applicato a tanti individui, implica un grosso aggravio per la popolazione – questo genere di considerazioni è
utile in ambito epidemiologico e di salute pubblica.
ES 28
Nell’anemia mediterranea, un genitore portatore sano (microcitemico) trasmette l’anomalia genetica al figlio
con probabilità del 50%; se l’individuo eredita l’anomalia da entrambi i genitori, egli si ammala di talassemia;
se la eredita solo da un genitore, egli è a sua volta un portatore sano.
Una coppia di genitori portatori sani genera un Figlio; questo Figlio a sua volta si accoppierà con un soggetto
che non presenta l’anomalia, generando un Nipote della coppia iniziale.
a) Qual è la probabilità che il Figlio sia malato? e la probabilità che sia un portatore sano? e che non erediti
l’anomalia?
b) Qual è la probabilità che il Nipote sia portatore sano?
Utilizziamo delle notazioni semplificate. T=trasmissione dell’anomalia, NT=no trasmissione (complementare)
saranno riferiti sia al genitore 1 che al genitore 2. Osserviamo che la trasmissione da parte del genitore 1
avviene indipendentemente dalla trasmissione da parte del genitore 2.
P(Figlio malato) = P(T & T)=0.5·0.5=0.25
P(Figlio no anomalia) = P(NT & NT)=0.5·0.5=0.25
9
P(Figlio portatore sano) = P( (T&NT) U (NT&T) )= 0.5·0.5 + 0.5·0.5 =0.5
(potevamo ovviamente trovarne una come 1-la somma delle altre due)
P(Nipote portatore sano): dipenderà dallo status del Figlio, mentre il secondo genitore (compagno/a di Figlio)
non può trasmettere l’anomalia
P(Nipote portatore sano | Figlio malato)=1
P(Nipote portatore sano | Figlio no anomalia)=0
P(Nipote portatore sano | Figlio portatore sano)=0.5
Come al solito, si tratta di pesare queste probabilità con le probabilità dei rispettivi eventi condizionanti
(ossia, ricorrere alla solita scomposizione):
P(Nipote portatore sano)=
P(Nipote portatore sano | Figlio malato)·P(Figlio malato)+P(Nipote portatore sano | Figlio no anomalia)· …=
= 1·0.25+0·0.25 +0.50·0.50 = 0.50
ES 29
Un individuo ha, nel corso della vita, una probabilità dello 0.4% (4 per mille) di sviluppare il diabete di tipo 1.
Questa patologia ha una probabile componente genetica; infatti, un soggetto che abbia un fratello/sorella
con diabete di tipo 1 ha un rischio attorno al 5% di sviluppare il diabete di tipo 1, rischio che sale al 30% se il
fratello/sorella è un gemello monozigote (identico).
a) Se John e Mary sono una coppia di sposi, qual è la probabilità che entrambi sviluppino il diabete di tipo I?
b) Se John e Mary sono fratello e sorella, qual è la probabilità che entrambi sviluppino il diabete di tipo I?
La probabilità di malattia p(D) è in generale 0.004. Essa comunque dipende da altre informazioni:
p(D | fratello/sorella malato) = 0.05
p(D | gemello identico malato) = 0.30
Usando i simboli DJ e DM rispettivamente per indicare gli eventi "John si ammala" e "Mary si ammala",
dobbiamo calcolare p(DJ & DM) in due diverse situazioni.
a) coppia sposata = I due eventi sono indipendenti e p(DJ)=p(DM)=p(D)=0.004 =>
p(DJ & DM) = p(DJ)·p(DM)=0.004·0.004=0.000016
b) fratello e sorella. Trattandosi di un maschio e una femmina, non possono essere gemelli identici.
Comunque qui i due eventi non sono indipendenti poichè per esempio p(DJ | DM)=0.05≠0.004
p(DJ & DM)=p(DM)·p(DJ | DM )=0.004·0.05=0.0002
ES 30
Stima di sensitività, predittività e valore predittivo del test diagnostico*
In un laboratorio è stato messo a punto un nuovo test diagnostico per la malattia celiaca basato su un
prelievo di sangue. Si devono quindi stimare sensitività e specificità, attraverso un esperimento controllato.
Gli studiosi prendono 20 pazienti con celiachia confermata dalla biopsia ("malati") e 60 pazienti che sono
stati controllati a seguito di sintomi, ma sono risultati non affetti da celiachia ("non malati"). Su tutti gli 80
soggetti viene poi eseguito il nuovo test, ottenendo I seguenti risultati:
Malato
Non malato
tot
Test +
17
5
22
Test 3
55
58
Tot
20
60
80
Calcolare sensitività e specificità e il valore predittivo del test positivo, assumendo che la prevalenza della
celiachia sia pari a 8%. Comparare quest'ultimo risultato con quello che si otterrebbe usando solo I dati in
tabella: c'è una differenza, e perché?
Dalla tabella si evincono i seguenti valori per i due parametri del test:
sensitività = 17 / 20 = 0.85
specificità = 55 / 60 = 0.92
10
Per il valore predittivo del test positivo, usando la prevalenza = 0.08 e la formula di Bayes, otteniamo:
p( M | T + ) =
sens ⋅ prev
0.85 ⋅ 0.08
=
= 0.47
sens ⋅ prev + (1 − spec ) ⋅ (1 − prev ) 0.85 ⋅ 0.08 + (1 − 0.92) ⋅ (1 − 0.08)
Dunque un soggetto che ottiene un test positivo secondo il nuovo metodo diagnostico
probabilità di essere celiaco - ossia, la biopsia darà risultato positivo con probabilità 47%.
Se invece usiamo i dati in tabella:
ha il 47% di
p(M | T+) = (veri positivi) / positivi = tp / (tp + fp) = 17 / 22 = 0.77
I risultati sono diversi, e il secondo è ERRATO poiché il secondo approccio non usa il valore corretto della
prevalenza, quello sulla popolazione generale, bensì usa il valore della prevalenza ottenuto sulla tabella,
cioè 20/80, il quale non riproduce la situazione nella popolazione, ma è stato fissato dagli investigatori per
convenienza. (Potrebbe darsi che per puro caso o per scelta degli investigatori il valore vero della
prevalenza sia coincidente con il valore stimato nella tabella; generalmente non lo è, solitamente negli
esperimenti il rapporto fra malati e non malati è 1:2 o 1:3)
Dunque con la prevalenza sbagliata e maggiore di quella vera (25%) otteniamo il valore predittivo 77%, più
alto di quello vero.
Per completare l'illustrazione, vediamo un esempio dove la prevalenza stimata è corretta.
Un ampio studio osservazionale ha considerato una popolazione di 100 persone esposte a una sostanza
chimica che può indurre un certo tipo di tumore ematologico. Tutti gli individui sono stati sottoposti a un test
diagnostico di screening per vedere se hanno assorbito grandi quantità della sostanza, ed essere quindi
classificati come soggetti "a rischio" se positivi o "non a rischio" se il test era negativo. Fra le 200 persone,
22 hanno sviluppato quel tipo di tumore. La tabella dei risultati era:
Malato
Non malato
tot
Test +
13
25
38
Test 9
53
62
Tot
22
78
100
Stime:
sensitività = 13 / 22 = 0.59
specificità = 53 / 78 = 0.68
prevalenza stimata: 22/100 = 22%
Questa stima riproduce correttamente la prevalenza nella popolazione. Dunque possiamo usare entrambi gli
approcci per calcolare il valore predittivo del test positivo:
- o la formula di Bayes:
p( M | T + ) =
sens ⋅ prev
0.59 ⋅ 0.22
=
= 0.34
sens ⋅ prev + (1 − spec ) ⋅ (1 − prev ) 0.59 ⋅ 0.22 + (1 − 0.68) ⋅ (1 − 0.22)
- o (più rapidamente) il calcolo della percentuale dalla tabella:
(veri positivi) / positivi = 13 / 38 =0.34
Vediamo anche il valore predittivo del test negativo, che fornisce la probabilità che un soggetto con test di
screening negativo sia malato:
p( M | T − ) =
(1 − sens ) ⋅ prev
(1 − 0.59) ⋅ 0.22
=
= 0.14
(1 − sens ) ⋅ prev + spec ⋅ (1 − prev ) (1 − 0.59) ⋅ 0.22 + 0.68 ⋅ (1 − 0.22)
11