! Un paziente non-fumatore (e che non ha mai fumato) si presenta dal medico in
quanto lamenta una forma di tosse cronica. Il paziente viene sottoposto a una
biopsia al polmone. La biopsia fornisce tre risultati: B1=sarcoidosi, B2=tumore al
polmone, B3= nessun problema (né sarcoidosi, né tumore al polmone). Sia A
l’evento ‘tosse cronica’.
Si sa che P(A|B1)=0.9, P(A|B2)=0.9, P(A|B3)=0.001 e che, per non fumatori,
P(B1)=0.009, P(B2)=0.001, P(B3)=0.99.
Con che probabilità il paziente ha un tumore al polmone?
Cosa si può dire invece di un paziente che da molti anni fuma due pacchetti di
sigarette al giorno, e per cui valgono le seguenti probabilità: P(B1)=0.005,
P(B2)=0.015, P(B3)=0.98?
[le probabilità sono, nel primo caso circa del 9%, nel secondo caso circa del 71%]
! Si dispone dei seguenti dati su un campione di 5 pazienti, dove xi è la dose di
farmaco (in mg), yi è la diminuzione della pressione arteriosa (in mmHg):
xi
yi
7
10
12
18
15
20
20
25
22
25
Si trovi la retta di regressione, y = ax + b, ed il coefficiente di Pearson.
[y=0.9973x+4.4414, r=0.9762]
Si trovi poi la retta di regressione in scala semilogaritmica rispetto ai valori xi,
y = c*ln(x) + d.
[y=13.4419ln(x)-15.9556]
Commentare i risultati ottenuti e, in particolare:
!
cosa succede nel primo caso per x=0, e cosa significa?
!
cosa succede nel primo caso per x=25 e cosa significa?
!
cosa succede nel secondo caso per x=25 e cosa significa?
!
nel secondo caso: qual è la dose di farmaco per cui non ci si aspetta
diminuzione di pressione?
[x"3.277]
2
!
Si suppone che il peso della popolazione maschile di tesserati di una certa Federazione
sportiva italiana di età maggiore di 16 anni segua una legge normale di valor medio #=75
Kg e deviazione standard $=3.4 Kg. Che peso hanno quindi il 90% degli atleti in questione
(cioè chi sono x1 e x2 simmetrici rispetto a # tali che P(x1%X%x2)=....).
Chi risultano essere x1 e x2 se abbiamo la stessa situazione di sopra ma con #=65?
[x1"69.39, x2"80.61, ...]
! Un neon su due si brucia entro un periodo di sei mesi se lasciato acceso ininterrottamente.
Viene montato un neon su ciascuno degli otto pianerottoli di un palazzo.
Qual è la probabilità che nessun neon si sia bruciato dopo sei mesi?
Qual è la probabilità che si siano bruciati tutti e otto i neon dopo sei mesi?
In media quanti neon mi aspetto che si bruceranno in tale periodo?
[ca. 0.4%, ..., 4]
! E’ noto che la pressione sistolica in donne diabetiche con età compresa tra i 30 e i 35 anni è
una variabile aleatoria gaussiana N(#,$) con # e $ non noti.
In un campione casuale di 30 donne abbiamo trovato la media campionaria x30 = 130 mm
Hg, s30 = 11.8 mm Hg.
- Calcolare l’intervallo di fiducia bilatero al 95% per la stima del valor medio #.
- Cosa ci aspettiamo (senza fare i conti) con un campione di 400 donne (con x400 = x30, s400 =
s30)?
[#&[125.6,134.4] con prob 95%; ...]
! Il campione 1 (di 31 pazienti) rappresenta il livello di colesterolo sierico in una certa
popolazione maschile di fumatori ipertesi con x1= 220 mg/100ml, s1=41 mg/100ml, mentre
il campione 2 (sempre di 31 pazienti) rappresenta il livello di colesterolo sierico del ‘gruppo
di controllo’ (sani) con x2= 211 mg/100ml, s2=45 mg/100ml.
Le due popolazioni di dati X (fumatori ipertesi) e Y (sani) sono tali che X è N(#X,$), Y è
N(#Y,$).
‘L’ipotesi di lavoro’ H0: #X = #Y va respinta oppure no con un livello di fiducia del 99%?
E se i nostri campioni fossero stati di 1000 persone ciascuno?
[non respingo H0; respingo H0]
3
! Una casa di cura privata convenzionata con il S.S.N. possiede 20 letti disponibili per
interventi di day hospital. Tuttavia, di solito accade che il 10% dei pazienti già prenotati non
si presenta all’appuntamento. Per tale motivo il CUP propone di accettare fino ad un
massimo di 22 prenotazioni al giorno. E’ una buona scelta oppure è rischiosa? In altri
termini, qual è la probabilità di ritrovarsi con almeno un paziente che non trova un letto
pronto ad accoglierlo?
[ca il 33.9%]
! Sono stati osservati 116 calciatori registrando la dominanza della mano e quella del piede,
ottenendo la tabella riportata qui di seguito. Utilizzando il test del '2 di indipendenza, dire se
l’ipotesi di lavoro H0: ‘la dominanza della mano e la dominanza del piede sono
indipendenti’, deve essere accettata oppure respinta con significatività dell’1%.
piede sx piede dx totali
mano sx
16
4
20
mano dx
11
85
96
27
89
116
[respingo H0]
! Per assumere nuovi dipendenti in un’azienda viene presentato un test con domande a
risposta multipla. In base ad esperienze precedenti è noto che i punteggi che sono
ottenuti dai candidati sono distribuiti con densità normale di media 100 e deviazione
standard 15. Per essere assunti bisogna acquisire un punteggio pari ad almeno 140 punti.
Qual è la probabilità di essere assunti?
Chi è il terzo quartile?
[ca. il 0.4%; 110.05]
! Poniamo di aver determinato il numero di batteri per volume unitario in n=10 campioni
di acqua prelevata dal lago A e in m=15 campioni di acqua prelevata dal lago B
ottenendo medie e deviazioni standard campionarie #A = 197, $ A = 10, #B = 205, $ B = 15.
Supponendo di trovarci in ipotesi di normalità per le popolazioni di dati in oggetto,
l’ipotesi nulla H0:{ #A = #B } è da rigettare oppure no con livello di fiducia del 95%?
[accetto H0]
4
! Supponiamo che il 30% di pazienti punti con un ago infetto dal virus dell’epatite B
sviluppi realmente la malattia. Supponiamo ora di selezionare in maniera arbitraria 5
individui dalla popolazione di tali pazienti.
Quale è la probabilità che nessuno di questi 5 sviluppi la malattia?
Quale è la probabilità che la malattia si sviluppi nella maggioranza dei casi?
Su 50 di tali pazienti in quanti casi in media mi aspetto che si sviluppi la malattia?
[ca. 16.8%, ca. 16.3%, 1.5]
! Determinare l’intervallo di fiducia (bilatero) al 95% per la quantità media annuale di
precipitazioni (in mm) in una certa località avendo a disposizione n=15 osservazioni che
forniscono una media campionaria pari a 584.1 mm e una deviazione standard
campionaria pari a 123.4 mm.
[515.8, 652.4]
! In un laboratorio ci sono 5 cavie appena nate. Con che probabilità ci sono almeno due
femmine, sapendo che P(F)=P(M)=1/2?
Con che probabilità tutte le 5 cavie sono femmine?
[13/16, 1/32]
! Una popolazione di dati si distribuisce secondo una gaussiana di parametri #=27, $=1,5.
Quanti dati mi aspetto siano compresi tra 26 e 29?
Quanti maggiori di 31,5?
[ca. 66%, ca. 0,15%]
! La tavola di contingenza considera la presenza (M+) o l’assenza (M-) di una certa
malattia in maschi (M) e femmine (F). Gli eventi femmina (F) e presenza di malattia
(M+) sono indipendenti?
M
F
M+
56
114
170
M123
87
210
179
201
380
[sembrano dip. ...]
5
! Quanti dati ci sono tra il 29° percentile e il terzo quartile se stiamo considerando una
popolazione di 1500 dati?
[690]
! In un test diagnostico con sensibilità del 100% ci possono essere falsi negativi?
Giustificare, molto brevemente, la risposta
[No]
! Calcolare la probabilità che una donna Rh- abbia tre figli tutti Rh+, sapendo che la presenza del fattore Rh è dovuta ad un allele dominante D presente con frequenza del 65%.
[48%]
! Sia data la seguente tavola di contingenza
MM+
TT+
66,9% 21,1% 88,0%
1,5% 10,5% 12,0%
68,4% 31,6% 100,0%
Su una popolazione di 1328 persone, quanti veri positivi mi aspetto?
Quanto vale il valore predittivo negativo di tale test?
[139; 97,8%]
! Cosa succede all’ampiezza di un intervallo di fiducia (confidence interval) al crescere
della media campionaria (supponendo che invece gli altri parametri – deviazione
standard campionaria, numerosità e quantile - rimangano pressoché costanti)?
[l’ampiezza non cambia]
! Per studiare una certa terapia, abbiamo osservato un parametro di un gruppo di 120
pazienti prima e dopo la terapia stessa. Ci siamo avvalsi di un t-test. Excel ci fornisce
(utilizzando in maniera opportuna il comando TEST.T) il numero 0,441.
Cos’è tale numero?
Cosa ne deduciamo per la nostra terapia?
E se Excel ci avesse invece fornito il valore 0,003?
[p-value; acc. Ho; resp. Ho]
! In un laboratorio 8 persone usano in maniera indipendente 2 macchinari (ogni persona
usa al più un macchinario), ogni persona per circa 10 ore alla settimana (su un totale di
36 ore)? C’è bisogno in una tale situazione, di comprare un altro macchinario (ossia,
6
quanto è la probabilità di trovare 3 o più persone che contemporaneamente usano i
macchinari)?
Cosa mi aspetto (senza fare i conti) se i macchinari vengono usati 5 ore alla settimana
(anziché 10 ore)?
[39%; la prob. diminuisce]
! Dare un intervallo di fiducia al 99% per la media di una popolazione di dati gaussiana di
cui siano noti i valori campionari: n=25, m=231, s=11.
Cosa mi aspetto (senza fare ulteriori conti), se n fosse stato n=200 (con m e s invariati)?
Che valore dovrebbe avere n se mi aspetto una stima intervallare con la lunghezza
dell’intervallo non superiore a 6?
[(224,87;237,13); l’ampiezza diminuisce; n>100 (ca)]
184,1
189,3
182,7
189,4
181,9
192,7
189,3
192,8
184,7
187,4
192,1
188,7
187,2
184,5
! Eseguire uno studio casi/controlli sui dati della tabella
(dopo aver calcolato, per ogni colonna, media, deviazione
standard campionaria e il coefficiente di variazione).
Utilizzate il test t di Student e commentate i risultati (in
particolare dire se c’è differenza significativa tra i casi e i
controlli).
Cosa succede se nella prima colonna ponete 183 al posto
dei due valori 192,7 e 192,8 e contemporaneamente nella
seconda colonna si pone 190 al posto di 182,5, 182,7 e di
182,8?
[p=0,82; p=0,055]
194,3
184,8
185,4
184,4
182,5
189,2
184,6
192,2
182,7
186,2
190,1
191,7
193,8
184,2
182,8
media
SD
Cv
! Quanto vale la probabilità di ottenere almeno 8 croci su 40 lanci di una moneta?
E quanto la probabilità di ottenere esattamente 8 croci, sempre su 40 lanci?
[99,9978%; 6,9E-5]
7
! Abbiamo eseguito un test di Wilcoxon e abbiamo ottenuto un p-value pari a 0,02.
Che tipo di test abbiamo eseguito e a quale risultato siamo arrivati?
T-
T+
MM+
! Simulare un test diagnostico (tavola
di contingenza e valori predittivi)
sapendo che la probabilità di risultare
positivi al test essendo malati è del
90% e che invece la probabilità di risultare negativi al test essendo sani è del
85%, e sapendo ancora che la prevalenza della malattia nella popolazione che
stiamo studiando è del 5%. Come variano i falsi negativi e i falsi positivi al
variare della prevalenza, tenendo fissi gli altri valori?
Pr=5%:
falsi negativi: ……….…,
falsi positivi: …………………
Pr=10%: falsi negativi: ……….…,
falsi positivi: …………………
Pr=25%: falsi negativi: ……….…,
falsi positivi: …………………
Pr=50%: falsi negativi: ……….…,
falsi positivi: ………………….
! Supponiamo che la malattia M sia indipendente dall’essere maschio o femmina.
su una popolazione in cui la prevalenza della malattia è del 20% ed è costituita per il
60% da maschi, quante femmine sane mi aspetto?
40
! Commentare il boxplot qui a fianco dicendo:
35
Chi è il massimo e chi il minimo?
25
30
Chi è la mediana, chi il terzo quartile?
20
quanti sono i valori pari a 40?
8
! Un gruppo di 15 amici si trova ogni settimana per giocare a basket. Ogni persona va
all’appuntamento, indipendentemente dagli altri, in media con probabilità del 75%.
Con che probabilità arriveranno all’appuntamento esattamente 10 persone?
Con che probabilità arriveranno all’appuntamento 10, 11 o 12 persone (cioè in modo da
avere al più 2 riserve)?
! Uno studio longitudinale (prima – dopo – follow up a 7 gg) ha fornito i seguenti risultati
con il test t di Student per il confronto tra medie:
prima – dopo: p-value = 0,02;
dopo – follow up a 7 gg: p-value = 0,43.
Cosa ne deduco per lo studio separatamente nelle due fasi ma anche globalmente tra
prima e follow up a 7 gg?
! Supponiamo che la malattia M sia indipendente dall’età. Su una popolazione in cui la
prevalenza della malattia è del 15% ed è costituita per il 60% da persone sopra i 65 anni,
quante persone sane con meno di 65 anni mi aspetto?
[34%]
! Calcolare la probabilità che una donna Rh- abbia tre figli tutti Rh+, sapendo che la
presenza del fattore Rh è dovuta ad un allele dominante D con frequenza pari a 0.70.
[0,54]
! In uno screening per il carcinoma polmonare si trova che la probabilità di essere positivi
al test sapendo di essere sani è del 5%, mentre la probabilità di risultare negativi al test,
sapendo di essere malati è del 20%. Trovare la sensibilità e la specificità del test.
Trovare poi il valore predittivo positivo, sapendo che la prevalenza è del 3%.
[Sens.: 80%, Spec.: 95%; Vp+: 33,3%]
9