UNIVERSITÀ di ROMA TOR VERGATA
Corso di Laurea Magistrale in Scienza della Nutrizione Umana
Corso di Statistica Medica, anno 2015-16
P.Baldi
Esame del 16 settembre 2016
Esercizio 1 La misurazione di un certo carattere in un campione di 11 individui ha prodotto
i valori
1, 2, 2, 2, 4, 4, 5, 5, 9, 11, 14
Qual è la media di queste misurazioni ? Qual è la mediana ? Calcolare il primo e terzo
quartile. Quanto è ampio l’intervallo interquartile ? A vostro avviso si tratta di un campione
simmetrico rispetto alla media ?
Esercizio 2 Un test clinico individua la presenza di una grave patologia con probabilità
95% presso i soggetti malati, ma produce anche un falso positivo presso un soggetto sano
con la probabilità del 10%. Si sa inoltre che nella popolazione l’incidenza della malattia è
dell’1%.
a) Qual è la probabilità che un individuo scelto a caso risulti positivo al test ?
b) Un paziente è risultato positivo al test. Qual è la probabilità che sia effettivamente
malato ? Ha ragione di spaventarsi ?
Esercizio 3 Un ricercatore semina 10 piantine di mais. Sapendo che la probabilità che una
singola pianta si ammali è del 3% calcolare
a) la probabilità che nessuna piantina risulti poi malata;
b) il numero atteso di piantine malate;
c) la probabilità che si ammali almeno 1 pianta;
d) la probabilità che si ammali al massimo 1 pianta.
Esercizio 4 Un ricercatore osserva un campione di 1000 piantine di soia scelte in diverse
colture della provincia di Rovigo, osservando che 104 di esse sono geneticamente modificate
(g.m.).
a) Qual è l’intervallo di fiducia al 95% della proporzione di piante g.m. nella provincia
di Rovigo ?
b) Sulla base di questa osservazione è possibile respingere, al livello 5%, l’ipotesi che
la percentuale di piantine di soia g.m., nella provincia di Rovigo, sia inferiore al 10% ?
Soluzioni
Esercizio 1. La media è
1
(1 + 2 + 2 + 2 + 4 + 4 + 5 + 5 + 9 + 11 + 14) = 5.36
11
mentre la mediana vale 4, che è il valore della sesta osservazione (facile perché abbiamo
un numero dispari di osservazioni). Per il calcolo del primo quartile, abbiamo n = 11
osservazioni e, dato che 41 (n + 1) = 12
4 = 3, si tratta della quarta osservazione, che vale 2.
Allo stesso modo per il terzo quartile, abbiamo 43 (n + 1) = 9 e dunque si tratta della nona
osservazione, che vale 9. Dunque l’intervallo interquartile è [2, 9] ed ha ampiezza uguale
a 7. Il campione appare piuttosto asimmetrico: la media è sensibilmente più grande della
mediana .
Esercizio 2. Indichiamo con M l’evento ‘‘l’individuo prescelto è malato’’, con S l’evento
‘‘l’individuo prescelto è sano’’, T l’evento ‘‘l’individuo prescelto risulta positivo al test’’.
I dati del problema ci dicono che
P(M) = 0.01,
P(S) = 0.99,
P(T | M) = 0.95,
P(T | S) = 0.1 .
a) Osserviamo che gli eventi M e S costituiscono una partizione: sono incompatibili
e esauriscono tutte le possibilità. Possiamo quindi applicare la formula delle probabilità
totali:
P(T ) = P(T | M)P(M) + P(T | S)P(S) = 0.95 · 0.01 + 0.1 · 0.99 = 0.1085 .
b) La cosa importante è rendersi conto che la probabilità che il paziente sia effettivamente malato non è altro che P(M | T ), cioè la probabilità che egli sia malato sapendo che
è risultato positivo al test. Questa quantità si calcola con la formula di Bayes:
P(M | T ) =
P(T | M)P(M)
0.95 · 0.01
=
= 0.0875 = 8.75% .
P(T )
0.1085
Il paziente farà bene a fare altri controlli, ma la probabilità che egli sia veramente malato è
comunque abbastanza bassa.
Esercizio 3. Se si fa l’ipotesi, abbastanza naturale, che gli eventi relativi a piante diverse
siano indipendenti (supponendo quindi che la malattia non sia contagiosa), il numero di
piante malate si può modellizzare con una variabile aleatoria binomiale X ∼ B(10, 0.03).
Con questa osservazione si trova facilmente che
a) La probabilità richiesta è P(X = 0) = (1 − 0.03)10 = 0.737 = 73.7%.
b) = E[X] = 0.3.
c) = P(X ≥ 1) = 1 − P(X = 0) = 1 − 0.737 = 0.263.
d) = P(X ≤ 1) = P(X = 0) + P(X = 1) = (1 − 0.03)10 +
0.737 + 0.228 = 0.965 = 96.5%.
10
1 0.03(1
− 0.03)9 =
104
= 0.104.
Esercizio 4. a) La proporzione di piante di soia g.m. nel campione è 1000
L’intervallo di fiducia per la proporzione di piante g.m. nell’intera provincia di Rovigo è
dunque
h
i
s
s
t0.95 (999), 0.104 + √
t0.95 (999)
0.104 − √
1000
1000
dove s 2 indica la varianza empirica
s2 =
1000
(0.104 − 0.1042 ) = 0.093 .
999
√
Dunque s = 0.093 = 0.3. I quantili della legge di student con 999 gradi di libertà si
approssimano con quelli della legge normale e dalle tavole troviamo φ0.95 = 1.64. Troviamo
quindi l’intervallo di fiducia
h
0.104 −
i
0.3
0.3
1.64, 0.104 +
1.64 = [0.088, 0.12] .
31.6
31.6
b) Sotto l’ipotesi che la proporzione di piante di soia g.m. in tutta la provincia sia del
10%, il numero, X, di piante g.m. nel campione di 1000 seguirebbe una legge binomiale
1
). Dunque per il Teorema Limite Centrale, la v.a.
B(1000, 10
1
X − 1000 10
Z=q
√
1 9
10 10 1000
è approssimativamente normale N(0, 1). Dobbiamo ora verificare se P(X ≥ 104) abbia o
no probabilità ≤ 0.05. L’approssimazione normale con la correzione di continuità ci dà
X − 100
103.5 − 100 P(X ≥ 104) = P(X ≥ 103.5) = P q
≥q
=
√
√
1 9
1 9
10 10 1000
10 10 1000
= P(Z ≥ 0.368)
Dato che il numero 0.368 è (molto) più piccolo del quantile di ordine 0.95 della legge
N(0, 1), che è 1.64, possiamo concludere che le osservazioni non permettono di affermare
che la proporzione di piante g.m. sia inferiore al 10%.