UNIVERSITÀ di ROMA TOR VERGATA Corso di Laurea Magistrale in Scienza della Nutrizione Umana Corso di Statistica Medica, anno 2015-16 P.Baldi Esame del 16 settembre 2016 Esercizio 1 La misurazione di un certo carattere in un campione di 11 individui ha prodotto i valori 1, 2, 2, 2, 4, 4, 5, 5, 9, 11, 14 Qual è la media di queste misurazioni ? Qual è la mediana ? Calcolare il primo e terzo quartile. Quanto è ampio l’intervallo interquartile ? A vostro avviso si tratta di un campione simmetrico rispetto alla media ? Esercizio 2 Un test clinico individua la presenza di una grave patologia con probabilità 95% presso i soggetti malati, ma produce anche un falso positivo presso un soggetto sano con la probabilità del 10%. Si sa inoltre che nella popolazione l’incidenza della malattia è dell’1%. a) Qual è la probabilità che un individuo scelto a caso risulti positivo al test ? b) Un paziente è risultato positivo al test. Qual è la probabilità che sia effettivamente malato ? Ha ragione di spaventarsi ? Esercizio 3 Un ricercatore semina 10 piantine di mais. Sapendo che la probabilità che una singola pianta si ammali è del 3% calcolare a) la probabilità che nessuna piantina risulti poi malata; b) il numero atteso di piantine malate; c) la probabilità che si ammali almeno 1 pianta; d) la probabilità che si ammali al massimo 1 pianta. Esercizio 4 Un ricercatore osserva un campione di 1000 piantine di soia scelte in diverse colture della provincia di Rovigo, osservando che 104 di esse sono geneticamente modificate (g.m.). a) Qual è l’intervallo di fiducia al 95% della proporzione di piante g.m. nella provincia di Rovigo ? b) Sulla base di questa osservazione è possibile respingere, al livello 5%, l’ipotesi che la percentuale di piantine di soia g.m., nella provincia di Rovigo, sia inferiore al 10% ? Soluzioni Esercizio 1. La media è 1 (1 + 2 + 2 + 2 + 4 + 4 + 5 + 5 + 9 + 11 + 14) = 5.36 11 mentre la mediana vale 4, che è il valore della sesta osservazione (facile perché abbiamo un numero dispari di osservazioni). Per il calcolo del primo quartile, abbiamo n = 11 osservazioni e, dato che 41 (n + 1) = 12 4 = 3, si tratta della quarta osservazione, che vale 2. Allo stesso modo per il terzo quartile, abbiamo 43 (n + 1) = 9 e dunque si tratta della nona osservazione, che vale 9. Dunque l’intervallo interquartile è [2, 9] ed ha ampiezza uguale a 7. Il campione appare piuttosto asimmetrico: la media è sensibilmente più grande della mediana . Esercizio 2. Indichiamo con M l’evento ‘‘l’individuo prescelto è malato’’, con S l’evento ‘‘l’individuo prescelto è sano’’, T l’evento ‘‘l’individuo prescelto risulta positivo al test’’. I dati del problema ci dicono che P(M) = 0.01, P(S) = 0.99, P(T | M) = 0.95, P(T | S) = 0.1 . a) Osserviamo che gli eventi M e S costituiscono una partizione: sono incompatibili e esauriscono tutte le possibilità. Possiamo quindi applicare la formula delle probabilità totali: P(T ) = P(T | M)P(M) + P(T | S)P(S) = 0.95 · 0.01 + 0.1 · 0.99 = 0.1085 . b) La cosa importante è rendersi conto che la probabilità che il paziente sia effettivamente malato non è altro che P(M | T ), cioè la probabilità che egli sia malato sapendo che è risultato positivo al test. Questa quantità si calcola con la formula di Bayes: P(M | T ) = P(T | M)P(M) 0.95 · 0.01 = = 0.0875 = 8.75% . P(T ) 0.1085 Il paziente farà bene a fare altri controlli, ma la probabilità che egli sia veramente malato è comunque abbastanza bassa. Esercizio 3. Se si fa l’ipotesi, abbastanza naturale, che gli eventi relativi a piante diverse siano indipendenti (supponendo quindi che la malattia non sia contagiosa), il numero di piante malate si può modellizzare con una variabile aleatoria binomiale X ∼ B(10, 0.03). Con questa osservazione si trova facilmente che a) La probabilità richiesta è P(X = 0) = (1 − 0.03)10 = 0.737 = 73.7%. b) = E[X] = 0.3. c) = P(X ≥ 1) = 1 − P(X = 0) = 1 − 0.737 = 0.263. d) = P(X ≤ 1) = P(X = 0) + P(X = 1) = (1 − 0.03)10 + 0.737 + 0.228 = 0.965 = 96.5%. 10 1 0.03(1 − 0.03)9 = 104 = 0.104. Esercizio 4. a) La proporzione di piante di soia g.m. nel campione è 1000 L’intervallo di fiducia per la proporzione di piante g.m. nell’intera provincia di Rovigo è dunque h i s s t0.95 (999), 0.104 + √ t0.95 (999) 0.104 − √ 1000 1000 dove s 2 indica la varianza empirica s2 = 1000 (0.104 − 0.1042 ) = 0.093 . 999 √ Dunque s = 0.093 = 0.3. I quantili della legge di student con 999 gradi di libertà si approssimano con quelli della legge normale e dalle tavole troviamo φ0.95 = 1.64. Troviamo quindi l’intervallo di fiducia h 0.104 − i 0.3 0.3 1.64, 0.104 + 1.64 = [0.088, 0.12] . 31.6 31.6 b) Sotto l’ipotesi che la proporzione di piante di soia g.m. in tutta la provincia sia del 10%, il numero, X, di piante g.m. nel campione di 1000 seguirebbe una legge binomiale 1 ). Dunque per il Teorema Limite Centrale, la v.a. B(1000, 10 1 X − 1000 10 Z=q √ 1 9 10 10 1000 è approssimativamente normale N(0, 1). Dobbiamo ora verificare se P(X ≥ 104) abbia o no probabilità ≤ 0.05. L’approssimazione normale con la correzione di continuità ci dà X − 100 103.5 − 100 P(X ≥ 104) = P(X ≥ 103.5) = P q ≥q = √ √ 1 9 1 9 10 10 1000 10 10 1000 = P(Z ≥ 0.368) Dato che il numero 0.368 è (molto) più piccolo del quantile di ordine 0.95 della legge N(0, 1), che è 1.64, possiamo concludere che le osservazioni non permettono di affermare che la proporzione di piante g.m. sia inferiore al 10%.