Matematica e Statistica II Anno Accademico 2012

Matematica e Statistica II
Anno Accademico 2012-2013
Foglio di esercizi – settimana 6
Inferenza sulla probabilità di successo nel modello binomiale
ESERCIZIO 6.1 In un articolo su Time del 1984, dopo aver detto che il 51% degli intervistati
si dichiarava d’accordo con la necessità di aprire negoziati con l’Unione Sovietica per il disarmo
nucleare, si diceva “I risultati sono basati su un sondaggio telefonico di 1000 elettori. . . L’errore
potenziale è entro il 3% in più o in meno”.
Com’era calcolato il 3% e come possiamo interpretarlo? Possiamo concludere che la maggioranza
degli elettori era d’accordo con quell’opinione?
ESERCIZIO 6.2 Un servizio della Nielsen (simile all’Auditel) negli USA si basava su un campione di circa 1200 famiglie sugli 80 milioni esistenti negli USA. Nielsen difendeva (1982) la scelta
di 1200 famiglie con la seguente argomentazione:
“Mescolate 70.000 fagioli bianchi e 30.000 rossi e prendetene un campione di 1.000. La matematica fa sı̀ che il numero di fagioli rossi sarà fra 270 e 330, ossia fra il 27% e il 33% del campione,
cioè 30 ± 3% con una confidenza statistica del 95%. Questa legge statistica non cambierebbe anche
se il campionamento avvenisse da 80 milioni di fagioli invece che da 100.000.”
Interpretate e giustificate questa argomentazione sulla base di quanto studiato.
ESERCIZIO 6.3 Un’ispezione in laboratorio ha mostrato che su 1315 unità di reagente acquistate dalla ditta X, 28 sono difettose. La dittà assicura che al massimo lo 0,5% delle unità prodotte
può essere difettosa. Verificate, tramite il calcolo di opportuni intervalli di confidenza, se ciò appare
verosimile.
ESERCIZIO 6.4 Supponendo che la probabilità a priori per il parametro p di un modello binomiale segua la distribuzione Beta(a, b), e supponendo che si siano osservati 20 successi su 35
tentativi, calcolare il valore atteso di p secondo la distribuzione a posteriori. Mostrare che tale
20
a
a
+ (1 − t)
dove
è il valore atteso secondo la distribuzione
valore si può scrivere come t
a+b
35
a+b
a priori1 e t (0 < t < 1) rappresenta il peso della distribuzione a priori rispetto a quello delle
osservazioni.
Come dobbiamo scegliere a e b se richiediamo che il valore atteso a priori sia 1/2 e quello a
posteriori 0, 55?
[R: a = b = 7.5]
ESERCIZIO 6.5 Un monitoraggio sull’esito di una certa operazione in un ospedale ha verificato
che 45 pazienti sui 250 operati sono morti entro un mese dall’operazione. Verificate, tramite opportuni intervalli di confidenza, se tale esito è compatibile con l’affermazione che tale operazione
comporta il 12% di rischio di morte entro un mese, oppure se dobbiamo ritenere che in tale ospedale
la mortalità sia più alta.
ESERCIZIO 6.6 Riprendiamo l’esercizio precedente usando l’approccio Bayesiano. Scegliamo
una distribuzione a priori di tipo Beta per p (la probabilità di morire entro un mese) sia tale che
a priori E(p) = 0, 12 (il valore storico) e che nel calcolo del valore atteso a posteriori, la frequenza
osservata conti 10 volte E(p).
Qual è il valore atteso a posteriori di p? Qual è la probabilità a posteriori che p sia minore o
uguale al 12%? [Per quest’ultima limitatevi a scrivere la formula; trovate il valore numerico se per
caso avete a disposizione un computer con un opportuno software.]
1 ricordare
la regola per il valore atteso di una distribuzione Beta
1
DOMANDA 6.7 Nell’approccio bayesiano conviene assegnare certi tipi di distribuzione a priori,
come la distribuzione Beta nel modello binomiale
V
F perché empiricamente sono le migliori;
V
F perché fanno sı̀ che la distribuzione a posteriori appartenga alla stessa famiglia, facilitando i
calcoli e successive elaborazioni;
V
F perché in questo modo gli intervalli credibili risultano quasi uguali agli intervalli di confidenza
dell’approccio frequentista;
V
F perché anche la funzione di verosimiglianza (likelihood) appartiene alla stessa famiglia..
ESERCIZIO 6.8 9 In un controllo di qualità della produzione, si è trovato che il 20% dei
pneumatici di un campione non soddisfa gli standard dell’azienda.
1. Costruire un intervallo di confidenza al 99% per la proporzione della produzione al di sotto
degli standard, se il campione ha dimensione
a) n = 10, oppure
b) n = 25.
Usate il metodo dell’approssimazione normale, nei due modi visti a lezione, e discutete se tali
approssimazioni siano appropriate.
2. Supponiamo ora che lo statistico dell’azienda segua i metodi bayesiani e, sulla base delle sue
conoscenze dei metodi di produzione, scelga una distribuzione a priori Beta(a, b) con a+b = 10
e valore atteso 5%. Come verrebbe affrontato il caso a) (campione di 10 pneumatici di cui il
20% difettosi)?
Mostrare il procedimento con cui si costruirebbe la distribuzione a posteriori (non è necessario
trovare i valori di a e b e la formula esatta della distribuzione a posteriori; se ci si riesce, si
hanno dei punti extra, qualora si sia comunque raggiunta la sufficienza). Mostrate che cosa
si può usare in questa impostazione al posto dell’intervallo di confidenza al 99%.
ESERCIZIO 6.9 Una ricerca confrontava un campione di 16 donne nordamericane affette da
rosacea - una dermatite cronica del viso- con un campione “di controllo” di 16 donne non affette
da rosacea. Si era trovato che, delle 16 donne nel gruppo di controllo, 15 ospitavano nei follicoli
l’acaro Demodex folliculorum, mentre tutte le 16 donne affette da rosacea ospitavano questi acari.
In base a questi dati, trovate la stima migliore per la proporzione di donne nordamericane non
affette da rosacea che ospitano tali acari, e calcolate un intervallo di confidenza al 95% per tale
proporzione.
[R: (0.71, 0.98)]
Analogamente per le donne affette da rosacea.
[R: (0.83, 1)]
Come cambierebbero i risultati se chiedessimo intervalli di confidenza al 99%? E se i campioni
fossero stati composti da 160 donne? Basta una risposta qualitativa senza calcoli.
ESERCIZIO 6.10 Un ricercatore ha misurato la distanza fra i canine e l’ultimo molare in 35
mandible superiori di lupi, e scrive che l’intervallo di confidenza al 95% per la distanza media è
10.17 cm < µ < 10.47 cm e che quello al 99% è 10.21 cm < µ < 10.44 cm. Perché possiamo dire
che ci deve essere un errore, anche senza aver visto i dati?
E, supponendo che l’intervallo di confidenza al 95% sia corretto e che possiamo approximare la
distribuzione della distanza come una normale, possiamo calcolare l’intervallo corretto di confidenza
al 99%, sempre senza vedere i dati?
ESERCIZIO 6.11 In uno studio sono stati esaminati 14 individui, trovando le seguenti concentrazioni di PCB (policlorobifenili) espresse in ng per g di lipidi:
520, 1300, 2600, 1800, 1800, 720, 1700, 2300, 930, 2300, 560, 2500, 1700, 3200.
(a) Calcolarne media e varianza campionaria;
2
(b) Supponendo che tale variabile nella popolazione da cui sono stati tratti questi individui segua
una distribuzione normale, e che la sua varianza sia uguale alla varianza campionaria trovata,
calcolate un intervallo di confidenza sia al 95% sia al 99% per la media della concentrazione
di PCB nella popolazione.
(c) Spiegare perché tale procedura non è completamente corretta.
ESERCIZIO 6.12 Supponiamo che X sia distribuito come una binomiale di parametri n = 8 e
p = 0.6. Trovare il valore di S tale che P(X ≤ S) ≤ 2.5% mentre P(X ≤ S + 1) > 2.5%. Spiegate
perché questo calcolo è utile per trovare gli intervalli di confidenza esatti per il modello binomiale.
ESERCIZIO 6.13 Due variabili casuali X1 e X2 sono equidistribuite e indipendenti con E(Xi ) =
µ e V(Xi ) = σ 2 . Siano
X̄ =
X1 + X2
2
e
Y = (X1 − X̄)2 + (X2 − X̄)2 .
1. Calcolare E(Y ) usando le definizioni e le regole sul valore atteso di variabili casuali. Si può
dire che Y sia uno stimatore non distorto di σ 2 ?
2. Supponiamo inoltre che X1 e X2 seguano la distribuzione normale, mostrare che Y si può
esprimere come il quadrato di una normale2
2 si
usi il fatto che la somma (o differenza) di due variabili casuali normali indipendenti è normale.
3