Matematica e Statistica II Anno Accademico 2012-2013 Foglio di esercizi – settimana 6 Inferenza sulla probabilità di successo nel modello binomiale ESERCIZIO 6.1 In un articolo su Time del 1984, dopo aver detto che il 51% degli intervistati si dichiarava d’accordo con la necessità di aprire negoziati con l’Unione Sovietica per il disarmo nucleare, si diceva “I risultati sono basati su un sondaggio telefonico di 1000 elettori. . . L’errore potenziale è entro il 3% in più o in meno”. Com’era calcolato il 3% e come possiamo interpretarlo? Possiamo concludere che la maggioranza degli elettori era d’accordo con quell’opinione? ESERCIZIO 6.2 Un servizio della Nielsen (simile all’Auditel) negli USA si basava su un campione di circa 1200 famiglie sugli 80 milioni esistenti negli USA. Nielsen difendeva (1982) la scelta di 1200 famiglie con la seguente argomentazione: “Mescolate 70.000 fagioli bianchi e 30.000 rossi e prendetene un campione di 1.000. La matematica fa sı̀ che il numero di fagioli rossi sarà fra 270 e 330, ossia fra il 27% e il 33% del campione, cioè 30 ± 3% con una confidenza statistica del 95%. Questa legge statistica non cambierebbe anche se il campionamento avvenisse da 80 milioni di fagioli invece che da 100.000.” Interpretate e giustificate questa argomentazione sulla base di quanto studiato. ESERCIZIO 6.3 Un’ispezione in laboratorio ha mostrato che su 1315 unità di reagente acquistate dalla ditta X, 28 sono difettose. La dittà assicura che al massimo lo 0,5% delle unità prodotte può essere difettosa. Verificate, tramite il calcolo di opportuni intervalli di confidenza, se ciò appare verosimile. ESERCIZIO 6.4 Supponendo che la probabilità a priori per il parametro p di un modello binomiale segua la distribuzione Beta(a, b), e supponendo che si siano osservati 20 successi su 35 tentativi, calcolare il valore atteso di p secondo la distribuzione a posteriori. Mostrare che tale 20 a a + (1 − t) dove è il valore atteso secondo la distribuzione valore si può scrivere come t a+b 35 a+b a priori1 e t (0 < t < 1) rappresenta il peso della distribuzione a priori rispetto a quello delle osservazioni. Come dobbiamo scegliere a e b se richiediamo che il valore atteso a priori sia 1/2 e quello a posteriori 0, 55? [R: a = b = 7.5] ESERCIZIO 6.5 Un monitoraggio sull’esito di una certa operazione in un ospedale ha verificato che 45 pazienti sui 250 operati sono morti entro un mese dall’operazione. Verificate, tramite opportuni intervalli di confidenza, se tale esito è compatibile con l’affermazione che tale operazione comporta il 12% di rischio di morte entro un mese, oppure se dobbiamo ritenere che in tale ospedale la mortalità sia più alta. ESERCIZIO 6.6 Riprendiamo l’esercizio precedente usando l’approccio Bayesiano. Scegliamo una distribuzione a priori di tipo Beta per p (la probabilità di morire entro un mese) sia tale che a priori E(p) = 0, 12 (il valore storico) e che nel calcolo del valore atteso a posteriori, la frequenza osservata conti 10 volte E(p). Qual è il valore atteso a posteriori di p? Qual è la probabilità a posteriori che p sia minore o uguale al 12%? [Per quest’ultima limitatevi a scrivere la formula; trovate il valore numerico se per caso avete a disposizione un computer con un opportuno software.] 1 ricordare la regola per il valore atteso di una distribuzione Beta 1 DOMANDA 6.7 Nell’approccio bayesiano conviene assegnare certi tipi di distribuzione a priori, come la distribuzione Beta nel modello binomiale V F perché empiricamente sono le migliori; V F perché fanno sı̀ che la distribuzione a posteriori appartenga alla stessa famiglia, facilitando i calcoli e successive elaborazioni; V F perché in questo modo gli intervalli credibili risultano quasi uguali agli intervalli di confidenza dell’approccio frequentista; V F perché anche la funzione di verosimiglianza (likelihood) appartiene alla stessa famiglia.. ESERCIZIO 6.8 9 In un controllo di qualità della produzione, si è trovato che il 20% dei pneumatici di un campione non soddisfa gli standard dell’azienda. 1. Costruire un intervallo di confidenza al 99% per la proporzione della produzione al di sotto degli standard, se il campione ha dimensione a) n = 10, oppure b) n = 25. Usate il metodo dell’approssimazione normale, nei due modi visti a lezione, e discutete se tali approssimazioni siano appropriate. 2. Supponiamo ora che lo statistico dell’azienda segua i metodi bayesiani e, sulla base delle sue conoscenze dei metodi di produzione, scelga una distribuzione a priori Beta(a, b) con a+b = 10 e valore atteso 5%. Come verrebbe affrontato il caso a) (campione di 10 pneumatici di cui il 20% difettosi)? Mostrare il procedimento con cui si costruirebbe la distribuzione a posteriori (non è necessario trovare i valori di a e b e la formula esatta della distribuzione a posteriori; se ci si riesce, si hanno dei punti extra, qualora si sia comunque raggiunta la sufficienza). Mostrate che cosa si può usare in questa impostazione al posto dell’intervallo di confidenza al 99%. ESERCIZIO 6.9 Una ricerca confrontava un campione di 16 donne nordamericane affette da rosacea - una dermatite cronica del viso- con un campione “di controllo” di 16 donne non affette da rosacea. Si era trovato che, delle 16 donne nel gruppo di controllo, 15 ospitavano nei follicoli l’acaro Demodex folliculorum, mentre tutte le 16 donne affette da rosacea ospitavano questi acari. In base a questi dati, trovate la stima migliore per la proporzione di donne nordamericane non affette da rosacea che ospitano tali acari, e calcolate un intervallo di confidenza al 95% per tale proporzione. [R: (0.71, 0.98)] Analogamente per le donne affette da rosacea. [R: (0.83, 1)] Come cambierebbero i risultati se chiedessimo intervalli di confidenza al 99%? E se i campioni fossero stati composti da 160 donne? Basta una risposta qualitativa senza calcoli. ESERCIZIO 6.10 Un ricercatore ha misurato la distanza fra i canine e l’ultimo molare in 35 mandible superiori di lupi, e scrive che l’intervallo di confidenza al 95% per la distanza media è 10.17 cm < µ < 10.47 cm e che quello al 99% è 10.21 cm < µ < 10.44 cm. Perché possiamo dire che ci deve essere un errore, anche senza aver visto i dati? E, supponendo che l’intervallo di confidenza al 95% sia corretto e che possiamo approximare la distribuzione della distanza come una normale, possiamo calcolare l’intervallo corretto di confidenza al 99%, sempre senza vedere i dati? ESERCIZIO 6.11 In uno studio sono stati esaminati 14 individui, trovando le seguenti concentrazioni di PCB (policlorobifenili) espresse in ng per g di lipidi: 520, 1300, 2600, 1800, 1800, 720, 1700, 2300, 930, 2300, 560, 2500, 1700, 3200. (a) Calcolarne media e varianza campionaria; 2 (b) Supponendo che tale variabile nella popolazione da cui sono stati tratti questi individui segua una distribuzione normale, e che la sua varianza sia uguale alla varianza campionaria trovata, calcolate un intervallo di confidenza sia al 95% sia al 99% per la media della concentrazione di PCB nella popolazione. (c) Spiegare perché tale procedura non è completamente corretta. ESERCIZIO 6.12 Supponiamo che X sia distribuito come una binomiale di parametri n = 8 e p = 0.6. Trovare il valore di S tale che P(X ≤ S) ≤ 2.5% mentre P(X ≤ S + 1) > 2.5%. Spiegate perché questo calcolo è utile per trovare gli intervalli di confidenza esatti per il modello binomiale. ESERCIZIO 6.13 Due variabili casuali X1 e X2 sono equidistribuite e indipendenti con E(Xi ) = µ e V(Xi ) = σ 2 . Siano X̄ = X1 + X2 2 e Y = (X1 − X̄)2 + (X2 − X̄)2 . 1. Calcolare E(Y ) usando le definizioni e le regole sul valore atteso di variabili casuali. Si può dire che Y sia uno stimatore non distorto di σ 2 ? 2. Supponiamo inoltre che X1 e X2 seguano la distribuzione normale, mostrare che Y si può esprimere come il quadrato di una normale2 2 si usi il fatto che la somma (o differenza) di due variabili casuali normali indipendenti è normale. 3