Esercitazione VI - STATISTICA (CdL Economia) a.a. 2014/2015 1. Nelle prossime consultazioni per l’elezione del sindaco nella città XXX si presenteranno i candidati Caio e Sempronio. Al fine di prevedere l’esito delle elezioni, una società che effettua sondaggi elettorali sta realizzando un’indagine. Vengono intervistati n = 200 elettori, 80 dei quali dichiarano che voteranno per il candidato Caio. Sia p la frequenza relativa di coloro che voteranno per Caio nella popolazione. a) Quale statistica può essere impiegata per stimare il parametro incognito p e qual è la sua distribuzione campionaria approssimata? b) Ricavare il valore di una stima di p sulla base del campione osservato e della sua deviazione standard (errore standard). c) Determinare un intervallo di confidenza per p al livello di significatività 0,95. d) Per ottenere un margine di errore superiore rispetto a quello ottenuto nel punto precedente, bisogna fissare un livello di confidenza ⎕ minore ⎕ maggiore ⎕ il livello di confidenza non influenza il margine di errore e) Sulla base dei dati osservati, si vuole verificare l’ipotesi che il candidato Sempronio non vincerà le elezioni, ovviamente contro l’ipotesi che sarà lui a vincere. Come si formula il problema in termini di verifica delle ipotesi statistiche? f) Come si conclude il test al livello di significatività dell’1%? g) Qual è il p-value corrispondente al valore della statistica campionaria utilizzata al punto precedente? 2. Da una sorgente di acque minerali è stato prelevato un campione casuale di 81 provette di acqua. Il contenuto medio di sali minerali disciolti in acqua è risultato pari a 600 mg/l. Supponendo che il contenuto di sali minerali sia distribuito come una variabile casuale normale con deviazione standard uguale a 50 mg/l, verificare, al livello di significatività dell’1%, l’ipotesi che l’acqua della sorgente contenga mediamente 500 mg/l di sali minerali, contro l’alternativa che ne contenga più di 500. Determinare che tipo di errore comporta la decisione cui si perviene effettuando il test. Determinare il p-value del test. 3. Un esperto in comunicazioni ritiene che più della metà della popolazione effettua acquisti su internet. Sapendo che dei 10 soggetti intervistati, 4 hanno effettuato un acquisto su internet, cosa si può concludere sull’affermazione dell’esperto (utilizzare un livello di significatività del 10%)? Qual è l’errore che si commette immaginando che la probabilità che un utente acquisti effettivamente un articolo è pari a 0,2? 4. I dati storici indicano che l’acidità media della pioggia in una certa zona del West Virginia è 5,2. Per vedere se recentemente ci sono state delle variazioni, viene misurata l’acidità dell’acqua durante 12 rovesci nell’ultimo anno, con media e deviazione standard pari rispettivamente a 5,667 e 0,921. Ritieni che, con un livello di significatività del 5%, si possa concludere che l’acidità della pioggia sia cambiata rispetto al valore storico? Quali ipotesi sono necessarie per effettuare il test? 5. Nel testare l’ipotesi nulla che la media di una certa popolazione è 14 contro l’ipotesi alternativa a due code, è stata usata la statistica Z con un livello di significatività del 5%. Qual è la numerosità del campione casuale necessaria affinché sia 15% la probabilità di accettare erroneamente l’ipotesi nulla quando invece la vera media della popolazione è 14,5? (Da un campione molto grande preliminare è stata stimata pari a 1,25 la deviazione campionaria). 6. Un professore che usa un libro di introduzione alla statistica open-source prevede che il 60% degli studenti comprerà una copia cartacea del libro, il 25% stamperà il libro dal web e il 15% lo leggerà online. Alla fine del semestre chiede ai suoi studenti di rispondere a un questionario dove dovranno indicare qual è il formato del libro che hanno usato. Dei 126 studenti, 71 hanno detto di aver comprato una copia cartacea del libro, 30 lo hanno stampato dal web e 25 lo hanno letto online. Le previsioni del professore erano accurate? GRAVE MEDIO LEGGERO TOTALE SPOSATO 22 33 14 69 STATO CIVILE CELIBE 16 29 9 54 VEDOVO 19 14 3 36 TOTALE 57 76 26 159 A) Stabilire con un test chi-quadrato se le variabili stato civile/depressione sono indipendenti. B) Confrontare la risposta al punto A) con l’indice di connessione di Cramer. 7. Per il seguente campione casuale verificare se è plausibile supporre che la popolazione da cui proviene è gaussiana. Si osservi che la media campionaria risulta 0,05 e la deviazione campionaria è 2,54: -3,37 -0,38 -3,24 0,40 -2,69 0,53 -2,38 1,49 -1,56 3,19 -1,17 3,40 -0,96 3,55 -0,55 8. E' ragionevole supporre al 95% che i dati della tabella seguente costituiscono un campione estratto da una popolazione uniforme sull'intervallo [1,2]? Classi Freq.Osserv. 1-1,2 23 1,2-1,4 42 1,4-1,6 35 1,6-1,8 29 1,8-2 21 9. Una compagnia di assicurazioni vuole valutare l’entità media delle richieste di risarcimento danni per incidenti automobilistici. Un’indagine svolta su di un campione di 25 richieste ha dato i seguenti risultati (con X si indica la variabile “richiesta di risarcimento in migliaia di euro”). I dati sono: = 112,12 = 629,89 Stabilire se è plausibile ritenere che la varianza delle richieste di risarcimento sia variata rispetto all’anno precedente, quando era stata stimata pari a = 5.