Esercitazione per la prova in itinere del 02/12/2011 Esercizio 1. Assegnato l'insieme dei valori {16, 16, 18, 19, 22, 22, 23, 26, 26, 27}, calcolare la media,la mediana, il primo ed il terzo quartile. Calcolare la varianza e la deviazione standard (scarto quadratico medio). Se ora al posto dell’ultimo valore 27 mettiamo il numero 40, cosa posso aspettarmi: La media crescerà, diminuirà o resterà uguale? La mediana crescerà, diminuirà o resterà uguale? Il primo e il terzo quartile cresceranno, diminuiranno o resteranno uguali? La deviazione standard crescerà, diminuirà o resterà uguale? Esercizio 2. Quali di queste affermazioni relative agli istogrammi sono vere? 1) la larghezza delle colonne è proporzionale al numero degli elementi della classe 2) l'area delle colonne è proporzionale alla frequenza assoluta della classe 3) l'area delle colonne è proporzionale alla frequenza relativa della classe 4) l'area delle colonne è proporzionale alla densità di frequenza della classe Esercizio 3 Supponiamo di poter distinguere un campione di individui, maschi e femmine, in tre distinte categorie epidemiologiche, secondo la seguente tabella di contingenza, completata parzialmente: maschi suscettibili infetti femmine totale 22,5% 56,7% 12,8% rimossi 8,3% totale 36,1% 100,0% Si completi integralmente la tabella. In base a tali percentuali, riferendosi ad un campione 360 individui, quanti potrebbero essere gli individui maschi rimossi? E quanti gli individui infetti? Esercizio 4 E’ noto che in una certa popolazione una malattia colpisce 3 neonati su 10. In un ospedale si prevede che nel mese di maggio 2003 nasceranno 12 bambini. Con che probabilità mi aspetto che questi 12 bambini siano tutti sani? Con che probabilità mi aspetto che questi 12 bambini siano tutti malati? E’ più probabile che ci siano 3 o 10 bambini malati? Esercizio 5 Supponiamo che il 30% di pazienti punti con un ago infetto dal virus dell’epatite B sviluppi realmente la malattia. Supponiamo ora di selezionare in maniera arbitraria 5 individui dalla popolazione di tali pazienti. Quale è la probabilità che nessuno di questi 5 sviluppi la malattia? Quale è la probabilità che la malattia si sviluppi nella maggioranza dei casi? Su 50 di tali pazienti in quanti casi in media mi aspetto che si sviluppi la malattia? Esercizio 6. Nell’insieme delle famiglie con 4 nascite di figli, calcolare la frequenza relativa di quelle con al più una femmina, essendo p=0.481 la probabilità che nasca una femmina. Senza fare calcoli: mi aspetto che la frequenza relativa delle famiglie con al più un maschio sia più alta, più bassa o uguale a quella appena trovata per le famiglie con al più una femmina? Esercizio 7 Il peso alla nascita delle neonate italiane segue una legge normale di media 3,1 Kg e di deviazione standard 0,6 Kg. Quale è la probabilità che una neonata scelta a caso abbia peso compreso tra 2,5 e 2,7 Kg? Quale è la probabilità che una neonata scelta a caso abbia peso minore di 2 Kg? Fare un grafico di tale gaussiana N(3.1;0.6). Con che peso nasce il 90% delle bambine? Infine, cosa si potrebbe dire se non conoscessimo con certezza il valore esatto della media nazionale, ma sapessimo solamente che esso è un numero certamente compreso tra 3,0 Kg e 3,2 Kg? Esercizio 8 Per assumere nuovi dipendenti in un’azienda viene presentato un test con domande a risposta multipla. In base ad esperienze precedenti è noto che i punteggi che sono ottenuti dai candidati sono distribuiti con densità normale di media 100 e deviazione standard 15. Per essere assunti bisogna acquisire un punteggio pari ad almeno 140 punti. Qual è la probabilità di essere assunti? Chi è il terzo quartile? Esercizio 9 E’ noto che la pressione sistolica in donne diabetiche con età compresa tra i 30 e i 35 anni è una variabile aleatoria gaussiana N(m,s) con m e s non noti. In un campione casuale di 30 donne abbiamo trovato la media campionaria m30 = 130 mm Hg, s30 = 11.8 mm Hg. Calcolare l’intervallo di fiducia bilatero al 95% per la stima del valor medio m. Cosa ci aspettiamo (senza fare i calcoli) da un campione di 400 donne (con medesime medie e deviazioni standard campionarie)? Esercizio 10 Il campione 1 (di 31 pazienti) rappresenta il livello di colesterolo sierico in una certa popolazione maschile di fumatori ipertesi con m1 = 220 mg/100ml, s1 = 41 mg/100ml, mentre il campione 2 (sempre di 31 pazienti) rappresenta il livello di colesterolo sierico del ‘gruppo di controllo’ (sani) con m2 = 211 mg/100ml, s2 = 45 mg/100ml. Le due popolazioni di dati X (fumatori ipertesi) e Y (sani) sono distribuite normalmente. L’ipotesi di lavoro H0: mX = mY va respinta oppure no con un livello di fiducia del 99%? E se i nostri campioni fossero stati di 1000 persone ciascuno? Esercizio 11 Poniamo di aver determinato il numero di batteri per volume unitario in 10 campioni di acqua prelevata dal lago A e in 15 campioni di acqua prelevata dal lago B ottenendo medie e deviazioni standard campionarie mA = 197, sA = 10, mB = 205, sB = 15. Supponendo di trovarci in ipotesi di normalità per le popolazioni di dati in oggetto, l’ipotesi nulla H0:{ mA = mB } è da rigettare oppure no con livello di fiducia del 95%? In altri termini, esiste differenza significativa tra i due campioni? Esercizio 12 Per monitorare l'insorgenza di un tipo di tumore al seno, una popolazione di 13465 donne non nullipare viene suddivisa in due classi, quella di età minore od uguale a 29 anni e quella maggiore od uguale a 30. Dalla suddivisione ulteriore in "casi" e "controlli", risulta che 625 sono i casi di età maggiore uguale a 30 e che 8738 sono i controlli di età minore od uguale a 29 anni. Sapendo che il totale dei casi è 3520, creare un tavola di contingenza che riporti le distribuzioni di frequenza relativa. Calcolando le distribuzioni marginali, si determinino le frequenze attese. Si tratta di dati statisticamente indipendenti? Esercizio 13 Due metodi di insegnamento (A e B) vengono confrontati esaminando il numero di risposte corrette ottenute alla fine del corso in un test (maggiore è il punteggio, migliori sono le prestazioni). I soggetti sono stati assegnati in maniera casuale ai due gruppi e sono stati ottenuti i seguenti risultati: numerosità campione media campionaria deviazione standard campionaria metodo 12 A 89 9 metodo 9 B 77 12 Alla luce dei dati ottenuti, è possibile concludere che i due metodi di insegnamento producono risultati diversi in senso altamente significativo, ossia con alfa = 0,01?