Corso di Laurea in Scienze e Tecnologie Biomolecolari Prova di esame del 13/9/2012 Matematica e Statistica II NOME COGNOME N. Matr. Rispondere ai punti degli esercizi nel modo più completo possibile, cercando di giustificare i passaggi. Per le domande, mettere una croce su V (vero) o F (falso) (ogni risposta corretta vale 1/2 punto) Il compito è diviso in due parti. Per essere ammessi all’orale è necessario ottenere almeno metà dei punti possibili in ognuna delle parti. PARTE I ESERCIZIO 1 (6 punti) Alcuni esemplari di due specie di pappagalli, A e B, sono stati addestrati a premere il bottone giusto in risposta a vari stimoli. I pappagalli della specie A premono il bottone giusto nell’85% dei casi, mentre quelli della specie B solo nel 55%. 1. Proponendo lo stimolo a un pappagallo a caso nella voliera (voi non sapete distinguere le due specie ma sapete che sono presenti in egual numero), qual è la probabilità che esso prema il bottone giusto? 2. Avendo visto che il pappagallo ha premuto il bottone giusto, qual è la probabilità che sia della specie A? 3. Supponiamo che ogni pappagallo prema il bottone giusto o quello sbagliato a ogni stimolo, indipendentemente da quanto fatto allo stimolo precedente. Avendo osservato un pappagallo che preme il bottone giusto ad uno stimolo, qual è la probabilità che prema il bottone giusto anche allo stimolo successivo? ESERCIZIO 2 (3 punti) Supponiamo di compiere n osservazioni di una variabile casuale normale X con valore atteso −5 e varianza 15, e calcoliamo la media X̄ delle n osservazioni. • Calcolare P(X̄ < −5.2) con n = 1 (in questo caso è una media per modo di dire) e n = 30. ESERCIZIO 3 (4 punti) Alla conferenza stampa al CERN in cui stata annunciata la scoperta di un nuovo bosone (forse il bosone di Higgs) è stato spiegato che nella fisica delle particelle vi è lo standard di 5 sigma per potere accettare una nuova scoperta. In altre parole, qualora la nuova particella non esistesse, la probabilità dei dati osservati deve essere minore di quella di osservare una variabile casuale normale distante dal valore atteso più di 5 deviazioni standard1 1. Scrivere la formula matematica (un integrale) per la probabilità di osservare una variabile casuale normale distante dal valore atteso più di 5 deviazioni standard; 2. Come noto, non esiste una formula esplicita per il calcolo di tale integrale, e le tavole a vostra disposizione sulla distribuzione normale non arrivano fino a 5 deviazioni standard. Però è stato spiegato che tale probabilità corrisponde a quella di ottenere più di 20 teste di fila, lanciando una moneta bilanciata. Scrivere la formula di tale probabilità. Approssimare tale valore usando l’approssimazione 210 ≈ 103 . 3. Scrivere nel linguaggio dei test di ipotesi la regola esposta sopra, ponendo H0: non vi è nessuna particella non conosciuta, e H1: vi è una nuova particella. Il valore 2−21 (ottenuto al passo precedente) rappresenta l’errore di prima specie ammesso, la potenza del test, o altro? 1 nelle dichiarazioni successive è stato chiarito che in realtà per il nuovo bosone si è solo al livello di 4,9 sigma, ma sembra comunque una scoperta sufficientemente certa. PARTE II ESERCIZIO 4 (6 punti) Il film “Il conquistatore” venne girato nel 1955 in un set sottovento rispetto a un’area in cui erano stati condotti 11 test nucleari in superfici. All’inizio degli anni Ottanta, delle 220 persone che avevano lavorato al film, 91 avevano ricevuto una diagnosi di cancro. Secondo dati epidemiologici su larga scala, soltanto il 14% delle persone appartenenti a quelle classi di età dovrebbe in media ammalarsi di cancro in quell’intervallo di tempo. 1. Sulla base dei dati osservati, qual è la stima migliore e un intervallo di confidenza al 95% per la probabilità di sviluppare il cancro delle persone che hanno lavorato al film? 2. Sulla base invece della stima epidemiologica del 14%, qual è la probabilità che si ammalassero di cancro 91 o più delle persone che hanno lavorato al film? 3. Possiamo concludere che avere lavorato al film abbia aumentato la probabilità di sviluppare il cancro? Da quale/i dei risultati precedenti lo vediamo? Vi sembra che ci possano essere altre spiegazioni per i dati? ESERCIZIO 5 (8 punti) Si vuole vedere quanto la concentrazione della clorofilla nelle foglie dipenda dalla posizione nella chioma di un albero, ovvero dal tipo di habitat. Si sono scelti allora 6 esemplari di Sterculia foetida che crescono in una zona più secca (ben drenata) e 6 esemplari in una zona più umida (con ristagno dell’acqua) della stessa foresta. Da ogni albero si sono raccolte 10 foglie nella parte inferiore della chioma (con poca luce) e 10 sulla parte superiore (in piena luce) ed è stata misurata la concentrazione media di clorofilla di ogni gruppo di 10 foglie. I risultati sono i seguenti (in unità appropriate): secco-inferiore 133 165 119 143 141 149 secco-superiore 143 178 130 165 156 184 umido-inferiore 136 156 142 158 153 152 umido-superiore 151 170 180 166 175 161 1. Verificare se vi sia differenza nel contenuto di clorofilla fra le foglie nella parte inferiore e nella parte superiore della chioma, ignorando le differenze nel tipo di suolo. Specificare le ipotesi esatte usate nel test. 2. Verificare, separatamente per le foglie nella parte superiore delle chiome e per quelle nella parte inferiore, se vi sia differenza nel contenuto di clorofilla fra gli alberi delle zone più umide e quelle delle zone più secche. Specificare le ipotesi esatte usate nel test. 3. Quale analisi (fra quelle discusse nel corso e provate nelle esercitazioni al computer) si sarebbe potuta effettuare per analizzare l’insieme di questi dati? ESERCIZIO 6 (4 punti) Ripetendo uno degli esperimenti di Mendel sull’incrocio di piselli a semi gialii e lisci con piselli a semi verdi e rugosi, si sono ottenuti, alla generazione F2, i seguenti risultati: VR 9 GR 8 VL 12 GL 35 totale 64 Vogliamo stabilire se tali risultati sono compatibili con l’ipotesi, derivante dalle leggi di Mendel, che le proporzioni delle classi debbano essere 1/16, 3/16, 3/16, 9/16 DOMANDA 7 La stima di un parametro con il metodo Bayesiano V F è più semplice da calcolare che usando il metodo frequentista; V F si basa sul fatto che il valore vero del parametro segua una distribuzione normale; V F permette di integrare altre informazioni sul parametro tramite la distribuzione a priori; V F si ottiene utilizzando la distribuzione a priori del parametro e la verosimiglianza dei dati noto il parametro.