Corso di Laurea in Scienze e Tecnologie Biomolecolari
Prova di esame del 13/9/2012
Matematica e Statistica II
NOME
COGNOME
N. Matr.
Rispondere ai punti degli esercizi nel modo più completo possibile, cercando di giustificare i passaggi.
Per le domande, mettere una croce su V (vero) o F (falso) (ogni risposta corretta vale 1/2 punto)
Il compito è diviso in due parti. Per essere ammessi all’orale è necessario ottenere almeno metà
dei punti possibili in ognuna delle parti.
PARTE I
ESERCIZIO 1
(6 punti)
Alcuni esemplari di due specie di pappagalli, A e B, sono stati addestrati a premere il bottone
giusto in risposta a vari stimoli. I pappagalli della specie A premono il bottone giusto nell’85% dei
casi, mentre quelli della specie B solo nel 55%.
1. Proponendo lo stimolo a un pappagallo a caso nella voliera (voi non sapete distinguere le due
specie ma sapete che sono presenti in egual numero), qual è la probabilità che esso prema il
bottone giusto?
2. Avendo visto che il pappagallo ha premuto il bottone giusto, qual è la probabilità che sia della
specie A?
3. Supponiamo che ogni pappagallo prema il bottone giusto o quello sbagliato a ogni stimolo,
indipendentemente da quanto fatto allo stimolo precedente. Avendo osservato un pappagallo
che preme il bottone giusto ad uno stimolo, qual è la probabilità che prema il bottone giusto
anche allo stimolo successivo?
ESERCIZIO 2
(3 punti)
Supponiamo di compiere n osservazioni di una variabile casuale normale X con valore atteso −5
e varianza 15, e calcoliamo la media X̄ delle n osservazioni.
• Calcolare P(X̄ < −5.2) con n = 1 (in questo caso è una media per modo di dire) e n = 30.
ESERCIZIO 3
(4 punti)
Alla conferenza stampa al CERN in cui stata annunciata la scoperta di un nuovo bosone (forse
il bosone di Higgs) è stato spiegato che nella fisica delle particelle vi è lo standard di 5 sigma per
potere accettare una nuova scoperta. In altre parole, qualora la nuova particella non esistesse, la
probabilità dei dati osservati deve essere minore di quella di osservare una variabile casuale normale
distante dal valore atteso più di 5 deviazioni standard1
1. Scrivere la formula matematica (un integrale) per la probabilità di osservare una variabile
casuale normale distante dal valore atteso più di 5 deviazioni standard;
2. Come noto, non esiste una formula esplicita per il calcolo di tale integrale, e le tavole a vostra
disposizione sulla distribuzione normale non arrivano fino a 5 deviazioni standard. Però è
stato spiegato che tale probabilità corrisponde a quella di ottenere più di 20 teste di fila,
lanciando una moneta bilanciata. Scrivere la formula di tale probabilità. Approssimare tale
valore usando l’approssimazione 210 ≈ 103 .
3. Scrivere nel linguaggio dei test di ipotesi la regola esposta sopra, ponendo H0: non vi è
nessuna particella non conosciuta, e H1: vi è una nuova particella. Il valore 2−21 (ottenuto al
passo precedente) rappresenta l’errore di prima specie ammesso, la potenza del test, o altro?
1 nelle dichiarazioni successive è stato chiarito che in realtà per il nuovo bosone si è solo al livello di 4,9 sigma, ma
sembra comunque una scoperta sufficientemente certa.
PARTE II
ESERCIZIO 4
(6 punti)
Il film “Il conquistatore” venne girato nel 1955 in un set sottovento rispetto a un’area in cui
erano stati condotti 11 test nucleari in superfici. All’inizio degli anni Ottanta, delle 220 persone
che avevano lavorato al film, 91 avevano ricevuto una diagnosi di cancro.
Secondo dati epidemiologici su larga scala, soltanto il 14% delle persone appartenenti a quelle
classi di età dovrebbe in media ammalarsi di cancro in quell’intervallo di tempo.
1. Sulla base dei dati osservati, qual è la stima migliore e un intervallo di confidenza al 95% per
la probabilità di sviluppare il cancro delle persone che hanno lavorato al film?
2. Sulla base invece della stima epidemiologica del 14%, qual è la probabilità che si ammalassero
di cancro 91 o più delle persone che hanno lavorato al film?
3. Possiamo concludere che avere lavorato al film abbia aumentato la probabilità di sviluppare
il cancro? Da quale/i dei risultati precedenti lo vediamo? Vi sembra che ci possano essere
altre spiegazioni per i dati?
ESERCIZIO 5
(8 punti)
Si vuole vedere quanto la concentrazione della clorofilla nelle foglie dipenda dalla posizione nella
chioma di un albero, ovvero dal tipo di habitat. Si sono scelti allora 6 esemplari di Sterculia foetida
che crescono in una zona più secca (ben drenata) e 6 esemplari in una zona più umida (con ristagno
dell’acqua) della stessa foresta.
Da ogni albero si sono raccolte 10 foglie nella parte inferiore della chioma (con poca luce) e 10
sulla parte superiore (in piena luce) ed è stata misurata la concentrazione media di clorofilla di ogni
gruppo di 10 foglie. I risultati sono i seguenti (in unità appropriate):
secco-inferiore
133
165
119
143
141
149
secco-superiore
143
178
130
165
156
184
umido-inferiore
136
156
142
158
153
152
umido-superiore
151
170
180
166
175
161
1. Verificare se vi sia differenza nel contenuto di clorofilla fra le foglie nella parte inferiore e nella
parte superiore della chioma, ignorando le differenze nel tipo di suolo. Specificare le ipotesi
esatte usate nel test.
2. Verificare, separatamente per le foglie nella parte superiore delle chiome e per quelle nella
parte inferiore, se vi sia differenza nel contenuto di clorofilla fra gli alberi delle zone più umide
e quelle delle zone più secche. Specificare le ipotesi esatte usate nel test.
3. Quale analisi (fra quelle discusse nel corso e provate nelle esercitazioni al computer) si sarebbe
potuta effettuare per analizzare l’insieme di questi dati?
ESERCIZIO 6
(4 punti)
Ripetendo uno degli esperimenti di Mendel sull’incrocio di piselli a semi gialii e lisci con piselli
a semi verdi e rugosi, si sono ottenuti, alla generazione F2, i seguenti risultati:
VR
9
GR
8
VL
12
GL
35
totale
64
Vogliamo stabilire se tali risultati sono compatibili con l’ipotesi, derivante dalle leggi di Mendel,
che le proporzioni delle classi debbano essere 1/16, 3/16, 3/16, 9/16
DOMANDA 7 La stima di un parametro con il metodo Bayesiano
V
F è più semplice da calcolare che usando il metodo frequentista;
V
F si basa sul fatto che il valore vero del parametro segua una distribuzione normale;
V
F permette di integrare altre informazioni sul parametro tramite la distribuzione a priori;
V
F si ottiene utilizzando la distribuzione a priori del parametro e la verosimiglianza dei dati noto
il parametro.