Prova scritta del 29 Aprile 2013 - Università degli Studi della Basilicata

Prova scritta di Statistica per Biotecnologie
29 Aprile – Programma Cristallo 1
1. Uno dei processi di purificazione impiegati in una certa sostanza chimica prevede di metterla in
soluzione e di filtrarla con una resina che ne fissi le impurità. Un ingegnere chimico vuole provare
l’efficienza di 3 tipi di resine. Divide allora una piccola quantità della soluzione in 15 campioni che
filtra con 3 resine, 5 per tipo. Le concentrazioni di impurità dopo il filtraggio sono risultate le
seguenti:
Resina I
Resina II
Resina III
0,046
0,038
0,031
0,025
0,035
0,042
0,014
0,031
0,020
0,017
0,022
0,018
0,043
0,012
0,039
Verifica le ipotesi che non vi siano differenze tra le efficienze delle tre resine.
2. Gli alberi di una foresta hanno un’altezza media di 11,4 m con una deviazione standard di 1,3m.
Supponendo che la distribuzione degli alberi secondo l’altezza sia approssimativamente normale,
con riferimento a un campione casuale di 20 unità si calcoli:
(a) la probabilità che la media campionaria sia compresa tra 9,7 e 11;
(b) gli estremi dell’intervallo centrato nella media della popolazione entro cui è compresa la media
campionaria con probabilità 0,80.
3. Si rappresenti graficamente la distribuzione di frequenza che si riferisce al numero di esami
sostenuti nel primo anno di corso da laureati in economia di una certa università:
N. esami
frequenza
0
14
1
41
2
83
3
116
4
56
5
5
Totale
315
Determinare media, moda e mediana e commentare opportunamente i risultati.
4. E’ stato condotto uno studio per comprendere come la somministrazione di un ormone della
crescita influisca sul peso dei ratti in stato di gravidanza, osservando l’aumento di peso durante la
gestazione su 10 ratti trattati con l’ormone e su altrettanti ratti non trattati. Per il primo campione
la media campionaria è risultata 63,4 e la deviazione 15,9; mentre per il secondo campione la
media è risultata 43,8 e la deviazione standard 12,2. Quali sono le ipotesi da formulare sulle
popolazioni affinché si possa procedere al test sulla differenza tra le medie? Si stabilisca se
l’accrescimento ponderale medio dei ratti trattati con l’ormone è significativamente superiore a
quello dei ratti non trattati.
Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39
Pagina 1
Soluzioni prova scritta (CRISTALLO 1)
1. Si tratta di una ANOVA ad un fattore. La statistica test è il rapporto tra la somma dei
quadrati relativi ai livelli del fattore (le resine) rapportata ai gradi di libertà 2 diviso la
somma dei quadrati relativi all’errore rapportata ai gradi di libertà 12. Ricordando che
3
SS LIVELLI = 5∑ ( yi − y )2 = 1, 45 ×10 −5 dove yi rappresentano le medie dei livelli (ossia per
i =1
resina I si ha 0.029, per resina II si ha 0.0276 e per resina III si ha 0.03) e y rappresenta la
5
3
media totale ossia 0,028 e SS ERRORE = ∑∑ ( yij − yi )2 = 0, 001789 dove yij rappresentano i
j =1 i =1
dati, il valore della statistica test risulta (1, 45 × 10−5 / 2 ) / ( 0, 001789 /12 ) = 0, 048 . Il quantile
di riferimento è 3.885 pertanto l’ipotesi che le resine abbiano la stessa resina non si rigetta.
2. La media campionaria è una variabile aleatoria gaussiana di media 11,4 e deviazione
standard 1,3 / 20 . Pertanto
 9, 7 − 11, 4 X − 11, 4 11 − 11, 4 
P ( 9, 7 < X < 11) = P 
<
<
 = P ( −5,84 < Z < −1,37 ) = 0, 084
 1,3 / 20 1, 3 / 20 1,3 / 20 
usando le tavole statistiche. Per rispondere al quesito (b), ricordiamo che l’intervallo di
confidenza (o stima intervallare) per la media della popolazione risulta essere
σ
σ 

P  µ − zα /2
< X < µ + zα /2
 = 1−α
n
n

Per α = 0.20 dalle tavole il valore z0.10 tale che P ( Z > z0.10 ) = 0.10 risulta essere z0.10 = 1.28 .
Pertanto gli estremi cercati sono
µ − zα / 2
µ + zα /2
σ
1.3
= 11.02
n
20
1.3
σ
= 1.4 + 1.28
= 11.77
n
20
= 11.4 − 1.28
3. La distribuzione di frequenza è
Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39
Pagina 2
140
120
100
80
60
40
20
0
1
2
3
4
5
6
La moda è 3 (freq. assoluta 116). La media è 2,55. La mediana è il valore centrale tra 157 e
158. Poiché le frequenze cumulate sono
Modalità
Freq.Assolute Freq. Cumulate
0
14
14
1
41
55
2
83
138
3
116
254
4
56
310
5
5
315
la mediana è pari a 3. Anche dal grafico delle frequenze assolute, la distribuzione appare
simmetrica.
4. Poiché le informazioni sui due gruppi sono campionarie e le taglie sono basse, per
applicare il T-test e verificare se c’è differenza tra le medie, è necessario che le popolazioni
da cui provengano entrambi i campioni siano normali. Indicando con x la media
campionaria e con s la deviazione campionaria, i dati a disposizione possono essere così
riassunti:
x1 = 63, 4; s1 = 15,9; n1 = 10
x2 = 43,8; s2 = 12, 2; n2 = 10
La varianza pesata risulta essere
S p2 =
S12 (n1 − 1) + S22 (n2 − 1)
= 200,82
n1 + n2 − 2
Pertanto la statistica test osservata è
Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39
Pagina 3
T=
x1 − x2
= 3, 09
1 1
Sp
+
n1 n2
Siccome il quantile di riferimento è t0,025;18 = 2,1 minore di 3,09 allora si rigetta l’ipotesi che
le medie sono uguali. La decisione presa è una decisione cosiddetta forte, perché l’errore
che si commette è di I tipo ed ha probabilità di occorrenza del 5%.
Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39
Pagina 4
Prova scritta di Statistica per Biotecnologie
29 Aprile – Programma Cristallo 2
1. I dati che seguono si riferiscono all’età dei partecipanti a un concorso interno bandito da un ente
pubblico irlandese per il passaggio ad una qualifica superiore. Alcuni dei candidati non vincitori
fecero ricorso sostenendo che i risultati del concorso erano inficiati da una discriminazione verso i
candidati meno giovani. Quali sono le ipotesi da formulare sulle popolazioni affinché si possa
procedere al test sulla differenza tra le medie? Si stabilisca se la differenza tra l’età media del primo
gruppo e quella del secondo gruppo è significativamente maggiore di 0.
2. In una classe di 50 studenti, i voti riportati all’esame di Matematica sono riportati in tabella. Si
rappresenti graficamente la relativa distribuzione di frequenza e si calcolino moda, media e
mediana, effettuando poi un commento sui risultati ottenuti:
voti
20
Studenti 3
21
4
22
5
23
9
24
6
25
6
26
3
27
7
28
4
29
3
Totale
50
3. Il peso medio (in grammi) delle uova prodotte da un’azienda avicola segue una distribuzione
normale. Si costruisca una stima intervallare per la varianza della popolazione sapendo che in un
campione di 12 uova sono stati rilevati i seguenti pesi: 71, 67, 68, 75, 64, 73, 66, 78, 77, 63, 74, 76.
4. Si consideri un campione casuale di ampiezza 25 proveniente da una popolazione normale con
media 120 e varianza 16. Si calcoli la probabilità
(a) che la media campionaria assuma un valore maggiore di 122;
(b) che la media campionaria sia compresa tra 112 e 119;
(c) il valore superato dal 63% delle medie campionarie.
Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39
Pagina 5
Soluzioni prova scritta (CRISTALLO 2)
1. Poiché le informazioni sui due gruppi sono campionarie bisognerebbe applicare il T-test
per verificare se c’è differenza tra le medie. In tal caso è necessario che le popolazioni da
cui provengano entrambi i campioni siano normali. Tuttavia poiché entrambi i campioni
hanno taglie significative (23 per il primo campione e 30 per il secondo campione) è
possibile applicare un test Z. Per comodità si riportano entrambi gli svolgimenti:
(a) T-test: Indicando con x la media campionaria e con s la deviazione campionaria, i dati
a disposizione possono essere così riassunti:
x1 = 46,9; s1 = 7, 22; n1 = 23
x2 = 43,93; s2 = 5,88; n2 = 30
La varianza pesata risulta essere
S p2 =
S12 (n1 − 1) + S 22 (n2 − 1)
= 42,14
n1 + n2 − 2
Pertanto la statistica test osservata è
T=
x1 − x2
= 1, 65
1 1
Sp
+
n1 n2
Siccome il quantile di riferimento è t0,025;51 = 2, 007 maggiore di 1,65 allora non si rigetta
l’ipotesi che le medie sono uguali.
(b) Z-test: La statistica test osservata è
x1 − x2
Z=
S12 S 22
+
n1 n2
= 1, 60
Siccome il quantile di riferimento è z0,025 = 1,96 maggiore di 1,65 allora non si rigetta
l’ipotesi che le medie sono uguali.
2. La distribuzione di frequenza dei dati assegnati risulta essere
Freq.osservate
10
8
6
4
2
0
1
2
3
4
5
6
7
8
Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39
9
10
Pagina 6
La moda è 23 corrispondente al valore con frequenza assoluta maggiore. La media è 24,42.
La mediana si trova tra il 25 e il 26-esimo posto, ossia vale 24 poiché
Modalità Freq.osservate Freq. Cumulate
20
3
3
21
4
7
22
5
12
23
9
21
24
6
27
25
6
33
26
3
36
27
7
43
28
4
47
29
3
50
La distribuzione quindi risulta piuttosto simmetrica, come si evince anche dal grafico.
3. La stima intervallare per la varianza di un campione casuale proveniente da una
 (n − 1) S 2
(n − 1) S 2 
<σ2 < 2
popolazione gaussiana risulta essere: P  2
 = 1 − α . I valori da
 χ
χ1−α /2,n−1 
 α /2,n −1
assegnare sono n = 12; S 2 = 27, 45; χα2 /2,11 = 21,92; χ12−α /2,11 = 3,81 per α = 0, 05 . Pertanto
l’intervallo di confidenza risulta essere (13,77;79,14).
4. La media campionaria è una variabile aleatoria gaussiana di media 120 e deviazione
standard 4 / 5 . Pertanto
 X − 120 122 − 120 
P ( X > 122 ) = P 
>
 = P ( Z > 2,5 ) = 0, 006
4/5 
 4/5
usando le tavole statistiche. Per rispondere al quesito (b), si ha
 112 − 120 X − 120 119 − 120 
P (112 < X < 119 ) = P 
<
<
 = P ( −10 < Z < −1, 25 ) = 0,10
4/5
4/5 
 4/5
Infine per rispondere all’ultimo quesito, bisogna determinare quel valore di x tale che
x − 120 

P ( X > x ) = 0, 63 . Effettuando la standardizzazione si ottiene P  Z >
 = 0, 63 .
4/5 

x − 120
, dalle tavole statistiche il valore di z risulta essere -0,33. Essendo
4/5
x − 120
−0, 33 =
segue che x = 119, 73.
4/5
Posto z =
Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39
Pagina 7
Prova scritta di Statistica per Biotecnologie
29 Aprile – Programma Gallo 2
1. In uno studio sul processo di ossidazione della naftalina in fase di vapore, la percentuale molare di
naftalina convertita in anidride maleica è la seguente:
4.2, 4.7, 5.0, 3.8, 3.6, 3.0, 5.1, 3.1, 3.8, 4.8, 4.0, 5.2, 4.3, 2.8, 2.0, 2.8, 3.3, 4.8, 5.0
Calcolare il range del campione e la deviazione standard. Calcolare sempre il range del campione e
la deviazione standard sottraendo a ciascun valore il valore 1.0: confrontare i risultati ottenuti nei
due casi. C’è qualcosa di speciale nella costante 1.0 o qualsiasi altro valore scelto arbitrariamente
avrebbe prodotto i medesimi risultati?
2. L’esperimento di Salk del vaccino per la poliomelite si focalizzò sull’efficacia del vaccino nella lotta
alla poliomelite paralitica. Il vaccino fu somministrato a un primo gruppo di 200475 bambini e vi
furono 33 casi di polio osservati. Ad un secondo gruppo di bambini di numerosità 201299 fu
somministrato un placebo e di questi 110 casi svilupparono la polio. L’esperimento fu condotto in
doppio cieco. Usare una procedura di verifica di ipotesi per stabilire se la proporzione dei bambini
nei due gruppi che contrassero la poliomelite è statisticamente differente. Usare prima il livello di
significatività del 5% e poi dell’1%. Confrontare i risultati ottenuti.
3. Vengono registrate e ordinate 18 misure del flusso di prodotto in un impianto chimico:
6.5, 6.77, 6.91, 7.38, 7.64, 7.74, 7.90, 7.91, 8.21, 8.26, 8.30, 8.31, 8.42, 8.53, 8.55, 9.04, 9.33, 9.36
Stabilire con un test di adattamento se seguono una legge gaussiana.
4. Nella realizzazione di memorie ottiche, la contaminazione costituisce un serio problema. Il numero
di particelle contaminanti che si presentano in un disco ottico ha legge di Poisson e il numero
medio di particelle per centimetro quadrato di superficie del supporto è 0.1. L’area di un disco
sotto esame è 100 cm^2. Calcoliamo la probabilità di trovare 12 particelle nell’area del disco
esaminato.
Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39
Pagina 8
Soluzioni prova scritta (GALLO 2)
1. Il range risulta essere 5,2-2=3,2 mentre la deviazione standard è 1,032. Sottraendo a ciascun
numero
il
valore
1
il
risultato
non
cambia.
Infatti
il
range
è
max { xi } − 1 − min { xi } + 1 = max { xi } − min { xi } mentre
la
deviazione
standard
è
2
1 19
∑ ( xi − 1 − x + 1) .
18 i =1
2. Si tratta di un test sulla differenza di proporzioni con taglie dei campioni elevate. La statistica test
risulta essere:
⌢ ⌢
p1 − p2
Z=
1 1
pˆ (1 − pˆ )  + 
 n1 n2 
33
110
33 + 110
⌢
⌢
⌢
p1 =
= 0, 00016; p2 =
= 0, 00054; p =
= 0, 00035 e
dove
200475
201299
200475 + 201299
n1 = 200475 e n2 = 201299 . Pertanto la statistica osservata è -6,41 che cade al di fuori della
regione di accettazione ( − zα / 2 , zα /2 ) = ( −1,96;1,96) . Quindi la risposta dei due gruppi è da
ritenersi diversa.
3. E’ necessario ripartire il campione in classi. Poiché la taglia è 18, possiamo scegliere 4 classi (circa
18 ), ad esempio (−∞, 7);[7,8);[8,9);[9, ∞) . La distribuzione di frequenze osservate Oi nelle
classi risulta 3; 5; 7; 3. Poiché la media campionaria risulta essere 8,05 e la deviazione campionaria
0,81, la distribuzione di frequenze attese E i nelle classi può essere calcolata come segue:
7 − 8, 05 
8 − 8, 05 

 7 − 8, 05
18* P  Z <
= 1, 75;18* P 
<Z<
= 6,8;

0,81 
0,81 

 0,81
9 − 8, 05 
9 − 8, 05 
 8 − 8, 05

18* P 
<Z <
= 7, 27;18* P  Z >
= 2,16

0,81 
0,81 
 0,81

4
2
La statistica test osservata è χ =
∑
i =1
( Oi − Ei )
Ei
2
2
= 3,84 ed essendo
= 1, 69 . Il quantile vale χ 0,05;1
maggiore della statistica osservata consente di non rigettare l’ipotesi che il campione provenga da
una distribuzione gaussiana.
4. Si tratta di usare una distribuzione di Poisson, di parametro 100*0,1=10. Il risultato richiesto è
P ( X = 12 ) = exp(−10) ×1012 /12! = 0, 095 .
Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39
Pagina 9