Prova scritta di Statistica per Biotecnologie 29 Aprile – Programma Cristallo 1 1. Uno dei processi di purificazione impiegati in una certa sostanza chimica prevede di metterla in soluzione e di filtrarla con una resina che ne fissi le impurità. Un ingegnere chimico vuole provare l’efficienza di 3 tipi di resine. Divide allora una piccola quantità della soluzione in 15 campioni che filtra con 3 resine, 5 per tipo. Le concentrazioni di impurità dopo il filtraggio sono risultate le seguenti: Resina I Resina II Resina III 0,046 0,038 0,031 0,025 0,035 0,042 0,014 0,031 0,020 0,017 0,022 0,018 0,043 0,012 0,039 Verifica le ipotesi che non vi siano differenze tra le efficienze delle tre resine. 2. Gli alberi di una foresta hanno un’altezza media di 11,4 m con una deviazione standard di 1,3m. Supponendo che la distribuzione degli alberi secondo l’altezza sia approssimativamente normale, con riferimento a un campione casuale di 20 unità si calcoli: (a) la probabilità che la media campionaria sia compresa tra 9,7 e 11; (b) gli estremi dell’intervallo centrato nella media della popolazione entro cui è compresa la media campionaria con probabilità 0,80. 3. Si rappresenti graficamente la distribuzione di frequenza che si riferisce al numero di esami sostenuti nel primo anno di corso da laureati in economia di una certa università: N. esami frequenza 0 14 1 41 2 83 3 116 4 56 5 5 Totale 315 Determinare media, moda e mediana e commentare opportunamente i risultati. 4. E’ stato condotto uno studio per comprendere come la somministrazione di un ormone della crescita influisca sul peso dei ratti in stato di gravidanza, osservando l’aumento di peso durante la gestazione su 10 ratti trattati con l’ormone e su altrettanti ratti non trattati. Per il primo campione la media campionaria è risultata 63,4 e la deviazione 15,9; mentre per il secondo campione la media è risultata 43,8 e la deviazione standard 12,2. Quali sono le ipotesi da formulare sulle popolazioni affinché si possa procedere al test sulla differenza tra le medie? Si stabilisca se l’accrescimento ponderale medio dei ratti trattati con l’ormone è significativamente superiore a quello dei ratti non trattati. Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39 Pagina 1 Soluzioni prova scritta (CRISTALLO 1) 1. Si tratta di una ANOVA ad un fattore. La statistica test è il rapporto tra la somma dei quadrati relativi ai livelli del fattore (le resine) rapportata ai gradi di libertà 2 diviso la somma dei quadrati relativi all’errore rapportata ai gradi di libertà 12. Ricordando che 3 SS LIVELLI = 5∑ ( yi − y )2 = 1, 45 ×10 −5 dove yi rappresentano le medie dei livelli (ossia per i =1 resina I si ha 0.029, per resina II si ha 0.0276 e per resina III si ha 0.03) e y rappresenta la 5 3 media totale ossia 0,028 e SS ERRORE = ∑∑ ( yij − yi )2 = 0, 001789 dove yij rappresentano i j =1 i =1 dati, il valore della statistica test risulta (1, 45 × 10−5 / 2 ) / ( 0, 001789 /12 ) = 0, 048 . Il quantile di riferimento è 3.885 pertanto l’ipotesi che le resine abbiano la stessa resina non si rigetta. 2. La media campionaria è una variabile aleatoria gaussiana di media 11,4 e deviazione standard 1,3 / 20 . Pertanto 9, 7 − 11, 4 X − 11, 4 11 − 11, 4 P ( 9, 7 < X < 11) = P < < = P ( −5,84 < Z < −1,37 ) = 0, 084 1,3 / 20 1, 3 / 20 1,3 / 20 usando le tavole statistiche. Per rispondere al quesito (b), ricordiamo che l’intervallo di confidenza (o stima intervallare) per la media della popolazione risulta essere σ σ P µ − zα /2 < X < µ + zα /2 = 1−α n n Per α = 0.20 dalle tavole il valore z0.10 tale che P ( Z > z0.10 ) = 0.10 risulta essere z0.10 = 1.28 . Pertanto gli estremi cercati sono µ − zα / 2 µ + zα /2 σ 1.3 = 11.02 n 20 1.3 σ = 1.4 + 1.28 = 11.77 n 20 = 11.4 − 1.28 3. La distribuzione di frequenza è Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39 Pagina 2 140 120 100 80 60 40 20 0 1 2 3 4 5 6 La moda è 3 (freq. assoluta 116). La media è 2,55. La mediana è il valore centrale tra 157 e 158. Poiché le frequenze cumulate sono Modalità Freq.Assolute Freq. Cumulate 0 14 14 1 41 55 2 83 138 3 116 254 4 56 310 5 5 315 la mediana è pari a 3. Anche dal grafico delle frequenze assolute, la distribuzione appare simmetrica. 4. Poiché le informazioni sui due gruppi sono campionarie e le taglie sono basse, per applicare il T-test e verificare se c’è differenza tra le medie, è necessario che le popolazioni da cui provengano entrambi i campioni siano normali. Indicando con x la media campionaria e con s la deviazione campionaria, i dati a disposizione possono essere così riassunti: x1 = 63, 4; s1 = 15,9; n1 = 10 x2 = 43,8; s2 = 12, 2; n2 = 10 La varianza pesata risulta essere S p2 = S12 (n1 − 1) + S22 (n2 − 1) = 200,82 n1 + n2 − 2 Pertanto la statistica test osservata è Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39 Pagina 3 T= x1 − x2 = 3, 09 1 1 Sp + n1 n2 Siccome il quantile di riferimento è t0,025;18 = 2,1 minore di 3,09 allora si rigetta l’ipotesi che le medie sono uguali. La decisione presa è una decisione cosiddetta forte, perché l’errore che si commette è di I tipo ed ha probabilità di occorrenza del 5%. Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39 Pagina 4 Prova scritta di Statistica per Biotecnologie 29 Aprile – Programma Cristallo 2 1. I dati che seguono si riferiscono all’età dei partecipanti a un concorso interno bandito da un ente pubblico irlandese per il passaggio ad una qualifica superiore. Alcuni dei candidati non vincitori fecero ricorso sostenendo che i risultati del concorso erano inficiati da una discriminazione verso i candidati meno giovani. Quali sono le ipotesi da formulare sulle popolazioni affinché si possa procedere al test sulla differenza tra le medie? Si stabilisca se la differenza tra l’età media del primo gruppo e quella del secondo gruppo è significativamente maggiore di 0. 2. In una classe di 50 studenti, i voti riportati all’esame di Matematica sono riportati in tabella. Si rappresenti graficamente la relativa distribuzione di frequenza e si calcolino moda, media e mediana, effettuando poi un commento sui risultati ottenuti: voti 20 Studenti 3 21 4 22 5 23 9 24 6 25 6 26 3 27 7 28 4 29 3 Totale 50 3. Il peso medio (in grammi) delle uova prodotte da un’azienda avicola segue una distribuzione normale. Si costruisca una stima intervallare per la varianza della popolazione sapendo che in un campione di 12 uova sono stati rilevati i seguenti pesi: 71, 67, 68, 75, 64, 73, 66, 78, 77, 63, 74, 76. 4. Si consideri un campione casuale di ampiezza 25 proveniente da una popolazione normale con media 120 e varianza 16. Si calcoli la probabilità (a) che la media campionaria assuma un valore maggiore di 122; (b) che la media campionaria sia compresa tra 112 e 119; (c) il valore superato dal 63% delle medie campionarie. Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39 Pagina 5 Soluzioni prova scritta (CRISTALLO 2) 1. Poiché le informazioni sui due gruppi sono campionarie bisognerebbe applicare il T-test per verificare se c’è differenza tra le medie. In tal caso è necessario che le popolazioni da cui provengano entrambi i campioni siano normali. Tuttavia poiché entrambi i campioni hanno taglie significative (23 per il primo campione e 30 per il secondo campione) è possibile applicare un test Z. Per comodità si riportano entrambi gli svolgimenti: (a) T-test: Indicando con x la media campionaria e con s la deviazione campionaria, i dati a disposizione possono essere così riassunti: x1 = 46,9; s1 = 7, 22; n1 = 23 x2 = 43,93; s2 = 5,88; n2 = 30 La varianza pesata risulta essere S p2 = S12 (n1 − 1) + S 22 (n2 − 1) = 42,14 n1 + n2 − 2 Pertanto la statistica test osservata è T= x1 − x2 = 1, 65 1 1 Sp + n1 n2 Siccome il quantile di riferimento è t0,025;51 = 2, 007 maggiore di 1,65 allora non si rigetta l’ipotesi che le medie sono uguali. (b) Z-test: La statistica test osservata è x1 − x2 Z= S12 S 22 + n1 n2 = 1, 60 Siccome il quantile di riferimento è z0,025 = 1,96 maggiore di 1,65 allora non si rigetta l’ipotesi che le medie sono uguali. 2. La distribuzione di frequenza dei dati assegnati risulta essere Freq.osservate 10 8 6 4 2 0 1 2 3 4 5 6 7 8 Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39 9 10 Pagina 6 La moda è 23 corrispondente al valore con frequenza assoluta maggiore. La media è 24,42. La mediana si trova tra il 25 e il 26-esimo posto, ossia vale 24 poiché Modalità Freq.osservate Freq. Cumulate 20 3 3 21 4 7 22 5 12 23 9 21 24 6 27 25 6 33 26 3 36 27 7 43 28 4 47 29 3 50 La distribuzione quindi risulta piuttosto simmetrica, come si evince anche dal grafico. 3. La stima intervallare per la varianza di un campione casuale proveniente da una (n − 1) S 2 (n − 1) S 2 <σ2 < 2 popolazione gaussiana risulta essere: P 2 = 1 − α . I valori da χ χ1−α /2,n−1 α /2,n −1 assegnare sono n = 12; S 2 = 27, 45; χα2 /2,11 = 21,92; χ12−α /2,11 = 3,81 per α = 0, 05 . Pertanto l’intervallo di confidenza risulta essere (13,77;79,14). 4. La media campionaria è una variabile aleatoria gaussiana di media 120 e deviazione standard 4 / 5 . Pertanto X − 120 122 − 120 P ( X > 122 ) = P > = P ( Z > 2,5 ) = 0, 006 4/5 4/5 usando le tavole statistiche. Per rispondere al quesito (b), si ha 112 − 120 X − 120 119 − 120 P (112 < X < 119 ) = P < < = P ( −10 < Z < −1, 25 ) = 0,10 4/5 4/5 4/5 Infine per rispondere all’ultimo quesito, bisogna determinare quel valore di x tale che x − 120 P ( X > x ) = 0, 63 . Effettuando la standardizzazione si ottiene P Z > = 0, 63 . 4/5 x − 120 , dalle tavole statistiche il valore di z risulta essere -0,33. Essendo 4/5 x − 120 −0, 33 = segue che x = 119, 73. 4/5 Posto z = Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39 Pagina 7 Prova scritta di Statistica per Biotecnologie 29 Aprile – Programma Gallo 2 1. In uno studio sul processo di ossidazione della naftalina in fase di vapore, la percentuale molare di naftalina convertita in anidride maleica è la seguente: 4.2, 4.7, 5.0, 3.8, 3.6, 3.0, 5.1, 3.1, 3.8, 4.8, 4.0, 5.2, 4.3, 2.8, 2.0, 2.8, 3.3, 4.8, 5.0 Calcolare il range del campione e la deviazione standard. Calcolare sempre il range del campione e la deviazione standard sottraendo a ciascun valore il valore 1.0: confrontare i risultati ottenuti nei due casi. C’è qualcosa di speciale nella costante 1.0 o qualsiasi altro valore scelto arbitrariamente avrebbe prodotto i medesimi risultati? 2. L’esperimento di Salk del vaccino per la poliomelite si focalizzò sull’efficacia del vaccino nella lotta alla poliomelite paralitica. Il vaccino fu somministrato a un primo gruppo di 200475 bambini e vi furono 33 casi di polio osservati. Ad un secondo gruppo di bambini di numerosità 201299 fu somministrato un placebo e di questi 110 casi svilupparono la polio. L’esperimento fu condotto in doppio cieco. Usare una procedura di verifica di ipotesi per stabilire se la proporzione dei bambini nei due gruppi che contrassero la poliomelite è statisticamente differente. Usare prima il livello di significatività del 5% e poi dell’1%. Confrontare i risultati ottenuti. 3. Vengono registrate e ordinate 18 misure del flusso di prodotto in un impianto chimico: 6.5, 6.77, 6.91, 7.38, 7.64, 7.74, 7.90, 7.91, 8.21, 8.26, 8.30, 8.31, 8.42, 8.53, 8.55, 9.04, 9.33, 9.36 Stabilire con un test di adattamento se seguono una legge gaussiana. 4. Nella realizzazione di memorie ottiche, la contaminazione costituisce un serio problema. Il numero di particelle contaminanti che si presentano in un disco ottico ha legge di Poisson e il numero medio di particelle per centimetro quadrato di superficie del supporto è 0.1. L’area di un disco sotto esame è 100 cm^2. Calcoliamo la probabilità di trovare 12 particelle nell’area del disco esaminato. Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39 Pagina 8 Soluzioni prova scritta (GALLO 2) 1. Il range risulta essere 5,2-2=3,2 mentre la deviazione standard è 1,032. Sottraendo a ciascun numero il valore 1 il risultato non cambia. Infatti il range è max { xi } − 1 − min { xi } + 1 = max { xi } − min { xi } mentre la deviazione standard è 2 1 19 ∑ ( xi − 1 − x + 1) . 18 i =1 2. Si tratta di un test sulla differenza di proporzioni con taglie dei campioni elevate. La statistica test risulta essere: ⌢ ⌢ p1 − p2 Z= 1 1 pˆ (1 − pˆ ) + n1 n2 33 110 33 + 110 ⌢ ⌢ ⌢ p1 = = 0, 00016; p2 = = 0, 00054; p = = 0, 00035 e dove 200475 201299 200475 + 201299 n1 = 200475 e n2 = 201299 . Pertanto la statistica osservata è -6,41 che cade al di fuori della regione di accettazione ( − zα / 2 , zα /2 ) = ( −1,96;1,96) . Quindi la risposta dei due gruppi è da ritenersi diversa. 3. E’ necessario ripartire il campione in classi. Poiché la taglia è 18, possiamo scegliere 4 classi (circa 18 ), ad esempio (−∞, 7);[7,8);[8,9);[9, ∞) . La distribuzione di frequenze osservate Oi nelle classi risulta 3; 5; 7; 3. Poiché la media campionaria risulta essere 8,05 e la deviazione campionaria 0,81, la distribuzione di frequenze attese E i nelle classi può essere calcolata come segue: 7 − 8, 05 8 − 8, 05 7 − 8, 05 18* P Z < = 1, 75;18* P <Z< = 6,8; 0,81 0,81 0,81 9 − 8, 05 9 − 8, 05 8 − 8, 05 18* P <Z < = 7, 27;18* P Z > = 2,16 0,81 0,81 0,81 4 2 La statistica test osservata è χ = ∑ i =1 ( Oi − Ei ) Ei 2 2 = 3,84 ed essendo = 1, 69 . Il quantile vale χ 0,05;1 maggiore della statistica osservata consente di non rigettare l’ipotesi che il campione provenga da una distribuzione gaussiana. 4. Si tratta di usare una distribuzione di Poisson, di parametro 100*0,1=10. Il risultato richiesto è P ( X = 12 ) = exp(−10) ×1012 /12! = 0, 095 . Correzione ed eventuale registrazione Lunedì 6 Maggio ore 16.30 Aula 39 Pagina 9