Prova scritta di STATISTICA CDL Biotecnologie (Programma di Massimo Cristallo - A) 1. Un’associazione di consumatori, allo scopo di esaminare la qualità di tre diverse marche di batterie per automobili, osserva la durata di 70 batterie della marca A, di 85 batterie della marca B e di 63 batterie della marca C. Stabilire se la durata della batteria dipende dalla marca. Marca A B C Totale Bassa 12 11 9 32 Media 35 44 28 107 Totale 70 85 63 218 Alta 23 30 26 79 2. Si consideri un campione casuale di dimensione 25 proveniente da una popolazione normale con media 120 e varianza 16. SI calcoli la probabilità che la media campionaria assuma un valore maggiore di 122 e il valore superato dal 70% delle medie campionarie. 3. Un’urna contiene 15 palline bianche e 8 nere. Si determini la probabilità che in due estrazioni senza ripetizioni si estragga una pallina bianca nella seconda estrazione dato che alla prima estrazione à stata estratta una pallina bianca. 4. Il seguente campione si riferisce a 40 punteggi ottenuti ad un test. 38 40 41 42 42 43 44 45 45 48 50 54 56 57 57 61 63 64 64 65 65 65 66 66 68 68 69 69 70 70 70 71 71 72 73 73 73 74 77 78 (1) Determinare la mediana. Sapendo che la media è 60.675, analizzare gli indici di posizione del campione. (2) Sapendo che la deviazione standard è 12.05, calcolare l’errore della media campionaria. (3) Effettuare una ripartizione in classi del campione casuale e costruire il relativo istogramma. Correzioni e/o registrazioni venerdì 21 ore 11.30 Prova scritta di STATISTICA CDL Biotecnologie (Programma di Massimo Cristallo - B) 1. Il seguente campione casuale si riferisce a 40 rilevazioni di battiti cardiaci in un minuto. 87 88 89 90 91 92 93 94 95 96 (a) (b) (c) (d) 98 99 100 101 102 103 104 105 106 107 109 110 111 112 113 114 115 116 117 118 120 121 122 123 124 125 126 127 128 129 Determinare i quartili del campione e costruire il box-plot (o diagramma a scatola). Effettuare una ripartizione del campione in classi e costruire l’istogramma. Che tipo di analisi è possibile dedurre dai due precedenti grafici? Verificare se il campione proviene da una popolazione gaussiana sapendo che la media campionaria risulta 113,5 e la deviazione standard risulta 15,97. 2. A due panels costituiti da 10 persone ciascuno è stato chiesto di scegliere tra un deodorante alla fragola ed un deodorante alla menta. I risultati sono riportati in tabella. Panel A Panel B Totale Deod. Fragola 9 8 17 Deod. Menta 1 2 3 Totale 10 10 20 (a) Stabilire con un test se la percentuale di preferenza del deodorante alla fragola è da considerarsi uguale nei due panels. (b) In caso di risposta affermativa al primo quesito verificare che la percentuale di preferenza del deodorante alla fragola è maggiore di quella del deodorante alla menta. (c) Spiegare perché è possibile usare entrambi i campioni per rispondere al quesito (b). Correzioni e/o registrazioni venerdì 21 ore 11.30 Soluzioni – compito CRISTALLO A 1. Si tratta di effettuare un test per l’indipendenza tra la variabile marca e la variabile durata. La tabella delle frequenze attese risulta essere: Bassa Media Alta Totale 10,27523 34,3578 25,36697 70 12,47706 41,72018 30,80275 85 9,247706 30,92202 22,83028 63 32 107 79 218 A B C La tabella per costruire la statistica test, ossia contenente i valori A B C − risulta essere Bassa Media Alta 0,289515 0,012004 0,22086 0,174858 0,124582 0,020921 0,006635 0,27612 0,44008 vale 9,48 pertanto non si Pertanto il valore finale della statistica è 1,56. Il quantile , ;× rigetta l’ipotesi di indipendenza tra le due variabili. La media campionaria ha legge gaussiana di media 120 e varianza 16 = 3,2. Per √25 calcolare > 122è necessario standardizzare ossia calcolare > 122 − 120 ⁄ 0.8 = > 2,5 che vale 0.006. Per determinare il valore superato dal 70% delle medie campionarie, è necessario calcolare il valore % in corrispondenza del quale la funzione di ripartizione di una gaussiana standard vale &% = 0.70 e poi trasformarlo in un valore assunto dalla media 2. campionaria mediante la trasformazione 120 + % × 3.2. Dalle tavole % = 0.5244 pertanto il valore superato dal 70% delle medie campionarie risulta 121,67. 3. Bisogna calcolare ) |) . Poiché dopo aver estratto una pallina bianca alla prima estrazione, nell’urna sono rimaste 14 palline bianche ed 8 palline nere, questa probabilità vale 14/22. 4. (a) La mediana è quel valore che divide il campione in due sottogruppi di uguale numerosità. Poiché la taglia del campione è pari, tale valore risulta essere al centro tra 50 e 70, ossia vale 60. La media è 60.675. La distribuzione appare trimodale, quindi il valore della moda non è significativo. Media e mediana sono abbastanza vicini quindi rispetto al centro la distribuzione è bilanciata. (b) L’errore della media campionaria è 12.05 . (c) Poiché la taglia è 40, possono √40 essere scelte 6 classi. Il campo di variazione del campione è 78-38=40. Pertanto possiamo scegliere 6 classi di ampiezza 7. Le 6 classi coprono un’ampiezza di 42 unità, pertanto poniamo l’estremo sinistro della prima classe a 37. La tabella delle frequenze è Correzioni e/o registrazioni venerdì 21 ore 11.30 (37,44] (44,51] (51,58] (58,65] (65,72] (72,79] Frequenze 7 4 4 7 12 6 ed il relativo istogramma risulta Frequenze 14 12 10 8 Frequenze 6 4 2 0 (37,44] (44,51] (51,58] (58,65] Correzioni e/o registrazioni venerdì 21 ore 11.30 (65,72] (72,79] Soluzioni – compito CRISTALLO B 1. I quartili del campione casuale suddividono il campione casuale in quattro parti. Poiché la taglia è pari, si tratta di determinare il centro tra l’elemento che si trova al decimo e all’undicesimo posto (primo quartile), tra il ventesimo e il ventunesimo posto (mediana), tra il trentesimo e il trentunesimo posto (terzo quartile). I valori risultano 97, 108 e 119 rispettivamente. Il box plot viene costruito usando questi elementi e il minimo e il massimo del campione casuale, ossia 87 e 129. Il grafico è 140 120 100 min 80 q1 med 60 q3 40 max 20 0 1 Per effettuare l’istogramma è necessario ripartire il campione in classi. Scegliamo 6 classi e poiché il campo di variazione è 42 fissiamo l’ampiezza pari a 7. La tabella delle frequenze risulta Classi Frequenze (87,94] 8 (94, 101] 6 (101,108] 6 (108,115] 7 (115,122] 6 (122,129] 7 e l’istogramma è Correzioni e/o registrazioni venerdì 21 ore 11.30 Frequenze 9 8 7 6 5 Frequenze 4 3 2 1 0 (87,94] (94, 101] (101,108] (108,115] (115,122] (122,129] Dai due grafici si evince che c’è una distribuzione uniforme soggiacente i dati. Per rispondere all’ultimo quesito, usiamo la ripartizione in classi impiegata per costruire l’istogramma. Ad ogni frequenza osservata va associata la frequenza attesa ottenuta moltiplicando la taglia del campione per la probabilità che un dato del campione cada in quella classe. Classi Frequenze Freq.attese Stat. Test (87,94] 8 4,44142168 2,851222 (94, 101] 6 4,23443767 0,736157 (101,108] 6 5,93511447 0,000709 (108,115] 7 6,88566916 0,001898 (115,122] 6 6,6122717 0,056694 (122,129] 7 11,8910853 2,011819 Totale 40 40 5,6585 La statistica test risulta valere 5,65. Va confrontata con il quantile , ;+ che vale 7,81. Pertanto l’ipotesi di legge gaussiana non si rigetta. Si tratta di confrontare due percentuali. L’ipotesi nulla è , : . = . mentre l’ipotesi 2. alternativa è , : . ≠ . . La statistica test risulta essere 96: = 01 02 1 1 30045 65 7 1 2 dove = 0.9, = 0.8, = 6 = 0.85, ; = ; = 10. Pertanto il valore di Z risulta essere 0.88. La regione di accettazione del test risulta essere (-1,95;1,95) pertanto poiché il valore della statistica rientra nella regione di accettazione l’ipotesi nulla non si rigetta. Per rispondere al secondo quesito effettuiamo il seguente test: l’ipotesi nulla è , : . = 0.5 mentre l’ipotesi alternativa è , : . > 0.5 dove p rappresenta la percentuale di preferenza del deodorante alla fragola. La statistica test risulta essere = 0< 1 3 00 5 dove = 17/20, . = 0.5, ; = 20. Il valore della statistica test risulta essere 4,38. La regione di accettazione è l’intervallo a sinistra di 1,64 pertanto si rigetta l’ipotesi nulla in favore di quella alternativa. E’ stato possibile mettere assieme i due campioni perché provenienti da popolazioni indipendenti. Correzioni e/o registrazioni venerdì 21 ore 11.30