Soluzioni prova scritta di Complementi di Probabilità e Statistica (29/06) 1. (a) Per costruire il box plot, vengono determinati minimo=0,01, massimo=0,97, mediana=0,455, I quartile=0,3375 e III quartile=0,745 dei dati: 1,2 1 0,8 q1 0,6 med min max 0,4 q3 0,2 0 1 (b) L’istogramma è il seguente: Frequenza Istogramma 6 4 2 0 0-0,2 0,2-0,4 0,4-0,6 Classe che si riferisce alla seguente ripartizione in classi: Classe 0-0,2 0,2-0,4 0,4-0,6 0,6-0,8 0,8-1 (c) Il Q-Q plot è il seguente: Frequenza 3 4 5 3 5 0,6-0,8 0,8-1 1,2 1 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 Specialmente nell’ultima parte, il grafico non evidenzia un andamento lineare. Pertanto non si ritiene valida l’ipotesi di distribuzione gaussiana. (d) Dall’istogramma si ritiene valida l’ipotesi di legge uniforme su [0,1]. Dati ordinati F. empirica F teorica Diff. 0,01 0,05 0,01 0,04 0,16 0,1 0,16 0,06 0,19 0,15 0,19 0,04 0,28 0,2 0,28 0,08 0,33 0,25 0,33 0,08 0,34 0,3 0,34 0,04 0,35 0,35 0,35 0 0,41 0,4 0,41 0,01 0,43 0,45 0,43 0,02 0,45 0,5 0,45 0,05 0,46 0,55 0,46 0,09 0,57 0,6 0,57 0,03 0,66 0,65 0,66 0,01 0,68 0,7 0,68 0,02 0,69 0,75 0,69 0,06 0,91 0,8 0,91 0,11 0,94 0,85 0,94 0,09 0,95 0,9 0,95 0,05 0,96 0,95 0,96 0,01 0,97 1 0,97 0,03 Dalle tavole per il test, per n=20 il quantile risulta 0,2940. Poiché la statistica test vale 0.11, l’ipotesi formulata non si rigetta. (e) Trattandosi di popolazione non gaussiana, è possibile solo effettuare un test sulla mediana. Essendo una possibile distribuzione uniforme, la mediana coincide con la media 0,5. Vi sono 9 valori superiori alla mediana 0,5. Il valore della statistica 2*DISTRIB.BINOM(9;20;0.5;vero)=0,82 è maggiore di 0,50 pertanto l’ipotesi nulla non si rigetta. 2. (a) Per stabilire se i turni di lavoro influenzano i tempi, è necessario effettuare un’anova a 1 fattore (effetti fissi) a blocchi: Analisi varianza: a due fattori senza replica RIEPILOGO Conteggio Somma Media Varianza A 5 3,36 0,672 0,06367 B 5 2,43 0,486 0,13383 C 5 3,6 0,72 0,0731 D 5 2,29 0,458 0,06557 M1 4 2,27 0,5675 0,086225 M2 4 2,7 0,675 0,0247 M3 4 2,23 0,5575 0,131292 M4 4 1,66 0,415 0,094967 M5 4 2,82 0,705 0,1273 ANALISI VARIANZA Origine della variazione SQ gdl Righe 0,2586 MQ 3 F Valore di significatività F crit 0,0862 0,911486 0,464393 3,4903 0,55469 0,699653 3,25916 Colonne 0,20983 4 0,052457 Errore 1,13485 12 0,094571 Totale 1,60328 19 Poiché 0,9114<3.4903, le medie dei tempi di esecuzione non sono diverse per turno di lavoro. Quindi il turno non influenza il tempo di esecuzione. (b) Effettuando un grafico dei box plot si evince però una risposta diversa dalla precedente: 1,2 1 q1 min med max q3 0,8 0,6 0,4 0,2 0 A B C D L’analisi dei residui in realtà mostra che la popolazione non è gaussiana. Inoltre l'esiguità del campione casuale potrebbe inficiare i risultati. 1,2 1 0,8 0,6 0,4 0,2 0 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 (c) Per rispondere all’ultimo quesito è necessario fare un’analisi della varianza a 2 fattori con repliche. I dati vanno così riorganizzati: A B C D Giorno 1 Giorno 2 Giorno 3 0,5 0,68 0,81 0,7 0,45 0,31 0,93 0,7 0,56 0,34 0,58 0,31 0,89 0,65 0,17 0,37 0,26 0,77 0,88 0,82 0,7 0,16 0,69 0,05 0,15 0,27 0,54 0,87 0,74 0,53 1 0,76 0,62 0,61 0,6 0,41 0,79 0,38 0,43 0,31 0,58 0,05 0,89 0,2 0,64 0,4 0,57 0,19 0,51 0,17 0,32 0,35 0,65 0,07 0,86 0,82 0,59 0,17 0,6 0,44 ANALISI VARIANZA Origine della variazione SQ gdl MQ F Valore di significatività F crit Campione 0,134067 3 0,044689 0,700975 0,556104 2,79806 Colonne 0,289743 2 0,144872 2,272408 0,114044 3,190721 Interazione 0,250443 6 0,041741 0,654728 0,686138 2,294598 3,06012 48 0,063752 3,734373 59 In Totale L’analisi della varianza suggerisce che non sussistono interazioni tra giorni e turni. Utilizziamo anche dei grafici. 0,8 0,7 0,6 A B C D 0,5 0,4 0,3 0,2 0,1 0 Giorno 1 Giorno 2 Giorno 3 In realtà dal grafico sembrerebbe il contrario. Effettuiamo un’analisi dei residui sui livelli del fattore turni: 70 60 50 40 30 20 10 0 -0,7 -0,5 -0,3 -0,1 0,1 0,3 0,5 Si evidenzia in alcuni punti del grafico un andamento non lineare e quindi la popolazione potrebbe non essere gaussiana. 3. Quadrato Greco-Latino I II III IV V a A B C D E b E A B C D c D E A B C d C D E A B e B C D E A Possibile applicazione: test su 5 macchine con l'uso di 5 piloti in 5 giorni diversi. Soluzioni prova scritta di Complementi di Probabilità e Statistica (30/06) 1. (a) Il Q-Q plot per il set di dati Analisi I 1,20 1,00 0,80 0,60 0,40 0,20 0,00 24 25 26 27 28 29 30 Il Q-Q plot per il set di dati Fisica 1,20 1,00 0,80 0,60 Serie1 0,40 0,20 0,00 18 20 22 24 26 28 30 Dei due insiemi risulta provenire da una popolazione gaussiana maggiormente il set di dati Fisica. (b) L'istogramma del set di dati Fisica è Frequenza Istogramma 5 0 18-20 21-23 24-26 Classe con la seguente ripartizione in classi: 27-30 Classe 18-20 21-23 24-26 27-30 Frequenza 4 3 4 4 La distribuzione risulta uniforme sull'intervallo [18,30]. Eseguiamo il test di KS: Fisica 18 19 20 21 22 23 24 25 27 28 F.empirica 0,066667 0,2 0,266667 0,333333 0,4 0,466667 0,6 0,733333 0,866667 1 F. teorica 0 0,083333 0,166667 0,25 0,333333 0,416667 0,5 0,583333 0,75 0,833333 Diff 0,066667 0,116667 0,1 0,083333 0,066667 0,05 0,1 0,15 0,116667 0,166667 Il quantile per n=15 corrispondente al livello di significatività 0,05 risulta 0.3376. Pertanto l'ipotesi di distribuzione uniforme non si può rigettare. (c) E' possibile effettuare una analisi anova ad un fattore (le 4 materie) a blocchi (ogni blocco è uno studente). ANALISI VARIANZA a 2 fattori senza repliche Origine SQ della variazione Righe 84,05 Colonne 65,23333 Errore 167,7 Totale gdl 316,9833 MQ F Valore di F crit significativ ità 3 28,01667 7,016696 0,000626 2,827051 14 4,659524 1,166965 0,334403 1,935007 42 3,992857 59 Le medie risultano diverse (righe). Tale ipotesi è confermata dal grafico del box-plot: 30 q1 25 min med max 20 q3 15 Analisi Geometria Algebra Fisica e anche dal grafico degli intervalli di confidenza 30 Serie1 25 Serie2 Serie3 20 Analisi Geometria Algebra Fisica Effettuando il Fisher Test si ha poi: Analisi Geometria Algebra Fisica Analisi 0 Geometria Algebra 1,4 1 0 0,4 0 Fisica 3,266667 1,866667 2,266667 0 che confrontato con il quantile 1,71 segnala diversi in media il set di dati di fisica rispetto a quello di geometria e di algebra e di analisi. (d) E' necessario effettuare un'analisi ANOVA a 1 fattore, ossia: Analisi varianza: ad un fattore RIEPILOGO Gruppi Analisi Geometria Algebra Fisica Conteggio 15 15 15 15 Somma 399 378 384 350 Media 26,6 25,2 25,6 23,33333 Varianza 2,542857 1,028571 1,542857 11,52381 ANALISI VARIANZA Origine della variazione Tra gruppi In gruppi SQ gdl MQ 84,05 232,9333 3 56 Totale 316,9833 59 28,01667 4,159524 Anche in tal caso le medie risultano diverse. (e) La matrice di correlazione associata ai dati è F Valore di significativit à 6,735547 0,000584 F crit 2,769433 Analisi Geometria Algebra Analisi 1 Geometria -0,25617 1 Algebra 0,562565 -0,49897 1 Fisica 0,277097 0,103735 -0,22022 Fisica 1 La sua decomposizione spettrale usando il MATLAB risulta 0.38 0.58 −0.5 −0.46 − 0.2 0.79 0.52 − 0.20 D = diag (1.89,1.21,0.64,0.24) P = − 0.68 0.29 − 0.65 0.14 0.05 − 0.85 − 0.3527 − 0.38 Risulta che le prime due componenti principali coprono il 77% della variabilità totale e sono pertanto sufficienti alla trasformazione del campione. Le prime due componenti principali sono pertanto: Y1 = −0.5 Analisi − 0.46Geometria + 0.38 Algebra + 0.58 Fisica Y2 = 0.52 Analisi − 0.20Geometria + 0.79 Algebra − 0.2 Fisica 2. Il coefficiente di collasso è dato dalla funzione densità diviso la funzione di affidabilità, ossia: 1 1 Z (t ) = 100 = , t ∈ [0,100] t 100 − t 1− 100 3. Si tratta di applicare un test di Mc-Nemar poiché si tratta di dati appaiati (prima e dopo) e di risposte binarie (è cambiato oppure no il consumo di cioccolata). Lo schema è il seguente: prima Totale 50 -50 dopo 50 35 10 45 -50 12 143 155 Totale 47 153 200 Il numero medio di variazioni è (10+12)/2=11. La statistica test è (12-11)^2/11+(10-11)^2/11=0.18. Il quantile relativo a 0.05 è 3.84 pertanto non si possono ritenere imputabili alla caffeina assunta le variazioni di consumo registrate.