Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre 2012 1. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo di asciugatura. Seleziona dunque 3 tempi di asciugatura (20, 25 e 30 minuti) e due tipi di pittura (1 e 2). Vengono effettuate tre ripetizioni per combinazione e misurato un indice di performance relativo alle caratteristiche esaminate. I dati sono assegnati in tabella. Effettuare un ANOVA. Valutare anche le interazioni tra fattori. Effettuare comunque una analisi dei residui. 1 2 20 74 64 50 92 86 68 Tempo di asciugatura 25 73 61 44 98 73 88 30 78 85 92 66 45 85 2. La tavola che segue mostra 20 osservazioni sulla concentrazione dell’output di un processo chimico. Le osservazioni sono prese ad intervalli di un’ora. Se più osservazioni fossero prese contemporaneamente, queste differirebbero solo per effetto dell’errore di misurazione. Poiché tale errore è stato stimato trascurabile, viene presa una misurazione ogni ora. Costruire la relativa carta di controllo. Costruire la carta di controllo CUMSUM prendendo 100 come valore di riferimento del processo in esame. Osser. 1 2 3 4 5 6 7 8 9 10 Concent. 102.30 94.8 98.3 98.4 102.0 98.5 99.0 97.7 100.0 98.1 Osser. 11 12 13 14 15 16 17 18 19 20 98.1 101.3 98.7 101.1 98.4 97 96.7 100.3 101.4 97.2 Concent. 3. Per un processo di produzione di componenti elettronici, una corrente ha specifiche 100±10milliampere. Il processo ha deviazione standard pari a 1.5. Determinare l’indice di capacità del processo Cp. 4. Sono state monitorate 15 sezioni di censimento. Determinare quali sono le componenti principali associate al dataset. Provare a darne una interpretazione statistica. Sezioni Popolazione in migliaia Mediana anni scolastici Totale Lavoratori Reddito lavoratori (in presso mediano migliaia) strutture sanit $10.000) 1 5.935 14.2 2.265 2.27 2.91 2 1.523 13.1 .597 .75 2.62 3 2.599 12.7 1.237 1.11 1.72 4 4.009 15.2 1.649 .81 3.02 5 4.687 14.7 2.312 2.50 2.22 6 8.044 15.6 3.641 4.51 2.36 7 2.766 13.3 1.244 1.03 1.97 8 6.538 17.0 2.618 2.39 1.85 9 6.451 12.9 3.147 5.52 2.01 10 3.314 12.2 1.606 2.18 1.82 11 3.777 13.0 2.119 2.83 1.80 12 1.530 13.8 .798 .84 4.25 13 2.768 13.6 1.336 1.75 2.64 14 6.585 14.9 2.763 1.91 3.17 (in Prova scritta di Complementi di Probabilità e Statistica Soluzioni - 7 Dicembre 2012 1. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo di asciugatura. Seleziona dunque 3 tempi di asciugatura (20, 25 e 30 minuti) e due tipi di pittura (1 e 2). Vengono effettuate tre ripetizioni per combinazione e misurato un indice di performance relativo alle caratteristiche esaminate. I dati sono assegnati in tabella. Effettuare un ANOVA. Valutare anche le interazioni tra fattori. Tempo di asciugatura 25 73 61 44 98 73 88 20 74 64 50 92 86 68 1 2 30 78 85 92 66 45 85 Si tratta di una ANOVA a due fattori con repliche. L’analisi con Excel restituisce la seguente tabella: Analisi varianza: a due fattori con replica RIEPILOGO 20 25 30 Totale 3 3 3 9 188 178 255 621 Media 62,66667 59,33333 85 69 Varianza 145,3333 212,3333 49 247,75 1 Conteggio Somma 2 Conteggio Somma Media 3 3 3 9 246 259 196 701 82 86,33333 65,33333 77,88889 Varianza 156 158,3333 400,3333 270,8611 Totale Conteggio Somma 6 6 6 434 437 451 Media 72,33333 72,83333 75,16667 Varianza 232,6667 366,9667 295,7667 ANALISI VARIANZA Origine della variazione SQ gdl MQ F Valore di significatività F crit Campione 355,5556 1 355,5556 1,902497 0,192963 4,747221 Colonne 27,44444 2 13,72222 0,073424 0,92962 3,88529 Interazione 1878,778 2 939,3889 5,026457 0,025959 3,88529 In 2242,667 12 186,8889 Totale 4504,444 17 da cui si evince che tra i due fattori in esame c’è interazione, essendo il p-value pari a 0.025. Pertanto nulla si può aggiungere sui fattori. Effettuare i box-plots per un commento qualitativo sulle differenze dei fattori. Per il grafico delle interazioni, la tabella delle medie risulta 20 1 2 25 62,66667 59,33333 82 30 85 86,33333 65,33333 Interazioni 100 80 60 1 40 2 20 0 20 25 30 da cui si evince la presenza di interazioni. Per i residui, sulle righe (1/2) il q-q plot restituisce un andamento rettilineo. Q-Qplot 1/2 2,5 2 1,5 1 0,5 -3 -2 -1 0 -0,5 0 Serie1 1 2 -1 -1,5 -2 -2,5 Per il test KS, il valore della statistica test risulta 0.101 che confrontato con il quantile 0.3 corrispondente ad un campione di taglia 18 e un livello di significatività pari a 0.05 consente di non rigettare l’ipotesi che il campione casuale proviene da una popolazione gaussiana. Per i residui, sulle colonne (20/25/30) il q-q plot restituisce un andamento rettilineo. Q-Q plot colonne 2,5 2 1,5 1 0,5 0 -3 -2 -1 -0,5 0 -1 -1,5 -2 -2,5 Serie1 1 2 Per il test KS, il valore della statistica test risulta 0.082 che confrontato con il quantile 0.3 corrispondente ad un campione di taglia 18 e un livello di significatività pari a 0.05 consente di non rigettare l’ipotesi che il campione casuale proviene da una popolazione gaussiana. 2.La tavola che segue mostra 20 osservazioni sulla concentrazione dell’output di un processo chimico. Le osservazioni sono prese ad intervalli di un’ora. Se più osservazioni fossero prese contemporaneamente, queste differirebbero solo per effetto dell’errore di misurazione. Poiché tale errore è stato stimato trascurabile, viene presa una misurazione ogni ora. Costruire la relativa carta di controllo. Costruire la carta di controllo CUMSUM prendendo 100 come valore di riferimento del processo in esame. Si tratta di una carta di controllo MR. Per la media si ha Carta per la media 110,00 105,00 dati 100,00 LC LINF 95,00 LSUP 90,00 19 17 15 13 11 9 7 5 3 1 85,00 da cui risulta che il processo è in controllo statistico. Per l’escursione Carta MR 9 8 7 6 dati 5 LC 4 LINF 3 LSUP 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 si evince che la rilevazione 3, 10 e 16 sono fuori controllo statistico. La carta di controllo i CUMSUM, effettua il grafico delle somme parziali Si = ∑ ( X i − µ0 ) . La carta risulta essere j =1 Carta cumsum 5,00 19 17 15 13 9 7 5 11 -5,00 3 1 0,00 -10,00 cum -15,00 -20,00 -25,00 C’è uno shift verso il basso e quindi il processo è fuori controllo statistico. Per un processo di produzione di componenti elettronici, una corrente ha specifiche 100±10milliampere. Il processo ha deviazione standard pari a 1.5. Determinare l’indice di capacità del processo Cp. L’indice di capacità Cp=(ULC-LLC)/6σ vale 20/(6*1.5)=2,22. Sono state monitorate 15 sezioni di censimento. Determinare le prime 2 componenti principali. Provare a darne una interpretazione statistica. La matrice dei dati è stata memorizzata in una vettore x in matlab. La matrice di correlazione risulta >> C=corrcoef(x) C= 1.0000 0.6102 0.9707 0.7400 -0.1720 0.6102 1.0000 0.4943 0.0954 0.9707 0.4943 1.0000 0.8480 -0.2492 0.7400 0.0954 0.8480 1.0000 -0.3580 -0.1720 0.1859 -0.2492 -0.3580 0.1859 1.0000 La scelta della matrice di correlazione si rende necessaria perché i dati hanno unità di misura molto diverse tra loro. Per effettuare la PCA bisogna determinare gli autovalori di questa matrice. In Matlab, questo calcolo viene realizzato dalla procedura SVD. >> [U,S,V] = svd(C) U= -0.5584 -0.1314 0.0079 0.5506 -0.6065 -0.3133 -0.6289 -0.5490 -0.4527 0.0066 -0.5683 -0.0043 0.1173 0.7690 -0.4866 0.4549 -0.6480 -0.2013 0.3096 0.1743 -0.7010 0.2681 0.6912 0.0151 S= 3.0289 0 0 0 0 0 1.2911 0 0 0 0 0 0.5725 0 0 0 0 0 0.0954 0 0 0 0 0 0.0121 0.0142 V= -0.5584 -0.1314 0.0079 0.5506 -0.6065 -0.3133 -0.6289 -0.5490 -0.4527 0.0066 -0.5683 -0.0043 0.1173 0.7690 -0.4866 0.4549 -0.6480 -0.2013 0.3096 0.1743 -0.7010 0.6912 0.2681 0.0151 0.0142 Gli autovalori sono sulla diagonale della matrice S, gli autovettori sono sulle colonne della matrice U. La percentuale di variabilità riassunta dagli autovalori risulta essere 0.6058 (aut=3.0289) 0.8640 (aut=1.2911) 0.9785 (aut=0.5725) 0.9976 (aut=0.0954) 1.0 (aut=0.0121) Pertanto le prime due componenti principali riassumono l’86% della variabilità del campione e sono sufficienti per la sua riduzione. Nella prima componente principale tutte le variabili hanno peso negativo, fatta eccezione per l’ultima che difatti è associata ad una variabile (il reddito) il cui carattere qualitativo è totalmente diverso dagli altri.