Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre

Prova scritta di Complementi di Probabilità e Statistica
7 Dicembre 2012
1. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono
influenzate dal tipo di pittura usata e dal tempo di asciugatura. Seleziona dunque 3
tempi di asciugatura (20, 25 e 30 minuti) e due tipi di pittura (1 e 2). Vengono effettuate
tre ripetizioni per combinazione e misurato un indice di performance relativo alle
caratteristiche esaminate. I dati sono assegnati in tabella. Effettuare un ANOVA.
Valutare anche le interazioni tra fattori. Effettuare comunque una analisi dei residui.
1
2
20
74
64
50
92
86
68
Tempo di asciugatura
25
73
61
44
98
73
88
30
78
85
92
66
45
85
2. La tavola che segue mostra 20 osservazioni sulla concentrazione dell’output di un
processo chimico. Le osservazioni sono prese ad intervalli di un’ora. Se più
osservazioni fossero prese contemporaneamente, queste differirebbero solo per effetto
dell’errore di misurazione. Poiché tale errore è stato stimato trascurabile, viene presa
una misurazione ogni ora. Costruire la relativa carta di controllo. Costruire la carta di
controllo CUMSUM prendendo 100 come valore di riferimento del processo in esame.
Osser.
1
2
3
4
5
6
7
8
9
10
Concent. 102.30 94.8 98.3 98.4 102.0 98.5 99.0 97.7 100.0 98.1
Osser.
11
12
13
14
15
16 17
18
19
20
98.1
101.3
98.7
101.1
98.4
97
96.7
100.3
101.4
97.2
Concent.
3. Per un processo di produzione di componenti elettronici, una corrente ha specifiche
100±10milliampere. Il processo ha deviazione standard pari a 1.5. Determinare l’indice
di capacità del processo Cp.
4. Sono state monitorate 15 sezioni di censimento. Determinare quali sono le
componenti principali associate al dataset. Provare a darne una interpretazione
statistica.
Sezioni
Popolazione
in migliaia
Mediana anni
scolastici
Totale
Lavoratori
Reddito
lavoratori (in presso
mediano
migliaia)
strutture sanit $10.000)
1
5.935
14.2
2.265
2.27
2.91
2
1.523
13.1
.597
.75
2.62
3
2.599
12.7
1.237
1.11
1.72
4
4.009
15.2
1.649
.81
3.02
5
4.687
14.7
2.312
2.50
2.22
6
8.044
15.6
3.641
4.51
2.36
7
2.766
13.3
1.244
1.03
1.97
8
6.538
17.0
2.618
2.39
1.85
9
6.451
12.9
3.147
5.52
2.01
10
3.314
12.2
1.606
2.18
1.82
11
3.777
13.0
2.119
2.83
1.80
12
1.530
13.8
.798
.84
4.25
13
2.768
13.6
1.336
1.75
2.64
14
6.585
14.9
2.763
1.91
3.17
(in
Prova scritta di Complementi di Probabilità e Statistica
Soluzioni - 7 Dicembre 2012
1. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica
sono influenzate dal tipo di pittura usata e dal tempo di asciugatura. Seleziona
dunque 3 tempi di asciugatura (20, 25 e 30 minuti) e due tipi di pittura (1 e 2).
Vengono effettuate tre ripetizioni per combinazione e misurato un indice di
performance relativo alle caratteristiche esaminate. I dati sono assegnati in tabella.
Effettuare un ANOVA. Valutare anche le interazioni tra fattori.
Tempo di asciugatura
25
73
61
44
98
73
88
20
74
64
50
92
86
68
1
2
30
78
85
92
66
45
85
Si tratta di una ANOVA a due fattori con repliche. L’analisi con Excel restituisce la
seguente tabella:
Analisi varianza: a due fattori con replica
RIEPILOGO
20
25
30 Totale
3
3
3
9
188
178
255
621
Media
62,66667 59,33333
85
69
Varianza
145,3333 212,3333
49
247,75
1
Conteggio
Somma
2
Conteggio
Somma
Media
3
3
3
9
246
259
196
701
82 86,33333 65,33333 77,88889
Varianza
156 158,3333 400,3333 270,8611
Totale
Conteggio
Somma
6
6
6
434
437
451
Media
72,33333 72,83333 75,16667
Varianza
232,6667 366,9667 295,7667
ANALISI VARIANZA
Origine della variazione
SQ
gdl
MQ
F
Valore di significatività
F crit
Campione
355,5556
1 355,5556 1,902497
0,192963 4,747221
Colonne
27,44444
2 13,72222 0,073424
0,92962
3,88529
Interazione
1878,778
2 939,3889 5,026457
0,025959
3,88529
In
2242,667
12 186,8889
Totale
4504,444
17
da cui si evince che tra i due fattori in esame c’è interazione, essendo il p-value pari a
0.025. Pertanto nulla si può aggiungere sui fattori. Effettuare i box-plots per un commento
qualitativo sulle differenze dei fattori.
Per il grafico delle interazioni, la tabella delle medie risulta
20
1
2
25
62,66667 59,33333
82
30
85
86,33333 65,33333
Interazioni
100
80
60
1
40
2
20
0
20
25
30
da cui si evince la presenza di interazioni. Per i residui, sulle righe (1/2) il q-q plot
restituisce un andamento rettilineo.
Q-Qplot 1/2
2,5
2
1,5
1
0,5
-3
-2
-1
0
-0,5 0
Serie1
1
2
-1
-1,5
-2
-2,5
Per il test KS, il valore della statistica test risulta 0.101 che confrontato con il quantile 0.3
corrispondente ad un campione di taglia 18 e un livello di significatività pari a 0.05
consente di non rigettare l’ipotesi che il campione casuale proviene da una popolazione
gaussiana.
Per i residui, sulle colonne (20/25/30) il q-q plot restituisce un andamento rettilineo.
Q-Q plot colonne
2,5
2
1,5
1
0,5
0
-3
-2
-1
-0,5 0
-1
-1,5
-2
-2,5
Serie1
1
2
Per il test KS, il valore della statistica test risulta 0.082 che confrontato con il quantile 0.3
corrispondente ad un campione di taglia 18 e un livello di significatività pari a 0.05
consente di non rigettare l’ipotesi che il campione casuale proviene da una popolazione
gaussiana.
2.La tavola che segue mostra 20 osservazioni sulla concentrazione dell’output di un
processo chimico. Le osservazioni sono prese ad intervalli di un’ora. Se più
osservazioni fossero prese contemporaneamente, queste differirebbero solo per
effetto dell’errore di misurazione. Poiché tale errore è stato stimato trascurabile,
viene presa una misurazione ogni ora. Costruire la relativa carta di controllo.
Costruire la carta di controllo CUMSUM prendendo 100 come valore di riferimento
del processo in esame.
Si tratta di una carta di controllo MR.
Per la media si ha
Carta per la media
110,00
105,00
dati
100,00
LC
LINF
95,00
LSUP
90,00
19
17
15
13
11
9
7
5
3
1
85,00
da cui risulta che il processo è in controllo statistico. Per l’escursione
Carta MR
9
8
7
6
dati
5
LC
4
LINF
3
LSUP
2
1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
si evince che la rilevazione 3, 10 e 16 sono fuori controllo statistico. La carta di controllo
i
CUMSUM, effettua il grafico delle somme parziali Si = ∑ ( X i − µ0 ) . La carta risulta essere
j =1
Carta cumsum
5,00
19
17
15
13
9
7
5
11
-5,00
3
1
0,00
-10,00
cum
-15,00
-20,00
-25,00
C’è uno shift verso il basso e quindi il processo è fuori controllo statistico.
Per un processo di produzione di componenti elettronici, una corrente ha specifiche
100±10milliampere. Il processo ha deviazione standard pari a 1.5. Determinare
l’indice di capacità del processo Cp.
L’indice di capacità Cp=(ULC-LLC)/6σ vale 20/(6*1.5)=2,22.
Sono state monitorate 15 sezioni di censimento. Determinare le prime 2 componenti
principali. Provare a darne una interpretazione statistica.
La matrice dei dati è stata memorizzata in una vettore x in matlab. La matrice di
correlazione risulta
>> C=corrcoef(x)
C=
1.0000
0.6102
0.9707
0.7400 -0.1720
0.6102
1.0000
0.4943
0.0954
0.9707
0.4943
1.0000
0.8480 -0.2492
0.7400
0.0954
0.8480
1.0000 -0.3580
-0.1720
0.1859 -0.2492 -0.3580
0.1859
1.0000
La scelta della matrice di correlazione si rende necessaria perché i dati hanno unità di
misura molto diverse tra loro. Per effettuare la PCA bisogna determinare gli autovalori di
questa matrice. In Matlab, questo calcolo viene realizzato dalla procedura SVD.
>> [U,S,V] = svd(C)
U=
-0.5584 -0.1314
0.0079
0.5506 -0.6065
-0.3133 -0.6289 -0.5490 -0.4527
0.0066
-0.5683 -0.0043
0.1173
0.7690
-0.4866
0.4549 -0.6480 -0.2013
0.3096
0.1743 -0.7010
0.2681
0.6912
0.0151
S=
3.0289
0
0
0
0
0
1.2911
0
0
0
0
0
0.5725
0
0
0
0
0
0.0954
0
0
0
0
0
0.0121
0.0142
V=
-0.5584 -0.1314
0.0079
0.5506 -0.6065
-0.3133 -0.6289 -0.5490 -0.4527
0.0066
-0.5683 -0.0043
0.1173
0.7690
-0.4866
0.4549 -0.6480 -0.2013
0.3096
0.1743 -0.7010
0.6912
0.2681
0.0151
0.0142
Gli autovalori sono sulla diagonale della matrice S, gli autovettori sono sulle colonne della
matrice U. La percentuale di variabilità riassunta dagli autovalori risulta essere
0.6058 (aut=3.0289)
0.8640 (aut=1.2911)
0.9785 (aut=0.5725)
0.9976 (aut=0.0954)
1.0
(aut=0.0121)
Pertanto le prime due componenti principali riassumono l’86% della variabilità del
campione e sono sufficienti per la sua riduzione. Nella prima componente principale
tutte le variabili hanno peso negativo, fatta eccezione per l’ultima che difatti è associata
ad una variabile (il reddito) il cui carattere qualitativo è totalmente diverso dagli altri.