Politecnico di Milano - Scuola di Ingegneria Industriale II Prova in

Politecnico di Milano - Scuola di Ingegneria Industriale
II Prova in Itinere di Statistica per Ingegneria Energetica
25 luglio 2011
c diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
I
Cognome, Nome e Numero di matricola:
Problema 1.
Uno studente si presenta ad un esame senza aver studiato. L’esame consiste in un test a crocette, di
10 domande, ognuna con 4 possibili risposte. Lo studente risponde a caso a tutte le domande.
(a) Determinare il numero atteso di risposte corrette ottenute rispondendo a caso, e la relativa varianza,
dopo aver definito un’opportuna variabile aleatoria.
(b) Calcolare la probabilità che lo studente non dia nessuna risposta corretta.
(c) L’esame viene considerato sufficiente se vengono date almeno 8 risposte corrette.
probabilità che lo studente passi l’esame.
Calcolare la
(d) Nel caso in cui l’esame fosse invece composto da solo 6 domande, con 3 possibili risposte, e che la
sufficienza venga raggiunta con almeno 5 risposte corrette, quale sarebbe la probabilità di passare
l’esame? Quale delle due modalità d’esame sarebbe quindi più vantaggiosa per lo studente?
Soluzione.
(a) Sia X il numero di risposte corrette ottenute risponendo a caso alle 10 domande. Dato che le risposte
alle domande sono indipendenti, X ∼ Bin(n, p) con n = 10 pari al numero di domande e p = 1/4
pari alla probabilità di rispondere correttamente ad una domanda.
Il numero medio di risposte corrette è pari a E[X] = np = 10/4 = 2.5 e la varianza è pari a
V ar(X) = np(1 − p) = 15/8 = 1.875.
0
10
10
(b) P (X = 0) = 10
= 34
= 0.0563
0 p (1 − p)
8
10 10
10 9
2
0
(c) P (X ≥ 8) = P (X = 8) + P (X = 9) + P (X = 10) = 10
8 p (1 − p) + 9 p (1 − p) + 10 p (1 − p) =
0.00042.
(d) Sia Y ∼ Bin(6, 1/3) il numero di risposte corrette con la nuova modalità d’esame (che prevede 6
domande, con 3 possibili risposte). La probabilità di passare l’esame è pari a
6 5
6 6
1
P (Y ≥ 5) =
p (1 − p) +
p (1 − p)0 = 0.018.
5
6
Lo studente preferirebbe quindi la nuova modalità d’esame.
1
Problema 2.
La distanza X che il Mechadon può percorrere con una batteria nuova è aleatoria e, misurata in
miriametri, ha densità continua

0,
se x ≤ 0,
3
3
I
(x)
=
f (x) =
(0,+∞)

, se x > 0.
(1 + x)4
(1 + x)4
Calcolare:
(a) la distanza che il Mechadon mediamente percorre con una batteria nuova,
(b) la varianza della distanza percorsa dal Mechadon con una batteria nuova,
(c) primo quartile Q1 e terzo quartile Q3 della distanza percorsa dal Mechadon con una batteria nuova,
(d) la probabilità che con una batteria nuova il Mechadon percorra una distanza compresa fra Q1 e Q3 .
Il Mechadon parte con un carico di 64 batterie nuove. Sia Y la distanza totale che potrà percorrere
sostituendo di volta in volta le batterie esaurite. Le distanze percorse con le diverse batterie sono
indipendenti. Calcolare:
(e) valore atteso e varianza di Y ,
(f) la probabilità, eventualmente approssimata, che il Mechadon percorra in totale più di 45 miriametri.
Soluzione.
Z
∞
(a) E[X] =
0
3x
dx = 0.5,
(1 + x)4
∞
3x2
3
2
dx = 1, per cui σX
= E[X 2 ] − E[X]2 = ,
4
(1
+
x)
4
0
Z qα
3
1
dx = 1 −
, ovvero
(c) Per 0 < α < 1 il quantile di ordine α è dato da α =
4
(1
+
x)
(1
+
qα )3
0
q
1
qα = 3 1−α
−1
(b) E[X 2 ] =
Z
per cui Q1 = q0.25 = 0.100642416 e Q3 = q0.75 = 0.587401052,
(d) P (Q1 < X < Q3 ) = 0.5.
(e) Dette Xk le distanze percorse con le diverse batterie, si ha Y = X1 + · · · + X64 , per cui
E[Y ] = 64 E[X] = 32 e Var[Y ] = 64 Var[X] = 48.
(f) Essendo il campione numeroso, per il TCL si ha Y ' N (32, 48), per cui
√
= 1 − Φ(1.88) = 1 − 0.9699 = 0.0301 = 3.01%.
P (Y > 45) ' 1 − Φ 45−32
48
2
Problema 3.
L’azienda HappyKnitting sta lanciando sul mercato un nuovo filato di lana. Il responsabile dei prodotti
decide di considerare n provini per ottenere un campione casuale X1 , . . . , Xn di misure della resistenza
alla rottura (in psi) del nuovo filato (in condizioni di non tessitura). Si può assumere che queste misure
siano distribuite normalmente, con varianza 16psi2 , nota da precedenti studi sul filato, e media incognita.
(a) Quale deve essere la minima ampiezza campionaria n tale che un intervallo di confidenza per la
resistenza media del filato di livello 0.95 non risulti più lungo di 4psi?
Il responsabile dei prodotti decide di considerare 20 provini, ottenendo una media campionaria delle
resistenze alla rottura pari a 91psi.
(b) Si dia un intervallo di confidenza di livello 0.95 per la resistenza media del filato.
(c) Calcolare l’ampiezza dell’intervallo di confidenza.
(d) Il responsabile dei prodotti desiderava produrre un filato con una resistenza media pari a 95psi. E’
ragionevole supporre che il nuovo filato abbia questo valore di resistenza media, oppure i dati dei
provini portano evidenza contraria a questa ipotesi? Si risponda con un opportuno test statistico
di livello 5%.
Soluzione.
(a) X1 , . . . , Xn ∼ N√(µ, σ 2 ), con σ 2 =√16. L’intervallo di confidenza per µ di livello
√ 0.95 ha la forma:
√
n,
x̄
+
z
σ/
n);
la
sua
ampiezza
è
quindi
2z
σ/
n = 2 ∗ 1.96 ∗ 4/ n,
(x̄ − z1−0.975 σ/
1−0.975
1−0.975
√
e 2 ∗ 1.96 ∗ 4/ n < 4 implica n > 15.37. La minima ampiezza campionaria richiesta è dunque 16.
(b) 91 ± 1.75, ovvero (89.25, 92.75).
(c) 3.51.
(d) H0 : µ = 95 vs H1 : µ 6= 95; l’ipotesi nulla viene rifiutata a livello 5% perché il valore µ0 = 95 cade
al di fuori dell’intervallo di confidenza di livello 95%.
3
Problema 4.
La società Firebolt s.r.l sta sperimentando un nuovo tipo di saldatore laser applicato alla saldatura
a sovrapposizione. In particolare decide di effettuare un esperimento per valutare la relazione tra il
rapporto di forma H (cioè il rapporto fra profondità e larghezza del cordone saldato) e alcuni parametri
di processo: il diametro dello spot D (in mm), la potenza dell’ impulso P (in kW) e la durata dell’ impulso
T (in ms). In Figg. 1 e 2 vengono proposti gli output di R del modello di regressione, il grafico dei residui
e i p-value del test di Shapiro-Wilk per i residui per ciascuno dei seguenti modelli
Modello1 Hi = β0 + β1 Pi + β2 Ti + β3 Di + i
Modello2 Hi = β0 + β1 Pi + β2 Di + i
con i ∼ N (0, σ 2 ), per i = 1, . . . , 24.
(a) Si commenti la bontà dei modelli proposti e si scelga di conseguenza il migliore per descrivere il
processo.
(b) Si scriva l’equazione di regressione stimata per il modello prescelto.
(c) Si calcoli un intervallo di confidenza al 90% per β0 per il modello prescelto.
(d) Si stimi puntualmente il valore medio di H in corrispondenza di P = 1.3, T = 10 e D = 0.4.
(e) Si stimi puntualmente la variazione media di H se, a parità degli altri predittori, D aumenta di 0.1
mm.
4
Figura 1: Problema 4, allegato I: output dell’analisi per il modello 1
Figura 2: Problema 4, allegato II: output dell’analisi per il modello 2
5
Soluzione.
(a) Il Modello 1 ha un R2 adjusted abbastanza elevato, i residui non presentano particolari trend.
Considerando il p-value del test di Shapiro- Wilks, l’ipotesi della normalità dei residui non è rifiutata a
tutti i livelli usuali. Pertanto è possibile considerare i test di significatività proposti nell’output di R. Il
modello è globalmente significativo (p-value 8.08e−09), ma il coefficiente β2 risulta non significativamente
diverso da 0 (p-value 0.464). Per questo motivo sarebbe opportuno eliminare il predittore T dal modello.
Il Modello 2, ottenuto proprio eliminando T , presenta le stesse buone caratteristiche del Modello 1,
ma in questo caso tutti i predittori risultano significativi. Inoltre R2 adjusted è leggermente aumentato e
i p-value del test di significatività della regressione è leggermente diminuito. E’ un modello più semplice
del Modello 1, avendo un regressore in meno, ma ha le stesse performances, se non leggermente superiori.
Per questi motivi è opportuno scegliere il Modello 2.
I grafici dei residui potrebbero evidenziare una possibile eteroschedasticità (per entrambi i modelli),
ma non in modo preoccupante.
b = 0.53096 + 0.4785P − 0.44194D
(b) H
(c) Un intervallo di confidenza al 90% per β0 è dato da
β̂0 ± t0.05,24−3 se(β̂0 ) = 0.53096 ± 1.721 × 0.07149 = 0.53096 ± 0.1230343 = [0.4079257; 0.6539943].
(d) Utilizzando il Modello 2:
b P =1.3,D=0.4 = 0.53096 + 0.4785 × 1.3 − 0.44194 × 0.4 = 0.976234
H|
(e) Utilizzando il Modello 2:
b P,D+0.1 − H|
b P,D = βb2 × 0.1 = −0.44194 × 0.1 = −0.044194
H|
quindi stimiamo che, se il diametro dello spot D aumenta di 1 mm e gli altri predittori non variano, il
rapporto di forma H in media diminuisce di 0.044194.
6