`e costruire un modello probabilistico per spiegare la variabile y

Statistica Industriale Lez. 7
Regressione multipla
L’obiettivo è costruire un modello probabilistico per spiegare la variabile y
tramite più di una variabile indipendente x1, x2, . . . , xk .
Esempio: Per un efficiente progettazione degli inceneritori di rifiuti municipali è necessario che l’informazione relativa al contenuto di energia dei
rifiuti sia disponibile. Abbiamo a disposizione 30 campioni di rifiuti di una
certa regione per i quali abbiamo i valori delle variabili y contenuto di energia (Kcal/kg), x1 % di plastica sul peso, x2 % di carta sul peso, x3 %
di altri rifiuti organici sul peso, x4 % di umidità sul totale del campione
esaminato.
Il modello proposto potrebbe essere
Y = β0 + β1x1 + β2x2 + β3x3 + β4x4 + ε,
(1)
Occorre capire quali variabili servono a spiegare la variabile di interesse
(selezione delle variabili) e in che misura vi contribuisce.
1
Statistica Industriale Lez. 7
44 48 52 56
●
●
● ●
●
●
●● ●
● ●●
● ●
●●
●● ●
● ● ● ●● ●
●
●
●
●
●
20
25
30
●
●
●
● ●
●●
● ●
●
●
●
●●● ● ● ●
●●
●
●
●
●
●●
●
15
●
●
●●
●
●●
● ● ●●
● ●
●●
●● ●
●
●●●
● ●
●
● ●
●
●
●●
● ●●
●
● ● ●
● ●
●
●
●● ●
●
●
●
●
●
14
●
18
Garbage
●
● ●
●
●
●● ● ●
● ●
●
● ●
●
●
● ●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
● ● ●●●●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●●
●●
●
●●
●
● ●●
● ● ●●
● ●
● ●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●● ● ●
●
●
●
●●
●● ●
●
●
●
●
Water
●
●
●●
●● ●
●
● ●●
● ●
● ●
●● ●
●
●
● ●
●
●● ●
●
●
●
●
●
●
● ● ●
●●●
●
● ●
●
●
●
●
●●
●●
●●
●●
●
● ●
●
●
35
●
●
●
●
● ●
●● ●●
● ● ●
●●
● ●
●
● ●
●●● ●
●
●
●
●
●
22
●
●
●
● ● ● ● ●●
●
●● ●●
● ●
● ● ●
●
●
●●
●● ●
●
●
●
●
●
● ●
●
●●●
●
●
●
●
●
●
●
●
●
●
● ● ● ●●
●
●●
●●
●
● ●
●●
●
● ●
●
●●
●
●
●
● ●
●● ●● ●
●
●● ● ●
●
●●●
●●
● ●●●
●
●
●
●
●
●
●
●
●
●
●●
● ●●●
● ● ●
● ● ● ●● ●
●●
●
●
●
●●
● ●
●
●
●
●
● ●
●
●●
● ●
●
●
●●
●
●
●●
●
●
●
●● ●
● ●
●
●
●●
● ●
●
● ●
●
● ●●
●
● ●●
●
●
●
●
●● ●
●
●
●
●
44 48 52 56
●
●
●
●
●● ●
●● ●●●
● ●
●
●
●
●
●● ●
●●
●
●
●
●
●
●
●
Paper
●
●
22
●
●
● ●●
●
● ●●
●
●
●
●
●●
● ● ●● ●
●
●
●
●
●
●
●
18
Plastics
●
14
●
●
45
30
35
25
●
45
●
●● ●
●● ●
●
● ● ●
● ●●
●
● ●●
● ●●
● ●●●
●
●
Energy.content
1400
20
1000
15
●
1000
1400
2
Statistica Industriale Lez. 7
Analisi della correlazione tra le variabili
Calcoliamo la matrice di correlazione tra le variabili in gioco. Per i dati
dell’esempio abbiamo:
Plastics
Paper
Garbage
Water
Energy.content
Plastics
1.00
−0.15
−0.09
−0.26
0.59
Paper
−0.15
1.00
−0.63
−0.01
0.04
Garbage
−0.09
−0.63
1.00
0.07
−0.09
Water
−0.26
−0.01
0.07
1.00
−0.90
Energy.content
0.59
0.04
−0.09
−0.90
1.00
Come regola generale è bene che entrino nel modello le variabili maggiormente correlate con la variabile da spiegare e le meno incorrelate tra
loro.
In questo caso potremmo considerare un modello in cui entrino solo le
variabili Water e Plastics
3
Statistica Industriale Lez. 7
●
●
●
●
●
●
●
●●
● ●●
●
● ●
●
● ●
●●
●
●
●● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
● ●● ●
●
●●
●●
●
● ●
●●
●
● ●
●
● ●
●
●
●
●
● ●
●
●●
● ●
●
●
●●
●
●
●
●
●
●
●
●● ●
● ●
●
25
Paper
20
●
●
●
20 22 24
24
22
20 Plastics
18
16
14 16 18
14
15
●
●
●
●
●
●● ●
●●
●●
●
●
●
●
● ●●
●
● ●
●
●●
● ●
●
●
●
●
●
●● ● ●●
●
●
●●
● ● ●●●●
●
●
●
●
● ●
●
●
●
●
●
●●
●● ●
●
● ●●
● ●
● ●
●● ●
●
●
●
●
●
●● ●
●
●
● ●
● ●
●
●
●
●●
●
● ●●
●
●
●
● ● ●
●
●
●
●●
●● ●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
● ●●●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●● ●● ●●
●
● ●●
●
●
●
● ●
●
●
●
●●
●●
●● ●
●
●
●
● ●
● ●
●
● ●●
●
●
●
●
●
●
●
●
● ●
●
●
●
45
●
●
●
● ●
40
●
●●
● ●●
●
● ●
● ● ●● ●
● ●
●●
●●●
●
●●
● ●
●
50
●
35
35 40
15
20
50
1000
●
55
Water
45
●
Garbage
30
25
●
50
45
●
●●
●
●
●●
●
●
●● ●
●●
●● ● ●
●●●
● ●
● ●
●
●
●
30
●
●
●
●
10001200
●
45 50
50
●
55
●
●
●
50
●
●
●●●
●
1400
Energy.content
1200
●
●
●
●
●
● ●
● ● ●
●
● ●●
●
●
●● ●●
●● ● ●
● ●
● ●
●
●
●
● ●
●
●
●
●●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●●● ● ● ●
●●
●
●
●
●●
●
●
●
●
●
●
●● ●
●● ●
●
● ● ●
● ● ●
● ●●●
● ●●
● ●●●
●
●
14001600
1600
●
●
● ●
● ● ●
●●●
●● ●●
●
● ●
●
●
● ●
●●
●●
● ●
●
● ●
●●
●●
●●
●
●●● ●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
Scatter Plot Matrix
●
●● ●
● ● ●●
● ●
●
●
●●
●● ●
●●
●
●
●
●
●
●
● ●
●
●
●
● ●
●
● ●
●
● ●●
●
● ●●
●
●
●
●
●● ●
●
●
●
4
Statistica Industriale Lez. 7
Consideriamo il modello generale
Y = β0 + β1x1 + . . . + βk xk + ε,
(2)
Posto θ = (β0, β1, . . . , βk )0 se abbiamo n osservazioni possiamo riscrivere le
n equazioni (2) in forma matriciale
Y = Xθ + 

1 x11 . . . x1k
1 x
. . . x2k 


21
0
0 . La stima
dove Y = (Y1, . . . , Yn) , X =  .. . .
,
=
(ε
,
.
.
.
,
ε
)

n
.
1
.
..
.. 
.
.
1 xn1 . . . xnk
ottenuta coi minimi quadrati (OLS=Ordinary Least Squares) è data da
θ̂ = (X0X)−1X0Y
dove Y = (y1, . . . , yn)0. In seguito p = k + 1 è il numero dei parametri.
La stima OLS si ottiene se solo se XX0 è invertibile, cioè se e solo se la
matrice X ha rango massimo p.
5
Statistica Industriale Lez. 7
Le osservazioni y = (y1, . . . , yn)0 provengono dal modello
0
Yi = xiβ + εi
• Yi variabile casuale dipendente
• x0i = [1, xi1, xi2, ..., xik ] vettore dei regressori (deterministici o stocastici)
h
i
0
• β = β0, β1,β2, ..., βk vettore dei parametri
• εi : componente stocastica di valore atteso nullo
FUNZIONE DI REGRESSIONE
0
E(Yi|xi) = xiβ
6
Statistica Industriale Lez. 7
Y = Xβ + 
• X
0

0

x1
0 
x2 
 matrice n × p dei regressori



=


xn


Y1
 Y 
 2 
• Y=
 vettore delle variabili risposta


Yn



• =

ε1
ε2
..
εn



 vettore delle componenti stocastiche

7
Statistica Industriale Lez. 7
ASSUNZIONI DEL MODELLO DI REGRESSIONE LINEARE
CLASSICO
• A0: la funzione di regressione E(Y|X) = Xβ è correttamente specificata
• A1: è un vettore di n variabili casuali indipendenti
• A2: le componenti di sono variabili casuali di valore atteso nullo e
varianza σ 2 (omoschedastiche)
• A3: le componenti di sono variabili casuali normali
• A4: X è una matrice di costanti note (regressori non stocastici)
• A5: le colonne di X sono linearmente indipendenti = : X0X è invertibile
8
Statistica Industriale Lez. 7
STIMA di β, σ 2
0
Da Yi = xiβ + εi e per le A1, A2, A3, A4 si ha che le Yi sono variabili
0
casuali indipendenti normali con valore atteso µi = xiβ e varianza σ 2.
La verosimiglianza è:
n
Y
1
0
1
√
L(β, σ 2) =
exp − 2 (yi − xiβ)2
2
2σ
i=1 2πσ
e la log verosimiglianza:
n
2
L(β, σ ) = − ln(2πσ 2) −
0
1 X
2=
(y
−
x
β)
i
i
2
2σ 2 i
1
n
2
0 y − Xβ
y
−
X
β
= − ln(2πσ ) −
(
)
(
)
2
2σ 2
se σ 2 è noto massimizzare la log verosimiglianza equivale a minimizzare
(CRITERIO DEI MINIMI QUADRATI):
Q(β) = (y − Xβ )0 (y − Xβ )
9
Statistica Industriale Lez. 7
RISULTATO FONDAMENTALE
Q(β) = (y − Xβ )0 (y − Xβ ) ha un unico minimo in
b
−1
0
= XX
X0y
È importante notare che:
y − Xb = y − X
−1
0
XX
X0y = (In−M) y
dove M = X X0X −1 X0 è una matrice n×n idempotente (M = MM). Quindi anche (In−M) è idempotente.
Ne consegue
SSE = Q(b) = (y − Xb)0 (y − Xb) =
= y0 (IT −M) y = y0y − y0My =
= y0 y − y0 X
−1
0
X0y =
XX
y0y − y0Xb
10
Statistica Industriale Lez. 7
Ovvero più semplicemente (ma non per i calcoli)
SSE = Q(b) =
X
0
(yi − xib)2 =
X
i
yi2 −
i
X
0
yixib
i
Verosimiglianza concentrata
Sostituendo b a β nella log verosimiglianza si ottiene la log verosimiglianza
concentrata:
1
n
L(σ 2) = − ln(2πσ 2) −
Q(b)
2
2
2σ
che ha un massimo in σ̂ 2 = Q(nb) .
CONCLUDENDO: gli stimatori M.V. sono
Q(b)
2
σ̂ =
n
−1
0
b= X X
X0y
11
Statistica Industriale Lez. 7
Esempio: Nel caso dell’esempio presentato le stime dei parametri del
modello con le quattro variabili sono contenute nella seguente tabella.
(Intercept)
Plastics
Paper
Garbage
Water
Estimate
2245.0933
28.9224
7.6429
4.2969
−37.3559
Std. Error
177.8922
2.8235
2.3137
1.9161
1.8342
t value
12.62
10.24
3.30
2.24
−20.37
Pr(>|t|)
0.0000
0.0000
0.0029
0.0340
0.0000
La matrice di varianza e covarianza dei parametri è Σ(θ) = (X 0X)−1σ 2.
La stima di tale matrice la si ottiene stimando σ 2 con s2 = SSE
n−p , dove
SSE =
(yi − ŷi)2.
P

c00
c

0
−1
2
ˆ
Σ(θ) = (X X) s =  10
 ...
ck0
c01
c11
...
ck1

. . . c0k
. . . c1k 

. . . ... 

. . . ckk
I termini sulla diagonale principale della matrice (X 0X)−1s2 sono la stima
di V ar(θ). Std.Error è la radice quadrata di questi termini.
12
Statistica Industriale Lez. 7
Verifica di ipotesi per la significatività dei singoli parametri
Sotto le ipotesi che εi ∼ N (0, σ 2) i.i.d. si deduce che lo stimatore dei
parametri θ è uno stimatore non distorto, cioè E(θ) = θ, la matrice di
varianza e covarianza è data da Σ(θ) la cui stima è data da Σ̂(θ), e inoltre
ogni stimatore β̂i è gaussiano.
Se si vuole quindi verificare l’ipotesi
H0 : βi = 0
contro l’alternativa
H1 : βi 6= 0
da questi fatti si deduce che la statistica ti = √β̂ci , sotto l’ipotesi nulla
ii
βi = 0, è una t-Student con n − p g.d.l dove cii è l’elemento sulla diagonale
della matrice (X 0X)−1s2. Quindi, fissato un livello di fiducia α, si rifiuta
l’ipotesi H0 se |ti| > t1− α ,n−p.
2
13
Statistica Industriale Lez. 7
Il p-value, questo sconosciuto
Quasi tutti i software statistici non ci dicono se accettare o rifiutare l’ipotesi
nulla, ma ci danno il p-value!
Cerchiamo di capire cosa è. Indichiamo solo per il momento con Ti la
statistica e con ti il valore calcolato sui dati. Allora
p-value = P (|Ti| > |ti|)
Quindi il p-value non è altro che la probabilità con cui la statistica (Ti)
può assumere valori più elevati di quello osservato (ti).La regola di rifiuto
dell’ipotesi H0 è:
Rifiuto H0 se |ti| > t1− α ,n−p.
2
Il valore di t1− α ,n−p è ricavato da
2
P (|Ti| > t1− α ,n−p) = α
2
Si deduce che per α fissato noi rifiutiamo l’ipotesi nulla se il p-value è
minore di α
14
Statistica Industriale Lez. 7
Dalla tabella possiamo effettuare la verifica di ipotesi per la significatività di
ogni parametro singolarmente. I valori della statistica ti sono riportati nella
penultima colonna della tabella. Mentre i valori del p-value sono riportati
nell’ultima colonna.
(Intercept)
Plastics
Paper
Garbage
Water
Estimate
2245.0933
28.9224
7.6429
4.2969
−37.3559
Std. Error
177.8922
2.8235
2.3137
1.9161
1.8342
t value
12.62
10.24
3.30
2.24
−20.37
Pr(>|t|)
0.0000
0.0000
0.0029
0.0340
0.0000
Supponiamo di avere fissato il l.d.s. α = 0.05. Tutti i parametri sono
significativamente diversi da zero.
Se invece α = 0.01, β1, β2 e β4 sono significativamente diversi da zero
mentre β3 non lo è. Per α = 0.001 solo β1 e β4 sono diversi da zero.
15
Statistica Industriale Lez. 7
test F per la significatività del modello
Per verificare la significatività dell’intero modello si utilizza il test F . Si
vuole verificare l’ipotesi H0 : β1 = 0, . . . , βk = 0 contro l’alternativa che
almeno uno dei parametri sia diverso da zero. La devianza totale ammette
sempre la scomposizione SST = SSE + SSR e sotto l’ipotesi che gli errori
siano N (0, σ 2) vale che
SST =
X
(Yi − Ȳ )2 ∼ σ 2χ2
n−1
SSE =
X
(Yi − Ŷi)2 ∼ σ 2χ2
n−p
SSR =
X
(Ŷi − Ȳi)2 ∼ σ 2χ2
p−1
La statistica
SSR/(p − 1)
(Ŷi − Ȳ )2/(p − 1)
=
F =P
(Yi − Ŷi)2/(n − p)
SSE/(n − p)
P
se è vera H0, si distribuisce come una F di Snedecor con p − 1 e n − p g.d.l,
e può essere utilizzata per verificare la significatività del modello. Infatti
si decide di rifiutare l’ipotesi nulla se F > c e per determinare c, fissato α
si pone P (F > c) = α. Quindi dalle tavole della distribuzione F si trova il
valore cα tale per cui P (F > cα) = α.
16
Statistica Industriale Lez. 7
Totale
Residui
Df
29
25
Sum Sq
689709.87
24775.33
Df
SSR
F
Pr(>F)
4
664934.53
167.74
0.0000
Il valore della statistica F4,25 è
SSR/(p − 1)
664934.53/4
F =
=
= 167.7
SSE/(n − p)
24775.33/25
Il p-value < 2.2e-16. Quindi il modello è significativo.
L’indice di determinazione multiplo è dato da r 2 = 1 − SSE
SST . Nel caso del
modello stimato vale r2 = 0.96.
Interessa poi sapere come l’aggiunta di più variabili nel modello riesca a
spiegare la variabilità totale della variabile da spiegare. Si calcola allora la
SSR(1) per il modello con una sola variabile, la SSR(2) del modello con
due variabili e cosı̀ via. Allora la differenza SSR(2)−SSR(1) ha il significato
di quanta variabilità il secondo modello riesce a spiegare in più rispetto al
primo. In generale
SSR(j) − SSR(j − 1)
∼ F1,n−p,
SSE/(n − p)
j = 2, . . . , p − 1
17
Statistica Industriale Lez. 7
Tavola dell’ Analisi della Varianza (ANOVA)
Plastics
Paper
Garbage
Water
Residuals
Df
1
1
1
1
25
Sum Sq
239734.97
11239.07
2887.82
411072.67
24775.33
Mean Sq
239734.97
11239.07
2887.82
411072.67
991.01
F value
241.91
11.34
2.91
414.80
Pr(>F)
0.0000
0.0025
0.1002
0.0000
Nella prima riga abbiamo la SSR per il modello con solo la prima variabile.
Nella seconda abbiamo la differenza tra la SSR del modello con due variabili
e il modello con una sola. La statistica F serve per verificare l’attendibilità
dell’aggiunta di questa variabile al modello. Chiaramente ha importanza
l’ordine con cui le variabili entrano nel modello.
Water
Plastics
Paper
Garbage
Residuals
Df
1
1
1
1
25
Sum Sq
560181.11
93926.58
5843.14
4983.71
24775.33
Mean Sq
560181.11
93926.58
5843.14
4983.71
991.01
F value
565.26
94.78
5.90
5.03
Pr(>F)
0.0000
0.0000
0.0227
0.0340
18
Statistica Industriale Lez. 7
In questa tabella sono riportate le stime cambiando l’ordine delle variabili.
(Intercept)
Water
Plastics
Paper
Garbage
Estimate
2245.0933
−37.3559
28.9224
7.6429
4.2969
Std. Error
177.8922
1.8342
2.8235
2.3137
1.9161
t value
12.62
−20.37
10.24
3.30
2.24
Pr(>|t|)
0.0000
0.0000
0.0000
0.0029
0.0340
Come indice di adattabilità si utilizza il coefficiente di correlazione multipla
SSE
2
r =1−
SST
Per bilanciare i costi dovuti all’utilizzo di tanti parametri rispetto ai guadagni in r2 si può usare il coefficiente di correlazione multiplo corretto
(n − 1)r 2 − k
(n − 1) SSE
2
r corretto = 1 −
=
(n − p) SST
n−p
In questo esempio abbiamo
r 2 = 0.9641,
r 2 corretto = 0.9583
19
Statistica Industriale Lez. 7
Test F per il modello ridotto
Supponiamo di avere il modello completo
Y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β k xk + ε
Vogliamo verificare l’ipotesi
H0 : β1 = β2 = . . . = βq = 0,
q<k
Se fosse vera l’ipotesi H0 il modello sarebbe
Y = β0 + βq+11xq+1 + βq+21xq+2 + . . . + βk xk + ε
Denotiamo con SSRr e SSEr le somme dei quadrati spiegati e residui del
modello ridotto. La statistica
(SSEr − SSE)/q
(SSR − SSRr )/q
=
SSE/(n − p)
SSE/(n − p)
sotto l’ipotesi nulla si distribuisce come una F con q e n − p gradi di libertà.
20
Statistica Industriale Lez. 7
Con i dati dell’esempio andiamo a considerare il modello ridotto solo con
le variabili Water e Plastics. L’ipotesi H0 pone i coefficienti delle variabili
Garbage e Paper uguali a zero (q = 2). I risultati della stima e dell’analisi
della varianza sono riassunti da queste tabelle.
(Intercept)
Water
Plastics
Water
Plastics
Residuals
Df
1
1
27
Estimate
2647.1663
−37.4528
26.4516
Std. Error
137.0094
2.1127
3.1341
Sum Sq
560181.11
93926.58
35602.18
Mean Sq
560181.11
93926.58
1318.60
t value
19.32
−17.73
8.44
F value
424.83
71.23
Pr(>|t|)
0.0000
0.0000
0.0000
Pr(>F)
0.0000
0.0000
Da queste tabelle e da quelle del modello completo deduciamo:
SSEr = 35602.18,
SSE = 24775.33
21
Statistica Industriale Lez. 7
La tabella dell’analisi della varianza per il modello ridotto e il modello
completo è
Ridotto
Completo
Df
27
25
SSE
35602.18
24775.33
Df
Sum of Sq
F
Pr(>F)
2
10826.85
5.46
0.0108
La terza colonna contiene gli SSE del modello ridotto (con 27 g.d.l.) e
del modello completo (con 25 g.d.l.). La colonna Sum of Sq contiene la
differenza SSEr − SSE e la colonna Df i suoi gradi di libert`a. La statistica
F è data da
F =
(SSEr − SSE)/q
10826.85/2
=
= 5.46
SSE/(n − p)
24775.33/25
Si tratta di una statistica F di Snedecor con 2 e 25 gradi di libertà. Il
p-value è pari a 0.0108. Quindi rifiutiamo l’ipotesi nulla con un livello di
significatività α = 0.05, le variabili Garbage e Paper non possono essere
omesse. A livello di significatività α = 0.01 la conclusione sarebbe di
accettare H0: le variabili Garbage e Paper possono essere omesse.
22
Esempio
L’articolo “Measurements of the Thermal Conductivity and Thermal Diffusivity of Polymer Melts with the Short-Hot-Wire Method” (X. Zhang, W.
Hendro, et al., International Journal of Thermophysics, 2002:1077–1090)
riporta le misure della conducibilità termica (in W · m−1 · K −1) e della
diffusività di alcuni polimeri a diverse temperature (in 1000◦C). La tabella
seguente presenta i risultati per la conducibilità termica del policarbonato.
Cond.
0.236
0.241
0.244
0.251
Temp.
0.028
0.038
0.061
0.083
Cond.
0.259
0.257
0.257
0.261
Temp.
0.107
0.119
0.130
0.146
Cond.
0.254
0.256
0.251
0.249
Temp.
0.159
0.169
0.181
0.204
Cond.
0.249
0.230
0.230
0.228
Temp.
0.215
0.225
0.237
0.248
Denotata la conducibilità con y e la temperatura con x, troviamo il modello
che si adatta meglio a questi dati.
23
1. Stimare i parametri del modello lineare y = β0 + β1x + ε. Per ogni
parametro verificare l’ipotesi che il suo valore sia uguale a 0.
2. Stimare i parametri del modello quadratico y = β0 + β1x + β2x2 + ε.
Per ogni parametro verificare l’ipotesi che sia uguale a 0.
3. Stimare i parametri del modello cubico y = β0 + β1x + β2x2 + β3x3 + ε.
Per ogni parametro verificare l’ipotesi che sia uguale a 0.
4. Stimare i parametri del modello alla quarta potenza y = β0 + β1x +
β2x2 + β3x3 + β4x4 + ε. Per ogni parametro verificare l’ipotesi che sia
uguale a 0.
5. Quale dei modelli nelle parti dalla (a) alla (d) è il più appropriato?
6. Utilizzare il modello più appropriato per stimare la conducibilità ad una
temperatura di 120◦C.
24
0.230 0.235 0.240 0.245 0.250 0.255 0.260
Conductivity
Statistica Industriale Lez. 7
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.05
0.10
0.15
0.20
0.25
Temperature
25
Statistica Industriale Lez. 7
I risultati per la stima del modello lineare sono riportati nella seguente
tabella.
(Intercept)
Temperature
Estimate
0.2532
−0.0416
Std. Error
0.0065
0.0403
t value
38.82
−1.03
Pr(>|t|)
0.0000
0.3197
La variabile Temperatura non è significativamente diversa da 0. Il valore
di r2 = 0.071 denota una bontà di adattamento praticamente nulla. La
variabili non sono legate da una relazione lineare.
26
Statistica Industriale Lez. 7
I risultati per la stima del modello quadratico sono riportati nella seguente
tabella.
(Intercept)
Temperature
Temperature2
Estimate
0.2200
0.5893
−2.2679
Std. Error
0.0038
0.0615
0.2155
t value
57.23
9.59
−10.52
Pr(>|t|)
0.0000
0.0000
0.0000
I parametri di x e di x2 sono significativamente diversi da 0. r2 = 0.9024
mentre r2 corretto vale 0.8874. Il modello sembra adattarsi molto bene ai
dati.
Verifichiamo che l’introduzione del termine quadratico è significativa:
Lineare
Quadratico
Df
14
13
SSE
0.00169
0.00018
Df
Sum of Sq
F
Pr(>F)
1
0.00151
110.75
0.0000
27
Statistica Industriale Lez. 7
Passiamo al modello cubico. I risultati per la stima sono riportati nella
seguente tabella.
(Intercept)
Temperature
Temperature2
Temperature3
Estimate
0.2251
0.4110
−0.7465
−3.6728
Std. Error
0.0069
0.2058
1.6887
4.0430
t value
32.65
2.00
−0.44
−0.91
Pr(>|t|)
0.0000
0.0689
0.6663
0.3815
È plausibile che i coefficienti di x, x2 e x3 siano 0. r2 = 0.9087 mentre r2
corretto vale 0.8858. Il modello sembra lo stesso adattarsi molto bene ai
dati.
Quadratico
Cubico
Df
13
12
SSE
1.7719e-04
1.6579e-04
Df
Sum of Sq
F
Pr(>F)
1
1.1401e-05
0.8252
0.3815
La variabile x3 può essere omessa.
28
Statistica Industriale Lez. 7
Passiamo al modello con la potenza quarta. I risultati per la stima sono
riportati nella seguente tabella.
(Intercept)
Temperature
Temperature2
Temperature3
Temperature4
Estimate
0.2315
0.1091
3.4544
−26.0224
40.1571
Std. Error
0.0135
0.5834
7.7602
40.4496
72.2925
t value
17.15
0.19
0.45
−0.64
0.56
Pr(>|t|)
0.0000
0.8551
0.6648
0.5332
0.5897
È plausibile che i coefficienti di x, x2, x3 e x4 siano 0, ma la statisitca
F = 28.2 segnala che almeno una delle variabili del modello ha un qualche
legame con la variabile y. r 2 = 0.9111 mentre r 2 corretto vale 0.8788.
Il modello sembra lo stesso adattarsi molto bene ai dati. Il valore di r2
corretto è diminuito: non serve aggiungere questa variabile.
29
Statistica Industriale Lez. 7
La seguente tavola della varianza conferma che l’aggiunta del termine cubico e alla potenza quarta non apporta significativi miglioramenti nella
spiegazione della variabilità di y.
Temperature
Temperature2
Temperature3
Temperature4
Residui
Df
1
1
1
1
11
Sum Sq
0.00013
0.00151
0.00001
0.00000
0.00016
Mean Sq
0.00013
0.00151
0.00001
0.00000
0.00001
F value
8.74823
102.96538
0.77769
0.30856
Pr(>F)
0.01303
0.00000
0.39671
0.58968
La stima per la conducibilità per un polimero con temperatura x = 120
è 0.2580149. L’intervallo di confidenza a livello di fiducia del 95% è
(0.2550702, 0.2609596).
30