Statistica Industriale Lez. 7 Regressione multipla L’obiettivo è costruire un modello probabilistico per spiegare la variabile y tramite più di una variabile indipendente x1, x2, . . . , xk . Esempio: Per un efficiente progettazione degli inceneritori di rifiuti municipali è necessario che l’informazione relativa al contenuto di energia dei rifiuti sia disponibile. Abbiamo a disposizione 30 campioni di rifiuti di una certa regione per i quali abbiamo i valori delle variabili y contenuto di energia (Kcal/kg), x1 % di plastica sul peso, x2 % di carta sul peso, x3 % di altri rifiuti organici sul peso, x4 % di umidità sul totale del campione esaminato. Il modello proposto potrebbe essere Y = β0 + β1x1 + β2x2 + β3x3 + β4x4 + ε, (1) Occorre capire quali variabili servono a spiegare la variabile di interesse (selezione delle variabili) e in che misura vi contribuisce. 1 Statistica Industriale Lez. 7 44 48 52 56 ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● 20 25 30 ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ●● ● 15 ● ● ●● ● ●● ● ● ●● ● ● ●● ●● ● ● ●●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● 14 ● 18 Garbage ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● Water ● ● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● 35 ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● 22 ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ●●● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● 44 48 52 56 ● ● ● ● ●● ● ●● ●●● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● Paper ● ● 22 ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● 18 Plastics ● 14 ● ● 45 30 35 25 ● 45 ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ●●● ● ● Energy.content 1400 20 1000 15 ● 1000 1400 2 Statistica Industriale Lez. 7 Analisi della correlazione tra le variabili Calcoliamo la matrice di correlazione tra le variabili in gioco. Per i dati dell’esempio abbiamo: Plastics Paper Garbage Water Energy.content Plastics 1.00 −0.15 −0.09 −0.26 0.59 Paper −0.15 1.00 −0.63 −0.01 0.04 Garbage −0.09 −0.63 1.00 0.07 −0.09 Water −0.26 −0.01 0.07 1.00 −0.90 Energy.content 0.59 0.04 −0.09 −0.90 1.00 Come regola generale è bene che entrino nel modello le variabili maggiormente correlate con la variabile da spiegare e le meno incorrelate tra loro. In questo caso potremmo considerare un modello in cui entrino solo le variabili Water e Plastics 3 Statistica Industriale Lez. 7 ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● 25 Paper 20 ● ● ● 20 22 24 24 22 20 Plastics 18 16 14 16 18 14 15 ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● 45 ● ● ● ● ● 40 ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ●● ●●● ● ●● ● ● ● 50 ● 35 35 40 15 20 50 1000 ● 55 Water 45 ● Garbage 30 25 ● 50 45 ● ●● ● ● ●● ● ● ●● ● ●● ●● ● ● ●●● ● ● ● ● ● ● ● 30 ● ● ● ● 10001200 ● 45 50 50 ● 55 ● ● ● 50 ● ● ●●● ● 1400 Energy.content 1200 ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ●●● ● ● 14001600 1600 ● ● ● ● ● ● ● ●●● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ●● ●● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Scatter Plot Matrix ● ●● ● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● 4 Statistica Industriale Lez. 7 Consideriamo il modello generale Y = β0 + β1x1 + . . . + βk xk + ε, (2) Posto θ = (β0, β1, . . . , βk )0 se abbiamo n osservazioni possiamo riscrivere le n equazioni (2) in forma matriciale Y = Xθ + 1 x11 . . . x1k 1 x . . . x2k 21 0 0 . La stima dove Y = (Y1, . . . , Yn) , X = .. . . , = (ε , . . . , ε ) n . 1 . .. .. . . 1 xn1 . . . xnk ottenuta coi minimi quadrati (OLS=Ordinary Least Squares) è data da θ̂ = (X0X)−1X0Y dove Y = (y1, . . . , yn)0. In seguito p = k + 1 è il numero dei parametri. La stima OLS si ottiene se solo se XX0 è invertibile, cioè se e solo se la matrice X ha rango massimo p. 5 Statistica Industriale Lez. 7 Le osservazioni y = (y1, . . . , yn)0 provengono dal modello 0 Yi = xiβ + εi • Yi variabile casuale dipendente • x0i = [1, xi1, xi2, ..., xik ] vettore dei regressori (deterministici o stocastici) h i 0 • β = β0, β1,β2, ..., βk vettore dei parametri • εi : componente stocastica di valore atteso nullo FUNZIONE DI REGRESSIONE 0 E(Yi|xi) = xiβ 6 Statistica Industriale Lez. 7 Y = Xβ + • X 0 0 x1 0 x2 matrice n × p dei regressori = xn Y1 Y 2 • Y= vettore delle variabili risposta Yn • = ε1 ε2 .. εn vettore delle componenti stocastiche 7 Statistica Industriale Lez. 7 ASSUNZIONI DEL MODELLO DI REGRESSIONE LINEARE CLASSICO • A0: la funzione di regressione E(Y|X) = Xβ è correttamente specificata • A1: è un vettore di n variabili casuali indipendenti • A2: le componenti di sono variabili casuali di valore atteso nullo e varianza σ 2 (omoschedastiche) • A3: le componenti di sono variabili casuali normali • A4: X è una matrice di costanti note (regressori non stocastici) • A5: le colonne di X sono linearmente indipendenti = : X0X è invertibile 8 Statistica Industriale Lez. 7 STIMA di β, σ 2 0 Da Yi = xiβ + εi e per le A1, A2, A3, A4 si ha che le Yi sono variabili 0 casuali indipendenti normali con valore atteso µi = xiβ e varianza σ 2. La verosimiglianza è: n Y 1 0 1 √ L(β, σ 2) = exp − 2 (yi − xiβ)2 2 2σ i=1 2πσ e la log verosimiglianza: n 2 L(β, σ ) = − ln(2πσ 2) − 0 1 X 2= (y − x β) i i 2 2σ 2 i 1 n 2 0 y − Xβ y − X β = − ln(2πσ ) − ( ) ( ) 2 2σ 2 se σ 2 è noto massimizzare la log verosimiglianza equivale a minimizzare (CRITERIO DEI MINIMI QUADRATI): Q(β) = (y − Xβ )0 (y − Xβ ) 9 Statistica Industriale Lez. 7 RISULTATO FONDAMENTALE Q(β) = (y − Xβ )0 (y − Xβ ) ha un unico minimo in b −1 0 = XX X0y È importante notare che: y − Xb = y − X −1 0 XX X0y = (In−M) y dove M = X X0X −1 X0 è una matrice n×n idempotente (M = MM). Quindi anche (In−M) è idempotente. Ne consegue SSE = Q(b) = (y − Xb)0 (y − Xb) = = y0 (IT −M) y = y0y − y0My = = y0 y − y0 X −1 0 X0y = XX y0y − y0Xb 10 Statistica Industriale Lez. 7 Ovvero più semplicemente (ma non per i calcoli) SSE = Q(b) = X 0 (yi − xib)2 = X i yi2 − i X 0 yixib i Verosimiglianza concentrata Sostituendo b a β nella log verosimiglianza si ottiene la log verosimiglianza concentrata: 1 n L(σ 2) = − ln(2πσ 2) − Q(b) 2 2 2σ che ha un massimo in σ̂ 2 = Q(nb) . CONCLUDENDO: gli stimatori M.V. sono Q(b) 2 σ̂ = n −1 0 b= X X X0y 11 Statistica Industriale Lez. 7 Esempio: Nel caso dell’esempio presentato le stime dei parametri del modello con le quattro variabili sono contenute nella seguente tabella. (Intercept) Plastics Paper Garbage Water Estimate 2245.0933 28.9224 7.6429 4.2969 −37.3559 Std. Error 177.8922 2.8235 2.3137 1.9161 1.8342 t value 12.62 10.24 3.30 2.24 −20.37 Pr(>|t|) 0.0000 0.0000 0.0029 0.0340 0.0000 La matrice di varianza e covarianza dei parametri è Σ(θ) = (X 0X)−1σ 2. La stima di tale matrice la si ottiene stimando σ 2 con s2 = SSE n−p , dove SSE = (yi − ŷi)2. P c00 c 0 −1 2 ˆ Σ(θ) = (X X) s = 10 ... ck0 c01 c11 ... ck1 . . . c0k . . . c1k . . . ... . . . ckk I termini sulla diagonale principale della matrice (X 0X)−1s2 sono la stima di V ar(θ). Std.Error è la radice quadrata di questi termini. 12 Statistica Industriale Lez. 7 Verifica di ipotesi per la significatività dei singoli parametri Sotto le ipotesi che εi ∼ N (0, σ 2) i.i.d. si deduce che lo stimatore dei parametri θ è uno stimatore non distorto, cioè E(θ) = θ, la matrice di varianza e covarianza è data da Σ(θ) la cui stima è data da Σ̂(θ), e inoltre ogni stimatore β̂i è gaussiano. Se si vuole quindi verificare l’ipotesi H0 : βi = 0 contro l’alternativa H1 : βi 6= 0 da questi fatti si deduce che la statistica ti = √β̂ci , sotto l’ipotesi nulla ii βi = 0, è una t-Student con n − p g.d.l dove cii è l’elemento sulla diagonale della matrice (X 0X)−1s2. Quindi, fissato un livello di fiducia α, si rifiuta l’ipotesi H0 se |ti| > t1− α ,n−p. 2 13 Statistica Industriale Lez. 7 Il p-value, questo sconosciuto Quasi tutti i software statistici non ci dicono se accettare o rifiutare l’ipotesi nulla, ma ci danno il p-value! Cerchiamo di capire cosa è. Indichiamo solo per il momento con Ti la statistica e con ti il valore calcolato sui dati. Allora p-value = P (|Ti| > |ti|) Quindi il p-value non è altro che la probabilità con cui la statistica (Ti) può assumere valori più elevati di quello osservato (ti).La regola di rifiuto dell’ipotesi H0 è: Rifiuto H0 se |ti| > t1− α ,n−p. 2 Il valore di t1− α ,n−p è ricavato da 2 P (|Ti| > t1− α ,n−p) = α 2 Si deduce che per α fissato noi rifiutiamo l’ipotesi nulla se il p-value è minore di α 14 Statistica Industriale Lez. 7 Dalla tabella possiamo effettuare la verifica di ipotesi per la significatività di ogni parametro singolarmente. I valori della statistica ti sono riportati nella penultima colonna della tabella. Mentre i valori del p-value sono riportati nell’ultima colonna. (Intercept) Plastics Paper Garbage Water Estimate 2245.0933 28.9224 7.6429 4.2969 −37.3559 Std. Error 177.8922 2.8235 2.3137 1.9161 1.8342 t value 12.62 10.24 3.30 2.24 −20.37 Pr(>|t|) 0.0000 0.0000 0.0029 0.0340 0.0000 Supponiamo di avere fissato il l.d.s. α = 0.05. Tutti i parametri sono significativamente diversi da zero. Se invece α = 0.01, β1, β2 e β4 sono significativamente diversi da zero mentre β3 non lo è. Per α = 0.001 solo β1 e β4 sono diversi da zero. 15 Statistica Industriale Lez. 7 test F per la significatività del modello Per verificare la significatività dell’intero modello si utilizza il test F . Si vuole verificare l’ipotesi H0 : β1 = 0, . . . , βk = 0 contro l’alternativa che almeno uno dei parametri sia diverso da zero. La devianza totale ammette sempre la scomposizione SST = SSE + SSR e sotto l’ipotesi che gli errori siano N (0, σ 2) vale che SST = X (Yi − Ȳ )2 ∼ σ 2χ2 n−1 SSE = X (Yi − Ŷi)2 ∼ σ 2χ2 n−p SSR = X (Ŷi − Ȳi)2 ∼ σ 2χ2 p−1 La statistica SSR/(p − 1) (Ŷi − Ȳ )2/(p − 1) = F =P (Yi − Ŷi)2/(n − p) SSE/(n − p) P se è vera H0, si distribuisce come una F di Snedecor con p − 1 e n − p g.d.l, e può essere utilizzata per verificare la significatività del modello. Infatti si decide di rifiutare l’ipotesi nulla se F > c e per determinare c, fissato α si pone P (F > c) = α. Quindi dalle tavole della distribuzione F si trova il valore cα tale per cui P (F > cα) = α. 16 Statistica Industriale Lez. 7 Totale Residui Df 29 25 Sum Sq 689709.87 24775.33 Df SSR F Pr(>F) 4 664934.53 167.74 0.0000 Il valore della statistica F4,25 è SSR/(p − 1) 664934.53/4 F = = = 167.7 SSE/(n − p) 24775.33/25 Il p-value < 2.2e-16. Quindi il modello è significativo. L’indice di determinazione multiplo è dato da r 2 = 1 − SSE SST . Nel caso del modello stimato vale r2 = 0.96. Interessa poi sapere come l’aggiunta di più variabili nel modello riesca a spiegare la variabilità totale della variabile da spiegare. Si calcola allora la SSR(1) per il modello con una sola variabile, la SSR(2) del modello con due variabili e cosı̀ via. Allora la differenza SSR(2)−SSR(1) ha il significato di quanta variabilità il secondo modello riesce a spiegare in più rispetto al primo. In generale SSR(j) − SSR(j − 1) ∼ F1,n−p, SSE/(n − p) j = 2, . . . , p − 1 17 Statistica Industriale Lez. 7 Tavola dell’ Analisi della Varianza (ANOVA) Plastics Paper Garbage Water Residuals Df 1 1 1 1 25 Sum Sq 239734.97 11239.07 2887.82 411072.67 24775.33 Mean Sq 239734.97 11239.07 2887.82 411072.67 991.01 F value 241.91 11.34 2.91 414.80 Pr(>F) 0.0000 0.0025 0.1002 0.0000 Nella prima riga abbiamo la SSR per il modello con solo la prima variabile. Nella seconda abbiamo la differenza tra la SSR del modello con due variabili e il modello con una sola. La statistica F serve per verificare l’attendibilità dell’aggiunta di questa variabile al modello. Chiaramente ha importanza l’ordine con cui le variabili entrano nel modello. Water Plastics Paper Garbage Residuals Df 1 1 1 1 25 Sum Sq 560181.11 93926.58 5843.14 4983.71 24775.33 Mean Sq 560181.11 93926.58 5843.14 4983.71 991.01 F value 565.26 94.78 5.90 5.03 Pr(>F) 0.0000 0.0000 0.0227 0.0340 18 Statistica Industriale Lez. 7 In questa tabella sono riportate le stime cambiando l’ordine delle variabili. (Intercept) Water Plastics Paper Garbage Estimate 2245.0933 −37.3559 28.9224 7.6429 4.2969 Std. Error 177.8922 1.8342 2.8235 2.3137 1.9161 t value 12.62 −20.37 10.24 3.30 2.24 Pr(>|t|) 0.0000 0.0000 0.0000 0.0029 0.0340 Come indice di adattabilità si utilizza il coefficiente di correlazione multipla SSE 2 r =1− SST Per bilanciare i costi dovuti all’utilizzo di tanti parametri rispetto ai guadagni in r2 si può usare il coefficiente di correlazione multiplo corretto (n − 1)r 2 − k (n − 1) SSE 2 r corretto = 1 − = (n − p) SST n−p In questo esempio abbiamo r 2 = 0.9641, r 2 corretto = 0.9583 19 Statistica Industriale Lez. 7 Test F per il modello ridotto Supponiamo di avere il modello completo Y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β k xk + ε Vogliamo verificare l’ipotesi H0 : β1 = β2 = . . . = βq = 0, q<k Se fosse vera l’ipotesi H0 il modello sarebbe Y = β0 + βq+11xq+1 + βq+21xq+2 + . . . + βk xk + ε Denotiamo con SSRr e SSEr le somme dei quadrati spiegati e residui del modello ridotto. La statistica (SSEr − SSE)/q (SSR − SSRr )/q = SSE/(n − p) SSE/(n − p) sotto l’ipotesi nulla si distribuisce come una F con q e n − p gradi di libertà. 20 Statistica Industriale Lez. 7 Con i dati dell’esempio andiamo a considerare il modello ridotto solo con le variabili Water e Plastics. L’ipotesi H0 pone i coefficienti delle variabili Garbage e Paper uguali a zero (q = 2). I risultati della stima e dell’analisi della varianza sono riassunti da queste tabelle. (Intercept) Water Plastics Water Plastics Residuals Df 1 1 27 Estimate 2647.1663 −37.4528 26.4516 Std. Error 137.0094 2.1127 3.1341 Sum Sq 560181.11 93926.58 35602.18 Mean Sq 560181.11 93926.58 1318.60 t value 19.32 −17.73 8.44 F value 424.83 71.23 Pr(>|t|) 0.0000 0.0000 0.0000 Pr(>F) 0.0000 0.0000 Da queste tabelle e da quelle del modello completo deduciamo: SSEr = 35602.18, SSE = 24775.33 21 Statistica Industriale Lez. 7 La tabella dell’analisi della varianza per il modello ridotto e il modello completo è Ridotto Completo Df 27 25 SSE 35602.18 24775.33 Df Sum of Sq F Pr(>F) 2 10826.85 5.46 0.0108 La terza colonna contiene gli SSE del modello ridotto (con 27 g.d.l.) e del modello completo (con 25 g.d.l.). La colonna Sum of Sq contiene la differenza SSEr − SSE e la colonna Df i suoi gradi di libert`a. La statistica F è data da F = (SSEr − SSE)/q 10826.85/2 = = 5.46 SSE/(n − p) 24775.33/25 Si tratta di una statistica F di Snedecor con 2 e 25 gradi di libertà. Il p-value è pari a 0.0108. Quindi rifiutiamo l’ipotesi nulla con un livello di significatività α = 0.05, le variabili Garbage e Paper non possono essere omesse. A livello di significatività α = 0.01 la conclusione sarebbe di accettare H0: le variabili Garbage e Paper possono essere omesse. 22 Esempio L’articolo “Measurements of the Thermal Conductivity and Thermal Diffusivity of Polymer Melts with the Short-Hot-Wire Method” (X. Zhang, W. Hendro, et al., International Journal of Thermophysics, 2002:1077–1090) riporta le misure della conducibilità termica (in W · m−1 · K −1) e della diffusività di alcuni polimeri a diverse temperature (in 1000◦C). La tabella seguente presenta i risultati per la conducibilità termica del policarbonato. Cond. 0.236 0.241 0.244 0.251 Temp. 0.028 0.038 0.061 0.083 Cond. 0.259 0.257 0.257 0.261 Temp. 0.107 0.119 0.130 0.146 Cond. 0.254 0.256 0.251 0.249 Temp. 0.159 0.169 0.181 0.204 Cond. 0.249 0.230 0.230 0.228 Temp. 0.215 0.225 0.237 0.248 Denotata la conducibilità con y e la temperatura con x, troviamo il modello che si adatta meglio a questi dati. 23 1. Stimare i parametri del modello lineare y = β0 + β1x + ε. Per ogni parametro verificare l’ipotesi che il suo valore sia uguale a 0. 2. Stimare i parametri del modello quadratico y = β0 + β1x + β2x2 + ε. Per ogni parametro verificare l’ipotesi che sia uguale a 0. 3. Stimare i parametri del modello cubico y = β0 + β1x + β2x2 + β3x3 + ε. Per ogni parametro verificare l’ipotesi che sia uguale a 0. 4. Stimare i parametri del modello alla quarta potenza y = β0 + β1x + β2x2 + β3x3 + β4x4 + ε. Per ogni parametro verificare l’ipotesi che sia uguale a 0. 5. Quale dei modelli nelle parti dalla (a) alla (d) è il più appropriato? 6. Utilizzare il modello più appropriato per stimare la conducibilità ad una temperatura di 120◦C. 24 0.230 0.235 0.240 0.245 0.250 0.255 0.260 Conductivity Statistica Industriale Lez. 7 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.05 0.10 0.15 0.20 0.25 Temperature 25 Statistica Industriale Lez. 7 I risultati per la stima del modello lineare sono riportati nella seguente tabella. (Intercept) Temperature Estimate 0.2532 −0.0416 Std. Error 0.0065 0.0403 t value 38.82 −1.03 Pr(>|t|) 0.0000 0.3197 La variabile Temperatura non è significativamente diversa da 0. Il valore di r2 = 0.071 denota una bontà di adattamento praticamente nulla. La variabili non sono legate da una relazione lineare. 26 Statistica Industriale Lez. 7 I risultati per la stima del modello quadratico sono riportati nella seguente tabella. (Intercept) Temperature Temperature2 Estimate 0.2200 0.5893 −2.2679 Std. Error 0.0038 0.0615 0.2155 t value 57.23 9.59 −10.52 Pr(>|t|) 0.0000 0.0000 0.0000 I parametri di x e di x2 sono significativamente diversi da 0. r2 = 0.9024 mentre r2 corretto vale 0.8874. Il modello sembra adattarsi molto bene ai dati. Verifichiamo che l’introduzione del termine quadratico è significativa: Lineare Quadratico Df 14 13 SSE 0.00169 0.00018 Df Sum of Sq F Pr(>F) 1 0.00151 110.75 0.0000 27 Statistica Industriale Lez. 7 Passiamo al modello cubico. I risultati per la stima sono riportati nella seguente tabella. (Intercept) Temperature Temperature2 Temperature3 Estimate 0.2251 0.4110 −0.7465 −3.6728 Std. Error 0.0069 0.2058 1.6887 4.0430 t value 32.65 2.00 −0.44 −0.91 Pr(>|t|) 0.0000 0.0689 0.6663 0.3815 È plausibile che i coefficienti di x, x2 e x3 siano 0. r2 = 0.9087 mentre r2 corretto vale 0.8858. Il modello sembra lo stesso adattarsi molto bene ai dati. Quadratico Cubico Df 13 12 SSE 1.7719e-04 1.6579e-04 Df Sum of Sq F Pr(>F) 1 1.1401e-05 0.8252 0.3815 La variabile x3 può essere omessa. 28 Statistica Industriale Lez. 7 Passiamo al modello con la potenza quarta. I risultati per la stima sono riportati nella seguente tabella. (Intercept) Temperature Temperature2 Temperature3 Temperature4 Estimate 0.2315 0.1091 3.4544 −26.0224 40.1571 Std. Error 0.0135 0.5834 7.7602 40.4496 72.2925 t value 17.15 0.19 0.45 −0.64 0.56 Pr(>|t|) 0.0000 0.8551 0.6648 0.5332 0.5897 È plausibile che i coefficienti di x, x2, x3 e x4 siano 0, ma la statisitca F = 28.2 segnala che almeno una delle variabili del modello ha un qualche legame con la variabile y. r 2 = 0.9111 mentre r 2 corretto vale 0.8788. Il modello sembra lo stesso adattarsi molto bene ai dati. Il valore di r2 corretto è diminuito: non serve aggiungere questa variabile. 29 Statistica Industriale Lez. 7 La seguente tavola della varianza conferma che l’aggiunta del termine cubico e alla potenza quarta non apporta significativi miglioramenti nella spiegazione della variabilità di y. Temperature Temperature2 Temperature3 Temperature4 Residui Df 1 1 1 1 11 Sum Sq 0.00013 0.00151 0.00001 0.00000 0.00016 Mean Sq 0.00013 0.00151 0.00001 0.00000 0.00001 F value 8.74823 102.96538 0.77769 0.30856 Pr(>F) 0.01303 0.00000 0.39671 0.58968 La stima per la conducibilità per un polimero con temperatura x = 120 è 0.2580149. L’intervallo di confidenza a livello di fiducia del 95% è (0.2550702, 0.2609596). 30