Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain E-mail: [email protected] Home page: www.gest.unipd.it/~livio/Corso_Civile.html MODELLI EMPIRICI 1 SOMMARIO ¾ Introduzione ai modelli empirici ¾ Regressione lineare semplice polinomiale con regressori qualitativi ¾ Regressione lineare multipla e superfici di risposta ¾ Trasformazione dei dati nella regressione ¾ Modelli non lineari MODELLI EMPIRICI 2 1 INTRODUZIONE AI MODELLI EMPIRICI Molti problemi in ingegneria e scienze coinvolgono l’esplorazione delle relazioni tra due o più variabili e la modellazione del possibile legame esistente tra queste. Il modello e l’analisi di regressione rappresenta una tecnica statistica molto utile per questi tipi di problemi. In generale, si suppone che vi sia una sola variabile dipendente o risposta Y, dipendente da k variabili indipendenti (esplicative/regressori) x1,x2,…,xk. Frequentemente si usano i metodi di regressione per analizzare i dati di studi osservazionali o esperimenti non pianificati, utili anche quando negli esperimenti programmati qualcosa è andato storto. Il modello di regressione può essere applicato anche come analisi aggiuntiva al quella ANOVA a dataset provenienti da esperimenti programmati. MODELLI EMPIRICI 3 INTRODUZIONE AI MODELLI EMPIRICI L’analisi di regressione è utilizzata anche per capire quali specifiche variabili, tra un insieme di diverse variabili indipendenti, sono legate alla variabile dipendente e per esplorare le forme di queste relazioni. L’analisi di regressione viene molto spesso utilizzata al fine di ottenere delle previsioni. Le prestazioni dei metodi di analisi di regressione, in pratica dipendono dalla forma del processo di generazione dei dati, e come questo si relazione all’approccio di regressione utilizzato. Dal momento che la vera forma del processo di generazione dei dati non è noto, l'analisi di regressione dipende in qualche misura dal fare assunzioni su questo processo. MODELLI EMPIRICI 4 2 INTRODUZIONE AI MODELLI EMPIRICI Nell’analisi di regressione l'obiettivo della stima sono i parametri β che caratterizzano una funzione delle variabili indipendenti chiamata funzione di regressione: Y = f(X;β) + ε. – Variabile dipendente/risposta: Y. – Variabili indipendenti/esplicative: X. – Parametri ignoti identificati da β. – Termine di errore casuale: ε. L'utente dell’analisi di regressione deve fare un'ipotesi ragionevole sulla funzione f(X;β). A volte la forma di questa funzione può essere nota, altre volte si deve applicare un processo trial and error, altre volte infine la forma è ignota perché troppo complessa e si decide di adottare una funzione semplificata che possibilmente la rappresenti. MODELLI EMPIRICI 5 INTRODUZIONE AI MODELLI EMPIRICI Le assunzioni classiche per l'analisi di regressione sono: – Il campione deve essere rappresentativo della popolazione verso la quale si vuol fare inferenza. – L’errore è assunto essere una variabile casuale con media condizionata alle variabili esplicative pari a zero. – Le variabili indipendenti sono prive di errore (deterministiche). Se così non fosse, la modellazione dove prendere in considerazione le tecniche per i modelli con errori nelle variabili. – Gli errori sono incorrelati, cioè la matrice di varianze/covarianze degli errori è diagonale e ogni elemento non nullo è la varianza dell’errore. – La varianza dell’errore è costante rispetto alle osservazioni (omoschedasticità). Se così non fosse, si dovrebbero utilizzare la tecnica dei minimi quadrati pesati o altri metodi idonei a queste condizioni. MODELLI EMPIRICI 6 3 REGRESSIONE LINEARE SEMPLICE Per esempio, in un processo chimico, si supponga che la purezza dell’ossigeno prodotto sia legata al livello di idrocarburi d’esercizio del processo. L’analisi di regressione può essere usata per costruire un modello per prevedere le rese in termini di purezza per uno specificato livello di idrocarburi. MODELLI EMPIRICI 7 REGRESSIONE LINEARE SEMPLICE Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi. MODELLI EMPIRICI 8 4 REGRESSIONE LINEARE SEMPLICE Sulla base del diagramma di dispersione, è ragionevole supporre che la media della variabile casuale Y sia legata alla x dalla seguente relazione lineare: dove la pendenza e l’intercetta della retta si chiamano coefficienti di regressione. Il modello di regressione lineare semplice è dato da dove il termine di errore casuale ε è assunto IID (indipendente ed identicamente distribuito) con media zero e varianza (costante) σ2. MODELLI EMPIRICI 9 REGRESSIONE LINEARE SEMPLICE Possiamo pensare al modello di regressione come ad un modello empirico. Dalle assunzioni sul termine casuale ε è possibile ricavare media e varianza della variabile risposta Y: cioè vi è una distribuzione di valori Y per ogni dato x e la varianza di questa distribuzione è la stessa ad ogni x: Il vero modello di regressione è il luogo geometrico di tutti valori medi condizionati di Y per ogni dato x: dove β1 può essere interpretato come la variazione del valore medio di Y per un variazione unitaria di x. MODELLI EMPIRICI 10 5 REGRESSIONE LINEARE SEMPLICE Ipotetica vera distribuzione di Y per un dato x per i dati sulla della purezza dell’ossigeno rispetto al livello di idrocarburi. MODELLI EMPIRICI 11 REGRESSIONE LINEARE SEMPLICE Il caso della regressione lineare semplice considera un singolo regressore o predittore x e una variabile dipendente o risposta Y. Supponiamo di avere n coppie di osservazioni (x1,y1), (x2,y2),…, (xn,yn). Il metodo dei minimi quadrati viene utilizzato per stimare i parametri, β0 e β1 minimizzando la somma dei quadrati delle deviazioni verticali. Deviazioni dei dati dal modello di regressione stimato. MODELLI EMPIRICI 12 6 REGRESSIONE LINEARE SEMPLICE Consideriamo il modello di regressione lineare semplice in riferimento alle n osservazioni del campione con εi~IID(0,σ2) e definiamo una funzione obiettivo L come la somma degli scarti al quadrato delle osservazioni dal vero modello di regressione: Gli stimatori (detti ai minimi quadrati) βˆ 0 e βˆ 1 dei due parametri β0 e β1 devono soddisfare le due equazioni MODELLI EMPIRICI 13 REGRESSIONE LINEARE SEMPLICE Semplificando le due espressioni si ottengono le cosiddette equazioni normali ai minimi quadrati le cui soluzioni forniscono gli stimatori ai minimi quadrati dove e . MODELLI EMPIRICI 14 7 REGRESSIONE LINEARE SEMPLICE Gli stimatori ai minimi quadrati dei due parametri β0 e β1 sono non distorti con varianza pari a Si può dimostrare che sono anche stimatori consistenti, ovvero asintoticamente la probabilità che assumano il vero valore del parametro è pari ad uno. MODELLI EMPIRICI 15 REGRESSIONE LINEARE SEMPLICE La retta di regressione stimata (o prevista) è quindi si noti che ogni coppia di osservazioni soddisfa la relazione dove il termine viene definito residuo. L’i-esimo residuo ei rappresenta l’errore relativo al valore previsto dal modello rispetto all’osservazione yi. In seguito vedremo che i residui verranno utilizzati come per ottenere delle elaborazioni dette analisi dei residui che mirano a valutare dal punto di vista descrittivo l’adeguatezza del modello stimato rispetto alle assunzioni (normalità, indipendenza ed eteroschedasticità) del modello di regressione lineare. MODELLI EMPIRICI 16 8 REGRESSIONE LINEARE SEMPLICE Riprendendo l’esempio della purezza dell’ossigeno rispetto al livello di idrocarburi, le stime ai minimi quadrati del coefficiente angolare e dell’intercetta sono Il modello di regressione stimato risulta quindi Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi e modello di regressione ŷ = 74.20 + 14.97x. MODELLI EMPIRICI 17 REGRESSIONE LINEARE SEMPLICE MODELLI EMPIRICI 18 9 REGRESSIONE LINEARE SEMPLICE La somma dei quadrati degli errori SSE è pari a Si può dimostrare che il valore atteso della somma dei quadrati degli errori è tale che E(SSE) = (n – 2)σ2. Quindi, una stimatore non distorto di σ2 è dove SSE può essere facilmente calcolato come MODELLI EMPIRICI 19 REGRESSIONE LINEARE SEMPLICE Assumendo che il termine di errore casuale ε abbia distribuzione normale, ovvero εi~NID(0,σ2), è possibile considerare due statistiche test finalizzare a fare inferenza sui due parametri β0 e β1, formalmente dove un importate caso è quello del cosiddetto test di significatività della regressione: H0: β1=0 vs. H1: β1≠0 Le statistiche test appropriate sono: che hanno distribuzione nulla t di Student con n-2 gdl, ovvero l’ipotesi nulla sarà rigettata se . MODELLI EMPIRICI 20 10 REGRESSIONE LINEARE SEMPLICE Il mancato rifiuto dell’ipotesi nulla H0: β1=0 vs. H1: β1≠0 è equivalente a concludere che non vi è una relazione lineare tra x e Y. Possibili casi in cui l’ipotesi H0: β1 = 0 non è rigettata. Possibili casi in cui l’ipotesi H0: β1 = 0 viene è rigettata. MODELLI EMPIRICI 21 REGRESSIONE LINEARE SEMPLICE MODELLI EMPIRICI 22 11 REGRESSIONE LINEARE SEMPLICE Una procedura alternativa (ma equivalente) per sottoporre a verifica la significatività della regressione (H0: β1=0 vs. H1: β1≠0) può essere sviluppata grazie all’approccio dell’Analisi della Varianza (applicato alla regressione), mediante l’espressione: ⇔ Se l’ipotesi nulla H0: β1=0 è vera, la statistica test segue una distribuzione F1,n-2 e l’ipotesi sarà rifiutata, a livello di significatività α, se F0 > Fα;1,n-2. MODELLI EMPIRICI 23 REGRESSIONE LINEARE SEMPLICE I risultati delle verifica di ipotesi sulla significatività della regressione via Analisi della Varianza vengono usualmente rappresentati in forma tabellare: dove le quantità MSR e MSE sono chiamate quadrati medi della regressione e dell’errore. SSR e SSE rappresentano rispettivamente la parte della variabilità totale della risposta Y spiegata dalla regressione e la parte imputabile al termine di errore. MODELLI EMPIRICI 24 12 REGRESSIONE LINEARE SEMPLICE La quantità è chiamata coefficiente di determinazione - R2 ed è spesso utilizzata per giudicare l’adeguatezza del modello di regressione. Il range dei valori possibili dell’R2 sono 0 ≤ R2 ≤ 1. Spesso ci riferiamo all’R2 come la quantità della variabilità nei dati spiegata o interpretata dal modello di regressione. Per il modello di regressione della purezza dell’ossigeno rispetto al livello di idrocarburi, R2 = SSR/SST = 152.13/173.38 = 0.877 Quindi, il modello interpreta l’87.7% della variabilità presente nei dati. MODELLI EMPIRICI 25 REGRESSIONE LINEARE SEMPLICE MODELLI EMPIRICI 26 13 REGRESSIONE LINEARE SEMPLICE MODELLI EMPIRICI 27 REGRESSIONE LINEARE SEMPLICE Sotto l’assunzione εi~NID(0,σ2), ovvero di normalità del termine di errore (o equivalentemente delle osservazioni Yi), oltre a condurre dei test di significatività sui parametri, è possibile costruire degli intervalli di confidenza all’(1-α)100% per il coefficiente angolare β1 e per l’intercetta β0: MODELLI EMPIRICI 28 14 REGRESSIONE LINEARE SEMPLICE MODELLI EMPIRICI 29 REGRESSIONE LINEARE SEMPLICE Oltre agli intervalli di confidenza per parametri β1 e β0, è possibile costruire intervalli di confidenza anche per la previsione media µY|x0: la previsione puntuale Y0: MODELLI EMPIRICI 30 15 REGRESSIONE LINEARE SEMPLICE MODELLI EMPIRICI 31 REGRESSIONE LINEARE SEMPLICE Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi, retta di regressione stimata e limiti di confidenza al 95% di µY|x0. MODELLI EMPIRICI 32 16 REGRESSIONE LINEARE SEMPLICE MODELLI EMPIRICI 33 REGRESSIONE LINEARE SEMPLICE Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi, retta di regressione stimata, limiti di confidenza al 95% di µY|x0 (linee interne) e limiti di previsione al 95% (linee esterne). MODELLI EMPIRICI 34 17 REGRESSIONE LINEARE SEMPLICE Adottare un modello di regressione richiede alcune assunzioni: εi~NID(0,σ2), ¾ gli errori devono essere variabili aleatorie incorrelate con media zero; ¾ gli errori devono avere varianza costante; ¾ gli errori devono essere distribuiti normalmente. L'analista deve sempre considerare la validità di queste assunzioni e condurre analisi per esaminare l'adeguatezza del modello. I residui del modello di regressione sono definiti come ei=yi−ŷi, dove yi è il valore osservato e ŷi è il corrispondente valore stimato dal modello di regressione. MODELLI EMPIRICI 35 REGRESSIONE LINEARE SEMPLICE L'analisi dei residui è spesso utile nel valutare l'ipotesi che gli errori sono hanno distribuzione normale, con varianza costante, e nel determinare se sarebbe utile considerare nel modello ulteriori termini. Possibili pattern dei grafici dei residui. (a) soddisfacente, (b) imbuto, (c) double bow, (d) non lineare. MODELLI EMPIRICI 36 18 REGRESSIONE LINEARE SEMPLICE Normal probability plot dei residui Residui vs. valori previsti ŷ MODELLI EMPIRICI 37 REGRESSIONE POLINOMIALE La regressione polinomiale è una forma di regressione lineare in cui la relazione tra la variabile indipendente x e la variabile dipendente Y viene modellata da un polinomio. La regressione polinomiale adatta una relazione non lineare tra il valore di x e la corrispondente media condizionata di Y, indicata con E(Y|X). Anche se la regressione polinomiale adatta ai dati un modello non lineare, il problema di stima statistica è lineare, nel senso che la funzione di regressione E(Y|x) è lineare nei parametri ignoti che sono stimati dai dati. Quindi, la regressione polinomiale è considerata un caso particolare di regressione lineare multipla. MODELLI EMPIRICI 38 19 REGRESSIONE POLINOMIALE • Modello lineare semplice: Yi = β0 + β1xi + εi, i =1,...,n. • Modello quadratico: Yi = β0 + β1xi + β2xi2 + εi, i =1,...,n. • Modello cubico: Yi = β0 + β1xi + β2xi2 + β3xi3 + εi, i =1,...,n. • Modello polinomiale di ordine p: Yi = β0 + β1xi + β2xi2 +…+ βpxip + εi, i =1,...,n. Un approccio alternativo è la regressione non parametrica in cui la funzione link non prende una forma predeterminata, ma viene costruita in base alle informazioni ricavate dai dati. MODELLI EMPIRICI 39 REGRESSIONE CON REGRESSORI QUALITATIVI In un modello di regressione si possono introdurre anche delle variabili esplicative di tipo qualitativo (es. tipo di prodotto, fornitore, ecc.), che possono essere definite su due o più livelli (modalità, categorie). A questo scopo, data una variabile qualitativa su a livelli, è necessario applicare la seguente procedura: o un livello (ad es. il primo) viene scelto come riferimento (baseline); o si costruiscono a−1 variabili (di comodo o dummy) D2,...,Da, secondo una delle due codifiche: 1. Dij=1, se in corrispondenza dell’i-esima osservazione (i=1,...,n) si osserva il livello j-esimo della variabile qualitativa; altrimenti Dij=0; 2. Dij=1, se in corrispondenza dell’i-esima osservazione (i=1,...,n) si osserva il livello j-esimo; Dij=−1 se si osserva il livello 1 (baseline), altrimenti Dij=0. MODELLI EMPIRICI 40 20 REGRESSIONE CON REGRESSORI QUALITATIVI Si noti che la variabile di comodo per la categoria di riferimento non viene considerata in quanto si verrebbe a determinare una dipendenza lineare tra le colonne della matrice dei regressori con conseguente impossibilità di invertire la matrice X′X. Il coefficiente di una variabile dummy deve essere sempre interpretato in relazione alla categoria di riferimento, vale a dire la categoria che riceve il valore 0. Le variabili dummy possono interagire con regressori sia quantitativi sia qualitativi. Se un modello contiene più variabili esplicative di tipo qualitativo con diverse categorie, l'introduzione delle dummy per tutte le combinazioni possono ‘consumare’ un gran numero di gradi di libertà, specialmente se la dimensione del campione è relativamente piccolo. MODELLI EMPIRICI 41 REGRESSIONE LINEARE MULTIPLA Un modello spesso usato è il modello di regressione lineare multipla con due variabili indipendenti: Il modello descrive un piano nello spazio tridimensionale (y,x1,x2). In generale, quando la variabile di risposta y può essere legata a k variabili esplicative è possibile specificare il seguente modello lineare: Regressione polinomiale o con variabili qualitative sono casi particolari di regressione lineare multipla. Questo approccio può essere applicato a dati provenienti sia da studi osservazionali sia sperimentali (dopo l’analisi ANOVA, se uno o più fattori sono di tipo numerico). MODELLI EMPIRICI 42 21 REGRESSIONE LINEARE MULTIPLA Il dati si presentano nell’usuale forma di dataset: Il modello di regressione lineare multipla, per la singola osservazione yi, si presenta nella forma con εi~IID(0,σ2). Riscritto in termini matriciali, risulta MODELLI EMPIRICI . 43 REGRESSIONE LINEARE MULTIPLA y è un vettore (n×1) delle variabili casuali rappresentanti le osservazioni X è una matrice (n×p) dei livelli delle variabili indipendenti, con p=k+1 è un vettore (p×1) dei coefficienti di regressione è un vettore (n×1) di errori casuali MODELLI EMPIRICI 44 22 REGRESSIONE LINEARE MULTIPLA Definiamo una funzione obiettivo L come la somma degli scarti al quadrato delle osservazioni dal vero modello di regressione La funzione dei minimi quadrati Semplificando si ottiene un sistema di p equazioni dette normali ai minimi quadrati, che è semplice risolvere in forma matriciale. L’obiettivo è quello di trovare il vettore degli stimatori ai minimi quadrati del parametro β, tale da minimizzare −1 Dopo alcuni passaggi si ottiene βˆ = ( X′X) X′y . MODELLI EMPIRICI 45 REGRESSIONE LINEARE MULTIPLA I valori stimati dal modello di regressione lineare multipla sono definiti come In notazione scalare La differenza tra osservazioni reali yi e i corrispondenti valori stimati ŷi definisce il vettore (nx1) dei residui e Per stimare σ2 si considera la somma dei quadrati dei residui SSE Si può mostrare che quindi uno sti2 2 matore non distorto di σ è dato da: σˆ = SS E ( n − p ) . MODELLI EMPIRICI 46 23 REGRESSIONE LINEARE MULTIPLA Il metodo dei minimi quadrati produce uno stimatore β̂_ del parametro β del modello di regressione lineare che è BLUE (Best Linear Unbiased Estimator), ovvero è non distorto e ottimale nella classe degli stimatori lineari. Lo stimatore è inoltre consistente (converge asintoticamente in probabilità al vero valore). Le proprietà della varianza di β̂ viene espressa dalla matrice varianze-covarianze che è una matrice simmetrica, il cui i-esimo elemento nella diagonale principale è la varianza dello stimatore del coefficiente di regressione individuale e il cui elemento (ij)-esimo è la covarianza tra e MODELLI EMPIRICI 47 REGRESSIONE LINEARE MULTIPLA La multicollinearità è un fenomeno che si può verificare in presenza di alta correlazione tra due o più variabili indipendenti. Questo significa che alcune variabili contribuiscono con delle informazioni ridondanti al modello di regressione multipla. L’inclusione di due variabili indipendenti strettamente correlate può influenzare negativamente i risultati della regressione e portare a stime dei parametri instabili (errore standard elevati e conseguenti bassi valori osservati dei t-test), tanto che i segni dei parametri potrebbero anche non corrispondere alle aspettative iniziali. MODELLI EMPIRICI 48 24 REGRESSIONE LINEARE MULTIPLA La presenza di multicollinearità è suggerita da alcuni situazioni: o segni errato sui parametri stimati; o grandi variazioni nella stima di un parametro quando una nuova variabile si aggiunge al modello; o una variabile significativa in precedenza diventa insignificante quando una nuova variabile indipendente è aggiunta; o la stima della deviazione standard del modello aumenta quando una variabile viene aggiunto al modello; o valori elevati (>5) dell’indice VIF (Variance Inflation Factor), calcolato per ogni data stima del parametro βj. MODELLI EMPIRICI 49 REGRESSIONE LINEARE MULTIPLA Sotto l’assunzione che gli errori del modello siano εi~IIN(0,σ2), cioè indipendenti e distribuiti normalmente, con valore atteso zero e varianza costante, è possibile sviluppare delle procedure di verifica di ipotesi sulla significatività dei parametri del modello. Una prima verifica di ipotesi (di tipo globale), mira a determinare se vi sono relazioni lineari tra la variabile di risposta Y ed almeno uno dei regressori: Il rifiuto di H0 implica che almeno uno dei regressori contribuisce al modello, si tratta perciò di una procedura sulla significatività dell’intero modello di regressione. La statistica test utilizzata si sviluppa dalla usuale scomposizione della somma dei quadrati: MODELLI EMPIRICI 50 25 REGRESSIONE LINEARE MULTIPLA Dove le somma dei quadrati totali SST, dovuta alla regressione SSR è dell’errore SSE sono Sotto l’ipotesi nulla test di interesse è di tipo F: la statistica L’ipotesi nulla dovrà essere rifiutata se Foss > Fα;k,n−k −1. MODELLI EMPIRICI 51 REGRESSIONE LINEARE MULTIPLA Il p-value, usualmente riportato nella tabella ANOVA della regressione, rappresenta un metodo alternativo ed equivalente per la verifica di ipotesi. Dalla scomposizione della somma dei quadrati, si può calcolare l’indice di determinazione R2: che è una misura della parte della variabilità di y spiegata dal modello. Un basso/elevato valore di R2 non implica necessariamente però che il modello di regressione sia cattivo/buono. MODELLI EMPIRICI 52 26 REGRESSIONE LINEARE MULTIPLA Dato che l’indice R2 aumenta monotonicamente aggiungendo nuovi termini al modello, si preferisce utilizzarlo nella versione di R2adj aggiustato ( adjusted): L’indice R2adj non aumenta necessariamente quando si aggiungono variabili nel modello, ma se si aggiungono termini superflui il valore decresce. Spesso siamo interessati a determinare l’utilità individuale di ciascuna delle variabili indipendenti, nel modello di regressione. Si deve decidere cioè se l’incremento nella somma dei quadrati della regressione è sufficiente a giustificare l’uso di una variabile aggiuntiva nel modello. MODELLI EMPIRICI 53 REGRESSIONE LINEARE MULTIPLA Le ipotesi per valutare la significatività di un singolo coefficiente di regressione sono H0: βj=0 vs. H1: βj≠0. Una statistica test (di tipo t di Student) appropriata a testare questa ipotesi è dove il denominatore è spesso chiamato errore standard. La maggior parte dei software di calcolo della regressione fornisce il test t per ogni parametro del modello. In alternativa, mediante un test F si può esaminare il contributo alla somma dei quadrati della regressione di una particolare variabile (posto che le altre variabili siano incluse nel modello): si tratta del metodo della somma dei quadrati aggiuntivi, utile anche a verificare se un dato sottoinsieme delle variabili contribuisce significativamente al modello. MODELLI EMPIRICI 54 27 REGRESSIONE LINEARE MULTIPLA Dal modello di regressione si vuole verificare se il sottoinsieme X1 delle variabili di regressione contribuisce significativamente al modello. Il modello di regressione può essere riscritto evidenziando X1 e X2 e i relativi coefficienti β1 e β2: Per il modello completo che include sia β1 sia β2 si ottiene dove l’errore ha p gradi di libertà, da cui Per il modello ridotto, che recepisce il vincolo β1=0, si ottiene MODELLI EMPIRICI 55 REGRESSIONE LINEARE MULTIPLA Si definisce la somma dei quadrati della regressione dovuta a β1 dato che β2 è già nel modello: Ora dato che è indipendente da MSE, l’ipotesi H0: β1=0 può essere valutata dalla statistica Tale statistica test è chiamata test F parziale e misura l’effetto di un vincolo imposto su di un sotto insieme di variabili indipendenti. Usualmente il vincolo è β1=0, ma con lo stesso approccio si potrebbe considerare anche il caso più generale espresso da un sistema di equazioni lineari del tipo Rβ=r. MODELLI EMPIRICI 56 28 REGRESSIONE LINEARE MULTIPLA Consideriamo l’esempio della viscosità e supponiamo di volere studiare il contributo della variabile X2 nel modello. Le ipotesi da valutare sono H0: β2=0 vs. H1: β2=0. Ciò richiederà la somma dei quadrati aggiuntiva dovuta a β2 Il modello ridotto è Per valutare la statistica test adeguata è Questa procedura equivale a condurre il test t su β2. MODELLI EMPIRICI 57 REGRESSIONE LINEARE MULTIPLA Sotto assunzione di normalità degli errori casuali è possibile costruire degli intervalli di confidenza per i coefficienti di regressione e per altre quantità d’interesse nel modello di regressione. Un intervallo di confidenza al (1−α)% per il coefficiente di regressione βj è dato da dove Cjj è l’elemento in posizione jj della matrice Un intervallo di confidenza per la risposta media µy|x0 in corrispondenza del punto x0=(x01,x02,…,x0k) dove . MODELLI EMPIRICI 58 29 REGRESSIONE LINEARE MULTIPLA Infine, un intervallo di confidenza utile per prevedere future osservazioni del valore puntuale della risposta y0 in corrispondenza del punto x0=(x01,x02,…,x0k) dove . Quando si prevedono nuove osservazioni occorre molta cautela nell’eventuale estrapolazione al di fuori della regione contenente le osservazioni originarie. MODELLI EMPIRICI 59 REGRESSIONE LINEARE MULTIPLA Uno degli aspetti più delicati della regressione lineare multipla è la selezione delle variabili esplicative al fine di ottenere un modello finale soddisfacente. Infatti, la stima di un modello iniziale che include tutti i k possibili regressori produrrà quasi certamente un risultato in cui alcuni regressori avranno un p-value significativo mentre altri non l’avranno. Si pone quindi la questione della corretta/opportuna selezione del sottoinsieme dei regressori. In questo ambito non esiste un algoritmo ottimale che consente in tutte le condizioni di ottenere un modello finale “ottimo”. Ci si può affidare ad algoritmi alternativi, tenendo presente che questi non necessariamente produrranno lo stesso risultato. MODELLI EMPIRICI 60 30 REGRESSIONE LINEARE MULTIPLA Gli algoritmi più utilizzati per la selezione delle variabili esplicative nel modello di regressione lineare multipla si dividono in due categorie: 1. step-wise e 2. best sub-set. Gli algoritmi step-wise funzionano a passi, secondo una delle tre modalità: o Forward stepwise selection: inizia con il modello vuoto e aggiunge regressori in modo sequenziale; o Backward stepwise selection: inizia con il modello completo e toglie regressori in modo sequenziale; o Stepwise selection: combinazione di selezione forward e backward. La procedura best sub-set si basa sull’idea di stimare tutte le possibili equazioni di regressione utilizzando tutte le possibili combinazioni di variabili indipendenti, quindi si sceglie il modello in termini di migliore adattamento ai dati (R2 elevato, MSE piccolo e indice Cp di Mallow appropriato). MODELLI EMPIRICI 61 REGRESSIONE LINEARE MULTIPLA Le analisi diagnostiche del modello di regressione sono delle tecniche che riguardano l’adeguatezza del modello e che si applicano usualmente a quello che si considera il modello stimato finale. L’analisi grafica dei residui fa parte di queste procedure. Alcuni autori suggeriscono di lavoro non sui residui ordinari quanto su una loro forma modificata, suggerendo che questi forniscono più informazioni. Uno tipo di questi residui è detto residui standardizzati di = ei σˆ , i = 1,..., n caratterizzati da media zero e varianza unitaria che tornano utili nella ricerca degli outlier o valori anomali. Il processo di standardizzazione trasforma la scala dei residui, in quanto li divide per la loro deviazione media approssimata. MODELLI EMPIRICI 62 31 REGRESSIONE LINEARE MULTIPLA La varianza dell’i-esimo residuo è , −1 dove la matrice H=X(X′X) X′ trasforma il vettore dei valori osservati in un vettore di valori previsti. In generale, residui prossimi al centro dello spazio di X hanno varianza maggiore di quelli relativi a posizioni più distanti. Tenendo conto della non uniformità della varianza quando si trasforma la scala dei residui, conviene considerare i residui studentizzati: In molte situazioni la varianza dei residui si stabilizza, particolarmente per grandi insiemi di dati ed in questi casi le differenze tra i residui standardizzati e studentizzati saranno piccole. MODELLI EMPIRICI 63 REGRESSIONE LINEARE MULTIPLA Si riportano sedici osservazioni della viscosità di un polimero (y) e di due variabili di processotemperatura di reazione (x1) e portata del catalizzatore (x2), a cui si vuole adattare un modello di regressione multipla: Impostate le matrici X ed y, si trovano le matrici X’X ed il vettore X’y e la stima ai minimi quadrati di MODELLI EMPIRICI 64 32 REGRESSIONE LINEARE MULTIPLA La tabella sottostante riporta alcuni output ottenuti con Minitab per accostamento del modello di regressione per l’esempio della viscosità. The regression equation is Viscosity = 1566 + 7.62 Temp (x1) + 8.58 Feed rat (x2) Predictor Constant Temp (x1) Feed rat (x2) S = 16.3586 Coef 1566.08 7.6213 8.585 SE Coef 61.59 0.6184 2.439 R-Sq = 92.7% T 25.43 12.32 3.52 P 0.000 0.000 0.004 R-Sq(adj) = 91.6% Analysis of Variance Source Regression Residual Error Total DF 2 13 15 SS 44157 3479 47636 MS 22079 268 F 82.50 P 0.000 65 MODELLI EMPIRICI REGRESSIONE LINEARE MULTIPLA Il grafico 3D sottostante riporta i valori stimati dal modello di regressione (FITS) ovvero il piano di risposta che stima la viscosità in funzione delle combinazioni di temperatura di reazione (x1) e portata del catalizzatore (x2). Surface Plot of FITS vs Feed rat (x2); Temp (x1) 2400 FITS 2350 2300 2250 100 12 90 10 Feed rat (x2) 8 80 MODELLI EMPIRICI Temp (x1) 66 33 REGRESSIONE LINEARE MULTIPLA Valori previsti, residui ed altri strumenti diagnostici. 67 MODELLI EMPIRICI REGRESSIONE LINEARE MULTIPLA I grafici sulla diagnostica dei residui evidenziano delle problematiche in merito all’assunzione di normalità e di omoschedasticità degli errori (c’è una tendenza della varianza della viscosità osservata ad aumentare con valori crescenti di viscosità). Residual Plots for Viscosity Normal Probability Plot of the Residuals Residuals Versus the Fitted Values 99 20 Residual Percent 90 50 10 1 -20 0 Residual 20 40 2250 Histogram of the Residuals 2300 2350 Fitted Value 2400 Residuals Versus the Order of the Data 20 3.6 Residual Frequency 0 -10 -20 -40 4.8 2.4 1.2 0.0 10 10 0 -10 -20 -24 -12 0 12 Residual 24 MODELLI EMPIRICI 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Observation Order 68 34 REGRESSIONE LINEARE MULTIPLA I grafici dei residui rispetto a x1 (temperatura) e x2 (portata del catalizzatore) suggeriscono inoltre che la variabilità della viscosità tende ad aumentare al crescere della temperatura. Residuals Versus Temp (x1) (response is Viscosity) 30 10 Residuals Versus Feed rat (x2) (response is Viscosity) 0 30 -10 20 -20 80 85 90 Temp (x1) 95 100 Residual Residual 20 10 0 -10 -20 8 MODELLI EMPIRICI 9 10 11 Feed rat (x2) 12 13 69 REGRESSIONE LINEARE MULTIPLA Consideriamo due esempi di applicazione della regressione lineare multipla a dati provenienti da uno studio sperimentale. 1. In uno studio sulle proprietà meccaniche di alcune miscele bituminose, si vuole stabilire se il modulo di rigidezza è legato al tipo di scheletro (SCHEL: A,B), e alle percentuali di cemento (CEM: 1,2,3) e di bitume (BIT: 2,3,4). 2. In uno studio sulle proprietà di alcuni calcestruzzi (Tipo Calc: normale, con ritardante, con fluidificante) si sono misurati valori di resistenza (lb/in^2) considerando anche la percentuale di acqua (% Acqua: 1, 2, 3%) e la percentuale di cemento (% Cem: 3, 4, 5%). MODELLI EMPIRICI 70 35 REGRESSIONE LINEARE MULTIPLA ESEMPIO 1: Per la miscela con scheletro B è stata adattata ai dati sperimentali una opportuna superficie di risposta. Surface Plot of Sm (MPa) vs BIT; CEM Estimated Term Constant CEM BIT CEM^2 BIT^2 CEM*BIT Regression Coeff. Coef SE Coef 5584.40 130.49 324.95 71.47 656.37 71.47 -6.63 123.79 -500.99 123.79 -200.53 87.54 S = 553.6 R-Sq = 60.1% for Sm(MPa) T P 42.796 0.000 4.547 0.000 9.184 0.000 -0.054 0.957 -4.047 0.000 -2.291 0.024 6000 Sm (MPa) CEM Residual 50 10 1 Contour Plot of Sm (MPa) vs BIT; CEM 4.0 0 Sm (MPa) < 4000 - 4500 - 5000 - 5500 - 6000 > 6000 4000 4500 5000 5500 3.5 -1000 -2000 -2000 -1000 0 Residual 1000 2000 4000 Histogram of the Residuals 4500 5000 Fitted Value 5500 6000 1000 Residual 15 10 2.5 0 -1000 5 2.0 1.0 -2000 -2000 -1500 -1000 -500 0 500 1000 3.0 Residuals Versus the Order of the Dat 20 Frequency BIT 2 3 R-Sq(adj) = 57.7% BIT Percent 90 0 2 1000 99 0.1 3 1 Residuals Versus the Fitted Values 99.9 4 4000 Residual Plots for Sm (MPa) Normal Probability Plot of the Residuals 5000 1 10 20 Residual 30 40 50 60 70 Observation Order 80 90 1.5 2.0 2.5 3.0 CEM 71 MODELLI EMPIRICI REGRESSIONE LINEARE MULTIPLA ESEMPIO 2: per il calcestruzzo di tipo normale è stata adattata ai dati sperimentali una opportuna superficie di risposta. Estimated Regression Coefficients for Rc [lb/in^2] T 15.825 -4.313 -2.937 3.279 P 0.000 0.001 0.011 0.005 R-Sq(adj) = 64.6% Analysis of Variance for Rc [lb/in^2] Source DF Adj SS Adj MS F Regression 3 493244 164415 11.34 Residual Error 14 203017 14501 Total 17 696261 Residual Plots for Rc [lb/in^2] Normal Probability Plot of the Residuals P 0.000 Residuals Versus the Fitted Values 99 200 90 Residual R-Sq = 70.8% SE Coef 255.45 34.76 243.34 60.21 50 1 -200 -100 0 Residual 100 2800 3000 Fitted Value 3200 Residuals Versus the Order of the Data 4 Frequency 0 -200 2600 200 Histogram of the Residuals MODELLI EMPIRICI 100 -100 10 200 3 Residual S = 120.4 Coef 4042.5 -149.9 -714.6 197.4 Percent Term Constant % Cem % Acqua % Acqua^2 2 100 0 1 -100 0 -200 -200 -100 0 Residual 100 200 2 4 6 8 10 12 14 Observation Order 16 18 72 36 REGRESSIONE LINEARE MULTIPLA ESEMPIO 2: per il calcestruzzo di tipo normale è stata adattata ai dati sperimentali una opportuna superficie di risposta. Surface Plot of Rc [lb/in^2] vs % Acqua; % Cem 3200 3000 Contour Plot of Rc [lb/in^2] vs % Acqua; % Cem 2800 3.0 Rc [lb/in^2] < 2700 - 2800 - 2900 - 3000 - 3100 - 3200 > 3200 3 2600 3 2 4 % Cem 5 2700 2800 2900 3000 3100 % Acqua 2.5 1 % Acqua Rc 2.0 1.5 1.0 3.0 3.5 4.0 4.5 5.0 % Cem MODELLI EMPIRICI 73 TRASFORMAZIONE DEI DATI NELLA REGRESSIONE Quando si considera l’applicazione di un modello lineare, se l’assunto della linearità viene a cadere anche approssimativamente, a volte è possibile trasformare nel modello di regressione sia le variabili indipendenti sia quella dipendente al fine di migliorarne la linearità. Un'altra assunzione della regressione lineare è che la variabile dipendente dovrebbe variare almeno approssimativamente secondo una legge normale intorno al suo valore atteso, con la stessa varianza per ogni possibile valore atteso (questa proprietà è nota come omoschedasticità). Sebbene la normalità non sia necessaria per ottenere le stime appropriate ai minimi quadrati dei parametri di regressione (teorema di Gauss-Markov) ... MODELLI EMPIRICI 74 37 TRASFORMAZIONE DEI DATI NELLA REGRESSIONE … intervalli di confidenza e test di ipotesi avranno le proprietà statistiche desiderate solo se la media condizionata rispetto alle variabili esplicative della variabile dipendente sarà almeno approssimativamente normale e con varianza costante. Le trasformazioni logaritmo e radice quadrata sono comunemente utilizzate per i dati positivi, e la trasformazione inversa (reciproco) può essere utilizzato per dati non-zero. La trasformazione di potenza è una famiglia di trasformazioni parametrizzate da un non negativo valore λ che include il logaritmo, radice quadrata, e il reciproco come casi particolari. MODELLI EMPIRICI 75 TRASFORMAZIONE DEI DATI NELLA REGRESSIONE Per approcciare la questione della trasformazione dei dati in modo sistematico, è possibile utilizzare tecniche di stima statistica per stimare il parametro λ della trasformazione di potenza, in modo da identificare la trasformazione che è approssimativamente la più appropriata ad un dato contesto. Dal momento che la famiglia delle trasformazioni di potenza include anche la trasformazione identica, questo approccio può anche indicare se sarebbe preferibile analizzare i dati senza alcuna trasformazione. Nell'analisi di regressione, questo approccio è conosciuto come la tecnica di Box-Cox. MODELLI EMPIRICI 76 38 MODELLI NON LINEARI La regressione non lineare è una forma di regressione in cui i dati osservati sono modellati da una funzione che è una combinazione lineare dei parametri del modello e dipende da una o più variabili indipendenti. I parametri vengono stimati con algoritmi numerici basati su approssimazioni iterative. A volte i modelli non lineari possono essere linearizzati mediante trasformazioni opportune. Consideriamo ad esempio il modello esponenziale (ignorando l’errore): Yi=β0eβ1Xi. Se applichiamo la trasformazione logaritmica ad entrambi i membri otteniamo lnYi = lnβ0+β1Xi il che suggerisce di stimare i parametri ignoti attraverso una regressione lineare di lnY su X. MODELLI EMPIRICI 77 MODELLI NON LINEARI Il processo di stima per un modello non lineare, ma linearizzabile non richiede alcune ottimizzazione iterata. Tuttavia, l'utilizzo di una trasformazione lineare richiede cautela. Un utile modello genuinamente non lineare è il cosiddetto modello logistico a due o tre parametri: Yi = γ + εi 1 + α e− β X i MODELLI EMPIRICI 78 39