Metodi Statistici e Probabilistici per l’Ingegneria
MODELLI EMPIRICI
Corso di Laurea in Ingegneria Civile
Facoltà di Ingegneria, Università di Padova
Docente: Dott. L. Corain
E-mail: [email protected]
Home page: www.gest.unipd.it/~livio/Corso_Civile.html
MODELLI EMPIRICI
1
SOMMARIO
¾ Introduzione ai modelli empirici
¾ Regressione
ƒ lineare semplice
ƒ polinomiale
ƒ con regressori qualitativi
¾ Regressione lineare multipla e superfici di
risposta
¾ Trasformazione dei dati nella regressione
¾ Modelli non lineari
MODELLI EMPIRICI
2
1
INTRODUZIONE AI MODELLI EMPIRICI
ƒ Molti problemi in ingegneria e scienze coinvolgono
l’esplorazione delle relazioni tra due o più variabili e la
modellazione del possibile legame esistente tra queste.
ƒ Il modello e l’analisi di regressione rappresenta una
tecnica statistica molto utile per questi tipi di problemi.
ƒ In generale, si suppone che vi sia una sola variabile
dipendente o risposta Y, dipendente da k variabili
indipendenti (esplicative/regressori) x1,x2,…,xk.
ƒ Frequentemente si usano i metodi di regressione per
analizzare i dati di studi osservazionali o esperimenti
non pianificati, utili anche quando negli esperimenti
programmati qualcosa è andato storto.
ƒ Il modello di regressione può essere applicato anche
come analisi aggiuntiva al quella ANOVA a dataset
provenienti da esperimenti programmati.
MODELLI EMPIRICI
3
INTRODUZIONE AI MODELLI EMPIRICI
ƒ L’analisi di regressione è utilizzata anche per capire
quali specifiche variabili, tra un insieme di diverse
variabili indipendenti, sono legate alla variabile
dipendente e per esplorare le forme di queste relazioni.
ƒ L’analisi di regressione viene molto spesso utilizzata al
fine di ottenere delle previsioni.
ƒ Le prestazioni dei metodi di analisi di regressione, in
pratica dipendono dalla forma del processo di
generazione dei dati, e come questo si relazione
all’approccio di regressione utilizzato.
ƒ Dal momento che la vera forma del processo di
generazione dei dati non è noto, l'analisi di regressione
dipende in qualche misura dal fare assunzioni su
questo processo.
MODELLI EMPIRICI
4
2
INTRODUZIONE AI MODELLI EMPIRICI
ƒ Nell’analisi di regressione l'obiettivo della stima sono i
parametri β che caratterizzano una funzione delle
variabili indipendenti chiamata funzione di regressione:
Y = f(X;β) + ε.
– Variabile dipendente/risposta: Y.
– Variabili indipendenti/esplicative: X.
– Parametri ignoti identificati da β.
– Termine di errore casuale: ε.
ƒ L'utente dell’analisi di regressione deve fare un'ipotesi
ragionevole sulla funzione f(X;β).
ƒ A volte la forma di questa funzione può essere nota,
altre volte si deve applicare un processo trial and error,
altre volte infine la forma è ignota perché troppo
complessa e si decide di adottare una funzione
semplificata che possibilmente la rappresenti.
MODELLI EMPIRICI
5
INTRODUZIONE AI MODELLI EMPIRICI
Le assunzioni classiche per l'analisi di regressione sono:
– Il campione deve essere rappresentativo della
popolazione verso la quale si vuol fare inferenza.
– L’errore è assunto essere una variabile casuale con
media condizionata alle variabili esplicative pari a zero.
– Le variabili indipendenti sono prive di errore
(deterministiche). Se così non fosse, la modellazione
dove prendere in considerazione le tecniche per i
modelli con errori nelle variabili.
– Gli errori sono incorrelati, cioè la matrice di
varianze/covarianze degli errori è diagonale e ogni
elemento non nullo è la varianza dell’errore.
– La varianza dell’errore è costante rispetto alle
osservazioni (omoschedasticità). Se così non fosse, si
dovrebbero utilizzare la tecnica dei minimi quadrati
pesati o altri metodi idonei a queste condizioni.
MODELLI EMPIRICI
6
3
REGRESSIONE LINEARE SEMPLICE
ƒ Per esempio, in un
processo chimico, si
supponga che la purezza
dell’ossigeno prodotto
sia legata al livello di
idrocarburi d’esercizio
del processo.
ƒ L’analisi di regressione
può essere usata per
costruire un modello per
prevedere le rese in
termini di purezza per
uno specificato livello di
idrocarburi.
MODELLI EMPIRICI
7
REGRESSIONE LINEARE SEMPLICE
Diagramma di dispersione della purezza dell’ossigeno
rispetto al livello di idrocarburi.
MODELLI EMPIRICI
8
4
REGRESSIONE LINEARE SEMPLICE
ƒ Sulla base del diagramma di dispersione, è ragionevole
supporre che la media della variabile casuale Y sia
legata alla x dalla seguente relazione lineare:
dove la pendenza e l’intercetta della retta si chiamano
coefficienti di regressione.
ƒ Il modello di regressione lineare semplice è dato da
dove il termine di errore casuale ε è assunto IID
(indipendente ed identicamente distribuito) con media
zero e varianza (costante) σ2.
MODELLI EMPIRICI
9
REGRESSIONE LINEARE SEMPLICE
ƒ Possiamo pensare al modello di regressione come ad
un modello empirico.
ƒ Dalle assunzioni sul termine casuale ε è possibile
ricavare media e varianza della variabile risposta Y:
cioè vi è una distribuzione di valori Y per ogni dato x e
la varianza di questa distribuzione è la stessa ad ogni x:
ƒ Il vero modello di regressione è il luogo geometrico di
tutti valori medi condizionati di Y per ogni dato x:
dove β1 può essere interpretato come la variazione del
valore medio di Y per un variazione unitaria di x.
MODELLI EMPIRICI
10
5
REGRESSIONE LINEARE SEMPLICE
Ipotetica vera distribuzione di Y per un dato x per i dati
sulla della purezza dell’ossigeno rispetto al livello di
idrocarburi.
MODELLI EMPIRICI
11
REGRESSIONE LINEARE SEMPLICE
ƒ Il caso della regressione lineare semplice considera
un singolo regressore o predittore x e una variabile
dipendente o risposta Y. Supponiamo di avere n
coppie di osservazioni (x1,y1), (x2,y2),…, (xn,yn).
ƒ Il metodo dei minimi quadrati viene utilizzato per
stimare i parametri, β0 e β1 minimizzando la somma dei
quadrati delle deviazioni verticali.
Deviazioni dei dati
dal modello di
regressione
stimato.
MODELLI EMPIRICI
12
6
REGRESSIONE LINEARE SEMPLICE
ƒ Consideriamo il modello di regressione lineare semplice
in riferimento alle n osservazioni del campione
con εi~IID(0,σ2) e definiamo una funzione obiettivo L
come la somma degli scarti al quadrato delle
osservazioni dal vero modello di regressione:
ƒ Gli stimatori (detti ai minimi quadrati) βˆ 0 e βˆ 1 dei due
parametri β0 e β1 devono soddisfare le due equazioni
MODELLI EMPIRICI
13
REGRESSIONE LINEARE SEMPLICE
ƒ Semplificando le due espressioni si ottengono le
cosiddette equazioni normali ai minimi quadrati
le cui soluzioni
forniscono gli
stimatori ai
minimi quadrati
dove
e
.
MODELLI EMPIRICI
14
7
REGRESSIONE LINEARE SEMPLICE
ƒ Gli stimatori ai minimi quadrati dei due parametri β0 e β1
sono non distorti
con varianza pari a
Si può dimostrare che sono anche stimatori
consistenti, ovvero asintoticamente la probabilità che
assumano il vero valore del parametro è pari ad uno.
MODELLI EMPIRICI
15
REGRESSIONE LINEARE SEMPLICE
ƒ La retta di regressione stimata (o prevista) è quindi
si noti che ogni coppia di osservazioni soddisfa la
relazione
dove il termine
viene definito residuo.
ƒ L’i-esimo residuo ei rappresenta l’errore relativo al
valore previsto dal modello rispetto all’osservazione yi.
ƒ In seguito vedremo che i residui verranno utilizzati
come per ottenere delle elaborazioni dette analisi dei
residui che mirano a valutare dal punto di vista
descrittivo l’adeguatezza del modello stimato rispetto
alle
assunzioni
(normalità,
indipendenza
ed
eteroschedasticità) del modello di regressione lineare.
MODELLI EMPIRICI
16
8
REGRESSIONE LINEARE SEMPLICE
ƒ Riprendendo l’esempio della purezza dell’ossigeno
rispetto al livello di idrocarburi, le stime ai minimi
quadrati del coefficiente angolare e dell’intercetta sono
ƒ Il modello di regressione stimato risulta quindi
Diagramma di dispersione
della purezza
dell’ossigeno rispetto al
livello di idrocarburi e
modello di regressione
ŷ = 74.20 + 14.97x.
MODELLI EMPIRICI
17
REGRESSIONE LINEARE SEMPLICE
MODELLI EMPIRICI
18
9
REGRESSIONE LINEARE SEMPLICE
La somma dei quadrati degli errori SSE è pari a
Si può dimostrare che il valore atteso della somma dei
quadrati degli errori è tale che E(SSE) = (n – 2)σ2.
Quindi, una stimatore non distorto di σ2 è
dove SSE può essere facilmente calcolato come
MODELLI EMPIRICI
19
REGRESSIONE LINEARE SEMPLICE
ƒ Assumendo che il termine di errore casuale ε abbia
distribuzione normale, ovvero εi~NID(0,σ2), è possibile
considerare due statistiche test finalizzare a fare
inferenza sui due parametri β0 e β1, formalmente
dove un importate caso è quello del cosiddetto test di
significatività della regressione: H0: β1=0 vs. H1: β1≠0
ƒ Le statistiche test appropriate sono:
che hanno distribuzione nulla t di Student con n-2 gdl,
ovvero l’ipotesi nulla sarà rigettata se
.
MODELLI EMPIRICI
20
10
REGRESSIONE LINEARE SEMPLICE
ƒ Il mancato rifiuto dell’ipotesi nulla H0: β1=0 vs. H1: β1≠0
è equivalente a concludere che non vi è una relazione
lineare tra x e Y.
Possibili casi in cui
l’ipotesi H0: β1 = 0
non è rigettata.
Possibili casi in cui
l’ipotesi H0: β1 = 0
viene è rigettata.
MODELLI EMPIRICI
21
REGRESSIONE LINEARE SEMPLICE
MODELLI EMPIRICI
22
11
REGRESSIONE LINEARE SEMPLICE
ƒ Una procedura alternativa (ma equivalente) per
sottoporre a verifica la significatività della regressione
(H0: β1=0 vs. H1: β1≠0) può essere sviluppata grazie
all’approccio dell’Analisi della Varianza (applicato alla
regressione), mediante l’espressione:
⇔
ƒ Se l’ipotesi nulla H0: β1=0 è vera, la statistica test
segue una distribuzione F1,n-2 e l’ipotesi sarà rifiutata, a
livello di significatività α, se F0 > Fα;1,n-2.
MODELLI EMPIRICI
23
REGRESSIONE LINEARE SEMPLICE
ƒ I risultati delle verifica di ipotesi sulla significatività della
regressione via Analisi della Varianza vengono
usualmente rappresentati in forma tabellare:
dove le quantità MSR e MSE sono chiamate quadrati
medi della regressione e dell’errore.
ƒ SSR e SSE rappresentano rispettivamente la parte della
variabilità totale della risposta Y spiegata dalla
regressione e la parte imputabile al termine di errore.
MODELLI EMPIRICI
24
12
REGRESSIONE LINEARE SEMPLICE
ƒ La quantità
ƒ
ƒ
ƒ
ƒ
è chiamata coefficiente di determinazione - R2 ed è
spesso utilizzata per giudicare l’adeguatezza del
modello di regressione.
Il range dei valori possibili dell’R2 sono 0 ≤ R2 ≤ 1.
Spesso ci riferiamo all’R2 come la quantità della
variabilità nei dati spiegata o interpretata dal modello di
regressione.
Per il modello di regressione della purezza dell’ossigeno
rispetto al livello di idrocarburi,
R2 = SSR/SST = 152.13/173.38 = 0.877
Quindi, il modello interpreta l’87.7% della variabilità
presente nei dati.
MODELLI EMPIRICI
25
REGRESSIONE LINEARE SEMPLICE
MODELLI EMPIRICI
26
13
REGRESSIONE LINEARE SEMPLICE
MODELLI EMPIRICI
27
REGRESSIONE LINEARE SEMPLICE
ƒ Sotto l’assunzione εi~NID(0,σ2), ovvero di normalità del
termine di errore (o equivalentemente delle
osservazioni Yi), oltre a condurre dei test di
significatività sui parametri, è possibile costruire degli
intervalli di confidenza all’(1-α)100% per il coefficiente
angolare β1 e per l’intercetta β0:
MODELLI EMPIRICI
28
14
REGRESSIONE LINEARE SEMPLICE
MODELLI EMPIRICI
29
REGRESSIONE LINEARE SEMPLICE
ƒ Oltre agli intervalli di confidenza per parametri β1 e β0, è
possibile costruire intervalli di confidenza anche per
‰ la previsione media µY|x0:
‰ la previsione puntuale Y0:
MODELLI EMPIRICI
30
15
REGRESSIONE LINEARE SEMPLICE
MODELLI EMPIRICI
31
REGRESSIONE LINEARE SEMPLICE
Diagramma di
dispersione della
purezza dell’ossigeno
rispetto al livello di
idrocarburi, retta di
regressione stimata e
limiti di confidenza al
95% di µY|x0.
MODELLI EMPIRICI
32
16
REGRESSIONE LINEARE SEMPLICE
MODELLI EMPIRICI
33
REGRESSIONE LINEARE SEMPLICE
Diagramma di
dispersione della
purezza
dell’ossigeno
rispetto al livello di
idrocarburi, retta di
regressione
stimata, limiti di
confidenza al 95%
di µY|x0 (linee
interne) e limiti di
previsione al 95%
(linee esterne).
MODELLI EMPIRICI
34
17
REGRESSIONE LINEARE SEMPLICE
ƒ
Adottare un modello di regressione richiede alcune
assunzioni: εi~NID(0,σ2),
¾ gli errori devono essere variabili aleatorie incorrelate
con media zero;
¾ gli errori devono avere varianza costante;
¾ gli errori devono essere distribuiti normalmente.
ƒ
L'analista deve sempre considerare la validità di queste
assunzioni e condurre analisi per esaminare
l'adeguatezza del modello.
ƒ
I residui del modello di regressione sono definiti come
ei=yi−ŷi, dove yi è il valore osservato e ŷi è il
corrispondente valore stimato dal modello di
regressione.
MODELLI EMPIRICI
35
REGRESSIONE LINEARE SEMPLICE
L'analisi dei residui è spesso utile nel valutare l'ipotesi che
gli errori sono hanno distribuzione normale, con varianza
costante, e nel determinare se sarebbe utile considerare
nel modello ulteriori termini.
Possibili pattern
dei grafici dei
residui.
(a) soddisfacente,
(b) imbuto,
(c) double bow,
(d) non lineare.
MODELLI EMPIRICI
36
18
REGRESSIONE LINEARE SEMPLICE
Normal probability
plot dei residui
Residui vs. valori
previsti ŷ
MODELLI EMPIRICI
37
REGRESSIONE POLINOMIALE
ƒ La regressione polinomiale è una forma di regressione
lineare in cui la relazione tra la variabile indipendente x
e la variabile dipendente Y viene modellata da un
polinomio.
ƒ La regressione polinomiale adatta una relazione non
lineare tra il valore di x e la corrispondente media
condizionata di Y, indicata con E(Y|X).
ƒ Anche se la regressione polinomiale adatta ai dati un
modello non lineare, il problema di stima statistica è
lineare, nel senso che la funzione di regressione E(Y|x)
è lineare nei parametri ignoti che sono stimati dai dati.
ƒ Quindi, la regressione polinomiale è considerata un
caso particolare di regressione lineare multipla.
MODELLI EMPIRICI
38
19
REGRESSIONE POLINOMIALE
• Modello lineare semplice:
Yi = β0 + β1xi + εi, i =1,...,n.
• Modello quadratico:
Yi = β0 + β1xi + β2xi2 + εi, i =1,...,n.
• Modello cubico:
Yi = β0 + β1xi + β2xi2 + β3xi3 + εi, i =1,...,n.
• Modello polinomiale di ordine p:
Yi = β0 + β1xi + β2xi2 +…+ βpxip + εi, i =1,...,n.
Un approccio alternativo è la regressione non
parametrica in cui la funzione link non prende
una forma predeterminata, ma viene costruita
in base alle informazioni ricavate dai dati.
MODELLI EMPIRICI
39
REGRESSIONE CON REGRESSORI QUALITATIVI
ƒ In un modello di regressione si possono introdurre anche
delle variabili esplicative di tipo qualitativo (es. tipo di
prodotto, fornitore, ecc.), che possono essere definite su
due o più livelli (modalità, categorie).
ƒ A questo scopo, data una variabile qualitativa su a livelli, è
necessario applicare la seguente procedura:
o un livello (ad es. il primo) viene scelto come riferimento
(baseline);
o si costruiscono a−1 variabili (di comodo o dummy)
D2,...,Da, secondo una delle due codifiche:
1. Dij=1, se in corrispondenza dell’i-esima osservazione (i=1,...,n) si osserva il livello j-esimo della
variabile qualitativa; altrimenti Dij=0;
2. Dij=1, se in corrispondenza dell’i-esima osservazione (i=1,...,n) si osserva il livello j-esimo; Dij=−1
se si osserva il livello 1 (baseline), altrimenti Dij=0.
MODELLI EMPIRICI
40
20
REGRESSIONE CON REGRESSORI QUALITATIVI
ƒ
ƒ
ƒ
ƒ
Si noti che la variabile di comodo per la categoria di
riferimento non viene considerata in quanto si verrebbe
a determinare una dipendenza lineare tra le colonne
della matrice dei regressori con conseguente
impossibilità di invertire la matrice X′X.
Il coefficiente di una variabile dummy deve essere
sempre interpretato in relazione alla
categoria di
riferimento, vale a dire la categoria che riceve il valore 0.
Le variabili dummy possono interagire con regressori
sia quantitativi sia qualitativi.
Se un modello contiene più variabili esplicative di tipo
qualitativo con diverse categorie, l'introduzione delle
dummy per tutte le combinazioni possono ‘consumare’
un gran numero di gradi di libertà, specialmente se la
dimensione del campione è relativamente piccolo.
MODELLI EMPIRICI
41
REGRESSIONE LINEARE MULTIPLA
ƒ Un modello spesso usato è il modello di regressione
lineare multipla con due variabili indipendenti:
ƒ Il modello descrive un piano nello spazio tridimensionale
(y,x1,x2).
ƒ In generale, quando la variabile di risposta y può essere
legata a k variabili esplicative è possibile specificare il
seguente modello lineare:
ƒ Regressione polinomiale o con variabili qualitative sono
casi particolari di regressione lineare multipla.
ƒ Questo approccio può essere applicato a dati provenienti
sia da studi osservazionali sia sperimentali (dopo l’analisi
ANOVA, se uno o più fattori sono di tipo numerico).
MODELLI EMPIRICI
42
21
REGRESSIONE LINEARE MULTIPLA
ƒ Il dati si presentano nell’usuale forma di dataset:
ƒ Il modello di regressione lineare multipla, per la singola
osservazione yi, si presenta nella forma
con εi~IID(0,σ2).
ƒ Riscritto in termini matriciali, risulta
MODELLI EMPIRICI
.
43
REGRESSIONE LINEARE MULTIPLA
ƒ y è un vettore (n×1) delle variabili casuali rappresentanti
le osservazioni
ƒ X è una matrice (n×p) dei livelli delle variabili
indipendenti, con p=k+1
ƒ
è un vettore (p×1) dei coefficienti di regressione
ƒ
è un vettore (n×1) di errori casuali
MODELLI EMPIRICI
44
22
REGRESSIONE LINEARE MULTIPLA
ƒ Definiamo una funzione obiettivo L come la somma
degli scarti al quadrato delle osservazioni dal vero
modello di regressione La funzione dei minimi quadrati
ƒ Semplificando si ottiene un sistema di p equazioni dette
normali ai minimi quadrati, che è semplice risolvere in
forma matriciale.
ƒ L’obiettivo è quello di trovare il vettore degli stimatori ai
minimi quadrati del parametro β, tale da minimizzare
−1
ƒ Dopo alcuni passaggi si ottiene βˆ = ( X′X) X′y .
MODELLI EMPIRICI
45
REGRESSIONE LINEARE MULTIPLA
ƒ I valori stimati dal modello di regressione lineare
multipla sono definiti come
ƒ In notazione scalare
ƒ La differenza tra osservazioni reali yi e i corrispondenti
valori stimati ŷi definisce il vettore (nx1) dei residui e
ƒ Per stimare σ2 si considera la somma dei quadrati dei
residui SSE
ƒ Si può mostrare che
quindi uno sti2
2
matore non distorto di σ è dato da: σˆ = SS E ( n − p ) .
MODELLI EMPIRICI
46
23
REGRESSIONE LINEARE MULTIPLA
ƒ Il metodo dei minimi quadrati produce uno stimatore β̂_
del parametro β del modello di regressione lineare che
è BLUE (Best Linear Unbiased Estimator), ovvero è non
distorto e ottimale nella classe degli stimatori lineari.
ƒ Lo stimatore è inoltre consistente (converge asintoticamente in probabilità al vero valore).
ƒ Le proprietà della varianza di β̂ viene espressa dalla
matrice varianze-covarianze
che è una matrice simmetrica, il cui i-esimo elemento
nella diagonale principale è la varianza dello stimatore
del coefficiente di regressione individuale e il cui
elemento (ij)-esimo è la covarianza tra e
MODELLI EMPIRICI
47
REGRESSIONE LINEARE MULTIPLA
ƒ La multicollinearità è un fenomeno che si può
verificare in presenza di alta correlazione tra due o più
variabili indipendenti.
ƒ Questo significa che alcune variabili contribuiscono con
delle informazioni ridondanti al modello di regressione
multipla.
ƒ L’inclusione di due variabili indipendenti strettamente
correlate può influenzare negativamente i risultati della
regressione e portare a stime dei parametri instabili
(errore standard elevati e conseguenti bassi valori
osservati dei t-test), tanto che i segni dei parametri
potrebbero anche non corrispondere alle aspettative
iniziali.
MODELLI EMPIRICI
48
24
REGRESSIONE LINEARE MULTIPLA
ƒ La presenza di multicollinearità è suggerita da alcuni
situazioni:
o segni errato sui parametri stimati;
o grandi variazioni nella stima di un parametro quando
una nuova variabile si aggiunge al modello;
o una variabile significativa in precedenza diventa
insignificante
quando
una
nuova
variabile
indipendente è aggiunta;
o la stima della deviazione standard del modello
aumenta quando una variabile viene aggiunto al
modello;
o valori elevati (>5) dell’indice VIF (Variance Inflation
Factor), calcolato per ogni data stima del parametro
βj.
MODELLI EMPIRICI
49
REGRESSIONE LINEARE MULTIPLA
ƒ Sotto l’assunzione che gli errori del modello siano
εi~IIN(0,σ2), cioè indipendenti e distribuiti normalmente,
con valore atteso zero e varianza costante, è possibile
sviluppare delle procedure di verifica di ipotesi sulla
significatività dei parametri del modello.
ƒ Una prima verifica di ipotesi (di tipo globale), mira a
determinare se vi sono relazioni lineari tra la variabile di
risposta Y ed almeno uno dei regressori:
ƒ Il rifiuto di H0 implica che almeno uno dei regressori
contribuisce al modello, si tratta perciò di una procedura
sulla significatività dell’intero modello di regressione.
ƒ La statistica test utilizzata si sviluppa dalla usuale
scomposizione della somma dei quadrati:
MODELLI EMPIRICI
50
25
REGRESSIONE LINEARE MULTIPLA
ƒ Dove le somma dei quadrati totali SST, dovuta alla
regressione SSR è dell’errore SSE sono
ƒ Sotto l’ipotesi nulla
test di interesse è di tipo F:
la statistica
ƒ L’ipotesi nulla dovrà essere rifiutata se Foss > Fα;k,n−k −1.
MODELLI EMPIRICI
51
REGRESSIONE LINEARE MULTIPLA
ƒ Il p-value, usualmente riportato nella tabella ANOVA
della regressione, rappresenta un metodo alternativo ed
equivalente per la verifica di ipotesi.
ƒ Dalla scomposizione della somma dei quadrati, si può
calcolare l’indice di determinazione R2:
che è una misura della parte della variabilità di y
spiegata dal modello. Un basso/elevato valore di R2 non
implica necessariamente però che il modello di
regressione sia cattivo/buono.
MODELLI EMPIRICI
52
26
REGRESSIONE LINEARE MULTIPLA
ƒ Dato che l’indice R2 aumenta monotonicamente
aggiungendo nuovi termini al modello, si preferisce
utilizzarlo nella versione di R2adj aggiustato ( adjusted):
ƒ L’indice R2adj non aumenta necessariamente quando si
aggiungono variabili nel modello, ma se si aggiungono
termini superflui il valore decresce.
ƒ Spesso siamo interessati a determinare l’utilità
individuale di ciascuna delle variabili indipendenti, nel
modello di regressione.
ƒ Si deve decidere cioè se l’incremento nella somma dei
quadrati della regressione è sufficiente a giustificare l’uso
di una variabile aggiuntiva nel modello.
MODELLI EMPIRICI
53
REGRESSIONE LINEARE MULTIPLA
ƒ Le ipotesi per valutare la significatività di un singolo
coefficiente di regressione sono H0: βj=0 vs. H1: βj≠0.
ƒ Una statistica test (di tipo t di Student) appropriata a
testare questa ipotesi è
dove il denominatore è spesso chiamato errore standard.
ƒ La maggior parte dei software di calcolo della regressione
fornisce il test t per ogni parametro del modello.
ƒ In alternativa, mediante un test F si può esaminare il
contributo alla somma dei quadrati della regressione di
una particolare variabile (posto che le altre variabili siano
incluse nel modello): si tratta del metodo della somma dei
quadrati aggiuntivi, utile anche a verificare se un dato
sottoinsieme delle variabili contribuisce significativamente
al modello.
MODELLI EMPIRICI
54
27
REGRESSIONE LINEARE MULTIPLA
ƒ Dal modello di regressione
si vuole verificare se il sottoinsieme X1 delle variabili di regressione
contribuisce significativamente al modello.
ƒ Il modello di regressione può essere riscritto
evidenziando X1 e X2 e i relativi coefficienti β1 e β2:
ƒ Per il modello completo che include sia β1 sia β2 si
ottiene
dove l’errore ha p gradi di
libertà, da cui
ƒ Per il modello ridotto, che recepisce il vincolo β1=0, si
ottiene
MODELLI EMPIRICI
55
REGRESSIONE LINEARE MULTIPLA
ƒ Si definisce la somma dei quadrati della regressione
dovuta a β1 dato che β2 è già nel modello:
ƒ Ora dato che
è indipendente da MSE,
l’ipotesi H0: β1=0 può essere valutata dalla statistica
ƒ Tale statistica test è chiamata test F parziale e misura
l’effetto di un vincolo imposto su di un sotto insieme di
variabili indipendenti.
ƒ Usualmente il vincolo è β1=0, ma con lo stesso
approccio si potrebbe considerare anche il caso più
generale espresso da un sistema di equazioni lineari del
tipo Rβ=r.
MODELLI EMPIRICI
56
28
REGRESSIONE LINEARE MULTIPLA
ƒ Consideriamo l’esempio della viscosità e supponiamo di
volere studiare il contributo della variabile X2 nel
modello.
ƒ Le ipotesi da valutare sono H0: β2=0 vs. H1: β2=0.
ƒ Ciò richiederà la somma dei quadrati aggiuntiva dovuta
a β2
ƒ Il modello ridotto è
ƒ Per valutare
la statistica test adeguata è
ƒ Questa procedura equivale a condurre il test t su β2.
MODELLI EMPIRICI
57
REGRESSIONE LINEARE MULTIPLA
ƒ Sotto assunzione di normalità degli errori casuali è
possibile costruire degli intervalli di confidenza per i
coefficienti di regressione e per altre quantità
d’interesse nel modello di regressione.
ƒ Un intervallo di confidenza al (1−α)% per il coefficiente
di regressione βj è dato da
dove Cjj è l’elemento in posizione jj della matrice
ƒ Un intervallo di confidenza per la risposta media µy|x0 in
corrispondenza del punto x0=(x01,x02,…,x0k)
dove
.
MODELLI EMPIRICI
58
29
REGRESSIONE LINEARE MULTIPLA
ƒ Infine, un intervallo di confidenza utile per prevedere
future osservazioni del valore puntuale della risposta y0
in corrispondenza del punto x0=(x01,x02,…,x0k)
dove
.
ƒ Quando si prevedono nuove osservazioni occorre molta
cautela nell’eventuale estrapolazione al di fuori della
regione contenente le osservazioni originarie.
MODELLI EMPIRICI
59
REGRESSIONE LINEARE MULTIPLA
ƒ Uno degli aspetti più delicati della regressione lineare
multipla è la selezione delle variabili esplicative al
fine di ottenere un modello finale soddisfacente.
ƒ Infatti, la stima di un modello iniziale che include tutti i k
possibili regressori produrrà quasi certamente un
risultato in cui alcuni regressori avranno un p-value
significativo mentre altri non l’avranno. Si pone quindi la
questione della corretta/opportuna selezione del
sottoinsieme dei regressori.
ƒ In questo ambito non esiste un algoritmo ottimale che
consente in tutte le condizioni di ottenere un modello
finale “ottimo”.
ƒ Ci si può affidare ad algoritmi alternativi, tenendo
presente che questi non necessariamente produrranno
lo stesso risultato.
MODELLI EMPIRICI
60
30
REGRESSIONE LINEARE MULTIPLA
ƒ Gli algoritmi più utilizzati per la selezione delle variabili
esplicative nel modello di regressione lineare multipla si
dividono in due categorie: 1. step-wise e 2. best sub-set.
ƒ Gli algoritmi step-wise funzionano a passi, secondo una
delle tre modalità:
o Forward stepwise selection: inizia con il modello vuoto
e aggiunge regressori in modo sequenziale;
o Backward stepwise selection: inizia con il modello
completo e toglie regressori in modo sequenziale;
o Stepwise selection: combinazione di selezione forward
e backward.
ƒ La procedura best sub-set si basa sull’idea di stimare tutte
le possibili equazioni di regressione utilizzando tutte le
possibili combinazioni di variabili indipendenti, quindi si
sceglie il modello in termini di migliore adattamento ai dati
(R2 elevato, MSE piccolo e indice Cp di Mallow appropriato).
MODELLI EMPIRICI
61
REGRESSIONE LINEARE MULTIPLA
ƒ Le analisi diagnostiche del modello di regressione sono
delle tecniche che riguardano l’adeguatezza del
modello e che si applicano usualmente a quello che si
considera il modello stimato finale.
ƒ L’analisi grafica dei residui fa parte di queste procedure.
Alcuni autori suggeriscono di lavoro non sui residui
ordinari quanto su una loro forma modificata,
suggerendo che questi forniscono più informazioni.
ƒ Uno tipo di questi residui è detto residui standardizzati
di = ei σˆ , i = 1,..., n
caratterizzati da media zero e varianza unitaria che
tornano utili nella ricerca degli outlier o valori anomali.
ƒ Il processo di standardizzazione trasforma la scala dei
residui, in quanto li divide per la loro deviazione media
approssimata.
MODELLI EMPIRICI
62
31
REGRESSIONE LINEARE MULTIPLA
ƒ La varianza dell’i-esimo residuo è
,
−1
dove la matrice H=X(X′X) X′
trasforma il vettore dei valori
osservati in un vettore di valori
previsti.
ƒ In generale, residui prossimi al centro dello spazio di X
hanno varianza maggiore di quelli relativi a posizioni più
distanti. Tenendo conto della non uniformità della
varianza quando si trasforma la scala dei residui,
conviene considerare i residui studentizzati:
ƒ In molte situazioni la varianza dei residui si stabilizza,
particolarmente per grandi insiemi di dati ed in questi
casi le differenze tra i residui standardizzati e
studentizzati saranno piccole.
MODELLI EMPIRICI
63
REGRESSIONE LINEARE MULTIPLA
ƒ Si riportano sedici osservazioni
della viscosità di un polimero (y)
e di due variabili di processotemperatura di reazione (x1) e
portata del catalizzatore (x2),
a cui si vuole adattare un
modello di regressione multipla:
ƒ Impostate le matrici X ed y, si trovano le matrici X’X ed
il vettore X’y e la stima ai minimi quadrati di
MODELLI EMPIRICI
64
32
REGRESSIONE LINEARE MULTIPLA
La tabella sottostante riporta alcuni output ottenuti con
Minitab per accostamento del modello di regressione per
l’esempio della viscosità.
The regression equation is
Viscosity = 1566 + 7.62 Temp (x1) + 8.58 Feed rat (x2)
Predictor
Constant
Temp (x1)
Feed rat (x2)
S = 16.3586
Coef
1566.08
7.6213
8.585
SE Coef
61.59
0.6184
2.439
R-Sq = 92.7%
T
25.43
12.32
3.52
P
0.000
0.000
0.004
R-Sq(adj) = 91.6%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
2
13
15
SS
44157
3479
47636
MS
22079
268
F
82.50
P
0.000
65
MODELLI EMPIRICI
REGRESSIONE LINEARE MULTIPLA
Il grafico 3D sottostante riporta i valori stimati dal modello di
regressione (FITS) ovvero il piano di risposta che stima la
viscosità in funzione delle combinazioni di temperatura di
reazione (x1) e portata del catalizzatore (x2).
Surface Plot of FITS vs Feed rat (x2); Temp (x1)
2400
FITS
2350
2300
2250
100
12
90
10
Feed rat (x2)
8
80
MODELLI EMPIRICI
Temp (x1)
66
33
REGRESSIONE LINEARE MULTIPLA
Valori previsti, residui ed altri strumenti diagnostici.
67
MODELLI EMPIRICI
REGRESSIONE LINEARE MULTIPLA
I grafici sulla diagnostica dei residui evidenziano delle
problematiche in merito all’assunzione di normalità e di
omoschedasticità degli errori (c’è una tendenza della
varianza della viscosità osservata ad aumentare con valori
crescenti di viscosità).
Residual Plots for Viscosity
Normal Probability Plot of the Residuals
Residuals Versus the Fitted Values
99
20
Residual
Percent
90
50
10
1
-20
0
Residual
20
40
2250
Histogram of the Residuals
2300
2350
Fitted Value
2400
Residuals Versus the Order of the Data
20
3.6
Residual
Frequency
0
-10
-20
-40
4.8
2.4
1.2
0.0
10
10
0
-10
-20
-24
-12
0
12
Residual
24
MODELLI EMPIRICI
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
Observation Order
68
34
REGRESSIONE LINEARE MULTIPLA
I grafici dei residui rispetto a x1 (temperatura) e x2 (portata
del catalizzatore) suggeriscono inoltre che la variabilità
della viscosità tende ad aumentare al crescere della
temperatura.
Residuals Versus Temp (x1)
(response is Viscosity)
30
10
Residuals Versus Feed rat (x2)
(response is Viscosity)
0
30
-10
20
-20
80
85
90
Temp (x1)
95
100
Residual
Residual
20
10
0
-10
-20
8
MODELLI EMPIRICI
9
10
11
Feed rat (x2)
12
13
69
REGRESSIONE LINEARE MULTIPLA
Consideriamo due esempi di applicazione della
regressione lineare multipla a dati provenienti da uno
studio sperimentale.
1. In uno studio sulle proprietà meccaniche di alcune
miscele bituminose, si vuole stabilire se il modulo di
rigidezza è legato al tipo di scheletro (SCHEL: A,B),
e alle percentuali di cemento (CEM: 1,2,3) e di
bitume (BIT: 2,3,4).
2. In uno studio sulle proprietà di alcuni calcestruzzi
(Tipo Calc: normale, con ritardante, con fluidificante)
si sono misurati valori di resistenza (lb/in^2)
considerando anche la percentuale di acqua (%
Acqua: 1, 2, 3%) e la percentuale di cemento (%
Cem: 3, 4, 5%).
MODELLI EMPIRICI
70
35
REGRESSIONE LINEARE MULTIPLA
ESEMPIO 1: Per la miscela con scheletro B è stata
adattata ai dati sperimentali una opportuna superficie di
risposta.
Surface Plot of Sm (MPa) vs BIT; CEM
Estimated
Term
Constant
CEM
BIT
CEM^2
BIT^2
CEM*BIT
Regression Coeff.
Coef SE Coef
5584.40
130.49
324.95
71.47
656.37
71.47
-6.63
123.79
-500.99
123.79
-200.53
87.54
S = 553.6
R-Sq = 60.1%
for Sm(MPa)
T
P
42.796 0.000
4.547 0.000
9.184 0.000
-0.054 0.957
-4.047 0.000
-2.291 0.024
6000
Sm (MPa)
CEM
Residual
50
10
1
Contour Plot of Sm (MPa) vs BIT; CEM
4.0
0
Sm (MPa)
< 4000
- 4500
- 5000
- 5500
- 6000
> 6000
4000
4500
5000
5500
3.5
-1000
-2000
-2000
-1000
0
Residual
1000
2000
4000
Histogram of the Residuals
4500
5000
Fitted Value
5500
6000
1000
Residual
15
10
2.5
0
-1000
5
2.0
1.0
-2000
-2000 -1500 -1000
-500
0
500
1000
3.0
Residuals Versus the Order of the Dat
20
Frequency
BIT
2
3
R-Sq(adj) = 57.7%
BIT
Percent
90
0
2
1000
99
0.1
3
1
Residuals Versus the Fitted Values
99.9
4
4000
Residual Plots for Sm (MPa)
Normal Probability Plot of the Residuals
5000
1
10
20
Residual
30 40 50 60 70
Observation Order
80
90
1.5
2.0
2.5
3.0
CEM
71
MODELLI EMPIRICI
REGRESSIONE LINEARE MULTIPLA
ESEMPIO 2: per il calcestruzzo di tipo normale è stata
adattata ai dati sperimentali una opportuna superficie di
risposta.
Estimated Regression Coefficients for Rc [lb/in^2]
T
15.825
-4.313
-2.937
3.279
P
0.000
0.001
0.011
0.005
R-Sq(adj) = 64.6%
Analysis of Variance for Rc [lb/in^2]
Source
DF Adj SS Adj MS
F
Regression
3 493244 164415 11.34
Residual Error 14 203017
14501
Total
17 696261
Residual Plots for Rc [lb/in^2]
Normal Probability Plot of the Residuals
P
0.000
Residuals Versus the Fitted Values
99
200
90
Residual
R-Sq = 70.8%
SE Coef
255.45
34.76
243.34
60.21
50
1
-200
-100
0
Residual
100
2800
3000
Fitted Value
3200
Residuals Versus the Order of the Data
4
Frequency
0
-200
2600
200
Histogram of the Residuals
MODELLI EMPIRICI
100
-100
10
200
3
Residual
S = 120.4
Coef
4042.5
-149.9
-714.6
197.4
Percent
Term
Constant
% Cem
% Acqua
% Acqua^2
2
100
0
1
-100
0
-200
-200
-100
0
Residual
100
200
2
4
6
8
10
12 14
Observation Order
16
18
72
36
REGRESSIONE LINEARE MULTIPLA
ESEMPIO 2: per il calcestruzzo di tipo normale è stata
adattata ai dati sperimentali una opportuna superficie di
risposta.
Surface Plot of Rc [lb/in^2] vs % Acqua; % Cem
3200
3000
Contour Plot of Rc [lb/in^2] vs % Acqua; % Cem
2800
3.0
Rc [lb/in^2]
< 2700
- 2800
- 2900
- 3000
- 3100
- 3200
> 3200
3
2600
3
2
4
% Cem
5
2700
2800
2900
3000
3100
% Acqua
2.5
1
% Acqua
Rc
2.0
1.5
1.0
3.0
3.5
4.0
4.5
5.0
% Cem
MODELLI EMPIRICI
73
TRASFORMAZIONE DEI DATI NELLA REGRESSIONE
ƒ Quando si considera l’applicazione di un modello
lineare, se l’assunto della linearità viene a cadere
anche approssimativamente, a volte è possibile
trasformare nel modello di regressione sia le variabili
indipendenti sia quella dipendente al fine di migliorarne
la linearità.
ƒ Un'altra assunzione della regressione lineare è che la
variabile dipendente dovrebbe variare almeno
approssimativamente secondo una legge normale
intorno al suo valore atteso, con la stessa varianza per
ogni possibile valore atteso (questa proprietà è nota
come omoschedasticità).
ƒ Sebbene la normalità non sia necessaria per ottenere
le stime appropriate ai minimi quadrati dei parametri di
regressione (teorema di Gauss-Markov) ...
MODELLI EMPIRICI
74
37
TRASFORMAZIONE DEI DATI NELLA REGRESSIONE
ƒ … intervalli di confidenza e test di ipotesi avranno le
proprietà statistiche desiderate solo se la media
condizionata rispetto alle variabili esplicative della
variabile dipendente sarà almeno approssimativamente
normale e con varianza costante.
ƒ Le trasformazioni logaritmo e radice quadrata sono
comunemente utilizzate per i dati positivi, e la
trasformazione inversa (reciproco) può essere utilizzato
per dati non-zero.
ƒ La trasformazione di potenza è una famiglia di
trasformazioni parametrizzate da un non negativo
valore λ che include il logaritmo, radice quadrata, e il
reciproco come casi particolari.
MODELLI EMPIRICI
75
TRASFORMAZIONE DEI DATI NELLA REGRESSIONE
ƒ Per approcciare la questione della trasformazione dei
dati in modo sistematico, è possibile utilizzare tecniche
di stima statistica per stimare il parametro λ della
trasformazione di potenza, in modo da identificare la
trasformazione che è approssimativamente la più
appropriata ad un dato contesto. Dal momento che la
famiglia delle trasformazioni di potenza include anche
la trasformazione identica, questo approccio può
anche indicare se sarebbe preferibile analizzare i dati
senza
alcuna
trasformazione.
Nell'analisi
di
regressione, questo approccio è conosciuto come la
tecnica di Box-Cox.
MODELLI EMPIRICI
76
38
MODELLI NON LINEARI
ƒ La regressione non lineare è una forma di regressione
in cui i dati osservati sono modellati da una funzione
che è una combinazione lineare dei parametri del
modello e dipende da una o più variabili indipendenti. I
parametri vengono stimati con algoritmi numerici basati
su approssimazioni iterative.
ƒ A volte i modelli non lineari possono essere linearizzati
mediante trasformazioni opportune. Consideriamo ad
esempio il modello esponenziale (ignorando l’errore):
Yi=β0eβ1Xi. Se applichiamo la trasformazione logaritmica
ad entrambi i membri otteniamo
lnYi = lnβ0+β1Xi
il che suggerisce di stimare i parametri ignoti attraverso
una regressione lineare di lnY su X.
MODELLI EMPIRICI
77
MODELLI NON LINEARI
ƒ Il processo di stima per un modello non lineare, ma
linearizzabile non richiede alcune ottimizzazione iterata.
Tuttavia, l'utilizzo di una trasformazione lineare richiede
cautela.
ƒ Un utile modello
genuinamente non lineare
è il cosiddetto modello
logistico a due o tre
parametri:
Yi =
γ
+ εi
1 + α e− β X
i
MODELLI EMPIRICI
78
39