10. Regressione lineare semplice

Statistica per le ricerche di
mercato
A.A. 2014/15
10. La regressione lineare
semplice
•
Il termine regressione fu introdotto verso la metà dell‘Ottocento
dall’inglese Sir Francis Galton (1822-1911) che, nei suoi studi di
eugenetica, voleva verificare se la statura dei figli potesse essere
prevista sulla base di quella dei genitori, esprimendo questa
corrispondenza in una legge matematica.
•
Galton osservò che figli alti provenivano da genitori tendenzialmente
alti così come figli bassi provenivano da genitore tendenzialmente
bassi. Tuttavia, a genitori eccezionalmente alti non corrispondevano
figli alti in modo così estremo, e a genitori eccezionalmente bassi non
corrispondevano figli altrettanto bassi.
•
Poiché Galton notò una tendenza delle altezze dei figli a spostarsi nella
generazione successiva verso l’altezza media, scrisse che ciò
costituiva una “regression towards mediocrity” e la relazione statistica
stimata dalle osservazioni fu chiamata regressione.
2
Se la correlazione misura l’intensità e il
segno del legame lineare tra due
variabili, l’obiettivo delle tecniche di
regressione è, invece, quello di
individuare il tipo di relazione funzionale
che esiste tra una variabile dipendente
(o spiegata o endogena) e una o più
variabili indipendenti (o esplicative o
esogene).
3
Affermare che il fenomeno Y “dipende” dal fenomeno X secondo la
relazione matematica
Y=f(X)
semplifica ovviamente la dinamica reale dove intervengono, con differenti
pesi, una miriade di interrelazioni, tra le variabili X e Y ed il resto del
mondo dei fenomeni non esplicitati nella formula proposta.
E’ possibile allora correggere il modello scrivendo:
Y=f(X)+u
Dove u costituisce la componente stocastica del modello ed è
rappresentata da una variabile casuale che compendia l’insieme di
circostanze che impediscono a tale relazione di essere un legame teorico
di tipo matematico.
4
Perché si introduce la componente di errore nel modello?
Negli studi empirici la relazione tra due variabili non è mai una relazione funzionale
esatta del tipo Y=f(X)
I comportamenti economici e sociali non sono descritti adeguatamente da relazioni che
fanno corrispondere ad un dato valore di X un unico valore di Y
Esempi:
Nello studio della relazione di dipendenza del consumo familiare (Y) dal reddito
familiare (X), è ragionevole ipotizzare che famiglie con lo stesso reddito abbiano
comportamenti di consumo differenti;
La dimensione di un punto vendita non può essere la sola variabile esplicativa del
fatturato del punto vendita stesso;
La decisione di un consumatore di acquistare il prodotto di una determinata azienda
non è influenzata esclusivamente dal numero di spot giornalieri trasmetti in
televisione.
Il termine di errore u tiene conto di ogni altro fattore (non osservato o non
osservabile) che, oltre alla variabile esplicativa, può influenzare la risposta Y.
Esempio: Il consumo delle famiglie può dipendere, oltre che dal reddito disponibile, anche dal
numero di componenti, dalla loro età e dal livello di istruzione
5
Perché si introduce la componente di errore nel modello?
Se la relazione lineare valesse con esattezza - relazione deterministica o
matematica - il metodo di stima sarebbe semplice: basterebbe conoscere le
coordinate di due punti campionari per tracciare la retta che li unisce e produrre
la relativa equazione.
Tuttavia imbattersi in relazioni funzionali esatte - sulla base dell’osservazione di
dati empirici - risulta estremamente improbabile.
Al contrario è piuttosto frequente osservare delle discrepanze più o meno
accentuate tra i valori osservati di Y e quelli che emergono da una relazione
funzionale esatta con X.
Il termine di errore u serve proprio a rappresentare formalmente tali
discrepanze e a distinguere una relazione statistica (o stocastica) da una
deterministica.
6
La regressione
semplice: se la variabile indipendente è solo una;
multipla: se le variabili indipendenti sono due o
più;
lineare: se la relazione che esprime la variabile
dipendente è di tipo lineare;
non lineare: se tale relazione non è lineare.
7
Principali caratteristiche delle analisi di regressione
 L’obiettivo
principale è quello di investigare su eventuali
relazioni empiriche tra variabili allo scopo di analizzare le
cause (determinanti) che possono spiegare un determinato
fenomeno oggetto di studio.
 È caratterizzata dalla semplicità intrinseca dei modelli
utilizzati, basati essenzialmente su funzioni lineari.
 Sebbene non tutte le relazioni funzionali siano esprimibili
attraverso modelli lineari, una prima analisi fondata su forme
funzionali semplici costituisce comunque un buon punto di
partenza per passare poi ad eventuali modelli più complessi.
8
Principali fasi di un’analisi di regressione lineare
i.
Si ipotizza una relazione funzionale lineare tra una variabile oggetto di
studio (variabile dipendente o risposta) e una o più altre variabili
(variabili indipendenti o esplicative);
ii.
Si stimano i parametri di tale relazione funzionale sulla base dei dati
campionari a disposizione;
iii.
L’analisi è completata con appropriati test statistici sulla significatività dei
parametri e la valutazione della bontà dell’adattamento del modello ai
dati;
iv.
Ulteriori analisi di conferma servono ad assicurarsi che la relazione
ipotizzata sia effettivamente lineare e che le assunzioni su cui si basa la
stima del modello siano state rispettate
9
Semplice
Regressione
Lineare
Multipla
Consideriamo dapprima il caso più semplice:
esaminiamo il legame tra due sole variabili X e Y.
10
Partiamo da un esempio… [rif. Bracalente et al.2009]
Per decidere le dimensioni di nuovo punto vendita, una catena di supermercati ha effettuato
un’indagine per studiare la relazione tra dimensione del negozio e le vendite settimanali. A tale
proposito viene estratto un campione di 10 supermercati:
IPOTESI DI RICERCA: Si ipotizza che a maggiori spazi espositivi tendano a corrispondere valori più elevati
delle vendite
11
Per mettere in evidenza la relazione lineare esistente tra due caratteri è possibile rappresentare
l’insieme delle coppie di punti su un asse cartesiano (in cui sull’asse delle ascisse viene riportata,
come di consueto, la variabile X e sull’asse delle ordinate la variabile Y).
Il grafico derivante prende il nome di grafico di dispersione (o scatter plot).
Dalla forma che assume la nuvola di punti è possibile “stabilire” il tipo di correlazione lineare
esistente tra le due variabili.
Se tra X e Y non c’è alcun legame allora X e Y sono indipendenti statisticamente
Tra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due
caratteri non migliora la “previsione” della modalità dell’altro
Correlazione lineare
XY  1
n
Corr(X, Y)   XY

 XY 
X Y
 x
i
 x y i  y 
 1  XY  0 discordanza
i1
n
 x
i 1
2
i
 x
n
 y
2
i
perfetta discordanza
 y
XY  0
assenza di legame lineare
i 1
0  XY  1
XY  1
concordanza
concordanza perfetta
12
Cov(X,Y)>0
Cov(X,Y)=0
Cov(X,Y)<0
La relazione tra X e Y non è di tipo lineare
13
...torniamo all’esempio
Dal diagramma di dispersione (scatter plot) si può avere conferma della linearità e della direzione
della relazione ipotizzata.
V
o
l
u
m
e
350
La relazione è evidenziata
anche dal valore del
coefficiente di
correlazione lineare
r=0.893
300
250
200
v 150
e
100
n
d 50
i
0
t
0,0
e
50,0
100,0
150,0
200,0
Spazio espositivo
Viene formulato un modello lineare dove:
Volume delle vendite  variabile dipendente (variabile risposta)
Spazio espositivo  variabile esplicativa
14
IL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Il modello di regressione lineare mette in relazione una
variabile X con un’altra variabile, Y. Nella relazione
lineare tra Y e X la pendenza della retta è una
caratteristica incognita della distribuzione congiunta di
X e Y nella popolazione.
ll compito della statistica è quello di stimare l’effetto su
Y di una variazione unitaria di X, ossia di stimare la
pendenza della retta, utilizzando un campione di dati
su queste due variabili.
15
Nel modello di regressione lineare semplice si assumono le seguenti ipotesi (ipotesi
classiche) sul termine di errore e sulla variabile esplicativa:
1) E(u )=0
i=1…n
i
2
2) V(u )=  per ogni i=1…n : ipotesi di varianza
costante o omoschedasticità
i
3) Cov(uiuj)=0 i,j =1…n i≠j :I termini di errore (relativi
ad unità statistiche differenti) hanno correlazione
nulla, sono cioè incorrelati. Questa ipotesi esclude la
presenza di qualsiasi forma di autocorrelazione
4) La variabile X è una variabile deterministica (non
stocastica): i dati relativi alla variabile indipendente X
sono “noti senza errore”, cioè non soggetti a
deviazione di natura accidentale.
16
IL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Le ipotesi classiche del modello di regressione hanno delle implicazioni sulla distribuzione della
variabile dipendente. L’ipotesi che la variabile esplicativa sia deterministica implica che la variabile
dipendente Y sia costituita dalla somma di una componente deterministica e di una variabile
casuale. Più precisamente:
Su un campione di n unità statistiche sono stati osservati i valori relativi a due distinte
variabili:
Y variabile dipendente o variabile risposta
X variabile indipendente o variabile esplicativa
Sulla base dei dati osservati e di alcune assunzioni può essere formulata la seguente
relazione lineare:
Yi     X i  ui
componente
deterministica
i = 1, 2,…, n
variabile casuale
dove, per ogni osservazione i nel campione:
a e β sono costanti dette parametri del modello di regressione
a è l’intercetta della retta di regressione nella popolazione
β è il coefficiente angolare (pendenza) della retta di regressione nella popolazione
ui è una variabile casuale e rappresenta il termine di errore
Yi     X i
È la retta di regressione della popolazione. Esprime la
relazione esistente in media tra Y e X nella popolazione
17
La stima dei parametri
La pendenza e l’intercetta della retta che mette in
relazione X e Y possono essere stimati utilizzando un
metodo chiamato Minimi Quadrati Ordinari (OLS,
acronimo dall’inglese Ordinary Least Squares)
Stimare a e b
significa stimare l’equazione di una
retta che interpola al meglio i dati. In altri termini
l’obiettivo è individuare una retta che renda minima la
distanza dai punti e risulti quindi il più possibile vicina
ai dati.
18
La stima dei parametri
Lo stimatore dei minimi quadrati ordinari OLS
Lo stimatore dei minimi quadrati ordinari “sceglie” i coefficienti di regressione
in modo che la retta di regressione stimata sia il più possibile vicina ai
dati osservati, dove la vicinanza è misurata dalla somma dei quadrati
degli errori che si commettono nel predire Y data X.
Siano a e b stimatori di a e b. La retta di regressione basata su questi
a  bX i e quindi il valore di Yi predetto usando
stimatori è
questa retta è Y i  a  bX i . Perciò l’errore che si commette nel predire
la i-esima osservazione è
ei Yi  abXi  Yi abXi
La somma dei quadrati degli errori di predizione per tutte le n osservazioni è
n
n
2
i
 e   Y  a  bX 
i 1
i
2
i
i 1
Gli stimatori OLS minimizzano la somma dei quadrati degli errori e sono indicati con a e
b
19
Per minimizzare la somma dei quadrati degli errori si calcolo innanzitutto le derivate parziali
n
 n
2
Yi  a  bX i   2 Yi  a  bX i 

a i1
i 1
n
n

2
Y

a

bX
 2 Yi  a  bX i  X i



i
i
b i 1
i 1
Gli stimatori OLS sono i valori di
a e b per i quali le derivate sono uguali a zero.
 n
  Yi  a  bX i   0
i 1
 n
  Y  a  bX  X  0
i
i
i

i 1
Equazioni normali
Quindi si ha:
n
 n
  Yi  na   bX i
i 1
i 1
 n
n
n
2
 YX 
X
a

X


i i
i
i b

i 1
i 1
i 1
n
 n
  Yi  na  b X i
i 1
i 1
 n
n
n
 Y X  a X b X2


i i
i
i

i 1
i 1
i 1
20
Risolvendo il sistema si ricava:
n
Y
n
i
i 1
n
n
n
 X Y X
i
b
i
i 1
n
i 1
n
2
n
2
X
 i
 Xi
i 1
i 1
n
n
Y
X
i
i 1
i
i 1
n
n
Y X  X
i
a
i 1


n X i2    X i 
 i 1 
i 1
i
i 1
n
i 1

X
n
n
n Yi X i   X i  Yi
i
i 1
n
n
i
i 1
i 1
n
i
i 1
n
n
2
i
n
i
i 1
i 1
n
i
i 1
i i
i 1
 n

2
n X i    X i 
 i1 
i 1
2
n
X X
i
i 1
n
Y  X   X  X Y

X
n
n
2
i
2
i
i 1
21
Attraverso semplici passaggi algebrici e ricordando le definizioni di varianza e
covarianza si ottiene la seguente espressione per b1
N
 X
b
i
N

 X Yi  Y
i 1
N
 X
i 1
i
X

2
  X

i

 X Yi  Y
i 1
N
 X
i
X


2
n
n
 XY
 2
X
i 1
Dividendo la prima equazione normale per n si ottiene la seguente espressione per b1
1 n
1 n
a   Yi  b  X i  Y  b X
n i 1
n i 1
I valori predetti (previsti) Y i e i residui sono espressi da:
Y i  a  bX i
eˆ i  y i  yˆ i
22
Rappresentazione grafica del
residuo
Y
xi,yi 
yi
Yˆ  a  b x
ê i  y i  ŷ i
ŷ i
xi
X
Ogni residuo è lo scostamento verticale
tra il valore osservato e il
corrispondente valore sulla retta
23
Rappresentazione grafica del
metodo dei minimi quadrati
Y
Yˆ  a  b x
X
La retta si individua minimizzando la somma dei quadrati di
tutti gli scostamenti verticali
24
Le assunzioni dei minimi quadrati
• Quali sono, precisamente, le proprietà della distribuzione campionaria
dello stimatore OLS? Quando lo stimatore sarà non distorto? Qual è la
sua varianza?
• Per rispondere a queste domande dobbiamo fare alcune assunzioni
sulla relazione tra Y e X e su come sono ottenute (lo schema di
campionamento)
• Queste assunzioni – sono tre – sono note come assunzioni dei minimi
quadrati.
25
LE ASSUNZIONI DEI MINIMI QUADRATI
Assunzione 1
La distribuzione condizionata di ei data Xi ha media nulla
E  ui X i   0
Questa assunzione è una formalizzazione matematica riguardante gli “altri
fattori” contenuti in ei ed afferma che questi fattori non sono legati a Xi
nel senso che, dato un valore di Xi, la media della distribuzione di questi
altri fattori è pari a zero.
Questa assunzione viene di solito interpretata come quella che stabilisce
che le variabili X sono esogene. Essa implica inoltre che: E Yi X i    0  1 X i
E Yi | X  x 1 
y
Distribuzione dei
valori di Y quando
X=x1
EYi | X  xi   0  1xi
x1
x2
x3
x
26
LE ASSUNZIONI DEI MINIMI QUADRATI
L’assunzione circa la media condizionata implica che Xi e ui siano
incorrelati, ovvero
corr  X i , ui   0
Poiché la correlazione è una misura di associazione lineare non
vale invece il contrario. Anche se Xi e ui fossero incorrelati la
media condizionata di ui data Xi potrebbe essere non nulla.
Spesso si discute l’assunzione circa la media condizionata nei
termini di una possibile correlazione tra Xi e il termine di errore.
Se Xi e ui sono correlati allora l’assunzione circa la media
condizionata è violata.
In molti casi è ragionevole ritenere che il termine d’errore
contenga variabili non osservate collegate a variabili osservate
raccolte in X.
E’ necessaria quindi una certa cautela nell’interpretare i
coefficienti di regressione ottenuti come misure di effetti causali.
27
LE ASSUNZIONI DEI MINIMI QUADRATI
Assunzione 2
(Xi, Yi) sono indipendentemente e identicamente distribuite (i.i.d.). Tale
assunzione è una formalizzazione matematica di come viene estratto il
campione. Se le osservazioni sono estratte con campionamento casuale
semplice da un’ampia popolazione, allora (Xi, Yi) i=1,..,n sono i.i.d. In altre
parole, ogni insieme di (Xi, Yi) rappresenta un’estrazione casuale dalla
distribuzione che caratterizza la popolazione.
L’assunzione di i.i.d. è ragionevole per molti schemi di campionamento
In alcuni casi lo schema di campionamento è non-i.d.d. Ad esempio, nel
caso delle serie temporali quando una stessa unità viene osservata
ripetutamente nel tempo.
Assunzione 3
Gli outlier (ossia osservazioni con valori di Xi o Yi molto lontani) sono
improbabili. Tale assunzioni può essere formulata in termini matematici
affermando che X e Y hanno curtosi finita. L’assunzione di curtosi finita è
plausibile in molte applicazioni che coinvolgono dati economici.
Un modo per scoprire gli outlier è quello di rappresentare graficamente i
dati. Se si decide che un outlier è dovuto, ad esempio, ad un errore di
inserimento dati allora si può correggere l’errore, oppure, nel caso in cui
ciò sia impossibile, si può eliminare l’osservazione dai dati.
28
L’ USO DELLE ASSUNZIONI DEI MINIMI QUADRATI
Le assunzioni dei minimi quadrati sono molto importanti e la loro comprensione è molto
importante per capire quando gli OLS forniscono stime utili dei coefficienti di regressione.
•
Il primo ruolo svolto dalle assunzioni è di tipo matematico: se valgono le assunzioni
precedenti allora, in grandi campioni, gli stimatori OLS hanno distribuzioni campionarie
normali. Grazie alla distribuzione normale, si possono quindi sviluppare metodi per la
verifica di ipotesi e la costruzione di intervalli di confidenza usando gli stimatori OLS.
•
Il secondo ruolo è quello di identificare le circostanze che creano difficoltà per la
regressione OLS.
La prima assunzione è la più importante da considerare nelle applicazioni pratiche
(distorsioni da variabili omesse).
E’ anche importante verificare se valga la seconda assunzione che per dati sezionali (crosssection) risulta plausibile. L’assunzione di indipendenza è inappropriata per le serie
temporali.
La terza assunzione serve a ricordare che gli OLS, come la media campionaria, sono
sensibili agli outlier. Se i dati contengono outlier è importante esaminare bene quelle
osservazioni per essere sicuri che appartengano al campione e non siano solo il risultato di
errori di registrazione.
29
La distribuzione campionaria degli stimatori OLS
Richiami sulla distribuzione campionaria di
Y
Y
è uno stimatore della media ignota di Y nella popolazione,
Y
Poiché Y è calcolata utilizzando un campione estratto casualmente, Y è una variabile
casuale che assume valori diversi da un campione a un altro.
Poiché Y è casuale, ha una distribuzione di probabilità. La distribuzione di Y è detta
distribuzione campionaria di Y , poiché è la distribuzione di probabilità associata ai
possibili valori di Y che possono essere calcolati per diversi campioni possibili
Y1 ,..., Yn .
La probabilità di questi diversi valori è riassunta nella sua distribuzione campionaria.
Sebbene la distribuzione campionaria di Y possa essere complicata quando la
numerosità campionaria è piccola, si può dire al suo proposito qualcosa che vale per
ogni n. In particolare la media della distribuzione campionaria è Y ovvero E Y   Y e quindi
Y è uno stimatore corretto (non distorto) di Y .
Se n è grande, si può dire di più circa la distribuzione campionaria. In particolare, il
teorema del limite centrale afferma che questa distribuzione è approssimativamente 30
normale.
La distribuzione campionaria degli stimatori OLS
La logica della distribuzione campionaria di Y si estende agli stimatori
OLS, a e b, dell’intercetta ignota a e della pendenza β della retta di
regressione.
Poiché gli stimatori OLS sono calcolati utilizzando un campione casuale, a e
b, sono variabili casuali che assumono valori diversi da un campione
all’altro; la probabilità di questi valori diversi è riassunta nella loro
distribuzione campionaria.
Sebbene le distribuzioni campionarie di a e b, possano essere complesse
quando la numerosità campionaria è piccola si può comunque dire al suo
proposito qualcosa che vale per ogni n. In particolare le distribuzioni
campionarie di a e b, hanno medie (valore atteso) pari ad a e β. In altre
parole sotto le assunzioni dei minimi quadrati:
E  a  ;
E  b  
Se il campione è sufficientemente numeroso (n>100), per il teorema del limite centrale
la distribuzione campionaria di a e b è ben approssimata dalla distribuzione normale.
31
La distribuzione campionaria degli stimatori OLS
Per derivare la distribuzione in grandi campioni sono necessarie le seguenti
assunzioni:
Assunzioni dei minimi quadrati (già introdotte):
E  ui X i   0
1.
2. (Xi, Yi) i=1,…,n sono indipendentemente e identicamente distribuite
(i.i.d.)
3. Gli outlier sono rari
Se valgono queste condizioni:
2

 

b N , 2

2
n

i 1
xi  x
2

32
La distribuzione campionaria degli stimatori OLS
Per derivare la distribuzione in grandi campioni sono necessarie le seguenti assunzioni:
Assunzioni dei minimi quadrati (già introdotte):
1. E  ui X i   0
2. (Xi, Yi) i=1,…,n sono indipendentemente e identicamente distribuite
(i.i.d.)
3. Gli outlier sono rari
Se valgono queste condizioni:

a N ,2

1
2
2
     
n





x

2
xi  x 

2
n

i 1
La varianza di entrambi gli stimatori dipende
dalla devianza di X. Quindi, laddove è possibile
scegliere i valori della variabile esplicativa, è
opportuno farlo in modo tale che la devianza sia
più grande possibile.

33
Proprietà dello stimatore OLS
Sotto le assunzioni dei minimi quadrati (1-3) e le ipotesi classiche 1-4, gli
stimatore OLS godono delle seguenti proprietà:
Proprietà 1) a e b sono corretti (non distorti unbiased) cioè E(a)=
a e E(b)= b
Proprietà 2) nella classe degli stimatori corretti che sono funzioni
lineari di Yi gli stimatori dei minimi quadrati a e b sono i più
efficienti (Teorema Gauss-Markov)


2 1
var(a)    
n




x2
;
n
( x i  x )2 


i 1
var(b) 
2
n
 (x
i
 x )2
i 1
STIMATORE BLUE (Best Linear Unbiased Estimator): in virtù di tale proprietà
non è possibile che esista un’altra coppia di stimatori per a e β che siano lineari e
non distorti e abbiano varianza minore degli stimatori dei minimi quadrati.
34
Stime e stimatori nella regressione
Parametro
Stima
Stimatore
Valore
atteso


a  Y  ˆ1 X
b   xy  x2
a

Varianza


2 1
  
n




x

n
(xi  x)2 


i1
2
 u2
b

n
(x
i
 x )2
i 1
Il teorema di Gauss- Markov fornisce una giustificazione teorica all’uso
degli OLS. Tuttavia, le sue condizioni potrebbero non valere in pratica. Se il
termine di errore è eteroschedastico, come spesso accade nelle
applicazioni economiche, allora lo stimatore OLS non è più BLUE.
35
Stima della varianza degli errori nel modello di regressione 2
Per stimare la varianza di a e b occorre conoscere la varianza degli
errori  2  V (u i ) . Poiché tale quantità è ignota, in un modello di
regressione in aggiunta ad a e β è necessario stimare un ulteriore
parametro: la varianza degli errori 2
Poiché gli errori ui non sono osservabili (dal momento che i parametri
a e β non sono noti), occorre fare riferimento ad una stima della
varianza degli errori, determinata a partire dai residui eˆ i  yi  yˆ i .
Si dimostra che uno stimatore non distorto di 2 è dato da:
n
s2 

ê
2
i
i 1
n  2
Questo stimatore presenta una correzione per i gradi di libertà, dato
che al denominatore troviamo il numero delle osservazioni meno il
numero dei regressori.
s 
s 2 è l’errore standard di regressione, già introdotto, e
misura la dispersione dei punti osservati intorno alla retta di
regressione.
36
Considerando lo stimatore s2, la varianza stimata di a e
b è quindi espressa da:




s2
x2
2 1
;
V (a)  s   n
V (b)  n
2 
2
n
(
x

x
)
(
x

x
)


i
i




i 1
i 1
La radice quadrata viene di solito chiamata standard
error (o errore standard) di a e b , indicato con se(a) e
se(b) e rappresenta una stima dello scarto quadratico
medio dello stimatore OLS e dunque uno strumento per
misurarne la precisione.
37
MISURE DI BONTA’ DI ADATTAMENTO
•
•
R2 varia tra 0 e 1 e misura la frazione della varianza di Yi che è spiegata da Xi
L’errore standard della regressione misura la distanza tipica di Yi dal suo valore predetto
SCOMPOSIZIONE DELLA DEVIANZA TOTALE DI Yi
2
n

Yi  Y

n

i 1

i 1

2
Yi Y
n
 

e i2
i 1
SQT=Somma Quadrati
Totale
SQR=Somma Quadrati
Regressione (spiegata)
SQE=Somma Quadrati
Errore
TSS= Total Sum of
Squares
ESS=Exolained Sum of
Squares
RSS= Residual Sum of
Squares
In modo equivalente la varianza di Y può essere scomposta nella somma delle varianze
campionarie delle sue componenti ortogonali: la previsione e il residuo
 
V Yi   V Y i  V  ei 
Tale decomposizione sussiste solo se il modello possiede una intercetta. Solo in tal
caso
n
Y  Y
i
i
e
e X
i
i 1
i
0
38
Sotto questa condizione la devianza di Y può essere scomposta in:
2
n
 Y
i
Y
n


i 1
n


i 1

i 1
Y
2
Y
i
Y
Yi Yi Y
n
   Y
i
Y
i 1

2

2
n


 2 Y  Y
i 1
i
 Y
i
Y

La scomposizione precedente è dimostrata perché, il doppio prodotto è nullo.
Infatti:
n
 Y  Y
i 1
i
 Y
i





 Y   ei Y i  Y  b1  ei X i  X 
 b1   ei X i  X  ei   b1  0  0  0
Sostituendo le stime
dei parametri in Y i
Ricordando la prima e la seconda delle equazioni normali
39
SCOMPOSIZIONE DELLA DEVIANZA (VARIANZA) IN UNO SCHEMA DI REGRESSIONE LINEARE
2
n
  yi
 y
i 1

n


i 1

$y  y
i

2
n


e i2
i 1
Y
yi
ei  yi  $y
TSS 
i
 y
ESS 
*

i 1
i
$y  y
i
i
 y

i 1
n
yi  y
y
2
n
$y
i
 y

2
n

RSS 
y
e i2
i 1
xi
X
40
Il coefficiente di determinazione R2
Sulla base di tale scomposizione della varianza di Yi può essere computata
una misura della bontà di adattamento del modello ai dati denominata
coefficiente di determinazione lineare
2
n
R
2
 ŷ

i
 y

i1
2
n
 y
i
 y


SQR
SQT
 1 
SQE
SQT
i1
n
R2 
  1
V Yi
V Yi 
2
 n  1  Y i  Y 
i 1
n
1  n  1  Yi  Y 
i 1
2
n
V  ei 
R2  1
 1
V Yi 
2

1  n  1  Y  Y i
i 1
n

2
1  n  1  Yi  Y 
i 1
R2 può assumere valori compresi nell’intervallo [0,1] ma alcune fonti
di variazioni sono più difficili da spiegare di altre. Il giudizio sul valore
di R2 dipende dai contesti di applicazione
41
L’interpretazione del coefficiente R2 - casi limite
R2 = 1
Il modello si adatta perfettamente ai dati
La variabilità di Y è completamente spiegata dal modello di regressione
tutti i punti corrispondenti alle osservazioni campionarie giacciono
esattamente sulla retta
tutti i residui campionari sono pari a zero e pari a zero è la devianza
residua
 SQT =SQR
0
18
y = 2 + 3x
2
R =1
16
14
-2
0
1
2
3
4
5
6
-4
12
10
-6
8
-8
6
4
-10
2
-12
0
0
1
2
3
4
5
6
y = 2 -3x
R2 = 1
-14
42
L’interpretazione del coefficiente R2 - casi limite
Il modello non si adatta per niente ai dati
R2 = 0
il modello non riesce a spiegare nessuna parte - seppur minima della variabilità di Y
La devianza spiegata è pari a zero; la retta stimata è parallela all’asse
delle ascisse
Tutta la variabilità di Y è nei residui
12.5
5.5
y = 10.8
R2 = 0
12
11.5
5
4.5
11
10.5
4
10
y = 4.6
R2 = 0
3.5
9.5
9
3
0
1
2
3
4
5
6
0
1
2
3
4
5
6
43
…alcuni esempi
25
12
y = 10.6 -0.2x
R2 = 0.0026
20
10
8
15
6
10
4
5
y = 8.8 -0.6x
R2 = 0.18
2
0
0
0
1
2
3
4
5
6
0
30
1
2
3
4
5
3
4
5
6
9
y = 12.3+2.3x
R2 = 0.7472
25
20
y = 1.6+1.2x
R2 = 0.973
8
7
6
15
5
4
10
3
5
2
0
1
0
1
2
3
4
5
6
0
0
1
2
6
44
L’errore standard della regressione (SER, Standard Error of the
Regression)
E’ uno stimatore della deviazione standard dell’errore di regressione ei.
Le unità di misura ei ed yi sono identiche, così il SER è una misura della dispersione
delle osservazioni intorno alla retta di regressione, espressa nell’unità di misura della
variabile dipendente.
2
SER  s
dove
n
n
1
1


2
s 
   ei  e  
  ei2 
n  2 i 1 
 n  2 i1
n
2
e
i
Per cui
SER 
i 1
n2
Attenzione: il denominatore in questo caso è n-2, esso corregge per una piccola distorsione verso il basso dovuta alla stima di due
coefficienti
Il SER misura la “dimensione” media del residuo OLS (l’“errore” medio della retta di regressione OLS)
45
UN’ APPLICAZIONE EMPIRICA
Esempio tratto dal testo Stock J.H. e Watson, M.W. Introduzione all’econometria,
Pearson, 2009
Dati: file “Retribuzioni”
Variabili: Y= retribuzione media oraria (in US dollari); tre variabili
indipendenti X=età, laurea e genere
In questo esempio si studia la relazione tra retribuzione media
oraria (Y) ed età del lavoratore (X)
Sulla base delle variabili contenute nel file “Retribuzioni”:
1. Stimare il modello di regressione lineare che mette in relazione
la retribuzione media oraria Y all’età del lavoratore X
2. Stimare la retribuzione di un lavoratore di 30 anni
3. Valutare la bontà di adattamento del modello stimato
46
UN’ APPLICAZIONE EMPIRICA
Riepilogo statistiche descrittive di Y e X (Utilizzando in Excel, tra gli strumenti di
analisi, “statistiche descrittive”
Retribuzione oraria media
Media
Errore standard
Mediana
Moda
Deviazione standard
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Età
16,771
0,098
14,904
19,231
8,759
76,715
2,656
1,411
58,960
2,098
61,058
133934,402
7986,000
Media
Errore standard
Mediana
Moda
Deviazione standard
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
29,754
0,032
30,000
34,000
2,891
8,359
-1,226
-0,103
9,000
25,000
34,000
237619,000
7986,000
47
UN’ APPLICAZIONE EMPIRICA
Diagramma di dispersione
Retribuzione media oraria
70
60
50
40
30
20
10
0
0
5
10
15
20
25
30
35
40
Età
Il coefficiente di correlazione lineare, XY=0,15 suggerisce l’esistenza di un modesto
legame positivo (In Excel funzione “correlazione”)
48
UN’ APPLICAZIONE EMPIRICA
Utilizzando in Excel, tra gli strumenti di analisi, “regressione” e selezionando come variabile
dipendente la retribuzione media oraria e indipendente l’età si ottiene il seguente output:
OUTPUT RIEPILOGO
Statistica della regressione
R multiplo
0,1492
R al quadrato
0,0223
R al quadrato corretto
0,0221
Errore standard
8,6612
Osservazioni
7986,0000
ANALISI VARIANZA
gdl
Regressione
Residuo
Totale
Intercetta
Età
1,0
7984,0
7985,0
SQ
13631,814
598935,455
612567,269
Coefficienti
Errore standard
3,324
1,002
0,452
0,034
MQ
13631,814
75,017
F
181,716
Significatività F
0,000
Stat t
Valore di significatività Inferiore 95%
3,317
0,001
1,360
13,480
0,000
0,386
Superiore 95%
5,289
0,518
a) La retta stimata è quindi espressa da:
yˆ i  3,324  0,452 xi
Per un incremento unitario dell’età la retribuzione media oraria
aumenta di 0,452 dollari
49
UN’ APPLICAZIONE EMPIRICA
b) La retribuzione di un lavoratore di 30 anni è espressa da:
yˆ i  3,324  0,452  30=16,884
c) La bontà di adattamento del modello è espressa da R2
R2=0,0223 indica un basso grado di adattamento del modello ai dati
osservati. Solo il 2,23% della variabilità totale di Y è spiegata dal
modello
Si ottiene rapportando
2
n
R2 
  yˆ
i
 y

i 1
2
n
 y
i
 y


1 3 .6 3 1 ,8 1 4
5 9 8 ,9 3 5 ,4 5 5
1
 0,0223
6 1 2 .5 6 7 ,2 6 9
6 1 2 .5 6 7 ,2 6 9
i 1
50
Inferenza nel modello di regressione
Sebbene gli stimatori OLS abbiano importanti proprietà sintetizzate dal teorema di Gauss Markov,
le stime che si ottengono sono espressione del particolare campione osservato e, come già visto,
quasi certamente non coincidono con i parametri.
Di conseguenza per verificare se un’ipotesi formulata sul valore del parametro trova sostegno nei
risultati campionari è necessario procedere al test delle ipotesi.
Con un campione di N osservazioni, l’inferenza statistica esatta è possibile solo formulando
esplicitamente ipotesi sulla forma della distribuzione dei termini di errore. Per poter procedere con
le procedure inferenziali è necessario modificare le ipotesi del modello classico ed
aggiungere l’ulteriore ipotesi di normalità degli errori e rafforzare l’ipotesi di
incorrelazione (degli errori) in un’ipotesi di indipedenza:
5)

ui : NID 0,  2

i  1,..., N
che rappresenta un modo compatto per indicare che i termini di errore sono estrazioni casuali da
una distribuzione normale (n.i.d.) di media nulla e varianza 2.
Sotto questa ipotesi (normalità e indipendenza degli errori) anche la yi (per un dato
valore di xi) segue una distribuzione normale:
Y i ~ N (   x i ;  2 )
Talvolta l’ipotesi di distribuzione normale può non essere appropriata. Va comunque osservato che la maggior parte
delle ipotesi (che hanno una rilevanza diverse per la validità dei risultati che seguono) può essere sottoposta a
verifica empirica.
51
Inferenza nel modello di regressione
Sotto le ipotesi 1-4 e 5 lo stimatore OLS, come funzione lineare
dei termine di errore, ha distribuzione di probabilità Normale (per la
proprietà riproduttiva della v.c. normale):



2



b ~ N  ; n

2 
(
x

x
)
  i

 i 1





1
2

x

a ~ N  ; 2   n

n
2 
(
x

x
)

i



i 1



b
n
2
~ N  0;1
2
(
x

x
)
 i
i 1
a


2 1
  
n




x2

n
2 
(
x

x
)

i


i 1
~ N  0;1
standardizzazione
52
Inferenza nel modello di regressione
Poiché nelle formulazioni precedenti la quantità 2
(varianza dei termini di errore) non è nota, utilizziamo
la stima corretta s2
b  1
n
s2
~ tn  2
2
(
x

x
)
 i
Errore
standard di b
i 1
a 

1
s2  
n




x2

n
2 
(
x

x
)

i

i 1

b
~ tn  2
s b 
~ tn  2
a 
~ tn  2
s a 
Errore
standard di a
Distribuzione t di Student con n-2
gradi di libertà
53
Inferenza nel modello di regressione
Intervalli di confidenza dei coefficienti di regressione
Al livello di confidenza 1-α:
β
P  b  t 2;n2  s  b     b  t 2;n2  s  b    1  
a
P  a  t 2;n2  s  a     a  t 2;n2  s  a    1  
Un intervallo di confidenza al 95% per b contiene il vero valore del parametro
con probabilità 95%, ovvero contiene il vero valore del parametro nel 95% di
tutti i possibili campioni estratti casualmente
54
Stima per intervallo.
Esempio Dati consumo-reddito
êResidui
i  yi  ŷi
13,53
-20,66
-18,34
3,98
15,14
17,46
-7,89
-15,57
5,59
6,75
n
ê i2
1878,14
s 

 234,77
n2
8
183,04
427,01
336,42
15,85
229,28
305,01
62,26
242,36
31,29
45,62
1878,14
n

i1
ê
2
ê
 i
2
i1
Errore standard della regressione
s 
234 ,77  15,32
Errore standard di b
s(b) 
234,77
 0,078
39440
Errore standard di a
2
i
 1
7162 
s(a)  234,77 

  55, 45
 10 39440 
55
Stima per intervallo.
Esempio Dati consumo-reddito
Al livello di confidenza
β
1  a  0 ,95
t 0 , 025 ; 8   2 ,31
P0,88  2,31  0,078  b1  0,88  2,31  0,078  0,95
stima puntuale valore t
S(b)
P  0, 71    1, 06   0, 9 5
a
P  233,85  2,31 55,45    233,85  2,31 55,45  0,95
P  -361,73    -105,26  0,95
56
Inferenza nel modello di regressione
Verifica di ipotesi sui coefficienti di regressione
Possiamo essere interessati a verificare:
1)
H0 :   0
H1 :   0
H0 :   0
2)
3)
H1 :   0
H0 :   0
H1 :   0
Gli stessi sistemi di ipotesi si possono specificare per il parametro intercetta a
b  0
t 
~ t n 2
s b 
Statistica test
si respinge l’ipotesi nulla se per un certo livello di significatività
α si verifica, rispettivamente nelle tre tipologie precedenti, che:
1)
t  tn 2; 2
2)
t  tn2;
3)
t  tn 2;
57
Verifica di ipotesi sui coefficienti di regressione
Approccio del p-value
La conclusione di un test può dipendere dalla scelta del livello di
significatività α.
Un’ipotesi nulla rifiutata per α=0,10 potrebbe essere accettata con α=0,01
L’approccio del p-value permette di sganciare l’esito del test dalla scelta di
α.
Il p-value è definito come la probabilità di osservare un valore della
statistica test uguale o più estremo di quello osservato effettivamente sul
campione, dato che H0 è vera.
Il p-value è chiamato anche “livello di significatività osservato”
A differenza di α il p-value non è una quantità fissata a priori
Il p-value misura quanto i dati campionari supportano H0: più piccolo è il pvalue, minore è il supporto a favore di H0 (maggiore è l’evidenza contro H0)
Si rifiuta H0 se p-value < α
Si accetta H0 se p-value > α
58
Verifica di ipotesi sui coefficienti di regressione
Test di significatività
Un test frequentemente utilizzato è il seguente:
H0 :   0
H 0 :  0
H1 :   0
H1 :  0
Se accetto H0 vuol dire che
non c’è nella popolazione una
significativa relazione di
dipendenza lineare di Y da X.
In altre parole X non ha un
effetto “significativo” nello
spiegare le variazioni di Y.
Se accetto H0 vuol dire che la
relazione nella popolazione
può essere rappresentata
mediante una retta passante
per l’origine
59
Test di significatività - Statistica test (t-ratio)
Nel test di significatività (quando l’ipotesi nulla da sottoporre a test
è H0: β=0), la statistica test si risolve nel rapporto tra il parametro
stimato e il rispettivo errore standard. Il valore osservato della
statistica test è chiamato t-ratio.
b
t 
s b
H0:β=0
H1:β≠0

~ t n 2
Al livello di significatività α, accetto H0 se il valore della
statistica test calcolato sul campione cade nell’area di
accettazione dell’ipotesi nulla, cioè se:
 t
2; n  2
b

 t
s b 
2; n  2
Nel caso di ipotesi alternativa bilaterale, si rifiuta l’ipotesi nulla H0 se il t-ratio è superiore (preso in valore assoluto)
al corrispondente livello critico, individuato dalle tavole (t-teorica). In tal caso si conclude che esiste effettivamente
una dipendenza significativa della variabile dipendente da quella esplicativa.
60
Nei software statistici (ma anche in Excel), la
presentazione dei risultati sul modello di regressione
include la stima dei parametri con i rispettivi errori
standard e il loro rapporto (che costituisce la
statistica test calcolata t per verificare che i parametri
siano nulli), assieme al p-value (valore di
significatività in excel) dato dalla probabilità di
osservare un valore della statistica test uguale o
maggiore del valore ottenuto mediante i dati
campionari sotto ipotesi nulla.
Con riferimento al p-value, il parametro stimato è
considerato significativo (cioè si rifiuta l’ipotesi H0 che
il valore del parametro sia pari zero) quando il
corrispondente p-value è inferiore ad un livello di
significatività α adeguato. Ad esempio se α è pari a
0,05,
il
parametro
stimato
si
riterrà
significativamente diverso da zero se il p-value
61
osservato è inferiore a 0,05.
Analisi della varianza nella regressione
Il test di significatività di X ovvero H 0 :   0
può essere derivato anche dalla procedura di
analisi della varianza (ANOVA)
Ricordando la scomposizione della devianza
totale SQT=SQR+SQE, si può dimostrare
che, sotto H0,
n
2
SQR 1

SQE n  2
 ŷ
i
i1
n
 y 1
~ F(1;n  2)
2
ê
 n  2
i1
i
dove F(1,n-2) indica la distribuzione F di Fisher
con 1,n-2 gradi di libertà
62
Tavola ANOVA
Sorgente
Somma gdl
Media
F
di variazione
dei
dei quadrati
quadrati
Regressione
SQR
1
MQR=SQR/1
F=MQR/MQE
Errore
SQE
n-2 MQE=SQE/(n-2)
Totale
SQT
n-1
Valori campionari della statistica F vicini a 1 fanno
propendere per accettare H 0 :   0
Valori di F molto grandi fanno rifiutare H0 a favore di
H1 :   0
63
Test F
Ad un livello di
significatività α, si accetta
H0 se F<Fα;1,n-2
In questo caso si conclude
che non c’è relazione
statisticamente
significativa.
Si rifiuta H0 se F>Fα;1,n-2,
concludendo che Y
dipende linearmente da X
Fα; 1,n-2
64
Confronto test t – test F in un modello di
regressione lineare semplice
Per verificare H 0 :   0 contro H1 :   0
valgono le uguaglianze ta 2;n2 2  Fa;1;n2
tosservato2  Fosservato
Quindi si può concludere che nel modello
di regressione lineare semplice il test t
(con l’ipotesi alternativa bidirezionale) e il
test F (ANOVA) sono del tutto equivalenti.
Nell’esempio dell’ipermercato
t
  3,18  10,13  F
t
  4,57  20,89  F
2
2
0 ,025 ;3
0 ,025 ;1;3
2
osservato
2
osservato
65
ESERCIZIO
In un ipermercato di Viterbo è stata svolta
un‘indagine per rilevare il prezzo del pane negli ultimi
cinque mesi (in euro al Kg) e le quantità consumate
in media in un giorno (in Kg)
prezzo quantità
1,65
210
1,67
198
1,68
176
1,69
175
1,7
174
Stimare la retta di regressione che mette
relazione la quantità in funzione del prezzo
in
66
ESERCIZIO (continua)
Stima dei coefficienti di regressione - Output Excel
Intercetta
Variabile X 1
Coeffic ienti
1529
-800
La retta stimata è Y=1529-800X
Un aumento di 1€ del prezzo al Kg del pane fa diminuire la
quantità media di pane consumato giornalmente di 800 kg
Statistica della regressione
R al quadrato
0,87
Errore standard
6,73
La dipendenza
lineare è forte
(R2=0,87)
s=6,73
67
ESERCIZIO (continua)
Rappresentazione punti osservati e retta di
regressione - Output Excel
250
y = -800x + 1529
2
R = 0.8744
200
150
1.64
1.68
1.72
68
ESERCIZIO (continua)
Test t - Output Excel
Intercetta
Variabile X 1
Coefficienti Errore standard
1529
293,69
-800
175,02
Per verificare
Stat t
p-value
5,21
0,01
-4,57
0,02
H0 :   0
H1 :   0
t 
b
8 00

  4, 5 7
s b 
1 7 5, 0 2
Al livello α=0,05
t 0 , 025 ;3   3,18
-4,57<-3,18
t3
-4,57 -3,18
3,18
Si rifiuta H0
C’è evidenza sufficiente per concludere che la quantità
consumata di pane dipende linearmente dal prezzo
69
ESERCIZIO (continua)
Esempio Test F ANOVA - Output Excel
ANALISI VARIANZA
gdl
Regressione R
Errore E
Totale
Per verificare
SQ
1 947,20
3 136,00
4 1083,20
MQ
F
947,20 20,89
45,33
p-value
0,02
H0 : b1  0
H1 : b1  0
F 
MQR
947 ,20

 20 ,89
MQE
45,33
Al livello α=0,05
F0,05;1;3  10,13
20,89>10,13
Si rifiuta H0
C’è evidenza sufficiente per concludere che la quantità
consumata di pane dipende linearmente dal prezzo
70
Utilizzo del modello di regressione per
la previsione
Fare una previsione può significare due cose :
1) prevedere il valore atteso E(Yi|X=xi) della
variabile risposta in corrispondenza di un dato
valore di X, diciamo xi
[è un parametro, cioè la media di tutte le Y per le
unità per le quali X=xi, ad esempio il consumo medio
previsto per tutte quelle famiglie con un reddito pari a
40.000€]
2) prevedere il valore singolo della variabile risposta
in corrispondenza di un dato valore di x, diciamo xi
[è una singola determinazione di Yi, ad esempio il
consumo previsto per una particolare famiglia con un reddito
di 40.000€]
71
Previsione puntuale e intervallare
Nei due casi, la stima puntuale del valore previsto
coincide ed è pari a:
yˆ i  a  b x
i
La stima per intervallo, invece, è diversa nei due casi.
Il grado di incertezza associato alla previsione di una
media è minore del grado di incertezza associato alla
previsione di un singolo valore.
L’intervallo di confidenza per il valor medio è
meno ampio dell’intervallo di confidenza per la
previsione di un singolo valore
72
Inferenza per la risposta media
Abbiamo visto che lo stimatore di E(Yi|X=xi) è
yˆ i  a  b x
i
La stima del suo errore standard è data da:
 
s Ŷ i
 
V Ŷ i

1
s2  
n

x i 
n
 x h
h 1
x
2

 x
2





Ŷi  EYi | X  x i 
~ t n 2
s Ŷi
 
Gli estremi dell’intervallo di confidenza per il
valor medio E(Yi|X=xi) a un livello di confidenza

1-α sono dati da:
2
1

xi  x 
2
Ŷ i  t a 2 , n  2  s   n
2
n


x

x
 h

h 1





73
Esempio: Riprendiamo l’esempio dell’ ipermercato
di Viterbo e costruiamo l’intervallo di confidenza al
95% per la quantità media quando il prezzo è pari a
1,66 (valore non osservato di X)
Ŷi  1529  800  1,66  201
x
s
 
s Ŷ i  6 ,73
2
1

1,66  1,68  
 
  4 ,62
0,00148
5

t 3 ,0 , 025   3,18
n
 x h
2
 x
h 1
Estremi dell’intervallo di confidenza
201  3,18  4,62 
186,31
215,69
74
Inferenza per la previsione di un
singolo valore
Ad un livello di confidenza 1-α gli estremi
dell’intervallo di confidenza per la previsione di un
singolo valore sono dati da:
Ŷi  t a 2;n  2 


1
2
s 1  
n



x i  x  

n
2
 x h  x  
h 1
2
75
Esempio: Riprendiamo l’esempio dell’ipermercato di
Viterbo e costruiamo l’intervallo di previsione al 95%
per la quantità prevista per quella unità il cui prezzo
è pari a 1,66
Ŷi  1529  800  1,66  201
2

1 1,66  1,68  
sprevisione valore singolo   6,73 1  
  8,16
5
0,00148 

t 0 , 025 , 3   3 ,18
Estremi dell’intervallo di previsione per il singolo valore
201  3,18  8,16 
175,05
226,95
76
Intervalli di confidenza al 95% per il
valore medio e per il valore singolo
250
240
230
220
210
200
190
180
170
160
150
1.62
per il valore singolo
per il valore medio
1.64
1.66
1.68
x
1.7
1.72
L’int. di confidenza
per il valore medio è
meno ampio dell’int.
per la previsione del
valore singolo.
Per entrambi
l’ampiezza aumenta
quanto più xi si
discosta dal valore
medio x  1.68
77