la regressione lineare

ORARIO LEZIONI
ANALISI DELLE
STATISTICHE DI VENDITA
Marco Riani
[email protected]
http://www.riani.it
LIBRI DI TESTO
• Teoria
• Riani M., Laurini F. (2008), (seconda
edizione) Modelli statistici per l’economia
con applicazioni aziendali
aziendali, Pitagora
Pitagora,
Bologna.
• Mercoledì 11 – 13 (aula Lauree)
• Mercoledì 14 – 16 (aula Lauree)
• Giovedì 11 – 13 (Esercitazione)
• Seminari?
MODALITÀ DI ESAME
• Prova pratica al computer (computer
portatile)
• + interpretazione dei risultati
• Prova
P
orale
l
Perché si adatta una funzione?
LA REGRESSIONE
LINEARE
(semplice o multipla)
Marco Riani - Analisi delle statistiche di vendita
• Riassumere l’andamento dei punti con una
formula che esprima il legame tra y e le
esplicative
• verificare una legge scientifica (ad es.
es
prezzi e vendite)
• effettuare previsioni
1
LA REGRESSIONE LINEARE
•
•
•
Esiste una relazione (lineare) tra X e Y?
In caso affermativo:
Come varia una variabile (dipendente)
i funzione
in
f
i
dell’altra
d ll’ lt (esplicativa)?
(
li ti )?
• Per convenzione:
Y = variabile dipendente
X = variabile esplicativa
Esempi
• Relazione tra comportamenti di
acquisto e caratteristiche dei
consumatori
• Relazione tra numero di esami
sostenuti nei primi due anni di corso e
voto alla maturità
• Relazione tra prezzo di vendita e
quantità venduta di un bene
Motivi che spingono ad adottare
modelli di regressione lineare
Relazioni di tipo lineare
Motivi che spingono ad adottare
modelli di regressione lineare
• Effettiva linearità Î molte relazioni sono
molto vicine alla linearità
• Trasformazioni Î la relazione è lineare
p aver trasformato opportunamente
pp
la
dopo
dipendente e/o l’esplicativa
• Semplicità Î facilità di interpretazione dei
parametri
• yi = a + bxi + ei
i = 1, …, n
dove:
• a + bxi rappresenta una retta:
• a = ordinata all’origine → intercetta
• b = coeff. angolare → coeff. di
regressione
• ei è un termine di errore (accidentale)
Motivi che spingono ad adottare
modelli di regressione lineare
• Limitatezza dell’intervallo
• Es. y = a bx
• log y = log a + (log b) x
• y’ = a’ + b’ x
Marco Riani - Analisi delle statistiche di vendita
2
Motivi che spingono ad adottare
modelli di regressione lineare
Diagramma di dispersione
8
• Ragioni di teoria statistica: lo studio delle
funzioni lineari nei parametri ha una
trattazione più agevole
7
Y = vendite
6
5
4
3
2
1
0
0
10
20
30
40
X = N. dipendenti
• Come variano le vendite in funzione del numero di
dipendenti?
MODELLO DI REGRESSIONE
• yi = a + bxi + ei
i = 1, …, n
dove:
• a + bxi rappresenta una retta:
• a = ordinata all’origine → intercetta
• b = coeff. angolare → coeff. di
regressione
• ei è un termine di errore (accidentale)
RETTA DI REGRESSIONE
yˆ i = a + bx i
•
i = 1, …, n
ŷ i
= valore teorico (valore stimato)
di yi → funzione lineare di
i = 1, …, n
Residui
ei = y i − yˆ i
Come si calcolano i parametri a e b?
Visualizzazione grafica dei residui
• METODO DEI MINIMI QUADRATI
n
n
i =1
i =1
∑ ei2 = ∑ ( yi − yˆ i ) 2 = min
Le incognite sono i parametri della retta
yˆ i = a + bx i
Marco Riani - Analisi delle statistiche di vendita
3
Sistema di equazioni normali
Formule per il calcolo di a e b (p. 33)
a=
n
∑ ei = 0
∑ y ∑x −∑x ∑x y
n∑ x − (∑ x )
2
i
2
i
i
i
i
i
2
= y − bx
i
i =1
n
b=
∑ xi ei = 0
n∑ xi yi − ∑ xi ∑ yi
n∑ x − (∑ xi )
2
i
2
∑ y (x − x)
∑ (x − x)
i
=
i
2
i
i =1
a e b sono funzioni lineari delle
osservazioni yi
ESEMPIO (7 supermercati) rxy=0,96
Scatter con retta di regressione
N. dipendenti
(X)
Fatturato
in milioni di € (Y)
8
A
10
1,9
6
B
18
3,1
C
20
32
3,2
D
8
1,5
E
30
6,2
1
F
12
2,8
0
G
14
2,3
Y=v
vendite
7
5
4
3
2
0
10
20
30
40
X = N. dipendenti
• Come variano le vendite in funzione del numero di
dipendenti?
Calcolo di a e b
xi2
yi2
Calcolo di a e b
yi2
yi
xi
yi
10
1,9
100
3,61
19
A
10
1,9
100
3,61
19
B
18
3,1
324
9,61
55,8
B
18
3,1
324
9,61
55,8
C
20
3,2
400
10,24
64
C
20
3,2
400
10,24
64
D
8
1,5
…
…
…
D
8
1,5
…
…
…
E
30
6,2
…
…
…
E
30
6,2
…
…
…
F
12
2,8
…
…
…
F
12
2,8
…
…
…
G
14
2,3
…
…
…
G
14
2,3
…
…
…
Tot.
112
21
2128
77,28
402,6
Tot.
112
21
2128
77,28
402,6
a=
a=
xi yi
xi2
xi
A
2
∑ yi ∑ xi − ∑ xi ∑ xi yi
n∑ x i2 − ( ∑ x i ) 2
21 ⋅ 2.128 − 112 ⋅ 402,6
403,2
=−
= −0,17
2.352
7 ⋅ 2.128 − 112 2
Marco Riani - Analisi delle statistiche di vendita
b=
b=
xi yi
n∑ x i y i − ∑ x i ∑ y i
n∑ x i2 − ( ∑ x i ) 2
7 ⋅ 402,6 − 112 ⋅ 21 466,2
=
= 0,198
2.352
7 ⋅ 2.128 − 112 2
4
Scomposizione della devianza di
Y
BONTA’ DI ADATTAMENTO
• Retta di regressione:
yˆ i = a + bx i
DEV (Y ) = DEV (Yˆ ) + DEV ( E )
DEVIANZA TOTALE
DEV (Y ) =
n
∑ (y
i =1
i
DEV (Yˆ ) =
DEVIANZA RESIDUA
DEV ( E ) =
n
∑ (y
i =1
i
• L’adattamento è buono quando DEV(E) è
“piccola”
piccola
− M y ) 2 DEVIANZA DI
REGRESSIONE
− yˆ i ) 2 =
n
∑ ( yˆ
i =1
i
− M y)
2
n
∑e
i =1
2
i
Esercizio
• Problemi:
• DEV(E) cresce all’aumentare del numero di
osservazioni (n)
• DEV(E) dipende dall’unità di misura e
dall’ordine di grandezza di Y
Indice di determinazione lineare
(R2)
• Dimostrare la relazione
δ=
DEV (Y ) = DEV (Yˆ ) + DEV ( E )
xi
yi
A
10
1,9
B
18
3,1
C
20
D
E
F
ŷi
e
1,81
2
i
1,416
0,155
3,2
3,79
0,624
8
1,5
1,414
…
…
30
62
6,2
5 77
5,77
…
…
12
2,8
2,206
…
…
G
14
2,3
2,602
Tot.
112
21
21
…
1,079
…
13,201
0,348
δ=
2
∑ ( yi − yˆ i ) = 0
•δ =0
se
2
∑ ( yˆ i − M y ) = 0
Grafico dei residui
( yˆ i − M y ) 2
0,008
14,28 = 13,20 + 1,08
se
di R2 (δ)
3,394 0,086
DevTOT=DevREGR+DevRES
•δδ =1
1
13,20
1,08
= 1−
= 0,924
14,28
14,28
1
R
Residui
yˆ1 = - 0,17 + 0,198 *10 Calcolo
DEV (Yˆ )
DEV ( E )
= 1−
DEV (Y )
DEV (Y )
0.5
0
-0.5
05 0
10
20
30
40
-1
N. dipendenti
• Modello soddisfacente: distribuzione
casuale dei residui → componente erratica
oppure
δ = (0,9615)2 = 0,924
Marco Riani - Analisi delle statistiche di vendita
5
ESTRAPOLAZIONE
• Si tenta di valutare in maniera attendibile il
valore che assumerà la variabile dipendente
in corrispondenza di un valore noto della
variabile esplicativa.
• CONDIZIONI
– Validità della retta di regressione (δ prossimo ad
1)
– valore noto della variabile esplicativa non lontano
dai valori utilizzati nel calcolo della retta
(Vendite, nr. di dip.) scomposizione di yi
yi
yi − y
ei
yŷi
b( xi − x )
y
xi − x
x
Stimare i parametri della retta
di regressione, trovare i valori
stimati, verificare i vincoli del
sistema di equazioni normali
e la bontà di adattamento
con Excel
xi
Funzione regr.lin
• Ordine in cui vengono restituite le
statistiche aggiuntive di regressione dalla
funzione di Excel REGR.LIN
Interpretazione di b
• b= indica l’entità
della variazione
teorica della
variabile
dipendente in
corrispondenza di
un incremento
unitario della
variabile
esplicativa
Marco Riani - Analisi delle statistiche di vendita
Componente aggiuntivo
analisi dei dati
6
Schema logico con cui si affrontano
i problemi di inferenza statistica
Introduzione agli elementi
aleatori
Teoria campionaria e legame con
l’universo
Esempio: universo composto da 1000
az. di distribuzione di prodotti
enogastronomici
• Si immagina di conoscere l’universo
• Si costruiscono gli strumenti statistici
adatti a risolvere i problemi in esame
• Si testa
t t l’affidabilità
l’ ffid bilità di ttalili strumenti
t
ti
statistici
Grafico ad istogrammi dell’utile di
esercizio
• X = utile di esercizio
• Funzione CASUALE.TRA
• Funzione INDICE
• v. a. Media campionaria
Distribuzione media campionaria (100
campioni di numerosità n=100)
freque nze assolu
Estrazione campioni
50
45
40
35
30
25
20
15
10
5
0
18.5 -19
19 -19.5
19.5 -20
20 -20.5
20.5 -21
21 -21.5
oltre 21.5
classi
Marco Riani - Analisi delle statistiche di vendita
7
v.a. Media campionaria
Distribuzione media campionaria
standardizzata
Confronto con la v.a. N(0,1)
Distribuzione media campionaria
Introduzione agli elementi aleatori
Introduzione agli elementi aleatori
N.
dipendent
i
(X)
Vendite
in milioni
di € (Y)
A
B
A
10
19
1,9
B
18
3,1
C
20
3,2
D
D
8
1,5
E
E
30
6,2
F
F
12
2,8
G
G
14
2,3
H
C
Prezzi in Euro
(x)
Vendite (Y)
1.55
1.60
1.65
1.60
1.50
1.65
1.45
1.50
410
380
350
400
440
380
450
420
Marco Riani - Analisi delle statistiche di vendita
• Le vendite sono dovute in parte ai prezzi e
in parte a fattori di natura aleatoria e
perciò sono esse stesse delle v.c.
• Al contrario I dipendenti e/o i prezzi non
sono v.c. poiché sono del tutto prevedibili
dalla compagnia che li stabilisce
8
Introduzione agli elementi aleatori
Assunzioni su Yi
• Una successione di valori fissi
• x1, x2, … xn
• Tutte le osservazioni sono caratterizzate
dallo stesso grado di incertezza
• a cui sono associate n vv.c.
c indipendenti
• Y1, Y2, … Yn
• Il punto cruciale consiste nel descrivere in
modo appropriato tali v.c.
• E(Yi)? var(Yi)? Distribuzione di Yi?
• var(Yi) = σ2
ii=1
1, 2
2, …, n
• σ2 è un parametro incognito da stimare
• cov(Yi, Yj)=0
i≠j
Assunzioni su Yi
Assunzioni su Yi (continua)
• E(Yi) = µi
i=1, 2, …, n
• i valori osservati della variabili dipendente
provengono da n distribuzioni di
probabilità con medie incognite
• Ip: µi = E(Yi) = α+β xi
• Questa ipotesi equivale ad affermare che i
punti
(x1, µ1),
) (x2, µ2),
) …, (xn, µn)
stiano tutti su una retta con parametri α, β
• Oss: questa assunzione non implica che
tutti i punti (xi, yi) stiano sulla retta ma che i
valori medi delle distribuzioni da cui i punti
provengono verificano l’equazione della
retta
• Ip. le medie delle distribuzioni variano
linearmente con la variabili indipendente
• µi = E(Yi) = α+β xi
Interpretazione di α e β
Interpretazione di α e β
• I parametri α e β rappresentano l’intercetta
ed il coeff. angolare della retta sulla quale
giacciono le medie incognite delle
distribuzioni Y1, …, Yn
Marco Riani - Analisi delle statistiche di vendita
9
Osservazione
Stima dei parametri
• Dato il modello di regressione
• Yi = α +β xi +εi
• I parametri da stimare sono
• α, β, µ1, µ2, …, µn, σ2
• L’ip: µi = E(Yi) = α+β xi
• La conoscenza di α,
α β consente di
ricostruire tutte le medie incognite µ1, µ2,
…, µn
• equivale ad affermare che
• E(εi)=0
Coeff. di regressione campionari e
nella popolazione
Stime di α e β
• Pensando di ripetere più volte
l’esperimento che ha generato le
osservazioni y1, …, yn, per valori fissi di x1,
…, xn si ottiene una distribuzione
campionaria di valori
αˆ = Y − βˆx
βˆ = ∑
( xi − x )Yi
∑ (x − x)
yi = α + βxi + ε i
yi = αˆ + βˆxi + ei
2
i
Stime di µi
Coeff. di regressione campionari e
nella popolazione
Stima di σ2
yi = α + β xi + ε i yi = αˆ + βˆxi + ei
8
6
Y = vendite
y = α + βx
εi
7
yˆ = αˆ + βˆx
ei
5
4
E( yi ) = α + βxi
3
2
E( yi ) = αˆ + βˆxi
1
0
0
10
• σ2= dispersione verticale attorno alla retta
che unisce i valori medi delle popolazioni
• Dato che σ2=E(εi2)
• Dato
D t che
h ei è una stima
ti
di εi sembra
b
naturale utilizzare come stimatore di σ2 la
seguente espressione
20
30
40
X = N . dipendenti
Marco Riani - Analisi delle statistiche di vendita
s2 =
∑(y
i
− μˆ i ) 2
n−2
=
∑e
2
i
n−2
10
Stima di σ2
• Utilizziamo gli scostamenti dalle medie
delle popolazioni
s2 =
∑(y
i
− μˆ i ) 2
n−2
=
Stima di σ2
• Excel definisce s come “errore standard
nella stima di Y”
∑e
2
i
n−2
s=
Funzione regr.lin
• Ordine in cui vengono restituite le
statistiche aggiuntive di regressione dalla
funzione di Excel REGR.LIN
∑e
2
i
n−2
Ip. aggiuntiva
•
•
•
•
•
Le distribuzioni Yi sono normali
y1 è una realizzazione di Y1 ~ N(µ1, σ2)
y2 è una realizzazione di Y2 ~ N(µ2, σ2)
…
yn è una realizzazione di Yn ~ N(µn, σ2)
• Y1, Y2, …, Yn sono indipendenti
Richiami sulla v.c. normale
Richiami sulla costruzione degli int.
di confidenza
• se Y ~N(µ, σ2)
• Z=(Y- µ)/ σ ~ N(0,1)
⎛
⎞
X − E( X )
Pr ⎜ − 1.96 <
< 1.96 ⎟ = 0.95
⎜
⎟
var( X )
⎝
⎠
• Pr(-1.96 < Z <1.96) =0.95
⎛
⎞
X −μ
< 1.96 ⎟ = 0.95
Pr⎜ − 1.96 <
⎜
⎟
var( X )
⎝
⎠
• aY+b ~ N(b+ µ, a2σ2)
(
)
Pr X − 1.96 var( X ) < μ < X + 1.96 var( X ) = 0.95
Marco Riani - Analisi delle statistiche di vendita
11
Studio della distribuzione di
βˆ = ∑
Obiettivo
βˆ
( xi − x )Yi
∑ (x − x)
2
i
Costruire intervalli di confidenza e
test di verifica d’ipotesi sul coeff.
angolare
yi = α + βxi + ε i
βˆ
yi = αˆ + βˆxi + ei
Studio della distribuzione di
βˆ = ∑
βˆ
( xi − x )Yi
∑ (x − x)
2
i
E ( βˆ ) = ?
var(βˆ ) = ?
σ2
∑ (x − x)
2
i
var((βˆ ) =
var(βˆ ) =
2
2
⎛ n
⎞
var⎜ ∑ ( xi − x )Yi ⎟
⎝ i =1
⎠
⎛ n
⎞
⎜ ∑ var( xi − x )Yi ⎟
i
=
1
⎝
⎠
⎡n
⎤
2
⎢∑ ( xi − x ) ⎥
⎣ i =1
⎦
1
2
⎛ n
⎞
⎜ ∑ var( xi − x )Yi ⎟
⎠
⎡
2 ⎤ ⎝ i =1
⎢∑ ( xi − x ) ⎥
⎣ i =1
⎦
1
n
2
Stima(var(βˆ )) = s 2 ( βˆ ) =
1
⎛ n
⎞
⎜ ( xi − x )2 varYi ⎟
2 ∑
i
=
1
⎝
⎠
⎡n
⎤
2
⎢∑ ( xi − x ) ⎥
⎣ i =1
⎦
⎛ n
⎞
⎜ ∑ ( xi − x ) 2 σ 2 ⎟
i
=
1
⎝
⎠
⎡n
⎤
2
⎢∑ ( xi − x ) ⎥
⎣ i =1
⎦
1
var(βˆ ) =
1
⎡n
2⎤
⎢∑ ( xi − x ) ⎥
⎣ i =1
⎦
Al posto di σ2 sostituiamo il suo
stimatore
Varianza di beta cappello
var(βˆ ) =
⎛ n
⎞
⎜ ∑ ( xi − x )Yi ⎟
i =1
⎜
⎟
ˆ
var(β ) = var n
⎜
2 ⎟
⎜ ∑ ( xi − x ) ⎟
⎝ i =1
⎠
var(βˆ ) =
E ( βˆ ) = β
var(βˆ ) =
Varianza di beta cappello
var(βˆ ) =
σ2
n
∑ (x − x)
i =1
2
i
Marco Riani - Analisi delle statistiche di vendita
s2
∑ ( xi − x ) 2
• La radice quadrata della stima della
varianza di uno stimatore è l’errore
standard (standard error, SE) dello
stimatore
s
sβˆ = SE ( βˆ ) =
∑ ( xi − x ) 2
12
Interpretazione dello standard error
di beta cappello
• Rappresenta l’errore quadratico medio che
si commette quando si stima il coefficiente
di regressione con le formule dei minimi
quadrati
Studio della distribuzione di
αˆ = Y − βˆx
E (αˆ ) = ?
var(αˆ ) = ?
Esercizio: nell’esempio dei 7
supermercati calcolare lo
standard error di beta
cappello e alpha cappello
sβˆ = SE ( βˆ ) =
s
(x − x)
∑Sol.
2
α̂
E (αˆ ) = α
⎡1
⎤
x2
var(αˆ ) = σ 2 ⎢ +
2⎥
⎢⎣ n ∑ ( xi − x ) ⎥⎦
Costruzione di intervalli di
confidenza dei parametri
= 0.025
i
sαˆ = SE (αˆ ) = s
1
x2
+
= 0.44
n ∑ ( xi − x ) 2
Punto di partenza: lo scostamento
standardizzato di beta capello ha
una distribuzione N(0,1)
⎛
βˆ − E ( βˆ )
Pr⎜ − Z γ <
< Zγ
⎜
var(βˆ )
⎝
⎞
⎟ = 1− γ
⎟
⎠
• Se 1-γ=0.95
Pr(−1.96 <
βˆ − E ( βˆ )
var(βˆ )
< 1.96) = 0.95
Marco Riani - Analisi delle statistiche di vendita
Pr(−1.96 <
⎛
⎜
⎜
Pr⎜ − 1.96 <
⎜
⎜
⎝
βˆ − E ( βˆ )
var(βˆ )
< 1.96) = 0.95
⎞
⎟
⎟
βˆ − β
< 1.96 ⎟ = 0.95
2
σ
⎟
2
⎟
−
(
)
x
x
∑ i
⎠
Problema: σ2 è ignoto (occorre
sostituire il suo stimatore s2)
13
Studio della distribuzione di s2
• Si può dimostrare che
Sostituendo al posto di σ2 il suo
stimatore
⎛
⎜
⎜
Pr ⎜ − 1.96 <
⎜
⎜
⎝
⎞
⎟
⎟
< 1.96 ⎟ = 0.95
2
σ
⎟
⎟
∑ ( xi − x ) 2
⎠
βˆ − β
Costruzione di un intervallo di
confidenza per il coeff. angolare
Costruzione di intervalli di
confidenza dei parametri
• Dove tγ è il quantile (percentile) associato alla
distribuzione T di Student con (n-2) gradi di
libertà tale che (v. p. 44)
Esercizio: nell’esempio dei 7
supermercati costruire un
intervallo di confidenza al
95% per β ed
d interpretare
i t
t
i
risultati ottenuti
Costruzione di un intervallo di
confidenza al 95% per il coeff. angolare
• t0.05(5)=+2.5706 (=INV.T(0.05;5)
• (Oss: Pr.(T(5)>2.5706)=0.025)
• Pr(0.198-2.5706×0.0253<β<0.198+2.5706×0.0253)=0.95
• Pr(0.133<β< 0.263)=0.95
Marco Riani - Analisi delle statistiche di vendita
14
Interpretazione
• L'intervallo di confidenza del coefficiente di
regressione, con probabilità uguale a 0.95, va
da 0,133 a 0,263.
• Questo significa che nell'universo di riferimento,
all'aumento
all
aumento di un dipendente può corrispondere
un aumento delle vendite compreso tra 133 mila
Euro e 263 mila Euro circa (con probabilità del
95%).
• Oss: l'intervallo è piuttosto ampio e questo
dipende dalla ridotta numerosità campionaria
(solo 7 supermercati).
Intervallo di confidenza
per l’intercetta
Costruzione di un intervallo di
confidenza al 95% per l’intercetta
Costruzione di un intervallo di
confidenza al 95% per σ2
Punto di partenza
• t0.05(5)=+2.5706 (=INV.T(0.05;5)
• (Oss: Pr.(T(5)>2.5706)=0.025)
• Pr(1.31<α< 0.96)=0.95
• per trovare χ20.975 utilizzo
=INV.CHI(0.025;5)=0.83
• per trovare χ20.025 utilizzo
• =INV.CHI(0.975;5)=12.83
Costruzione di test di
ipotesi per
α β σ2
• Pr(0.08< σ2< 1.30)=0.95
Marco Riani - Analisi delle statistiche di vendita
15
Dato che
βˆ − β
~ tn−2
SE ( βˆ )
Funzione regr.lin
• Ordine in cui vengono restituite le
statistiche aggiuntive di regressione dalla
funzione di Excel REGR.LIN
Sotto H0: β =0
βˆ
~ tn−2
SE ( βˆ )
Calcolo delle statistiche t con Excel
e del relativo pp-value
Esercizio: nell’esempio dei 7
supermercati testare H0:β=0,
trovare il relativo pp-value ed
interpretare il risultato del test
• p value Î Funzione distrib.T
tβ=7.82
p-value = 0.000548
Interpretazione : rifiuto decisamente
l’ipotesi nulla
Esercizio: nell’esempio dei 7
supermercati testare H0:α=0,
trovare il relativo pp-value ed
interpretare il risultato del test
tα=0.39
Intervallo di confidenza delle
previsioni con il metodo dei
minimi quadrati
p-value = 0.714
Interpretazione : non posso rifiutare
l’ipotesi nulla
Marco Riani - Analisi delle statistiche di vendita
16
Strumenti necessari (p. 189)
Calcolo della var. dell’errore di
previsione
Calcolo della var. dell’errore di
previsione
Bande di confidenza dell’errore di
previsione (p. 55)
Costruzione di un intervallo di
confidenza per y0
Costruzione di un intervallo di
confidenza per y0
• Tenendo presente che
e0 − E (e0 )
~ N (0,1)
var(e0 )
e0 − E (e0 )
~ T ( n − 2)
vâr(e0 )
y0 − yˆ 0
~ T ( n − 2)
vâr(e0 )
⎛
⎞
y − yˆ 0
Pr ⎜ − tγ < 0
< tγ ⎟ = 1 − γ
⎟
⎜
v
â
r(
e
)
0
⎝
⎠
e0
~ T (n − 2)
vâr(e0 )
y0 − yˆ 0
~ T ( n − 2)
vâr(e0 )
Marco Riani - Analisi delle statistiche di vendita
vedi p. 56
17
Esercizio: per un numero di dipendenti
pari a 16 costruire un intervallo di
previsione delle vendite al 95%
Pr(3 − 2.57 × 0.4966 < y0 < 3 + 2.57 × 0.4966) = 0.95
Pr(1.72 < y0 < 4.28) = 0.95
Forma generale del modello di
regressione
Regressione multipla
In forma matriciale
Marco Riani - Analisi delle statistiche di vendita
• Il modello è ancora lineare nei coefficienti
βj ma la sostanziale differenza rispetto al
modello lineare semplice risiede nella
presenza d'un maggior numero di variabili
indipendenti Xj
Obiettivo: adattare un piano
Obiettivo:
“iperpiano” di regressione
18
Generalizzazione delle assunzioni
per la regr. lineare semplice
Assunzione sulla varianza dei
termini di disturbo
• che implica
Richiami sulla matr. var. cov. di un
vettore aleatorio (p. 188)
Assunzione sulla matrice X
• X = fissa non stocastica, non dipende in
alcun modo da ε
• X ha
h rango pieno
i
Ripasso sulle matrici
Marco Riani - Analisi delle statistiche di vendita
•
•
•
•
•
•
•
•
•
Addizione tra matrici
Moltiplicazione
Matrice diagonale
Matrice identità
Matrice trasposta (trasposta del prodotto)
Matrice inversa
Traccia
Matrice idempotente
Somma di quadrati (ponderata) in forma
matriciale
• Forme quadratiche (positive, negative definite)
• Forme quadratiche idempotenti
• Scomposizione spettrale
19
Valore atteso e var di comb. di v.c.
•
•
•
•
x vettore casuale
A = matrice non stocastica
E(A x) = A E(x)
var(A x) = A var(x) A’ (v. p. 189)
Derivate di vettori e matrici
Derivate di vettori e matrici
(pp. 182182-183)
• x vettore casuale
⎛ x1 ⎞
⎜ ⎟
⎜ x2 ⎟
x = ⎜ ... ⎟
⎜ ⎟
⎜ ... ⎟
⎜ ⎟
⎝ xp ⎠
⎛ ∂f ⎞
⎜
⎟
⎜ ∂x 1 ⎟
⎜ ∂f ⎟
∂f ⎜ ∂x 2 ⎟
=⎜
⎟
∂x ⎜ ... ⎟
⎜ ... ⎟
⎜ ∂f ⎟
⎜
⎟
⎝ ∂x p ⎠
Derivate di vettori e matrici
• Se a’=(a1, …, ap)
⎛ x1 ⎞
⎜ ⎟
⎜x2 ⎟
x=⎜ ...⎟
⎜ ⎟
⎜ ...⎟
⎜x ⎟
⎝ p⎠
⎛ ∂f ⎞
⎜
⎟
⎜ ∂x 1 ⎟ ⎛⎜ a1 ⎞⎟
⎜ ∂f ⎟ ⎜ a2 ⎟
∂a' x a1 x1 + a2 x2 + ... + a p x p ⎜ ∂x 2 ⎟ ⎜ ⎟
= ... = a
=
=⎜
... ⎟ ⎜ ⎟
∂x
∂x
⎜
⎟ ⎜ ... ⎟
⎜ ... ⎟ ⎜ ⎟
⎜ ∂f ⎟ ⎝ a p ⎠
⎜ ∂x ⎟
⎝ p⎠
Derivate di vettori e matrici
Stima di β
• Occorre trova il β che minimizza la
seguente espressione
Marco Riani - Analisi delle statistiche di vendita
20
Stima di β
• Occorre trova il β che minimizza la
seguente espressione
File di input svsv-regrregrmultipla.xls
Stima di β
• Se la matrice X’X quadrata di ordine k
ammette
tt inversa,
i
allora
ll
lla soluzione
l i
è
Ripasso: vincoli del sistema di
equazioni normali nella regressione
semplice
n
∑e
i =1
i
=0
n
∑xe
i =1
vincoli del sistema di equazioni
normali nella regressione multipla
• L’equazione
i i
=0
Interpretazione dei parametri
nella regressione lineare
multipla
• implica X’e=0
Marco Riani - Analisi delle statistiche di vendita
21
Modello di regressione multiplo
Interpretazione dei parametri nella
regressione lineare multipla
Criterio alternativo per trovare I coefficienti
di regr. lineare multipla (p. 70)
In generale
• Es. trovare il coeff. di regressione parziale
del PIL
• 1) Regressione Investimenti su tutte le
variabili tranne il PIL
• 2) Regressione del PIL su tutte le altre
variabili esplicative
• 3) Regressione tra i residui di 1) e i residui
di 2)
Modello di regressione nellnelluniverso e nel campione
y = Xβ + ε
y = Xβ̂ + e
• Qual è la relazione tra e ed ε?
Marco Riani - Analisi delle statistiche di vendita
• Dato
y = 1 β0 +X1 β1 + X2 β2+…+ Xi βi +…+Xk-1 βk-1+ε
• Per trovare beta cappello_i
– Si regredisce y su tutte le variabili tranne Xi e si
prendono i residui (di INPUT)
– Si regredisce Xi su tutte le altre variabili esplicative e si
prendono i residui (di OUTPUT)
– Il coefficiente di regressione semplice calcolato sulle
due serie dei residui produce beta cappello_i
Analisi dei valori previsti
yˆ = Xβ̂
yˆ = X ( X ' X ) −1 X ' y
yˆ = Hy
H = X ( X ' X ) −1 X '
22
Analisi della matrice H
• Simmetrica e idempotente
Analisi degli elementi sulla
diagonale principale della matrice
H
• Gli elementi sulla diagonale principale
sono compresi tra 0 e 1
Nel modello di regressione
semplice (p. 77)
• In letteratura le osservazioni a cui
corrisponde
• Di conseguenza hii è elevato se xi è
distante dalla nuvola dei punti
Analisi dei residui
• vengono detti punti di leverage
Analisi dei residui
y = Xβ + ε
y = Xβ̂ + e
e = Mε
M = I − X ( X ' X ) −1 X ' = I − H
Marco Riani - Analisi delle statistiche di vendita
23
Caratteristiche della matrice M
Ulteriore interpretazione dei punti di
leverage
• Simmetrica
• Idempotente
• La somma dei quadrati dei residui si può
scrivere come n
∑ ei2 =e' e = ε ' Mε
i=
• I punti in cui hii è grande sono i valori
influenti nella regressione, ossia quelli che
attirano a sé l’iperpiano di regressione
• Forma quadratica idempotente
Analisi della bontà di adattamento
• R2 nei modelli di regressione lineare
multipla
Analisi della varianza e coeff. di
correlazione lineare multipla
(modelli senza intercetta)
• Indice di bontà di adattamento
Modelli con intercetta
Marco Riani - Analisi delle statistiche di vendita
Coeff. correlazione lineare multipla
24
Studio della distribuzione di β̂
Teorema di Gauss Markov
(efficienza degli stimatori OLS)
E ( βˆ ) = β
var(βˆ ) = σ 2 ( X ' X ) −1
Stima di σ2
• E(s2)?
Caratteristiche delle devianze
• Dev residua
• Dev totale
• Qual è la distribuzione di s2 (somma dei quadrati dei
residui diviso i gradi di libertà)
Come si distribuiscono le
forme quadratiche
idempotenti?
• Dev
regressione
Come si distribuiscono le forme
quadratiche idempotenti?
• Premessa: numero di autovalori diversi da zero
di una matrice = rango della matrice (p. 176)
• Gli autovalori di una matrice idempotente sono 0
o 1(p.
(p 177))
• La somma degli autovalori è uguale alla traccia
(p.182)
• Î rango e traccia della matrice idempotente
coincidono
Marco Riani - Analisi delle statistiche di vendita
25
Distribuzione delle forme
quadratiche nella regressione
• Devianza residua
Distribuzione delle forme
quadratiche nella regressione
• Devianza residua
Distribuzione della devianza
residua e’e
•
•
•
•
•
e’e=ε’ M ε
Scomposizione spettrale di M
M= PΛP
M
PΛP’
e’e = ε’ P ΛP’ ε
Ponendo P’ ε=v
e’e= v’ Λ v
v~N(0, σ2In)
Distribuzione della devianza
residua e’e
• e’e = v’ Λ v
Distribuzione della devianza
residua e’e
Distribuzione della devianza totale
•
•
•
•
Marco Riani - Analisi delle statistiche di vendita
v~N(0, σ2In)
Scomposizione spettrale di A
A= PΛP’
y’Ay=ε’ P ΛP’ ε
Ponendo P’ ε=v
y’Ay= v’ Λ v
v~N(0, σ2In)
26
Distribuzione della devianza totale
• yy’Ay=
Ay vv’ Λ v
Affermazioni equivalenti (p. 86)
vv~N(0
N(0, σ2In)
Distribuzione delle forme
quadratiche nella regressione
• Devianza di regressione
Scomposizione della devianza
totale e distribuzione delle forme
quadratiche (p. 86)
Marco Riani - Analisi delle statistiche di vendita
Riassunto finale
• Le forme quadratiche idempotenti hanno
una distribuzione chi quadrato (dato che
gli autovalori sono 0 e 1)
• Il numero di gradi di libertà è dato dal
numero di autovalori uguali ad 1 (traccia
ossia rango della matrice idempotente)
Inferenza su un generico coeff. di
regressione parziale (p. 87)
27
Inferenza su un generico coeff. di
regressione parziale
H0: βj=0
• Analisi della distribuzione del test tj
tj presenta una distribuzione T di Student
con n-k gradi di libertà
Intervallo di conf. di un generico
coeff. di regressione parziale
Criteri per confrontare i modelli
• In assenza di relazione lineare tra X e y
qual è il valore attesto di R2
Criteri per confrontare i modelli
Criteri per confrontare i modelli
• tende a 0 in assenza di dipendenza
lineare e tende a 1 in presenza di
dipendenza lineare perfetta.
Marco Riani - Analisi delle statistiche di vendita
28
Criteri per confrontare i modelli
Ripasso sullle v.c
• Dopo semplici passaggi
•
•
•
•
Test di verifica di ipotesi su
combinazioni lineari dei coefficienti
Test di verifica di ipotesi su
combinazioni lineari dei coefficienti
• Esempi
• Se vogliano testare simultaneamente q
ipotesi la forma generale è
• Rβ=r
• dove
d
R ((q × k) di costanti
t ti note
t
• r= vettore noto di q elementi
Test di verifica di ipotesi su
combinazioni lineari dei coefficienti
Test di verifica di ipotesi su
combinazioni lineari dei coefficienti
Marco Riani - Analisi delle statistiche di vendita
Normale (standadizzata)
chi^2 (forme quadratiche idempotenti)
T di Student
F (rapporto tra forme quadratiche
idempotenti indipendenti)
29
Test di verifica di ipotesi su
combinazioni lineari dei coefficienti
Esercizio
• Supponiamo che k=5. Determinare la
matrice R ed il vettore r per testare
simultaneamente le seguenti ipotesi
• β2+3β4=1
• β1-5β2=0
• β3=0
• β3+β4+β5=2
Test di verifica di ipotesi su
combinazioni lineari dei coefficienti
Esercizio
•
•
•
•
β2+3β4=1
β1-5β5=0
β3=0
β3+β4+β5=2
⎛0
⎜
⎜1
R=⎜
0
⎜
⎜0
⎝
1
0
0
0
0
0
1
1
3 0 ⎞
⎟
0 − 5⎟
0 0 ⎟
⎟
1 1 ⎟⎠
⎛ β1 ⎞
⎜ ⎟
⎜ β2 ⎟
β = ⎜ β3 ⎟
⎜ ⎟
⎜ β4 ⎟
⎜β ⎟
⎝ 5⎠
⎛1⎞
⎜ ⎟
⎜0⎟
r =⎜ ⎟
0
⎜ ⎟
⎜ 2⎟
⎝ ⎠
Test di verifica di ipotesi su
combinazioni lineari dei coefficienti
Esercizio
• Supponiamo che k=6. Determinare la
matrice R ed il vettore r per testare
simultaneamente le seguenti ipotesi
• β3=β4=β5= β6=0
Marco Riani - Analisi delle statistiche di vendita
30
Esercizio
Statistica test
• β3=β4=β5= β6=0
⎛0
⎜
⎜0
R=⎜
0
⎜
⎜0
⎝
0 1 0 0 0⎞
⎟
0 0 1 0 0⎟
0 0 0 1 0⎟
⎟
0 0 0 0 1 ⎟⎠
⎛ β1 ⎞
⎜ ⎟
⎜ β2 ⎟
⎜β ⎟
β =⎜ 3⎟
⎜ β4 ⎟
⎜β ⎟
⎜ 5⎟
⎜ ⎟
⎝ β6 ⎠
⎛ 0⎞
⎜ ⎟
⎜ 0⎟
r =⎜ ⎟
0
⎜ ⎟
⎜ 0⎟
⎝ ⎠
Dimostrazione
Devo dimostrare che QQ=Q
• Il numeratore si può scrivere ε’Q ε
• ε’Q ε = forma quadratica idempotente
ε’Q ε ~ σ2 chi^2
Distribuzione del test F
Numeratore ε’Q ε/q
• chi^2(q) dove q è il numero di righe della
matrice R (numero di vincoli)
Denominatore ε’M ε/(n-k)
M = I − X ( X ' X ) −1 X ' = I − H
Marco Riani - Analisi delle statistiche di vendita
31
Esempio con Excel
• File regr-test.xls
Relazione con il test t per testare
βi=0
Casi particolari
R=(0 , …, 0, 1, 0. …0) e r=0
Relazione con il test precedente
• L’equazione
• non è altro che il quadrato del test t
Set di variabili esplicative non
rilevanti
Marco Riani - Analisi delle statistiche di vendita
Procedura
32
• e’rer= Devianza totale
• e’e = Devianza residua
• In questo esempio cos’è e’rer ? cos’è e’e?
Output della funzione REGR.LIN
Output del componente aggiuntivo
analisi dati
ANALISI
VARIANZA
gdl
SQ
MQ
F
2
5841.06918
2920.53
107.86051
R id
Residuo
12
324 923484
324.923484
27 0769
27.0769
Totale
14
6165.99266
Regressione
Significatività F
2.14126E-08
• Test F
Sessione al computer:
computer: verificare
• Verificare
Marco Riani - Analisi delle statistiche di vendita
Intervallo di confidenza del
valore y0 associato ad uno
specifico insieme di valori
delle variabili esplicative
33
Es. investimenti PIL e trend
Strategia
• Passiamo attraverso e0 e poi esplicitiamo
y0
Troviamo E(e
E(e0) e var(e0)
Var(e0)
Ob. trovare intervallo di conf. per y0
Ob. trovare intervallo di conf. per y0
Marco Riani - Analisi delle statistiche di vendita
34
Es. investimenti PIL e trend
Es. investimenti PIL e trend
Intervallo di confidenza per y0
Regressione con variabili
categoriche
Aggiunta di una variabile dummy
Consumo
Es. consumo e reddito
Reddito
Marco Riani - Analisi delle statistiche di vendita
35
Rappresentazione grafica dell’effetto della variabilie
dummy = diminuire la stima teorica dell’ammontare
dei consumi di un ammontare pari a -55.46
Consumo
Risultati del modello di regr. linere
multiplo
Reddito
Confronto (con e senza dummy)
Verifica della bontà di
adattamento del modello
Analisi dei residui
Grafico preliminare (esempio
investimenti, PIL trend)
Marco Riani - Analisi delle statistiche di vendita
Diverse tipologie di residui (p.99)
36
Come si trova s(i)
Analisi dei residui di
cancellazione studentizzati
Serie storica della vendita di un bene
Destagionalizzazione,
detrendizzazione delle serie
storiche
Primo modo per X (p. 117)
Modello trend + stagionalità +
componente erratica
Marco Riani - Analisi delle statistiche di vendita
37
Secondo modo per X (p. 118)
Stima dei parametri
Espressioni formali per le due
parametrizzazioni (eq. p. 117)
Interpretazione delle stime dei
parametri
• Il coefficiente del trend rimane immutato
• Nella seconda parametrizzazione i coeff.
stagionali devono essere interpretati come
effetto della stagione considerata relativo
alla stagione esclusa
Confronto valori effettivi e valori
stimati
Marco Riani - Analisi delle statistiche di vendita
Destagionalizzazione
38
Serie originaria e serie destagionalizzata
Detrendizzazione
Serie originaria e serie detrendizzata
Detrendizzazione e
destagionalizzazione
Serie originaria e serie detr.detr.-dest.
Testare la presenza della comp.
stagionale (n=20)
Marco Riani - Analisi delle statistiche di vendita
39
Testare la presenza della comp.
stagionale (implementare entrambe
le formule)
r, R, q, n-k?
Destagionalizzazione
Come si può imporre questo
vincolo?
• Vincolo: la somma dei valori originari deve
essere uguale alla somma dei valori
destagionalizzati in ogni anno (all’interno
del periodo s)
• Î la somma degli effetti stagionali nel
corso dell’anno deve essere zero
• Come si può imporre questo vincolo?
• Nella parametrizzazione che non
considera si prendono gli scarti dalla
media degli effetti stagionali
• Intercetta = media degli effetti stagionali
In simboli p. 141
Serie storica orginale e stima del trend
450.0
Vend
dite
400.0
350.0
300.0
250.0
tri
m
1
tri 20
m 01
2
tri 20
m 01
3
tri 20
m 01
4
tri 20
m 01
1
tri 20
m 02
2
tri 20
m 02
3
tri 20
m 02
4
tri 20
m 02
1
tri 20
m 03
tri 2 20
m 0
3 3
tri 20
m 03
4
tri 20
m 03
1
tri 20
m 04
2
tri 20
m 04
3
tri 20
m 04
4
tri 20
m 04
1
tri 20
m 05
2
tri 20
m 05
3
tri 20
m 05
4
20
05
200.0
Trimestri
Marco Riani - Analisi delle statistiche di vendita
40
Limiti del modello lineare tipo
Serie storica originale eserie destagionalizzata
450.0
•
•
•
•
Errori di osservazioni ( X stocastica?)
Valori sfasati della variabile dipendente
Sistemi di equazioni simultanee
Il ricercatore conosce tutte le variabili
esplicative rilevanti?
• Disturbi eteroschedastici
• Perturbazioni correlate
Vendite
V
400.0
350.0
300.0
250.0
trim
trim 1 20
01
trim 2 20
01
3
trim 20
01
trim 4 20
01
1
trim 20
02
2
trim 20
02
3
trim 20
02
4
trim 20
02
trim 1 20
03
2
trim 20
03
3
trim 20
03
4
trim 20
03
1
trim 20
04
trim 2 20
04
3
trim 20
04
trim 4 20
04
1
trim 20
05
2
trim 20
05
3
trim 20
4 2 05
00
5
200.0
Trimestri
Ipotesi di omoschedasticità
Verifica dell’ipotesi
dell’ipotesi di
omoschedasticità
Es. reddito e spesa
Es. reddito e spesa
Diagramma di dispersione sui valori originari
Residui basati sulla regressione che utilizza tutte le
osservazioni
450
200
350
150
300
100
250
50
Residu
y (spesa
400
200
150
100
-100
50
-150
0
0.000
-50
0
-50
50.000
100.000
150.000
200.000
250.000
300.000
350.000
X (reddito)
-200
0
50
100
150
200
250
300
350
Valori previsti
Marco Riani - Analisi delle statistiche di vendita
41
Test di omoschedasticità
Si può utilizzare il rapporto che
segue?
Test di omoschedasticità
• Il suddetto criterio per l'omoschedasticità
può anche essere applicato quando
l'ipotesi alternativa stabilisca che la
varianza delle perturbazioni è una
funzione crescente di una delle variabili
esplicative del modello. La procedura
consiste quindi nel riordinare le
osservazioni secondo i valori crescenti di
quella particolare variabile.
Riordinare le osservazioni
secondo i valori crescenti di
quella particolare variabile.
Test per l’ipotesi di
autocorrelazione nei residui
• Funzione di EXCEL cerca.vert
Marco Riani - Analisi delle statistiche di vendita
42
Coefficiente di autocorrelazione
Punto di partenza
• Se le perturbazioni sono incorrelate con la
stessa varianza otteniamo 2σ2
• Se le perturbazioni sono correlate positivamente
otteniamo 2σ2 - termine positivo
Test di Durbin e Watson
Procedure backward e forward
Evoluzione del coefficiente di determinazione nei diversi passi della
procedura backward
Indice di deterrminazione
(R2)
Selezione delle variabili
Test di Durbin e Watson
0.7
0.695
0.69
0.685
0.68
0.675
0.67
10
9
8
7
6
Numero di variabili inserite nel modello
Marco Riani - Analisi delle statistiche di vendita
43