La definizione di modello
Lo scopo della costruzione di un modello consiste nel
tentativo di spiegare in termini quantitativi,
verificare, prevedere, controllare la relazione che
intercorre tra le variabili rappresentate formalmente nel
modello.
1
2
Specificazione del modello
Vengono formalizzate in termini matematico-statistici
le ipotesi riguardanti gli aspetti teorici del fenomeno
da analizzare e le relative implicazioni.
La formalizzazione del modello in termini matematicostatistici consiste nel porre sotto forma di equazioni le
ipotesi di relazioni che intercorrono tra una o più
variabili da spiegare e più variabili esplicative.
Le variabili da spiegare prendono il nome di variabili
endogene (o dipendenti) ed il loro numero coincide con
le equazioni del modello, mentre le variabili esplicative
sono denominate esogene (o indipendenti).
3
Se la vera relazione tra le variabili in esame fosse
conosciuta con esattezza, il ricercatore sarebbe nella
condizione di comprendere, prevedere e controllare
perfettamente la variazione della variabile dipendente
alle modifiche delle variabili indipendenti.
Ciò in pratica accede di rado, perché non sempre si
conoscono tutte le variabili esplicative rilevanti, inoltre
alcune possono non essere misurabili o esserlo con
errore, oppure può non essere nota la forma funzionale
della relazione.
4
Identificazione e stima
Viene trattato il problema della quantificazione delle
relazioni tramite la stima dei coefficienti delle variabili
esplicative.
5
Verifica
Comprende l'applicazione di una serie di criteri (test
statistici) intesi a valutare:
 la coerenza fra specificazione adottata e dati osservati,
la capacità predittiva,
 l'idoneità del modello in ambito decisionale.
Se il modello non supera uno o più criteri di verifica, è
necessario ritornare alla fase del procedimento in cui si
ritiene si origini l'inconveniente e naturalmente
intervenire nella maniera più adeguata al fine di
realizzare le condizioni di superamento dei test.
6
Utilizzo
Con tre sbocchi ben distinti:
descrittivo, in cui vengono evidenziate le relazioni del
modello;
predittivo, per ottenere dei valori estrapolati;
normativo, in cui la validità del modello è utilizzata allo
scopo di ottenere e valutare decisioni alternative
susseguenti a diversi valori delle variabili.
7
Il MODELLO DI REGRESSIONE LINEARE MULTIPLA
La regressione lineare multipla è una tecnica di analisi
statistica multivariata che ha lo scopo di individuare la
relazione esistente tra una variabile dipendente e un
insieme di variabili indipendenti.
Nella sua forma generale, nel modello di regressione
lineare multipla una variabile Y (variabile dipendente o
endogena) è ipotizzata dipendere in modo lineare, tramite
un insieme di parametri, b, da un insieme di k variabili X
(variabili indipendenti o esplicative o regressori).
8
Yi=b0+b1X1i+b2X2i+b3X3i+…+bkXki+ei
I coefficienti del modello di
regressione misurano la
variazione della variabile
dipendente Y in corrispondenza
della variazione di una delle
variabili esplicative, quando si
tengono costanti le altre.
Componente
stocastica del modello
9
Modello senza errore
Modello con errore
Distanza tra
il
valore
osservato e
la retta
10
Esempio
Una catena di negozi alimentari vuole introdurre una
barretta energetica di basso prezzo.
Le vendite delle barrette energetiche sono esplose negli
ultimi anni e il grande magazzino ritiene che vi possa
essere un buon mercato per il suo nuovo prodotto.
Prima di introdurre la barretta in tutti i magazzini, la
divisione di marketing della catena intende stabilire
l’effetto che il prezzo e le promozioni all’interno dei negozi
possono avere sulle vendite.
11
Viene selezionato un campione di 34 negozi, i quali
presentano tutti approssimativamente il medesimo
volume di vendite, e si prendono in considerazione due
variabili indipendenti:
il prezzo del nuovo prodotto (X1) e
la spesa mensile per le attività promozionali (X2).
La variabile dipendente (Yi) è il numero di barrette del
nuovo prodotto vendute in un mese.
Yi =b0+b1X1i+b2X2i+ei
12
Negozio Vendite Prezzo Promozione Negozio Vendite Prezzo Promozione
1
4141
59
200
18
2730
79
400
2
3842
59
200
19
2618
79
400
3
3056
59
200
20
4421
79
400
4
3519
59
200
21
4113
79
600
5
4226
59
400
22
3746
79
600
6
4630
59
400
23
3532
79
600
7
3507
59
400
24
3825
79
600
8
3754
59
400
25
1096
99
200
9
5000
59
600
26
761
99
200
10
5120
59
600
27
2088
99
200
11
4011
59
600
28
820
99
200
12
5015
59
600
29
2114
99
400
13
1916
79
200
30
1882
99
400
14
675
79
200
31
2159
99
400
15
3636
79
200
32
1602
99
400
16
3224
79
200
33
3354
99
600
17
2295
79
400
34
2927
99
600
13
Ŷi=5.83752-53.2173X1i+3.6131X2i+ei
5.83752 è il numero di barrette che ci si aspetterebbe di
vendere ogni mese se prezzo e ammontare delle spese
promozionali fossero entrambi pari a 0.
-53.2173 indica che, dato un ammontare della spesa
promozionale, si dovrebbero vendere 53.21 barrette in meno
per ogni centesimo di aumento del prezzo
+3.6131 indica che, per un dato prezzo, si dovrebbero vendere
3.61 barrette in più per ogni centesimo speso in più in attività
promozionali
14
Tali stime permettono alla divisione di marketing di
prevedere l’effetto che eventuali decisioni in merito al
prezzo e all’attività promozionale possono avere sulle
vendite della barretta energetica.
Nell’esempio si ritiene che per un dato ammontare della
spesa promozionale, una riduzione di 10 centesimi del
prezzo aumenterebbe le vendite di 532.17 barrette.
Invece, per un dato prezzo, un aumento delle spese
promozionali pari a 100 determinerebbe un aumento del
numero di barrette vendute pari a 361.31.
15
Modello in forma compatta
y=Xb+e
(n,1)
y1
y2
y3
…
yn
(n,1)
=
x11
x21
x31
…
xn1
x12
x22
x32
…
xn2
(n,k)
(n,k)(k,1)
…
…
…
xij
…
x1k
x2k
x3k
…
xnk
b1
b2
…
bk
(k,1)
(n,1)
+
e1
e2
e3
…
en
(n,1)
16
Matrice varianza e covarianza
A
B
C
D
A
s2 A
covA,B covA,C …
B
…
s2 B
C
D
E
F
G
covB,C …
s2 C
…
E
F
G
…
…
covC,D …
…
s2 D
…
…
s2 E
…
s2 F
…
…
…
s2 G
17
La varianza è data da:
N
s
2
X

 (x
i
i 1
 )
2
N
La covarianza è data da:
N
Cov( X , Y ) 
 (x   )( y   )
i 1
i
X
i
Y
N
18
Caratteristiche della matrice varianza e
covarianza
La matrice varianza-covarianza:
- si calcola direttamente dalla matrice di dati iniziale;
- le righe e le colonne corrispondono alle variabili
esaminate;
- sulla diagonale principale si hanno le varianze delle
variabili esaminate e al di fuori le covarianze;
- è simmetrica.
19
Il coefficiente di correlazione lineare
La covarianza è un indice assoluto:
cioè permette di identificare la presenza di un legame tra
due variabili, ma nulla dice sul grado del legame.
Pertanto è opportuno considerare un indice relativo:
coefficiente di correlazione lineare
rxy 
Cov( X , Y )
s Xs Y
Varia tra –1 e 1
20
Matrice di correlazione
A
A 1
B
C
D…
E
F
G
B
C
D
E
F
corA,B corA,C …
1
corB,C …
1
G
…
…
corC,D …
…
1
…
…
1
…
1
…
…
…
1
21
Ipotesi alla base del modello
 Linearità del modello
 Non sistematicità della componente erratica E(e t) = 0
 Non sfericità degli errori:
s2
E (et e ) =
0
per t =
per t  
 Non stocasticità delle variabili esplicative, ossia i relativi valori
sono fissi e non casuali
 Non collinearità delle variabili esplicative
 Numerosità N delle osservazioni deve risultare di gran lunga
superiore al numero k delle variabili esplicative.
22
Selezione delle variabili da includere nel modello
Le variabili che possono descrivere un fenomeno sono
molto numerose e possono essere correlate tra loro.
Pertanto alcune possono essere rimosse dal modello
perché non necessarie alla descrizione del fenomeno.
Il problema della scelta delle variabili è molto delicato,
perché bisogna cercare di includere nel modello soltanto
quelle variabili la cui variazione apporta un contributo
reale alla variazione della variabile dipendente.
23
Per vedere quali variabili inserire nel modello, si possono
seguire vari metodi, tra cui i principali sono:
procedura in avanti (forward selection)
procedura all'indietro (backward selection)
procedura passo a passo (stepwise regression)
24
Procedura forward
Si parte dal modello con nessuna variabile esplicativa e si
include per prima la variabile esplicativa con il più elevato
coefficiente di correlazione con la variabile dipendente.
Se il coefficiente di correlazione di questa variabile è
significativamente diverso da zero, essa viene introdotta nel
modello e si passa alla ricerca della seconda variabile.
La significatività dei coefficienti è verificata con il test t.
t
r (m  2)
1 r2
2
25
La seconda variabile da introdurre è quella che presenta il più
elevato coefficiente di correlazione parziale con la variabile
dipendente.
Se il coefficiente è significativo, la variabile viene introdotta nel
modello, altrimenti il procedimento ha fine.
La significatività del coefficiente viene testata con il test F.
DevR
F
DevE
Il procedimento termina quando o tutte le variabili sono
incluse nel modello o quando sono esaurite le variabili
esplicative con coefficiente di correlazione significativo.
26
Procedura backward
Si parte dal considerare il modello con tutte le m variabili
esplicative e poi si procede all'eliminazione di una variabile
alla volta. Si calcola la significatività di tutti i coefficienti di
regressione con il test t e, tra tutti quelli non significativi, si
scarta la variabile che ha il coefficiente meno significativo.
bi  b i
t
sbi
Si ricalcola la funzione di regressione con le variabili
rimaste e si ripete la procedura, finché non si trova una
funzione di regressione in cui tutti i coefficienti delle
variabili sono significativi.
27
Procedura stepwise
È una combinazione delle due precedenti.
Si controlla ogni volta la significatività di tutti i coefficienti
di regressione parziale, perché l’aggiunta di una nuova
variabile nel modello può rendere non significativo il
coefficiente di regressione parziale di una variabile già
scelta, a causa di un’alta correlazione tra esse.
28
I parametri
Nel modello di regressione lineare multipla, intervengono:
o una parte empirica relativa alle determinazioni della
variabile dipendente e dell'insieme delle variabili
esplicative, la quale può essere considerata come un
campione di osservazioni della realtà;
o una parte non osservabile (incognita) costituita dal
vettore dei coefficienti b delle variabili esplicative, dal
vettore e della componente erratica e dal vettore
diagonale s2 della matrice varianze e covarianze di e.
29
Per la determinazione, tramite procedimenti di stima, dei
valori numerici da attribuire ai parametri incogniti
(b,e,s2), si assume di disporre di un campione di n
osservazioni relative alla variabile dipendente y e alle
variabili esplicative X.
Il modello campionario diventa:
y=Xb+e
30
Stima dei parametri incogniti
 metodi fondati sulla nozione di efficienza;
 metodi basati su criteri di accostamento;
 metodi di natura probabilistica basati sulla
nozione di verosimiglianza.
31
Metodi basati sulla nozione di efficienza
Essi ricercano uno stimatore efficiente con un problema
matematico di minimo condizionato, in cui la funzione
obiettivo è rappresentata dalla varianza dello stimatore
e il vincolo dalla condizione di correttezza cui lo
stimatore deve soddisfare.
32
Metodo dei minimi quadrati
- Stima di b
E’ basato sulla minimizzazione del quadrato dei residui e
quindi su un buon accostamento fra valori effettivi y e
valori teorici Xb.
y
residui
e  y  yˆ
ŷ
e
33
Si tratta di minimizzare la quantità :
min (e'e)= (y-Xb)'(y-Xb)=
=y’y+b’X’Xb-y’Xb-b’X’y=
=y’y+b’X’Xb-2b’X’y
Derivando
rispetto a b e
uguagliando a
zero la derivata
Da cui
(e' e )
 2X' Xb  2X' y  0
b
b = ( X'X)-1 X'y
Stimatore dei minimi quadrati del parametro b.
34
-
Stima del vettore e
e= y - Xb
Disponendo di uno stimatore soddisfacente di b, lo si
può sostituire al secondo membro e si ha:
e= y - X b
e = y - X (X'X)-1 X' y
e = (I - X (X'X)-1 X') y
e è uno stimatore del vettore e.
35
- Stima della varianza della componente erratica
Pur non conoscendo il vettore e, si dispone di un suo
stimatore efficiente rappresentato dal vettore dei
residui e, per cui si formula il problema di stima in
termini di e:
1 '
1
s  e e  ( y  Xb)' ( y  Xb)
n
n
2
36
Il precedente non è uno stimatore corretto, mentre:
1
1
s 
e' e 
( y  Xb )' ( y  Xb )
nk
nk
2
È uno stimatore corretto.
37
Metodo della massima verosimiglianza
Se la specificazione del modello postula che le
componenti stocastiche di disturbo siano indipendenti ed
identicamente distribuite sotto la forma della
distribuzione normale, il modello si trasforma in:
y=Xb+e
e ~ N (0, s2 I)
38
Varianza della
e
2
s (e) 0 … 0
2
2
E(e2e1) E(e2 ) … E(e2em)
0 s (e) … 0
E(ee) =
…
… … … = … … … … =
2
2
E(eme1) E(eme2) … E(em )
0 0 … s (e)
2
E(e1 )
E(e1e2) … E(e1em)
2
s (e) I
39
-Stima di b
Si tratta di dare
forma alla densità di
probabilità data da:
Avendo y la stessa
distribuzione
di
probabilità di e (in
quanto y=xb+e) si
ha:
p( e ) 
( 2 s2 )
p( y ) 

1
1
n
(2s 2 ) 2
n
2
e
e 'e
2s2
( y  Xb )'( y  Xb )
2
2
s
e

funzione di verosimiglianza
40
Con il modello campionario le due precedenti funzioni
diventano:
p (e) 
p( y ) 
1
n
(2s 2 ) 2
1
n
(2s 2 ) 2
e'e
 2
e 2s
( y  Xb)'( y  Xb)

2
2
s
e
41
Applicando ad entrambi i membri della funzione i
logaritmi:
(
n
n
y  Xb )' ( y  Xb)
2
log p( y )   log 2  log s 
2
2
2s 2
Derivando la
funzione
rispetto a b
si ha:
da cui
p
2

( X ' y  X ' Xb)  0
b
2s 2
b= (X'X)-1 X' y
che è lo stimatore di massima verosimiglianza di b.
42
- Stima di s2
Derivando
la
funzione
di
verosimiglianza
campionaria
rispetto a s2 si
ha:
Da cui:
( y  Xb)' ( y  Xb)
n
n
log p( y )   log 2  log s 2 
2
2
2s 2
p
n ( y  Xb)' ( y  Xb)
 2 
0
2
4
s
2s
2s
 ns 2  ( y  Xb)' ( y  Xb)

0
4
2s
1
s  ( y  Xb)' ( y  Xb)
n
2
stimatore di massima verosimiglianza di σ2.
43
Tale stimatore non è però corretto, per cui occorre
n
introdurre un fattore di correzione dato da:
nk
La stima corretta è data da:
1
n
s  ( y  Xb)' ( y  Xb)
n
nk
2
Ovvero
1
( y  Xb)' ( y  Xb)
s 
nk
2
stimatore corretto di
σ2.
44
La verifica della validità del modello
Nella fase di verifica sono utilizzati una serie di criteri o
di test statistici allo scopo di valutare la coerenza tra il
modello formulato ed i risultati forniti dal campione di
dati osservati.
In effetti, si vuole verificare la validità delle variabili
esplicative, considerate nel loro insieme, a spiegare le
variazioni della variabile dipendente.
45
Successivamente, per verificare la capacità predittiva
del modello, viene testato l'apporto della singola
variabile esplicativa alla variabilità di quella
dipendente.
I due approcci che in genere sono seguiti fanno
riferimento ai criteri utilizzati per la stima dei
parametri del modello.
46
Nel caso si ignori il tipo di distribuzione della componente
erratica i criteri si basano sulla nozione di accostamento
tramite
il coefficiente di determinazione R2
dev. Re gr.
dev. Re s.
R 
 1
dev.Tot .
dev.Tot .
2
misura l'incidenza della variabilità spiegata dal complesso
di variabili esplicative sulla variabilità totale della
variabile dipendente.
Tale indice può assumere un valore tra 0 e 1.
47
 (y
 y)
2
i
.
i
Devianza totale
.
.
.
.
.
.
. .
. .
.
.
Retta di regressione
.
2
ˆ
(
)
y

y

. .i
i
Dev. residua
. .
2
ˆ
 ( yi  y )
i
Dev.
regressione
Valore medio
48
All’aumentare del numero di variabili esplicative, aumenta
anche il valore di R2, per cui spesso è utilizzato al suo posto
il coefficiente di determinazione corretto, dato da:
Rc2
n 1
 1  (1  R )
nk
2
dove n è il numero di osservazioni campionarie e k il
numero di variabili esplicative del modello.
49
Il coefficiente di determinazione varia tra 0 e 1.
Valori prossimo a 1 (superiori a 0,80) indicano una
buona coerenza tra modello e dati osservati.
Il coefficiente di determinazione corretto può assumere
anche valori negativi e ciò si verifica quando
R2 <(k-1)/(n-1).
50
L’apporto di una singola variabile esplicativa alla
variazione della variabile dipendente viene misurato
facendo ricorso al coefficiente di determinazione
parziale, dato dal rapporto tra la devianza parziale di
regressione tra la variabile in esame e la variabile
dipendente: al netto delle altre variabili, rapportata
alla devianza di regressione.
51
Test statistici
Nel caso sia nota la distribuzione di probabilità della
componente erratica, per verificare la validità del modello
è possibile far ricorso ad un insieme di test.
52
Test F
Il test è utilizzato per valutare la significatività del
modello, considerando congiuntamente le variabili
esplicative.
53
Ipotesi nulla
Ho : b1=b2=...=bk=0
non vi è relazione lineare tra la variabile dipendente e le
variabili esplicative;
Ipotesi alternativa
H1 :b1,b2 ... bk  0
almeno uno dei coefficienti di regressione è diverso da
zero.
54
Tramite un’analisi della varianza si ricavano i valori delle due
varianze da sottoporre al test F, cioè:
var.Re gr.
F
var. Err.
Il valore empirico F viene confrontato con il valore teorico
F* con (k, n-k) gradi di libertà rilevato dalle tavola F in
relazione ad un prefissato livello di significatività.
55
Se F > F* si rigetta l'ipotesi nulla
Se F < F* si accetta l'ipotesi nulla
F di Fisher
F*
F*
Zona di accettazione
Valore critico

p-level
Fcalc
Zona di rifiuto
56
Test t
Per verificare l'apporto delle singole variabili esplicative alla
variabilità di quella dipendente, si sottopone a test la
significatività della relazione tra una qualsiasi variabile
esplicativa, si supponga la i-ma, e la variabile dipendente.
57
Ipotesi nulla
Ho:bi=0
Ipotesi alternativa
H1:bi 0
Il test utilizzato è
la t di Student
bi
t
sbi
bi
è
la
stima
del
coefficiente di regressione
sbi è l'errore standard di bi e
misura la variabilità dei valori
teorici della variabile dipendente
ottenuti considerando la i-ma
variabile esplicativa.
58
Il valore di t empirico è confrontato con quello teorico t* rilevato
in corrispondenza di (n-k) gradi di libertà ed in base ad un
prefissato livello di significatività.
Se t > t* si rigetta l'ipotesi nulla
Se t < t* si accetta l'ipotesi nulla
Valore critico
Valore critico
0
-3
0
-ta/ 2
Zona di rifiuto
0
zona di accettazione
ta/ 2
3
Zona di rifiuto
59
La non sistematicità della componente erratica
L'ipotesi di non sistematicità degli errori:
E(ei) = 0
è facilmente superabile in quanto aumentando la
numerosità n del campione, per il teorema del limite
centrale, essa sarà soddisfatta.
60
Esempio
Supponiamo di voler analizzare la relazione tra il consumo ad un
certo tempo, il reddito allo stesso tempo, il reddito al temo anteriore
e il consumo al tempo anteriore.
Supponiamo di avere la seguente serie storica di dati relativi al pil e
al consumo:
61
ANNI
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
Ct
14682,05
14836,67
14930,54
15267,05
15740,73
16011,72
16591,20
17173,07
17688,11
18059,65
18353,78
18933,31
18554,02
18846,34
19071,55
19134,56
Rt
18687,92
18731,00
18892,91
19320,85
19816,29
20341,77
10935,43
21704,76
22295,51
11730,00
22945,59
23403,62
23060,74
23508,20
24171,57
24284,72
Rt-1
18624,48
18687,92
18731,00
18892,91
19320,85
19816,29
20341,77
10935,43
21704,76
22295,51
11730,00
22945,59
23403,62
23060,74
23508,20
24171,57
Ct-1
14405,14
14682,05
14836,67
14930,54
15267,05
15740,73
16011,72
16591,20
17173,07
17688,11
18059,65
18353,78
18933,31
18554,02
18846,34
19071,55
62
L’obiettivo è quello di individuare la relazione che
intercorre tra i consumi al tempo t, scelti come variabile
dipendente, e le rimanenti variabili prese o singolarmente
o tutte insieme, scelte come indipendenti:
Ct=b0+b1Ct-1+b2Rt+b3Rt-1
63
Il programma utilizzato per l’elaborazione dei dati è il software
statistico SPSS.
Dopo aver inserito i dati, il programma prevede diverse opzioni
i cui valori, per alcune, sono già inseriti per default, ma che
l’utilizzatore del programma può modificare qualora le esigenze
e gli obiettivi dell’analisi lo richiedano, per altre occorre inserire
i valori appositamente.
Tra le procedure di selezione delle variabili è stata scelta
quella stepwise.
Tale procedura identifica tra le tre variabili considerate il
consumo al tempo t-1 come quella maggiormente
correlata ai consumi attuali. Quindi viene scelta come
prima variabile da inserire nel modello.
64
Modello
Variabili
inserite
1
Cons t-1
Variabili
rimosse
Metodo
Per passi
(criteri:
probabilità di F
di inserimento
<=,050
Probabilità di F
di
rimozione>=,1
00)
65
Per tale variabile viene calcolata la significatività
statistica attraverso il test F, sulla base dei livelli di
significatività presenti nelle opzioni o di quelli modificati
dall’utilizzatore.
L’opzione riguardo i livelli di significatività della F
prevede due valori: il primo per l’inserimento della
variabile, il secondo per la rimozione della stessa dal
modello.
Nella pratica è conveniente scegliere valori differenziati
per l’entrata o l’uscita della variabile.
66
In genere, un valore di significatività più elevato è previsto
per l’entrata mentre un valore più basso per l’uscita della
variabile dal modello, onde evitare che una variabile esca dal
modello subito dopo essere stata inserita.
Se la variabile è significativa viene inserita nel modello,
altrimenti viene rifiutata; il procedimento si ripete per tutte
le altre variabili.
67
Nell’esempio, dopo aver accettato i valori di
significatività di F inseriti per defaut, 0,05 per
l’inserimento e 0,1 per il rifiuto, si è ottenuto che la
variabile cons t-1 è la più significativa per la spiegazione
della variabilità dei consumi.
68
La procedura si è arrestata solo dopo un passo, essendo
evidentemente divenuti inferiori a 0,5%, e quindi non
significativi, i contributi incrementali nella spiegazione della
variabile dipendente delle altre tre variabili nei passi
successivi.
Inoltre nessuna delle variabili inserite è stata in seguito
rimossa dal modello.
69
L’ordine in cui le variabili sono state inserite nel modello
non dà informazioni sulla loro importanza nella
spiegazione della Y.
Per ottenere tale informazione è necessario è
necessario richiedere in input al programma un
ulteriore test, il test t, il quale misura la significatività di
ogni coefficiente di regressione: maggiore è il suo
valore in termini assoluti, maggiore è l’importanza della
variabile presa in considerazione.
70
Coefficienti
Coefficien
Coefficienti
ti
non
standardi
standardizzati
zzati
1
Error
B
e std.
834
635
,968 ,038
variabili
inserite
ad
ogni passo
Beta
,990
t
Sig.
1,3 ,210
26 ,000
Correlazioni
Parziali
Ordine Parzia indipen
zero
li
denti
,990
,990
,990
Statistiche di
collinearità
Tolleran
za
1,000
VIF
1,000
Fattore inflativo
della varianza
71
La tolleranza misura l’originalità di ogni variabile inserita,
cioè l’apporto informativo non introdotto da altri predittori.
È calcolata come complemento a 1 del coefficiente di
determinazione e varia tra 0 e 1: un valore prossimo
all’unità indica che la variabile inserita non è correlata con
quelle già presenti (il suo contributo informativo è
significativo), viceversa per valori prossimi allo zero.
72
Per default il programma presenta un valore la tolleranza
pari a 0,0001: modificando tale valore con uno più elevato,
si rende il modello più restrittivo, mentre inserendo un
valore più basso, si rende il modello meno restrittivo,
consentendo così l’entrata di un numero maggiore di
variabili, anche se il loro contributo informativo è basso.
Il fattore di inflazione della varianza è il reciproco della
tolleranza e mette in relazione la tolleranza con la variabilità
della variabile dipendente, nel senso che variabili con un
elevato valore della tolleranza contribuiscono meno di altre
alla spiegazione della variabilità della Y.
73
Grafico a dispersione
Variabile dipendente: CONSUMI
20000
19000
18000
17000
16000
15000
14000
-1,5
-1,0
-,5
0,0
,5
Regressione Valore previsto standardizzato
1,0
1,5
74