Modelli con predittori qualitativi e modelli con interazioni

10/13/2015
Modelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e
modelli con interazioni
Strumenti quantitativi per la gestione
Emanuele Taufer
Utilizzare variabili indipendenti qualitative (VIQ)
Codifica binaria 0,1
Esempio: salari dei manager
Scatter­plot e frequenze
RLS ­ output
Interpretazione
Dati e rette stimate
VIQ con più di due livelli
Modelli con interazioni
Modello bivariato con interazione
Advertising ­ continua
Interazione tra variabile quantitativa e variabile qualitativa
Grafici M1 ­ M2
Stima M1 ­ M2
Bontà di adattamento M1 ­ M2
Relazioni non­lineari
Modelli di regressione multipla
Potenziali problemi
Riferimenti bibliografici
Utilizzare variabili indipendenti qualitative (VIQ)
I modelli di regressione possono includere VIQ (o categoriche)
Le categorie di una VIQ sono definite livelli
Poiché i livelli di una VIQ non sono misurati su una scala numerica naturale, per evitare di introdurre
relazioni inesistenti o soggettive nel modello è necessario usare un codice binario.
Una soluzione è quella di definire nuove variabili, le cd variabili dummy, che possono assumere due
soli valori: 0 oppure 1.
Nei dati ExecSal.txt abbiamo incontrato una variabile qualitativa: Gender che classifica le unità in M e
F
Codifica binaria 0,1
Supponiamo in prima battuta, di voler modellare il Salario (Y ) in funzione del carattere qualitativo
Gender (M o F).
Definiamo la variabile binaria (o dummy):
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/3d_VIQ.html
{
1/9
10/13/2015
Modelli con predittori qualitativi e modelli con interazioni
xi = {
àè
l'unità è
0
se l'unit
F
1
se
M
Il nostro semplice modello assume due possibili valori
yi = β 0 + β 1 x i + εi = {
β0
se l'unit
F
β 0 + β 1 + εi
se
M
può essere interpretato come il salario atteso per il gruppo delle donne
β0 + β1
β1
àè
l'unità è
β 0 + εi
è il salario atteso per il gruppo dei maschi
può essere inerpretato come differenza media tra i salari dei due gruppi
il gruppo codificato con il valore 0 diventa quello di riferimento, definito anche livello base.
In questo semplice modello i valori previsti sono solo due: i redditi medi per i due gruppi
Esempio: salari dei manager
Carichiamo il data set ExecSal.txt
Es=read.table("http://www.cs.unitn.it/~taufer/Data/ExecSal.txt",header=T)
Poiché la variabile Gender nel dataset è codificata come variabile numerica procediamo a
trasformarla in factor (variabile qualitativa) con i livelli M e F
Es$Gender=factor(Es$Gender,levels=c(0,1),labels=c("F","M"))
str(Es)
'data.frame': 100 obs. of 6 variables:
$ Salary : int 93300 130000 88200 74400 115300 70400 114200 72600 108600 68600 ...
$ Experience: int 12 25 20 3 19 14 18 2 14 4 ...
$ Education : int 15 14 14 19 12 13 18 17 13 16 ...
$ Gender : Factor w/ 2 levels "F","M": 2 2 1 2 2 1 2 2 2 2 ...
$ Employees : int 240 510 370 170 520 420 290 200 560 230 ...
$ Assets : int 170 160 170 170 150 160 170 180 180 160 ...
Scatter­plot e frequenze
## Warning: package 'ggplot2' was built under R version 3.2.2
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/3d_VIQ.html
2/9
10/13/2015
Modelli con predittori qualitativi e modelli con interazioni
summary(Gender)
F M 34 66 RLS ­ output
reg<‐lm(Salary~Gender)
summary(reg)
Call:
lm(formula = Salary ~ Gender)
Residuals:
Min 1Q Median 3Q Max ‐44786 ‐18832 283 17389 68814 Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 83847 3999 20.965 < 2e‐16 ***
GenderM 20739 4923 4.213 5.61e‐05 ***
‐‐‐
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 23320 on 98 degrees of freedom
Multiple R‐squared: 0.1533, Adjusted R‐squared: 0.1447 F‐statistic: 17.75 on 1 and 98 DF, p‐value: 5.61e‐05
Interpretazione
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/3d_VIQ.html
3/9
10/13/2015
Modelli con predittori qualitativi e modelli con interazioni
Il salario medio per il gruppo delle donne è 83847
Il salario medio per il gruppo dei maschi è 83847 + 20739
= 104586
I maschi percepiscono in media un salario più elevato rispetto al gruppo delle donne. La
differenza media è pari a 20739 .
Il t­test relativo a β 1 è significativo, indicando che la differenza media di salari tra maschi e
femmine è da consederare una differenza strutturale piuttosto che un risultato casuale.
il test F indica che nel complesso il modello funziona, sebbene R2
(difficile aspettarsi quacosa di diverso con questi dati).
= 0.15
sia molto basso
Dati e rette stimate
Si noti che i salari medi forniti dalla regressione sono le medie dei due gruppi
mean(Salary[Gender=="F"])
[1] 83847.06
mean(Salary[Gender=="M"])
[1] 104586.4
VIQ con più di due livelli
Di regola, se la VIQ ha q
= 3, 4 …
livelli sono necessarie q − 1 variabili dummy per la codifica.
Il livello non codificato diventa quello di riferimento.
Esempio: se una VIQ ha tre livelli, A , B and C , è necessario definire due dummy
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/3d_VIQ.html
{
4/9
10/13/2015
Modelli con predittori qualitativi e modelli con interazioni
x i1 = {
x i2 = {
à è A
1
se l'unit
0
altrimenti
1
se l'unit
0
altrimenti
à è B
Il livello C diventa la categoria di riferimento.
Si veda il testo per ulteriori dettagli ed esempi.
Modelli con interazioni
Nell’analisi dei dati Advertising abbiamo usato un modello additivo
S ales = β 0 + β 1 T V + β 2 Radio + ε
dove l’effetto di TV è sempre pari a β 1 indipendentemente dalla spesa in Radio
Supponiamo che la spesa per la pubblicità radiofonica in realtà aumenti l’efficacia della pubblicità
televisiva,
In questa situazione, dato un budget fisso di $ 100.000, spendendone metà in Radio e per metà in
TV dovrebbe aumentare in misura superiore le vendite rispetto alla scelta di allocare l’intero importo
solo a TV
Nel marketing, questo è noto come effetto sinergico, e in statistica viene indicato come un effetto di
interazione.
Modello bivariato con interazione
Un modo per consentire effetti di interazione è includere un terzo predittore, chiamato termine di
interazione, che è costruito calcolando il prodotto di X1 e X2 . Ossia
Y = β 0 + β 1 X1 + β 2 X2 + β 3 X1 X2 + ε
Per capire come funziona l’inclusione del termine di interazione si noti che possiamo riformulare
Y = β 0 + (β 1 + β 3 X 2 )X 1 + β 2 X 2 + ε
dove possiamo notare che l’effetto di X1 dipende anche da X2 e viceversa.
Advertising ­ continua
Un modello lineare che utilizza Radio, TV, e un’interazione tra i due per prevedere le vendite prende
la forma
S ales = β 0 + β 1 T V + β 2 Radio + β 3 Radio × T V + ε
Possiamo interpretare β 3 come aumento dell’efficacia della pubblicità TV per un incremento unitario
di pubblicità Radio (o viceversa).
## Warning: package 'xtable' was built under R version 3.2.2
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/3d_VIQ.html
5/9
10/13/2015
Modelli con predittori qualitativi e modelli con interazioni
EstimateStd. Errort valuePr(>|t|)
(Intercept) 6.7502 0.2479 27.230.0000
TV 0.0191 0.0015 12.700.0000
Radio 0.0289 0.0089 3.240.0014
TV:Radio (TV:Radio) 0.0011 0.0001 20.730.0000
RSER.squaredAdj.R.squaredF.statisticp.value
10.94
0.97
0.97 1963.06
0.00
Il p­value per il termine di interazione, TV × Radio, è estremamente basso, indicando che vi è una
forte evidenza per Ha : β 3 ≠ 0 . In altre parole, è chiaro che il vero rapporto non è additivo.
per il modello è 96.8 rispetto all’89.7 per il modello con TV e Radio ma senza termine di
interazione.
R
2
In questo esempio, i p­value associati a TV, Radio (effetti principali), e TV× Radio (interazione) sono
tutti statisticamente significativi (Tabella 3.9), e quindi è ovvio che tutte e tre le variabili dovrebbero
essere incluse nel modello.
Può capitare che il termine di interazione abbia un p­value piccolo, ma gli effetti principali associati (in
questo caso, TV e Radio) no.
Il principio gerarchico afferma che se includiamo un’interazione in un modello, dobbiamo includere
anche gli effetti principali, anche se i p­value associati non sono significativi.
Interazione tra variabile quantitativa e variabile
qualitativa
Riprendiamo in considerazione il dataset ExecSal.txt e, per il momento, consideriamo le sole due
variabili Experience e Gender
Confrontiamo i due modelli
M1
S alary = β 0 + β 1 Gender + β 2 Exp + ε
M2
S alary = β 0 + β 1 Gender + β 2 Exp + β 3 Gender × Exp + ε
Poiché gender è una variabile dummy, i modelli possono essere riscritti come
M1
S alary = {
àè
l'unità è
β 0 + β 2 Exp + ε
se l'unit
F
β 0 + β 1 + β 2 Exp + ε
se
M
M2
S alary = {
àè
F
àè
M
β 0 + β 2 Exp + ε
se l'unit
β 0 + β 1 + (β 2 + β 3 )Exp + ε
se l'unit
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/3d_VIQ.html
6/9
10/13/2015
Modelli con predittori qualitativi e modelli con interazioni
β1
indica il differenziale medio di Salario M ­ F
β3
indica il differenziale medio di salario per unità di Experience
In altre parole il M2 ammette un tasso di crescita di salario, in base all’esperienza, diversa per i
due gruppi
Grafici M1 ­ M2
## Warning: package 'gridExtra' was built under R version 3.2.2
Stima M1 ­ M2
M1
Estimate Std. Error t valuePr(>|t|)
(Intercept)50614.31193161.2793 16.010.0000
GenderM18894.21482743.2526 6.890.0000
Experience 2633.8308 177.8746 14.810.0000
.
M2
Estimate Std. Error t valuePr(>|t|)
(Intercept)58049.76824461.1793 13.010.0000
GenderM 7798.50425497.4702 1.420.1593
Experience 2044.5405 308.5645 6.630.0000
GenderM:Experience 864.1216 373.6533 2.310.0229
Bontà di adattamento M1 ­ M2
M1
RSE R.squaredAdj.R.squaredF.statisticp.value
112981.61
0.74
0.73
138.26
0.00
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/3d_VIQ.html
7/9
10/13/2015
Modelli con predittori qualitativi e modelli con interazioni
.
M2
RSE R.squaredAdj.R.squaredF.statisticp.value
112700.08
0.75
0.75
98.09
0.00
In base al M1 un anno di esperienza è pagato in media 2633.8 sia per M che per F
In base al M2 un anno di esperienza è pagato in media 2044.5 per F e 2044.5 + 864.1 = 2908.6 per M
il p­value del t­test relativo a Gender nel M2 NON è significativo tuttavia la variabile non è in
discussione per criterio di gerarchia
il p­value del t­test relativo all’interazione nel M2 è significativo e pertanto il M2 è preferito al
M1
Relazioni non­lineari
In alcuni casi, la relazione tra variabile risposta e predittori può essere non lineare.
Un modo molto semplice per estendere direttamente il modello lineare a relazioni non lineari, è quello
di utilizzare la regressione polinomiale.
Ad esempio la regressione quadratica
Y = β 0 + β 1 X1 + β 2 X
2
1
+ ε
o cubica
Y = β 0 + β 1 X1 + β 2 X
2
1
+ β3 X
3
1
+ ε
permettono di seguire andamenti non lineari dei dati.
Si noti che il modello è ancora lineare nei parametri e quindi può essere stimato semplicemente
usando il metodo dei minimi quadrati.
L’uso di potenze di ordine troppo elevato può diventare tuttavia numericamente instabile e produrre
overfitting
Modelli di regressione multipla
In generale un modello di regressione può contenere diverse componenti
variabili quantitative e variabili qualitative
interazioni tra variabili quantitave e qualitative (qualsiasi combinazione)
componenti polinomiali (variabili al quadrato, al cubo, …)
Dal punto di vista pratico la regressione lineare può diventare un strumento di analisi molto potente e
flessibile.
Potenziali problemi
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/3d_VIQ.html
8/9
10/13/2015
Modelli con predittori qualitativi e modelli con interazioni
1. Non­linearità.
2. Correlazione degli errori.
3. Varianza non­costante negli errori.
4. Valori anomali.
5. Osservazioni influenti.
6. Collinearità.
Si veda il testo per una breve panoramica
Riferimenti bibliografici
An Introduction to Statistical Learning, with applications in R. (Springer, 2013)
Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G.
James, D. Witten, T. Hastie e R. Tibshirani
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/3d_VIQ.html
9/9