Combinare Regressione e ANOVA: predittori
quantitativi e categoriali
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
1 / 58
Introduzione
Controllare per una Covariata
La regressione multipla consente di studiare la relazione tra variabili
quantitative
L’ANOVA consente di verificare come le medie di una variabile quantitativa si
modifichino al variare di più predittori categoriali (qualitativi)
Domanda: è possibile costruire modelli che studino le variazione tra le medie
in relazione a predittori di qualsiasi tipo?
Ciò è possibile combinando le due metodologie
Esempio: si stanno confrontando i redditi di M e F anche in relazione ai
differenti livelli di esperienza (anzianità di servizio)
Si vuole studiare come variano i redditi medi tra i due gruppi (M e F)
controllando per i valori di un altro predittore quantitativo (esperienza)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
2 / 58
Introduzione
Controllare per una Covariata
La regressione multipla consente di studiare la relazione tra variabili
quantitative
L’ANOVA consente di verificare come le medie di una variabile quantitativa si
modifichino al variare di più predittori categoriali (qualitativi)
Domanda: è possibile costruire modelli che studino le variazione tra le medie
in relazione a predittori di qualsiasi tipo?
Ciò è possibile combinando le due metodologie
Esempio: si stanno confrontando i redditi di M e F anche in relazione ai
differenti livelli di esperienza (anzianità di servizio)
Si vuole studiare come variano i redditi medi tra i due gruppi (M e F)
controllando per i valori di un altro predittore quantitativo (esperienza)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
2 / 58
Introduzione
Controllare per una Covariata
La regressione multipla consente di studiare la relazione tra variabili
quantitative
L’ANOVA consente di verificare come le medie di una variabile quantitativa si
modifichino al variare di più predittori categoriali (qualitativi)
Domanda: è possibile costruire modelli che studino le variazione tra le medie
in relazione a predittori di qualsiasi tipo?
Ciò è possibile combinando le due metodologie
Esempio: si stanno confrontando i redditi di M e F anche in relazione ai
differenti livelli di esperienza (anzianità di servizio)
Si vuole studiare come variano i redditi medi tra i due gruppi (M e F)
controllando per i valori di un altro predittore quantitativo (esperienza)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
2 / 58
Introduzione
Controllare per una Covariata
La regressione multipla consente di studiare la relazione tra variabili
quantitative
L’ANOVA consente di verificare come le medie di una variabile quantitativa si
modifichino al variare di più predittori categoriali (qualitativi)
Domanda: è possibile costruire modelli che studino le variazione tra le medie
in relazione a predittori di qualsiasi tipo?
Ciò è possibile combinando le due metodologie
Esempio: si stanno confrontando i redditi di M e F anche in relazione ai
differenti livelli di esperienza (anzianità di servizio)
Si vuole studiare come variano i redditi medi tra i due gruppi (M e F)
controllando per i valori di un altro predittore quantitativo (esperienza)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
2 / 58
Introduzione
Controllare per una Covariata
La regressione multipla consente di studiare la relazione tra variabili
quantitative
L’ANOVA consente di verificare come le medie di una variabile quantitativa si
modifichino al variare di più predittori categoriali (qualitativi)
Domanda: è possibile costruire modelli che studino le variazione tra le medie
in relazione a predittori di qualsiasi tipo?
Ciò è possibile combinando le due metodologie
Esempio: si stanno confrontando i redditi di M e F anche in relazione ai
differenti livelli di esperienza (anzianità di servizio)
Si vuole studiare come variano i redditi medi tra i due gruppi (M e F)
controllando per i valori di un altro predittore quantitativo (esperienza)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
2 / 58
Introduzione
Controllare per una Covariata
La regressione multipla consente di studiare la relazione tra variabili
quantitative
L’ANOVA consente di verificare come le medie di una variabile quantitativa si
modifichino al variare di più predittori categoriali (qualitativi)
Domanda: è possibile costruire modelli che studino le variazione tra le medie
in relazione a predittori di qualsiasi tipo?
Ciò è possibile combinando le due metodologie
Esempio: si stanno confrontando i redditi di M e F anche in relazione ai
differenti livelli di esperienza (anzianità di servizio)
Si vuole studiare come variano i redditi medi tra i due gruppi (M e F)
controllando per i valori di un altro predittore quantitativo (esperienza)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
2 / 58
Introduzione
Analisi della Covarianza
In questo caso la variabile rispetto alla quale si effettua il controllo prende il
nome di covariata
Il modello di regressione, in presenza di covariate, prende il nome di Analisi
della Covarianza
Sostanzialmente, gli effetti di un predittore (qualitativo) possono modificarsi
al variare dei livelli di un altro predittore (quantitativo) definito covariata
Es.: i redditi di M e F sono generalmente differenti (+M -F). Ma sappiamo
che il reddito è positivamente correlato con l’esperienza. Se i M tendono ad
avere più esperienza lavorativa delle F, allora la differenza nei loro redditi è
dovuta alla variabile esperienza e non al sesso
Per ragioni di semplicità espositiva ci limiteremo al caso di un predittore
categoriale e di un predittore quantitativo
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
3 / 58
Introduzione
Analisi della Covarianza
In questo caso la variabile rispetto alla quale si effettua il controllo prende il
nome di covariata
Il modello di regressione, in presenza di covariate, prende il nome di Analisi
della Covarianza
Sostanzialmente, gli effetti di un predittore (qualitativo) possono modificarsi
al variare dei livelli di un altro predittore (quantitativo) definito covariata
Es.: i redditi di M e F sono generalmente differenti (+M -F). Ma sappiamo
che il reddito è positivamente correlato con l’esperienza. Se i M tendono ad
avere più esperienza lavorativa delle F, allora la differenza nei loro redditi è
dovuta alla variabile esperienza e non al sesso
Per ragioni di semplicità espositiva ci limiteremo al caso di un predittore
categoriale e di un predittore quantitativo
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
3 / 58
Introduzione
Analisi della Covarianza
In questo caso la variabile rispetto alla quale si effettua il controllo prende il
nome di covariata
Il modello di regressione, in presenza di covariate, prende il nome di Analisi
della Covarianza
Sostanzialmente, gli effetti di un predittore (qualitativo) possono modificarsi
al variare dei livelli di un altro predittore (quantitativo) definito covariata
Es.: i redditi di M e F sono generalmente differenti (+M -F). Ma sappiamo
che il reddito è positivamente correlato con l’esperienza. Se i M tendono ad
avere più esperienza lavorativa delle F, allora la differenza nei loro redditi è
dovuta alla variabile esperienza e non al sesso
Per ragioni di semplicità espositiva ci limiteremo al caso di un predittore
categoriale e di un predittore quantitativo
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
3 / 58
Introduzione
Analisi della Covarianza
In questo caso la variabile rispetto alla quale si effettua il controllo prende il
nome di covariata
Il modello di regressione, in presenza di covariate, prende il nome di Analisi
della Covarianza
Sostanzialmente, gli effetti di un predittore (qualitativo) possono modificarsi
al variare dei livelli di un altro predittore (quantitativo) definito covariata
Es.: i redditi di M e F sono generalmente differenti (+M -F). Ma sappiamo
che il reddito è positivamente correlato con l’esperienza. Se i M tendono ad
avere più esperienza lavorativa delle F, allora la differenza nei loro redditi è
dovuta alla variabile esperienza e non al sesso
Per ragioni di semplicità espositiva ci limiteremo al caso di un predittore
categoriale e di un predittore quantitativo
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
3 / 58
Introduzione
Analisi della Covarianza
In questo caso la variabile rispetto alla quale si effettua il controllo prende il
nome di covariata
Il modello di regressione, in presenza di covariate, prende il nome di Analisi
della Covarianza
Sostanzialmente, gli effetti di un predittore (qualitativo) possono modificarsi
al variare dei livelli di un altro predittore (quantitativo) definito covariata
Es.: i redditi di M e F sono generalmente differenti (+M -F). Ma sappiamo
che il reddito è positivamente correlato con l’esperienza. Se i M tendono ad
avere più esperienza lavorativa delle F, allora la differenza nei loro redditi è
dovuta alla variabile esperienza e non al sesso
Per ragioni di semplicità espositiva ci limiteremo al caso di un predittore
categoriale e di un predittore quantitativo
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
3 / 58
Confrontare le medie e le rette di regressione
Confrontare le medie e le rette di regressione
Notazione:
a X variabile esplicativa quantitativa
b Z variabile esplicativa categoriale. Se dicotomica è una dummy, se politomica
segue un set di dummy
Se controllo per Z, sto studiando la relazione di X su Y in ogni categoria di Z
Se controllo per X, sto studiando se vi sono differenze nelle medie di Y al
variare di Z, per ogni valore di X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
4 / 58
Confrontare le medie e le rette di regressione
Confrontare le medie e le rette di regressione
Notazione:
a X variabile esplicativa quantitativa
b Z variabile esplicativa categoriale. Se dicotomica è una dummy, se politomica
segue un set di dummy
Se controllo per Z, sto studiando la relazione di X su Y in ogni categoria di Z
Se controllo per X, sto studiando se vi sono differenze nelle medie di Y al
variare di Z, per ogni valore di X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
4 / 58
Confrontare le medie e le rette di regressione
Confrontare le medie e le rette di regressione
Notazione:
a X variabile esplicativa quantitativa
b Z variabile esplicativa categoriale. Se dicotomica è una dummy, se politomica
segue un set di dummy
Se controllo per Z, sto studiando la relazione di X su Y in ogni categoria di Z
Se controllo per X, sto studiando se vi sono differenze nelle medie di Y al
variare di Z, per ogni valore di X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
4 / 58
Confrontare le medie e le rette di regressione
Confrontare le medie e le rette di regressione
Notazione:
a X variabile esplicativa quantitativa
b Z variabile esplicativa categoriale. Se dicotomica è una dummy, se politomica
segue un set di dummy
Se controllo per Z, sto studiando la relazione di X su Y in ogni categoria di Z
Se controllo per X, sto studiando se vi sono differenze nelle medie di Y al
variare di Z, per ogni valore di X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
4 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Riprendiamo l’esempio sui prezzi di vendita delle case
Casa
1
2
3
4
5
6
7
8
Prezzo
279900
146500
237700
200000
159900
499900
265500
289900
Dimensione
2048
912
1654
2068
1477
3153
1355
2075
Tasse
3104
1173
3076
1608
1454
2997
4054
3002
Stanze Letto
4
2
4
3
3
3
3
3
Bagni
2
1
2
2
3
2
2
2
Nuova
no
no
no
no
no
sı̀
no
sı̀
La variabile risposta è il Prezzo
I predittori sono: Dimensione (in yarde quadrate) e Casa Nuova (1 = S e
0 = N)
L’analisi consisterà nel costruire due rette di regressione (una per le case
nuove e una per le vecchie) e confrontare i risultati
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
5 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Riprendiamo l’esempio sui prezzi di vendita delle case
Casa
1
2
3
4
5
6
7
8
Prezzo
279900
146500
237700
200000
159900
499900
265500
289900
Dimensione
2048
912
1654
2068
1477
3153
1355
2075
Tasse
3104
1173
3076
1608
1454
2997
4054
3002
Stanze Letto
4
2
4
3
3
3
3
3
Bagni
2
1
2
2
3
2
2
2
Nuova
no
no
no
no
no
sı̀
no
sı̀
La variabile risposta è il Prezzo
I predittori sono: Dimensione (in yarde quadrate) e Casa Nuova (1 = S e
0 = N)
L’analisi consisterà nel costruire due rette di regressione (una per le case
nuove e una per le vecchie) e confrontare i risultati
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
5 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Riprendiamo l’esempio sui prezzi di vendita delle case
Casa
1
2
3
4
5
6
7
8
Prezzo
279900
146500
237700
200000
159900
499900
265500
289900
Dimensione
2048
912
1654
2068
1477
3153
1355
2075
Tasse
3104
1173
3076
1608
1454
2997
4054
3002
Stanze Letto
4
2
4
3
3
3
3
3
Bagni
2
1
2
2
3
2
2
2
Nuova
no
no
no
no
no
sı̀
no
sı̀
La variabile risposta è il Prezzo
I predittori sono: Dimensione (in yarde quadrate) e Casa Nuova (1 = S e
0 = N)
L’analisi consisterà nel costruire due rette di regressione (una per le case
nuove e una per le vecchie) e confrontare i risultati
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
5 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Riprendiamo l’esempio sui prezzi di vendita delle case
Casa
1
2
3
4
5
6
7
8
Prezzo
279900
146500
237700
200000
159900
499900
265500
289900
Dimensione
2048
912
1654
2068
1477
3153
1355
2075
Tasse
3104
1173
3076
1608
1454
2997
4054
3002
Stanze Letto
4
2
4
3
3
3
3
3
Bagni
2
1
2
2
3
2
2
2
Nuova
no
no
no
no
no
sı̀
no
sı̀
La variabile risposta è il Prezzo
I predittori sono: Dimensione (in yarde quadrate) e Casa Nuova (1 = S e
0 = N)
L’analisi consisterà nel costruire due rette di regressione (una per le case
nuove e una per le vecchie) e confrontare i risultati
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
5 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Riprendiamo l’esempio sui prezzi di vendita delle case
Casa
1
2
3
4
5
6
7
8
Prezzo
279900
146500
237700
200000
159900
499900
265500
289900
Dimensione
2048
912
1654
2068
1477
3153
1355
2075
Tasse
3104
1173
3076
1608
1454
2997
4054
3002
Stanze Letto
4
2
4
3
3
3
3
3
Bagni
2
1
2
2
3
2
2
2
Nuova
no
no
no
no
no
sı̀
no
sı̀
La variabile risposta è il Prezzo
I predittori sono: Dimensione (in yarde quadrate) e Casa Nuova (1 = S e
0 = N)
L’analisi consisterà nel costruire due rette di regressione (una per le case
nuove e una per le vecchie) e confrontare i risultati
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
5 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Con l’analisi della covarianza è possibile confrontare lerette di regressione per
ciascun livello del predittore qualitativo
Ad es., si osservi la figura
y
y
y
z 5 0 or 1
z51
z51
z50
z50
x
(a) No interaction
x
(b) No interaction, with
identical y-intercepts
x
(c) Interaction
Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo
dal predittore X (Dimensione)
Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di
X
Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo
diverso a seconda del fatto che sia N o V (è l’interazione)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
6 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Con l’analisi della covarianza è possibile confrontare lerette di regressione per
ciascun livello del predittore qualitativo
Ad es., si osservi la figura
y
y
y
z 5 0 or 1
z51
z51
z50
z50
x
(a) No interaction
x
(b) No interaction, with
identical y-intercepts
x
(c) Interaction
Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo
dal predittore X (Dimensione)
Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di
X
Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo
diverso a seconda del fatto che sia N o V (è l’interazione)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
6 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Con l’analisi della covarianza è possibile confrontare lerette di regressione per
ciascun livello del predittore qualitativo
Ad es., si osservi la figura
y
y
y
z 5 0 or 1
z51
z51
z50
z50
x
(a) No interaction
x
(b) No interaction, with
identical y-intercepts
x
(c) Interaction
Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo
dal predittore X (Dimensione)
Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di
X
Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo
diverso a seconda del fatto che sia N o V (è l’interazione)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
6 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Con l’analisi della covarianza è possibile confrontare lerette di regressione per
ciascun livello del predittore qualitativo
Ad es., si osservi la figura
y
y
y
z 5 0 or 1
z51
z51
z50
z50
x
(a) No interaction
x
(b) No interaction, with
identical y-intercepts
x
(c) Interaction
Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo
dal predittore X (Dimensione)
Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di
X
Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo
diverso a seconda del fatto che sia N o V (è l’interazione)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
6 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Con l’analisi della covarianza è possibile confrontare lerette di regressione per
ciascun livello del predittore qualitativo
Ad es., si osservi la figura
y
y
y
z 5 0 or 1
z51
z51
z50
z50
x
(a) No interaction
x
(b) No interaction, with
identical y-intercepts
x
(c) Interaction
Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo
dal predittore X (Dimensione)
Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di
X
Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo
diverso a seconda del fatto che sia N o V (è l’interazione)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
6 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Con l’analisi della covarianza è possibile confrontare lerette di regressione per
ciascun livello del predittore qualitativo
Ad es., si osservi la figura
y
y
y
z 5 0 or 1
z51
z51
z50
z50
x
(a) No interaction
x
(b) No interaction, with
identical y-intercepts
x
(c) Interaction
Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo
dal predittore X (Dimensione)
Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di
X
Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo
diverso a seconda del fatto che sia N o V (è l’interazione)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
6 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Può accadere che il modo in cui X influenza Y sia diverso al variare dei livelli
di Z
La figura mostra come la relazione di X su Y sia nel complesso positiva, ma
si annulla per ogni livello di Z
Overall
relationship
y
Partial
relationships
Category 1
Category 2
Category 3
x
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
7 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Può accadere che il modo in cui X influenza Y sia diverso al variare dei livelli
di Z
La figura mostra come la relazione di X su Y sia nel complesso positiva, ma
si annulla per ogni livello di Z
Overall
relationship
y
Partial
relationships
Category 1
Category 2
Category 3
x
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
7 / 58
Confrontare le medie e le rette di regressione
Confrontare le rette di regressione
Può accadere che il modo in cui X influenza Y sia diverso al variare dei livelli
di Z
La figura mostra come la relazione di X su Y sia nel complesso positiva, ma
si annulla per ogni livello di Z
Overall
relationship
y
Partial
relationships
Category 1
Category 2
Category 3
x
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
7 / 58
Confrontare le medie e le rette di regressione
Confrontare le medie di Y controllando per X
L’altro caso riguarda lo studio di come la covariata Z influenza Y ,
controllando per i diversi valori di X
L’esempio è quello del reddito Y , il sesso Z e l’esperienza X
La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi
Z influenza Y
Tuttavia controllando per l’esperienza può accadere che tale relazione
scompaia, cioè M e F hanno redditi uguali a parità di esperienza
Si tratterebbe di una relazione concatenata dove i M hanno un reddito
maggiore delle F solo perchè hanno complessivamente più esperienza (tra
coloro con elevata esperienza prevalgono i M sulle F)
Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
8 / 58
Confrontare le medie e le rette di regressione
Confrontare le medie di Y controllando per X
L’altro caso riguarda lo studio di come la covariata Z influenza Y ,
controllando per i diversi valori di X
L’esempio è quello del reddito Y , il sesso Z e l’esperienza X
La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi
Z influenza Y
Tuttavia controllando per l’esperienza può accadere che tale relazione
scompaia, cioè M e F hanno redditi uguali a parità di esperienza
Si tratterebbe di una relazione concatenata dove i M hanno un reddito
maggiore delle F solo perchè hanno complessivamente più esperienza (tra
coloro con elevata esperienza prevalgono i M sulle F)
Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
8 / 58
Confrontare le medie e le rette di regressione
Confrontare le medie di Y controllando per X
L’altro caso riguarda lo studio di come la covariata Z influenza Y ,
controllando per i diversi valori di X
L’esempio è quello del reddito Y , il sesso Z e l’esperienza X
La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi
Z influenza Y
Tuttavia controllando per l’esperienza può accadere che tale relazione
scompaia, cioè M e F hanno redditi uguali a parità di esperienza
Si tratterebbe di una relazione concatenata dove i M hanno un reddito
maggiore delle F solo perchè hanno complessivamente più esperienza (tra
coloro con elevata esperienza prevalgono i M sulle F)
Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
8 / 58
Confrontare le medie e le rette di regressione
Confrontare le medie di Y controllando per X
L’altro caso riguarda lo studio di come la covariata Z influenza Y ,
controllando per i diversi valori di X
L’esempio è quello del reddito Y , il sesso Z e l’esperienza X
La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi
Z influenza Y
Tuttavia controllando per l’esperienza può accadere che tale relazione
scompaia, cioè M e F hanno redditi uguali a parità di esperienza
Si tratterebbe di una relazione concatenata dove i M hanno un reddito
maggiore delle F solo perchè hanno complessivamente più esperienza (tra
coloro con elevata esperienza prevalgono i M sulle F)
Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
8 / 58
Confrontare le medie e le rette di regressione
Confrontare le medie di Y controllando per X
L’altro caso riguarda lo studio di come la covariata Z influenza Y ,
controllando per i diversi valori di X
L’esempio è quello del reddito Y , il sesso Z e l’esperienza X
La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi
Z influenza Y
Tuttavia controllando per l’esperienza può accadere che tale relazione
scompaia, cioè M e F hanno redditi uguali a parità di esperienza
Si tratterebbe di una relazione concatenata dove i M hanno un reddito
maggiore delle F solo perchè hanno complessivamente più esperienza (tra
coloro con elevata esperienza prevalgono i M sulle F)
Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
8 / 58
Confrontare le medie e le rette di regressione
Confrontare le medie di Y controllando per X
L’altro caso riguarda lo studio di come la covariata Z influenza Y ,
controllando per i diversi valori di X
L’esempio è quello del reddito Y , il sesso Z e l’esperienza X
La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi
Z influenza Y
Tuttavia controllando per l’esperienza può accadere che tale relazione
scompaia, cioè M e F hanno redditi uguali a parità di esperienza
Si tratterebbe di una relazione concatenata dove i M hanno un reddito
maggiore delle F solo perchè hanno complessivamente più esperienza (tra
coloro con elevata esperienza prevalgono i M sulle F)
Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
8 / 58
Confrontare le medie e le rette di regressione
Confrontare le le medie di Y controllando per X
La figura mostra molto bene i diversi casi
Men
Women
y
y
x
(a) No interaction
y
x
(b) No interaction, with
identical regression lines
x
(c) Interaction
Il caso (a) mostra come non ci sia interazione tra sesso e esperienza. La
relazione tra X e Y è la stessa per M e F
Il caso (b) mostra come M e F abbiano lo stesso reddito a parità di
esperienza (la relazione Z su Y è la stessa controllando per X )
Il caso (c) mostra, invece, come il reddito dei M sia superiore a quello delle F
(influenza di Z ), e cresca più velocemente a parità di esperienza X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
9 / 58
Confrontare le medie e le rette di regressione
Confrontare le le medie di Y controllando per X
La figura mostra molto bene i diversi casi
Men
Women
y
y
x
(a) No interaction
y
x
(b) No interaction, with
identical regression lines
x
(c) Interaction
Il caso (a) mostra come non ci sia interazione tra sesso e esperienza. La
relazione tra X e Y è la stessa per M e F
Il caso (b) mostra come M e F abbiano lo stesso reddito a parità di
esperienza (la relazione Z su Y è la stessa controllando per X )
Il caso (c) mostra, invece, come il reddito dei M sia superiore a quello delle F
(influenza di Z ), e cresca più velocemente a parità di esperienza X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
9 / 58
Confrontare le medie e le rette di regressione
Confrontare le le medie di Y controllando per X
La figura mostra molto bene i diversi casi
Men
Women
y
y
x
(a) No interaction
y
x
(b) No interaction, with
identical regression lines
x
(c) Interaction
Il caso (a) mostra come non ci sia interazione tra sesso e esperienza. La
relazione tra X e Y è la stessa per M e F
Il caso (b) mostra come M e F abbiano lo stesso reddito a parità di
esperienza (la relazione Z su Y è la stessa controllando per X )
Il caso (c) mostra, invece, come il reddito dei M sia superiore a quello delle F
(influenza di Z ), e cresca più velocemente a parità di esperienza X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
9 / 58
Confrontare le medie e le rette di regressione
Confrontare le le medie di Y controllando per X
La figura mostra molto bene i diversi casi
Men
Women
y
y
x
(a) No interaction
y
x
(b) No interaction, with
identical regression lines
x
(c) Interaction
Il caso (a) mostra come non ci sia interazione tra sesso e esperienza. La
relazione tra X e Y è la stessa per M e F
Il caso (b) mostra come M e F abbiano lo stesso reddito a parità di
esperienza (la relazione Z su Y è la stessa controllando per X )
Il caso (c) mostra, invece, come il reddito dei M sia superiore a quello delle F
(influenza di Z ), e cresca più velocemente a parità di esperienza X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
9 / 58
Regressione con predittori quantitativi e categoriali
Variabili esplicative quantitative e dummy
Si consideri il modello con un regressore quantitativo X e uno categoriale a 3
livelli, da cui conseguono 2 dummy
E (y ) = α + βx + β1 z1 + β2 z2 .
Il coefficiente β indica l’effetto di X sulla media di Y
I coefficienti β1 e β2 indicano, rispettivamente, gli effetti per le categorie
dell’altro predittore (Z )
Ovviamente si tratta di effetti che si aggiungono (algebricamente) a quello
rappresentato da β
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
10 / 58
Regressione con predittori quantitativi e categoriali
Variabili esplicative quantitative e dummy
Si consideri il modello con un regressore quantitativo X e uno categoriale a 3
livelli, da cui conseguono 2 dummy
E (y ) = α + βx + β1 z1 + β2 z2 .
Il coefficiente β indica l’effetto di X sulla media di Y
I coefficienti β1 e β2 indicano, rispettivamente, gli effetti per le categorie
dell’altro predittore (Z )
Ovviamente si tratta di effetti che si aggiungono (algebricamente) a quello
rappresentato da β
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
10 / 58
Regressione con predittori quantitativi e categoriali
Variabili esplicative quantitative e dummy
Si consideri il modello con un regressore quantitativo X e uno categoriale a 3
livelli, da cui conseguono 2 dummy
E (y ) = α + βx + β1 z1 + β2 z2 .
Il coefficiente β indica l’effetto di X sulla media di Y
I coefficienti β1 e β2 indicano, rispettivamente, gli effetti per le categorie
dell’altro predittore (Z )
Ovviamente si tratta di effetti che si aggiungono (algebricamente) a quello
rappresentato da β
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
10 / 58
Regressione con predittori quantitativi e categoriali
Variabili esplicative quantitative e dummy
Si consideri il modello con un regressore quantitativo X e uno categoriale a 3
livelli, da cui conseguono 2 dummy
E (y ) = α + βx + β1 z1 + β2 z2 .
Il coefficiente β indica l’effetto di X sulla media di Y
I coefficienti β1 e β2 indicano, rispettivamente, gli effetti per le categorie
dell’altro predittore (Z )
Ovviamente si tratta di effetti che si aggiungono (algebricamente) a quello
rappresentato da β
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
10 / 58
Regressione con predittori quantitativi e categoriali
Esempio 13.1 — Regressione Reddito Istruzione e Gruppo
Etnico-Razziale
1
2
3
a
b
c
Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate
le seguenti variabili:
y = reddito annuale
x = anni di istruzione (12 = high school graduate, 16 = college)
z = gruppo etnico-razziale (Neri, Ispanici, Bianchi)
Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14
ispanici e n3 = 50 bianchi
Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e
si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo
etnico di appartnenza
Si introduce il controllo per gruppo etnico
Lo schema delle dummy è il seguente:
z1 = se il soggetto è nero, z1 = 0 altrimenti;
z2 = se il soggetto è ispanico, z2 = 0 altrimenti;
z1 = z2 = 0 se il soggetto è bianco.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
11 / 58
Regressione con predittori quantitativi e categoriali
Esempio 13.1 — Regressione Reddito Istruzione e Gruppo
Etnico-Razziale
1
2
3
a
b
c
Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate
le seguenti variabili:
y = reddito annuale
x = anni di istruzione (12 = high school graduate, 16 = college)
z = gruppo etnico-razziale (Neri, Ispanici, Bianchi)
Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14
ispanici e n3 = 50 bianchi
Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e
si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo
etnico di appartnenza
Si introduce il controllo per gruppo etnico
Lo schema delle dummy è il seguente:
z1 = se il soggetto è nero, z1 = 0 altrimenti;
z2 = se il soggetto è ispanico, z2 = 0 altrimenti;
z1 = z2 = 0 se il soggetto è bianco.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
11 / 58
Regressione con predittori quantitativi e categoriali
Esempio 13.1 — Regressione Reddito Istruzione e Gruppo
Etnico-Razziale
1
2
3
a
b
c
Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate
le seguenti variabili:
y = reddito annuale
x = anni di istruzione (12 = high school graduate, 16 = college)
z = gruppo etnico-razziale (Neri, Ispanici, Bianchi)
Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14
ispanici e n3 = 50 bianchi
Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e
si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo
etnico di appartnenza
Si introduce il controllo per gruppo etnico
Lo schema delle dummy è il seguente:
z1 = se il soggetto è nero, z1 = 0 altrimenti;
z2 = se il soggetto è ispanico, z2 = 0 altrimenti;
z1 = z2 = 0 se il soggetto è bianco.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
11 / 58
Regressione con predittori quantitativi e categoriali
Esempio 13.1 — Regressione Reddito Istruzione e Gruppo
Etnico-Razziale
1
2
3
a
b
c
Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate
le seguenti variabili:
y = reddito annuale
x = anni di istruzione (12 = high school graduate, 16 = college)
z = gruppo etnico-razziale (Neri, Ispanici, Bianchi)
Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14
ispanici e n3 = 50 bianchi
Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e
si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo
etnico di appartnenza
Si introduce il controllo per gruppo etnico
Lo schema delle dummy è il seguente:
z1 = se il soggetto è nero, z1 = 0 altrimenti;
z2 = se il soggetto è ispanico, z2 = 0 altrimenti;
z1 = z2 = 0 se il soggetto è bianco.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
11 / 58
Regressione con predittori quantitativi e categoriali
Esempio 13.1 — Regressione Reddito Istruzione e Gruppo
Etnico-Razziale
1
2
3
a
b
c
Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate
le seguenti variabili:
y = reddito annuale
x = anni di istruzione (12 = high school graduate, 16 = college)
z = gruppo etnico-razziale (Neri, Ispanici, Bianchi)
Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14
ispanici e n3 = 50 bianchi
Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e
si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo
etnico di appartnenza
Si introduce il controllo per gruppo etnico
Lo schema delle dummy è il seguente:
z1 = se il soggetto è nero, z1 = 0 altrimenti;
z2 = se il soggetto è ispanico, z2 = 0 altrimenti;
z1 = z2 = 0 se il soggetto è bianco.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
11 / 58
Regressione con predittori quantitativi e categoriali
Esempio 13.1 — Regressione Reddito Istruzione e Gruppo
Etnico-Razziale
1
2
3
a
b
c
Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate
le seguenti variabili:
y = reddito annuale
x = anni di istruzione (12 = high school graduate, 16 = college)
z = gruppo etnico-razziale (Neri, Ispanici, Bianchi)
Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14
ispanici e n3 = 50 bianchi
Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e
si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo
etnico di appartnenza
Si introduce il controllo per gruppo etnico
Lo schema delle dummy è il seguente:
z1 = se il soggetto è nero, z1 = 0 altrimenti;
z2 = se il soggetto è ispanico, z2 = 0 altrimenti;
z1 = z2 = 0 se il soggetto è bianco.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
11 / 58
Regressione con predittori quantitativi e categoriali
Tabella: y = Reddito Annuale (in Migliaia di Dollari) e x = Numero di Anni di Istruzione
per 3 Gruppi Etnici
Black
y
x
16 10
18
7
26
9
16 11
34 14
22 12
42 16
42 16
16
9
20 10
66 16
26 12
20 10
30 15
20 10
30 19
Nicola Tedesco (Statistica Sociale)
Hispanic
y
x
32 16
16 11
20 10
58 16
30 12
26 10
20
8
40 12
32 10
22 11
20 10
56 14
32 12
30 11
White
y
x
30 14
48 14
40
7
84 18
50 10
38 12
30 12
76 16
48 16
36 11
40 11
44 12
30 10
60 15
24
9
88 17
46 16
White
y
x
62
16
24
10
50
13
32
10
34
16
52
18
24
12
22
14
20
13
30
14
24
13
120 18
22
10
82
16
18
12
26
12
104 14
White
y
x
50 16
50 14
22 11
26 12
46 16
22
9
24
9
64 14
28 12
32 12
38 14
44 12
22 12
18 10
24 12
56 20
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
12 / 58
Regressione con predittori quantitativi e categoriali
I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i
gruppi etnici
Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della
variabile Istruzione
Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi
simili
In sintesi abbiamo:
Tabella: Redditi Medi e Istruzione, per Gruppo Etnico
Media Reddito
Media Istruzione
Dim. campionaria
Neri
y 1 = 27.8
x̄1 = 12.2
n1 = 16
Ispanici
y 2 = 31.0
x̄2 = 11.6
n2 = 14
Bianchi
y 3 = 42.4
x̄3 = 13.1
n3 = 50
Totale
y = 37.6
x̄ = 12.7
n = 80
Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più
elevato per Istruzione
Domanda: qual è l’effetto più rilevante?
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
13 / 58
Regressione con predittori quantitativi e categoriali
I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i
gruppi etnici
Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della
variabile Istruzione
Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi
simili
In sintesi abbiamo:
Tabella: Redditi Medi e Istruzione, per Gruppo Etnico
Media Reddito
Media Istruzione
Dim. campionaria
Neri
y 1 = 27.8
x̄1 = 12.2
n1 = 16
Ispanici
y 2 = 31.0
x̄2 = 11.6
n2 = 14
Bianchi
y 3 = 42.4
x̄3 = 13.1
n3 = 50
Totale
y = 37.6
x̄ = 12.7
n = 80
Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più
elevato per Istruzione
Domanda: qual è l’effetto più rilevante?
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
13 / 58
Regressione con predittori quantitativi e categoriali
I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i
gruppi etnici
Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della
variabile Istruzione
Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi
simili
In sintesi abbiamo:
Tabella: Redditi Medi e Istruzione, per Gruppo Etnico
Media Reddito
Media Istruzione
Dim. campionaria
Neri
y 1 = 27.8
x̄1 = 12.2
n1 = 16
Ispanici
y 2 = 31.0
x̄2 = 11.6
n2 = 14
Bianchi
y 3 = 42.4
x̄3 = 13.1
n3 = 50
Totale
y = 37.6
x̄ = 12.7
n = 80
Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più
elevato per Istruzione
Domanda: qual è l’effetto più rilevante?
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
13 / 58
Regressione con predittori quantitativi e categoriali
I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i
gruppi etnici
Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della
variabile Istruzione
Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi
simili
In sintesi abbiamo:
Tabella: Redditi Medi e Istruzione, per Gruppo Etnico
Media Reddito
Media Istruzione
Dim. campionaria
Neri
y 1 = 27.8
x̄1 = 12.2
n1 = 16
Ispanici
y 2 = 31.0
x̄2 = 11.6
n2 = 14
Bianchi
y 3 = 42.4
x̄3 = 13.1
n3 = 50
Totale
y = 37.6
x̄ = 12.7
n = 80
Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più
elevato per Istruzione
Domanda: qual è l’effetto più rilevante?
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
13 / 58
Regressione con predittori quantitativi e categoriali
I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i
gruppi etnici
Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della
variabile Istruzione
Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi
simili
In sintesi abbiamo:
Tabella: Redditi Medi e Istruzione, per Gruppo Etnico
Media Reddito
Media Istruzione
Dim. campionaria
Neri
y 1 = 27.8
x̄1 = 12.2
n1 = 16
Ispanici
y 2 = 31.0
x̄2 = 11.6
n2 = 14
Bianchi
y 3 = 42.4
x̄3 = 13.1
n3 = 50
Totale
y = 37.6
x̄ = 12.7
n = 80
Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più
elevato per Istruzione
Domanda: qual è l’effetto più rilevante?
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
13 / 58
Regressione con predittori quantitativi e categoriali
I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i
gruppi etnici
Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della
variabile Istruzione
Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi
simili
In sintesi abbiamo:
Tabella: Redditi Medi e Istruzione, per Gruppo Etnico
Media Reddito
Media Istruzione
Dim. campionaria
Neri
y 1 = 27.8
x̄1 = 12.2
n1 = 16
Ispanici
y 2 = 31.0
x̄2 = 11.6
n2 = 14
Bianchi
y 3 = 42.4
x̄3 = 13.1
n3 = 50
Totale
y = 37.6
x̄ = 12.7
n = 80
Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più
elevato per Istruzione
Domanda: qual è l’effetto più rilevante?
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
13 / 58
Regressione con predittori quantitativi e categoriali
La Tabella riporta i risultati di un modello di regressione con le dummy per il
Gruppo Etnico
Tabella: Modello senza interazioni per la Variabile risposta y = Reddito e Variabili
Esplicative Istruzione e Gruppo Etnico (con variabili dummy per le categorie Neri e
Ispanici)
Parametri
Intercetta
istruzione
razza = N
razza = I
razza = B
B
-15.663
4.432
-10.874
-4.934
0
Std. Error
8.412
.619
4.473
4.763
t
-1.862
7.158
-2.431
-1.036
Sig
.066
.000
.017
.304
IC 95%
Inferiore Superiore
-32.4
1.09
3.2
5.70
-19.8
-2.00
-14.4
4.60
R-Quadro = .462
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
14 / 58
Regressione con predittori quantitativi e categoriali
Si ottiene il seguente modello
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 .
Considerando i Neri, z1 = 1 e z2 = 0, l’equazione è
ŷ = −15.7 + 4.4x − 10.9(1) − 4.9(0) = −26.6 + 4.4x.
Per gli altri gruppi etnici avremo
ŷ
ŷ
= −20.6 + 4.4x
= −15.7 + 4.4x
(Ispanici)
(Bianchi)
I coefficienti angolari sono tutti uguali. Cosa significa?
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
15 / 58
Regressione con predittori quantitativi e categoriali
Si ottiene il seguente modello
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 .
Considerando i Neri, z1 = 1 e z2 = 0, l’equazione è
ŷ = −15.7 + 4.4x − 10.9(1) − 4.9(0) = −26.6 + 4.4x.
Per gli altri gruppi etnici avremo
ŷ
ŷ
= −20.6 + 4.4x
= −15.7 + 4.4x
(Ispanici)
(Bianchi)
I coefficienti angolari sono tutti uguali. Cosa significa?
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
15 / 58
Regressione con predittori quantitativi e categoriali
Si ottiene il seguente modello
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 .
Considerando i Neri, z1 = 1 e z2 = 0, l’equazione è
ŷ = −15.7 + 4.4x − 10.9(1) − 4.9(0) = −26.6 + 4.4x.
Per gli altri gruppi etnici avremo
ŷ
ŷ
= −20.6 + 4.4x
= −15.7 + 4.4x
(Ispanici)
(Bianchi)
I coefficienti angolari sono tutti uguali. Cosa significa?
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
15 / 58
Regressione con predittori quantitativi e categoriali
Si ottiene il seguente modello
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 .
Considerando i Neri, z1 = 1 e z2 = 0, l’equazione è
ŷ = −15.7 + 4.4x − 10.9(1) − 4.9(0) = −26.6 + 4.4x.
Per gli altri gruppi etnici avremo
ŷ
ŷ
= −20.6 + 4.4x
= −15.7 + 4.4x
(Ispanici)
(Bianchi)
I coefficienti angolari sono tutti uguali. Cosa significa?
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
15 / 58
Regressione con predittori quantitativi e categoriali
L’effetto dell’Istruzione sul Reddito è lo stesso in tutti i Gruppi Etnici
120
Income
100
White ( yˆ 5 215.7 1 4.4 x)
80
Hispanic (yˆ 5 220.6 1 4.4x)
Black (yˆ 5 226.6 1 4.4x)
60
40
White
Black
Hispanic
20
Education
0
5
10
15
20
Si può concludere, quindi che il modo in cui l’Istruzione influenza il Reddito è
lo stesso in ogni Gruppo Etnico, quindi i Bianchi guadagnano di più non per
motivi discriminatori, ma perchè mediamente più istruiti.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
16 / 58
Regressione con predittori quantitativi e categoriali
L’effetto dell’Istruzione sul Reddito è lo stesso in tutti i Gruppi Etnici
120
Income
100
White ( yˆ 5 215.7 1 4.4 x)
80
Hispanic (yˆ 5 220.6 1 4.4x)
Black (yˆ 5 226.6 1 4.4x)
60
40
White
Black
Hispanic
20
Education
0
5
10
15
20
Si può concludere, quindi che il modo in cui l’Istruzione influenza il Reddito è
lo stesso in ogni Gruppo Etnico, quindi i Bianchi guadagnano di più non per
motivi discriminatori, ma perchè mediamente più istruiti.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
16 / 58
Regressione con predittori quantitativi e categoriali
Interpretazione dei parametri: il Modello senza Interazioni
Riprendiamo il modello teorico
E (y ) = α + βx + β1 z1 + β2 z2 .
Per la categoria 1 di Z , con z1 = 1 e z2 = 0, si ha
E (y ) = α + βx + β1 (1) + β2 (0) = (α + β1 ) + βx.
In pratica il coefficiente β1 modifica il valore dell’intercetta per la categoria di
Z di riferimento
Stesso discorso per la categoria 2 di Z , per cui il modello sarà
E (y ) = (α + β2 ) + βx
Ovviamente per la categoria 3 di Z si ha E (y ) = α + βx
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
17 / 58
Regressione con predittori quantitativi e categoriali
Interpretazione dei parametri: il Modello senza Interazioni
Riprendiamo il modello teorico
E (y ) = α + βx + β1 z1 + β2 z2 .
Per la categoria 1 di Z , con z1 = 1 e z2 = 0, si ha
E (y ) = α + βx + β1 (1) + β2 (0) = (α + β1 ) + βx.
In pratica il coefficiente β1 modifica il valore dell’intercetta per la categoria di
Z di riferimento
Stesso discorso per la categoria 2 di Z , per cui il modello sarà
E (y ) = (α + β2 ) + βx
Ovviamente per la categoria 3 di Z si ha E (y ) = α + βx
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
17 / 58
Regressione con predittori quantitativi e categoriali
Interpretazione dei parametri: il Modello senza Interazioni
Riprendiamo il modello teorico
E (y ) = α + βx + β1 z1 + β2 z2 .
Per la categoria 1 di Z , con z1 = 1 e z2 = 0, si ha
E (y ) = α + βx + β1 (1) + β2 (0) = (α + β1 ) + βx.
In pratica il coefficiente β1 modifica il valore dell’intercetta per la categoria di
Z di riferimento
Stesso discorso per la categoria 2 di Z , per cui il modello sarà
E (y ) = (α + β2 ) + βx
Ovviamente per la categoria 3 di Z si ha E (y ) = α + βx
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
17 / 58
Regressione con predittori quantitativi e categoriali
Interpretazione dei parametri: il Modello senza Interazioni
Riprendiamo il modello teorico
E (y ) = α + βx + β1 z1 + β2 z2 .
Per la categoria 1 di Z , con z1 = 1 e z2 = 0, si ha
E (y ) = α + βx + β1 (1) + β2 (0) = (α + β1 ) + βx.
In pratica il coefficiente β1 modifica il valore dell’intercetta per la categoria di
Z di riferimento
Stesso discorso per la categoria 2 di Z , per cui il modello sarà
E (y ) = (α + β2 ) + βx
Ovviamente per la categoria 3 di Z si ha E (y ) = α + βx
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
17 / 58
Regressione con predittori quantitativi e categoriali
Interpretazione dei parametri: il Modello senza Interazioni
Riprendiamo il modello teorico
E (y ) = α + βx + β1 z1 + β2 z2 .
Per la categoria 1 di Z , con z1 = 1 e z2 = 0, si ha
E (y ) = α + βx + β1 (1) + β2 (0) = (α + β1 ) + βx.
In pratica il coefficiente β1 modifica il valore dell’intercetta per la categoria di
Z di riferimento
Stesso discorso per la categoria 2 di Z , per cui il modello sarà
E (y ) = (α + β2 ) + βx
Ovviamente per la categoria 3 di Z si ha E (y ) = α + βx
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
17 / 58
Regressione con predittori quantitativi e categoriali
Più in dettaglio, ciascun coefficiente di regressione indica la differenza tra
l’intercetta della propria categoria e quella della categoria di riferimento
In questo caso le rette sono tra loro parallele, quindi ciascun βi rappresenta la
distanza verticale tra le rette di regressione, per ogni valore di xi di X
In buona sostanza, controllando per X , ciascun βi è la differenza tra la media
della categoria i-ma e l’ultima.
Tabella: Equazioni di Regressione e interpretazione dei Parametri
Categoria
1
2
3
y -Int.
α + β1
α + β2
α
Nicola Tedesco (Statistica Sociale)
Pendenza
β
β
β
E (y ) per un fissato x
(α + β1 ) + βx
(α + β2 ) + βx
α + βx
Differenze fra le
medie della Cat. 3,
controllando per X
β1
β2
0
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
18 / 58
Regressione con predittori quantitativi e categoriali
Più in dettaglio, ciascun coefficiente di regressione indica la differenza tra
l’intercetta della propria categoria e quella della categoria di riferimento
In questo caso le rette sono tra loro parallele, quindi ciascun βi rappresenta la
distanza verticale tra le rette di regressione, per ogni valore di xi di X
In buona sostanza, controllando per X , ciascun βi è la differenza tra la media
della categoria i-ma e l’ultima.
Tabella: Equazioni di Regressione e interpretazione dei Parametri
Categoria
1
2
3
y -Int.
α + β1
α + β2
α
Nicola Tedesco (Statistica Sociale)
Pendenza
β
β
β
E (y ) per un fissato x
(α + β1 ) + βx
(α + β2 ) + βx
α + βx
Differenze fra le
medie della Cat. 3,
controllando per X
β1
β2
0
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
18 / 58
Regressione con predittori quantitativi e categoriali
Più in dettaglio, ciascun coefficiente di regressione indica la differenza tra
l’intercetta della propria categoria e quella della categoria di riferimento
In questo caso le rette sono tra loro parallele, quindi ciascun βi rappresenta la
distanza verticale tra le rette di regressione, per ogni valore di xi di X
In buona sostanza, controllando per X , ciascun βi è la differenza tra la media
della categoria i-ma e l’ultima.
Tabella: Equazioni di Regressione e interpretazione dei Parametri
Categoria
1
2
3
y -Int.
α + β1
α + β2
α
Nicola Tedesco (Statistica Sociale)
Pendenza
β
β
β
E (y ) per un fissato x
(α + β1 ) + βx
(α + β2 ) + βx
α + βx
Differenze fra le
medie della Cat. 3,
controllando per X
β1
β2
0
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
18 / 58
Regressione con predittori quantitativi e categoriali
Più in dettaglio, ciascun coefficiente di regressione indica la differenza tra
l’intercetta della propria categoria e quella della categoria di riferimento
In questo caso le rette sono tra loro parallele, quindi ciascun βi rappresenta la
distanza verticale tra le rette di regressione, per ogni valore di xi di X
In buona sostanza, controllando per X , ciascun βi è la differenza tra la media
della categoria i-ma e l’ultima.
Tabella: Equazioni di Regressione e interpretazione dei Parametri
Categoria
1
2
3
y -Int.
α + β1
α + β2
α
Nicola Tedesco (Statistica Sociale)
Pendenza
β
β
β
E (y ) per un fissato x
(α + β1 ) + βx
(α + β2 ) + βx
α + βx
Differenze fra le
medie della Cat. 3,
controllando per X
β1
β2
0
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
18 / 58
Regressione con predittori quantitativi e categoriali
Graficamente si ha:
y
E(y) 5 (a 1 b1) 1 bx (category 1)
E(y) 5 a 1 bx (category 3)
a 1 b1
b1
b2
E(y) 5 (a 1 b2) 1 bx (category 2)
a
a 1 b2
Nicola Tedesco (Statistica Sociale)
x
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
19 / 58
Regressione con predittori quantitativi e categoriali
In riferimento all’esercizio precedente, abbiamo questa equazione di
regressione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2
Poiché la categoria di riferimento è Bianchi, il coefficiente β1 = −10.9, indica
che i Neri guadagnano in media $10.900 in meno rispetto ai Bianchi, per
ciascun livello di istruzione
Più esattamente per ciascun valore della variabile X Istruzione
Nel caso di β2 = −4.9, diremo che gli Ispanici hanno in media un Reddito
Annuale inferiore di $4.900 rispetto ai Bianchi ∀x
Ovviamente la differenza β1 − β2 = −10.9 − (−4.9) = −6.0 ci dice che i Neri
hanno un Reddito Annuale inferiore di $6.000 rispetto agli Ispanici ∀x
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
20 / 58
Regressione con predittori quantitativi e categoriali
In riferimento all’esercizio precedente, abbiamo questa equazione di
regressione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2
Poiché la categoria di riferimento è Bianchi, il coefficiente β1 = −10.9, indica
che i Neri guadagnano in media $10.900 in meno rispetto ai Bianchi, per
ciascun livello di istruzione
Più esattamente per ciascun valore della variabile X Istruzione
Nel caso di β2 = −4.9, diremo che gli Ispanici hanno in media un Reddito
Annuale inferiore di $4.900 rispetto ai Bianchi ∀x
Ovviamente la differenza β1 − β2 = −10.9 − (−4.9) = −6.0 ci dice che i Neri
hanno un Reddito Annuale inferiore di $6.000 rispetto agli Ispanici ∀x
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
20 / 58
Regressione con predittori quantitativi e categoriali
In riferimento all’esercizio precedente, abbiamo questa equazione di
regressione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2
Poiché la categoria di riferimento è Bianchi, il coefficiente β1 = −10.9, indica
che i Neri guadagnano in media $10.900 in meno rispetto ai Bianchi, per
ciascun livello di istruzione
Più esattamente per ciascun valore della variabile X Istruzione
Nel caso di β2 = −4.9, diremo che gli Ispanici hanno in media un Reddito
Annuale inferiore di $4.900 rispetto ai Bianchi ∀x
Ovviamente la differenza β1 − β2 = −10.9 − (−4.9) = −6.0 ci dice che i Neri
hanno un Reddito Annuale inferiore di $6.000 rispetto agli Ispanici ∀x
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
20 / 58
Regressione con predittori quantitativi e categoriali
In riferimento all’esercizio precedente, abbiamo questa equazione di
regressione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2
Poiché la categoria di riferimento è Bianchi, il coefficiente β1 = −10.9, indica
che i Neri guadagnano in media $10.900 in meno rispetto ai Bianchi, per
ciascun livello di istruzione
Più esattamente per ciascun valore della variabile X Istruzione
Nel caso di β2 = −4.9, diremo che gli Ispanici hanno in media un Reddito
Annuale inferiore di $4.900 rispetto ai Bianchi ∀x
Ovviamente la differenza β1 − β2 = −10.9 − (−4.9) = −6.0 ci dice che i Neri
hanno un Reddito Annuale inferiore di $6.000 rispetto agli Ispanici ∀x
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
20 / 58
Regressione con predittori quantitativi e categoriali
In riferimento all’esercizio precedente, abbiamo questa equazione di
regressione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2
Poiché la categoria di riferimento è Bianchi, il coefficiente β1 = −10.9, indica
che i Neri guadagnano in media $10.900 in meno rispetto ai Bianchi, per
ciascun livello di istruzione
Più esattamente per ciascun valore della variabile X Istruzione
Nel caso di β2 = −4.9, diremo che gli Ispanici hanno in media un Reddito
Annuale inferiore di $4.900 rispetto ai Bianchi ∀x
Ovviamente la differenza β1 − β2 = −10.9 − (−4.9) = −6.0 ci dice che i Neri
hanno un Reddito Annuale inferiore di $6.000 rispetto agli Ispanici ∀x
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
20 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Modello con Interazioni tra Predittori Quantitativi e
Qualitativi
Nelle Scienze Sociali, come al solito, il caso più frequente prevede l’esistenza
di Interazioni
In questo caso si tratta di stimarle considerando che abbiamo predittori di
ogni tipo (quantitativi e qualitativi). Ci limitiamo al caso di 2 predittori
In questo caso le rette di regressione avranno pendenze differenti
Per calcolare le interazioni si considerano i prodotti vettoriali tra le variabili
esplicative, definiti anche prodotti incrociati
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
21 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Modello con Interazioni tra Predittori Quantitativi e
Qualitativi
Nelle Scienze Sociali, come al solito, il caso più frequente prevede l’esistenza
di Interazioni
In questo caso si tratta di stimarle considerando che abbiamo predittori di
ogni tipo (quantitativi e qualitativi). Ci limitiamo al caso di 2 predittori
In questo caso le rette di regressione avranno pendenze differenti
Per calcolare le interazioni si considerano i prodotti vettoriali tra le variabili
esplicative, definiti anche prodotti incrociati
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
21 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Modello con Interazioni tra Predittori Quantitativi e
Qualitativi
Nelle Scienze Sociali, come al solito, il caso più frequente prevede l’esistenza
di Interazioni
In questo caso si tratta di stimarle considerando che abbiamo predittori di
ogni tipo (quantitativi e qualitativi). Ci limitiamo al caso di 2 predittori
In questo caso le rette di regressione avranno pendenze differenti
Per calcolare le interazioni si considerano i prodotti vettoriali tra le variabili
esplicative, definiti anche prodotti incrociati
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
21 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Modello con Interazioni tra Predittori Quantitativi e
Qualitativi
Nelle Scienze Sociali, come al solito, il caso più frequente prevede l’esistenza
di Interazioni
In questo caso si tratta di stimarle considerando che abbiamo predittori di
ogni tipo (quantitativi e qualitativi). Ci limitiamo al caso di 2 predittori
In questo caso le rette di regressione avranno pendenze differenti
Per calcolare le interazioni si considerano i prodotti vettoriali tra le variabili
esplicative, definiti anche prodotti incrociati
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
21 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Esempio 13.2 — Regressione Reddito Istruzione e Gruppo
Etnico-Razziale con Interazioni
Rispetto al caso precedente (assenza di interazioni) abbiamo anche i termini
di interazione x × z1 e x × z2
Rappresentano i prodotti incrociati delle prime 2 categorie con la variabile X
Tabella: Modello con interazioni per la Var. risposta y = Reddito e Var. Esplicative
Istruzione e Gruppo Etnico (con variabili dummy per le categorie Neri e Ispanici)
Parametri
Intercetta
Istruzione
razza = N
razza = I
razza = B
razza = N ∗ Istruzione
razza = I ∗ Istruzione
razza = B ∗ Istruzione
R-Quadro = 0.482
Nicola Tedesco (Statistica Sociale)
B
-25.869
5.210
19.333
9.264
0
-2.411
-1.121
0
Std. Error
10.498
.783
18.293
24.282
.
1.418
2.006
.
t
-2.464
6.655
1.057
.382
.
-1.700
-.559
.
Sig
.016
.000
.294
.704
.
.093
.578
.
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
22 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Esempio 13.2 — Regressione Reddito Istruzione e Gruppo
Etnico-Razziale con Interazioni
Rispetto al caso precedente (assenza di interazioni) abbiamo anche i termini
di interazione x × z1 e x × z2
Rappresentano i prodotti incrociati delle prime 2 categorie con la variabile X
Tabella: Modello con interazioni per la Var. risposta y = Reddito e Var. Esplicative
Istruzione e Gruppo Etnico (con variabili dummy per le categorie Neri e Ispanici)
Parametri
Intercetta
Istruzione
razza = N
razza = I
razza = B
razza = N ∗ Istruzione
razza = I ∗ Istruzione
razza = B ∗ Istruzione
R-Quadro = 0.482
Nicola Tedesco (Statistica Sociale)
B
-25.869
5.210
19.333
9.264
0
-2.411
-1.121
0
Std. Error
10.498
.783
18.293
24.282
.
1.418
2.006
.
t
-2.464
6.655
1.057
.382
.
-1.700
-.559
.
Sig
.016
.000
.294
.704
.
.093
.578
.
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
22 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Esempio 13.2 — Regressione Reddito Istruzione e Gruppo
Etnico-Razziale con Interazioni
Rispetto al caso precedente (assenza di interazioni) abbiamo anche i termini
di interazione x × z1 e x × z2
Rappresentano i prodotti incrociati delle prime 2 categorie con la variabile X
Tabella: Modello con interazioni per la Var. risposta y = Reddito e Var. Esplicative
Istruzione e Gruppo Etnico (con variabili dummy per le categorie Neri e Ispanici)
Parametri
Intercetta
Istruzione
razza = N
razza = I
razza = B
razza = N ∗ Istruzione
razza = I ∗ Istruzione
razza = B ∗ Istruzione
R-Quadro = 0.482
Nicola Tedesco (Statistica Sociale)
B
-25.869
5.210
19.333
9.264
0
-2.411
-1.121
0
Std. Error
10.498
.783
18.293
24.282
.
1.418
2.006
.
t
-2.464
6.655
1.057
.382
.
-1.700
-.559
.
Sig
.016
.000
.294
.704
.
.093
.578
.
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
22 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
In forma analitica l’equazione di regressione (o equazione di previsione) sarà
ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 − 2.4(x × z1 ) − 1.1(x × z2 ).
Se vogliamo considerare solo il gruppo dei Bianchi (z1 = z2 = 0) l’equazione
sarà
ŷ = −25.9 + 5.2x + 19.3(0) + 9.3(0) − 2.4x(0) − 1.1x(0) = −25.9 + 5.2x.
Rispettivamente per i Neri (z1 = 1 e z2 = 0,) e gli Ispanici (z1 = 0, z2 = 1)
avremo
ŷ = −6.6 + 2.8x.
ŷ = −16.6 + 4.1x.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
23 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
In forma analitica l’equazione di regressione (o equazione di previsione) sarà
ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 − 2.4(x × z1 ) − 1.1(x × z2 ).
Se vogliamo considerare solo il gruppo dei Bianchi (z1 = z2 = 0) l’equazione
sarà
ŷ = −25.9 + 5.2x + 19.3(0) + 9.3(0) − 2.4x(0) − 1.1x(0) = −25.9 + 5.2x.
Rispettivamente per i Neri (z1 = 1 e z2 = 0,) e gli Ispanici (z1 = 0, z2 = 1)
avremo
ŷ = −6.6 + 2.8x.
ŷ = −16.6 + 4.1x.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
23 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
In forma analitica l’equazione di regressione (o equazione di previsione) sarà
ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 − 2.4(x × z1 ) − 1.1(x × z2 ).
Se vogliamo considerare solo il gruppo dei Bianchi (z1 = z2 = 0) l’equazione
sarà
ŷ = −25.9 + 5.2x + 19.3(0) + 9.3(0) − 2.4x(0) − 1.1x(0) = −25.9 + 5.2x.
Rispettivamente per i Neri (z1 = 1 e z2 = 0,) e gli Ispanici (z1 = 0, z2 = 1)
avremo
ŷ = −6.6 + 2.8x.
ŷ = −16.6 + 4.1x.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
23 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Significato e dei Coefficienti del Modello
Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per
la categoria 1 e quello per la categoria 3
Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno
pendenze differenti
In questo caso contano le interazioni: infatti, il parametro dell’interazione
x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli
2.4 = 5.2 − 2.8
Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul
Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione
Istruzione-Gruppo Etnico
Ovviamente le due rette saranno parallele quando il coefficiente
dell’interazione è nullo
Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è
pari a x × z2 = −1.1
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
24 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Significato e dei Coefficienti del Modello
Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per
la categoria 1 e quello per la categoria 3
Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno
pendenze differenti
In questo caso contano le interazioni: infatti, il parametro dell’interazione
x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli
2.4 = 5.2 − 2.8
Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul
Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione
Istruzione-Gruppo Etnico
Ovviamente le due rette saranno parallele quando il coefficiente
dell’interazione è nullo
Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è
pari a x × z2 = −1.1
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
24 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Significato e dei Coefficienti del Modello
Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per
la categoria 1 e quello per la categoria 3
Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno
pendenze differenti
In questo caso contano le interazioni: infatti, il parametro dell’interazione
x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli
2.4 = 5.2 − 2.8
Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul
Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione
Istruzione-Gruppo Etnico
Ovviamente le due rette saranno parallele quando il coefficiente
dell’interazione è nullo
Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è
pari a x × z2 = −1.1
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
24 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Significato e dei Coefficienti del Modello
Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per
la categoria 1 e quello per la categoria 3
Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno
pendenze differenti
In questo caso contano le interazioni: infatti, il parametro dell’interazione
x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli
2.4 = 5.2 − 2.8
Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul
Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione
Istruzione-Gruppo Etnico
Ovviamente le due rette saranno parallele quando il coefficiente
dell’interazione è nullo
Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è
pari a x × z2 = −1.1
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
24 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Significato e dei Coefficienti del Modello
Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per
la categoria 1 e quello per la categoria 3
Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno
pendenze differenti
In questo caso contano le interazioni: infatti, il parametro dell’interazione
x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli
2.4 = 5.2 − 2.8
Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul
Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione
Istruzione-Gruppo Etnico
Ovviamente le due rette saranno parallele quando il coefficiente
dell’interazione è nullo
Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è
pari a x × z2 = −1.1
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
24 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Significato e dei Coefficienti del Modello
Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per
la categoria 1 e quello per la categoria 3
Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno
pendenze differenti
In questo caso contano le interazioni: infatti, il parametro dell’interazione
x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli
2.4 = 5.2 − 2.8
Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul
Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione
Istruzione-Gruppo Etnico
Ovviamente le due rette saranno parallele quando il coefficiente
dell’interazione è nullo
Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è
pari a x × z2 = −1.1
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
24 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
In sintesi abbiamo il seguente prospetto:
Tabella: Equazione di Previsione ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 −
2.4(x × z1 ) − 1.1(x × z2 ) con Interazioni
Cat.
1
2
3
y -Int.
Pend.
Equazione di Previsione
−25.9 + 19.3
−25.9 + 9.3
−25.9
5.2 − 2.4
5.2 − 1.1
5.2
(−25.9 + 19.3) + (5.2 − 2.4)x
(−25.9 + 9.3) + (5.2 − 1.1)x
−25.9 + 5.2x
Diff. dalla
Cat. 3
y -Int. Pend.
19.3
9.3
0
−2.4
−1.1
0
In pratica i valori delle differenze nelle Pendenze, indicano qual è la diminuzione nel
Reddito Annuale al crescere di un anno nell’Istruzione, per ogni categoria rispetto a
quella di riferimento (Bianchi)
I Neri tendono, a parità di Istruzione, a guadagnare meno dei Bianchi, mentre per
gli Ispanici tale tendenza è meno forte
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
25 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
In sintesi abbiamo il seguente prospetto:
Tabella: Equazione di Previsione ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 −
2.4(x × z1 ) − 1.1(x × z2 ) con Interazioni
Cat.
1
2
3
y -Int.
Pend.
Equazione di Previsione
−25.9 + 19.3
−25.9 + 9.3
−25.9
5.2 − 2.4
5.2 − 1.1
5.2
(−25.9 + 19.3) + (5.2 − 2.4)x
(−25.9 + 9.3) + (5.2 − 1.1)x
−25.9 + 5.2x
Diff. dalla
Cat. 3
y -Int. Pend.
19.3
9.3
0
−2.4
−1.1
0
In pratica i valori delle differenze nelle Pendenze, indicano qual è la diminuzione nel
Reddito Annuale al crescere di un anno nell’Istruzione, per ogni categoria rispetto a
quella di riferimento (Bianchi)
I Neri tendono, a parità di Istruzione, a guadagnare meno dei Bianchi, mentre per
gli Ispanici tale tendenza è meno forte
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
25 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
In sintesi abbiamo il seguente prospetto:
Tabella: Equazione di Previsione ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 −
2.4(x × z1 ) − 1.1(x × z2 ) con Interazioni
Cat.
1
2
3
y -Int.
Pend.
Equazione di Previsione
−25.9 + 19.3
−25.9 + 9.3
−25.9
5.2 − 2.4
5.2 − 1.1
5.2
(−25.9 + 19.3) + (5.2 − 2.4)x
(−25.9 + 9.3) + (5.2 − 1.1)x
−25.9 + 5.2x
Diff. dalla
Cat. 3
y -Int. Pend.
19.3
9.3
0
−2.4
−1.1
0
In pratica i valori delle differenze nelle Pendenze, indicano qual è la diminuzione nel
Reddito Annuale al crescere di un anno nell’Istruzione, per ogni categoria rispetto a
quella di riferimento (Bianchi)
I Neri tendono, a parità di Istruzione, a guadagnare meno dei Bianchi, mentre per
gli Ispanici tale tendenza è meno forte
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
25 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Graficamente abbiamo:
120
Income
100
White ( yˆ 5 225.9 1 5.2x)
80
Hispanic ( yˆ 5 216.6 1 4.1x)
60
Black (yˆ 5 26.6 1 2.8x)
40
White
Black
Hispanic
20
Education
0
5
Nicola Tedesco (Statistica Sociale)
10
15
20
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
26 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Si può concludere che in un modello con interazioni, le medie della variabile
risposta Y variano in funzione della covariata X
Ad. es., possiamo calcolare la differenza nel Reddito Medio Annuale tra
Bianchi e Ispanici al variare di x in modo semplice:
(−25.9 + 5.2x) − (−16.6 + 4.1x) = −9.3 + 1.1x.
Ciò significa che il differenziale nel Reddito Medio Annuale per le due
categorie è diverso per ogni livello dell’Istruzione
In pratica all’aumentare dell’Istruzione aumenta la differenza nel Reddito
Medio Annuale
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
27 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Si può concludere che in un modello con interazioni, le medie della variabile
risposta Y variano in funzione della covariata X
Ad. es., possiamo calcolare la differenza nel Reddito Medio Annuale tra
Bianchi e Ispanici al variare di x in modo semplice:
(−25.9 + 5.2x) − (−16.6 + 4.1x) = −9.3 + 1.1x.
Ciò significa che il differenziale nel Reddito Medio Annuale per le due
categorie è diverso per ogni livello dell’Istruzione
In pratica all’aumentare dell’Istruzione aumenta la differenza nel Reddito
Medio Annuale
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
27 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Si può concludere che in un modello con interazioni, le medie della variabile
risposta Y variano in funzione della covariata X
Ad. es., possiamo calcolare la differenza nel Reddito Medio Annuale tra
Bianchi e Ispanici al variare di x in modo semplice:
(−25.9 + 5.2x) − (−16.6 + 4.1x) = −9.3 + 1.1x.
Ciò significa che il differenziale nel Reddito Medio Annuale per le due
categorie è diverso per ogni livello dell’Istruzione
In pratica all’aumentare dell’Istruzione aumenta la differenza nel Reddito
Medio Annuale
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
27 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
Si può concludere che in un modello con interazioni, le medie della variabile
risposta Y variano in funzione della covariata X
Ad. es., possiamo calcolare la differenza nel Reddito Medio Annuale tra
Bianchi e Ispanici al variare di x in modo semplice:
(−25.9 + 5.2x) − (−16.6 + 4.1x) = −9.3 + 1.1x.
Ciò significa che il differenziale nel Reddito Medio Annuale per le due
categorie è diverso per ogni livello dell’Istruzione
In pratica all’aumentare dell’Istruzione aumenta la differenza nel Reddito
Medio Annuale
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
27 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
R o R 2 per Confrontare Modelli Diversi
Un metodo che consente di capire se l’aggiunta dei termini di interazione e/o
degli effetti singoli sia utile, si basa sull’incremento del valore di R 2 o quello
del Coefficiente di Correlazione Multipla R
Nel nostro esempio, il modello privo di interazioni mostra un R 2 = 0.462,
mentre il modello con interazioni mostra un R 2 = 0.482
Conseguentemente√, i Coefficienti di Correlazione Multipla saranno
√
0.462 = 0.680 e 0.482 = 0.695
Si osserva chiaramente come l’incremento sia modesto
Quindi introdurre i termini di interazione non aggiunge nulla di importante
per spiegare le relazioni tra i predittori e la variabile risposta
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
28 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
R o R 2 per Confrontare Modelli Diversi
Un metodo che consente di capire se l’aggiunta dei termini di interazione e/o
degli effetti singoli sia utile, si basa sull’incremento del valore di R 2 o quello
del Coefficiente di Correlazione Multipla R
Nel nostro esempio, il modello privo di interazioni mostra un R 2 = 0.462,
mentre il modello con interazioni mostra un R 2 = 0.482
Conseguentemente√, i Coefficienti di Correlazione Multipla saranno
√
0.462 = 0.680 e 0.482 = 0.695
Si osserva chiaramente come l’incremento sia modesto
Quindi introdurre i termini di interazione non aggiunge nulla di importante
per spiegare le relazioni tra i predittori e la variabile risposta
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
28 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
R o R 2 per Confrontare Modelli Diversi
Un metodo che consente di capire se l’aggiunta dei termini di interazione e/o
degli effetti singoli sia utile, si basa sull’incremento del valore di R 2 o quello
del Coefficiente di Correlazione Multipla R
Nel nostro esempio, il modello privo di interazioni mostra un R 2 = 0.462,
mentre il modello con interazioni mostra un R 2 = 0.482
Conseguentemente√, i Coefficienti di Correlazione Multipla saranno
√
0.462 = 0.680 e 0.482 = 0.695
Si osserva chiaramente come l’incremento sia modesto
Quindi introdurre i termini di interazione non aggiunge nulla di importante
per spiegare le relazioni tra i predittori e la variabile risposta
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
28 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
R o R 2 per Confrontare Modelli Diversi
Un metodo che consente di capire se l’aggiunta dei termini di interazione e/o
degli effetti singoli sia utile, si basa sull’incremento del valore di R 2 o quello
del Coefficiente di Correlazione Multipla R
Nel nostro esempio, il modello privo di interazioni mostra un R 2 = 0.462,
mentre il modello con interazioni mostra un R 2 = 0.482
Conseguentemente√, i Coefficienti di Correlazione Multipla saranno
√
0.462 = 0.680 e 0.482 = 0.695
Si osserva chiaramente come l’incremento sia modesto
Quindi introdurre i termini di interazione non aggiunge nulla di importante
per spiegare le relazioni tra i predittori e la variabile risposta
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
28 / 58
Modello con Interazioni tra Predittori Quantitativi e Qualitativi
R o R 2 per Confrontare Modelli Diversi
Un metodo che consente di capire se l’aggiunta dei termini di interazione e/o
degli effetti singoli sia utile, si basa sull’incremento del valore di R 2 o quello
del Coefficiente di Correlazione Multipla R
Nel nostro esempio, il modello privo di interazioni mostra un R 2 = 0.462,
mentre il modello con interazioni mostra un R 2 = 0.482
Conseguentemente√, i Coefficienti di Correlazione Multipla saranno
√
0.462 = 0.680 e 0.482 = 0.695
Si osserva chiaramente come l’incremento sia modesto
Quindi introdurre i termini di interazione non aggiunge nulla di importante
per spiegare le relazioni tra i predittori e la variabile risposta
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
28 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Inferenza per la Regressione con Predittori Quantitativi e
Qualitativi
Come al solito è necessario effettuare un’analisi inferenziale allo scopo di
saggiare quali e quanti effetti sono presenti in un’analisi di regressione con
predittori di qualsiasi tipo
L’impostazione è la stessa di quella utilizzata in precedenza
Si parte dal modello completo (con le interazioni) e si procede via via
eliminando gli effetti non significativi
Ci si basa sempre sul test F che confronta il modello completo con quello
ridotto. Ad es., per saggiare l’esistenza di interazione avremo
F =
(R 2 − Rr2 )/df1
(SSEr − SSEc )/df1
= c
SSEc /df2
(1 − Rc2 )/df2
dove SSEr e SSEc indicano le somme dei quadrati degli errori dei modelli
completo = c e ridotto = r
Inoltre df1 e df2 indicano, rispettivamente, la differenza di termini nei due
modelli e i gdl del modello completo
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
29 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Inferenza per la Regressione con Predittori Quantitativi e
Qualitativi
Come al solito è necessario effettuare un’analisi inferenziale allo scopo di
saggiare quali e quanti effetti sono presenti in un’analisi di regressione con
predittori di qualsiasi tipo
L’impostazione è la stessa di quella utilizzata in precedenza
Si parte dal modello completo (con le interazioni) e si procede via via
eliminando gli effetti non significativi
Ci si basa sempre sul test F che confronta il modello completo con quello
ridotto. Ad es., per saggiare l’esistenza di interazione avremo
F =
(R 2 − Rr2 )/df1
(SSEr − SSEc )/df1
= c
SSEc /df2
(1 − Rc2 )/df2
dove SSEr e SSEc indicano le somme dei quadrati degli errori dei modelli
completo = c e ridotto = r
Inoltre df1 e df2 indicano, rispettivamente, la differenza di termini nei due
modelli e i gdl del modello completo
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
29 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Inferenza per la Regressione con Predittori Quantitativi e
Qualitativi
Come al solito è necessario effettuare un’analisi inferenziale allo scopo di
saggiare quali e quanti effetti sono presenti in un’analisi di regressione con
predittori di qualsiasi tipo
L’impostazione è la stessa di quella utilizzata in precedenza
Si parte dal modello completo (con le interazioni) e si procede via via
eliminando gli effetti non significativi
Ci si basa sempre sul test F che confronta il modello completo con quello
ridotto. Ad es., per saggiare l’esistenza di interazione avremo
F =
(R 2 − Rr2 )/df1
(SSEr − SSEc )/df1
= c
SSEc /df2
(1 − Rc2 )/df2
dove SSEr e SSEc indicano le somme dei quadrati degli errori dei modelli
completo = c e ridotto = r
Inoltre df1 e df2 indicano, rispettivamente, la differenza di termini nei due
modelli e i gdl del modello completo
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
29 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Inferenza per la Regressione con Predittori Quantitativi e
Qualitativi
Come al solito è necessario effettuare un’analisi inferenziale allo scopo di
saggiare quali e quanti effetti sono presenti in un’analisi di regressione con
predittori di qualsiasi tipo
L’impostazione è la stessa di quella utilizzata in precedenza
Si parte dal modello completo (con le interazioni) e si procede via via
eliminando gli effetti non significativi
Ci si basa sempre sul test F che confronta il modello completo con quello
ridotto. Ad es., per saggiare l’esistenza di interazione avremo
F =
(R 2 − Rr2 )/df1
(SSEr − SSEc )/df1
= c
SSEc /df2
(1 − Rc2 )/df2
dove SSEr e SSEc indicano le somme dei quadrati degli errori dei modelli
completo = c e ridotto = r
Inoltre df1 e df2 indicano, rispettivamente, la differenza di termini nei due
modelli e i gdl del modello completo
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
29 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Inferenza per la Regressione con Predittori Quantitativi e
Qualitativi
Come al solito è necessario effettuare un’analisi inferenziale allo scopo di
saggiare quali e quanti effetti sono presenti in un’analisi di regressione con
predittori di qualsiasi tipo
L’impostazione è la stessa di quella utilizzata in precedenza
Si parte dal modello completo (con le interazioni) e si procede via via
eliminando gli effetti non significativi
Ci si basa sempre sul test F che confronta il modello completo con quello
ridotto. Ad es., per saggiare l’esistenza di interazione avremo
F =
(R 2 − Rr2 )/df1
(SSEr − SSEc )/df1
= c
SSEc /df2
(1 − Rc2 )/df2
dove SSEr e SSEc indicano le somme dei quadrati degli errori dei modelli
completo = c e ridotto = r
Inoltre df1 e df2 indicano, rispettivamente, la differenza di termini nei due
modelli e i gdl del modello completo
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
29 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Test per l’Assenza di Interazione
L’ipotesi di base H0 : assenza di interazione consiste, sostanzialmente, nel
considerare il modello ridotto vero
y
H0
y
x
Ha
x
Un p-valore basso comporta la veridicità dell’ipotesi Ha , quindi è opportuno
introdurre i termini di interazione
Se fosse vera H0 ci limiteremo a considerare l’effetto di X su Y uguale per
ogni livello di Z
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
30 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Test per l’Assenza di Interazione
L’ipotesi di base H0 : assenza di interazione consiste, sostanzialmente, nel
considerare il modello ridotto vero
y
H0
y
x
Ha
x
Un p-valore basso comporta la veridicità dell’ipotesi Ha , quindi è opportuno
introdurre i termini di interazione
Se fosse vera H0 ci limiteremo a considerare l’effetto di X su Y uguale per
ogni livello di Z
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
30 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Test per l’Assenza di Interazione
L’ipotesi di base H0 : assenza di interazione consiste, sostanzialmente, nel
considerare il modello ridotto vero
y
H0
y
x
Ha
x
Un p-valore basso comporta la veridicità dell’ipotesi Ha , quindi è opportuno
introdurre i termini di interazione
Se fosse vera H0 ci limiteremo a considerare l’effetto di X su Y uguale per
ogni livello di Z
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
30 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Esempio 13.3 — Verifica dell’Effetto dell’Interazione
Istruzione-Gruppo Etnico sul Reddito
Consideriamo il modello completo
E (y ) = α + βx + β1 z1 + β2 z2 + β3 (x × z1 ) + β4 (x × z2 )
L’ipotesi di base è H0 : β3 = β4 = 0
Tabella: Tabella ANOVA delle Somme dei Quadrati Parziali Spiegate
dall’Istruzione, dal Gruppo Etnico e dalla loro Interazione
Source
GE
Istruzione
GE*Istruzione
Errore
Totale
Nicola Tedesco (Statistica Sociale)
Type III Sum
of Squares
267.319
6373.507
691.837
17472.412
33761.950
df
2
1
2
74
79
Mean Square
133.659
6373.507
345.918
236.114
F
.566
26.993
1.465
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
Sig
.570
.000
.238
31 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Esempio 13.3 — Verifica dell’Effetto dell’Interazione
Istruzione-Gruppo Etnico sul Reddito
Consideriamo il modello completo
E (y ) = α + βx + β1 z1 + β2 z2 + β3 (x × z1 ) + β4 (x × z2 )
L’ipotesi di base è H0 : β3 = β4 = 0
Tabella: Tabella ANOVA delle Somme dei Quadrati Parziali Spiegate
dall’Istruzione, dal Gruppo Etnico e dalla loro Interazione
Source
GE
Istruzione
GE*Istruzione
Errore
Totale
Nicola Tedesco (Statistica Sociale)
Type III Sum
of Squares
267.319
6373.507
691.837
17472.412
33761.950
df
2
1
2
74
79
Mean Square
133.659
6373.507
345.918
236.114
F
.566
26.993
1.465
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
Sig
.570
.000
.238
31 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Esempio 13.3 — Verifica dell’Effetto dell’Interazione
Istruzione-Gruppo Etnico sul Reddito
Consideriamo il modello completo
E (y ) = α + βx + β1 z1 + β2 z2 + β3 (x × z1 ) + β4 (x × z2 )
L’ipotesi di base è H0 : β3 = β4 = 0
Tabella: Tabella ANOVA delle Somme dei Quadrati Parziali Spiegate
dall’Istruzione, dal Gruppo Etnico e dalla loro Interazione
Source
GE
Istruzione
GE*Istruzione
Errore
Totale
Nicola Tedesco (Statistica Sociale)
Type III Sum
of Squares
267.319
6373.507
691.837
17472.412
33761.950
df
2
1
2
74
79
Mean Square
133.659
6373.507
345.918
236.114
F
.566
26.993
1.465
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
Sig
.570
.000
.238
31 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
La variabilità spiegata dall’interazione pari a 691.837 non è altro che la
differenza tra i valori SSE del modello ridotto e di quello completo
18164.248 − 17472.412 = 691.837
Si chiamano, appunto Somme dei Quadrati Parziali
Per verificare H0 = assenza di interazione si costruisce la statistica test F
F = 345.9/236.1 = 1.46
il cui p-valore = 0.238
Si conclude che l’interazione non è significativa e si considererà solo il
modello ridotto (rette parallele)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
32 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
La variabilità spiegata dall’interazione pari a 691.837 non è altro che la
differenza tra i valori SSE del modello ridotto e di quello completo
18164.248 − 17472.412 = 691.837
Si chiamano, appunto Somme dei Quadrati Parziali
Per verificare H0 = assenza di interazione si costruisce la statistica test F
F = 345.9/236.1 = 1.46
il cui p-valore = 0.238
Si conclude che l’interazione non è significativa e si considererà solo il
modello ridotto (rette parallele)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
32 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
La variabilità spiegata dall’interazione pari a 691.837 non è altro che la
differenza tra i valori SSE del modello ridotto e di quello completo
18164.248 − 17472.412 = 691.837
Si chiamano, appunto Somme dei Quadrati Parziali
Per verificare H0 = assenza di interazione si costruisce la statistica test F
F = 345.9/236.1 = 1.46
il cui p-valore = 0.238
Si conclude che l’interazione non è significativa e si considererà solo il
modello ridotto (rette parallele)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
32 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
La variabilità spiegata dall’interazione pari a 691.837 non è altro che la
differenza tra i valori SSE del modello ridotto e di quello completo
18164.248 − 17472.412 = 691.837
Si chiamano, appunto Somme dei Quadrati Parziali
Per verificare H0 = assenza di interazione si costruisce la statistica test F
F = 345.9/236.1 = 1.46
il cui p-valore = 0.238
Si conclude che l’interazione non è significativa e si considererà solo il
modello ridotto (rette parallele)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
32 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Verifica dell’Effetto della Variabile Categoriale,
Controllando per x
In questo caso le ipotesi da contrapporre sono le seguenti:
H0 : effetto di X su Y uguale ∀ categoria di Z e E (Y ) uguali ∀ categoria di Z
Ha : effetto di X su Y uguale ∀ categoria di Z e E (Y ) diversi ∀ categoria di
Z
y
H0
y
Ha
x
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
x
33 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Verifica dell’Effetto della Variabile Categoriale,
Controllando per x
In questo caso le ipotesi da contrapporre sono le seguenti:
H0 : effetto di X su Y uguale ∀ categoria di Z e E (Y ) uguali ∀ categoria di Z
Ha : effetto di X su Y uguale ∀ categoria di Z e E (Y ) diversi ∀ categoria di
Z
y
H0
y
Ha
x
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
x
33 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Nel caso di un modello con predittore categoriale a 3 livelli confronteremo il
modello completo
E (y ) = α + βx + β1 z1 + β2 z2
con il modello ridotto
E (y ) = α + βx
In sintesi è l’ipotesi di assenza di effetto del predittore categoriale
H0 : β1 = β2 = 0 (coefficienti delle variabili dummy = 0).
Il rifiuto di H0 consente di affermare che pur in presenza di uno stesso effetto
di X su Y , i E (Y ) per i livelli del predittore categoriale sono diversi
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
34 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Nel caso di un modello con predittore categoriale a 3 livelli confronteremo il
modello completo
E (y ) = α + βx + β1 z1 + β2 z2
con il modello ridotto
E (y ) = α + βx
In sintesi è l’ipotesi di assenza di effetto del predittore categoriale
H0 : β1 = β2 = 0 (coefficienti delle variabili dummy = 0).
Il rifiuto di H0 consente di affermare che pur in presenza di uno stesso effetto
di X su Y , i E (Y ) per i livelli del predittore categoriale sono diversi
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
34 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Nel caso di un modello con predittore categoriale a 3 livelli confronteremo il
modello completo
E (y ) = α + βx + β1 z1 + β2 z2
con il modello ridotto
E (y ) = α + βx
In sintesi è l’ipotesi di assenza di effetto del predittore categoriale
H0 : β1 = β2 = 0 (coefficienti delle variabili dummy = 0).
Il rifiuto di H0 consente di affermare che pur in presenza di uno stesso effetto
di X su Y , i E (Y ) per i livelli del predittore categoriale sono diversi
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
34 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Esempio 13.4 — Verifica dell’Effetto del Gruppo Etnico sul
Reddito, Controllando per l’Istruzione
In riferimento al ns esempio, consideriamo il modello privo di interazione e
calcoliamo la decomposizione della variabilità complessiva
Tabella: Somme dei Quadrati Parziali Spiegate dall’Istruzione e dal Gruppo Etnico
– Modello senza Interazione
Source
GE
Istruzione
Errore
Totale
Type III Sum
of Squares
1460.584
12245.232
18164.248
33761.950
df
2
1
76
79
Mean Square
730.292
12245.232
239.003
F
3.056
51.235
Sig
.053
.000
La statistica F per verificare se il GE ha un effetto è 730.29/239.00 = 3.06
(P-valore = 0.053)
Abbiamo una debole evidenza contro H0 , anche a causa delle ridotte
ampiezze campionarie
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
35 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Esempio 13.4 — Verifica dell’Effetto del Gruppo Etnico sul
Reddito, Controllando per l’Istruzione
In riferimento al ns esempio, consideriamo il modello privo di interazione e
calcoliamo la decomposizione della variabilità complessiva
Tabella: Somme dei Quadrati Parziali Spiegate dall’Istruzione e dal Gruppo Etnico
– Modello senza Interazione
Source
GE
Istruzione
Errore
Totale
Type III Sum
of Squares
1460.584
12245.232
18164.248
33761.950
df
2
1
76
79
Mean Square
730.292
12245.232
239.003
F
3.056
51.235
Sig
.053
.000
La statistica F per verificare se il GE ha un effetto è 730.29/239.00 = 3.06
(P-valore = 0.053)
Abbiamo una debole evidenza contro H0 , anche a causa delle ridotte
ampiezze campionarie
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
35 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Esempio 13.4 — Verifica dell’Effetto del Gruppo Etnico sul
Reddito, Controllando per l’Istruzione
In riferimento al ns esempio, consideriamo il modello privo di interazione e
calcoliamo la decomposizione della variabilità complessiva
Tabella: Somme dei Quadrati Parziali Spiegate dall’Istruzione e dal Gruppo Etnico
– Modello senza Interazione
Source
GE
Istruzione
Errore
Totale
Type III Sum
of Squares
1460.584
12245.232
18164.248
33761.950
df
2
1
76
79
Mean Square
730.292
12245.232
239.003
F
3.056
51.235
Sig
.053
.000
La statistica F per verificare se il GE ha un effetto è 730.29/239.00 = 3.06
(P-valore = 0.053)
Abbiamo una debole evidenza contro H0 , anche a causa delle ridotte
ampiezze campionarie
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
35 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Confronto con i Risultati dell’ANOVA
Quanto appena visto assomiglia molto all’ANOVA a una via
Infatti la verifica dell’effetto della variabile categoriale, controllando per X ,
evidenzia se le medie E (Y ) nei diversi gruppi sono uguali o diverse
Tuttavia, proprio a causa del controllo per X non si tratta di una vera e
propria ANOVA a una via
Infatti, una semplice ANOVA (confronto dei redditi medi tra i GE), mostra
un P−valore = .018, rispetto al valore .053 dell’analisi con il controllo per
X = Istruzione
Tabella: ANOVA a una via del Reddito al variare del Gruppo Etnico
Source
GE
Errore
Totale
Nicola Tedesco (Statistica Sociale)
Type III Sum
of Squares
3352.470
30409.480
33761.950
df
2
77
79
Mean Square
1676.235
394.928
F
4.244
Sig
.018
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
36 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Confronto con i Risultati dell’ANOVA
Quanto appena visto assomiglia molto all’ANOVA a una via
Infatti la verifica dell’effetto della variabile categoriale, controllando per X ,
evidenzia se le medie E (Y ) nei diversi gruppi sono uguali o diverse
Tuttavia, proprio a causa del controllo per X non si tratta di una vera e
propria ANOVA a una via
Infatti, una semplice ANOVA (confronto dei redditi medi tra i GE), mostra
un P−valore = .018, rispetto al valore .053 dell’analisi con il controllo per
X = Istruzione
Tabella: ANOVA a una via del Reddito al variare del Gruppo Etnico
Source
GE
Errore
Totale
Nicola Tedesco (Statistica Sociale)
Type III Sum
of Squares
3352.470
30409.480
33761.950
df
2
77
79
Mean Square
1676.235
394.928
F
4.244
Sig
.018
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
36 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Confronto con i Risultati dell’ANOVA
Quanto appena visto assomiglia molto all’ANOVA a una via
Infatti la verifica dell’effetto della variabile categoriale, controllando per X ,
evidenzia se le medie E (Y ) nei diversi gruppi sono uguali o diverse
Tuttavia, proprio a causa del controllo per X non si tratta di una vera e
propria ANOVA a una via
Infatti, una semplice ANOVA (confronto dei redditi medi tra i GE), mostra
un P−valore = .018, rispetto al valore .053 dell’analisi con il controllo per
X = Istruzione
Tabella: ANOVA a una via del Reddito al variare del Gruppo Etnico
Source
GE
Errore
Totale
Nicola Tedesco (Statistica Sociale)
Type III Sum
of Squares
3352.470
30409.480
33761.950
df
2
77
79
Mean Square
1676.235
394.928
F
4.244
Sig
.018
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
36 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Confronto con i Risultati dell’ANOVA
Quanto appena visto assomiglia molto all’ANOVA a una via
Infatti la verifica dell’effetto della variabile categoriale, controllando per X ,
evidenzia se le medie E (Y ) nei diversi gruppi sono uguali o diverse
Tuttavia, proprio a causa del controllo per X non si tratta di una vera e
propria ANOVA a una via
Infatti, una semplice ANOVA (confronto dei redditi medi tra i GE), mostra
un P−valore = .018, rispetto al valore .053 dell’analisi con il controllo per
X = Istruzione
Tabella: ANOVA a una via del Reddito al variare del Gruppo Etnico
Source
GE
Errore
Totale
Nicola Tedesco (Statistica Sociale)
Type III Sum
of Squares
3352.470
30409.480
33761.950
df
2
77
79
Mean Square
1676.235
394.928
F
4.244
Sig
.018
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
36 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Confronto con i Risultati dell’ANOVA
Quanto appena visto assomiglia molto all’ANOVA a una via
Infatti la verifica dell’effetto della variabile categoriale, controllando per X ,
evidenzia se le medie E (Y ) nei diversi gruppi sono uguali o diverse
Tuttavia, proprio a causa del controllo per X non si tratta di una vera e
propria ANOVA a una via
Infatti, una semplice ANOVA (confronto dei redditi medi tra i GE), mostra
un P−valore = .018, rispetto al valore .053 dell’analisi con il controllo per
X = Istruzione
Tabella: ANOVA a una via del Reddito al variare del Gruppo Etnico
Source
GE
Errore
Totale
Nicola Tedesco (Statistica Sociale)
Type III Sum
of Squares
3352.470
30409.480
33761.950
df
2
77
79
Mean Square
1676.235
394.928
F
4.244
Sig
.018
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
36 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
A cosa è dovuta questa differenza?
L’ANOVA consiste nel P
suddividere (partizionare) la variabilità totale della
variabile Y Var (Y ) = (y − y )2
P
Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y )
Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente
intorno alla proprie medie x̄ e ȳ
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di
concordanza (i valori sono entrambi maggiori o minori delle medie)
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di
disconcordanza (i valori uno maggiore e uno minore delle rispettive medie)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
37 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
A cosa è dovuta questa differenza?
L’ANOVA consiste nel P
suddividere (partizionare) la variabilità totale della
variabile Y Var (Y ) = (y − y )2
P
Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y )
Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente
intorno alla proprie medie x̄ e ȳ
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di
concordanza (i valori sono entrambi maggiori o minori delle medie)
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di
disconcordanza (i valori uno maggiore e uno minore delle rispettive medie)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
37 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
A cosa è dovuta questa differenza?
L’ANOVA consiste nel P
suddividere (partizionare) la variabilità totale della
variabile Y Var (Y ) = (y − y )2
P
Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y )
Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente
intorno alla proprie medie x̄ e ȳ
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di
concordanza (i valori sono entrambi maggiori o minori delle medie)
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di
disconcordanza (i valori uno maggiore e uno minore delle rispettive medie)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
37 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
A cosa è dovuta questa differenza?
L’ANOVA consiste nel P
suddividere (partizionare) la variabilità totale della
variabile Y Var (Y ) = (y − y )2
P
Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y )
Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente
intorno alla proprie medie x̄ e ȳ
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di
concordanza (i valori sono entrambi maggiori o minori delle medie)
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di
disconcordanza (i valori uno maggiore e uno minore delle rispettive medie)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
37 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
A cosa è dovuta questa differenza?
L’ANOVA consiste nel P
suddividere (partizionare) la variabilità totale della
variabile Y Var (Y ) = (y − y )2
P
Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y )
Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente
intorno alla proprie medie x̄ e ȳ
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di
concordanza (i valori sono entrambi maggiori o minori delle medie)
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di
disconcordanza (i valori uno maggiore e uno minore delle rispettive medie)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
37 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
A cosa è dovuta questa differenza?
L’ANOVA consiste nel P
suddividere (partizionare) la variabilità totale della
variabile Y Var (Y ) = (y − y )2
P
Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y )
Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente
intorno alla proprie medie x̄ e ȳ
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di
concordanza (i valori sono entrambi maggiori o minori delle medie)
Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di
disconcordanza (i valori uno maggiore e uno minore delle rispettive medie)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
37 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Test per l’Effetto di X Controllando per la Variabile
Categoriale
Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare
l’effetto della variabile categoriale, controllando per X
Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il
predittore categoriale
Il modello è
E (y ) = α + βx + β1 z1 + β2 z2 .
la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia
nullo in ogni categoria di Z
Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o
meno variare tra le categorie di Z , ma non per l’effetto di X
Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y )
possono cambiare anche per la presenza dell’effetto di X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
38 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Test per l’Effetto di X Controllando per la Variabile
Categoriale
Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare
l’effetto della variabile categoriale, controllando per X
Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il
predittore categoriale
Il modello è
E (y ) = α + βx + β1 z1 + β2 z2 .
la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia
nullo in ogni categoria di Z
Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o
meno variare tra le categorie di Z , ma non per l’effetto di X
Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y )
possono cambiare anche per la presenza dell’effetto di X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
38 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Test per l’Effetto di X Controllando per la Variabile
Categoriale
Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare
l’effetto della variabile categoriale, controllando per X
Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il
predittore categoriale
Il modello è
E (y ) = α + βx + β1 z1 + β2 z2 .
la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia
nullo in ogni categoria di Z
Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o
meno variare tra le categorie di Z , ma non per l’effetto di X
Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y )
possono cambiare anche per la presenza dell’effetto di X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
38 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Test per l’Effetto di X Controllando per la Variabile
Categoriale
Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare
l’effetto della variabile categoriale, controllando per X
Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il
predittore categoriale
Il modello è
E (y ) = α + βx + β1 z1 + β2 z2 .
la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia
nullo in ogni categoria di Z
Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o
meno variare tra le categorie di Z , ma non per l’effetto di X
Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y )
possono cambiare anche per la presenza dell’effetto di X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
38 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Test per l’Effetto di X Controllando per la Variabile
Categoriale
Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare
l’effetto della variabile categoriale, controllando per X
Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il
predittore categoriale
Il modello è
E (y ) = α + βx + β1 z1 + β2 z2 .
la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia
nullo in ogni categoria di Z
Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o
meno variare tra le categorie di Z , ma non per l’effetto di X
Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y )
possono cambiare anche per la presenza dell’effetto di X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
38 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Test per l’Effetto di X Controllando per la Variabile
Categoriale
Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare
l’effetto della variabile categoriale, controllando per X
Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il
predittore categoriale
Il modello è
E (y ) = α + βx + β1 z1 + β2 z2 .
la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia
nullo in ogni categoria di Z
Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o
meno variare tra le categorie di Z , ma non per l’effetto di X
Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y )
possono cambiare anche per la presenza dell’effetto di X
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
38 / 58
Inferenza per la Regressione con Predittori Quantitativi e Qualitativi
Tabella: Tabella di confronto per i quattro modelli
SSE
R2
H0 : No inter.
F = 1.5, P = 0.24
H0 : β 1 = β 2 = 0
Medie uguali
cont. per x
F = 3.1, P = 0.053
H0 : β = 0
no effetto X
F = 51.2, P = 0.000
Nicola Tedesco (Statistica Sociale)
An. della
Covarianza
Interazione
E (y ) = α + βx
+β1 z1 + β2 z2
+β3 (xz1 ) + β4 (xz2 )
17472.4
0.48
Modello
completo
An. della
Covarianza
No Inter.
E (y ) = α + βx
+β1 z1 + β2 z2
Regressione
Bivariata
E (y ) = α + βx
ANOVA
1-via
E (y ) = α
+β1 z1 + β2 z2
18164.2
0.46
Modello
ridotto
9812.4
0.42
30409.5
0.10
Modello
completo
Modello
ridotto
Modello
completo
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
Modello
ridotto
39 / 58
Medie Aggiustate
Medie Aggiustate
L’informazione proveniente dalle stime dei parametri è fondamentale
I loro valori consentono di ben comprendere la dimensione dell’effetto dei
predittori e/o delle covariare sulla variabile risposta
Particolare interesse assume l’analisi del modello che studia l’effetto del
predittore qualitativo Z , controllando per la covariata X
Risulta interessante calcolare i E (Y ) per ogni categoria di Z , ipotizzando che
i E (X ) siano gli stessi ∀x
L’unico limite di questo approccio è che risulta valido solo in presenza di
modelli privi di interazione
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
40 / 58
Medie Aggiustate
Medie Aggiustate
L’informazione proveniente dalle stime dei parametri è fondamentale
I loro valori consentono di ben comprendere la dimensione dell’effetto dei
predittori e/o delle covariare sulla variabile risposta
Particolare interesse assume l’analisi del modello che studia l’effetto del
predittore qualitativo Z , controllando per la covariata X
Risulta interessante calcolare i E (Y ) per ogni categoria di Z , ipotizzando che
i E (X ) siano gli stessi ∀x
L’unico limite di questo approccio è che risulta valido solo in presenza di
modelli privi di interazione
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
40 / 58
Medie Aggiustate
Medie Aggiustate
L’informazione proveniente dalle stime dei parametri è fondamentale
I loro valori consentono di ben comprendere la dimensione dell’effetto dei
predittori e/o delle covariare sulla variabile risposta
Particolare interesse assume l’analisi del modello che studia l’effetto del
predittore qualitativo Z , controllando per la covariata X
Risulta interessante calcolare i E (Y ) per ogni categoria di Z , ipotizzando che
i E (X ) siano gli stessi ∀x
L’unico limite di questo approccio è che risulta valido solo in presenza di
modelli privi di interazione
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
40 / 58
Medie Aggiustate
Medie Aggiustate
L’informazione proveniente dalle stime dei parametri è fondamentale
I loro valori consentono di ben comprendere la dimensione dell’effetto dei
predittori e/o delle covariare sulla variabile risposta
Particolare interesse assume l’analisi del modello che studia l’effetto del
predittore qualitativo Z , controllando per la covariata X
Risulta interessante calcolare i E (Y ) per ogni categoria di Z , ipotizzando che
i E (X ) siano gli stessi ∀x
L’unico limite di questo approccio è che risulta valido solo in presenza di
modelli privi di interazione
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
40 / 58
Medie Aggiustate
Medie Aggiustate
L’informazione proveniente dalle stime dei parametri è fondamentale
I loro valori consentono di ben comprendere la dimensione dell’effetto dei
predittori e/o delle covariare sulla variabile risposta
Particolare interesse assume l’analisi del modello che studia l’effetto del
predittore qualitativo Z , controllando per la covariata X
Risulta interessante calcolare i E (Y ) per ogni categoria di Z , ipotizzando che
i E (X ) siano gli stessi ∀x
L’unico limite di questo approccio è che risulta valido solo in presenza di
modelli privi di interazione
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
40 / 58
Medie Aggiustate
Medie Aggiustate della Variabile Risposta, Controllando
per la Covariata
Si calcolano i E (Y ) ipotizzando che le distribuzioni delle covariata X abbiano
la stessa media in ogni gruppo
Def.: La media aggiustata di Y per un particolare gruppo è la funzione di
regressione per quel gruppo stimata sulla media degli X -valori per tutti i
gruppi
y
Category 3
Category 1
Adjusted mean,
category 1
Category 2
Adjusted means
x
Nicola Tedesco (Statistica Sociale)
mx
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
41 / 58
Medie Aggiustate
Medie Aggiustate della Variabile Risposta, Controllando
per la Covariata
Si calcolano i E (Y ) ipotizzando che le distribuzioni delle covariata X abbiano
la stessa media in ogni gruppo
Def.: La media aggiustata di Y per un particolare gruppo è la funzione di
regressione per quel gruppo stimata sulla media degli X -valori per tutti i
gruppi
y
Category 3
Category 1
Adjusted mean,
category 1
Category 2
Adjusted means
x
Nicola Tedesco (Statistica Sociale)
mx
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
41 / 58
Medie Aggiustate
Medie Aggiustate della Variabile Risposta, Controllando
per la Covariata
Si calcolano i E (Y ) ipotizzando che le distribuzioni delle covariata X abbiano
la stessa media in ogni gruppo
Def.: La media aggiustata di Y per un particolare gruppo è la funzione di
regressione per quel gruppo stimata sulla media degli X -valori per tutti i
gruppi
y
Category 3
Category 1
Adjusted mean,
category 1
Category 2
Adjusted means
x
Nicola Tedesco (Statistica Sociale)
mx
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
41 / 58
Medie Aggiustate
L’utilità di questo approccio risiede sostanzialmente nel confrontare i modelli
di regressione nellipotesi che la covariata assuma la stessa media e, quindi, le
popolazioni delle categorie del predittore categoriale Z siano le stesse
(all’incirca)
In termini di notazione occorre precisare che:
La media aggiustata per il gruppo i è indicata da y ′i . Questo è il valore
dell’equazione di previsione per il gruppo I calcolata per il valore x̄
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
42 / 58
Medie Aggiustate
L’utilità di questo approccio risiede sostanzialmente nel confrontare i modelli
di regressione nellipotesi che la covariata assuma la stessa media e, quindi, le
popolazioni delle categorie del predittore categoriale Z siano le stesse
(all’incirca)
In termini di notazione occorre precisare che:
La media aggiustata per il gruppo i è indicata da y ′i . Questo è il valore
dell’equazione di previsione per il gruppo I calcolata per il valore x̄
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
42 / 58
Medie Aggiustate
Esercizio 13.5 — Medie Aggiustate del Reddito,
Controllando per l’Istruzione
Riprendiamo l’equazione del modello privo di interazione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 .
Tabella: Redditi medi non aggiustati, Medie aggiustate (Controllando per
l’Istruzione) e Equazioni di Previsione per il Modello privo di Interazione
Gruppo
Neri
Ispanici
Bianchi
Equazione di
Previsione
ŷ = −26.54 + 4.43x
ŷ = −20.60 + 4.43x
ŷ = −15.66 + 4.43x
Media
di x
12.2
11.6
13.1
Media
di y
27.8
31.0
42.5
Media
Aggiustata di y
29.7
35.6
40.6
Per calcolare le medie aggiustate, si prendono le equazioni di previsione per
ciascun gruppo calcolate dal modello privo di interazioni e si sostituisce al
posto di X la sua media globale x̄
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
43 / 58
Medie Aggiustate
Esercizio 13.5 — Medie Aggiustate del Reddito,
Controllando per l’Istruzione
Riprendiamo l’equazione del modello privo di interazione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 .
Tabella: Redditi medi non aggiustati, Medie aggiustate (Controllando per
l’Istruzione) e Equazioni di Previsione per il Modello privo di Interazione
Gruppo
Neri
Ispanici
Bianchi
Equazione di
Previsione
ŷ = −26.54 + 4.43x
ŷ = −20.60 + 4.43x
ŷ = −15.66 + 4.43x
Media
di x
12.2
11.6
13.1
Media
di y
27.8
31.0
42.5
Media
Aggiustata di y
29.7
35.6
40.6
Per calcolare le medie aggiustate, si prendono le equazioni di previsione per
ciascun gruppo calcolate dal modello privo di interazioni e si sostituisce al
posto di X la sua media globale x̄
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
43 / 58
Medie Aggiustate
Esercizio 13.5 — Medie Aggiustate del Reddito,
Controllando per l’Istruzione
Riprendiamo l’equazione del modello privo di interazione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 .
Tabella: Redditi medi non aggiustati, Medie aggiustate (Controllando per
l’Istruzione) e Equazioni di Previsione per il Modello privo di Interazione
Gruppo
Neri
Ispanici
Bianchi
Equazione di
Previsione
ŷ = −26.54 + 4.43x
ŷ = −20.60 + 4.43x
ŷ = −15.66 + 4.43x
Media
di x
12.2
11.6
13.1
Media
di y
27.8
31.0
42.5
Media
Aggiustata di y
29.7
35.6
40.6
Per calcolare le medie aggiustate, si prendono le equazioni di previsione per
ciascun gruppo calcolate dal modello privo di interazioni e si sostituisce al
posto di X la sua media globale x̄
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
43 / 58
Medie Aggiustate
Calcoliamo la media aggiusta per il gruppo dei Neri. La media complessiva
x̄ = 12.7
y ′1 = −26.54 + 4.43x̄ = −26.54 + 4.43(12.7) = 29.7.
Allo stesso modo per Ispanici e Bianchi avremo
y ′2 = −20.60 + 4.43(12.7) = 35.6,
y ′3 = −15.66 + 4.43(12.7) = 40.6.
Si può osservare come le medie aggiustate ottenute siano meno diverse
rispetto a quelle campionarie
Ciò è dovuto al fatto che per i gruppi con x̄i > x̄ avremo y ′i < ȳi
Possiamo parlare di un effetto perequativo
In realtà si vogliono confrontare il E (Y ) calcolati ipotizzando che le
popolazioni di ogni gruppo siano le stesse
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
44 / 58
Medie Aggiustate
Calcoliamo la media aggiusta per il gruppo dei Neri. La media complessiva
x̄ = 12.7
y ′1 = −26.54 + 4.43x̄ = −26.54 + 4.43(12.7) = 29.7.
Allo stesso modo per Ispanici e Bianchi avremo
y ′2 = −20.60 + 4.43(12.7) = 35.6,
y ′3 = −15.66 + 4.43(12.7) = 40.6.
Si può osservare come le medie aggiustate ottenute siano meno diverse
rispetto a quelle campionarie
Ciò è dovuto al fatto che per i gruppi con x̄i > x̄ avremo y ′i < ȳi
Possiamo parlare di un effetto perequativo
In realtà si vogliono confrontare il E (Y ) calcolati ipotizzando che le
popolazioni di ogni gruppo siano le stesse
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
44 / 58
Medie Aggiustate
Calcoliamo la media aggiusta per il gruppo dei Neri. La media complessiva
x̄ = 12.7
y ′1 = −26.54 + 4.43x̄ = −26.54 + 4.43(12.7) = 29.7.
Allo stesso modo per Ispanici e Bianchi avremo
y ′2 = −20.60 + 4.43(12.7) = 35.6,
y ′3 = −15.66 + 4.43(12.7) = 40.6.
Si può osservare come le medie aggiustate ottenute siano meno diverse
rispetto a quelle campionarie
Ciò è dovuto al fatto che per i gruppi con x̄i > x̄ avremo y ′i < ȳi
Possiamo parlare di un effetto perequativo
In realtà si vogliono confrontare il E (Y ) calcolati ipotizzando che le
popolazioni di ogni gruppo siano le stesse
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
44 / 58
Medie Aggiustate
Calcoliamo la media aggiusta per il gruppo dei Neri. La media complessiva
x̄ = 12.7
y ′1 = −26.54 + 4.43x̄ = −26.54 + 4.43(12.7) = 29.7.
Allo stesso modo per Ispanici e Bianchi avremo
y ′2 = −20.60 + 4.43(12.7) = 35.6,
y ′3 = −15.66 + 4.43(12.7) = 40.6.
Si può osservare come le medie aggiustate ottenute siano meno diverse
rispetto a quelle campionarie
Ciò è dovuto al fatto che per i gruppi con x̄i > x̄ avremo y ′i < ȳi
Possiamo parlare di un effetto perequativo
In realtà si vogliono confrontare il E (Y ) calcolati ipotizzando che le
popolazioni di ogni gruppo siano le stesse
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
44 / 58
Medie Aggiustate
Calcoliamo la media aggiusta per il gruppo dei Neri. La media complessiva
x̄ = 12.7
y ′1 = −26.54 + 4.43x̄ = −26.54 + 4.43(12.7) = 29.7.
Allo stesso modo per Ispanici e Bianchi avremo
y ′2 = −20.60 + 4.43(12.7) = 35.6,
y ′3 = −15.66 + 4.43(12.7) = 40.6.
Si può osservare come le medie aggiustate ottenute siano meno diverse
rispetto a quelle campionarie
Ciò è dovuto al fatto che per i gruppi con x̄i > x̄ avremo y ′i < ȳi
Possiamo parlare di un effetto perequativo
In realtà si vogliono confrontare il E (Y ) calcolati ipotizzando che le
popolazioni di ogni gruppo siano le stesse
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
44 / 58
Medie Aggiustate
Confronto delle Medie Aggiustate
Quando si vanno a confrontare le medie aggiustate si osserva come le loro
differenze corrispondono ai valori dei coefficienti di regressione delle dummy
nel modello privo di interazioni
Riprendiamo quella equazione di previsione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 .
Confrontando le medie aggiuste dei Neri e dei Bianchi si ottiene
y ′1 − y ′3 = 29.7 − 40.6 = −10.9
Allo stesso modo confrontando gli Ispanci con i Bianchi si ha
y ′2 − y ′3 = −4.9
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
45 / 58
Medie Aggiustate
Confronto delle Medie Aggiustate
Quando si vanno a confrontare le medie aggiustate si osserva come le loro
differenze corrispondono ai valori dei coefficienti di regressione delle dummy
nel modello privo di interazioni
Riprendiamo quella equazione di previsione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 .
Confrontando le medie aggiuste dei Neri e dei Bianchi si ottiene
y ′1 − y ′3 = 29.7 − 40.6 = −10.9
Allo stesso modo confrontando gli Ispanci con i Bianchi si ha
y ′2 − y ′3 = −4.9
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
45 / 58
Medie Aggiustate
Confronto delle Medie Aggiustate
Quando si vanno a confrontare le medie aggiustate si osserva come le loro
differenze corrispondono ai valori dei coefficienti di regressione delle dummy
nel modello privo di interazioni
Riprendiamo quella equazione di previsione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 .
Confrontando le medie aggiuste dei Neri e dei Bianchi si ottiene
y ′1 − y ′3 = 29.7 − 40.6 = −10.9
Allo stesso modo confrontando gli Ispanci con i Bianchi si ha
y ′2 − y ′3 = −4.9
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
45 / 58
Medie Aggiustate
Confronto delle Medie Aggiustate
Quando si vanno a confrontare le medie aggiustate si osserva come le loro
differenze corrispondono ai valori dei coefficienti di regressione delle dummy
nel modello privo di interazioni
Riprendiamo quella equazione di previsione
ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 .
Confrontando le medie aggiuste dei Neri e dei Bianchi si ottiene
y ′1 − y ′3 = 29.7 − 40.6 = −10.9
Allo stesso modo confrontando gli Ispanci con i Bianchi si ha
y ′2 − y ′3 = −4.9
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
45 / 58
Medie Aggiustate
Il grafico mostra come vi sia assoluta corrispondenza con quello del modello
privo di interazione
White (yˆ 5 215.7 1 4.4x)
80
Hispanic (yˆ 5 220.6 1 4.4x)
Income
Black (yˆ 5 226.6 1 4.4 x)
60
4.9
_
y93
_
y92
_
y91
26.0
20
0
5
Nicola Tedesco (Statistica Sociale)
10
_
x 5 12.7
Education
15
20
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
46 / 58
Medie Aggiustate
In ultimo si deve precisare che le differenze tra le medie aggiustate sono
diverse dalle differenze tra le medie campionarie
Ciò è dovuto all’effetto di X su Y (le rette sono parallele ma con pendenza)
Ad es., confrontando le medie campionarie degli Ispanici e dei Bianchi
abbiamo
y 2 − y 3 = 31.0 − 42.5 = −11.5
risultato diverso dal confronto delle medie aggiiustate
y ′2 − y ′3 = 35.6 − 40.6 = −5.0
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
47 / 58
Medie Aggiustate
In ultimo si deve precisare che le differenze tra le medie aggiustate sono
diverse dalle differenze tra le medie campionarie
Ciò è dovuto all’effetto di X su Y (le rette sono parallele ma con pendenza)
Ad es., confrontando le medie campionarie degli Ispanici e dei Bianchi
abbiamo
y 2 − y 3 = 31.0 − 42.5 = −11.5
risultato diverso dal confronto delle medie aggiiustate
y ′2 − y ′3 = 35.6 − 40.6 = −5.0
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
47 / 58
Medie Aggiustate
In ultimo si deve precisare che le differenze tra le medie aggiustate sono
diverse dalle differenze tra le medie campionarie
Ciò è dovuto all’effetto di X su Y (le rette sono parallele ma con pendenza)
Ad es., confrontando le medie campionarie degli Ispanici e dei Bianchi
abbiamo
y 2 − y 3 = 31.0 − 42.5 = −11.5
risultato diverso dal confronto delle medie aggiiustate
y ′2 − y ′3 = 35.6 − 40.6 = −5.0
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
47 / 58
Medie Aggiustate
Interpretazione Grafica
Si può meglio comprendere cosa comporti utilizzare le medie aggiustate,
analizzado la relazione che lega la media prevista dal modello (non
aggiustata) e la stessa media aggiustata
Consideriamo uno dei gruppi (i) della variabile Z
Indicheremo con y 1 la media non aggiustata per il gruppo 1. La retta passerà
per il punto di coordinate x̄1 , y 1
Allo stesso modo indicheremo con y ′1 la media aggiusta per il gruppo 1. La
retta passerà per il punto di coordinate x̄1 , y ′1
Allora la pendenza b rappresenta la differenza y ′1 − y 1 in corrispondenza alla
differenza x̄ − x̄1
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
48 / 58
Medie Aggiustate
Interpretazione Grafica
Si può meglio comprendere cosa comporti utilizzare le medie aggiustate,
analizzado la relazione che lega la media prevista dal modello (non
aggiustata) e la stessa media aggiustata
Consideriamo uno dei gruppi (i) della variabile Z
Indicheremo con y 1 la media non aggiustata per il gruppo 1. La retta passerà
per il punto di coordinate x̄1 , y 1
Allo stesso modo indicheremo con y ′1 la media aggiusta per il gruppo 1. La
retta passerà per il punto di coordinate x̄1 , y ′1
Allora la pendenza b rappresenta la differenza y ′1 − y 1 in corrispondenza alla
differenza x̄ − x̄1
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
48 / 58
Medie Aggiustate
Interpretazione Grafica
Si può meglio comprendere cosa comporti utilizzare le medie aggiustate,
analizzado la relazione che lega la media prevista dal modello (non
aggiustata) e la stessa media aggiustata
Consideriamo uno dei gruppi (i) della variabile Z
Indicheremo con y 1 la media non aggiustata per il gruppo 1. La retta passerà
per il punto di coordinate x̄1 , y 1
Allo stesso modo indicheremo con y ′1 la media aggiusta per il gruppo 1. La
retta passerà per il punto di coordinate x̄1 , y ′1
Allora la pendenza b rappresenta la differenza y ′1 − y 1 in corrispondenza alla
differenza x̄ − x̄1
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
48 / 58
Medie Aggiustate
Interpretazione Grafica
Si può meglio comprendere cosa comporti utilizzare le medie aggiustate,
analizzado la relazione che lega la media prevista dal modello (non
aggiustata) e la stessa media aggiustata
Consideriamo uno dei gruppi (i) della variabile Z
Indicheremo con y 1 la media non aggiustata per il gruppo 1. La retta passerà
per il punto di coordinate x̄1 , y 1
Allo stesso modo indicheremo con y ′1 la media aggiusta per il gruppo 1. La
retta passerà per il punto di coordinate x̄1 , y ′1
Allora la pendenza b rappresenta la differenza y ′1 − y 1 in corrispondenza alla
differenza x̄ − x̄1
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
48 / 58
Medie Aggiustate
Interpretazione Grafica
Si può meglio comprendere cosa comporti utilizzare le medie aggiustate,
analizzado la relazione che lega la media prevista dal modello (non
aggiustata) e la stessa media aggiustata
Consideriamo uno dei gruppi (i) della variabile Z
Indicheremo con y 1 la media non aggiustata per il gruppo 1. La retta passerà
per il punto di coordinate x̄1 , y 1
Allo stesso modo indicheremo con y ′1 la media aggiusta per il gruppo 1. La
retta passerà per il punto di coordinate x̄1 , y ′1
Allora la pendenza b rappresenta la differenza y ′1 − y 1 in corrispondenza alla
differenza x̄ − x̄1
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
48 / 58
Medie Aggiustate
Interpretazione Grafica
Graficamente avremo
ŷ
y
Adjusted
_ _
(x, y91)
_ _
_
_
b (x 2x1) 5 y91 2 y1
Unadjusted
_ _
(x1, y1)
_
x1
_ _
x 2 x1
_
x
x
Si può concludere che
cioè,
y ′1 − y 1 = b(x̄ − x̄1 ).
y ′1 = y 1 + b(x̄ − x̄1 ).
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
49 / 58
Medie Aggiustate
Interpretazione Grafica
Graficamente avremo
ŷ
y
Adjusted
_ _
(x, y91)
_ _
_
_
b (x 2x1) 5 y91 2 y1
Unadjusted
_ _
(x1, y1)
_
x1
_ _
x 2 x1
_
x
x
Si può concludere che
cioè,
y ′1 − y 1 = b(x̄ − x̄1 ).
y ′1 = y 1 + b(x̄ − x̄1 ).
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
49 / 58
Medie Aggiustate
Come interpretare questi risultati?
Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0
Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0
In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi
gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i
Quanto più si confrontano gruppi con medie della covariata diverse, tanto più
distanti saranno le medie aggiustate
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
50 / 58
Medie Aggiustate
Come interpretare questi risultati?
Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0
Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0
In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi
gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i
Quanto più si confrontano gruppi con medie della covariata diverse, tanto più
distanti saranno le medie aggiustate
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
50 / 58
Medie Aggiustate
Come interpretare questi risultati?
Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0
Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0
In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi
gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i
Quanto più si confrontano gruppi con medie della covariata diverse, tanto più
distanti saranno le medie aggiustate
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
50 / 58
Medie Aggiustate
Come interpretare questi risultati?
Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0
Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0
In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi
gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i
Quanto più si confrontano gruppi con medie della covariata diverse, tanto più
distanti saranno le medie aggiustate
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
50 / 58
Medie Aggiustate
Come interpretare questi risultati?
Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0
Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0
In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi
gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i
Quanto più si confrontano gruppi con medie della covariata diverse, tanto più
distanti saranno le medie aggiustate
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
50 / 58
Medie Aggiustate
Come interpretare questi risultati?
Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0
Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0
In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi
gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i
Quanto più si confrontano gruppi con medie della covariata diverse, tanto più
distanti saranno le medie aggiustate
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
50 / 58
Medie Aggiustate
Il grafico illustra bene quanto appena evidenziato:
y
White
_
_ , y 3)
(x 3
Hispanic
Black
_
_ , y 2)
(x 2
_
_ , y 1)
(x 1
12.2
11.6
12.7
13.1
_
x2
_
x1
_ _
x x3
Men
Women
y
y
x
(a) No interaction
Nicola Tedesco (Statistica Sociale)
y
x
(b) No interaction, with
identical regression lines
x
(c) Interaction
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
51 / 58
Medie Aggiustate
Confronti Multipli di Medie Aggiustate
Analogamente a quanto visto nel caso dell’ANOVA, si possono costruire gli
intervali di confidenza di Bonferroni, per confrontare simultaneamente le
medie aggiustate a coppie, ad un prefissato livello complessivo di errore
Valgono le stesse considerazioni fatte in precedenza:
1 si possono confrontare le medie attraverso gli intervalli di confidenza sulla
loro differenza;
2 se il numero di confronti a coppie è numeroso, il metodo mostra dei limiti a
causa della necessità di non dovere prefissare un livello globale di errore
troppo elevato;
3 il livello di errore associato a ciascun intervallo non è esatto ma approssimato.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
52 / 58
Medie Aggiustate
Confronti Multipli di Medie Aggiustate
Analogamente a quanto visto nel caso dell’ANOVA, si possono costruire gli
intervali di confidenza di Bonferroni, per confrontare simultaneamente le
medie aggiustate a coppie, ad un prefissato livello complessivo di errore
Valgono le stesse considerazioni fatte in precedenza:
1 si possono confrontare le medie attraverso gli intervalli di confidenza sulla
loro differenza;
2 se il numero di confronti a coppie è numeroso, il metodo mostra dei limiti a
causa della necessità di non dovere prefissare un livello globale di errore
troppo elevato;
3 il livello di errore associato a ciascun intervallo non è esatto ma approssimato.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
52 / 58
Medie Aggiustate
Confronti Multipli di Medie Aggiustate
Analogamente a quanto visto nel caso dell’ANOVA, si possono costruire gli
intervali di confidenza di Bonferroni, per confrontare simultaneamente le
medie aggiustate a coppie, ad un prefissato livello complessivo di errore
Valgono le stesse considerazioni fatte in precedenza:
1 si possono confrontare le medie attraverso gli intervalli di confidenza sulla
loro differenza;
2 se il numero di confronti a coppie è numeroso, il metodo mostra dei limiti a
causa della necessità di non dovere prefissare un livello globale di errore
troppo elevato;
3 il livello di errore associato a ciascun intervallo non è esatto ma approssimato.
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
52 / 58
Medie Aggiustate
Esempio 13.6 — Intervalli di Confidenza per il Confronto
dei Redditi Medi Aggiustati
Per costruire gli intervalli di confidenza di Bonferroni, occorre fissare il livello
complessivo di errore
Poiché si dovranno costruire 3 intervalli, una probabilità di errore
0.05/3 = 0.0167 sembra accettabile
Il t-score con una probabilità ad una coda 0.0167/2 = 0.0083 e df = 76 (ove
df sono quelli della SSE per il modello senza interazione) è pari a 2.45
Riprendiamo il modello senza interazioni
Tabella: Modello senza interazioni
Parametri
Intercetta
istruzione
razza = N
razza = I
razza = B
B
-15.663
4.432
-10.874
-4.934
0
Nicola Tedesco (Statistica Sociale)
Std. Error
8.412
.619
4.473
4.763
t
-1.862
7.158
-2.431
-1.036
Sig
.066
.000
.017
.304
IC 95%
Inferiore Superiore
-32.4
1.09
3.2
5.70
-19.8
-2.00
-14.4
4.60
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
53 / 58
Medie Aggiustate
Esempio 13.6 — Intervalli di Confidenza per il Confronto
dei Redditi Medi Aggiustati
Per costruire gli intervalli di confidenza di Bonferroni, occorre fissare il livello
complessivo di errore
Poiché si dovranno costruire 3 intervalli, una probabilità di errore
0.05/3 = 0.0167 sembra accettabile
Il t-score con una probabilità ad una coda 0.0167/2 = 0.0083 e df = 76 (ove
df sono quelli della SSE per il modello senza interazione) è pari a 2.45
Riprendiamo il modello senza interazioni
Tabella: Modello senza interazioni
Parametri
Intercetta
istruzione
razza = N
razza = I
razza = B
B
-15.663
4.432
-10.874
-4.934
0
Nicola Tedesco (Statistica Sociale)
Std. Error
8.412
.619
4.473
4.763
t
-1.862
7.158
-2.431
-1.036
Sig
.066
.000
.017
.304
IC 95%
Inferiore Superiore
-32.4
1.09
3.2
5.70
-19.8
-2.00
-14.4
4.60
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
53 / 58
Medie Aggiustate
Esempio 13.6 — Intervalli di Confidenza per il Confronto
dei Redditi Medi Aggiustati
Per costruire gli intervalli di confidenza di Bonferroni, occorre fissare il livello
complessivo di errore
Poiché si dovranno costruire 3 intervalli, una probabilità di errore
0.05/3 = 0.0167 sembra accettabile
Il t-score con una probabilità ad una coda 0.0167/2 = 0.0083 e df = 76 (ove
df sono quelli della SSE per il modello senza interazione) è pari a 2.45
Riprendiamo il modello senza interazioni
Tabella: Modello senza interazioni
Parametri
Intercetta
istruzione
razza = N
razza = I
razza = B
B
-15.663
4.432
-10.874
-4.934
0
Nicola Tedesco (Statistica Sociale)
Std. Error
8.412
.619
4.473
4.763
t
-1.862
7.158
-2.431
-1.036
Sig
.066
.000
.017
.304
IC 95%
Inferiore Superiore
-32.4
1.09
3.2
5.70
-19.8
-2.00
-14.4
4.60
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
53 / 58
Medie Aggiustate
Esempio 13.6 — Intervalli di Confidenza per il Confronto
dei Redditi Medi Aggiustati
Per costruire gli intervalli di confidenza di Bonferroni, occorre fissare il livello
complessivo di errore
Poiché si dovranno costruire 3 intervalli, una probabilità di errore
0.05/3 = 0.0167 sembra accettabile
Il t-score con una probabilità ad una coda 0.0167/2 = 0.0083 e df = 76 (ove
df sono quelli della SSE per il modello senza interazione) è pari a 2.45
Riprendiamo il modello senza interazioni
Tabella: Modello senza interazioni
Parametri
Intercetta
istruzione
razza = N
razza = I
razza = B
B
-15.663
4.432
-10.874
-4.934
0
Nicola Tedesco (Statistica Sociale)
Std. Error
8.412
.619
4.473
4.763
t
-1.862
7.158
-2.431
-1.036
Sig
.066
.000
.017
.304
IC 95%
Inferiore Superiore
-32.4
1.09
3.2
5.70
-19.8
-2.00
-14.4
4.60
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
53 / 58
Medie Aggiustate
Il confronto tra i redditi medi aggiustati di Ispanici e Bianchi si realizza
considerando il parametro β2 = −4.934
Il suo errore standard è pari a 4.763, per cui l’intervallo di confidenza di
Bonferroni sarà
−4.934 ± 2.45(4.763), o (−16.6, 6.7).
Controllando per l’Istruzione, l’intervallo di confidenza ottenuto contiene lo
zero, per cui è plausibile ritenere che i redditi medi aggiustati siano uguali
Si osservi come l’intervallo di Bonferroni sulle medie aggiustate sia più stretto
di quello sulle medie campionarie (è ovvio!)
Allo stesso modo confrontando Neri e Bianchi si ottiene un intervallo che di
fatto non contiene lo zero
−10.874 ± 2.45(4.473), o (−21.8, 0.1).
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
54 / 58
Medie Aggiustate
Il confronto tra i redditi medi aggiustati di Ispanici e Bianchi si realizza
considerando il parametro β2 = −4.934
Il suo errore standard è pari a 4.763, per cui l’intervallo di confidenza di
Bonferroni sarà
−4.934 ± 2.45(4.763), o (−16.6, 6.7).
Controllando per l’Istruzione, l’intervallo di confidenza ottenuto contiene lo
zero, per cui è plausibile ritenere che i redditi medi aggiustati siano uguali
Si osservi come l’intervallo di Bonferroni sulle medie aggiustate sia più stretto
di quello sulle medie campionarie (è ovvio!)
Allo stesso modo confrontando Neri e Bianchi si ottiene un intervallo che di
fatto non contiene lo zero
−10.874 ± 2.45(4.473), o (−21.8, 0.1).
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
54 / 58
Medie Aggiustate
Il confronto tra i redditi medi aggiustati di Ispanici e Bianchi si realizza
considerando il parametro β2 = −4.934
Il suo errore standard è pari a 4.763, per cui l’intervallo di confidenza di
Bonferroni sarà
−4.934 ± 2.45(4.763), o (−16.6, 6.7).
Controllando per l’Istruzione, l’intervallo di confidenza ottenuto contiene lo
zero, per cui è plausibile ritenere che i redditi medi aggiustati siano uguali
Si osservi come l’intervallo di Bonferroni sulle medie aggiustate sia più stretto
di quello sulle medie campionarie (è ovvio!)
Allo stesso modo confrontando Neri e Bianchi si ottiene un intervallo che di
fatto non contiene lo zero
−10.874 ± 2.45(4.473), o (−21.8, 0.1).
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
54 / 58
Medie Aggiustate
Il confronto tra i redditi medi aggiustati di Ispanici e Bianchi si realizza
considerando il parametro β2 = −4.934
Il suo errore standard è pari a 4.763, per cui l’intervallo di confidenza di
Bonferroni sarà
−4.934 ± 2.45(4.763), o (−16.6, 6.7).
Controllando per l’Istruzione, l’intervallo di confidenza ottenuto contiene lo
zero, per cui è plausibile ritenere che i redditi medi aggiustati siano uguali
Si osservi come l’intervallo di Bonferroni sulle medie aggiustate sia più stretto
di quello sulle medie campionarie (è ovvio!)
Allo stesso modo confrontando Neri e Bianchi si ottiene un intervallo che di
fatto non contiene lo zero
−10.874 ± 2.45(4.473), o (−21.8, 0.1).
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
54 / 58
Medie Aggiustate
Il confronto tra i redditi medi aggiustati di Ispanici e Bianchi si realizza
considerando il parametro β2 = −4.934
Il suo errore standard è pari a 4.763, per cui l’intervallo di confidenza di
Bonferroni sarà
−4.934 ± 2.45(4.763), o (−16.6, 6.7).
Controllando per l’Istruzione, l’intervallo di confidenza ottenuto contiene lo
zero, per cui è plausibile ritenere che i redditi medi aggiustati siano uguali
Si osservi come l’intervallo di Bonferroni sulle medie aggiustate sia più stretto
di quello sulle medie campionarie (è ovvio!)
Allo stesso modo confrontando Neri e Bianchi si ottiene un intervallo che di
fatto non contiene lo zero
−10.874 ± 2.45(4.473), o (−21.8, 0.1).
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
54 / 58
Medie Aggiustate
Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello
nel quale una di queste categorie è quella di riferimento nella costruzione
delle dummy
In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo
per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94
Si avrà
p
se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ),
dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei
parametri, fornita direttamente dal software
Per il confronto Neri–Ispanici avremo
se = 5.67, con IC (−19.8, 8.0).
Intervallo molto ampio che contiene lo zero
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
55 / 58
Medie Aggiustate
Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello
nel quale una di queste categorie è quella di riferimento nella costruzione
delle dummy
In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo
per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94
Si avrà
p
se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ),
dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei
parametri, fornita direttamente dal software
Per il confronto Neri–Ispanici avremo
se = 5.67, con IC (−19.8, 8.0).
Intervallo molto ampio che contiene lo zero
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
55 / 58
Medie Aggiustate
Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello
nel quale una di queste categorie è quella di riferimento nella costruzione
delle dummy
In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo
per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94
Si avrà
p
se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ),
dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei
parametri, fornita direttamente dal software
Per il confronto Neri–Ispanici avremo
se = 5.67, con IC (−19.8, 8.0).
Intervallo molto ampio che contiene lo zero
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
55 / 58
Medie Aggiustate
Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello
nel quale una di queste categorie è quella di riferimento nella costruzione
delle dummy
In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo
per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94
Si avrà
p
se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ),
dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei
parametri, fornita direttamente dal software
Per il confronto Neri–Ispanici avremo
se = 5.67, con IC (−19.8, 8.0).
Intervallo molto ampio che contiene lo zero
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
55 / 58
Medie Aggiustate
Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello
nel quale una di queste categorie è quella di riferimento nella costruzione
delle dummy
In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo
per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94
Si avrà
p
se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ),
dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei
parametri, fornita direttamente dal software
Per il confronto Neri–Ispanici avremo
se = 5.67, con IC (−19.8, 8.0).
Intervallo molto ampio che contiene lo zero
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
55 / 58
Medie Aggiustate
Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello
nel quale una di queste categorie è quella di riferimento nella costruzione
delle dummy
In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo
per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94
Si avrà
p
se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ),
dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei
parametri, fornita direttamente dal software
Per il confronto Neri–Ispanici avremo
se = 5.67, con IC (−19.8, 8.0).
Intervallo molto ampio che contiene lo zero
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
55 / 58
Medie Aggiustate
In sinstesi abbiamo la Tabella
Tabella: Confronti Multipli di Bonferroni sulle Differenze delle Medie Aggiustate del
Reddito per Gruppo Etnico, Controllando per l’Istruzione
Gruppo Etnico
Neri, Bianchi
Ispanici, Bianchi
Neri, Ispanici
Differenze Stimate
nelle Medie Aggiustate
y ′1 − y ′3 = −10.9
y ′2 − y ′3 = −4.9
y ′1 − y ′2 = −5.9
Int. di Confidenza
95% Bonferroni
(−21.8, 0.1)
(−16.6, 6.7)
(−19.8, 8.0)
Si osserva come, data la ridotta ampiezza campionaria, gli intervalli delle
medie aggiustate sono molto ampi
Nessun intervallo evidenzia una differenza significativa. Solo il confronto
Neri-Bianchi appare modestamente rilevante
Infatti il test F aveva un P − valore = 0.053
Infine, poichè le medie aggiustate sono state calcolate sul modello senza
interazioni, ne consegue che per Ispanici e Bianchi le rette di regressione
coincidono, mentre per i Neri sarà parallela ma con intercetta diversa
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
56 / 58
Medie Aggiustate
In sinstesi abbiamo la Tabella
Tabella: Confronti Multipli di Bonferroni sulle Differenze delle Medie Aggiustate del
Reddito per Gruppo Etnico, Controllando per l’Istruzione
Gruppo Etnico
Neri, Bianchi
Ispanici, Bianchi
Neri, Ispanici
Differenze Stimate
nelle Medie Aggiustate
y ′1 − y ′3 = −10.9
y ′2 − y ′3 = −4.9
y ′1 − y ′2 = −5.9
Int. di Confidenza
95% Bonferroni
(−21.8, 0.1)
(−16.6, 6.7)
(−19.8, 8.0)
Si osserva come, data la ridotta ampiezza campionaria, gli intervalli delle
medie aggiustate sono molto ampi
Nessun intervallo evidenzia una differenza significativa. Solo il confronto
Neri-Bianchi appare modestamente rilevante
Infatti il test F aveva un P − valore = 0.053
Infine, poichè le medie aggiustate sono state calcolate sul modello senza
interazioni, ne consegue che per Ispanici e Bianchi le rette di regressione
coincidono, mentre per i Neri sarà parallela ma con intercetta diversa
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
56 / 58
Medie Aggiustate
In sinstesi abbiamo la Tabella
Tabella: Confronti Multipli di Bonferroni sulle Differenze delle Medie Aggiustate del
Reddito per Gruppo Etnico, Controllando per l’Istruzione
Gruppo Etnico
Neri, Bianchi
Ispanici, Bianchi
Neri, Ispanici
Differenze Stimate
nelle Medie Aggiustate
y ′1 − y ′3 = −10.9
y ′2 − y ′3 = −4.9
y ′1 − y ′2 = −5.9
Int. di Confidenza
95% Bonferroni
(−21.8, 0.1)
(−16.6, 6.7)
(−19.8, 8.0)
Si osserva come, data la ridotta ampiezza campionaria, gli intervalli delle
medie aggiustate sono molto ampi
Nessun intervallo evidenzia una differenza significativa. Solo il confronto
Neri-Bianchi appare modestamente rilevante
Infatti il test F aveva un P − valore = 0.053
Infine, poichè le medie aggiustate sono state calcolate sul modello senza
interazioni, ne consegue che per Ispanici e Bianchi le rette di regressione
coincidono, mentre per i Neri sarà parallela ma con intercetta diversa
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
56 / 58
Medie Aggiustate
In sinstesi abbiamo la Tabella
Tabella: Confronti Multipli di Bonferroni sulle Differenze delle Medie Aggiustate del
Reddito per Gruppo Etnico, Controllando per l’Istruzione
Gruppo Etnico
Neri, Bianchi
Ispanici, Bianchi
Neri, Ispanici
Differenze Stimate
nelle Medie Aggiustate
y ′1 − y ′3 = −10.9
y ′2 − y ′3 = −4.9
y ′1 − y ′2 = −5.9
Int. di Confidenza
95% Bonferroni
(−21.8, 0.1)
(−16.6, 6.7)
(−19.8, 8.0)
Si osserva come, data la ridotta ampiezza campionaria, gli intervalli delle
medie aggiustate sono molto ampi
Nessun intervallo evidenzia una differenza significativa. Solo il confronto
Neri-Bianchi appare modestamente rilevante
Infatti il test F aveva un P − valore = 0.053
Infine, poichè le medie aggiustate sono state calcolate sul modello senza
interazioni, ne consegue che per Ispanici e Bianchi le rette di regressione
coincidono, mentre per i Neri sarà parallela ma con intercetta diversa
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
56 / 58
Medie Aggiustate
In sinstesi abbiamo la Tabella
Tabella: Confronti Multipli di Bonferroni sulle Differenze delle Medie Aggiustate del
Reddito per Gruppo Etnico, Controllando per l’Istruzione
Gruppo Etnico
Neri, Bianchi
Ispanici, Bianchi
Neri, Ispanici
Differenze Stimate
nelle Medie Aggiustate
y ′1 − y ′3 = −10.9
y ′2 − y ′3 = −4.9
y ′1 − y ′2 = −5.9
Int. di Confidenza
95% Bonferroni
(−21.8, 0.1)
(−16.6, 6.7)
(−19.8, 8.0)
Si osserva come, data la ridotta ampiezza campionaria, gli intervalli delle
medie aggiustate sono molto ampi
Nessun intervallo evidenzia una differenza significativa. Solo il confronto
Neri-Bianchi appare modestamente rilevante
Infatti il test F aveva un P − valore = 0.053
Infine, poichè le medie aggiustate sono state calcolate sul modello senza
interazioni, ne consegue che per Ispanici e Bianchi le rette di regressione
coincidono, mentre per i Neri sarà parallela ma con intercetta diversa
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
56 / 58
Medie Aggiustate
Precauzioni nell’Uso dell’Aggiustamento
Quando i gruppi da confrontare presentano medie x̄i della covariata molto
diverse tra loro, l’utilizzo delle medie aggiustate può portare a risultati
furovianti
Ovviamente un’ipotesi fondamentale è che in ogni gruppo la relazione di X
su Y sia lineare
In caso di aggiustamento si simula che ogni gruppo abbia la stessa x̄
Nell’esempio sulla relazione del sesso e dell’esperienza sul reddito, abbiamo
visto come Me F abbiano redditi medi molto diversi
Tuttavia l’esperienza lavorativa influiva sul reddito allo stesso modo nei due
gruppi (M e F)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
57 / 58
Medie Aggiustate
Precauzioni nell’Uso dell’Aggiustamento
Quando i gruppi da confrontare presentano medie x̄i della covariata molto
diverse tra loro, l’utilizzo delle medie aggiustate può portare a risultati
furovianti
Ovviamente un’ipotesi fondamentale è che in ogni gruppo la relazione di X
su Y sia lineare
In caso di aggiustamento si simula che ogni gruppo abbia la stessa x̄
Nell’esempio sulla relazione del sesso e dell’esperienza sul reddito, abbiamo
visto come Me F abbiano redditi medi molto diversi
Tuttavia l’esperienza lavorativa influiva sul reddito allo stesso modo nei due
gruppi (M e F)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
57 / 58
Medie Aggiustate
Precauzioni nell’Uso dell’Aggiustamento
Quando i gruppi da confrontare presentano medie x̄i della covariata molto
diverse tra loro, l’utilizzo delle medie aggiustate può portare a risultati
furovianti
Ovviamente un’ipotesi fondamentale è che in ogni gruppo la relazione di X
su Y sia lineare
In caso di aggiustamento si simula che ogni gruppo abbia la stessa x̄
Nell’esempio sulla relazione del sesso e dell’esperienza sul reddito, abbiamo
visto come Me F abbiano redditi medi molto diversi
Tuttavia l’esperienza lavorativa influiva sul reddito allo stesso modo nei due
gruppi (M e F)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
57 / 58
Medie Aggiustate
Precauzioni nell’Uso dell’Aggiustamento
Quando i gruppi da confrontare presentano medie x̄i della covariata molto
diverse tra loro, l’utilizzo delle medie aggiustate può portare a risultati
furovianti
Ovviamente un’ipotesi fondamentale è che in ogni gruppo la relazione di X
su Y sia lineare
In caso di aggiustamento si simula che ogni gruppo abbia la stessa x̄
Nell’esempio sulla relazione del sesso e dell’esperienza sul reddito, abbiamo
visto come Me F abbiano redditi medi molto diversi
Tuttavia l’esperienza lavorativa influiva sul reddito allo stesso modo nei due
gruppi (M e F)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
57 / 58
Medie Aggiustate
Precauzioni nell’Uso dell’Aggiustamento
Quando i gruppi da confrontare presentano medie x̄i della covariata molto
diverse tra loro, l’utilizzo delle medie aggiustate può portare a risultati
furovianti
Ovviamente un’ipotesi fondamentale è che in ogni gruppo la relazione di X
su Y sia lineare
In caso di aggiustamento si simula che ogni gruppo abbia la stessa x̄
Nell’esempio sulla relazione del sesso e dell’esperienza sul reddito, abbiamo
visto come Me F abbiano redditi medi molto diversi
Tuttavia l’esperienza lavorativa influiva sul reddito allo stesso modo nei due
gruppi (M e F)
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
57 / 58
Medie Aggiustate
Precauzioni nell’Uso dell’Aggiustamento
In realtà le medie della variabile esperienza X sono molto diverse (+M -F)
In questa situazione il confronto tra le medie aggiustate può portare a
risultati non corretti
Income
True regression
curve for men
for small x
True regression
curve for women
for large x
Men
Women
Experience
Infatti nei due gruppi le rette tratteggiate sono diverse e parallele (redditi
medi diversi per lo stesso valore di x
La linea continua rappresenta il confornto nel caso di medie aggiustate
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
58 / 58
Medie Aggiustate
Precauzioni nell’Uso dell’Aggiustamento
In realtà le medie della variabile esperienza X sono molto diverse (+M -F)
In questa situazione il confronto tra le medie aggiustate può portare a
risultati non corretti
Income
True regression
curve for men
for small x
True regression
curve for women
for large x
Men
Women
Experience
Infatti nei due gruppi le rette tratteggiate sono diverse e parallele (redditi
medi diversi per lo stesso valore di x
La linea continua rappresenta il confornto nel caso di medie aggiustate
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
58 / 58
Medie Aggiustate
Precauzioni nell’Uso dell’Aggiustamento
In realtà le medie della variabile esperienza X sono molto diverse (+M -F)
In questa situazione il confronto tra le medie aggiustate può portare a
risultati non corretti
Income
True regression
curve for men
for small x
True regression
curve for women
for large x
Men
Women
Experience
Infatti nei due gruppi le rette tratteggiate sono diverse e parallele (redditi
medi diversi per lo stesso valore di x
La linea continua rappresenta il confornto nel caso di medie aggiustate
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
58 / 58
Medie Aggiustate
Precauzioni nell’Uso dell’Aggiustamento
In realtà le medie della variabile esperienza X sono molto diverse (+M -F)
In questa situazione il confronto tra le medie aggiustate può portare a
risultati non corretti
Income
True regression
curve for men
for small x
True regression
curve for women
for large x
Men
Women
Experience
Infatti nei due gruppi le rette tratteggiate sono diverse e parallele (redditi
medi diversi per lo stesso valore di x
La linea continua rappresenta il confornto nel caso di medie aggiustate
Nicola Tedesco (Statistica Sociale)
Combinare Regressione e ANOVA: predittori quantitativi e categoriali
58 / 58