Combinare Regressione e ANOVA: predittori quantitativi e categoriali Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 1 / 58 Introduzione Controllare per una Covariata La regressione multipla consente di studiare la relazione tra variabili quantitative L’ANOVA consente di verificare come le medie di una variabile quantitativa si modifichino al variare di più predittori categoriali (qualitativi) Domanda: è possibile costruire modelli che studino le variazione tra le medie in relazione a predittori di qualsiasi tipo? Ciò è possibile combinando le due metodologie Esempio: si stanno confrontando i redditi di M e F anche in relazione ai differenti livelli di esperienza (anzianità di servizio) Si vuole studiare come variano i redditi medi tra i due gruppi (M e F) controllando per i valori di un altro predittore quantitativo (esperienza) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 2 / 58 Introduzione Controllare per una Covariata La regressione multipla consente di studiare la relazione tra variabili quantitative L’ANOVA consente di verificare come le medie di una variabile quantitativa si modifichino al variare di più predittori categoriali (qualitativi) Domanda: è possibile costruire modelli che studino le variazione tra le medie in relazione a predittori di qualsiasi tipo? Ciò è possibile combinando le due metodologie Esempio: si stanno confrontando i redditi di M e F anche in relazione ai differenti livelli di esperienza (anzianità di servizio) Si vuole studiare come variano i redditi medi tra i due gruppi (M e F) controllando per i valori di un altro predittore quantitativo (esperienza) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 2 / 58 Introduzione Controllare per una Covariata La regressione multipla consente di studiare la relazione tra variabili quantitative L’ANOVA consente di verificare come le medie di una variabile quantitativa si modifichino al variare di più predittori categoriali (qualitativi) Domanda: è possibile costruire modelli che studino le variazione tra le medie in relazione a predittori di qualsiasi tipo? Ciò è possibile combinando le due metodologie Esempio: si stanno confrontando i redditi di M e F anche in relazione ai differenti livelli di esperienza (anzianità di servizio) Si vuole studiare come variano i redditi medi tra i due gruppi (M e F) controllando per i valori di un altro predittore quantitativo (esperienza) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 2 / 58 Introduzione Controllare per una Covariata La regressione multipla consente di studiare la relazione tra variabili quantitative L’ANOVA consente di verificare come le medie di una variabile quantitativa si modifichino al variare di più predittori categoriali (qualitativi) Domanda: è possibile costruire modelli che studino le variazione tra le medie in relazione a predittori di qualsiasi tipo? Ciò è possibile combinando le due metodologie Esempio: si stanno confrontando i redditi di M e F anche in relazione ai differenti livelli di esperienza (anzianità di servizio) Si vuole studiare come variano i redditi medi tra i due gruppi (M e F) controllando per i valori di un altro predittore quantitativo (esperienza) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 2 / 58 Introduzione Controllare per una Covariata La regressione multipla consente di studiare la relazione tra variabili quantitative L’ANOVA consente di verificare come le medie di una variabile quantitativa si modifichino al variare di più predittori categoriali (qualitativi) Domanda: è possibile costruire modelli che studino le variazione tra le medie in relazione a predittori di qualsiasi tipo? Ciò è possibile combinando le due metodologie Esempio: si stanno confrontando i redditi di M e F anche in relazione ai differenti livelli di esperienza (anzianità di servizio) Si vuole studiare come variano i redditi medi tra i due gruppi (M e F) controllando per i valori di un altro predittore quantitativo (esperienza) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 2 / 58 Introduzione Controllare per una Covariata La regressione multipla consente di studiare la relazione tra variabili quantitative L’ANOVA consente di verificare come le medie di una variabile quantitativa si modifichino al variare di più predittori categoriali (qualitativi) Domanda: è possibile costruire modelli che studino le variazione tra le medie in relazione a predittori di qualsiasi tipo? Ciò è possibile combinando le due metodologie Esempio: si stanno confrontando i redditi di M e F anche in relazione ai differenti livelli di esperienza (anzianità di servizio) Si vuole studiare come variano i redditi medi tra i due gruppi (M e F) controllando per i valori di un altro predittore quantitativo (esperienza) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 2 / 58 Introduzione Analisi della Covarianza In questo caso la variabile rispetto alla quale si effettua il controllo prende il nome di covariata Il modello di regressione, in presenza di covariate, prende il nome di Analisi della Covarianza Sostanzialmente, gli effetti di un predittore (qualitativo) possono modificarsi al variare dei livelli di un altro predittore (quantitativo) definito covariata Es.: i redditi di M e F sono generalmente differenti (+M -F). Ma sappiamo che il reddito è positivamente correlato con l’esperienza. Se i M tendono ad avere più esperienza lavorativa delle F, allora la differenza nei loro redditi è dovuta alla variabile esperienza e non al sesso Per ragioni di semplicità espositiva ci limiteremo al caso di un predittore categoriale e di un predittore quantitativo Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 3 / 58 Introduzione Analisi della Covarianza In questo caso la variabile rispetto alla quale si effettua il controllo prende il nome di covariata Il modello di regressione, in presenza di covariate, prende il nome di Analisi della Covarianza Sostanzialmente, gli effetti di un predittore (qualitativo) possono modificarsi al variare dei livelli di un altro predittore (quantitativo) definito covariata Es.: i redditi di M e F sono generalmente differenti (+M -F). Ma sappiamo che il reddito è positivamente correlato con l’esperienza. Se i M tendono ad avere più esperienza lavorativa delle F, allora la differenza nei loro redditi è dovuta alla variabile esperienza e non al sesso Per ragioni di semplicità espositiva ci limiteremo al caso di un predittore categoriale e di un predittore quantitativo Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 3 / 58 Introduzione Analisi della Covarianza In questo caso la variabile rispetto alla quale si effettua il controllo prende il nome di covariata Il modello di regressione, in presenza di covariate, prende il nome di Analisi della Covarianza Sostanzialmente, gli effetti di un predittore (qualitativo) possono modificarsi al variare dei livelli di un altro predittore (quantitativo) definito covariata Es.: i redditi di M e F sono generalmente differenti (+M -F). Ma sappiamo che il reddito è positivamente correlato con l’esperienza. Se i M tendono ad avere più esperienza lavorativa delle F, allora la differenza nei loro redditi è dovuta alla variabile esperienza e non al sesso Per ragioni di semplicità espositiva ci limiteremo al caso di un predittore categoriale e di un predittore quantitativo Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 3 / 58 Introduzione Analisi della Covarianza In questo caso la variabile rispetto alla quale si effettua il controllo prende il nome di covariata Il modello di regressione, in presenza di covariate, prende il nome di Analisi della Covarianza Sostanzialmente, gli effetti di un predittore (qualitativo) possono modificarsi al variare dei livelli di un altro predittore (quantitativo) definito covariata Es.: i redditi di M e F sono generalmente differenti (+M -F). Ma sappiamo che il reddito è positivamente correlato con l’esperienza. Se i M tendono ad avere più esperienza lavorativa delle F, allora la differenza nei loro redditi è dovuta alla variabile esperienza e non al sesso Per ragioni di semplicità espositiva ci limiteremo al caso di un predittore categoriale e di un predittore quantitativo Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 3 / 58 Introduzione Analisi della Covarianza In questo caso la variabile rispetto alla quale si effettua il controllo prende il nome di covariata Il modello di regressione, in presenza di covariate, prende il nome di Analisi della Covarianza Sostanzialmente, gli effetti di un predittore (qualitativo) possono modificarsi al variare dei livelli di un altro predittore (quantitativo) definito covariata Es.: i redditi di M e F sono generalmente differenti (+M -F). Ma sappiamo che il reddito è positivamente correlato con l’esperienza. Se i M tendono ad avere più esperienza lavorativa delle F, allora la differenza nei loro redditi è dovuta alla variabile esperienza e non al sesso Per ragioni di semplicità espositiva ci limiteremo al caso di un predittore categoriale e di un predittore quantitativo Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 3 / 58 Confrontare le medie e le rette di regressione Confrontare le medie e le rette di regressione Notazione: a X variabile esplicativa quantitativa b Z variabile esplicativa categoriale. Se dicotomica è una dummy, se politomica segue un set di dummy Se controllo per Z, sto studiando la relazione di X su Y in ogni categoria di Z Se controllo per X, sto studiando se vi sono differenze nelle medie di Y al variare di Z, per ogni valore di X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 4 / 58 Confrontare le medie e le rette di regressione Confrontare le medie e le rette di regressione Notazione: a X variabile esplicativa quantitativa b Z variabile esplicativa categoriale. Se dicotomica è una dummy, se politomica segue un set di dummy Se controllo per Z, sto studiando la relazione di X su Y in ogni categoria di Z Se controllo per X, sto studiando se vi sono differenze nelle medie di Y al variare di Z, per ogni valore di X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 4 / 58 Confrontare le medie e le rette di regressione Confrontare le medie e le rette di regressione Notazione: a X variabile esplicativa quantitativa b Z variabile esplicativa categoriale. Se dicotomica è una dummy, se politomica segue un set di dummy Se controllo per Z, sto studiando la relazione di X su Y in ogni categoria di Z Se controllo per X, sto studiando se vi sono differenze nelle medie di Y al variare di Z, per ogni valore di X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 4 / 58 Confrontare le medie e le rette di regressione Confrontare le medie e le rette di regressione Notazione: a X variabile esplicativa quantitativa b Z variabile esplicativa categoriale. Se dicotomica è una dummy, se politomica segue un set di dummy Se controllo per Z, sto studiando la relazione di X su Y in ogni categoria di Z Se controllo per X, sto studiando se vi sono differenze nelle medie di Y al variare di Z, per ogni valore di X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 4 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Riprendiamo l’esempio sui prezzi di vendita delle case Casa 1 2 3 4 5 6 7 8 Prezzo 279900 146500 237700 200000 159900 499900 265500 289900 Dimensione 2048 912 1654 2068 1477 3153 1355 2075 Tasse 3104 1173 3076 1608 1454 2997 4054 3002 Stanze Letto 4 2 4 3 3 3 3 3 Bagni 2 1 2 2 3 2 2 2 Nuova no no no no no sı̀ no sı̀ La variabile risposta è il Prezzo I predittori sono: Dimensione (in yarde quadrate) e Casa Nuova (1 = S e 0 = N) L’analisi consisterà nel costruire due rette di regressione (una per le case nuove e una per le vecchie) e confrontare i risultati Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 5 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Riprendiamo l’esempio sui prezzi di vendita delle case Casa 1 2 3 4 5 6 7 8 Prezzo 279900 146500 237700 200000 159900 499900 265500 289900 Dimensione 2048 912 1654 2068 1477 3153 1355 2075 Tasse 3104 1173 3076 1608 1454 2997 4054 3002 Stanze Letto 4 2 4 3 3 3 3 3 Bagni 2 1 2 2 3 2 2 2 Nuova no no no no no sı̀ no sı̀ La variabile risposta è il Prezzo I predittori sono: Dimensione (in yarde quadrate) e Casa Nuova (1 = S e 0 = N) L’analisi consisterà nel costruire due rette di regressione (una per le case nuove e una per le vecchie) e confrontare i risultati Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 5 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Riprendiamo l’esempio sui prezzi di vendita delle case Casa 1 2 3 4 5 6 7 8 Prezzo 279900 146500 237700 200000 159900 499900 265500 289900 Dimensione 2048 912 1654 2068 1477 3153 1355 2075 Tasse 3104 1173 3076 1608 1454 2997 4054 3002 Stanze Letto 4 2 4 3 3 3 3 3 Bagni 2 1 2 2 3 2 2 2 Nuova no no no no no sı̀ no sı̀ La variabile risposta è il Prezzo I predittori sono: Dimensione (in yarde quadrate) e Casa Nuova (1 = S e 0 = N) L’analisi consisterà nel costruire due rette di regressione (una per le case nuove e una per le vecchie) e confrontare i risultati Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 5 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Riprendiamo l’esempio sui prezzi di vendita delle case Casa 1 2 3 4 5 6 7 8 Prezzo 279900 146500 237700 200000 159900 499900 265500 289900 Dimensione 2048 912 1654 2068 1477 3153 1355 2075 Tasse 3104 1173 3076 1608 1454 2997 4054 3002 Stanze Letto 4 2 4 3 3 3 3 3 Bagni 2 1 2 2 3 2 2 2 Nuova no no no no no sı̀ no sı̀ La variabile risposta è il Prezzo I predittori sono: Dimensione (in yarde quadrate) e Casa Nuova (1 = S e 0 = N) L’analisi consisterà nel costruire due rette di regressione (una per le case nuove e una per le vecchie) e confrontare i risultati Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 5 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Riprendiamo l’esempio sui prezzi di vendita delle case Casa 1 2 3 4 5 6 7 8 Prezzo 279900 146500 237700 200000 159900 499900 265500 289900 Dimensione 2048 912 1654 2068 1477 3153 1355 2075 Tasse 3104 1173 3076 1608 1454 2997 4054 3002 Stanze Letto 4 2 4 3 3 3 3 3 Bagni 2 1 2 2 3 2 2 2 Nuova no no no no no sı̀ no sı̀ La variabile risposta è il Prezzo I predittori sono: Dimensione (in yarde quadrate) e Casa Nuova (1 = S e 0 = N) L’analisi consisterà nel costruire due rette di regressione (una per le case nuove e una per le vecchie) e confrontare i risultati Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 5 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Con l’analisi della covarianza è possibile confrontare lerette di regressione per ciascun livello del predittore qualitativo Ad es., si osservi la figura y y y z 5 0 or 1 z51 z51 z50 z50 x (a) No interaction x (b) No interaction, with identical y-intercepts x (c) Interaction Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo dal predittore X (Dimensione) Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di X Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo diverso a seconda del fatto che sia N o V (è l’interazione) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 6 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Con l’analisi della covarianza è possibile confrontare lerette di regressione per ciascun livello del predittore qualitativo Ad es., si osservi la figura y y y z 5 0 or 1 z51 z51 z50 z50 x (a) No interaction x (b) No interaction, with identical y-intercepts x (c) Interaction Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo dal predittore X (Dimensione) Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di X Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo diverso a seconda del fatto che sia N o V (è l’interazione) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 6 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Con l’analisi della covarianza è possibile confrontare lerette di regressione per ciascun livello del predittore qualitativo Ad es., si osservi la figura y y y z 5 0 or 1 z51 z51 z50 z50 x (a) No interaction x (b) No interaction, with identical y-intercepts x (c) Interaction Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo dal predittore X (Dimensione) Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di X Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo diverso a seconda del fatto che sia N o V (è l’interazione) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 6 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Con l’analisi della covarianza è possibile confrontare lerette di regressione per ciascun livello del predittore qualitativo Ad es., si osservi la figura y y y z 5 0 or 1 z51 z51 z50 z50 x (a) No interaction x (b) No interaction, with identical y-intercepts x (c) Interaction Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo dal predittore X (Dimensione) Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di X Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo diverso a seconda del fatto che sia N o V (è l’interazione) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 6 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Con l’analisi della covarianza è possibile confrontare lerette di regressione per ciascun livello del predittore qualitativo Ad es., si osservi la figura y y y z 5 0 or 1 z51 z51 z50 z50 x (a) No interaction x (b) No interaction, with identical y-intercepts x (c) Interaction Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo dal predittore X (Dimensione) Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di X Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo diverso a seconda del fatto che sia N o V (è l’interazione) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 6 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Con l’analisi della covarianza è possibile confrontare lerette di regressione per ciascun livello del predittore qualitativo Ad es., si osservi la figura y y y z 5 0 or 1 z51 z51 z50 z50 x (a) No interaction x (b) No interaction, with identical y-intercepts x (c) Interaction Il caso (a) ci dice che i prezzi delle case N e V dipendono allo stesso modo dal predittore X (Dimensione) Il caso (b) ci dice che il prezzo delle case N o V è lo stesso per ogni valore di X Il caso (c) ci dice che il predittore X influenza il prezzo delle case in modo diverso a seconda del fatto che sia N o V (è l’interazione) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 6 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Può accadere che il modo in cui X influenza Y sia diverso al variare dei livelli di Z La figura mostra come la relazione di X su Y sia nel complesso positiva, ma si annulla per ogni livello di Z Overall relationship y Partial relationships Category 1 Category 2 Category 3 x Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 7 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Può accadere che il modo in cui X influenza Y sia diverso al variare dei livelli di Z La figura mostra come la relazione di X su Y sia nel complesso positiva, ma si annulla per ogni livello di Z Overall relationship y Partial relationships Category 1 Category 2 Category 3 x Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 7 / 58 Confrontare le medie e le rette di regressione Confrontare le rette di regressione Può accadere che il modo in cui X influenza Y sia diverso al variare dei livelli di Z La figura mostra come la relazione di X su Y sia nel complesso positiva, ma si annulla per ogni livello di Z Overall relationship y Partial relationships Category 1 Category 2 Category 3 x Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 7 / 58 Confrontare le medie e le rette di regressione Confrontare le medie di Y controllando per X L’altro caso riguarda lo studio di come la covariata Z influenza Y , controllando per i diversi valori di X L’esempio è quello del reddito Y , il sesso Z e l’esperienza X La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi Z influenza Y Tuttavia controllando per l’esperienza può accadere che tale relazione scompaia, cioè M e F hanno redditi uguali a parità di esperienza Si tratterebbe di una relazione concatenata dove i M hanno un reddito maggiore delle F solo perchè hanno complessivamente più esperienza (tra coloro con elevata esperienza prevalgono i M sulle F) Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 8 / 58 Confrontare le medie e le rette di regressione Confrontare le medie di Y controllando per X L’altro caso riguarda lo studio di come la covariata Z influenza Y , controllando per i diversi valori di X L’esempio è quello del reddito Y , il sesso Z e l’esperienza X La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi Z influenza Y Tuttavia controllando per l’esperienza può accadere che tale relazione scompaia, cioè M e F hanno redditi uguali a parità di esperienza Si tratterebbe di una relazione concatenata dove i M hanno un reddito maggiore delle F solo perchè hanno complessivamente più esperienza (tra coloro con elevata esperienza prevalgono i M sulle F) Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 8 / 58 Confrontare le medie e le rette di regressione Confrontare le medie di Y controllando per X L’altro caso riguarda lo studio di come la covariata Z influenza Y , controllando per i diversi valori di X L’esempio è quello del reddito Y , il sesso Z e l’esperienza X La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi Z influenza Y Tuttavia controllando per l’esperienza può accadere che tale relazione scompaia, cioè M e F hanno redditi uguali a parità di esperienza Si tratterebbe di una relazione concatenata dove i M hanno un reddito maggiore delle F solo perchè hanno complessivamente più esperienza (tra coloro con elevata esperienza prevalgono i M sulle F) Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 8 / 58 Confrontare le medie e le rette di regressione Confrontare le medie di Y controllando per X L’altro caso riguarda lo studio di come la covariata Z influenza Y , controllando per i diversi valori di X L’esempio è quello del reddito Y , il sesso Z e l’esperienza X La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi Z influenza Y Tuttavia controllando per l’esperienza può accadere che tale relazione scompaia, cioè M e F hanno redditi uguali a parità di esperienza Si tratterebbe di una relazione concatenata dove i M hanno un reddito maggiore delle F solo perchè hanno complessivamente più esperienza (tra coloro con elevata esperienza prevalgono i M sulle F) Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 8 / 58 Confrontare le medie e le rette di regressione Confrontare le medie di Y controllando per X L’altro caso riguarda lo studio di come la covariata Z influenza Y , controllando per i diversi valori di X L’esempio è quello del reddito Y , il sesso Z e l’esperienza X La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi Z influenza Y Tuttavia controllando per l’esperienza può accadere che tale relazione scompaia, cioè M e F hanno redditi uguali a parità di esperienza Si tratterebbe di una relazione concatenata dove i M hanno un reddito maggiore delle F solo perchè hanno complessivamente più esperienza (tra coloro con elevata esperienza prevalgono i M sulle F) Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 8 / 58 Confrontare le medie e le rette di regressione Confrontare le medie di Y controllando per X L’altro caso riguarda lo studio di come la covariata Z influenza Y , controllando per i diversi valori di X L’esempio è quello del reddito Y , il sesso Z e l’esperienza X La relazione nota è che il reddito dei M sia superiore a quello delle F, quindi Z influenza Y Tuttavia controllando per l’esperienza può accadere che tale relazione scompaia, cioè M e F hanno redditi uguali a parità di esperienza Si tratterebbe di una relazione concatenata dove i M hanno un reddito maggiore delle F solo perchè hanno complessivamente più esperienza (tra coloro con elevata esperienza prevalgono i M sulle F) Se cosı̀ non fosse, allora davvero il sesso Z influenzerebbe il reddito Y Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 8 / 58 Confrontare le medie e le rette di regressione Confrontare le le medie di Y controllando per X La figura mostra molto bene i diversi casi Men Women y y x (a) No interaction y x (b) No interaction, with identical regression lines x (c) Interaction Il caso (a) mostra come non ci sia interazione tra sesso e esperienza. La relazione tra X e Y è la stessa per M e F Il caso (b) mostra come M e F abbiano lo stesso reddito a parità di esperienza (la relazione Z su Y è la stessa controllando per X ) Il caso (c) mostra, invece, come il reddito dei M sia superiore a quello delle F (influenza di Z ), e cresca più velocemente a parità di esperienza X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 9 / 58 Confrontare le medie e le rette di regressione Confrontare le le medie di Y controllando per X La figura mostra molto bene i diversi casi Men Women y y x (a) No interaction y x (b) No interaction, with identical regression lines x (c) Interaction Il caso (a) mostra come non ci sia interazione tra sesso e esperienza. La relazione tra X e Y è la stessa per M e F Il caso (b) mostra come M e F abbiano lo stesso reddito a parità di esperienza (la relazione Z su Y è la stessa controllando per X ) Il caso (c) mostra, invece, come il reddito dei M sia superiore a quello delle F (influenza di Z ), e cresca più velocemente a parità di esperienza X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 9 / 58 Confrontare le medie e le rette di regressione Confrontare le le medie di Y controllando per X La figura mostra molto bene i diversi casi Men Women y y x (a) No interaction y x (b) No interaction, with identical regression lines x (c) Interaction Il caso (a) mostra come non ci sia interazione tra sesso e esperienza. La relazione tra X e Y è la stessa per M e F Il caso (b) mostra come M e F abbiano lo stesso reddito a parità di esperienza (la relazione Z su Y è la stessa controllando per X ) Il caso (c) mostra, invece, come il reddito dei M sia superiore a quello delle F (influenza di Z ), e cresca più velocemente a parità di esperienza X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 9 / 58 Confrontare le medie e le rette di regressione Confrontare le le medie di Y controllando per X La figura mostra molto bene i diversi casi Men Women y y x (a) No interaction y x (b) No interaction, with identical regression lines x (c) Interaction Il caso (a) mostra come non ci sia interazione tra sesso e esperienza. La relazione tra X e Y è la stessa per M e F Il caso (b) mostra come M e F abbiano lo stesso reddito a parità di esperienza (la relazione Z su Y è la stessa controllando per X ) Il caso (c) mostra, invece, come il reddito dei M sia superiore a quello delle F (influenza di Z ), e cresca più velocemente a parità di esperienza X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 9 / 58 Regressione con predittori quantitativi e categoriali Variabili esplicative quantitative e dummy Si consideri il modello con un regressore quantitativo X e uno categoriale a 3 livelli, da cui conseguono 2 dummy E (y ) = α + βx + β1 z1 + β2 z2 . Il coefficiente β indica l’effetto di X sulla media di Y I coefficienti β1 e β2 indicano, rispettivamente, gli effetti per le categorie dell’altro predittore (Z ) Ovviamente si tratta di effetti che si aggiungono (algebricamente) a quello rappresentato da β Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 10 / 58 Regressione con predittori quantitativi e categoriali Variabili esplicative quantitative e dummy Si consideri il modello con un regressore quantitativo X e uno categoriale a 3 livelli, da cui conseguono 2 dummy E (y ) = α + βx + β1 z1 + β2 z2 . Il coefficiente β indica l’effetto di X sulla media di Y I coefficienti β1 e β2 indicano, rispettivamente, gli effetti per le categorie dell’altro predittore (Z ) Ovviamente si tratta di effetti che si aggiungono (algebricamente) a quello rappresentato da β Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 10 / 58 Regressione con predittori quantitativi e categoriali Variabili esplicative quantitative e dummy Si consideri il modello con un regressore quantitativo X e uno categoriale a 3 livelli, da cui conseguono 2 dummy E (y ) = α + βx + β1 z1 + β2 z2 . Il coefficiente β indica l’effetto di X sulla media di Y I coefficienti β1 e β2 indicano, rispettivamente, gli effetti per le categorie dell’altro predittore (Z ) Ovviamente si tratta di effetti che si aggiungono (algebricamente) a quello rappresentato da β Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 10 / 58 Regressione con predittori quantitativi e categoriali Variabili esplicative quantitative e dummy Si consideri il modello con un regressore quantitativo X e uno categoriale a 3 livelli, da cui conseguono 2 dummy E (y ) = α + βx + β1 z1 + β2 z2 . Il coefficiente β indica l’effetto di X sulla media di Y I coefficienti β1 e β2 indicano, rispettivamente, gli effetti per le categorie dell’altro predittore (Z ) Ovviamente si tratta di effetti che si aggiungono (algebricamente) a quello rappresentato da β Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 10 / 58 Regressione con predittori quantitativi e categoriali Esempio 13.1 — Regressione Reddito Istruzione e Gruppo Etnico-Razziale 1 2 3 a b c Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate le seguenti variabili: y = reddito annuale x = anni di istruzione (12 = high school graduate, 16 = college) z = gruppo etnico-razziale (Neri, Ispanici, Bianchi) Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14 ispanici e n3 = 50 bianchi Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo etnico di appartnenza Si introduce il controllo per gruppo etnico Lo schema delle dummy è il seguente: z1 = se il soggetto è nero, z1 = 0 altrimenti; z2 = se il soggetto è ispanico, z2 = 0 altrimenti; z1 = z2 = 0 se il soggetto è bianco. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 11 / 58 Regressione con predittori quantitativi e categoriali Esempio 13.1 — Regressione Reddito Istruzione e Gruppo Etnico-Razziale 1 2 3 a b c Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate le seguenti variabili: y = reddito annuale x = anni di istruzione (12 = high school graduate, 16 = college) z = gruppo etnico-razziale (Neri, Ispanici, Bianchi) Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14 ispanici e n3 = 50 bianchi Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo etnico di appartnenza Si introduce il controllo per gruppo etnico Lo schema delle dummy è il seguente: z1 = se il soggetto è nero, z1 = 0 altrimenti; z2 = se il soggetto è ispanico, z2 = 0 altrimenti; z1 = z2 = 0 se il soggetto è bianco. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 11 / 58 Regressione con predittori quantitativi e categoriali Esempio 13.1 — Regressione Reddito Istruzione e Gruppo Etnico-Razziale 1 2 3 a b c Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate le seguenti variabili: y = reddito annuale x = anni di istruzione (12 = high school graduate, 16 = college) z = gruppo etnico-razziale (Neri, Ispanici, Bianchi) Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14 ispanici e n3 = 50 bianchi Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo etnico di appartnenza Si introduce il controllo per gruppo etnico Lo schema delle dummy è il seguente: z1 = se il soggetto è nero, z1 = 0 altrimenti; z2 = se il soggetto è ispanico, z2 = 0 altrimenti; z1 = z2 = 0 se il soggetto è bianco. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 11 / 58 Regressione con predittori quantitativi e categoriali Esempio 13.1 — Regressione Reddito Istruzione e Gruppo Etnico-Razziale 1 2 3 a b c Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate le seguenti variabili: y = reddito annuale x = anni di istruzione (12 = high school graduate, 16 = college) z = gruppo etnico-razziale (Neri, Ispanici, Bianchi) Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14 ispanici e n3 = 50 bianchi Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo etnico di appartnenza Si introduce il controllo per gruppo etnico Lo schema delle dummy è il seguente: z1 = se il soggetto è nero, z1 = 0 altrimenti; z2 = se il soggetto è ispanico, z2 = 0 altrimenti; z1 = z2 = 0 se il soggetto è bianco. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 11 / 58 Regressione con predittori quantitativi e categoriali Esempio 13.1 — Regressione Reddito Istruzione e Gruppo Etnico-Razziale 1 2 3 a b c Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate le seguenti variabili: y = reddito annuale x = anni di istruzione (12 = high school graduate, 16 = college) z = gruppo etnico-razziale (Neri, Ispanici, Bianchi) Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14 ispanici e n3 = 50 bianchi Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo etnico di appartnenza Si introduce il controllo per gruppo etnico Lo schema delle dummy è il seguente: z1 = se il soggetto è nero, z1 = 0 altrimenti; z2 = se il soggetto è ispanico, z2 = 0 altrimenti; z1 = z2 = 0 se il soggetto è bianco. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 11 / 58 Regressione con predittori quantitativi e categoriali Esempio 13.1 — Regressione Reddito Istruzione e Gruppo Etnico-Razziale 1 2 3 a b c Si è considerato un campione di americani ultra 25-enni su cui si sono rilevate le seguenti variabili: y = reddito annuale x = anni di istruzione (12 = high school graduate, 16 = college) z = gruppo etnico-razziale (Neri, Ispanici, Bianchi) Il campione di n = 80 intervistati è cosı̀ suddiviso: n1 = 16 neri, n2 = 14 ispanici e n3 = 50 bianchi Si hanno, in pratica, 3 gruppi di soggetti diversi per gruppo etnico-razziale, e si vuole studiare se il reddito annuale dipende dall’istruzione e/o dal gruppo etnico di appartnenza Si introduce il controllo per gruppo etnico Lo schema delle dummy è il seguente: z1 = se il soggetto è nero, z1 = 0 altrimenti; z2 = se il soggetto è ispanico, z2 = 0 altrimenti; z1 = z2 = 0 se il soggetto è bianco. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 11 / 58 Regressione con predittori quantitativi e categoriali Tabella: y = Reddito Annuale (in Migliaia di Dollari) e x = Numero di Anni di Istruzione per 3 Gruppi Etnici Black y x 16 10 18 7 26 9 16 11 34 14 22 12 42 16 42 16 16 9 20 10 66 16 26 12 20 10 30 15 20 10 30 19 Nicola Tedesco (Statistica Sociale) Hispanic y x 32 16 16 11 20 10 58 16 30 12 26 10 20 8 40 12 32 10 22 11 20 10 56 14 32 12 30 11 White y x 30 14 48 14 40 7 84 18 50 10 38 12 30 12 76 16 48 16 36 11 40 11 44 12 30 10 60 15 24 9 88 17 46 16 White y x 62 16 24 10 50 13 32 10 34 16 52 18 24 12 22 14 20 13 30 14 24 13 120 18 22 10 82 16 18 12 26 12 104 14 White y x 50 16 50 14 22 11 26 12 46 16 22 9 24 9 64 14 28 12 32 12 38 14 44 12 22 12 18 10 24 12 56 20 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 12 / 58 Regressione con predittori quantitativi e categoriali I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i gruppi etnici Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della variabile Istruzione Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi simili In sintesi abbiamo: Tabella: Redditi Medi e Istruzione, per Gruppo Etnico Media Reddito Media Istruzione Dim. campionaria Neri y 1 = 27.8 x̄1 = 12.2 n1 = 16 Ispanici y 2 = 31.0 x̄2 = 11.6 n2 = 14 Bianchi y 3 = 42.4 x̄3 = 13.1 n3 = 50 Totale y = 37.6 x̄ = 12.7 n = 80 Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più elevato per Istruzione Domanda: qual è l’effetto più rilevante? Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 13 / 58 Regressione con predittori quantitativi e categoriali I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i gruppi etnici Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della variabile Istruzione Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi simili In sintesi abbiamo: Tabella: Redditi Medi e Istruzione, per Gruppo Etnico Media Reddito Media Istruzione Dim. campionaria Neri y 1 = 27.8 x̄1 = 12.2 n1 = 16 Ispanici y 2 = 31.0 x̄2 = 11.6 n2 = 14 Bianchi y 3 = 42.4 x̄3 = 13.1 n3 = 50 Totale y = 37.6 x̄ = 12.7 n = 80 Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più elevato per Istruzione Domanda: qual è l’effetto più rilevante? Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 13 / 58 Regressione con predittori quantitativi e categoriali I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i gruppi etnici Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della variabile Istruzione Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi simili In sintesi abbiamo: Tabella: Redditi Medi e Istruzione, per Gruppo Etnico Media Reddito Media Istruzione Dim. campionaria Neri y 1 = 27.8 x̄1 = 12.2 n1 = 16 Ispanici y 2 = 31.0 x̄2 = 11.6 n2 = 14 Bianchi y 3 = 42.4 x̄3 = 13.1 n3 = 50 Totale y = 37.6 x̄ = 12.7 n = 80 Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più elevato per Istruzione Domanda: qual è l’effetto più rilevante? Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 13 / 58 Regressione con predittori quantitativi e categoriali I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i gruppi etnici Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della variabile Istruzione Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi simili In sintesi abbiamo: Tabella: Redditi Medi e Istruzione, per Gruppo Etnico Media Reddito Media Istruzione Dim. campionaria Neri y 1 = 27.8 x̄1 = 12.2 n1 = 16 Ispanici y 2 = 31.0 x̄2 = 11.6 n2 = 14 Bianchi y 3 = 42.4 x̄3 = 13.1 n3 = 50 Totale y = 37.6 x̄ = 12.7 n = 80 Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più elevato per Istruzione Domanda: qual è l’effetto più rilevante? Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 13 / 58 Regressione con predittori quantitativi e categoriali I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i gruppi etnici Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della variabile Istruzione Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi simili In sintesi abbiamo: Tabella: Redditi Medi e Istruzione, per Gruppo Etnico Media Reddito Media Istruzione Dim. campionaria Neri y 1 = 27.8 x̄1 = 12.2 n1 = 16 Ispanici y 2 = 31.0 x̄2 = 11.6 n2 = 14 Bianchi y 3 = 42.4 x̄3 = 13.1 n3 = 50 Totale y = 37.6 x̄ = 12.7 n = 80 Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più elevato per Istruzione Domanda: qual è l’effetto più rilevante? Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 13 / 58 Regressione con predittori quantitativi e categoriali I dati della Tabella mostrano chiaramente che i redditi si differenziano tra i gruppi etnici Tuttavia ciò potrebbe essere dovuto alle differenze nelle distribuzioni della variabile Istruzione Se ciò fosse vero, controllando per l’Istruzione, ci aspetteremmo redditi medi simili In sintesi abbiamo: Tabella: Redditi Medi e Istruzione, per Gruppo Etnico Media Reddito Media Istruzione Dim. campionaria Neri y 1 = 27.8 x̄1 = 12.2 n1 = 16 Ispanici y 2 = 31.0 x̄2 = 11.6 n2 = 14 Bianchi y 3 = 42.4 x̄3 = 13.1 n3 = 50 Totale y = 37.6 x̄ = 12.7 n = 80 Appare chiaro che i Bianchi hanno il Reddito maggiore ma anche il valore più elevato per Istruzione Domanda: qual è l’effetto più rilevante? Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 13 / 58 Regressione con predittori quantitativi e categoriali La Tabella riporta i risultati di un modello di regressione con le dummy per il Gruppo Etnico Tabella: Modello senza interazioni per la Variabile risposta y = Reddito e Variabili Esplicative Istruzione e Gruppo Etnico (con variabili dummy per le categorie Neri e Ispanici) Parametri Intercetta istruzione razza = N razza = I razza = B B -15.663 4.432 -10.874 -4.934 0 Std. Error 8.412 .619 4.473 4.763 t -1.862 7.158 -2.431 -1.036 Sig .066 .000 .017 .304 IC 95% Inferiore Superiore -32.4 1.09 3.2 5.70 -19.8 -2.00 -14.4 4.60 R-Quadro = .462 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 14 / 58 Regressione con predittori quantitativi e categoriali Si ottiene il seguente modello ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 . Considerando i Neri, z1 = 1 e z2 = 0, l’equazione è ŷ = −15.7 + 4.4x − 10.9(1) − 4.9(0) = −26.6 + 4.4x. Per gli altri gruppi etnici avremo ŷ ŷ = −20.6 + 4.4x = −15.7 + 4.4x (Ispanici) (Bianchi) I coefficienti angolari sono tutti uguali. Cosa significa? Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 15 / 58 Regressione con predittori quantitativi e categoriali Si ottiene il seguente modello ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 . Considerando i Neri, z1 = 1 e z2 = 0, l’equazione è ŷ = −15.7 + 4.4x − 10.9(1) − 4.9(0) = −26.6 + 4.4x. Per gli altri gruppi etnici avremo ŷ ŷ = −20.6 + 4.4x = −15.7 + 4.4x (Ispanici) (Bianchi) I coefficienti angolari sono tutti uguali. Cosa significa? Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 15 / 58 Regressione con predittori quantitativi e categoriali Si ottiene il seguente modello ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 . Considerando i Neri, z1 = 1 e z2 = 0, l’equazione è ŷ = −15.7 + 4.4x − 10.9(1) − 4.9(0) = −26.6 + 4.4x. Per gli altri gruppi etnici avremo ŷ ŷ = −20.6 + 4.4x = −15.7 + 4.4x (Ispanici) (Bianchi) I coefficienti angolari sono tutti uguali. Cosa significa? Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 15 / 58 Regressione con predittori quantitativi e categoriali Si ottiene il seguente modello ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 . Considerando i Neri, z1 = 1 e z2 = 0, l’equazione è ŷ = −15.7 + 4.4x − 10.9(1) − 4.9(0) = −26.6 + 4.4x. Per gli altri gruppi etnici avremo ŷ ŷ = −20.6 + 4.4x = −15.7 + 4.4x (Ispanici) (Bianchi) I coefficienti angolari sono tutti uguali. Cosa significa? Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 15 / 58 Regressione con predittori quantitativi e categoriali L’effetto dell’Istruzione sul Reddito è lo stesso in tutti i Gruppi Etnici 120 Income 100 White ( yˆ 5 215.7 1 4.4 x) 80 Hispanic (yˆ 5 220.6 1 4.4x) Black (yˆ 5 226.6 1 4.4x) 60 40 White Black Hispanic 20 Education 0 5 10 15 20 Si può concludere, quindi che il modo in cui l’Istruzione influenza il Reddito è lo stesso in ogni Gruppo Etnico, quindi i Bianchi guadagnano di più non per motivi discriminatori, ma perchè mediamente più istruiti. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 16 / 58 Regressione con predittori quantitativi e categoriali L’effetto dell’Istruzione sul Reddito è lo stesso in tutti i Gruppi Etnici 120 Income 100 White ( yˆ 5 215.7 1 4.4 x) 80 Hispanic (yˆ 5 220.6 1 4.4x) Black (yˆ 5 226.6 1 4.4x) 60 40 White Black Hispanic 20 Education 0 5 10 15 20 Si può concludere, quindi che il modo in cui l’Istruzione influenza il Reddito è lo stesso in ogni Gruppo Etnico, quindi i Bianchi guadagnano di più non per motivi discriminatori, ma perchè mediamente più istruiti. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 16 / 58 Regressione con predittori quantitativi e categoriali Interpretazione dei parametri: il Modello senza Interazioni Riprendiamo il modello teorico E (y ) = α + βx + β1 z1 + β2 z2 . Per la categoria 1 di Z , con z1 = 1 e z2 = 0, si ha E (y ) = α + βx + β1 (1) + β2 (0) = (α + β1 ) + βx. In pratica il coefficiente β1 modifica il valore dell’intercetta per la categoria di Z di riferimento Stesso discorso per la categoria 2 di Z , per cui il modello sarà E (y ) = (α + β2 ) + βx Ovviamente per la categoria 3 di Z si ha E (y ) = α + βx Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 17 / 58 Regressione con predittori quantitativi e categoriali Interpretazione dei parametri: il Modello senza Interazioni Riprendiamo il modello teorico E (y ) = α + βx + β1 z1 + β2 z2 . Per la categoria 1 di Z , con z1 = 1 e z2 = 0, si ha E (y ) = α + βx + β1 (1) + β2 (0) = (α + β1 ) + βx. In pratica il coefficiente β1 modifica il valore dell’intercetta per la categoria di Z di riferimento Stesso discorso per la categoria 2 di Z , per cui il modello sarà E (y ) = (α + β2 ) + βx Ovviamente per la categoria 3 di Z si ha E (y ) = α + βx Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 17 / 58 Regressione con predittori quantitativi e categoriali Interpretazione dei parametri: il Modello senza Interazioni Riprendiamo il modello teorico E (y ) = α + βx + β1 z1 + β2 z2 . Per la categoria 1 di Z , con z1 = 1 e z2 = 0, si ha E (y ) = α + βx + β1 (1) + β2 (0) = (α + β1 ) + βx. In pratica il coefficiente β1 modifica il valore dell’intercetta per la categoria di Z di riferimento Stesso discorso per la categoria 2 di Z , per cui il modello sarà E (y ) = (α + β2 ) + βx Ovviamente per la categoria 3 di Z si ha E (y ) = α + βx Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 17 / 58 Regressione con predittori quantitativi e categoriali Interpretazione dei parametri: il Modello senza Interazioni Riprendiamo il modello teorico E (y ) = α + βx + β1 z1 + β2 z2 . Per la categoria 1 di Z , con z1 = 1 e z2 = 0, si ha E (y ) = α + βx + β1 (1) + β2 (0) = (α + β1 ) + βx. In pratica il coefficiente β1 modifica il valore dell’intercetta per la categoria di Z di riferimento Stesso discorso per la categoria 2 di Z , per cui il modello sarà E (y ) = (α + β2 ) + βx Ovviamente per la categoria 3 di Z si ha E (y ) = α + βx Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 17 / 58 Regressione con predittori quantitativi e categoriali Interpretazione dei parametri: il Modello senza Interazioni Riprendiamo il modello teorico E (y ) = α + βx + β1 z1 + β2 z2 . Per la categoria 1 di Z , con z1 = 1 e z2 = 0, si ha E (y ) = α + βx + β1 (1) + β2 (0) = (α + β1 ) + βx. In pratica il coefficiente β1 modifica il valore dell’intercetta per la categoria di Z di riferimento Stesso discorso per la categoria 2 di Z , per cui il modello sarà E (y ) = (α + β2 ) + βx Ovviamente per la categoria 3 di Z si ha E (y ) = α + βx Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 17 / 58 Regressione con predittori quantitativi e categoriali Più in dettaglio, ciascun coefficiente di regressione indica la differenza tra l’intercetta della propria categoria e quella della categoria di riferimento In questo caso le rette sono tra loro parallele, quindi ciascun βi rappresenta la distanza verticale tra le rette di regressione, per ogni valore di xi di X In buona sostanza, controllando per X , ciascun βi è la differenza tra la media della categoria i-ma e l’ultima. Tabella: Equazioni di Regressione e interpretazione dei Parametri Categoria 1 2 3 y -Int. α + β1 α + β2 α Nicola Tedesco (Statistica Sociale) Pendenza β β β E (y ) per un fissato x (α + β1 ) + βx (α + β2 ) + βx α + βx Differenze fra le medie della Cat. 3, controllando per X β1 β2 0 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 18 / 58 Regressione con predittori quantitativi e categoriali Più in dettaglio, ciascun coefficiente di regressione indica la differenza tra l’intercetta della propria categoria e quella della categoria di riferimento In questo caso le rette sono tra loro parallele, quindi ciascun βi rappresenta la distanza verticale tra le rette di regressione, per ogni valore di xi di X In buona sostanza, controllando per X , ciascun βi è la differenza tra la media della categoria i-ma e l’ultima. Tabella: Equazioni di Regressione e interpretazione dei Parametri Categoria 1 2 3 y -Int. α + β1 α + β2 α Nicola Tedesco (Statistica Sociale) Pendenza β β β E (y ) per un fissato x (α + β1 ) + βx (α + β2 ) + βx α + βx Differenze fra le medie della Cat. 3, controllando per X β1 β2 0 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 18 / 58 Regressione con predittori quantitativi e categoriali Più in dettaglio, ciascun coefficiente di regressione indica la differenza tra l’intercetta della propria categoria e quella della categoria di riferimento In questo caso le rette sono tra loro parallele, quindi ciascun βi rappresenta la distanza verticale tra le rette di regressione, per ogni valore di xi di X In buona sostanza, controllando per X , ciascun βi è la differenza tra la media della categoria i-ma e l’ultima. Tabella: Equazioni di Regressione e interpretazione dei Parametri Categoria 1 2 3 y -Int. α + β1 α + β2 α Nicola Tedesco (Statistica Sociale) Pendenza β β β E (y ) per un fissato x (α + β1 ) + βx (α + β2 ) + βx α + βx Differenze fra le medie della Cat. 3, controllando per X β1 β2 0 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 18 / 58 Regressione con predittori quantitativi e categoriali Più in dettaglio, ciascun coefficiente di regressione indica la differenza tra l’intercetta della propria categoria e quella della categoria di riferimento In questo caso le rette sono tra loro parallele, quindi ciascun βi rappresenta la distanza verticale tra le rette di regressione, per ogni valore di xi di X In buona sostanza, controllando per X , ciascun βi è la differenza tra la media della categoria i-ma e l’ultima. Tabella: Equazioni di Regressione e interpretazione dei Parametri Categoria 1 2 3 y -Int. α + β1 α + β2 α Nicola Tedesco (Statistica Sociale) Pendenza β β β E (y ) per un fissato x (α + β1 ) + βx (α + β2 ) + βx α + βx Differenze fra le medie della Cat. 3, controllando per X β1 β2 0 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 18 / 58 Regressione con predittori quantitativi e categoriali Graficamente si ha: y E(y) 5 (a 1 b1) 1 bx (category 1) E(y) 5 a 1 bx (category 3) a 1 b1 b1 b2 E(y) 5 (a 1 b2) 1 bx (category 2) a a 1 b2 Nicola Tedesco (Statistica Sociale) x Combinare Regressione e ANOVA: predittori quantitativi e categoriali 19 / 58 Regressione con predittori quantitativi e categoriali In riferimento all’esercizio precedente, abbiamo questa equazione di regressione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 Poiché la categoria di riferimento è Bianchi, il coefficiente β1 = −10.9, indica che i Neri guadagnano in media $10.900 in meno rispetto ai Bianchi, per ciascun livello di istruzione Più esattamente per ciascun valore della variabile X Istruzione Nel caso di β2 = −4.9, diremo che gli Ispanici hanno in media un Reddito Annuale inferiore di $4.900 rispetto ai Bianchi ∀x Ovviamente la differenza β1 − β2 = −10.9 − (−4.9) = −6.0 ci dice che i Neri hanno un Reddito Annuale inferiore di $6.000 rispetto agli Ispanici ∀x Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 20 / 58 Regressione con predittori quantitativi e categoriali In riferimento all’esercizio precedente, abbiamo questa equazione di regressione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 Poiché la categoria di riferimento è Bianchi, il coefficiente β1 = −10.9, indica che i Neri guadagnano in media $10.900 in meno rispetto ai Bianchi, per ciascun livello di istruzione Più esattamente per ciascun valore della variabile X Istruzione Nel caso di β2 = −4.9, diremo che gli Ispanici hanno in media un Reddito Annuale inferiore di $4.900 rispetto ai Bianchi ∀x Ovviamente la differenza β1 − β2 = −10.9 − (−4.9) = −6.0 ci dice che i Neri hanno un Reddito Annuale inferiore di $6.000 rispetto agli Ispanici ∀x Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 20 / 58 Regressione con predittori quantitativi e categoriali In riferimento all’esercizio precedente, abbiamo questa equazione di regressione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 Poiché la categoria di riferimento è Bianchi, il coefficiente β1 = −10.9, indica che i Neri guadagnano in media $10.900 in meno rispetto ai Bianchi, per ciascun livello di istruzione Più esattamente per ciascun valore della variabile X Istruzione Nel caso di β2 = −4.9, diremo che gli Ispanici hanno in media un Reddito Annuale inferiore di $4.900 rispetto ai Bianchi ∀x Ovviamente la differenza β1 − β2 = −10.9 − (−4.9) = −6.0 ci dice che i Neri hanno un Reddito Annuale inferiore di $6.000 rispetto agli Ispanici ∀x Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 20 / 58 Regressione con predittori quantitativi e categoriali In riferimento all’esercizio precedente, abbiamo questa equazione di regressione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 Poiché la categoria di riferimento è Bianchi, il coefficiente β1 = −10.9, indica che i Neri guadagnano in media $10.900 in meno rispetto ai Bianchi, per ciascun livello di istruzione Più esattamente per ciascun valore della variabile X Istruzione Nel caso di β2 = −4.9, diremo che gli Ispanici hanno in media un Reddito Annuale inferiore di $4.900 rispetto ai Bianchi ∀x Ovviamente la differenza β1 − β2 = −10.9 − (−4.9) = −6.0 ci dice che i Neri hanno un Reddito Annuale inferiore di $6.000 rispetto agli Ispanici ∀x Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 20 / 58 Regressione con predittori quantitativi e categoriali In riferimento all’esercizio precedente, abbiamo questa equazione di regressione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 Poiché la categoria di riferimento è Bianchi, il coefficiente β1 = −10.9, indica che i Neri guadagnano in media $10.900 in meno rispetto ai Bianchi, per ciascun livello di istruzione Più esattamente per ciascun valore della variabile X Istruzione Nel caso di β2 = −4.9, diremo che gli Ispanici hanno in media un Reddito Annuale inferiore di $4.900 rispetto ai Bianchi ∀x Ovviamente la differenza β1 − β2 = −10.9 − (−4.9) = −6.0 ci dice che i Neri hanno un Reddito Annuale inferiore di $6.000 rispetto agli Ispanici ∀x Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 20 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Modello con Interazioni tra Predittori Quantitativi e Qualitativi Nelle Scienze Sociali, come al solito, il caso più frequente prevede l’esistenza di Interazioni In questo caso si tratta di stimarle considerando che abbiamo predittori di ogni tipo (quantitativi e qualitativi). Ci limitiamo al caso di 2 predittori In questo caso le rette di regressione avranno pendenze differenti Per calcolare le interazioni si considerano i prodotti vettoriali tra le variabili esplicative, definiti anche prodotti incrociati Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 21 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Modello con Interazioni tra Predittori Quantitativi e Qualitativi Nelle Scienze Sociali, come al solito, il caso più frequente prevede l’esistenza di Interazioni In questo caso si tratta di stimarle considerando che abbiamo predittori di ogni tipo (quantitativi e qualitativi). Ci limitiamo al caso di 2 predittori In questo caso le rette di regressione avranno pendenze differenti Per calcolare le interazioni si considerano i prodotti vettoriali tra le variabili esplicative, definiti anche prodotti incrociati Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 21 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Modello con Interazioni tra Predittori Quantitativi e Qualitativi Nelle Scienze Sociali, come al solito, il caso più frequente prevede l’esistenza di Interazioni In questo caso si tratta di stimarle considerando che abbiamo predittori di ogni tipo (quantitativi e qualitativi). Ci limitiamo al caso di 2 predittori In questo caso le rette di regressione avranno pendenze differenti Per calcolare le interazioni si considerano i prodotti vettoriali tra le variabili esplicative, definiti anche prodotti incrociati Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 21 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Modello con Interazioni tra Predittori Quantitativi e Qualitativi Nelle Scienze Sociali, come al solito, il caso più frequente prevede l’esistenza di Interazioni In questo caso si tratta di stimarle considerando che abbiamo predittori di ogni tipo (quantitativi e qualitativi). Ci limitiamo al caso di 2 predittori In questo caso le rette di regressione avranno pendenze differenti Per calcolare le interazioni si considerano i prodotti vettoriali tra le variabili esplicative, definiti anche prodotti incrociati Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 21 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Esempio 13.2 — Regressione Reddito Istruzione e Gruppo Etnico-Razziale con Interazioni Rispetto al caso precedente (assenza di interazioni) abbiamo anche i termini di interazione x × z1 e x × z2 Rappresentano i prodotti incrociati delle prime 2 categorie con la variabile X Tabella: Modello con interazioni per la Var. risposta y = Reddito e Var. Esplicative Istruzione e Gruppo Etnico (con variabili dummy per le categorie Neri e Ispanici) Parametri Intercetta Istruzione razza = N razza = I razza = B razza = N ∗ Istruzione razza = I ∗ Istruzione razza = B ∗ Istruzione R-Quadro = 0.482 Nicola Tedesco (Statistica Sociale) B -25.869 5.210 19.333 9.264 0 -2.411 -1.121 0 Std. Error 10.498 .783 18.293 24.282 . 1.418 2.006 . t -2.464 6.655 1.057 .382 . -1.700 -.559 . Sig .016 .000 .294 .704 . .093 .578 . Combinare Regressione e ANOVA: predittori quantitativi e categoriali 22 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Esempio 13.2 — Regressione Reddito Istruzione e Gruppo Etnico-Razziale con Interazioni Rispetto al caso precedente (assenza di interazioni) abbiamo anche i termini di interazione x × z1 e x × z2 Rappresentano i prodotti incrociati delle prime 2 categorie con la variabile X Tabella: Modello con interazioni per la Var. risposta y = Reddito e Var. Esplicative Istruzione e Gruppo Etnico (con variabili dummy per le categorie Neri e Ispanici) Parametri Intercetta Istruzione razza = N razza = I razza = B razza = N ∗ Istruzione razza = I ∗ Istruzione razza = B ∗ Istruzione R-Quadro = 0.482 Nicola Tedesco (Statistica Sociale) B -25.869 5.210 19.333 9.264 0 -2.411 -1.121 0 Std. Error 10.498 .783 18.293 24.282 . 1.418 2.006 . t -2.464 6.655 1.057 .382 . -1.700 -.559 . Sig .016 .000 .294 .704 . .093 .578 . Combinare Regressione e ANOVA: predittori quantitativi e categoriali 22 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Esempio 13.2 — Regressione Reddito Istruzione e Gruppo Etnico-Razziale con Interazioni Rispetto al caso precedente (assenza di interazioni) abbiamo anche i termini di interazione x × z1 e x × z2 Rappresentano i prodotti incrociati delle prime 2 categorie con la variabile X Tabella: Modello con interazioni per la Var. risposta y = Reddito e Var. Esplicative Istruzione e Gruppo Etnico (con variabili dummy per le categorie Neri e Ispanici) Parametri Intercetta Istruzione razza = N razza = I razza = B razza = N ∗ Istruzione razza = I ∗ Istruzione razza = B ∗ Istruzione R-Quadro = 0.482 Nicola Tedesco (Statistica Sociale) B -25.869 5.210 19.333 9.264 0 -2.411 -1.121 0 Std. Error 10.498 .783 18.293 24.282 . 1.418 2.006 . t -2.464 6.655 1.057 .382 . -1.700 -.559 . Sig .016 .000 .294 .704 . .093 .578 . Combinare Regressione e ANOVA: predittori quantitativi e categoriali 22 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi In forma analitica l’equazione di regressione (o equazione di previsione) sarà ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 − 2.4(x × z1 ) − 1.1(x × z2 ). Se vogliamo considerare solo il gruppo dei Bianchi (z1 = z2 = 0) l’equazione sarà ŷ = −25.9 + 5.2x + 19.3(0) + 9.3(0) − 2.4x(0) − 1.1x(0) = −25.9 + 5.2x. Rispettivamente per i Neri (z1 = 1 e z2 = 0,) e gli Ispanici (z1 = 0, z2 = 1) avremo ŷ = −6.6 + 2.8x. ŷ = −16.6 + 4.1x. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 23 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi In forma analitica l’equazione di regressione (o equazione di previsione) sarà ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 − 2.4(x × z1 ) − 1.1(x × z2 ). Se vogliamo considerare solo il gruppo dei Bianchi (z1 = z2 = 0) l’equazione sarà ŷ = −25.9 + 5.2x + 19.3(0) + 9.3(0) − 2.4x(0) − 1.1x(0) = −25.9 + 5.2x. Rispettivamente per i Neri (z1 = 1 e z2 = 0,) e gli Ispanici (z1 = 0, z2 = 1) avremo ŷ = −6.6 + 2.8x. ŷ = −16.6 + 4.1x. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 23 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi In forma analitica l’equazione di regressione (o equazione di previsione) sarà ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 − 2.4(x × z1 ) − 1.1(x × z2 ). Se vogliamo considerare solo il gruppo dei Bianchi (z1 = z2 = 0) l’equazione sarà ŷ = −25.9 + 5.2x + 19.3(0) + 9.3(0) − 2.4x(0) − 1.1x(0) = −25.9 + 5.2x. Rispettivamente per i Neri (z1 = 1 e z2 = 0,) e gli Ispanici (z1 = 0, z2 = 1) avremo ŷ = −6.6 + 2.8x. ŷ = −16.6 + 4.1x. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 23 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Significato e dei Coefficienti del Modello Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per la categoria 1 e quello per la categoria 3 Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno pendenze differenti In questo caso contano le interazioni: infatti, il parametro dell’interazione x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli 2.4 = 5.2 − 2.8 Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione Istruzione-Gruppo Etnico Ovviamente le due rette saranno parallele quando il coefficiente dell’interazione è nullo Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è pari a x × z2 = −1.1 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 24 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Significato e dei Coefficienti del Modello Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per la categoria 1 e quello per la categoria 3 Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno pendenze differenti In questo caso contano le interazioni: infatti, il parametro dell’interazione x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli 2.4 = 5.2 − 2.8 Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione Istruzione-Gruppo Etnico Ovviamente le due rette saranno parallele quando il coefficiente dell’interazione è nullo Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è pari a x × z2 = −1.1 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 24 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Significato e dei Coefficienti del Modello Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per la categoria 1 e quello per la categoria 3 Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno pendenze differenti In questo caso contano le interazioni: infatti, il parametro dell’interazione x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli 2.4 = 5.2 − 2.8 Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione Istruzione-Gruppo Etnico Ovviamente le due rette saranno parallele quando il coefficiente dell’interazione è nullo Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è pari a x × z2 = −1.1 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 24 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Significato e dei Coefficienti del Modello Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per la categoria 1 e quello per la categoria 3 Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno pendenze differenti In questo caso contano le interazioni: infatti, il parametro dell’interazione x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli 2.4 = 5.2 − 2.8 Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione Istruzione-Gruppo Etnico Ovviamente le due rette saranno parallele quando il coefficiente dell’interazione è nullo Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è pari a x × z2 = −1.1 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 24 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Significato e dei Coefficienti del Modello Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per la categoria 1 e quello per la categoria 3 Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno pendenze differenti In questo caso contano le interazioni: infatti, il parametro dell’interazione x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli 2.4 = 5.2 − 2.8 Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione Istruzione-Gruppo Etnico Ovviamente le due rette saranno parallele quando il coefficiente dell’interazione è nullo Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è pari a x × z2 = −1.1 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 24 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Significato e dei Coefficienti del Modello Il coeff. di z1 β1 = 19.3 fornisce la differenza tra le intercette del modello per la categoria 1 e quello per la categoria 3 Questa è la differenza, però, solo se x = 0, in quanto le due equazioni hanno pendenze differenti In questo caso contano le interazioni: infatti, il parametro dell’interazione x × z1 = −2.4, misura la differenza tra le pendenze dei due modelli 2.4 = 5.2 − 2.8 Sostanzialmente ci dice di quanto diminuisce l’effetto dell’Istruzione sul Reddito Annuale per i Neri rispetto ai Bianchi, in quanto esiste un’interazione Istruzione-Gruppo Etnico Ovviamente le due rette saranno parallele quando il coefficiente dell’interazione è nullo Stesso discorso per la categoria 2 (Ispanici), il cui coefficiente di interazione è pari a x × z2 = −1.1 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 24 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi In sintesi abbiamo il seguente prospetto: Tabella: Equazione di Previsione ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 − 2.4(x × z1 ) − 1.1(x × z2 ) con Interazioni Cat. 1 2 3 y -Int. Pend. Equazione di Previsione −25.9 + 19.3 −25.9 + 9.3 −25.9 5.2 − 2.4 5.2 − 1.1 5.2 (−25.9 + 19.3) + (5.2 − 2.4)x (−25.9 + 9.3) + (5.2 − 1.1)x −25.9 + 5.2x Diff. dalla Cat. 3 y -Int. Pend. 19.3 9.3 0 −2.4 −1.1 0 In pratica i valori delle differenze nelle Pendenze, indicano qual è la diminuzione nel Reddito Annuale al crescere di un anno nell’Istruzione, per ogni categoria rispetto a quella di riferimento (Bianchi) I Neri tendono, a parità di Istruzione, a guadagnare meno dei Bianchi, mentre per gli Ispanici tale tendenza è meno forte Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 25 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi In sintesi abbiamo il seguente prospetto: Tabella: Equazione di Previsione ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 − 2.4(x × z1 ) − 1.1(x × z2 ) con Interazioni Cat. 1 2 3 y -Int. Pend. Equazione di Previsione −25.9 + 19.3 −25.9 + 9.3 −25.9 5.2 − 2.4 5.2 − 1.1 5.2 (−25.9 + 19.3) + (5.2 − 2.4)x (−25.9 + 9.3) + (5.2 − 1.1)x −25.9 + 5.2x Diff. dalla Cat. 3 y -Int. Pend. 19.3 9.3 0 −2.4 −1.1 0 In pratica i valori delle differenze nelle Pendenze, indicano qual è la diminuzione nel Reddito Annuale al crescere di un anno nell’Istruzione, per ogni categoria rispetto a quella di riferimento (Bianchi) I Neri tendono, a parità di Istruzione, a guadagnare meno dei Bianchi, mentre per gli Ispanici tale tendenza è meno forte Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 25 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi In sintesi abbiamo il seguente prospetto: Tabella: Equazione di Previsione ŷ = −25.9 + 5.2x + 19.3z1 + 9.3z2 − 2.4(x × z1 ) − 1.1(x × z2 ) con Interazioni Cat. 1 2 3 y -Int. Pend. Equazione di Previsione −25.9 + 19.3 −25.9 + 9.3 −25.9 5.2 − 2.4 5.2 − 1.1 5.2 (−25.9 + 19.3) + (5.2 − 2.4)x (−25.9 + 9.3) + (5.2 − 1.1)x −25.9 + 5.2x Diff. dalla Cat. 3 y -Int. Pend. 19.3 9.3 0 −2.4 −1.1 0 In pratica i valori delle differenze nelle Pendenze, indicano qual è la diminuzione nel Reddito Annuale al crescere di un anno nell’Istruzione, per ogni categoria rispetto a quella di riferimento (Bianchi) I Neri tendono, a parità di Istruzione, a guadagnare meno dei Bianchi, mentre per gli Ispanici tale tendenza è meno forte Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 25 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Graficamente abbiamo: 120 Income 100 White ( yˆ 5 225.9 1 5.2x) 80 Hispanic ( yˆ 5 216.6 1 4.1x) 60 Black (yˆ 5 26.6 1 2.8x) 40 White Black Hispanic 20 Education 0 5 Nicola Tedesco (Statistica Sociale) 10 15 20 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 26 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Si può concludere che in un modello con interazioni, le medie della variabile risposta Y variano in funzione della covariata X Ad. es., possiamo calcolare la differenza nel Reddito Medio Annuale tra Bianchi e Ispanici al variare di x in modo semplice: (−25.9 + 5.2x) − (−16.6 + 4.1x) = −9.3 + 1.1x. Ciò significa che il differenziale nel Reddito Medio Annuale per le due categorie è diverso per ogni livello dell’Istruzione In pratica all’aumentare dell’Istruzione aumenta la differenza nel Reddito Medio Annuale Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 27 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Si può concludere che in un modello con interazioni, le medie della variabile risposta Y variano in funzione della covariata X Ad. es., possiamo calcolare la differenza nel Reddito Medio Annuale tra Bianchi e Ispanici al variare di x in modo semplice: (−25.9 + 5.2x) − (−16.6 + 4.1x) = −9.3 + 1.1x. Ciò significa che il differenziale nel Reddito Medio Annuale per le due categorie è diverso per ogni livello dell’Istruzione In pratica all’aumentare dell’Istruzione aumenta la differenza nel Reddito Medio Annuale Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 27 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Si può concludere che in un modello con interazioni, le medie della variabile risposta Y variano in funzione della covariata X Ad. es., possiamo calcolare la differenza nel Reddito Medio Annuale tra Bianchi e Ispanici al variare di x in modo semplice: (−25.9 + 5.2x) − (−16.6 + 4.1x) = −9.3 + 1.1x. Ciò significa che il differenziale nel Reddito Medio Annuale per le due categorie è diverso per ogni livello dell’Istruzione In pratica all’aumentare dell’Istruzione aumenta la differenza nel Reddito Medio Annuale Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 27 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi Si può concludere che in un modello con interazioni, le medie della variabile risposta Y variano in funzione della covariata X Ad. es., possiamo calcolare la differenza nel Reddito Medio Annuale tra Bianchi e Ispanici al variare di x in modo semplice: (−25.9 + 5.2x) − (−16.6 + 4.1x) = −9.3 + 1.1x. Ciò significa che il differenziale nel Reddito Medio Annuale per le due categorie è diverso per ogni livello dell’Istruzione In pratica all’aumentare dell’Istruzione aumenta la differenza nel Reddito Medio Annuale Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 27 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi R o R 2 per Confrontare Modelli Diversi Un metodo che consente di capire se l’aggiunta dei termini di interazione e/o degli effetti singoli sia utile, si basa sull’incremento del valore di R 2 o quello del Coefficiente di Correlazione Multipla R Nel nostro esempio, il modello privo di interazioni mostra un R 2 = 0.462, mentre il modello con interazioni mostra un R 2 = 0.482 Conseguentemente√, i Coefficienti di Correlazione Multipla saranno √ 0.462 = 0.680 e 0.482 = 0.695 Si osserva chiaramente come l’incremento sia modesto Quindi introdurre i termini di interazione non aggiunge nulla di importante per spiegare le relazioni tra i predittori e la variabile risposta Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 28 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi R o R 2 per Confrontare Modelli Diversi Un metodo che consente di capire se l’aggiunta dei termini di interazione e/o degli effetti singoli sia utile, si basa sull’incremento del valore di R 2 o quello del Coefficiente di Correlazione Multipla R Nel nostro esempio, il modello privo di interazioni mostra un R 2 = 0.462, mentre il modello con interazioni mostra un R 2 = 0.482 Conseguentemente√, i Coefficienti di Correlazione Multipla saranno √ 0.462 = 0.680 e 0.482 = 0.695 Si osserva chiaramente come l’incremento sia modesto Quindi introdurre i termini di interazione non aggiunge nulla di importante per spiegare le relazioni tra i predittori e la variabile risposta Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 28 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi R o R 2 per Confrontare Modelli Diversi Un metodo che consente di capire se l’aggiunta dei termini di interazione e/o degli effetti singoli sia utile, si basa sull’incremento del valore di R 2 o quello del Coefficiente di Correlazione Multipla R Nel nostro esempio, il modello privo di interazioni mostra un R 2 = 0.462, mentre il modello con interazioni mostra un R 2 = 0.482 Conseguentemente√, i Coefficienti di Correlazione Multipla saranno √ 0.462 = 0.680 e 0.482 = 0.695 Si osserva chiaramente come l’incremento sia modesto Quindi introdurre i termini di interazione non aggiunge nulla di importante per spiegare le relazioni tra i predittori e la variabile risposta Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 28 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi R o R 2 per Confrontare Modelli Diversi Un metodo che consente di capire se l’aggiunta dei termini di interazione e/o degli effetti singoli sia utile, si basa sull’incremento del valore di R 2 o quello del Coefficiente di Correlazione Multipla R Nel nostro esempio, il modello privo di interazioni mostra un R 2 = 0.462, mentre il modello con interazioni mostra un R 2 = 0.482 Conseguentemente√, i Coefficienti di Correlazione Multipla saranno √ 0.462 = 0.680 e 0.482 = 0.695 Si osserva chiaramente come l’incremento sia modesto Quindi introdurre i termini di interazione non aggiunge nulla di importante per spiegare le relazioni tra i predittori e la variabile risposta Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 28 / 58 Modello con Interazioni tra Predittori Quantitativi e Qualitativi R o R 2 per Confrontare Modelli Diversi Un metodo che consente di capire se l’aggiunta dei termini di interazione e/o degli effetti singoli sia utile, si basa sull’incremento del valore di R 2 o quello del Coefficiente di Correlazione Multipla R Nel nostro esempio, il modello privo di interazioni mostra un R 2 = 0.462, mentre il modello con interazioni mostra un R 2 = 0.482 Conseguentemente√, i Coefficienti di Correlazione Multipla saranno √ 0.462 = 0.680 e 0.482 = 0.695 Si osserva chiaramente come l’incremento sia modesto Quindi introdurre i termini di interazione non aggiunge nulla di importante per spiegare le relazioni tra i predittori e la variabile risposta Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 28 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Come al solito è necessario effettuare un’analisi inferenziale allo scopo di saggiare quali e quanti effetti sono presenti in un’analisi di regressione con predittori di qualsiasi tipo L’impostazione è la stessa di quella utilizzata in precedenza Si parte dal modello completo (con le interazioni) e si procede via via eliminando gli effetti non significativi Ci si basa sempre sul test F che confronta il modello completo con quello ridotto. Ad es., per saggiare l’esistenza di interazione avremo F = (R 2 − Rr2 )/df1 (SSEr − SSEc )/df1 = c SSEc /df2 (1 − Rc2 )/df2 dove SSEr e SSEc indicano le somme dei quadrati degli errori dei modelli completo = c e ridotto = r Inoltre df1 e df2 indicano, rispettivamente, la differenza di termini nei due modelli e i gdl del modello completo Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 29 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Come al solito è necessario effettuare un’analisi inferenziale allo scopo di saggiare quali e quanti effetti sono presenti in un’analisi di regressione con predittori di qualsiasi tipo L’impostazione è la stessa di quella utilizzata in precedenza Si parte dal modello completo (con le interazioni) e si procede via via eliminando gli effetti non significativi Ci si basa sempre sul test F che confronta il modello completo con quello ridotto. Ad es., per saggiare l’esistenza di interazione avremo F = (R 2 − Rr2 )/df1 (SSEr − SSEc )/df1 = c SSEc /df2 (1 − Rc2 )/df2 dove SSEr e SSEc indicano le somme dei quadrati degli errori dei modelli completo = c e ridotto = r Inoltre df1 e df2 indicano, rispettivamente, la differenza di termini nei due modelli e i gdl del modello completo Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 29 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Come al solito è necessario effettuare un’analisi inferenziale allo scopo di saggiare quali e quanti effetti sono presenti in un’analisi di regressione con predittori di qualsiasi tipo L’impostazione è la stessa di quella utilizzata in precedenza Si parte dal modello completo (con le interazioni) e si procede via via eliminando gli effetti non significativi Ci si basa sempre sul test F che confronta il modello completo con quello ridotto. Ad es., per saggiare l’esistenza di interazione avremo F = (R 2 − Rr2 )/df1 (SSEr − SSEc )/df1 = c SSEc /df2 (1 − Rc2 )/df2 dove SSEr e SSEc indicano le somme dei quadrati degli errori dei modelli completo = c e ridotto = r Inoltre df1 e df2 indicano, rispettivamente, la differenza di termini nei due modelli e i gdl del modello completo Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 29 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Come al solito è necessario effettuare un’analisi inferenziale allo scopo di saggiare quali e quanti effetti sono presenti in un’analisi di regressione con predittori di qualsiasi tipo L’impostazione è la stessa di quella utilizzata in precedenza Si parte dal modello completo (con le interazioni) e si procede via via eliminando gli effetti non significativi Ci si basa sempre sul test F che confronta il modello completo con quello ridotto. Ad es., per saggiare l’esistenza di interazione avremo F = (R 2 − Rr2 )/df1 (SSEr − SSEc )/df1 = c SSEc /df2 (1 − Rc2 )/df2 dove SSEr e SSEc indicano le somme dei quadrati degli errori dei modelli completo = c e ridotto = r Inoltre df1 e df2 indicano, rispettivamente, la differenza di termini nei due modelli e i gdl del modello completo Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 29 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Come al solito è necessario effettuare un’analisi inferenziale allo scopo di saggiare quali e quanti effetti sono presenti in un’analisi di regressione con predittori di qualsiasi tipo L’impostazione è la stessa di quella utilizzata in precedenza Si parte dal modello completo (con le interazioni) e si procede via via eliminando gli effetti non significativi Ci si basa sempre sul test F che confronta il modello completo con quello ridotto. Ad es., per saggiare l’esistenza di interazione avremo F = (R 2 − Rr2 )/df1 (SSEr − SSEc )/df1 = c SSEc /df2 (1 − Rc2 )/df2 dove SSEr e SSEc indicano le somme dei quadrati degli errori dei modelli completo = c e ridotto = r Inoltre df1 e df2 indicano, rispettivamente, la differenza di termini nei due modelli e i gdl del modello completo Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 29 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Test per l’Assenza di Interazione L’ipotesi di base H0 : assenza di interazione consiste, sostanzialmente, nel considerare il modello ridotto vero y H0 y x Ha x Un p-valore basso comporta la veridicità dell’ipotesi Ha , quindi è opportuno introdurre i termini di interazione Se fosse vera H0 ci limiteremo a considerare l’effetto di X su Y uguale per ogni livello di Z Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 30 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Test per l’Assenza di Interazione L’ipotesi di base H0 : assenza di interazione consiste, sostanzialmente, nel considerare il modello ridotto vero y H0 y x Ha x Un p-valore basso comporta la veridicità dell’ipotesi Ha , quindi è opportuno introdurre i termini di interazione Se fosse vera H0 ci limiteremo a considerare l’effetto di X su Y uguale per ogni livello di Z Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 30 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Test per l’Assenza di Interazione L’ipotesi di base H0 : assenza di interazione consiste, sostanzialmente, nel considerare il modello ridotto vero y H0 y x Ha x Un p-valore basso comporta la veridicità dell’ipotesi Ha , quindi è opportuno introdurre i termini di interazione Se fosse vera H0 ci limiteremo a considerare l’effetto di X su Y uguale per ogni livello di Z Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 30 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Esempio 13.3 — Verifica dell’Effetto dell’Interazione Istruzione-Gruppo Etnico sul Reddito Consideriamo il modello completo E (y ) = α + βx + β1 z1 + β2 z2 + β3 (x × z1 ) + β4 (x × z2 ) L’ipotesi di base è H0 : β3 = β4 = 0 Tabella: Tabella ANOVA delle Somme dei Quadrati Parziali Spiegate dall’Istruzione, dal Gruppo Etnico e dalla loro Interazione Source GE Istruzione GE*Istruzione Errore Totale Nicola Tedesco (Statistica Sociale) Type III Sum of Squares 267.319 6373.507 691.837 17472.412 33761.950 df 2 1 2 74 79 Mean Square 133.659 6373.507 345.918 236.114 F .566 26.993 1.465 Combinare Regressione e ANOVA: predittori quantitativi e categoriali Sig .570 .000 .238 31 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Esempio 13.3 — Verifica dell’Effetto dell’Interazione Istruzione-Gruppo Etnico sul Reddito Consideriamo il modello completo E (y ) = α + βx + β1 z1 + β2 z2 + β3 (x × z1 ) + β4 (x × z2 ) L’ipotesi di base è H0 : β3 = β4 = 0 Tabella: Tabella ANOVA delle Somme dei Quadrati Parziali Spiegate dall’Istruzione, dal Gruppo Etnico e dalla loro Interazione Source GE Istruzione GE*Istruzione Errore Totale Nicola Tedesco (Statistica Sociale) Type III Sum of Squares 267.319 6373.507 691.837 17472.412 33761.950 df 2 1 2 74 79 Mean Square 133.659 6373.507 345.918 236.114 F .566 26.993 1.465 Combinare Regressione e ANOVA: predittori quantitativi e categoriali Sig .570 .000 .238 31 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Esempio 13.3 — Verifica dell’Effetto dell’Interazione Istruzione-Gruppo Etnico sul Reddito Consideriamo il modello completo E (y ) = α + βx + β1 z1 + β2 z2 + β3 (x × z1 ) + β4 (x × z2 ) L’ipotesi di base è H0 : β3 = β4 = 0 Tabella: Tabella ANOVA delle Somme dei Quadrati Parziali Spiegate dall’Istruzione, dal Gruppo Etnico e dalla loro Interazione Source GE Istruzione GE*Istruzione Errore Totale Nicola Tedesco (Statistica Sociale) Type III Sum of Squares 267.319 6373.507 691.837 17472.412 33761.950 df 2 1 2 74 79 Mean Square 133.659 6373.507 345.918 236.114 F .566 26.993 1.465 Combinare Regressione e ANOVA: predittori quantitativi e categoriali Sig .570 .000 .238 31 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi La variabilità spiegata dall’interazione pari a 691.837 non è altro che la differenza tra i valori SSE del modello ridotto e di quello completo 18164.248 − 17472.412 = 691.837 Si chiamano, appunto Somme dei Quadrati Parziali Per verificare H0 = assenza di interazione si costruisce la statistica test F F = 345.9/236.1 = 1.46 il cui p-valore = 0.238 Si conclude che l’interazione non è significativa e si considererà solo il modello ridotto (rette parallele) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 32 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi La variabilità spiegata dall’interazione pari a 691.837 non è altro che la differenza tra i valori SSE del modello ridotto e di quello completo 18164.248 − 17472.412 = 691.837 Si chiamano, appunto Somme dei Quadrati Parziali Per verificare H0 = assenza di interazione si costruisce la statistica test F F = 345.9/236.1 = 1.46 il cui p-valore = 0.238 Si conclude che l’interazione non è significativa e si considererà solo il modello ridotto (rette parallele) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 32 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi La variabilità spiegata dall’interazione pari a 691.837 non è altro che la differenza tra i valori SSE del modello ridotto e di quello completo 18164.248 − 17472.412 = 691.837 Si chiamano, appunto Somme dei Quadrati Parziali Per verificare H0 = assenza di interazione si costruisce la statistica test F F = 345.9/236.1 = 1.46 il cui p-valore = 0.238 Si conclude che l’interazione non è significativa e si considererà solo il modello ridotto (rette parallele) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 32 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi La variabilità spiegata dall’interazione pari a 691.837 non è altro che la differenza tra i valori SSE del modello ridotto e di quello completo 18164.248 − 17472.412 = 691.837 Si chiamano, appunto Somme dei Quadrati Parziali Per verificare H0 = assenza di interazione si costruisce la statistica test F F = 345.9/236.1 = 1.46 il cui p-valore = 0.238 Si conclude che l’interazione non è significativa e si considererà solo il modello ridotto (rette parallele) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 32 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Verifica dell’Effetto della Variabile Categoriale, Controllando per x In questo caso le ipotesi da contrapporre sono le seguenti: H0 : effetto di X su Y uguale ∀ categoria di Z e E (Y ) uguali ∀ categoria di Z Ha : effetto di X su Y uguale ∀ categoria di Z e E (Y ) diversi ∀ categoria di Z y H0 y Ha x Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali x 33 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Verifica dell’Effetto della Variabile Categoriale, Controllando per x In questo caso le ipotesi da contrapporre sono le seguenti: H0 : effetto di X su Y uguale ∀ categoria di Z e E (Y ) uguali ∀ categoria di Z Ha : effetto di X su Y uguale ∀ categoria di Z e E (Y ) diversi ∀ categoria di Z y H0 y Ha x Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali x 33 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Nel caso di un modello con predittore categoriale a 3 livelli confronteremo il modello completo E (y ) = α + βx + β1 z1 + β2 z2 con il modello ridotto E (y ) = α + βx In sintesi è l’ipotesi di assenza di effetto del predittore categoriale H0 : β1 = β2 = 0 (coefficienti delle variabili dummy = 0). Il rifiuto di H0 consente di affermare che pur in presenza di uno stesso effetto di X su Y , i E (Y ) per i livelli del predittore categoriale sono diversi Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 34 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Nel caso di un modello con predittore categoriale a 3 livelli confronteremo il modello completo E (y ) = α + βx + β1 z1 + β2 z2 con il modello ridotto E (y ) = α + βx In sintesi è l’ipotesi di assenza di effetto del predittore categoriale H0 : β1 = β2 = 0 (coefficienti delle variabili dummy = 0). Il rifiuto di H0 consente di affermare che pur in presenza di uno stesso effetto di X su Y , i E (Y ) per i livelli del predittore categoriale sono diversi Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 34 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Nel caso di un modello con predittore categoriale a 3 livelli confronteremo il modello completo E (y ) = α + βx + β1 z1 + β2 z2 con il modello ridotto E (y ) = α + βx In sintesi è l’ipotesi di assenza di effetto del predittore categoriale H0 : β1 = β2 = 0 (coefficienti delle variabili dummy = 0). Il rifiuto di H0 consente di affermare che pur in presenza di uno stesso effetto di X su Y , i E (Y ) per i livelli del predittore categoriale sono diversi Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 34 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Esempio 13.4 — Verifica dell’Effetto del Gruppo Etnico sul Reddito, Controllando per l’Istruzione In riferimento al ns esempio, consideriamo il modello privo di interazione e calcoliamo la decomposizione della variabilità complessiva Tabella: Somme dei Quadrati Parziali Spiegate dall’Istruzione e dal Gruppo Etnico – Modello senza Interazione Source GE Istruzione Errore Totale Type III Sum of Squares 1460.584 12245.232 18164.248 33761.950 df 2 1 76 79 Mean Square 730.292 12245.232 239.003 F 3.056 51.235 Sig .053 .000 La statistica F per verificare se il GE ha un effetto è 730.29/239.00 = 3.06 (P-valore = 0.053) Abbiamo una debole evidenza contro H0 , anche a causa delle ridotte ampiezze campionarie Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 35 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Esempio 13.4 — Verifica dell’Effetto del Gruppo Etnico sul Reddito, Controllando per l’Istruzione In riferimento al ns esempio, consideriamo il modello privo di interazione e calcoliamo la decomposizione della variabilità complessiva Tabella: Somme dei Quadrati Parziali Spiegate dall’Istruzione e dal Gruppo Etnico – Modello senza Interazione Source GE Istruzione Errore Totale Type III Sum of Squares 1460.584 12245.232 18164.248 33761.950 df 2 1 76 79 Mean Square 730.292 12245.232 239.003 F 3.056 51.235 Sig .053 .000 La statistica F per verificare se il GE ha un effetto è 730.29/239.00 = 3.06 (P-valore = 0.053) Abbiamo una debole evidenza contro H0 , anche a causa delle ridotte ampiezze campionarie Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 35 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Esempio 13.4 — Verifica dell’Effetto del Gruppo Etnico sul Reddito, Controllando per l’Istruzione In riferimento al ns esempio, consideriamo il modello privo di interazione e calcoliamo la decomposizione della variabilità complessiva Tabella: Somme dei Quadrati Parziali Spiegate dall’Istruzione e dal Gruppo Etnico – Modello senza Interazione Source GE Istruzione Errore Totale Type III Sum of Squares 1460.584 12245.232 18164.248 33761.950 df 2 1 76 79 Mean Square 730.292 12245.232 239.003 F 3.056 51.235 Sig .053 .000 La statistica F per verificare se il GE ha un effetto è 730.29/239.00 = 3.06 (P-valore = 0.053) Abbiamo una debole evidenza contro H0 , anche a causa delle ridotte ampiezze campionarie Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 35 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Confronto con i Risultati dell’ANOVA Quanto appena visto assomiglia molto all’ANOVA a una via Infatti la verifica dell’effetto della variabile categoriale, controllando per X , evidenzia se le medie E (Y ) nei diversi gruppi sono uguali o diverse Tuttavia, proprio a causa del controllo per X non si tratta di una vera e propria ANOVA a una via Infatti, una semplice ANOVA (confronto dei redditi medi tra i GE), mostra un P−valore = .018, rispetto al valore .053 dell’analisi con il controllo per X = Istruzione Tabella: ANOVA a una via del Reddito al variare del Gruppo Etnico Source GE Errore Totale Nicola Tedesco (Statistica Sociale) Type III Sum of Squares 3352.470 30409.480 33761.950 df 2 77 79 Mean Square 1676.235 394.928 F 4.244 Sig .018 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 36 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Confronto con i Risultati dell’ANOVA Quanto appena visto assomiglia molto all’ANOVA a una via Infatti la verifica dell’effetto della variabile categoriale, controllando per X , evidenzia se le medie E (Y ) nei diversi gruppi sono uguali o diverse Tuttavia, proprio a causa del controllo per X non si tratta di una vera e propria ANOVA a una via Infatti, una semplice ANOVA (confronto dei redditi medi tra i GE), mostra un P−valore = .018, rispetto al valore .053 dell’analisi con il controllo per X = Istruzione Tabella: ANOVA a una via del Reddito al variare del Gruppo Etnico Source GE Errore Totale Nicola Tedesco (Statistica Sociale) Type III Sum of Squares 3352.470 30409.480 33761.950 df 2 77 79 Mean Square 1676.235 394.928 F 4.244 Sig .018 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 36 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Confronto con i Risultati dell’ANOVA Quanto appena visto assomiglia molto all’ANOVA a una via Infatti la verifica dell’effetto della variabile categoriale, controllando per X , evidenzia se le medie E (Y ) nei diversi gruppi sono uguali o diverse Tuttavia, proprio a causa del controllo per X non si tratta di una vera e propria ANOVA a una via Infatti, una semplice ANOVA (confronto dei redditi medi tra i GE), mostra un P−valore = .018, rispetto al valore .053 dell’analisi con il controllo per X = Istruzione Tabella: ANOVA a una via del Reddito al variare del Gruppo Etnico Source GE Errore Totale Nicola Tedesco (Statistica Sociale) Type III Sum of Squares 3352.470 30409.480 33761.950 df 2 77 79 Mean Square 1676.235 394.928 F 4.244 Sig .018 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 36 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Confronto con i Risultati dell’ANOVA Quanto appena visto assomiglia molto all’ANOVA a una via Infatti la verifica dell’effetto della variabile categoriale, controllando per X , evidenzia se le medie E (Y ) nei diversi gruppi sono uguali o diverse Tuttavia, proprio a causa del controllo per X non si tratta di una vera e propria ANOVA a una via Infatti, una semplice ANOVA (confronto dei redditi medi tra i GE), mostra un P−valore = .018, rispetto al valore .053 dell’analisi con il controllo per X = Istruzione Tabella: ANOVA a una via del Reddito al variare del Gruppo Etnico Source GE Errore Totale Nicola Tedesco (Statistica Sociale) Type III Sum of Squares 3352.470 30409.480 33761.950 df 2 77 79 Mean Square 1676.235 394.928 F 4.244 Sig .018 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 36 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Confronto con i Risultati dell’ANOVA Quanto appena visto assomiglia molto all’ANOVA a una via Infatti la verifica dell’effetto della variabile categoriale, controllando per X , evidenzia se le medie E (Y ) nei diversi gruppi sono uguali o diverse Tuttavia, proprio a causa del controllo per X non si tratta di una vera e propria ANOVA a una via Infatti, una semplice ANOVA (confronto dei redditi medi tra i GE), mostra un P−valore = .018, rispetto al valore .053 dell’analisi con il controllo per X = Istruzione Tabella: ANOVA a una via del Reddito al variare del Gruppo Etnico Source GE Errore Totale Nicola Tedesco (Statistica Sociale) Type III Sum of Squares 3352.470 30409.480 33761.950 df 2 77 79 Mean Square 1676.235 394.928 F 4.244 Sig .018 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 36 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi A cosa è dovuta questa differenza? L’ANOVA consiste nel P suddividere (partizionare) la variabilità totale della variabile Y Var (Y ) = (y − y )2 P Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y ) Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente intorno alla proprie medie x̄ e ȳ Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di concordanza (i valori sono entrambi maggiori o minori delle medie) Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di disconcordanza (i valori uno maggiore e uno minore delle rispettive medie) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 37 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi A cosa è dovuta questa differenza? L’ANOVA consiste nel P suddividere (partizionare) la variabilità totale della variabile Y Var (Y ) = (y − y )2 P Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y ) Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente intorno alla proprie medie x̄ e ȳ Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di concordanza (i valori sono entrambi maggiori o minori delle medie) Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di disconcordanza (i valori uno maggiore e uno minore delle rispettive medie) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 37 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi A cosa è dovuta questa differenza? L’ANOVA consiste nel P suddividere (partizionare) la variabilità totale della variabile Y Var (Y ) = (y − y )2 P Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y ) Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente intorno alla proprie medie x̄ e ȳ Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di concordanza (i valori sono entrambi maggiori o minori delle medie) Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di disconcordanza (i valori uno maggiore e uno minore delle rispettive medie) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 37 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi A cosa è dovuta questa differenza? L’ANOVA consiste nel P suddividere (partizionare) la variabilità totale della variabile Y Var (Y ) = (y − y )2 P Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y ) Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente intorno alla proprie medie x̄ e ȳ Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di concordanza (i valori sono entrambi maggiori o minori delle medie) Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di disconcordanza (i valori uno maggiore e uno minore delle rispettive medie) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 37 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi A cosa è dovuta questa differenza? L’ANOVA consiste nel P suddividere (partizionare) la variabilità totale della variabile Y Var (Y ) = (y − y )2 P Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y ) Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente intorno alla proprie medie x̄ e ȳ Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di concordanza (i valori sono entrambi maggiori o minori delle medie) Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di disconcordanza (i valori uno maggiore e uno minore delle rispettive medie) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 37 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi A cosa è dovuta questa differenza? L’ANOVA consiste nel P suddividere (partizionare) la variabilità totale della variabile Y Var (Y ) = (y − y )2 P Nell’analisi della covarianza si suddivide la Cov (XY ) = (x − x̄)(y − y ) Ricordiamo che la Cov (XY ) misura come X e Y variano congiuntamente intorno alla proprie medie x̄ e ȳ Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è positivo si parla di concordanza (i valori sono entrambi maggiori o minori delle medie) Se per ciascuna osservazione il prodotto (x − x̄)(y − y ) è negativo si parla di disconcordanza (i valori uno maggiore e uno minore delle rispettive medie) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 37 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Test per l’Effetto di X Controllando per la Variabile Categoriale Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare l’effetto della variabile categoriale, controllando per X Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il predittore categoriale Il modello è E (y ) = α + βx + β1 z1 + β2 z2 . la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia nullo in ogni categoria di Z Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o meno variare tra le categorie di Z , ma non per l’effetto di X Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y ) possono cambiare anche per la presenza dell’effetto di X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 38 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Test per l’Effetto di X Controllando per la Variabile Categoriale Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare l’effetto della variabile categoriale, controllando per X Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il predittore categoriale Il modello è E (y ) = α + βx + β1 z1 + β2 z2 . la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia nullo in ogni categoria di Z Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o meno variare tra le categorie di Z , ma non per l’effetto di X Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y ) possono cambiare anche per la presenza dell’effetto di X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 38 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Test per l’Effetto di X Controllando per la Variabile Categoriale Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare l’effetto della variabile categoriale, controllando per X Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il predittore categoriale Il modello è E (y ) = α + βx + β1 z1 + β2 z2 . la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia nullo in ogni categoria di Z Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o meno variare tra le categorie di Z , ma non per l’effetto di X Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y ) possono cambiare anche per la presenza dell’effetto di X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 38 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Test per l’Effetto di X Controllando per la Variabile Categoriale Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare l’effetto della variabile categoriale, controllando per X Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il predittore categoriale Il modello è E (y ) = α + βx + β1 z1 + β2 z2 . la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia nullo in ogni categoria di Z Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o meno variare tra le categorie di Z , ma non per l’effetto di X Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y ) possono cambiare anche per la presenza dell’effetto di X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 38 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Test per l’Effetto di X Controllando per la Variabile Categoriale Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare l’effetto della variabile categoriale, controllando per X Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il predittore categoriale Il modello è E (y ) = α + βx + β1 z1 + β2 z2 . la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia nullo in ogni categoria di Z Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o meno variare tra le categorie di Z , ma non per l’effetto di X Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y ) possono cambiare anche per la presenza dell’effetto di X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 38 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Test per l’Effetto di X Controllando per la Variabile Categoriale Nell’ipotesi di assenza di interazione, abbiamo già visto come saggiare l’effetto della variabile categoriale, controllando per X Ora analizziamo il caso opposto: saggiare l’effetto di X controllando per il predittore categoriale Il modello è E (y ) = α + βx + β1 z1 + β2 z2 . la cui ipotesi da saggiare è H0 : β = 0 cioè che l’effetto del predittore X sia nullo in ogni categoria di Z Se si considera H0 plausibile, ricadiamo nel caso dell’ANOVA: il E (Y ) può o meno variare tra le categorie di Z , ma non per l’effetto di X Se si accetta Ha , ricadiamo nel caso dell’analisi della covarianza, dove i E (Y ) possono cambiare anche per la presenza dell’effetto di X Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 38 / 58 Inferenza per la Regressione con Predittori Quantitativi e Qualitativi Tabella: Tabella di confronto per i quattro modelli SSE R2 H0 : No inter. F = 1.5, P = 0.24 H0 : β 1 = β 2 = 0 Medie uguali cont. per x F = 3.1, P = 0.053 H0 : β = 0 no effetto X F = 51.2, P = 0.000 Nicola Tedesco (Statistica Sociale) An. della Covarianza Interazione E (y ) = α + βx +β1 z1 + β2 z2 +β3 (xz1 ) + β4 (xz2 ) 17472.4 0.48 Modello completo An. della Covarianza No Inter. E (y ) = α + βx +β1 z1 + β2 z2 Regressione Bivariata E (y ) = α + βx ANOVA 1-via E (y ) = α +β1 z1 + β2 z2 18164.2 0.46 Modello ridotto 9812.4 0.42 30409.5 0.10 Modello completo Modello ridotto Modello completo Combinare Regressione e ANOVA: predittori quantitativi e categoriali Modello ridotto 39 / 58 Medie Aggiustate Medie Aggiustate L’informazione proveniente dalle stime dei parametri è fondamentale I loro valori consentono di ben comprendere la dimensione dell’effetto dei predittori e/o delle covariare sulla variabile risposta Particolare interesse assume l’analisi del modello che studia l’effetto del predittore qualitativo Z , controllando per la covariata X Risulta interessante calcolare i E (Y ) per ogni categoria di Z , ipotizzando che i E (X ) siano gli stessi ∀x L’unico limite di questo approccio è che risulta valido solo in presenza di modelli privi di interazione Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 40 / 58 Medie Aggiustate Medie Aggiustate L’informazione proveniente dalle stime dei parametri è fondamentale I loro valori consentono di ben comprendere la dimensione dell’effetto dei predittori e/o delle covariare sulla variabile risposta Particolare interesse assume l’analisi del modello che studia l’effetto del predittore qualitativo Z , controllando per la covariata X Risulta interessante calcolare i E (Y ) per ogni categoria di Z , ipotizzando che i E (X ) siano gli stessi ∀x L’unico limite di questo approccio è che risulta valido solo in presenza di modelli privi di interazione Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 40 / 58 Medie Aggiustate Medie Aggiustate L’informazione proveniente dalle stime dei parametri è fondamentale I loro valori consentono di ben comprendere la dimensione dell’effetto dei predittori e/o delle covariare sulla variabile risposta Particolare interesse assume l’analisi del modello che studia l’effetto del predittore qualitativo Z , controllando per la covariata X Risulta interessante calcolare i E (Y ) per ogni categoria di Z , ipotizzando che i E (X ) siano gli stessi ∀x L’unico limite di questo approccio è che risulta valido solo in presenza di modelli privi di interazione Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 40 / 58 Medie Aggiustate Medie Aggiustate L’informazione proveniente dalle stime dei parametri è fondamentale I loro valori consentono di ben comprendere la dimensione dell’effetto dei predittori e/o delle covariare sulla variabile risposta Particolare interesse assume l’analisi del modello che studia l’effetto del predittore qualitativo Z , controllando per la covariata X Risulta interessante calcolare i E (Y ) per ogni categoria di Z , ipotizzando che i E (X ) siano gli stessi ∀x L’unico limite di questo approccio è che risulta valido solo in presenza di modelli privi di interazione Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 40 / 58 Medie Aggiustate Medie Aggiustate L’informazione proveniente dalle stime dei parametri è fondamentale I loro valori consentono di ben comprendere la dimensione dell’effetto dei predittori e/o delle covariare sulla variabile risposta Particolare interesse assume l’analisi del modello che studia l’effetto del predittore qualitativo Z , controllando per la covariata X Risulta interessante calcolare i E (Y ) per ogni categoria di Z , ipotizzando che i E (X ) siano gli stessi ∀x L’unico limite di questo approccio è che risulta valido solo in presenza di modelli privi di interazione Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 40 / 58 Medie Aggiustate Medie Aggiustate della Variabile Risposta, Controllando per la Covariata Si calcolano i E (Y ) ipotizzando che le distribuzioni delle covariata X abbiano la stessa media in ogni gruppo Def.: La media aggiustata di Y per un particolare gruppo è la funzione di regressione per quel gruppo stimata sulla media degli X -valori per tutti i gruppi y Category 3 Category 1 Adjusted mean, category 1 Category 2 Adjusted means x Nicola Tedesco (Statistica Sociale) mx Combinare Regressione e ANOVA: predittori quantitativi e categoriali 41 / 58 Medie Aggiustate Medie Aggiustate della Variabile Risposta, Controllando per la Covariata Si calcolano i E (Y ) ipotizzando che le distribuzioni delle covariata X abbiano la stessa media in ogni gruppo Def.: La media aggiustata di Y per un particolare gruppo è la funzione di regressione per quel gruppo stimata sulla media degli X -valori per tutti i gruppi y Category 3 Category 1 Adjusted mean, category 1 Category 2 Adjusted means x Nicola Tedesco (Statistica Sociale) mx Combinare Regressione e ANOVA: predittori quantitativi e categoriali 41 / 58 Medie Aggiustate Medie Aggiustate della Variabile Risposta, Controllando per la Covariata Si calcolano i E (Y ) ipotizzando che le distribuzioni delle covariata X abbiano la stessa media in ogni gruppo Def.: La media aggiustata di Y per un particolare gruppo è la funzione di regressione per quel gruppo stimata sulla media degli X -valori per tutti i gruppi y Category 3 Category 1 Adjusted mean, category 1 Category 2 Adjusted means x Nicola Tedesco (Statistica Sociale) mx Combinare Regressione e ANOVA: predittori quantitativi e categoriali 41 / 58 Medie Aggiustate L’utilità di questo approccio risiede sostanzialmente nel confrontare i modelli di regressione nellipotesi che la covariata assuma la stessa media e, quindi, le popolazioni delle categorie del predittore categoriale Z siano le stesse (all’incirca) In termini di notazione occorre precisare che: La media aggiustata per il gruppo i è indicata da y ′i . Questo è il valore dell’equazione di previsione per il gruppo I calcolata per il valore x̄ Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 42 / 58 Medie Aggiustate L’utilità di questo approccio risiede sostanzialmente nel confrontare i modelli di regressione nellipotesi che la covariata assuma la stessa media e, quindi, le popolazioni delle categorie del predittore categoriale Z siano le stesse (all’incirca) In termini di notazione occorre precisare che: La media aggiustata per il gruppo i è indicata da y ′i . Questo è il valore dell’equazione di previsione per il gruppo I calcolata per il valore x̄ Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 42 / 58 Medie Aggiustate Esercizio 13.5 — Medie Aggiustate del Reddito, Controllando per l’Istruzione Riprendiamo l’equazione del modello privo di interazione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 . Tabella: Redditi medi non aggiustati, Medie aggiustate (Controllando per l’Istruzione) e Equazioni di Previsione per il Modello privo di Interazione Gruppo Neri Ispanici Bianchi Equazione di Previsione ŷ = −26.54 + 4.43x ŷ = −20.60 + 4.43x ŷ = −15.66 + 4.43x Media di x 12.2 11.6 13.1 Media di y 27.8 31.0 42.5 Media Aggiustata di y 29.7 35.6 40.6 Per calcolare le medie aggiustate, si prendono le equazioni di previsione per ciascun gruppo calcolate dal modello privo di interazioni e si sostituisce al posto di X la sua media globale x̄ Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 43 / 58 Medie Aggiustate Esercizio 13.5 — Medie Aggiustate del Reddito, Controllando per l’Istruzione Riprendiamo l’equazione del modello privo di interazione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 . Tabella: Redditi medi non aggiustati, Medie aggiustate (Controllando per l’Istruzione) e Equazioni di Previsione per il Modello privo di Interazione Gruppo Neri Ispanici Bianchi Equazione di Previsione ŷ = −26.54 + 4.43x ŷ = −20.60 + 4.43x ŷ = −15.66 + 4.43x Media di x 12.2 11.6 13.1 Media di y 27.8 31.0 42.5 Media Aggiustata di y 29.7 35.6 40.6 Per calcolare le medie aggiustate, si prendono le equazioni di previsione per ciascun gruppo calcolate dal modello privo di interazioni e si sostituisce al posto di X la sua media globale x̄ Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 43 / 58 Medie Aggiustate Esercizio 13.5 — Medie Aggiustate del Reddito, Controllando per l’Istruzione Riprendiamo l’equazione del modello privo di interazione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 . Tabella: Redditi medi non aggiustati, Medie aggiustate (Controllando per l’Istruzione) e Equazioni di Previsione per il Modello privo di Interazione Gruppo Neri Ispanici Bianchi Equazione di Previsione ŷ = −26.54 + 4.43x ŷ = −20.60 + 4.43x ŷ = −15.66 + 4.43x Media di x 12.2 11.6 13.1 Media di y 27.8 31.0 42.5 Media Aggiustata di y 29.7 35.6 40.6 Per calcolare le medie aggiustate, si prendono le equazioni di previsione per ciascun gruppo calcolate dal modello privo di interazioni e si sostituisce al posto di X la sua media globale x̄ Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 43 / 58 Medie Aggiustate Calcoliamo la media aggiusta per il gruppo dei Neri. La media complessiva x̄ = 12.7 y ′1 = −26.54 + 4.43x̄ = −26.54 + 4.43(12.7) = 29.7. Allo stesso modo per Ispanici e Bianchi avremo y ′2 = −20.60 + 4.43(12.7) = 35.6, y ′3 = −15.66 + 4.43(12.7) = 40.6. Si può osservare come le medie aggiustate ottenute siano meno diverse rispetto a quelle campionarie Ciò è dovuto al fatto che per i gruppi con x̄i > x̄ avremo y ′i < ȳi Possiamo parlare di un effetto perequativo In realtà si vogliono confrontare il E (Y ) calcolati ipotizzando che le popolazioni di ogni gruppo siano le stesse Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 44 / 58 Medie Aggiustate Calcoliamo la media aggiusta per il gruppo dei Neri. La media complessiva x̄ = 12.7 y ′1 = −26.54 + 4.43x̄ = −26.54 + 4.43(12.7) = 29.7. Allo stesso modo per Ispanici e Bianchi avremo y ′2 = −20.60 + 4.43(12.7) = 35.6, y ′3 = −15.66 + 4.43(12.7) = 40.6. Si può osservare come le medie aggiustate ottenute siano meno diverse rispetto a quelle campionarie Ciò è dovuto al fatto che per i gruppi con x̄i > x̄ avremo y ′i < ȳi Possiamo parlare di un effetto perequativo In realtà si vogliono confrontare il E (Y ) calcolati ipotizzando che le popolazioni di ogni gruppo siano le stesse Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 44 / 58 Medie Aggiustate Calcoliamo la media aggiusta per il gruppo dei Neri. La media complessiva x̄ = 12.7 y ′1 = −26.54 + 4.43x̄ = −26.54 + 4.43(12.7) = 29.7. Allo stesso modo per Ispanici e Bianchi avremo y ′2 = −20.60 + 4.43(12.7) = 35.6, y ′3 = −15.66 + 4.43(12.7) = 40.6. Si può osservare come le medie aggiustate ottenute siano meno diverse rispetto a quelle campionarie Ciò è dovuto al fatto che per i gruppi con x̄i > x̄ avremo y ′i < ȳi Possiamo parlare di un effetto perequativo In realtà si vogliono confrontare il E (Y ) calcolati ipotizzando che le popolazioni di ogni gruppo siano le stesse Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 44 / 58 Medie Aggiustate Calcoliamo la media aggiusta per il gruppo dei Neri. La media complessiva x̄ = 12.7 y ′1 = −26.54 + 4.43x̄ = −26.54 + 4.43(12.7) = 29.7. Allo stesso modo per Ispanici e Bianchi avremo y ′2 = −20.60 + 4.43(12.7) = 35.6, y ′3 = −15.66 + 4.43(12.7) = 40.6. Si può osservare come le medie aggiustate ottenute siano meno diverse rispetto a quelle campionarie Ciò è dovuto al fatto che per i gruppi con x̄i > x̄ avremo y ′i < ȳi Possiamo parlare di un effetto perequativo In realtà si vogliono confrontare il E (Y ) calcolati ipotizzando che le popolazioni di ogni gruppo siano le stesse Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 44 / 58 Medie Aggiustate Calcoliamo la media aggiusta per il gruppo dei Neri. La media complessiva x̄ = 12.7 y ′1 = −26.54 + 4.43x̄ = −26.54 + 4.43(12.7) = 29.7. Allo stesso modo per Ispanici e Bianchi avremo y ′2 = −20.60 + 4.43(12.7) = 35.6, y ′3 = −15.66 + 4.43(12.7) = 40.6. Si può osservare come le medie aggiustate ottenute siano meno diverse rispetto a quelle campionarie Ciò è dovuto al fatto che per i gruppi con x̄i > x̄ avremo y ′i < ȳi Possiamo parlare di un effetto perequativo In realtà si vogliono confrontare il E (Y ) calcolati ipotizzando che le popolazioni di ogni gruppo siano le stesse Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 44 / 58 Medie Aggiustate Confronto delle Medie Aggiustate Quando si vanno a confrontare le medie aggiustate si osserva come le loro differenze corrispondono ai valori dei coefficienti di regressione delle dummy nel modello privo di interazioni Riprendiamo quella equazione di previsione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 . Confrontando le medie aggiuste dei Neri e dei Bianchi si ottiene y ′1 − y ′3 = 29.7 − 40.6 = −10.9 Allo stesso modo confrontando gli Ispanci con i Bianchi si ha y ′2 − y ′3 = −4.9 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 45 / 58 Medie Aggiustate Confronto delle Medie Aggiustate Quando si vanno a confrontare le medie aggiustate si osserva come le loro differenze corrispondono ai valori dei coefficienti di regressione delle dummy nel modello privo di interazioni Riprendiamo quella equazione di previsione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 . Confrontando le medie aggiuste dei Neri e dei Bianchi si ottiene y ′1 − y ′3 = 29.7 − 40.6 = −10.9 Allo stesso modo confrontando gli Ispanci con i Bianchi si ha y ′2 − y ′3 = −4.9 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 45 / 58 Medie Aggiustate Confronto delle Medie Aggiustate Quando si vanno a confrontare le medie aggiustate si osserva come le loro differenze corrispondono ai valori dei coefficienti di regressione delle dummy nel modello privo di interazioni Riprendiamo quella equazione di previsione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 . Confrontando le medie aggiuste dei Neri e dei Bianchi si ottiene y ′1 − y ′3 = 29.7 − 40.6 = −10.9 Allo stesso modo confrontando gli Ispanci con i Bianchi si ha y ′2 − y ′3 = −4.9 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 45 / 58 Medie Aggiustate Confronto delle Medie Aggiustate Quando si vanno a confrontare le medie aggiustate si osserva come le loro differenze corrispondono ai valori dei coefficienti di regressione delle dummy nel modello privo di interazioni Riprendiamo quella equazione di previsione ŷ = −15.7 + 4.4x − 10.9z1 − 4.9z2 . Confrontando le medie aggiuste dei Neri e dei Bianchi si ottiene y ′1 − y ′3 = 29.7 − 40.6 = −10.9 Allo stesso modo confrontando gli Ispanci con i Bianchi si ha y ′2 − y ′3 = −4.9 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 45 / 58 Medie Aggiustate Il grafico mostra come vi sia assoluta corrispondenza con quello del modello privo di interazione White (yˆ 5 215.7 1 4.4x) 80 Hispanic (yˆ 5 220.6 1 4.4x) Income Black (yˆ 5 226.6 1 4.4 x) 60 4.9 _ y93 _ y92 _ y91 26.0 20 0 5 Nicola Tedesco (Statistica Sociale) 10 _ x 5 12.7 Education 15 20 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 46 / 58 Medie Aggiustate In ultimo si deve precisare che le differenze tra le medie aggiustate sono diverse dalle differenze tra le medie campionarie Ciò è dovuto all’effetto di X su Y (le rette sono parallele ma con pendenza) Ad es., confrontando le medie campionarie degli Ispanici e dei Bianchi abbiamo y 2 − y 3 = 31.0 − 42.5 = −11.5 risultato diverso dal confronto delle medie aggiiustate y ′2 − y ′3 = 35.6 − 40.6 = −5.0 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 47 / 58 Medie Aggiustate In ultimo si deve precisare che le differenze tra le medie aggiustate sono diverse dalle differenze tra le medie campionarie Ciò è dovuto all’effetto di X su Y (le rette sono parallele ma con pendenza) Ad es., confrontando le medie campionarie degli Ispanici e dei Bianchi abbiamo y 2 − y 3 = 31.0 − 42.5 = −11.5 risultato diverso dal confronto delle medie aggiiustate y ′2 − y ′3 = 35.6 − 40.6 = −5.0 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 47 / 58 Medie Aggiustate In ultimo si deve precisare che le differenze tra le medie aggiustate sono diverse dalle differenze tra le medie campionarie Ciò è dovuto all’effetto di X su Y (le rette sono parallele ma con pendenza) Ad es., confrontando le medie campionarie degli Ispanici e dei Bianchi abbiamo y 2 − y 3 = 31.0 − 42.5 = −11.5 risultato diverso dal confronto delle medie aggiiustate y ′2 − y ′3 = 35.6 − 40.6 = −5.0 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 47 / 58 Medie Aggiustate Interpretazione Grafica Si può meglio comprendere cosa comporti utilizzare le medie aggiustate, analizzado la relazione che lega la media prevista dal modello (non aggiustata) e la stessa media aggiustata Consideriamo uno dei gruppi (i) della variabile Z Indicheremo con y 1 la media non aggiustata per il gruppo 1. La retta passerà per il punto di coordinate x̄1 , y 1 Allo stesso modo indicheremo con y ′1 la media aggiusta per il gruppo 1. La retta passerà per il punto di coordinate x̄1 , y ′1 Allora la pendenza b rappresenta la differenza y ′1 − y 1 in corrispondenza alla differenza x̄ − x̄1 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 48 / 58 Medie Aggiustate Interpretazione Grafica Si può meglio comprendere cosa comporti utilizzare le medie aggiustate, analizzado la relazione che lega la media prevista dal modello (non aggiustata) e la stessa media aggiustata Consideriamo uno dei gruppi (i) della variabile Z Indicheremo con y 1 la media non aggiustata per il gruppo 1. La retta passerà per il punto di coordinate x̄1 , y 1 Allo stesso modo indicheremo con y ′1 la media aggiusta per il gruppo 1. La retta passerà per il punto di coordinate x̄1 , y ′1 Allora la pendenza b rappresenta la differenza y ′1 − y 1 in corrispondenza alla differenza x̄ − x̄1 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 48 / 58 Medie Aggiustate Interpretazione Grafica Si può meglio comprendere cosa comporti utilizzare le medie aggiustate, analizzado la relazione che lega la media prevista dal modello (non aggiustata) e la stessa media aggiustata Consideriamo uno dei gruppi (i) della variabile Z Indicheremo con y 1 la media non aggiustata per il gruppo 1. La retta passerà per il punto di coordinate x̄1 , y 1 Allo stesso modo indicheremo con y ′1 la media aggiusta per il gruppo 1. La retta passerà per il punto di coordinate x̄1 , y ′1 Allora la pendenza b rappresenta la differenza y ′1 − y 1 in corrispondenza alla differenza x̄ − x̄1 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 48 / 58 Medie Aggiustate Interpretazione Grafica Si può meglio comprendere cosa comporti utilizzare le medie aggiustate, analizzado la relazione che lega la media prevista dal modello (non aggiustata) e la stessa media aggiustata Consideriamo uno dei gruppi (i) della variabile Z Indicheremo con y 1 la media non aggiustata per il gruppo 1. La retta passerà per il punto di coordinate x̄1 , y 1 Allo stesso modo indicheremo con y ′1 la media aggiusta per il gruppo 1. La retta passerà per il punto di coordinate x̄1 , y ′1 Allora la pendenza b rappresenta la differenza y ′1 − y 1 in corrispondenza alla differenza x̄ − x̄1 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 48 / 58 Medie Aggiustate Interpretazione Grafica Si può meglio comprendere cosa comporti utilizzare le medie aggiustate, analizzado la relazione che lega la media prevista dal modello (non aggiustata) e la stessa media aggiustata Consideriamo uno dei gruppi (i) della variabile Z Indicheremo con y 1 la media non aggiustata per il gruppo 1. La retta passerà per il punto di coordinate x̄1 , y 1 Allo stesso modo indicheremo con y ′1 la media aggiusta per il gruppo 1. La retta passerà per il punto di coordinate x̄1 , y ′1 Allora la pendenza b rappresenta la differenza y ′1 − y 1 in corrispondenza alla differenza x̄ − x̄1 Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 48 / 58 Medie Aggiustate Interpretazione Grafica Graficamente avremo ŷ y Adjusted _ _ (x, y91) _ _ _ _ b (x 2x1) 5 y91 2 y1 Unadjusted _ _ (x1, y1) _ x1 _ _ x 2 x1 _ x x Si può concludere che cioè, y ′1 − y 1 = b(x̄ − x̄1 ). y ′1 = y 1 + b(x̄ − x̄1 ). Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 49 / 58 Medie Aggiustate Interpretazione Grafica Graficamente avremo ŷ y Adjusted _ _ (x, y91) _ _ _ _ b (x 2x1) 5 y91 2 y1 Unadjusted _ _ (x1, y1) _ x1 _ _ x 2 x1 _ x x Si può concludere che cioè, y ′1 − y 1 = b(x̄ − x̄1 ). y ′1 = y 1 + b(x̄ − x̄1 ). Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 49 / 58 Medie Aggiustate Come interpretare questi risultati? Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0 Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0 In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i Quanto più si confrontano gruppi con medie della covariata diverse, tanto più distanti saranno le medie aggiustate Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 50 / 58 Medie Aggiustate Come interpretare questi risultati? Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0 Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0 In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i Quanto più si confrontano gruppi con medie della covariata diverse, tanto più distanti saranno le medie aggiustate Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 50 / 58 Medie Aggiustate Come interpretare questi risultati? Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0 Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0 In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i Quanto più si confrontano gruppi con medie della covariata diverse, tanto più distanti saranno le medie aggiustate Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 50 / 58 Medie Aggiustate Come interpretare questi risultati? Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0 Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0 In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i Quanto più si confrontano gruppi con medie della covariata diverse, tanto più distanti saranno le medie aggiustate Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 50 / 58 Medie Aggiustate Come interpretare questi risultati? Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0 Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0 In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i Quanto più si confrontano gruppi con medie della covariata diverse, tanto più distanti saranno le medie aggiustate Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 50 / 58 Medie Aggiustate Come interpretare questi risultati? Se x̄ − x̄1 > 0, cioè x̄1 > x̄, si conclude che y ′1 > y 1 poichè b(x̄ − x̄1 ) > 0 Se x̄ − x̄1 < 0, cioè x̄1 < x̄, si conclude che y ′1 < y 1 poichè b(x̄ − x̄1 ) < 0 In sintesi, le differenze tra le medie aggiustate e quelle campionarie dei diversi gruppi dipendono direttamente dall’entità della differenza (x̄ − x̄i )∀i Quanto più si confrontano gruppi con medie della covariata diverse, tanto più distanti saranno le medie aggiustate Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 50 / 58 Medie Aggiustate Il grafico illustra bene quanto appena evidenziato: y White _ _ , y 3) (x 3 Hispanic Black _ _ , y 2) (x 2 _ _ , y 1) (x 1 12.2 11.6 12.7 13.1 _ x2 _ x1 _ _ x x3 Men Women y y x (a) No interaction Nicola Tedesco (Statistica Sociale) y x (b) No interaction, with identical regression lines x (c) Interaction Combinare Regressione e ANOVA: predittori quantitativi e categoriali 51 / 58 Medie Aggiustate Confronti Multipli di Medie Aggiustate Analogamente a quanto visto nel caso dell’ANOVA, si possono costruire gli intervali di confidenza di Bonferroni, per confrontare simultaneamente le medie aggiustate a coppie, ad un prefissato livello complessivo di errore Valgono le stesse considerazioni fatte in precedenza: 1 si possono confrontare le medie attraverso gli intervalli di confidenza sulla loro differenza; 2 se il numero di confronti a coppie è numeroso, il metodo mostra dei limiti a causa della necessità di non dovere prefissare un livello globale di errore troppo elevato; 3 il livello di errore associato a ciascun intervallo non è esatto ma approssimato. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 52 / 58 Medie Aggiustate Confronti Multipli di Medie Aggiustate Analogamente a quanto visto nel caso dell’ANOVA, si possono costruire gli intervali di confidenza di Bonferroni, per confrontare simultaneamente le medie aggiustate a coppie, ad un prefissato livello complessivo di errore Valgono le stesse considerazioni fatte in precedenza: 1 si possono confrontare le medie attraverso gli intervalli di confidenza sulla loro differenza; 2 se il numero di confronti a coppie è numeroso, il metodo mostra dei limiti a causa della necessità di non dovere prefissare un livello globale di errore troppo elevato; 3 il livello di errore associato a ciascun intervallo non è esatto ma approssimato. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 52 / 58 Medie Aggiustate Confronti Multipli di Medie Aggiustate Analogamente a quanto visto nel caso dell’ANOVA, si possono costruire gli intervali di confidenza di Bonferroni, per confrontare simultaneamente le medie aggiustate a coppie, ad un prefissato livello complessivo di errore Valgono le stesse considerazioni fatte in precedenza: 1 si possono confrontare le medie attraverso gli intervalli di confidenza sulla loro differenza; 2 se il numero di confronti a coppie è numeroso, il metodo mostra dei limiti a causa della necessità di non dovere prefissare un livello globale di errore troppo elevato; 3 il livello di errore associato a ciascun intervallo non è esatto ma approssimato. Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 52 / 58 Medie Aggiustate Esempio 13.6 — Intervalli di Confidenza per il Confronto dei Redditi Medi Aggiustati Per costruire gli intervalli di confidenza di Bonferroni, occorre fissare il livello complessivo di errore Poiché si dovranno costruire 3 intervalli, una probabilità di errore 0.05/3 = 0.0167 sembra accettabile Il t-score con una probabilità ad una coda 0.0167/2 = 0.0083 e df = 76 (ove df sono quelli della SSE per il modello senza interazione) è pari a 2.45 Riprendiamo il modello senza interazioni Tabella: Modello senza interazioni Parametri Intercetta istruzione razza = N razza = I razza = B B -15.663 4.432 -10.874 -4.934 0 Nicola Tedesco (Statistica Sociale) Std. Error 8.412 .619 4.473 4.763 t -1.862 7.158 -2.431 -1.036 Sig .066 .000 .017 .304 IC 95% Inferiore Superiore -32.4 1.09 3.2 5.70 -19.8 -2.00 -14.4 4.60 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 53 / 58 Medie Aggiustate Esempio 13.6 — Intervalli di Confidenza per il Confronto dei Redditi Medi Aggiustati Per costruire gli intervalli di confidenza di Bonferroni, occorre fissare il livello complessivo di errore Poiché si dovranno costruire 3 intervalli, una probabilità di errore 0.05/3 = 0.0167 sembra accettabile Il t-score con una probabilità ad una coda 0.0167/2 = 0.0083 e df = 76 (ove df sono quelli della SSE per il modello senza interazione) è pari a 2.45 Riprendiamo il modello senza interazioni Tabella: Modello senza interazioni Parametri Intercetta istruzione razza = N razza = I razza = B B -15.663 4.432 -10.874 -4.934 0 Nicola Tedesco (Statistica Sociale) Std. Error 8.412 .619 4.473 4.763 t -1.862 7.158 -2.431 -1.036 Sig .066 .000 .017 .304 IC 95% Inferiore Superiore -32.4 1.09 3.2 5.70 -19.8 -2.00 -14.4 4.60 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 53 / 58 Medie Aggiustate Esempio 13.6 — Intervalli di Confidenza per il Confronto dei Redditi Medi Aggiustati Per costruire gli intervalli di confidenza di Bonferroni, occorre fissare il livello complessivo di errore Poiché si dovranno costruire 3 intervalli, una probabilità di errore 0.05/3 = 0.0167 sembra accettabile Il t-score con una probabilità ad una coda 0.0167/2 = 0.0083 e df = 76 (ove df sono quelli della SSE per il modello senza interazione) è pari a 2.45 Riprendiamo il modello senza interazioni Tabella: Modello senza interazioni Parametri Intercetta istruzione razza = N razza = I razza = B B -15.663 4.432 -10.874 -4.934 0 Nicola Tedesco (Statistica Sociale) Std. Error 8.412 .619 4.473 4.763 t -1.862 7.158 -2.431 -1.036 Sig .066 .000 .017 .304 IC 95% Inferiore Superiore -32.4 1.09 3.2 5.70 -19.8 -2.00 -14.4 4.60 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 53 / 58 Medie Aggiustate Esempio 13.6 — Intervalli di Confidenza per il Confronto dei Redditi Medi Aggiustati Per costruire gli intervalli di confidenza di Bonferroni, occorre fissare il livello complessivo di errore Poiché si dovranno costruire 3 intervalli, una probabilità di errore 0.05/3 = 0.0167 sembra accettabile Il t-score con una probabilità ad una coda 0.0167/2 = 0.0083 e df = 76 (ove df sono quelli della SSE per il modello senza interazione) è pari a 2.45 Riprendiamo il modello senza interazioni Tabella: Modello senza interazioni Parametri Intercetta istruzione razza = N razza = I razza = B B -15.663 4.432 -10.874 -4.934 0 Nicola Tedesco (Statistica Sociale) Std. Error 8.412 .619 4.473 4.763 t -1.862 7.158 -2.431 -1.036 Sig .066 .000 .017 .304 IC 95% Inferiore Superiore -32.4 1.09 3.2 5.70 -19.8 -2.00 -14.4 4.60 Combinare Regressione e ANOVA: predittori quantitativi e categoriali 53 / 58 Medie Aggiustate Il confronto tra i redditi medi aggiustati di Ispanici e Bianchi si realizza considerando il parametro β2 = −4.934 Il suo errore standard è pari a 4.763, per cui l’intervallo di confidenza di Bonferroni sarà −4.934 ± 2.45(4.763), o (−16.6, 6.7). Controllando per l’Istruzione, l’intervallo di confidenza ottenuto contiene lo zero, per cui è plausibile ritenere che i redditi medi aggiustati siano uguali Si osservi come l’intervallo di Bonferroni sulle medie aggiustate sia più stretto di quello sulle medie campionarie (è ovvio!) Allo stesso modo confrontando Neri e Bianchi si ottiene un intervallo che di fatto non contiene lo zero −10.874 ± 2.45(4.473), o (−21.8, 0.1). Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 54 / 58 Medie Aggiustate Il confronto tra i redditi medi aggiustati di Ispanici e Bianchi si realizza considerando il parametro β2 = −4.934 Il suo errore standard è pari a 4.763, per cui l’intervallo di confidenza di Bonferroni sarà −4.934 ± 2.45(4.763), o (−16.6, 6.7). Controllando per l’Istruzione, l’intervallo di confidenza ottenuto contiene lo zero, per cui è plausibile ritenere che i redditi medi aggiustati siano uguali Si osservi come l’intervallo di Bonferroni sulle medie aggiustate sia più stretto di quello sulle medie campionarie (è ovvio!) Allo stesso modo confrontando Neri e Bianchi si ottiene un intervallo che di fatto non contiene lo zero −10.874 ± 2.45(4.473), o (−21.8, 0.1). Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 54 / 58 Medie Aggiustate Il confronto tra i redditi medi aggiustati di Ispanici e Bianchi si realizza considerando il parametro β2 = −4.934 Il suo errore standard è pari a 4.763, per cui l’intervallo di confidenza di Bonferroni sarà −4.934 ± 2.45(4.763), o (−16.6, 6.7). Controllando per l’Istruzione, l’intervallo di confidenza ottenuto contiene lo zero, per cui è plausibile ritenere che i redditi medi aggiustati siano uguali Si osservi come l’intervallo di Bonferroni sulle medie aggiustate sia più stretto di quello sulle medie campionarie (è ovvio!) Allo stesso modo confrontando Neri e Bianchi si ottiene un intervallo che di fatto non contiene lo zero −10.874 ± 2.45(4.473), o (−21.8, 0.1). Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 54 / 58 Medie Aggiustate Il confronto tra i redditi medi aggiustati di Ispanici e Bianchi si realizza considerando il parametro β2 = −4.934 Il suo errore standard è pari a 4.763, per cui l’intervallo di confidenza di Bonferroni sarà −4.934 ± 2.45(4.763), o (−16.6, 6.7). Controllando per l’Istruzione, l’intervallo di confidenza ottenuto contiene lo zero, per cui è plausibile ritenere che i redditi medi aggiustati siano uguali Si osservi come l’intervallo di Bonferroni sulle medie aggiustate sia più stretto di quello sulle medie campionarie (è ovvio!) Allo stesso modo confrontando Neri e Bianchi si ottiene un intervallo che di fatto non contiene lo zero −10.874 ± 2.45(4.473), o (−21.8, 0.1). Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 54 / 58 Medie Aggiustate Il confronto tra i redditi medi aggiustati di Ispanici e Bianchi si realizza considerando il parametro β2 = −4.934 Il suo errore standard è pari a 4.763, per cui l’intervallo di confidenza di Bonferroni sarà −4.934 ± 2.45(4.763), o (−16.6, 6.7). Controllando per l’Istruzione, l’intervallo di confidenza ottenuto contiene lo zero, per cui è plausibile ritenere che i redditi medi aggiustati siano uguali Si osservi come l’intervallo di Bonferroni sulle medie aggiustate sia più stretto di quello sulle medie campionarie (è ovvio!) Allo stesso modo confrontando Neri e Bianchi si ottiene un intervallo che di fatto non contiene lo zero −10.874 ± 2.45(4.473), o (−21.8, 0.1). Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 54 / 58 Medie Aggiustate Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello nel quale una di queste categorie è quella di riferimento nella costruzione delle dummy In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94 Si avrà p se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ), dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei parametri, fornita direttamente dal software Per il confronto Neri–Ispanici avremo se = 5.67, con IC (−19.8, 8.0). Intervallo molto ampio che contiene lo zero Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 55 / 58 Medie Aggiustate Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello nel quale una di queste categorie è quella di riferimento nella costruzione delle dummy In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94 Si avrà p se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ), dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei parametri, fornita direttamente dal software Per il confronto Neri–Ispanici avremo se = 5.67, con IC (−19.8, 8.0). Intervallo molto ampio che contiene lo zero Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 55 / 58 Medie Aggiustate Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello nel quale una di queste categorie è quella di riferimento nella costruzione delle dummy In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94 Si avrà p se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ), dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei parametri, fornita direttamente dal software Per il confronto Neri–Ispanici avremo se = 5.67, con IC (−19.8, 8.0). Intervallo molto ampio che contiene lo zero Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 55 / 58 Medie Aggiustate Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello nel quale una di queste categorie è quella di riferimento nella costruzione delle dummy In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94 Si avrà p se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ), dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei parametri, fornita direttamente dal software Per il confronto Neri–Ispanici avremo se = 5.67, con IC (−19.8, 8.0). Intervallo molto ampio che contiene lo zero Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 55 / 58 Medie Aggiustate Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello nel quale una di queste categorie è quella di riferimento nella costruzione delle dummy In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94 Si avrà p se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ), dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei parametri, fornita direttamente dal software Per il confronto Neri–Ispanici avremo se = 5.67, con IC (−19.8, 8.0). Intervallo molto ampio che contiene lo zero Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 55 / 58 Medie Aggiustate Qualora si volesse confrontare Neri e Ispanici, si dovrebbe stimare un modello nel quale una di queste categorie è quella di riferimento nella costruzione delle dummy In alternativa si può calcolare lo se(b1 − b2 ) per poter costruire un intervallo per la stima della differenza b1 − b2 = (−10.87 − (−4.93)) = −5.94 Si avrà p se = (se1 )2 + (se2 )2 − 2Cov(b1 , b2 ), dove Cov(b1 , b2 ) proviene dalla matrice di covarianze delle stime dei parametri, fornita direttamente dal software Per il confronto Neri–Ispanici avremo se = 5.67, con IC (−19.8, 8.0). Intervallo molto ampio che contiene lo zero Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 55 / 58 Medie Aggiustate In sinstesi abbiamo la Tabella Tabella: Confronti Multipli di Bonferroni sulle Differenze delle Medie Aggiustate del Reddito per Gruppo Etnico, Controllando per l’Istruzione Gruppo Etnico Neri, Bianchi Ispanici, Bianchi Neri, Ispanici Differenze Stimate nelle Medie Aggiustate y ′1 − y ′3 = −10.9 y ′2 − y ′3 = −4.9 y ′1 − y ′2 = −5.9 Int. di Confidenza 95% Bonferroni (−21.8, 0.1) (−16.6, 6.7) (−19.8, 8.0) Si osserva come, data la ridotta ampiezza campionaria, gli intervalli delle medie aggiustate sono molto ampi Nessun intervallo evidenzia una differenza significativa. Solo il confronto Neri-Bianchi appare modestamente rilevante Infatti il test F aveva un P − valore = 0.053 Infine, poichè le medie aggiustate sono state calcolate sul modello senza interazioni, ne consegue che per Ispanici e Bianchi le rette di regressione coincidono, mentre per i Neri sarà parallela ma con intercetta diversa Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 56 / 58 Medie Aggiustate In sinstesi abbiamo la Tabella Tabella: Confronti Multipli di Bonferroni sulle Differenze delle Medie Aggiustate del Reddito per Gruppo Etnico, Controllando per l’Istruzione Gruppo Etnico Neri, Bianchi Ispanici, Bianchi Neri, Ispanici Differenze Stimate nelle Medie Aggiustate y ′1 − y ′3 = −10.9 y ′2 − y ′3 = −4.9 y ′1 − y ′2 = −5.9 Int. di Confidenza 95% Bonferroni (−21.8, 0.1) (−16.6, 6.7) (−19.8, 8.0) Si osserva come, data la ridotta ampiezza campionaria, gli intervalli delle medie aggiustate sono molto ampi Nessun intervallo evidenzia una differenza significativa. Solo il confronto Neri-Bianchi appare modestamente rilevante Infatti il test F aveva un P − valore = 0.053 Infine, poichè le medie aggiustate sono state calcolate sul modello senza interazioni, ne consegue che per Ispanici e Bianchi le rette di regressione coincidono, mentre per i Neri sarà parallela ma con intercetta diversa Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 56 / 58 Medie Aggiustate In sinstesi abbiamo la Tabella Tabella: Confronti Multipli di Bonferroni sulle Differenze delle Medie Aggiustate del Reddito per Gruppo Etnico, Controllando per l’Istruzione Gruppo Etnico Neri, Bianchi Ispanici, Bianchi Neri, Ispanici Differenze Stimate nelle Medie Aggiustate y ′1 − y ′3 = −10.9 y ′2 − y ′3 = −4.9 y ′1 − y ′2 = −5.9 Int. di Confidenza 95% Bonferroni (−21.8, 0.1) (−16.6, 6.7) (−19.8, 8.0) Si osserva come, data la ridotta ampiezza campionaria, gli intervalli delle medie aggiustate sono molto ampi Nessun intervallo evidenzia una differenza significativa. Solo il confronto Neri-Bianchi appare modestamente rilevante Infatti il test F aveva un P − valore = 0.053 Infine, poichè le medie aggiustate sono state calcolate sul modello senza interazioni, ne consegue che per Ispanici e Bianchi le rette di regressione coincidono, mentre per i Neri sarà parallela ma con intercetta diversa Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 56 / 58 Medie Aggiustate In sinstesi abbiamo la Tabella Tabella: Confronti Multipli di Bonferroni sulle Differenze delle Medie Aggiustate del Reddito per Gruppo Etnico, Controllando per l’Istruzione Gruppo Etnico Neri, Bianchi Ispanici, Bianchi Neri, Ispanici Differenze Stimate nelle Medie Aggiustate y ′1 − y ′3 = −10.9 y ′2 − y ′3 = −4.9 y ′1 − y ′2 = −5.9 Int. di Confidenza 95% Bonferroni (−21.8, 0.1) (−16.6, 6.7) (−19.8, 8.0) Si osserva come, data la ridotta ampiezza campionaria, gli intervalli delle medie aggiustate sono molto ampi Nessun intervallo evidenzia una differenza significativa. Solo il confronto Neri-Bianchi appare modestamente rilevante Infatti il test F aveva un P − valore = 0.053 Infine, poichè le medie aggiustate sono state calcolate sul modello senza interazioni, ne consegue che per Ispanici e Bianchi le rette di regressione coincidono, mentre per i Neri sarà parallela ma con intercetta diversa Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 56 / 58 Medie Aggiustate In sinstesi abbiamo la Tabella Tabella: Confronti Multipli di Bonferroni sulle Differenze delle Medie Aggiustate del Reddito per Gruppo Etnico, Controllando per l’Istruzione Gruppo Etnico Neri, Bianchi Ispanici, Bianchi Neri, Ispanici Differenze Stimate nelle Medie Aggiustate y ′1 − y ′3 = −10.9 y ′2 − y ′3 = −4.9 y ′1 − y ′2 = −5.9 Int. di Confidenza 95% Bonferroni (−21.8, 0.1) (−16.6, 6.7) (−19.8, 8.0) Si osserva come, data la ridotta ampiezza campionaria, gli intervalli delle medie aggiustate sono molto ampi Nessun intervallo evidenzia una differenza significativa. Solo il confronto Neri-Bianchi appare modestamente rilevante Infatti il test F aveva un P − valore = 0.053 Infine, poichè le medie aggiustate sono state calcolate sul modello senza interazioni, ne consegue che per Ispanici e Bianchi le rette di regressione coincidono, mentre per i Neri sarà parallela ma con intercetta diversa Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 56 / 58 Medie Aggiustate Precauzioni nell’Uso dell’Aggiustamento Quando i gruppi da confrontare presentano medie x̄i della covariata molto diverse tra loro, l’utilizzo delle medie aggiustate può portare a risultati furovianti Ovviamente un’ipotesi fondamentale è che in ogni gruppo la relazione di X su Y sia lineare In caso di aggiustamento si simula che ogni gruppo abbia la stessa x̄ Nell’esempio sulla relazione del sesso e dell’esperienza sul reddito, abbiamo visto come Me F abbiano redditi medi molto diversi Tuttavia l’esperienza lavorativa influiva sul reddito allo stesso modo nei due gruppi (M e F) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 57 / 58 Medie Aggiustate Precauzioni nell’Uso dell’Aggiustamento Quando i gruppi da confrontare presentano medie x̄i della covariata molto diverse tra loro, l’utilizzo delle medie aggiustate può portare a risultati furovianti Ovviamente un’ipotesi fondamentale è che in ogni gruppo la relazione di X su Y sia lineare In caso di aggiustamento si simula che ogni gruppo abbia la stessa x̄ Nell’esempio sulla relazione del sesso e dell’esperienza sul reddito, abbiamo visto come Me F abbiano redditi medi molto diversi Tuttavia l’esperienza lavorativa influiva sul reddito allo stesso modo nei due gruppi (M e F) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 57 / 58 Medie Aggiustate Precauzioni nell’Uso dell’Aggiustamento Quando i gruppi da confrontare presentano medie x̄i della covariata molto diverse tra loro, l’utilizzo delle medie aggiustate può portare a risultati furovianti Ovviamente un’ipotesi fondamentale è che in ogni gruppo la relazione di X su Y sia lineare In caso di aggiustamento si simula che ogni gruppo abbia la stessa x̄ Nell’esempio sulla relazione del sesso e dell’esperienza sul reddito, abbiamo visto come Me F abbiano redditi medi molto diversi Tuttavia l’esperienza lavorativa influiva sul reddito allo stesso modo nei due gruppi (M e F) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 57 / 58 Medie Aggiustate Precauzioni nell’Uso dell’Aggiustamento Quando i gruppi da confrontare presentano medie x̄i della covariata molto diverse tra loro, l’utilizzo delle medie aggiustate può portare a risultati furovianti Ovviamente un’ipotesi fondamentale è che in ogni gruppo la relazione di X su Y sia lineare In caso di aggiustamento si simula che ogni gruppo abbia la stessa x̄ Nell’esempio sulla relazione del sesso e dell’esperienza sul reddito, abbiamo visto come Me F abbiano redditi medi molto diversi Tuttavia l’esperienza lavorativa influiva sul reddito allo stesso modo nei due gruppi (M e F) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 57 / 58 Medie Aggiustate Precauzioni nell’Uso dell’Aggiustamento Quando i gruppi da confrontare presentano medie x̄i della covariata molto diverse tra loro, l’utilizzo delle medie aggiustate può portare a risultati furovianti Ovviamente un’ipotesi fondamentale è che in ogni gruppo la relazione di X su Y sia lineare In caso di aggiustamento si simula che ogni gruppo abbia la stessa x̄ Nell’esempio sulla relazione del sesso e dell’esperienza sul reddito, abbiamo visto come Me F abbiano redditi medi molto diversi Tuttavia l’esperienza lavorativa influiva sul reddito allo stesso modo nei due gruppi (M e F) Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 57 / 58 Medie Aggiustate Precauzioni nell’Uso dell’Aggiustamento In realtà le medie della variabile esperienza X sono molto diverse (+M -F) In questa situazione il confronto tra le medie aggiustate può portare a risultati non corretti Income True regression curve for men for small x True regression curve for women for large x Men Women Experience Infatti nei due gruppi le rette tratteggiate sono diverse e parallele (redditi medi diversi per lo stesso valore di x La linea continua rappresenta il confornto nel caso di medie aggiustate Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 58 / 58 Medie Aggiustate Precauzioni nell’Uso dell’Aggiustamento In realtà le medie della variabile esperienza X sono molto diverse (+M -F) In questa situazione il confronto tra le medie aggiustate può portare a risultati non corretti Income True regression curve for men for small x True regression curve for women for large x Men Women Experience Infatti nei due gruppi le rette tratteggiate sono diverse e parallele (redditi medi diversi per lo stesso valore di x La linea continua rappresenta il confornto nel caso di medie aggiustate Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 58 / 58 Medie Aggiustate Precauzioni nell’Uso dell’Aggiustamento In realtà le medie della variabile esperienza X sono molto diverse (+M -F) In questa situazione il confronto tra le medie aggiustate può portare a risultati non corretti Income True regression curve for men for small x True regression curve for women for large x Men Women Experience Infatti nei due gruppi le rette tratteggiate sono diverse e parallele (redditi medi diversi per lo stesso valore di x La linea continua rappresenta il confornto nel caso di medie aggiustate Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 58 / 58 Medie Aggiustate Precauzioni nell’Uso dell’Aggiustamento In realtà le medie della variabile esperienza X sono molto diverse (+M -F) In questa situazione il confronto tra le medie aggiustate può portare a risultati non corretti Income True regression curve for men for small x True regression curve for women for large x Men Women Experience Infatti nei due gruppi le rette tratteggiate sono diverse e parallele (redditi medi diversi per lo stesso valore di x La linea continua rappresenta il confornto nel caso di medie aggiustate Nicola Tedesco (Statistica Sociale) Combinare Regressione e ANOVA: predittori quantitativi e categoriali 58 / 58