Analisi della relazione fra due variabili quantitative

Università degli Studi di Milano Bicocca – Facoltà di Sociologia
Analisi dei dati – 2009/2010
Analisi della relazione fra due variabili quantitative
Esercizi svolti
ESERCIZIO 1
Il seguente grafico rappresenta un diagramma di dispersione che illustra la relazione fra la
percentuale di popolazione afro-americana (assunta come variabile indipendente) e la percentuale
di famiglie povere (assunta come variabile dipendente) osservata negli anni ottanta in 146 città
medio-grandi degli Stati Uniti. Il grafico riporta anche: (a) la retta di regressione che approssima la
relazione lineare fra le due variabili considerate; e (b) il corrispondente errore standard della
regressione (riquadro in alto a sinistra).
30
% famiglie povere
σ(ε) =3,2
20
10
0
0
20
40
% afro-americani
60
80
Utilizzando le informazioni contenute in questo grafico:
(a) calcola i parametri α e β che definiscono la retta di regressione e, sulla base di questi valori,
descrivi la forma e l’intensità della relazione osservata;
(b) indica se l’approssimazione della relazione mediante la retta di regressione lineare è
soddisfacente;
(c) formula un’ipotesi plausibile sui meccanismi che potrebbero avere prodotto la relazione
osservata.
Università degli Studi di Milano Bicocca – Facoltà di Sociologia
Analisi dei dati – 2009/2010
SVOLGIMENTO DELL’ESERCIZIO 1
(a) Aiutandoci con un righello, possiamo innanzitutto vedere che quando il valore della variabile
indipendente (asse orizzontale) è uguale a 0, il valore della variabile dipendente (asse verticale) è
circa uguale a 6,8. Pertanto, possiamo concludere che l’intercetta della retta di regressione è
approssimativamente uguale a 6,8; formalmente:
.
In secondo luogo, sempre aiutandoci con un righello possiamo vedere che quando il valore della
variabile indipendente passa da 20 a 40 (cioè aumenta di 20 unità), il valore della variabile
dipendente passa – all’incirca – da 12 a 16,5 (+4,5 unità). Ciò significa che per ogni incremento
unitario di X, il valore di y aumenta di circa (16,5-12)/(40-20)=4,5/20=0,23 unità. Pertanto,
possiamo concludere che l’inclinazione della retta di regressione è approssimativamente uguale a
0,23; formalmente:
. Questo valore ci dice che fra le due variabili prese in esame esiste una
relazione positiva, cioè all’aumentare dell’una tende ad aumentare anche l’altra. Più precisamente,
per ogni punto percentuale di famiglie afro-americane in più, la quota delle famiglie povere
aumenta di 0,23 punti percentuali.
Se calcoliamo il reciproco del parametro β, possiamo constatare che per avere un aumento di un
punto percentuale della quota di famiglie povere è sufficiente un aumento di 1/β=1/0,23=4,3 punti
percentuali della quota di famiglie afro-americane. Dunque, è legittimo concludere che l’intensità
della relazione fra le due variabili prese in esame è relativamente alta.
(b) L’approssimazione della relazione osservata fra X e y mediante la retta di regressione lineare
può essere valutata sulla base di tre criteri:
1. Valore assunto dall’errore standard della regressione: nel nostro caso questo valore
risulta uguale a 3,2. Poiché 3,2 corrisponde all’incirca a un settimo del campo di
variazione di y, possiamo concludere che – complessivamente – la capacità predittiva
della nostro modello di regressione lineare è apprezzabile ma non molto elevata.
2. Disposizione dei punti intorno alla retta: quando una relazione bivariata è lineare, per
tutto il campo di variazione di X il numero di punti sotto la retta di regressione tende a
essere uguale al numero di punti sopra la retta. Nel nostro caso le cose non stanno
esattamente così: per valori bassi di X ci sono più casi sotto la retta di regressione che
sopra di essa, mentre per valori intermedi di X ci sono un po’ più casi sopra la retta che
sotto di essa. Dunque, per approssimare in modo più soddisfacente la relazione osservata
fra X e y dovremmo disegnare una curva la cui inclinazione all’inizio è relativamente alta
ma poi tende a diminuire.
3. Presenza di casi influenti: il grafico mostra che esistono almeno due casi influenti. Il
primo tende ad attirare la retta di regressione verso l’alto, mentre il secondo tende ad
attirare la retta verso il basso. Complessivamente, dunque, l’influenza di questi due casi
dovrebbe annullarsi e non incidere in modo sostanziale sull’inclinazione della retta.
(c) Inserire interpretazione.
Università degli Studi di Milano Bicocca – Facoltà di Sociologia
datiBicocca
– 2007/2008
Università degli Analisi
Studi di dei
Milano
– Facoltà di Sociologia
Analisi dei dati – 2009/2010
ESERCIZIO 2
ESERCIZIO 2
Il seguente grafico rappresenta un diagramma di dispersione che illustra la relazione fra il valore
Il seguente grafico rappresenta un diagramma di dispersione che illustra la relazione fra il valore
aggiunto al costo dei fattori per abitante in milioni di lire (assunto come variabile indipendente) e il
aggiunto al costo dei fattori per abitante in milioni di lire (assunto come variabile indipendente) e il
numero
di divorzi
perper
100.000
comevariabile
variabiledipendente)
dipendente)
osservata
nel 1996-97
numero
di divorzi
100.000abitanti
abitanti (assunto
(assunto come
osservata
nel 1996-97
in Italia
a
livello
regionale.
Il
grafico
riporta
anche:
(a)
la
retta
di
regressione
che
approssima
in Italia a livello regionale. Il grafico riporta anche: (a) la retta di regressione che approssima la la
relazione
lineare
fra fra
le le
dueduevariabili
(b) ilil corrispondente
corrispondenteerrore
errore
standard
relazione
lineare
variabiliconsiderate;
considerate; e (b)
standard
delladella
regressione
(riquadro
in alto
a sinistra).
regressione
(riquadro
in alto
a sinistra).
Valle d'Aosta
120
Divorzi per 100.000 abitanti (1996)
σ(ε) =16
100
Liguria
Piemonte
80
Lazio
Friuli-V.G.
Emilia-Romagna
Toscana
Trento
Veneto
60
Lombardia
Bolzano
Umbria
40
20
Sicilia Sardegna
Puglia
Campania
Calabria Basilicata
Molise
Abruzzo
Marche
0
20
25
30
35
40
45
Valore aggiunto al costo dei fattori per abitante (1997)
informazioni
contenute
questografico:
grafico:
SullaSulla
basebase
delledelle
informazioni
contenute
ininquesto
(a)
calcola
l’inclinazione
della
retta
di
regressione
β del
(a) calcola l’inclinazione della retta di regressione (cioè
(cioè ilil valore
valoredeldelparametro
parametro
β del
corrispondente modello di regressione lineare semplice) e, sulla base di questo valore, descrivi
corrispondente
modello di regressione lineare semplice) e, sulla base di questo valore, descrivi
la forma e l’intensità della relazione osservata;
la
forma
e l’intensità della relazione osservata;
(b) indica se l’approssimazione della relazione mediante la retta di regressione lineare è
(b) indica
se l’approssimazione della relazione mediante la retta di regressione lineare è
soddisfacente;
soddisfacente;
(c)
formula un’ipotesi plausibile sui meccanismi che potrebbero avere prodotto la relazione
(c) formula
un’ipotesi plausibile sui meccanismi che potrebbero avere prodotto la relazione
osservata.
osservata.
Università degli Studi di Milano Bicocca – Facoltà di Sociologia
Analisi dei dati – 2009/2010
SVOLGIMENTO DELL’ESERCIZIO 2
(a) Aiutandoci con un righello, possiamo vedere che quando il valore della variabile indipendente
(asse orizzontale) passa da 20 a 30 (cioè aumenta di 10 unità), il valore della variabile dipendente
(asse verticale) passa – all’incirca – da 23 a 53 (30 unità). Ciò significa che per ogni incremento
unitario di X, il valore di y aumenta di circa (53-23)/(30-20)=30/10=3 unità. Pertanto, possiamo
concludere che l’inclinazione della retta è approssimativamente uguale a 3; formalmente:
.
Questo valore ci dice che fra le due variabili prese in esame esiste una relazione positiva, cioè
all’aumentare dell’una tende ad aumentare anche l’altra. Più precisamente, per ogni milione
aggiuntivo di valore aggiunto al costo dei fattori per abitante, il numero di divorzi per 100.000
abitanti aumenta di 3 unità.
(b) Un’attenta osservazione della figura mostra che l’approssimazione della relazione osservata fra
X e y mediante la retta di regressione lineare non è pienamente soddisfacente. Il problema non
risiede tanto nella dispersione dei casi intorno alla linea retta che, come testimonia anche l’errore
standard della regressione (
) è relativamente contenuta (in termini sostanziali, equivale a
circa un sesto dell’intera gamma di valori assunti dalla variabile dipendente). Il problema, piuttosto,
risiede nel fatto che la relazione osservata fra X e y non è esattamente lineare, ma tende a essere
leggermente curva verso il basso. Questo difetto di linearità è reso evidente dal fatto che nella prima
metà della “nuvola di punti” ci sono molti più casi sotto la retta di regressione che sopra di essa
(quando una relazione è tendenzialmente lineare, il numero di casi posti sotto la retta di regressione
e il numero di casi posti sopra la retta di regressione tendono a essere molto simili). Dunque, per
approssimare in modo più soddisfacente la relazione osservata fra X e y dovremmo disegnare una
curva la cui inclinazione all’inizio è relativamente bassa e poi, per valori di X maggiori di 25, tende
ad aumentare.
È anche opportuno osservare che la particolare posizione della Valle d’Aosta (in alto a destra) tende
ad “attirare” verso l’alto la retta di regressione, aumentandone l’inclinazione. In altri termini, la
Valle d’Aosta si configura come un possibile caso influente, cioè come un caso la cui presenza
influisce sulla stima dei valori dei parametri α e/o β del modello di regressione lineare semplice.
(c) L’esistenza della relazione bivariata fra “ricchezza” e “tasso di divorzio” discussa sopra può
essere interpretata in termini di effetto del benessere economico sul livello di stabilità della
famiglia. In generale, laddove c’è maggiore benessere economico le donne esibiscono livelli di
istruzione e tassi di partecipazione al mercato del lavoro più elevati rispetto alla media. Il possesso
di un elevato capitale culturale e le maggiori opportunità di lavoro rendono le donne
economicamente, culturalmente e socialmente più indipendenti dai mariti e quindi, a parità di
conflittualità coniugale, facilitano le separazioni e i divorzi. Si può anche pensare che nelle regioni
più ricche gli individui (uomini e donne) tendono a investire una quota relativamente elevata delle
proprie risorse temporali ed emotive nel lavoro, a discapito della cura delle relazioni familiari che,
pertanto, tendono a essere relativamente più deboli.