Approfondimenti sulle relazioni fra variabili statistiche

Capitolo 12
Suggerimenti agli esercizi a cura di Elena Siletti
Esercizio 12.1: Suggerimento
Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo caso è bene osservare la tabella a doppia
entrata per vedere se ci si ritrova in un caso particolare.
Per calcolare il χ2 è possibile utilizzare la seguente formula:


k X
h
2
X
f
ij
− 1
χ2 = N 
f
·
f.j
i.
i=1 j=1
Senza effettuare calcoli, ma in base ai risultati ottenuti precedentemente, è facile
chiarire se la varianza FRA è nulla oppure è uguale alla varianza marginale di Y .
Esercizio 12.2: Suggerimento
Osservando la tabella a doppia entrata è possibile stabilire se i due fenomeni
sono statisticamente indipendenti. Dire che due fenomeni sono statisticamente indipendenti significa che non esiste una relazione generica (connessione) tra loro. Per
verificare se le due variabili sono statisticamente indipendenti è necessario valutare
le distribuzioni condizionate. È utile ricordare che l’indipendenza statistica implica
l’indipendenza in media,ma non è vero il contrario.
Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse
tra loro al variare della modalità di X, mentre si dice che X dipende in media da
Y se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità
di Y . Le dipendenze in medie si quantificano rispettivamente utilizzando le seguenti
formule:
k
P
2
1
(ȳ|xi − ȳ) fi·
2
N
σ
i=1
=
ηY2 = F RA
h
P
σY2
1
yj2 f.j − ȳ 2
N
j=1
Fulvia
Mecatti,Statistica
Statistica di
quando,
2e. © 2015,
ISBN 9788838668852
c 2010
F. Mecatti,
dibase.
base Come,
The perché,
McGraw-Hill
Companies,
srl
1
2
Capitolo 12 - Suggerimenti agli esercizi
2
ηX
=
σF2 RA
2
σX
1
N
=
h
P
2
(x̄|yj − x̄) f.j
j=1
1
N
k
P
i=1
x2i fi. − x̄2
Il diagramma a dispersione o scatter plot è uno strumento grafico utile per visualizzare il tipo di relazione esistente tra due variabili. È un diagramma cartesiano con
gli assi intestati alle modalità dei due fenomeni, ad esempio X sulle ascisse ed Y
sulle ordinate. Le coppie di valori osservati sono viste come coordinate di punti sul
diagramma. La tabella osservata è rappresentata sullo scatter plot come una nuvola
di punti.
Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare
rho:
σXY
ρXY = p 2 2
σX σY
In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità
della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e
negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati,
i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando
è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di
correlazione.
Esercizio 12.3: Suggerimento
Per risolvere l’esercizio è utile ricordare cosa rappresentano e quantificano gli
indici utilizzati.
La connessione si misura mediante l’indice chi quadro:

k X
h
X
χ2 = N 
i=1 j=1

2
fij
− 1
fi. · f.j
ma il valore assoluto di questo indice non consente una valutazione dell’entità della
connessione in quanto cresce al crescere della numerosità N , un indice normalizzato
si ottiene dividendo il chi quadro con il suo massimo, ottenendo:
χ2
N · min {k − 1, h − 1}
Fulvia Mecatti,F.
Statistica
di base.
Come,diquando,
© 2015,
ISBN 9788838668852
cperché,
Mecatti,
Statistica
base 20102e.
The
McGraw-Hill
Companies, srl
Capitolo 12 - Suggerimenti agli esercizi
3
che varia tra 0, indipendenza statistica, ed 1 massima connessione. La dipendenza in
media si misura mediante l’indice di dipendenza eta quadro:
ηY2 =
σF2 RA
σY2
1
N
=
k
P
i=1
h
P
1
N
2
(ȳ|xi − ȳ) fi·
j=1
yj2 f.j − ȳ 2
che varia tra 0, indipendenza in media, ed 1 massima dipendenza.
Per la varianza marginale vale la proprietà della scomposizione, ovvero:
2
2
σY2 = σN
EI + σF RA =
k
k
1 X 2
1 X
2
σY |xi · fi· +
(ȳ|xi − ȳ) fi·
N i=1
N i=1
Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare
rho:
σXY
ρXY = p 2 2
σX σY
In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità
della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e
negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati,
i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando
è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di
correlazione.
Esercizio 12.4: Suggerimento
Dire che due fenomeni sono statisticamente indipendenti significa che non esiste
una relazione generica (connessione) tra loro. Se due variabili sono statisticamente
indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva
distribuzione marginale. È utile ricordare che l’indipendenza statistica implica l’indipendenza in media,ma non è vero il contrario.
Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse
tra loro al variare della modalità di X, mentre si dice che X dipende in media da Y
se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità di Y .
Esercizio 12.5: Suggerimento
Dire che due fenomeni sono statisticamente indipendenti significa che non esiste
una relazione generica (connessione) tra loro. Se due variabili sono statisticamente
indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva distribuzione marginale. Si ha la massima connessione quando esiste un legame
Fulvia Mecatti,F.
Statistica
di base.
Come,diquando,
© 2015,
ISBN 9788838668852
cperché,
Mecatti,
Statistica
base 20102e.
The
McGraw-Hill
Companies, srl
4
Capitolo 12 - Suggerimenti agli esercizi
perfetto tra le due variabili considerate, si ricorda che tale condizione può essere biunivoca e univoca a seconda del numero di righe e di colonne della distribuzione.
Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse
tra loro al variare della modalità di X, mentre si dice che X dipende in media da Y
se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità di Y .
Esercizio 12.6: Suggerimento
Dire che due fenomeni sono statisticamente indipendenti significa che non esiste
una relazione generica (connessione) tra loro. Se due variabili sono statisticamente
indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva distribuzione marginale. Si ha la massima connessione quando esiste un legame
perfetto tra le due variabili considerate, si ricorda che tale condizione può essere biunivoca e univoca a seconda del numero di righe e di colonne della distribuzione.
La connessione si misura mediante l’indice chi quadro:


k X
h
2
X
f
ij
− 1
χ2 = N 
f
·
f
i.
.j
i=1 j=1
ma il valore assoluto di questo indice non consente una valutazione dell’entità della
connessione in quanto cresce al crescere della numerosità N , un indice normalizzato
si ottiene dividendo il chi quadro con il suo massimo, ottenendo:
χ2
N · min {k − 1, h − 1}
Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse
tra loro al variare della modalità di X, mentre si dice che X dipende in media da
Y se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità
di Y . Le dipendenze in media si quantificano rispettivamente utilizzando le seguenti
formule:
k
P
2
1
(ȳ|xi − ȳ) fi·
2
N
σ
i=1
ηY2 = F RA
=
h
P
σY2
1
yj2 f.j − ȳ 2
N
j=1
2
ηX
σ2
= F 2RA =
σX
1
N
h
P
2
(x̄|yj − x̄) f.j
j=1
1
N
k
P
i=1
x2i fi. − x̄2
l’indice di dipendenza in media η 2 varia tra 0, indipendenza in media, ed 1 dipendenza perfetta.
Fulvia Mecatti,F.Statistica
di base.
Come,diquando,
© 2015,
ISBN 9788838668852
cperché,
Mecatti,
Statistica
base 2010 2e.
The
McGraw-Hill
Companies, srl
Capitolo 12 - Suggerimenti agli esercizi
5
Il diagramma a dispersione o scatter plot è uno strumento grafico utile per visualizzare il tipo di relazione esistente tra due variabili. È un diagramma cartesiano con
gli assi intestati alle modalità dei due fenomeni, ad esempio X sulle ascisse ed Y
sulle ordinate. Le coppie di valori osservati sono viste come coordinate di punti sul
diagramma. La tabella osservata è rappresentata sullo scatter plot come una nuvola
di punti.
Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare
rho:
σXY
ρXY = p 2 2
σX σY
In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità
della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e
negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati,
i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando
è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di
correlazione.
Esercizio 12.7: Suggerimento
Dire che due fenomeni sono statisticamente indipendenti significa che non esiste
una relazione generica (connessione) tra loro. Se due variabili sono statisticamente
indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva distribuzione marginale. Si ha la massima connessione quando esiste un legame
perfetto tra le due variabili considerate, si ricorda che tale condizione può essere biunivoca e univoca a seconda del numero di righe e di colonne della distribuzione.
La connessione si misura mediante l’indice chi quadro:


k X
h
2
X
f
ij
χ2 = N 
− 1
f
·
f
i.
.j
i=1 j=1
ma il valore assoluto di questo indice non consente una valutazione dell’entità della
connessione in quanto cresce al crescere della numerosità N , un indice normalizzato
si ottiene dividendo il chi quadro con il suo massimo, ottenendo:
χ2
N · min {k − 1, h − 1}
Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse
tra loro al variare della modalità di X, mentre si dice che X dipende in media da
Y se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità
di Y . Le dipendenze in media si quantificano rispettivamente utilizzando le seguenti
Fulvia Mecatti,
base. Come,
2015, ISBN 9788838668852
c perché,
F.Statistica
Mecatti,diStatistica
diquando,
base 2010 2e.
The© McGraw-Hill
Companies, srl
6
Capitolo 12 - Suggerimenti agli esercizi
formule:
ηY2
2
ηX
=
σF2 RA
σY2
1
N
=
σ2
= F 2RA =
σX
1
N
k
P
2
(ȳ|xi − ȳ) fi·
i=1
h
P
1
yj2 f.j − ȳ 2
N
j=1
h
P
2
(x̄|yj − x̄) f.j
j=1
1
N
k
P
i=1
x2i fi. − x̄2
l’indice di dipendenza in media η 2 varia tra 0, indipendenza in media, ed 1 dipendenza perfetta.
Il diagramma a dispersione o scatter plot è uno strumento grafico utile per visualizzare il tipo di relazione esistente tra due variabili. È un diagramma cartesiano con
gli assi intestati alle modalità dei due fenomeni, ad esempio X sulle ascisse ed Y
sulle ordinate. Le coppie di valori osservati sono viste come coordinate di punti sul
diagramma. La tabella osservata è rappresentata sullo scatter plot come una nuvola
di punti.
Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare
rho:
σXY
ρXY = p 2 2
σX σY
In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità
della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e
negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati,
i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando
è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di
correlazione.
Esercizio 12.8: Suggerimento
Per risolvere l’esercizio è utile ricordare cosa rappresentano e quantificano gli
indici utilizzati.
La connessione si misura mediante l’indice chi quadro:


k X
h
2
X
f
ij
χ2 = N 
− 1
f
·
f
i.
.j
i=1 j=1
ma il valore assoluto di questo indice non consente una valutazione dell’entità della
connessione in quanto cresce al crescere della numerosità N , un indice normalizzato
Fulvia Mecatti,F.
Statistica
di base.
Come,di
quando,
© 2015,
ISBN 9788838668852
cperché,
Mecatti,
Statistica
base 20102e.
The
McGraw-Hill
Companies, srl
Capitolo 12 - Suggerimenti agli esercizi
7
si ottiene dividendo il chi quadro con il suo massimo, ottenendo:
χ2
N · min {k − 1, h − 1}
che varia tra 0, indipendenza statistica, ed 1 massima connessione. La dipendenza in
media si misura mediante l’indice di dipendenza eta quadro:
ηY2 =
σF2 RA
σY2
1
N
=
k
P
2
(ȳ|xi − ȳ) fi·
i=1
h
P
1
yj2 f.j
N
j=1
− ȳ 2
che varia tra o, indipendenza in media, ed 1 massima dipendenza.
Per la varianza marginale vale la proprietà della scomposizione, ovvero:
2
2
σY2 = σN
EI + σF RA =
k
k
1 X
1 X 2
2
σY |xi · fi· +
(ȳ|xi − ȳ) fi·
N i=1
N i=1
Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare
rho:
σXY
ρXY = p 2 2
σX σY
In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità
della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e
negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati,
i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando
è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di
correlazione.
Fulvia Mecatti,
base. Come,
quando,
2e. ©McGraw-Hill
2015, ISBN 9788838668852
c perché,
F. Statistica
Mecatti, di
Statistica
di base
2010 The
Companies, srl