Capitolo 12 - Ateneonline

Capitolo 12
Suggerimenti agli esercizi a cura di Elena Siletti
Esercizio 12.1: Suggerimento
Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo caso è bene osservare la tabella a doppia
entrata per vedere se ci si ritrova in un caso particolare.
Per calcolare il χ2 è possibile utilizzare la seguente formula:


k X
h
2
X
f
ij
− 1
χ2 = N 
f
·
f.j
i.
i=1 j=1
Senza effettuare calcoli, ma in base ai risultati ottenuti precedentemente, è facile
chiarire se la varianza FRA è nulla oppure è uguale alla varianza marginale di Y .
Esercizio 12.2: Suggerimento
Osservando la tabella a doppia entrata è possibile stabilire se i due fenomeni
sono statisticamente indipendenti. Dire che due fenomeni sono statisticamente indipendenti significa che non esiste una relazione generica (connessione) tra loro. Per
verificare se le due variabili sono statisticamente indipendenti è necessario valutare
le distribuzioni condizionate. È utile ricordare che l’indipendenza statistica implica
l’indipendenza in media,ma non è vero il contrario.
Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse
tra loro al variare della modalità di X, mentre si dice che X dipende in media da
Y se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità
di Y . Le dipendenze in medie si quantificano rispettivamente utilizzando le seguenti
formule:
k
P
2
1
(ȳ|xi − ȳ) fi·
2
N
σ
i=1
=
ηY2 = F RA
h
P
σY2
1
yj2 f.j − ȳ 2
N
j=1
c 2010 The McGraw-Hill Companies, srl
F. Mecatti, Statistica di base 1
2
Capitolo 12 - Suggerimenti agli esercizi
2
ηX
=
σF2 RA
2
σX
1
N
=
h
P
2
(x̄|yj − x̄) f.j
j=1
1
N
k
P
i=1
x2i fi. − x̄2
Il diagramma a dispersione o scatter plot è uno strumento grafico utile per visualizzare il tipo di relazione esistente tra due variabili. È un diagramma cartesiano con
gli assi intestati alle modalità dei due fenomeni, ad esempio X sulle ascisse ed Y
sulle ordinate. Le coppie di valori osservati sono viste come coordinate di punti sul
diagramma. La tabella osservata è rappresentata sullo scatter plot come una nuvola
di punti.
Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare
rho:
σXY
ρXY = p 2 2
σX σY
In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità
della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e
negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati,
i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando
è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di
correlazione.
Esercizio 12.3: Suggerimento
Per risolvere l’esercizio è utile ricordare cosa rappresentano e quantificano gli
indici utilizzati.
La connessione si misura mediante l’indice chi quadro:

k X
h
X
χ2 = N 
i=1 j=1

2
fij
− 1
fi. · f.j
ma il valore assoluto di questo indice non consente una valutazione dell’entità della
connessione in quanto cresce al crescere della numerosità N , un indice normalizzato
si ottiene dividendo il chi quadro con il suo massimo, ottenendo:
χ2
N · min {k − 1, h − 1}
c 2010 The McGraw-Hill Companies, srl
F. Mecatti, Statistica di base Capitolo 12 - Suggerimenti agli esercizi
3
che varia tra 0, indipendenza statistica, ed 1 massima connessione. La dipendenza in
media si misura mediante l’indice di dipendenza eta quadro:
ηY2 =
σF2 RA
σY2
1
N
=
k
P
i=1
h
P
1
N
2
(ȳ|xi − ȳ) fi·
j=1
yj2 f.j − ȳ 2
che varia tra 0, indipendenza in media, ed 1 massima dipendenza.
Per la varianza marginale vale la proprietà della scomposizione, ovvero:
2
2
σY2 = σN
EI + σF RA =
k
k
1 X 2
1 X
2
σY |xi · fi· +
(ȳ|xi − ȳ) fi·
N i=1
N i=1
Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare
rho:
σXY
ρXY = p 2 2
σX σY
In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità
della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e
negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati,
i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando
è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di
correlazione.
Esercizio 12.4: Suggerimento
Dire che due fenomeni sono statisticamente indipendenti significa che non esiste
una relazione generica (connessione) tra loro. Se due variabili sono statisticamente
indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva
distribuzione marginale. È utile ricordare che l’indipendenza statistica implica l’indipendenza in media,ma non è vero il contrario.
Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse
tra loro al variare della modalità di X, mentre si dice che X dipende in media da Y
se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità di Y .
Esercizio 12.5: Suggerimento
Dire che due fenomeni sono statisticamente indipendenti significa che non esiste
una relazione generica (connessione) tra loro. Se due variabili sono statisticamente
indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva distribuzione marginale. Si ha la massima connessione quando esiste un legame
c 2010 The McGraw-Hill Companies, srl
F. Mecatti, Statistica di base 4
Capitolo 12 - Suggerimenti agli esercizi
perfetto tra le due variabili considerate, si ricorda che tale condizione può essere biunivoca e univoca a seconda del numero di righe e di colonne della distribuzione.
Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse
tra loro al variare della modalità di X, mentre si dice che X dipende in media da Y
se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità di Y .
Esercizio 12.6: Suggerimento
Dire che due fenomeni sono statisticamente indipendenti significa che non esiste
una relazione generica (connessione) tra loro. Se due variabili sono statisticamente
indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva distribuzione marginale. Si ha la massima connessione quando esiste un legame
perfetto tra le due variabili considerate, si ricorda che tale condizione può essere biunivoca e univoca a seconda del numero di righe e di colonne della distribuzione.
La connessione si misura mediante l’indice chi quadro:


k X
h
2
X
f
ij
− 1
χ2 = N 
f
·
f
i.
.j
i=1 j=1
ma il valore assoluto di questo indice non consente una valutazione dell’entità della
connessione in quanto cresce al crescere della numerosità N , un indice normalizzato
si ottiene dividendo il chi quadro con il suo massimo, ottenendo:
χ2
N · min {k − 1, h − 1}
Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse
tra loro al variare della modalità di X, mentre si dice che X dipende in media da
Y se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità
di Y . Le dipendenze in media si quantificano rispettivamente utilizzando le seguenti
formule:
k
P
2
1
(ȳ|xi − ȳ) fi·
2
N
σ
i=1
ηY2 = F RA
=
h
P
σY2
1
yj2 f.j − ȳ 2
N
j=1
2
ηX
σ2
= F 2RA =
σX
1
N
h
P
2
(x̄|yj − x̄) f.j
j=1
1
N
k
P
i=1
x2i fi. − x̄2
l’indice di dipendenza in media η 2 varia tra 0, indipendenza in media, ed 1 dipendenza perfetta.
c 2010 The McGraw-Hill Companies, srl
F. Mecatti, Statistica di base Capitolo 12 - Suggerimenti agli esercizi
5
Il diagramma a dispersione o scatter plot è uno strumento grafico utile per visualizzare il tipo di relazione esistente tra due variabili. È un diagramma cartesiano con
gli assi intestati alle modalità dei due fenomeni, ad esempio X sulle ascisse ed Y
sulle ordinate. Le coppie di valori osservati sono viste come coordinate di punti sul
diagramma. La tabella osservata è rappresentata sullo scatter plot come una nuvola
di punti.
Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare
rho:
σXY
ρXY = p 2 2
σX σY
In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità
della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e
negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati,
i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando
è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di
correlazione.
Esercizio 12.7: Suggerimento
Dire che due fenomeni sono statisticamente indipendenti significa che non esiste
una relazione generica (connessione) tra loro. Se due variabili sono statisticamente
indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva distribuzione marginale. Si ha la massima connessione quando esiste un legame
perfetto tra le due variabili considerate, si ricorda che tale condizione può essere biunivoca e univoca a seconda del numero di righe e di colonne della distribuzione.
La connessione si misura mediante l’indice chi quadro:


k X
h
2
X
f
ij
χ2 = N 
− 1
f
·
f
i.
.j
i=1 j=1
ma il valore assoluto di questo indice non consente una valutazione dell’entità della
connessione in quanto cresce al crescere della numerosità N , un indice normalizzato
si ottiene dividendo il chi quadro con il suo massimo, ottenendo:
χ2
N · min {k − 1, h − 1}
Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse
tra loro al variare della modalità di X, mentre si dice che X dipende in media da
Y se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità
di Y . Le dipendenze in media si quantificano rispettivamente utilizzando le seguenti
c 2010 The McGraw-Hill Companies, srl
F. Mecatti, Statistica di base 6
Capitolo 12 - Suggerimenti agli esercizi
formule:
ηY2
2
ηX
=
σF2 RA
σY2
1
N
=
σ2
= F 2RA =
σX
1
N
k
P
2
(ȳ|xi − ȳ) fi·
i=1
h
P
1
yj2 f.j − ȳ 2
N
j=1
h
P
2
(x̄|yj − x̄) f.j
j=1
1
N
k
P
i=1
x2i fi. − x̄2
l’indice di dipendenza in media η 2 varia tra 0, indipendenza in media, ed 1 dipendenza perfetta.
Il diagramma a dispersione o scatter plot è uno strumento grafico utile per visualizzare il tipo di relazione esistente tra due variabili. È un diagramma cartesiano con
gli assi intestati alle modalità dei due fenomeni, ad esempio X sulle ascisse ed Y
sulle ordinate. Le coppie di valori osservati sono viste come coordinate di punti sul
diagramma. La tabella osservata è rappresentata sullo scatter plot come una nuvola
di punti.
Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare
rho:
σXY
ρXY = p 2 2
σX σY
In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità
della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e
negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati,
i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando
è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di
correlazione.
Esercizio 12.8: Suggerimento
Per risolvere l’esercizio è utile ricordare cosa rappresentano e quantificano gli
indici utilizzati.
La connessione si misura mediante l’indice chi quadro:


k X
h
2
X
f
ij
χ2 = N 
− 1
f
·
f
i.
.j
i=1 j=1
ma il valore assoluto di questo indice non consente una valutazione dell’entità della
connessione in quanto cresce al crescere della numerosità N , un indice normalizzato
c 2010 The McGraw-Hill Companies, srl
F. Mecatti, Statistica di base Capitolo 12 - Suggerimenti agli esercizi
7
si ottiene dividendo il chi quadro con il suo massimo, ottenendo:
χ2
N · min {k − 1, h − 1}
che varia tra 0, indipendenza statistica, ed 1 massima connessione. La dipendenza in
media si misura mediante l’indice di dipendenza eta quadro:
ηY2 =
σF2 RA
σY2
1
N
=
k
P
2
(ȳ|xi − ȳ) fi·
i=1
h
P
1
yj2 f.j
N
j=1
− ȳ 2
che varia tra o, indipendenza in media, ed 1 massima dipendenza.
Per la varianza marginale vale la proprietà della scomposizione, ovvero:
2
2
σY2 = σN
EI + σF RA =
k
k
1 X
1 X 2
2
σY |xi · fi· +
(ȳ|xi − ȳ) fi·
N i=1
N i=1
Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare
rho:
σXY
ρXY = p 2 2
σX σY
In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità
della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e
negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati,
i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando
è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di
correlazione.
c 2010 The McGraw-Hill Companies, srl
F. Mecatti, Statistica di base