Statistica e informatica
Statistica descrittiva:variabili doppie
Francesco Pauli & Nicola Torelli
A.A. 2016/2017
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Solo una variabile...
Finora abbiamo trattato di come
I rappresentare graficamente,
I sintetizzare numericamente (con medie, mediane, varianze, eccetera),
singole variabili, in modo da descrivere l’insieme delle unità statistiche
rispetto a quel particolare carattere.
Altezze degli studenti
0
0.00
20
0.01
40
0.02
60
0.03
80
Libri letti dagli studenti
150
160
170
180
190
Altezza media=169
Altezza mediana=168
SD altezza=7.69
Francesco Pauli & Nicola Torelli
200
0
1
2
3
4
5
6
7
8
9 10
12
16
25
# libri medio=2.85
# libri mediano=2
SD # libri=4.2
Statistica descrittiva:variabili doppie
2 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
... o quasi
A ben vedere, in molti casi abbiamo guardato congiuntamente a due
variabili.
0.00
0.03
Altezze degli studenti maschi
Altezza media e mediana
160
170
180
190
I
maschi: 181.2; 181;
I
femmine: 166.8; 167
0.00
0.03
0.06
Altezze degli studenti femmine
160
170
180
Francesco Pauli & Nicola Torelli
190
Statistica descrittiva:variabili doppie
3 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
... o quasi
A ben vedere, in molti casi abbiamo guardato congiuntamente a due
variabili.
# libri
0.15
0.20
Femmina
Maschio
I
maschi: 2.3; 2;
I
femmine: 2.8; 2
0.00
0.05
0.10
# Libri medio e mediano
0
2
4
6
8
10
Francesco Pauli & Nicola Torelli
12
16
25
Statistica descrittiva:variabili doppie
3 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
... o quasi
A ben vedere, in molti casi abbiamo guardato congiuntamente a due
variabili.
•
In particolare, ogniqualvolta abbiamo confrontato le distribuzioni di Y
condizionate a diversi valori assunti da una seconda variabile X (di per sé,
come abbiamo visto, usando gli stessi strumenti che usiamo per la
distribuzione marginale di Y ).
•
Si ha una distribuzione doppia quando si esaminano congiuntamente due
caratteri nelle unità statistiche del collettivo.
•
Come nel caso di distribuzioni relative ad un singolo carattere, si parlerà di
distribuzioni doppie disaggregate quando si elencano le N coppie di
modalità e di distribuzioni doppie di frequenze, quando le osservazioni sono
aggregate per modalità o classi.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
3 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Indice
Variabili statistiche bivariate
Associazione tra variabili
Relazioni tra variabili
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
4 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: ore di sonno e genere
Consideriamo la variabile doppia: (Y , X )=(ore di sonno, genere).
La distribuzione di frequenze assolute è data da
Y
0
2
4
5
6
7
8
9
10
12
Totale
Francesco Pauli & Nicola Torelli
totale
X
X = Fem
1
0
0
4
17
62
83
16
4
1
188
X = Mas
0
1
2
2
26
64
68
22
3
0
188
1
1
2
6
43
126
151
38
7
1
376
Statistica descrittiva:variabili doppie
5 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: ore di sonno e genere
La distribuzione doppia appena vista “contiene" varie distribuzioni di
frequenza. Infatti:
I Il “centro” della distribuzione (in questo caso le 10 righe e le 2 colonne centrali)
mostra il numero di individui che presentano una particolare modalità della coppia
(Y , X ): mostra cioè la distribuzione congiunta.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
6 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: ore di sonno e genere
La distribuzione doppia appena vista “contiene" varie distribuzioni di
frequenza. Infatti:
I Il “centro” della distribuzione (in questo caso le 10 righe e le 2 colonne centrali)
mostra il numero di individui che presentano una particolare modalità della coppia
(Y , X ): mostra cioè la distribuzione congiunta.
I La 1a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le
femmine, cioè la distribuzione della variabile condizionata (Y |X = Fem).
Analogamente, la 2a mostra la distribuzione della variabile condizionata
(Y |X = Mas). Quindi, le colonne riportano le distribuzioni della variabile
condizionata Y |X .
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
6 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: ore di sonno e genere
La distribuzione doppia appena vista “contiene" varie distribuzioni di
frequenza. Infatti:
I Il “centro” della distribuzione (in questo caso le 10 righe e le 2 colonne centrali)
mostra il numero di individui che presentano una particolare modalità della coppia
(Y , X ): mostra cioè la distribuzione congiunta.
I La 1a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le
femmine, cioè la distribuzione della variabile condizionata (Y |X = Fem).
Analogamente, la 2a mostra la distribuzione della variabile condizionata
(Y |X = Mas). Quindi, le colonne riportano le distribuzioni della variabile
condizionata Y |X .
I La 1a riga mostra, tra le persone che dormono 4 ore per note, quante sono femmine
e quanti maschi, cioè la distribuzione della variabile condizionata (X |Y = 4).
Quindi, le righe riportano le distribuzioni della variabile condizionata X |Y .
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
6 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: ore di sonno e genere
La distribuzione doppia appena vista “contiene" varie distribuzioni di
frequenza. Infatti:
I Il “centro” della distribuzione (in questo caso le 10 righe e le 2 colonne centrali)
mostra il numero di individui che presentano una particolare modalità della coppia
(Y , X ): mostra cioè la distribuzione congiunta.
I La 1a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le
femmine, cioè la distribuzione della variabile condizionata (Y |X = Fem).
Analogamente, la 2a mostra la distribuzione della variabile condizionata
(Y |X = Mas). Quindi, le colonne riportano le distribuzioni della variabile
condizionata Y |X .
I La 1a riga mostra, tra le persone che dormono 4 ore per note, quante sono femmine
e quanti maschi, cioè la distribuzione della variabile condizionata (X |Y = 4).
Quindi, le righe riportano le distribuzioni della variabile condizionata X |Y .
I L’ultima colonna, mostra la distribuzione delle ore di sonno senza riguardo al
genere. L’ultima riga, invece, mostra la distribuzione della variabile Genere. Sono
cioè rappresentate le distribuzioni marginali.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
6 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: ore di TV e Sanremo
Consideriamo la variabile doppia: (Y , X )=(ore di TV, Sanremo).
La distribuzione di frequenze assolute (per tutti gli studenti) è data da
Y
0
1
2
3
4
5
6
7
8
10
11
12
13
14
15
16
17
18
20
21
25
30
41
42
Totale
Francesco Pauli & Nicola Torelli
X = NonV
23
13
26
20
17
20
14
22
16
32
0
8
1
12
12
1
1
2
6
2
3
3
0
0
254
X
totale
X = VeNP
X = VeP
0
1
24
2
0
15
1
2
29
1
3
24
2
3
22
2
5
27
3
7
24
3
3
28
2
2
20
5
17
54
1
0
1
1
3
12
0
0
1
5
2
19
2
6
20
0
1
2
0
0
1
0
0
2
1
9
16
0
3
5
0
2
5
0
1
4
1
0
1
1
0
1
33
70
357
Statistica descrittiva:variabili doppie
7 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Tabella a doppia entrata
Una distribuzione doppia di frequenze è normalmente chiamata tabella (di
contigenza) a doppia entrata.
In generale, una tabella di contingenza (con due variabili) si presenta nella
forma:
Y
y1
..
.
x1
n11
..
.
···
···
yi
..
.
ni1
..
.
···
ys
totale
ns1
n01
···
···
Francesco Pauli & Nicola Torelli
X
xj
n1j
..
.
···
···
xt
n1t
..
.
totale
n10
..
.
nij
..
.
···
nit
..
.
ni0
..
.
nsj
n0j
···
···
nst
n0t
ns0
N
Statistica descrittiva:variabili doppie
8 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Tabella a doppia entrata (cont)
Nella tabella
I
X e Y sono le due variabili considerate
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
9 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Tabella a doppia entrata (cont)
Nella tabella
I
X e Y sono le due variabili considerate
I
{x1 , . . . , xt } sono le modalità di X
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
9 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Tabella a doppia entrata (cont)
Nella tabella
I
X e Y sono le due variabili considerate
I
{x1 , . . . , xt } sono le modalità di X
I
{y1 , . . . , ys } sono le modalità di Y
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
9 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Tabella a doppia entrata (cont)
Nella tabella
I
X e Y sono le due variabili considerate
I
{x1 , . . . , xt } sono le modalità di X
I
{y1 , . . . , ys } sono le modalità di Y
I
nij è la frequenza congiunta assoluta per Y = yi e X = xj
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
9 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Tabella a doppia entrata (cont)
Nella tabella
I
X e Y sono le due variabili considerate
I
{x1 , . . . , xt } sono le modalità di X
I
{y1 , . . . , ys } sono le modalità di Y
I
nij è la frequenza congiunta assoluta per Y = yi e X = xj
P
n0j , è il totale della colonna j, n0j = si=1 nij .
I
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
9 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Tabella a doppia entrata (cont)
Nella tabella
I
X e Y sono le due variabili considerate
I
{x1 , . . . , xt } sono le modalità di X
I
{y1 , . . . , ys } sono le modalità di Y
I
nij è la frequenza congiunta assoluta per Y = yi e X = xj
P
n0j , è il totale della colonna j, n0j = si=1 nij . Quindi è la frequenza
assoluta marginale per la modalità xj di X .
P
ni0 , è il totale della riga i: ni0 = tj=1 nij . Quindi è la frequenza
assoluta marginale per la modalità yi di Y .
I
I
NB. La scelta di quale variabile (X o Y ) mettere sulle righe/colonne e
quale indice massimo (s o t) associare alle modalità delle variabili è libera.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
9 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Titanic
Il transatlantico britannico RMS Titanic
affonda a seguito della collisione con un
iceberg nella notte tra il 14 e il 15 aprile
1912.
Delle 2201 persone a bordo tra passeggeri ed
equipaggio, sopravvivono solo 711.
Tra le polemiche che seguono al naufragio
c’è chi sostiene che i passeggeri di III classe
vennero trascurati nelle operazioni di
evacuazioni, dando preferenza ai “ricchi”.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
10 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Titanic
I Cl.
II Cl.
III Cl.
Equipaggio
Deceduto
122
167
528
673
Sopravv.
203
118
178
212
I dati a disposizione sono riassumibili
in una tabella a doppia entrata, in cui
si riporta il numero di sopravvissuti e
di deceduti a seconda della classe di
appartenenza.
Il sospetto per cui i passeggeri di III classe vennero trascurati si traduce nel
dire che le due caratteristiche osservate: sopravvivenza e classe, sono
legate.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
11 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: il disastro del Titanic
Nome
nome 1
nome 2
nome 3
..
.
Passeggero (tipologia)
II
III
I
..
.
Sopravvivenza
sopravvissuto
non sopravvissuto
non sopravvissuto
..
.
nome 2201
equipaggio
sopravvissuto
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
12 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: il disastro del Titanic
Tabella a doppia entrata per le variabili Passeggero (tipologia) e
Sopravvivenza
Morto
Sopravv.
Totale
1st
122
203
325
2nd
167
118
285
3rd
528
178
706
Crew
673
212
885
I
118 passeggeri di seconda classe sopravvissero
I
178 passeggeri di terza classe sopravvissero
Totale
1490
711
2201
I passeggeri di terza classe avevano minori chance di sopravvivere?
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
13 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: il disastro del Titanic
Alla domanda precedente si risponde meglio guardando alle frequenze
relative (o percentuali).
Morto
Sopravv.
freq. ass.
% di colonna
freq. ass.
% di colonna
Totale
1st
122
37.5%
203
62.5%
325
2nd
167
58.6%
118
41.4%
285
3rd
528
74.8%
178
25.2%
706
Crew
673
76.0%
212
24.0%
885
I
In seconda classe, sopravvisse il 41.4% dei passeggeri
I
In terza, sopravvisse il 25.2% dei passeggeri
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
Totale
1490
67.7%
711
32.3%
2201
14 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Tabella a doppia entrata (cont)
Come l’esempio del Titanic dimostra, il calcolo delle frequenze relative in
una tabella a doppia entrata è più delicato, perché la tabella contiene tante
distribuzioni.
Morto
Sopravv.
freq. ass.
% di colonna
freq. ass.
% di colonna
Totale
1st
122
37.5%
203
62.5%
325
2nd
167
58.6%
118
41.4%
285
3rd
528
74.8%
178
25.2%
706
Crew
673
76.0%
212
24.0%
885
Totale
1490
67.7%
711
32.3%
2201
Qui, abbiamo calcolato le frequenze percentuali della variabile condizionata
Sopravvivenza|Passeggero. Questa sono le distribuzioni condizionate
rilevanti se l’obiettivo è studiare la Sopravvivenza, come variabile risposta
confrontando le distribuzioni consizionate di tale variabile per ogni modalità
della variabile concomitante Passeggero
Si noti che, per ogni tipologia di passeggero, le percentuali sommano a 100.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
15 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Tabella a doppia entrata per un verso...
In generale, le frequenze relative per le distribuzioni di Y |X si calcolano a
partire dalle frequenze assolute così:
Y
y1
..
.
x1
n11 /n01
..
.
···
···
yi
..
.
ni1 /n01
..
.
···
ys
totale
ns1 /n01
1
···
···
Francesco Pauli & Nicola Torelli
X
xj
n1j /n0j
..
.
···
···
xt
n1t /n0t
..
.
totale
n10 /N
..
.
nij /n0j
..
.
···
nit /n0t
..
.
ni0 /N
..
.
nsj /n0j
1
···
···
nst /n0t
1
ns0 /N
1
Statistica descrittiva:variabili doppie
16 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
...e per un altro...
Viceversa, le frequenze relative per le distribuzioni di X |Y si calcolano a
partire dalle frequenze assolute così:
Y
y1
..
.
x1
n11 /n10
..
.
···
···
yi
..
.
ni1 /ni0
..
.
···
ys
totale
ns1 /ns0
n01 /N
···
···
Francesco Pauli & Nicola Torelli
X
xj
n1j /n10
..
.
···
···
xt
n1t /n10
..
.
totale
1
..
.
nij /ni0
..
.
···
nit /ni0
..
.
1
..
.
nsj /ns0
n0j /N
···
···
nst /ns0
n0t /N
1
1
Statistica descrittiva:variabili doppie
17 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
...o “per tutti e due”
Infine, possiamo costruire le frequenze relative per la distribuzione
congiunta di (X , Y ), che si calcolano a partire dalle frequenze assolute così:
Y
y1
..
.
x1
n11 /N
..
.
···
···
yi
..
.
ni1 /N
..
.
···
ys
totale
ns1 /N
n01 /N
···
···
Francesco Pauli & Nicola Torelli
X
xj
n1j /N
..
.
···
···
xt
n1t /N
..
.
totale
n10 /N
..
.
nij /N
..
.
···
nit /N
..
.
ni0 /N
..
.
nsj /N
n0j /N
···
···
nst /N
n0t /N
ns0 /N
1
Statistica descrittiva:variabili doppie
18 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Il disastro del Titanic
Morto
Sopravv.
Totale
freq. ass.
% di colonna
% di riga
% congiunta
freq. ass.
% di colonna
% di riga
% congiunta
% di colonna
% di riga
% congiunta
Francesco Pauli & Nicola Torelli
1st
122
37.5%
8.2%
5.6%
203
62.5%
28.6%
9.2%
325
100%
14.8%
14.8%
2nd
167
58.6%
11.2%
7.6%
118
41.4%
16.6%
5.4%
285
100%
12.9%
12.9%
3rd
528
74.8%
35.4%
24.0%
178
25.2%
25.0%
8.1%
706
100%
32.1%
32.1%
Crew
673
76.0%
45.2%
30.6%
212
24.0%
29.8%
9.6%
885
100%
40.2%
40.2%
Statistica descrittiva:variabili doppie
Totale
1490
67.7%
100.0%
67.7%
711
32.3%
100.0%
32.3%
2201
100%
100.0%
100.0%
19 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Indice
Variabili statistiche bivariate
Rappresentazioni grafiche
Distribuzioni multiple
Associazione tra variabili
Relazioni tra variabili
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
20 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Rappresentazioni grafiche
Anche nel caso di variabili statistiche bivariate, le rappresentazioni grafiche
aiutano molto (se ben fatte) ad interpretare i dati.
•
La rappresentazione dipende dalla natura delle variabili (qualitativi,
quantitativi) e dalla forma in cui ci sono forniti i dati (aggregata/non
aggregata).
•
Abbiamo già visto alcune di queste rappresentazioni (verranno richiamate
per dare loro un nome); altre sono nuove.
•
Per ogni grafico, si provi a fornire una lettura di quanto il grafico ci sta
dicendo.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
21 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Istogrammi appaiati (side-by-side histograms)
I
I
I
Y → Peso degli studenti (quantitativa continua)
X → Genere (qualitativa)
rappresentazione di Y |X .
0.00
0.02
0.04
Peso degli studenti maschi
50
60
70
80
90
100
0.00
0.03
Peso degli studenti femmine
50
Francesco Pauli & Nicola Torelli
60
70
80
90
100
Statistica descrittiva:variabili doppie
22 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Diagrammi a scatola appaiati (multiple boxplots)
I
I
50
60
70
80
90
100
I
Y → Peso degli studenti (quantitativa continua)
X → Genere (qualitativa)
rappresentazione di Y |X .
Femmina
Francesco Pauli & Nicola Torelli
Maschio
Statistica descrittiva:variabili doppie
23 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Diagrammi a barre condizionati
I
I
1.0
I
Y → Classe / Equipaggio
X → Sopravvivenza
rappresentazione di Y |X .
0.0
0.2
0.4
0.6
0.8
Crew
3rd
2nd
1st
No
Francesco Pauli & Nicola Torelli
Yes
Statistica descrittiva:variabili doppie
24 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Diagrammi a barre condizionati
I
Y → Classe / Equipaggio
I
X → Sopravvivenza
I
rappresentazione di Y |X .
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
25 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Prima le donne e i bambini?
Morto
Sopravv.
Totale
Donne e Bambini
161
373
534
Francesco Pauli & Nicola Torelli
Maschi adulti
1329
338
1667
Totale
1490
711
2201
Statistica descrittiva:variabili doppie
26 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Prima le donne e i bambini?
0
0.0
0.2
500
0.4
0.6
1000
0.8
1500
1.0
Cosa rappresentano i due grafici?
Donne e Bambini
Francesco Pauli & Nicola Torelli
Maschi adulti
Donne e Bambini
Maschi adulti
Statistica descrittiva:variabili doppie
27 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Indice
Variabili statistiche bivariate
Rappresentazioni grafiche
Distribuzioni multiple
Associazione tra variabili
Relazioni tra variabili
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
28 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Variabili statistiche multivariate (cenno)
L’idea di variabile statistica bivariata può essere generalizzata senza
difficoltà.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
29 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Variabili statistiche multivariate (cenno)
L’idea di variabile statistica bivariata può essere generalizzata senza
difficoltà.
Si parla di variabile statistica
I
trivariata, se si considerano congiuntamente tre caratteri;
I
quadrivariata, se si considerano congiuntamente quattro caratteri;
I
in generale, multivariata, se si considerano congiuntamente almeno
due caratteri;
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
29 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Distribuzioni di frequenza multiple (cenno)
Anche le distribuzioni di frequenza si generalizzano di conseguenza.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
30 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Distribuzioni di frequenza multiple (cenno)
Anche le distribuzioni di frequenza si generalizzano di conseguenza.
Si parla di distribuzione di frequenza
I
tripla, se mostra la distribuzione di una variable statistica trivariata;
I
quadrupla, se mostra la distribuzione di una variable statistica
quadrivariata;
I
in generale, multipla, se si considera una variable statistica
multivariata;
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
30 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: esiti ammissione a Berkeley, 1973
I dati che abbiamo mostrato, anche se organizzati in forma non tabellare,
rappresentano una distribuzione di frequenza tripla.
Admit
Admitted
Rejected
Admitted
Rejected
Admitted
Rejected
Admitted
Rejected
Admitted
Rejected
Admitted
Rejected
Admitted
Rejected
Admitted
Rejected
Admitted
Rejected
Admitted
Rejected
Admitted
Rejected
Admitted
Rejected
Francesco Pauli & Nicola Torelli
Gender
Male
Male
Female
Female
Male
Male
Female
Female
Male
Male
Female
Female
Male
Male
Female
Female
Male
Male
Female
Female
Male
Male
Female
Female
Dept
A
A
A
A
B
B
B
B
C
C
C
C
D
D
D
D
E
E
E
E
F
F
F
F
Frequenza assoluta
512
313
89
19
353
207
17
8
120
205
202
391
138
279
131
244
53
138
94
299
22
351
24
317
Statistica descrittiva:variabili doppie
31 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: esiti ammissione a Berkeley, 1973
In forma tabellare:
Dept
Gender
A
Male
Female
Male
Female
Male
Female
Male
Female
Male
Female
Male
Female
B
C
D
E
F
Francesco Pauli & Nicola Torelli
Admit
Admitted Rejected
512
313
89
19
353
207
17
8
120
205
202
391
138
279
131
244
53
138
94
299
22
351
24
317
Statistica descrittiva:variabili doppie
32 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Indice
Variabili statistiche bivariate
Associazione tra variabili
Relazioni tra variabili
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
33 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Indice
Variabili statistiche bivariate
Associazione tra variabili
Dipendenza e indipendenza
Relazioni tra variabili
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
34 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Relazioni tra variabili
A ben vedere, il commento più naturale che abbiamo fatto leggendo i
grafici precedenti era del tipo: il comportamento di questa variabile cambia
al cambiare dell’altra, oppure, questa variabile è influenzata da quest’altra.
•
Quindi, quando guardiamo a più di una variabile, viene naturale esplorare se
esiste una qualche associazione tra le stesse.
I
Quando due variabili mostrano qualche forma di connessione tra loro,
si parla di associazione o dipendenza.
I
Quando due variabili non mostrano alcuna forma di connessione tra
loro, si parla di indipendenza.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
35 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Sulla base del diagramma
a dispersione sulla destra,
quale delle seguenti
affermazioni è corretta?
Altezza degli studenti
Esercizio
190
180
170
160
50
60
70
80
90
100
Peso degli studenti
(a) Non c’è relazione tra altezza e peso;
(b) altezza e peso sono associati (positivamente);
(c) altezza e peso sono associati (negativamente);
(d) un peso maggiore causa una maggiore altezza.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
36 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esercizio
# amici di Facebook
1e+05
1e+04
Sulla base del diagramma
a dispersione sulla destra,
quale delle seguenti
affermazioni è corretta?
1e+03
1e+02
1e+01
0
5
10
15
20
25
# libri letti
(a) Non c’è relazione tra numero di libri e numero di amici di Facebook;
(b) numero di libri e numero di amici di Facebook sono associati
(positivamente);
(c) numero di libri e numero di amici di Facebook sono associati
(negativamente);
(d) un maggior numero di libri letti causa un maggior/minor numero di
amici su Facebook.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
37 / 63
•
• Associazione tra variabili
Variabili statistiche bivariate
• Relazioni tra variabili
Esercizio
Peso del neonato
Sulla base del diagramma a dispersione, sembra esserci associazione
tra il peso alla nascita e la durata della gravidanza da madri
fumatrici e non fumatrici?
Madri non fumatrici
Madri fumatrici
3400
3200
3000
2800
2600
2400
34
36
38
40
42
Durata della gravidanza
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
38 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Riprendiamo il Titanic
Riprendiamo la tabella che abbiamo analizzato in precedenza
Morto
Sopravv.
freq. ass.
% di colonna
freq. ass.
% di colonna
Totale
1st
122
37.5%
203
62.5%
325
2nd
167
58.6%
118
41.4%
285
3rd
528
74.8%
178
25.2%
706
Crew
673
76.0%
212
24.0%
885
Totale
1490
67.7%
711
32.3%
2201
I passeggeri di terza classe avevano minori chance di sopravvivere?
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
39 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Riprendiamo il Titanic (cont)
Per rispondere, abbiamo guardato alla variabile condizionata
Sopravvivenza|Tipologia. Sembrerebbe sensato affermare che l’esito
dipende dalla classe.
Morto
Sopravv.
Totale
1st
37.5%
62.5%
100%
2nd
58.6%
41.4%
100%
3rd
74.8%
25.2%
100%
Crew
76.0%
24.0%
100%
Totale
67.7%
32.3%
100%
Y (L’esito) dipende da X (la classe in cui viaggiava il passeggero) poichè
le distribuzioni di Y condizionate ad X sono diverse nel senso che hanno
frequenze relative diverse
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
40 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Indipendenza in distribuzione
Diciamo che Y è indipendente in distribuzione da X se, per qualsivoglia
i = 1, . . . , s,
nij
ni2
nit
ni1
=
= ··· =
= ··· =
n01
n02
n0j
n0t
Altrimenti, diremo che Y dipende in distribuzione da X .
•
Se le distribuzioni condizionate di Y dato X sono uguali tra di loro, allora
sono anche uguali alla distribuzione marginale di Y .
L’uguaglianza, al solito, deve essere intesa nel senso delle frequenze relative.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
41 / 63
•
Variabili statistiche bivariate
Y
y1
y2
..
.
x1
n11
n01
n21
n01
···
···
···
yi
..
.
ni1
n01
···
ys
totale
ns1
n01
···
···
Francesco Pauli & Nicola Torelli
..
.
n1j
n01
n2j
n01
···
···
···
nij
n01
···
nsj
n01
···
···
..
.
..
.
1
X
xj
• Associazione tra variabili
totale
nit
n0t
ni0
N
nst
n0t
ns0
N
..
.
..
.
1
xt
n1t
n0t
n2t
n0t
..
.
• Relazioni tra variabili
n10
N
n20
N
..
.
..
.
1
Statistica descrittiva:variabili doppie
42 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Indipendenza in distribuzione (cont)
Per dimostrare la proposizione ci basta far vedere che
ni1
ni0
=
, i = 1, . . . , s.
N
n01
Ora, dalla (41) segue che nij = (ni1 n0j )/n01 .
Quindi,
Pt
Pt
ni0
j=1 nij
j=1 ni1 n0j
=
=
=
N
N
Nn01
Pt
ni1 j=1 n0j
Nni1
ni1
=
=
=
.
Nn01
Nn01
n01
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
43 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: indipendenza in distribuzione
y1
y2
y3
y4
Sum
y1
y2
y3
y4
totale
x1
0.083
0.500
0.250
0.167
1.000
Francesco Pauli & Nicola Torelli
x1
5
30
15
10
60
x2
7
42
21
14
84
x2
0.083
0.500
0.250
0.167
1.000
x3
3
18
9
6
36
x3
0.083
0.500
0.250
0.167
1.000
x4
2
12
6
4
24
Sum
17
102
51
34
204
x4
0.083
0.500
0.250
0.167
1.000
marginale
0.083
0.500
0.250
0.167
1.000
Statistica descrittiva:variabili doppie
44 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Simmetria dell’indipendenza in distribuzione
SeY è indipendente da X allora X è indipendente da Y e viceversa.
Dimostrazione.
Se Y è indipendente da X allora
nij
ni0
=
, i = 1, . . . , s; j = 1, . . . , t.
n0j
N
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
(1)
45 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Simmetria dell’indipendenza in distribuzione
SeY è indipendente da X allora X è indipendente da Y e viceversa.
Dimostrazione.
Se Y è indipendente da X allora
nij
ni0
=
, i = 1, . . . , s; j = 1, . . . , t.
n0j
N
(1)
che può essere riscritta nella forma
nij
n0j
=
, i = 1, . . . , r ; j = 1, . . . , c
ni0
N
ovvero, l’indipendenza in distribuzione di Y da X implica l’uguaglianza di
tutte le distribuzioni condizionate di X dato Y alla distribuzione marginale
di X .
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
45 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Simmetria dell’indipendenza in distribuzione
SeY è indipendente da X allora X è indipendente da Y e viceversa.
Dimostrazione.
Se Y è indipendente da X allora
nij
ni0
=
, i = 1, . . . , s; j = 1, . . . , t.
n0j
N
(1)
che può essere riscritta nella forma
nij
n0j
=
, i = 1, . . . , r ; j = 1, . . . , c
ni0
N
ovvero, l’indipendenza in distribuzione di Y da X implica l’uguaglianza di
tutte le distribuzioni condizionate di X dato Y alla distribuzione marginale
di X .
Quindi, tutte le distribuzioni condizionate di X dato Y sono tra di loro
uguali.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
45 / 63
•
• Associazione tra variabili
Variabili statistiche bivariate
• Relazioni tra variabili
Esempio: indipendenza in distribuzione
y1
y2
y3
y4
Sum
y1
y2
y3
y4
marginale
Francesco Pauli & Nicola Torelli
x1
5
30
15
10
60
x1
0.294
0.294
0.294
0.294
0.294
x2
7
42
21
14
84
x2
0.412
0.412
0.412
0.412
0.412
x3
3
18
9
6
36
x4
2
12
6
4
24
x3
0.176
0.176
0.176
0.176
0.176
Sum
17
102
51
34
204
x4
0.118
0.118
0.118
0.118
0.118
totale
1.000
1.000
1.000
1.000
1.000
Statistica descrittiva:variabili doppie
46 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Frequenze attese
Poniamo
ni0 n0j
.
N
Se esiste indipendenza tra le due variabili, nij = n̂ij per qualsivoglia i e per
qualsivoglia j, ovvero, le n̂ij sono le frequenze che ci aspettiamo di trovare
quando esiste indipendenza.
n̂ij =
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
47 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Frequenze attese
Poniamo
ni0 n0j
.
N
Se esiste indipendenza tra le due variabili, nij = n̂ij per qualsivoglia i e per
qualsivoglia j, ovvero, le n̂ij sono le frequenze che ci aspettiamo di trovare
quando esiste indipendenza.
n̂ij =
Per questo motivo, le n̂ij sono chiamate le frequenze attese (sotto l’ipotesi
di indipendenza in distribuzione).
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
47 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Frequenze attese
Poniamo
ni0 n0j
.
N
Se esiste indipendenza tra le due variabili, nij = n̂ij per qualsivoglia i e per
qualsivoglia j, ovvero, le n̂ij sono le frequenze che ci aspettiamo di trovare
quando esiste indipendenza.
n̂ij =
Per questo motivo, le n̂ij sono chiamate le frequenze attese (sotto l’ipotesi
di indipendenza in distribuzione).
Come è ovvio, le frequenze attese n̂ij ci mostrano anche come le frequenze
marginali si comporterebbero nel caso di indipendenza in distribuzione.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
47 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Esempio: indipendenza in distribuzione
x1
60×17
204
y1
5=
y2
30=
60×12
204
x2
7=
x3
x4
Sum
3
2
17
42
18
12
102
84×17
204
y3
15
21
9
6
51
y4
10
14
6
4
34
Sum
60
84
36
24
204
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
48 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
X2
L’indice di uso più comune per misurare la dipendenza in distribuzione si
basa sul confronto tra frequenze attese e frequenze osservate.
Si tratta del cosidetto X 2 di Pearson
X2 =
s X
t
X
(nij − n̂ij )2
.
n̂ij
i=1 j=1
X2 è
I
sempre maggiore o uguale a zero
I
ed è uguale a 0 in caso di indipendenza (nij = n̂ij , per ogni i e per
ogni j)
I
e cresce man mano che le frequenze osservate si allontano da quelle
attese.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
49 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
X 2 (cont)
Si può dimostrare che X 2 ≤ N · min(s − 1, t − 1).
•
Il massimo è raggiunto quando la distribuzione doppia assume una
struttura particolare, quella di una tabella di dipendenza perfetta.
•
Si chiama tabella di dipendenza perfetta la tabella tale che ad ogni
modalità del carattere X corrisponde una sola modalità del carattere Y .
•
Quindi, si può costruire un indice normalizzato
X̃ 2 =
X2
N · min(s − 1, t − 1)
che assumerà valori tra 0 e 1: 0 ≤ X̃ 2 ≤ 1.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
50 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Tabella di dipendenza perfetta
y1
y2
y3
y4
Sum
Francesco Pauli & Nicola Torelli
x1
x2
x3
x4
Sum
45
0
0
0
45
0
20
0
0
20
0
0
0
37
37
0
0
92
0
92
45
20
92
37
194
Statistica descrittiva:variabili doppie
51 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Indice
Variabili statistiche bivariate
Associazione tra variabili
Relazioni tra variabili
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
52 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Descrivere la dipendenza: diagramma di dispersione
Il diagramma di dispersione è la rappresentazione delle coppie
(x1 , y1 ), (x2 , y2 ), . . . (xN , yN )
ossia della distribuzione doppia disaggregata della variabile doppia (X , Y ).
190
I
Si dice che tra X e Y c’è
associazione positiva quando essi
tendono a crescere insieme.
I
Si dice che tra X e Y c’è
associazione negativa quando
essi tendono decrescere insieme.
Altezza degli studenti
185
180
175
170
165
160
155
50
60
70
80
Peso degli studenti
Il diagramma di dispersione è uno strumento per esplorare graficamente la
presenza di associazione positiva o negativa tra due caratteri.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
53 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Misurare l’associazione
I
Il punto rosso è il punto di
coordinate (x̄, ȳ ).
190
185
Altezza degli studenti
180
175
170
+
165
160
155
50
60
70
80
Peso degli studenti
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
54 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Misurare l’associazione
I
I
Il punto rosso è il punto di
coordinate (x̄, ȳ ).
Valori maggiori della media di X
corrispondono a valori maggiori
della media per Y .
Valori inferiori alla media di X
corrispondono a valori inferiori
alla media per Y .
190
185
180
Altezza degli studenti
I
175
170
+
165
160
155
50
60
70
80
Peso degli studenti
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
54 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Misurare l’associazione
I
I
I
Il punto rosso è il punto di
coordinate (x̄, ȳ ).
Valori maggiori della media di X
corrispondono a valori maggiori
della media per Y .
Valori inferiori alla media di X
corrispondono a valori inferiori
alla media per Y .
più osservazioni cadono nelle
regioni contrassegnate da un
“+” rispetto a quante ne cadono
nelle regioni contrassegnate da
un “-” più è manifesta
l’associazione.
Francesco Pauli & Nicola Torelli
190
185
180
Altezza degli studenti
I
−
+
175
170
165
160
+
+
−
155
50
60
70
80
Peso degli studenti
Statistica descrittiva:variabili doppie
54 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
La covarianza
Questo suggerisce di partire dalla seguente quantità
σXY =
N
1 X
(xi − x)(yi − y )
N
i=1
dove (xi , yi ), i = 1, . . . , N, sono i dati disponibili su due variabili
numeriche, mentre x e y indicano le due medie aritmetiche.
•
σXY è detta covarianza. Il suo numeratore è detto codevianza, indicata con
CXY .
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
55 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
La covarianza (cont)
1. In presenza di una qualche forma di relazione monotona, più è forte la
relazione tra le due variabili più ci aspettiamo che la covarianza diventi
grande in valore assoluto. Infatti, più è forte la relazione, più grande
dovrebbe essere il numero di addendi concordi nella somma. Inoltre,
un certo numero di addendi sarà il prodotto di scarti dalle media
grandi in valore assoluto.
2. In assenza di una qualche forma di relazione monotona tra le due
variabili, viceversa, gli addendi saranno in parte positivi ed in parte
negativi. Quindi in questi casi ci aspettiamo che la covarianza risulti
nulla o comunque vicina allo zero.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
56 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Altezza degli studenti
Covarianza: esempio
190
185
180
175
170
165
160
155
+
70
80
90
100
Voto di matura
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
57 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
190
185
180
175
170
165
160
155
Altezza degli studenti
Altezza degli studenti
Covarianza: esempio
+
70
80
90
190
185
180
175
170
165
160
155
+
100
50
Voto di matura
1
N
P
i
xi yi = 1.39021 × 104
x̄ = 82.1034
ȳ = 169
σXY = 26.5862
Francesco Pauli & Nicola Torelli
60
70
80
Peso degli studenti
1
N
P
i
xi yi = 1.01191 × 104
x̄ = 59.5862
ȳ = 169
σXY = 49.0345
Statistica descrittiva:variabili doppie
58 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
190
185
180
175
170
165
160
155
Altezza degli studenti (metri)
Altezza degli studenti
Covarianza: esempio
+
70
80
90
1.90
1.85
1.80
1.75
1.70
1.65
1.60
1.55
+
100
50
60
Voto di matura
1
N
P
i
xi yi = 1.39021 × 104
x̄ = 82.1034
ȳ = 169
σXY = 26.5862
Francesco Pauli & Nicola Torelli
70
80
Peso degli studenti
1
N
P
xi yi = 101.191
x̄ = 59.5862
ȳ = 1.69
σXY = 0.490345
i
Statistica descrittiva:variabili doppie
58 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Grande quanto?
L’esempio su altezza e peso illustra uno dei problemi connessi con l’utilizzo
della covarianza.
•
L’interpretazione del segno non pone nessuno problema. La covarianza
indica una associazione tendenzialmente positiva tra le due grandezze
•
Ma quanto “forte” è questa dipendenza?
Per rispondere alla domanda avremmo bisogno di conoscere un estremo
superiore, possibilmente con una chiara interpretazione, per il valore
assoluto della covarianza. Si dimostra che
−σY σX ≤ σXY ≤ σY σX .
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
59 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Il coefficiente di correlazione (lineare)
I limiti per la covarianza suggeriscono che per affermare se la covarianza è
“piccola” o è “grande” dobbiamo confrontarla con il prodotto degli scarti
quadratici medi.
•
In altre parole, dobbiamo costruire l’indice normalizzato, chiamato
coefficiente di correlazione (lineare)
r=
σXY
.
σX σY
•
Il coefficiente di correlazione è spesso indicato con la lettera greca ρ.
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
60 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Interpretazione di r
ora se ricordiamo che
−σY σX ≤ σXY ≤ σY σX .
dividendo tutti i membri di questa diseguaglianza per σY σX si ottiene
−1 ≤ r ≤ +1
= −1 perfetta dipendenza lineare negativa tra X e Y
r < 0 associazione negativa tra X e Y
r = 0 assenza di relazione monotona tra X e Y
r > 0 associazione positiva tra X e Y
= +1 perfetta dipendenza lineare positiva tra X e Y
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
61 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Attenzione a cosa misura r
10000
I
I dati si dispingono sulla curva
Y = X 4.
I
la relazione è perfetta ma non
lineare e non monotona.
I
r = 0.8852
I
I dati si dispingono sulla curva
Y = X 2.
I
la relazione è perfetta ma non
lineare e non monotona.
I
r =0
8000
y
6000
4000
+
2000
0
2
4
6
8
10
x
4
y
3
2
+
1
0
−2
−1
0
Francesco Pauli & Nicola Torelli
x
1
2
Statistica descrittiva:variabili doppie
62 / 63
•
Variabili statistiche bivariate
• Associazione tra variabili
• Relazioni tra variabili
Morale
r misura la correlazione lineare tra le variabili.
I
Un valore di r inferiore in valore assoluto a 1 non implica
necessariamente assenza di un legame perfetto tra le variabili, ma
assenza di un legame lineare perfetto.
I
Un valore di r uguale a zero non implica necessariamente assenza di
relazione tra le variabili, ma assenza di relazione lineare (più in
generale, monotona).
Francesco Pauli & Nicola Torelli
Statistica descrittiva:variabili doppie
63 / 63