Corso di Statistica
Distribuzioni doppie
Relazioni tra due variabili
Prof.ssa T. Laureti
a.a. 2014-2015
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
1
Distribuzione doppia di frequenza
Genere
respons
6
M
6
M
10
F
10
F
7
M

3
M

3
M
6
F
4
F
Genere
responsabile
Addetti
Addet
ti
M
F
3
2
0
4
0
1
6
2
1
7
1
0
10
0
2
Quanti sono i punti vendita con 3 addetti,
il cui responsabile è un maschio?
2
Quanti sono i punti vendita con 3 addetti,
il cui responsabile è una femmina?
0
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
2
Distribuzione doppia di frequenza
Genere
responsabile
Tot
F
3
2
0
2
4
0
1
1
6
2
1
3
7
1
0
1
10
0
2
2
5
4
9
Addetti
M
Tot
1 è la frequenza
congiunta associata
alla modalità 4 del
Numero di addetti e
alla modalità F del
Genere responsabile
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
3
Distribuzione doppia di frequenza
Genere
responsabile
Tot
F
3
2
0
2
4
0
1
1
6
2
1
3
7
1
0
1
10
0
2
2
5
4
9
Addetti
M
Tot
Distribuzione marginale del
genere del responsabile
(distribuzione di frequenza
semplice del carattere “genere
del responsabile”)
Qual è la proporzione di punti vendita il cui responsabile è una femmina?
4
p
0,44 (44%)
9
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
4
Distribuzione doppia di frequenza
Genere
responsabile
Tot
F
3
2
0
2
4
0
1
1
6
2
1
3
7
1
0
1
10
0
2
2
5
4
9
Addetti
M
Tot
Distribuzione marginale degli
addetti
(distribuzione di frequenza
semplice del carattere “numero
di addetti”)
Qual è la media del numero di addetti? E la mediana? E la moda?
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
5
Distribuzione doppia di frequenza
Genere
responsabile
Tot
F
3
2
0
2
4
0
1
1
6
2
1
3
7
1
0
1
10
0
2
2
5
4
9
Addetti
M
Tot
Distribuzione parziale
del numero di addetti,
condizionata alla
modalità “maschio” del
carattere “genere del
responsabile”
Distribuzione del numero
di addetti dato che il
genere del responsabile
è “maschio”
Qual è il numero medio di addetti dei punti vendita il cui responsabile è un
uomo?
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
6
Distribuzione doppia di frequenza
Genere
responsabile
Tot
F
3
2
0
2
4
0
1
1
6
2
1
3
7
1
0
1
10
0
2
2
5
4
9
Addetti
M
Tot
Distribuzione parziale
del genere del
responsabile,
condizionata alla
modalità “6” del
carattere “numero di
addetti”
Distribuzione del genere
del responsabile dato che
il numero di addetti è pari
a6
Considerando i punti vendita con 6 addetti, qual è la proporzione il cui
responsabile è una femmina?
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
7
Distribuzione doppia di frequenza
Ubicazione Vendita
on line
centro
si
periferia
si
Semicentro
no
periferia
no
centro
no
centro
no
Ubicazione
Vendita on
line
periferia
no
Tot
Semicentro
no
centro
si
Tot
si
no
Centro
2
2
4
Semic
entro
0
2
2
Perif.
1
2
3
3
6
9
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
8
Distribuzione doppia di frequenza
Ubicazione
Vendita on
line
Tot
Tot
si
no
Centro
2
2
4
Semic
entro
0
2
2
Perif.
1
2
3
3
6
9
Qual è la proporzione di
p.v. ubicati in centro?
Nel sottoinsieme dei p.v.
che effettuano anche la
vendita on line, qual è
la proporzione di p.v.
ubicati in centro?
Qual è la proporzione di
p.v. che vendono anche
on line?
Nel sottoinsieme di p.v.
ubicati in periferia, qual è
la proporzione di p.v. che
vendono anche on line?
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
9
Distribuzione doppia di frequenza
Y
y1
X1
…
yj
Tot
…
yK
n11
n1j
n1k
n1.
ni1
nij
nik
ni.
nH1
nHj
nHK
nH.
n.1
n.j
n.K
n
…
X
Xi
…
xH
Tot
2 distribuzioni marginali
H distribuzioni parziali di Y, condizionate ad ogni valore di X
K distribuzioni parziali di X, condizionate ad ogni valore di Y
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
10
X carattere quantitativo
Nella distribuzione marginale e in ogni
distribuzione parziale condizionata a una data
modalità di Y possiamo calcolare indici di:
• Tendenza centrale
• Dispersione
• Asimmetria
Avremo quindi, ad esempio, la media e la
varianza condizionata, la mediana marginale
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
11
X carattere qualitativo
Nella distribuzione marginale e in ogni
distribuzione parziale condizionata a una data
modalità di Y possiamo calcolare indici di:
• Tendenza centrale
• Eterogeneità
Avremo quindi, ad esempio, la moda
marginale, l’indice di entropia condizionato
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
12
Relazioni tra variabili:
indipendenza
Quando si osservano due caratteri X e Y
diventa interessante studiare la relazione tra
di essi
Se tra X e Y non c’è alcun legame
X e Y sono indipendenti statisticamente
Tra due caratteri esiste indipendenza
statistica quando la conoscenza della
modalità di uno dei due caratteri non
migliora la “previsione” della modalità
dell’altro
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
13
Associazione
In presenza di un qualche legame
(associazione) tra X e Y, lo studio della
relazione tra i due caratteri richiede di:
• distinguere la tipologia di caratteri che si
esaminano
• specificare se si è interessati a studiare la
dipendenza o l’interdipendenza
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
14
Dipendenza e interdipendenza
Dipendenza:
studia come le modalità di un carattere
dipendano da quelle di un altro carattere
secondo un legame unidirezionale
Interdipendenza:
Si assume che i due caratteri abbiano lo
stesso ruolo e che il legame sia bidirezionale
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
15
Caratteri qualitativi sconnessi
Tabella doppia di frequenza
Frequenze osservate nij
Frequenze teoriche (quelle se si
osserverebbero in caso di indipendenza
ni. n.j
statistica) '
nij
n
La condizione di indipendenza statistica si
verifica a partire dalle differenze cij tra
ciascuna frequenza osservata e la
corrispondente frequenza teorica cij nij nij'
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
16
Freq. osservate e freq. teoriche
Y
y1
X1
…
yj
Tot
…
Freq. osservate
yK
n11
n1j
n1k
n1.
ni1
nij
nik
ni.
…
X
Xi
Freq. che si
utilizzano per
ricavare le
freq. teoriche
…
xH
Tot
nH1
nHj
nHK
nH.
n.1
n.j
n.K
n
n
'
ij
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
ni.
n.j
n
17
Frequenze osservate
Ubicazione
Vendita on
line
Tot
Tot
si
no
Centro
2
2
4
Semice
ntro
0
2
2
Perif.
1
2
3
3
6
9
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
18
Frequenze teoriche
Ubicazione
Vendita on
line
Tot
Tot
si
no
Centro
4 3
9
4 6
9
4
Semice
ntro
2 3
9
3 3
9
2 6
9
3 6
9
2
3
6
9
Perif.
Se ci fosse
indipendenza
statistica quali
sarebbero le
frequenze
congiunte?
3
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
19
Frequenze osservate e teoriche
Tot
Tot
Teoriche
si
no
Centro
2
2
4
Semice
ntro
0
2
2
Perif.
1
2
3
Ubicazione
Ubicazione
Osservate
Vendita on
line
3
6
9
Tot
Vendita on
line
Tot
si
no
Centro
1,33
2,67
4
Semice
ntro
0,67
1,33
2
Perif.
1
2
3
3
6
9
Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate
Non c’è indipendenza statistica tra i due caratteri
Qual è il grado di associazione tra i due caratteri?
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
20
Indice Chi-quadrato
Studia l’interdipendenza tra due caratteri
qualitativi sconnessi a partire da una tabella
doppia
H
2
i 1 j
2
2
cij2
'
n
1
ij
K
cij
nij
0
indipendenza statistica
0
interdipendenza
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
n
'
ij
21
Indice V di Cramer
Indice relativo per misurare l’associazione
(interdipendenza) tra due caratteri qualitativi
V
V=0
V=1
2
min H
/n
1, K
1
0
V
1
indipendenza statistica
associazione perfetta
Più V si avvicina ad 1 e più aumenta il grado
di associazione tra X e Y
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
22
Calcolo di χ2 e V
2
2 1,33
1,33
0 0,67
0,67
1 1
1
2
2
2
2 2,67
2,67
2 1,33
1,33
2 2
2
2
0,33 0,17
0,33 0,67 1,5
2
2
2
H=3, K=2 quindi il minimo
tra H-1 e K-1 è uguale a 1
V
1,50
9
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
0,41
23
Dipendenza perfetta
Un carattere Y dipende perfettamente da X quando
a ogni modalità di X è associata una sola modalità
di Y, ossia quando in una tabella doppia per ogni i
c’è un solo j per il quale nij≠0
Vendita on line
Tot
Tot
si
no
Centro
4
0
4
Semicentro
0
2
2
Perif.
0
3
3
5
5
9
In questa tabella la vendita
on line (Y) dipende
perfettamente
dall’ubicazione (X)
Attenzione X non dipende
da Y
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
24
Interdipendenza perfetta
Tra due caratteri X e Y esiste interdipendenza
perfetta se a ogni modalità di uno dei due caratteri
corrisponde una e una sola modalità dell’altro
carattere e viceversa.
Y
Tot
Tot
y1
y2
y3
x1
4
0
0
4
x2
0
2
0
2
x3
0
0
3
3
4
2
3
9
Attenzione la tabella è
quadrata!
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
25
Per caratteri che non sono
qualitativi sconnessi
Se X e/o Y sono qualitativi ordinati o
quantitativi (in classi), un’analisi esplorativa
sulla tabella doppia con l’indice Chi-quadrato
è sempre possibile
Tuttavia ci sono indici più opportuni da
utilizzare
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
26
Interdipendenza tra due caratteri
quantitativi
quadrante II
y
quadrante I
Y
y
x
quadrante III
Consideriamo un diagramma
di dispersione in cui l’origine
degli assi sia stata traslata
sul
baricentro
(variabili
scarto):
quadrante IV
x
X
Classifichiamo le coordinate dei punti nei 4 quadranti secondo il loro segno algebrico:
quadrante
segno algebrico
Xi
I
II
III
IV
x
+
+
Yi
y
+ Scostamenti concordi
+
- Scostamenti discordi
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
Interdipendenza tra due caratteri quantitativi
Perciò i prodotti degli scarti avranno segno positivo per i punti del
I e III quadrante e negativo per i punti del II e IV quadrante.
La somma dei prodotti degli scarti, chiamata codevianza tra X e
Y, sintetizza la distribuzione dei punti nei 4 quadranti:
>0
prevalgono i punti nel I e III quadrante:
relazione positiva (concordanza)
n
i 1
xi x
yi y
0
< 0
punti uniformemente distribuiti nei 4
quadranti:
relazione circa nulla
prevalgono i punti nel II e IV quadrante:
relazione negativa (discordanza)
Occorre però eliminare dalla codevianza l’influenza della numerosità delle
osservazioni, dividendola per n, ottenendo quindi la covarianza
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
Interdipendenza tra due caratteri
quantitativi
Covarianza: Indice simmetrico di associazione tra
due variabili quantitative
Cov(X, Y)
XY
1 n
xi
ni1
x yi
y
Cov > 0 se prevalgono scostamenti concordi di X e Y
(bassi valori di X corrispondenti a bassi valori di Y
oppure alti valori di X corrispondenti a alti valori di Y).
Cov < 0 se prevalgono scostamenti discordi (alti valori
di una variabile associati a bassi valori dell’altra
variabile)
Cov = 0 in assenza di relazione lineare tra X e Y
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
29
Covarianza nulla
Cov(X,Y)=0
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
30
Covarianza positiva (concordanza)
Cov(X,Y)>0
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
31
Covarianza negativa (discordanza)
Cov(X,Y)<0
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
32
Legame non lineare
La relazione tra X e Y
non è di tipo lineare
Ci aspettiamo un
valore di Cov(X,Y)
prossimo allo 0, il che
indica assenza di
legame lineare
X e Y NON sono
indipendenti, ma legati
da una forte relazione
di tipo non lineare
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
33
Correlazione lineare
Eliminare l’influenza sulla covarianza delle differenti unità di misura scelte,
dividendo la suddetta quantità per le deviazioni standard delle due variabili.
Indice di correlazione lineare di Bravais-Pearson
n
Corr(X, Y)
XY
XY
X
Y
i 1
n
i 1
1
XY
1
0
x
2
n
i 1
1
y
yi
y
XY
1
2
correlazione lineare positiva perfetta
0
assenza di legame lineare
1
XY
XY
xi
x yi
0 correlazione negativa
XY
XY
xi
1
correlazione positiva
correlazione lineare positiva perfetta
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
34
Correlazione lineare
Il segno algebrico del coefficiente
covarianza
xy
dipende dalla
Tra due variabili X e Y esiste correlazione positiva
(concordanza)
se al crescere di X
anche Y, nel
complesso, tende a crescere e se al diminuire di X
anche Y , nel complesso, tende a diminuire.
La correlazione è invece negativa (discordanza) se al
diminuire di X la variabile Y, nel complesso, tende a
crescere e se al diminuire di X, nel complesso, Y tende
a crescere.
Se le variabili sono correlate, i punti del “diagramma di
dispersione” si disporranno secondo un andamento
globale facilmente individuabile: se tale andamento è
lineare, si parlerà di correlazione lineare.
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
35
Correlazione lineare circa nulla
XY
0
XY
X
Y
I quadrante
II quadrante
Y
Y
III quadrante
IV quadrante
X
X
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
Correlazione lineare positiva
XY
0
XY
X
Y
I quadrante
II quadrante
Y
Y
III quadrante
IV quadrante
X
X
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
Correlazione lineare negativa
XY
0
XY
X
Y
I quadrante
II quadrante
Y
Y
III quadrante
IV quadrante
X
X
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
Correlazione lineare perfetta
ρ=1
Perfetta correlazione
positiva
ρ=-1
Perfetta correlazione
negativa
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
Calcolo della covarianza
Media
Scarti
X
Scarti
Y
(Scarti X) x
(Scarti Y)
Ricavi
(X)
Costi
(Y)
350
205
25
16,11
402,8
200
100
-125
-88,99
11111,1
600
350
275
161,11
44305,6
500
270
175
81,11
14194,4
270
200
-55
11,11
-611,1
180
120
-145
-68,89
9988,9
205
105
-120
-83,89
10066,7
340
210
15
21,11
316,7
280
140
-45
-48,89
2200,0
325
188,89
1 n
xi
ni1
x
yi
y
Cov(X, Y)
91975
9
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
10219,44
40
Calcolo del coefficiente di
correlazione lineare
Ricavi
(X)
Media
Costi
(Y)
350
205
200
100
600
350
500
270
270
200
180
120
205
105
340
210
280
140
325
188,89
Dev std 134,66
Cov(X, Y)
XY
X
Y
10219,44
10219,44
134,66 78,48
0,97
C’è una forte concordanza
tra ricavi e costi
78,48
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
41
Ancora sulla covarianza
formule alternative per i calcoli
Codevianza(X, Y)
n
i 1
Cov(X, Y)
xi
Codev(X, Y)
n
x yi
y
1
n
xi y y
n
i 1
n
i 1
xi yi
nx y
xy
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
42
Relazioni tra variabili: riepilogo
Tipo di relazione Caratteri
Struttura
dati
Indici
Interdipendenza qualsiasi
(se qualitativi
tra X e Y
Tabella
doppia di
frequenze
χ2
Dipendenza in
media di Y da X
Valori
η2 (relativo)
raggruppati
in base alle
modalità di X
sconnessi è l’unico
tipo di relazione da
studiare)
Y quantitativo
X qualsiasi
(se qualitativo
continuo, in classi)
Interdipendenza quantitativi
tra X e Y
(concordanza/di
scordanza)
Coppie di
valori
V (relativo)
Cov
ρ (relativo)
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
43
Relazioni tra variabili: applicazioni
Si vuole investire nel mercato azionario italiano e in
quello di un altro Paese con l’obiettivo di diversificare
il portafoglio.
Sulla base delle serie mensili delle variazioni del
Morgan Stanley Capital Index (MSCI) riferito a Italia,
Germania, Francia e Singapore si hanno i seguenti
risultati:
ρ
Italia-Francia
0.87
Italia-Germania
0.88
Italia-Singapore
0.63
Il suggerimento è di investire in titoli azionari
italiani e di Singapore. Perché?
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
44
Relazioni tra variabili: applicazioni
Dalla teoria economica sappiamo che esiste una
relazione tra la variabile produzione (misurata
tramite il valore aggiunto) e gli input fattore capitale
e fattore lavoro.
Dalle serie storiche (1970-1983) delle tre variabili si
ottengono i grafici di dispersione del valore aggiunto
e, rispettivamente, l’input di capitale e l’input di
lavoro
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
45
Relazioni tra variabili: applicazioni
Il valore aggiunto ha una correlazione maggiore
con l’input di capitale (grafico a sinistra) che con
l’input di lavoro (grafico a destra)
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
46
Relazione tra variabili
esempio… [rif. Bracalente et al.2009]
Per decidere le dimensioni di nuovo punto vendita, una catena di supermercati ha effettuato
un’indagine per studiare la relazione tra dimensione del negozio e le vendite settimanali. A tale
proposito viene estratto un campione di 10 supermercati:
IPOTESI DI RICERCA: Si ipotizza che a maggiori spazi espositivi tendano a corrispondere valori più elevati
delle vendite
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
Rappresentiamo graficamente la distribuzione doppia
V
o
l
u
m
e
350
300
250
200
v 150
e
100
n
d 50
i
0
t
0,0
e
50,0
100,0
150,0
200,0
Spazio espositivo
Calcoliamo la correlazione lineare
Il coefficiente di correlazione lineare è molto altro
=0,893
Per studiare tale relazione dovremmo utilizzare un modello di regressione lineare
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti