Esercitazione IX: Le distribuzioni doppie
Esercizio 1
La seguente tabella mostra la distribuzione doppia rispetto al Numero di stanze (Y) e al Numero di
componenti (X) di un collettivo di 104 famiglie.
Numero di stanze
Numero
Totale
componenti
1
2
3
4
1
10
6
4
2
22
2
8
10
12
0
30
3
0
9
12
4
25
4
0
5
15
7
27
Totale
18
30
43
13
104
a)
Calcolare la generica frequenza assoluta cumulata e la generica frequenza relativa
cumulata della famiglie che hanno 2 componenti e 3 stanze.
b)
Calcolare la distribuzione condizionata del numero di stanze rispetto al numero dei
componenti di una famiglia.
Calcolare il numero medio di stanze e la varianza rispetto al numero di componenti di una
famiglia.
c)
a)Frequenza assoluta cumulata della famiglie che hanno 2 componenti e 3 stanze.
i
j
N ij = ∑∑ n ij
h =1 l =1
i=2
j=3
N 23 = n11 + n12 + n13 + n 21 + n 22 + n 23
N 23 = 10 + 6 + 4 + 8 + 10 + 12 = 50
Frequenza relativa cumulata della famiglie che hanno 2 componenti e 3 stanze
N
Fij = ij
n
50
Fij =
= 0,48
104
b)Distribuzione condizionata del numero di stanze rispetto al numero dei componenti di una
famiglia.
Numero
Numero di stanze
componenti
1
2
1
0,45
0,27
2
0,27
0,33
3
0,00
0,36
4
0,00
0,19
3
0,18
0,40
0,48
0,56
4
0,09
0,00
0,16
0,26
1
Totale
1,00
1,00
1,00
1,00
n
22
30
25
27
c) Media condizionata del numero di stanze (Y) rispetto al numero di componenti di una famiglia
(X).
Numero
componenti
1
10
8
0
0
18
1
2
3
4
Totale
Numero di stanze
2
3
6
4
10
12
9
12
5
15
30
43
K
µ( Y X = x i ) =
∑y n
j=1
j
ij
n i0
(1 ⋅ 10) + (2 ⋅ 6) + (3 ⋅ 4) + (4 ⋅ 2)
= 1,91
22
(1 ⋅ 8) + (2 ⋅ 10) + (3 ⋅12) + (4 ⋅ 0)
µ(Y X = 2) =
= 2,13
30
(1⋅ 0) + (2 ⋅ 9) + (3 ⋅12) + (4 ⋅ 4)
= 2,80
µ(Y X = 3) =
25
(1 ⋅ 0) + (2 ⋅ 5) + (3 ⋅ 15) + (4 ⋅ 7)
= 3,07
µ(Y X = 4) =
27
µ(Y X = 1) =
2
4
2
0
4
7
13
Totale
22
30
25
27
104
Varianza condizionata del numero di stanze (Y) rispetto al numero di componenti di una famiglia
(X).
Numero di stanze
Numero
Totale
componenti
1
2
3
4
1
10
6
4
2
22
2
8
10
12
0
30
3
0
9
12
4
25
4
0
5
15
7
27
Totale
18
30
43
13
104
K
σ 2 (Y X = x i ) =
∑ (y
j=1
j
− µ(Y X = x i )) 2 n ij
n i0
(1 − 1,91) 210 + (2 − 1,91) 2 6 + (3 − 1,91) 2 4 + (4 − 1,91) 2 2
22
8,281 + 0,049 + 4,752 + 8,736
2
σ (Y X = 1) =
= 0,99
22
σ 2 (Y X = 1) =
(1 − 2,13) 2 8 + (2 − 2,13) 210 + (3 − 2,13) 212 + (4 − 2,13) 2 0
30
10,215 + 0,169 + 9,083 + 0
2
σ ( Y X = 2) =
= 0,65
30
σ 2 ( Y X = 2) =
(1 − 2,80) 2 0 + (2 − 2,80) 2 9 + (3 − 2,80) 212 + (4 − 2,80) 2 4
25
0
+
5
,
76
+
0
,
48
+
5
,
76
σ 2 (Y X = 3) =
= 0,48
25
σ 2 (Y X = 3) =
(1 − 3,07) 2 0 + (2 − 3,07) 2 5 + (3 − 3,07) 215 + (4 − 3,07) 2 7
27
0 + 5,725 + 0,074 + 6,054
2
σ ( Y X = 4) =
= 0,44
27
σ 2 ( Y X = 4) =
3
Esercizio 2
A partire dalle seguenti distribuzioni di frequenze semplici costruire la tabella a doppia entrata di
frequenze nel caso di indipendenza statistica tra i due caratteri.
Giudizio
Scadente Mediocre
Film (Y)
Frequenza
75
90
Giudizio
Colonna
Scadente Mediocre
Sonora
(X)
Frequenza
68
82
n *ij =
Buono
Ottimo
Totale
68
42
275
Buono
Ottimo
Totale
70
55
275
n i0n 0 j
n
Giudizio
Giudizio Film
Totale
Colonna
Scadente Mediocre Buono Ottimo
Sonora
Scadente
18,55
22,25 16,81 10,39
68
Mediocre
22,36
26,84 20,28 12,52
82
Buono
19,09
22,91 17,31 10,69
70
Ottimo
15,00
18,00 13,60
8,40
55
Totale
75
90
68
42
275
n10 n 01 68 × 75
=
= 18,55
n
275
n n
70 × 90
n *32 = 30 02 =
= 22,91
n
275
∗
n11
=
4
Esercizio 3
Nella seguente tabella è data la distribuzione congiunta secondo il Sesso, il Peso (in kg) e la statura
(in cm) di un collettivo di 412 individui.
Statura
40-50
160-165
165-170
170-175
175-185
Totale
Peso maschi
Peso femmine
50-75
75-90
40-50
50-75
75-90
7
27
10
25
15
2
5
40
24
28
44
5
2
22
35
6
15
5
1
6
42
1
35
10
15
95
111
60
109
22
Totale
86
146
85
95
412
1) Confrontare la statura media dei maschi rispetto a quella delle femmine per ciascuna classe di
peso (distribuzione condizionata della statura rispetto alle classi di peso dei maschi e delle
femmine).
2) Confrontare il peso medio dei maschi rispetto a quello delle femmine per ciascuna classe di
statura (distribuzione condizionata del peso rispetto alle classi di statura dei maschi e delle
femmine)
1) Confrontare la statura media dei maschi rispetto a quella delle femmine per ciascuna classe di
peso (distribuzione condizionata della statura rispetto alle classi di peso dei maschi e delle
femmine).
Statura
160-165
165-170
170-175
175-185
Totale
n
40-50
0,47
0,33
0,13
0,07
1,00
15
Peso maschi
50-75
0,28
0,42
0,23
0,07
1,00
95
75-90
0,09
0,22
0,31
0,38
1,00
111
40-50
0,42
0,47
0,10
0,02
1,00
60
Peso femmine
50-75
75-90
0,14
0,09
0,40
0,23
0,14
0,23
0,32
0,45
1,00
1,00
109
22
2) Confrontare il peso medio dei maschi rispetto a quella delle femmine per ciascuna classe di
statura (distribuzione condizionata del peso rispetto alle classi di statura dei maschi e delle
femmine).
Statura
160-165
165-170
170-175
175-185
40-50
0,08
0,03
0,02
0,01
Peso maschi
50-75
75-90
0,31
0,12
0,27
0,16
0,26
0,41
0,06
0,44
Peso femmine
40-50
50-75
75-90
0,29
0,17
0,03
0,19
0,31
0,04
0,07
0,18
0,06
0,01
0,37
0,11
5
Totale
1,00
1,00
1,00
1,00
n
86
146
85
95
Esercizio 4
Calcolare il voto medio in statistica e la varianza rispetto al livello di conoscenza della matematica.
Classi di voto di statistica
Livello di
conoscenza
della matematica 18-22 23-27 28-30 Totale
Insufficiente
16
18
6
40
Sufficiente
15
14
9
38
Buono
2
9
15
26
Ottimo
3
6
18
27
Totale
36
47
48
131
Distribuzione condizionata del voto in statistica (Y) rispetto al livello di conoscenza della
matematica (X).
K
µ( Y X = x i ) =
∑y n
j=1
j
ij
n i0
(20 ⋅ 16) + (25 ⋅ 18) + (29 ⋅ 6)
= 23,60
40
(20 ⋅15) + (25 ⋅14) + (29 ⋅ 9)
= 23,97
µ(Y X = suff ) =
38
(20 ⋅ 2) + (25 ⋅ 9) + (29 ⋅15)
= 26,92
µ(Y X = buono) =
26
(20 ⋅ 3) + (25 ⋅ 6) + (29 ⋅18)
= 27,11
µ(Y X = ottimo) =
27
µ(Y X = insuff ) =
6
All’aumentare del livello di conoscenza della matematica aumenta il voto nell’esame di statistica.
K
σ (Y X = x i ) =
2
∑ (y
j=1
j
− µ(Y X = x i ))2 n ij
ni0
(20 − 23,60) 216 + (25 − 23,60) 218 + (29 − 23,60) 2 6
40
207,36 + 35,28 + 174,96
2
σ (Y X = insuf ) =
= 10,44
40
σ 2 (Y X = insuf ) =
(20 − 23,97) 215 + (25 − 23,97) 214 + (29 − 23,97) 2 9
38
236,41 + 14,85 + 227,71
2
σ (Y X = suff ) =
= 12,60
38
σ 2 (Y X = suff ) =
(20 − 26,92) 2 2 + (25 − 26,92) 2 9 + (29 − 26,92) 215
26
+
+
95
,
77
33
,
18
64
,
90
σ 2 (Y X = buono) =
= 7,46
26
σ 2 (Y X = buono) =
(20 − 27,11) 2 3 + (25 − 27,11) 2 6 + (29 − 27,11) 218
27
151,66 + 26,71 + 64,30
2
σ (Y X = ottimo) =
= 8,99
27
σ 2 (Y X = ottimo) =
Esercizio 5
La seguente tabella mostra la distribuzione doppia di frequenze di un collettivo di 133 operai
disoccupati del settore edile, rispetto all’età e alla durata del periodo di disoccupazione (in giorni):
Durata
1-7
8-14
15-30
>30
Totale
<35
40
25
5
7
77
Età
≥ 35
23
8
12
13
56
1) Determinare la distribuzione di frequenze semplici della variabile “Durata del periodo di
disoccupazione”.
2) Determinare le distribuzioni percentuali condizionate della variabile “Durata del periodo di
disoccupazione”, per ogni classe di età.
3) Commentare la relazione tra età e durata del periodo di disoccupazione.
7
1) Determinare la distribuzione di frequenze semplici della variabile “Durata del periodo di
disoccupazione”.
Durata
1-7
8-14
15-30
>30
Totale
Frequenza assoluta
63
33
17
20
133
2) Determinare le distribuzioni percentuali condizionate della variabile “Durata del periodo di
disoccupazione”, per ogni classe di età.
Età
Durata
1-7
8-14
15-30
>30
Totale
n
<35
51,95
32,47
6,49
9,09
100,00
77
≥ 35
41,07
14,29
21,43
23,21
100,00
56
3) Commentare la relazione tra età e durata del periodo di disoccupazione.
Passando dalla prima classe di età alla seconda, la percentuale di individui il cui periodo di
disoccupazione dura più di 14 giorni quasi si triplica. Infatti, mentre nella prima classe di età è del
15,58% (6,49+9,09) nella seconda è del 44,64% (21,43+23,21). Ciò mette in luce come passando da
disoccupati giovani (<35 anni) a disoccupati adulti ( ≥ 35 anni) la durata della disoccupazione tenda
a crescere.
8
Indici di connessione
Esercizio 6
Misurare il grado di connessione tra le variabili mediante l’indice χ 2 di Pearson, l’indice di
contingenza quadratica media Φ 2 , gli indici relativi di connessione unilaterale, l’indice medio di
contingenza di Cramer, l’indice di Tschuprov e il coefficiente di contingenza quadratica media di
Pearson.
Attitudine
Discipline Discipline Discipline
Sesso
artistiche umanitarie scientifiche Totale
Maschi
29
110
18
157
Femmine
69
44
24
137
Totale
98
154
42
294
Indice χ 2 di Pearson
I
J
χ = ∑∑
2
i =1 j=1
(n ij − n ∗ij ) 2
n ∗ij
Costruire la tabella teorica di connessione nulla ( n ∗ij )
Attitudine
Discipline
artistiche
Sesso
Maschi
Femmine
Totale
n i0n 0 j
n *ij =
n
Discipline
umanitarie
52,33
45,67
98
Calcolare quindi
(n ij − n ∗ij ) 2
n *ij
Discipline
scientifiche
82,24
71,76
154
Totale
22,43
19,57
42
157
137
294
si ottiene la tabella di connessione nulla
Attitudine
Discipline
artistiche
Sesso
Maschi
Femmine
I
J
χ 2 = ∑∑
i =1 j=1
Discipline
umanitarie
10,40
11,92
Discipline
scientifiche
9,37
10,74
0,87
1,00
(n ij − n ∗ij ) 2
n ∗ij
χ 2 = 10,40 + 9,37 + 0,87 + 11,92 + 10,74 + 1,00 = 44,30
Essendo χ 2 > 0 il risultato indica che tra i due caratteri esiste una connessione e cioè che l’attitudine
a determinate materie è in qualche modo legata al sesso.
9
Indice di contingenza quadratica media
χ2
Φ2 =
n
44,30
Φ2 =
= 0,15
294
Indici relativi di connessione unilaterali
Φ2
2
ϕx / y =
s −1
0,15
ϕ2x / y =
= 0,15
2 −1
Φ2
t −1
0,15
=
= 0,075
3 −1
ϕ 2y / x =
ϕ2y / x
Indici relativi bilaterali di connessione
Indice medio di connessione di Cramér
Φ2
ϕ2 =
min(s − 1, t − 1)
0,15
ϕ2 =
= 0,15
1
Indice di Tschuprov
Φ2
T=
(s − 1)( t − 1)
0,15
T=
= 0,11
(2 − 1)(3 − 1)
Coefficiente di contingenza quadratica di Pearson
C=
Φ2
χ2
=
1+ Φ2
n + χ2
C=
0,15
44,30
=
= 0,36
1 + 0,15
294 + 44,30
10
Esercizio 7
Misurare il grado di connessione tra le variabili mediante l’indice χ 2 di Pearson, l’indice di
contingenza quadratica media Φ 2 , gli indici relativi di connessione unilaterale, l’indice ϕ 2 di
Cramer, l’indice di Tschuprov e il coefficiente di contingenza quadratica media di Pearson.
Titolo di studio dell'intervistata
Titolo di studio Licenza Licenza
Totale
Diploma Laurea
del coniuge
elementare media
Lic. elementare
172
44
10
1
227
Licenza media
70
105
65
3
243
Diploma
18
72
195
35
320
Laurea
1
7
110
92
210
Totale
261
228
380
131 1000
Indice χ 2 di Pearson
I
J
χ = ∑∑
2
i =1 j=1
(n ij − n ∗ij ) 2
n ∗ij
Costruire la tabella teorica di connessione nulla ( n ∗ij )
n *ij =
n i0n 0 j
n
Titolo di studio dell'intervistata
Titolo di studio Licenza Licenza
Totale
Diploma Laurea
del coniuge
elementare media
Lic. elementare
59,25 51,76
86,26 29,74
227
Licenza media
63,42 55,40
92,34 31,83
243
Diploma
83,52 72,96 121,60 41,92
320
Laurea
54,81 47,88
79,80 27,51
210
Totale
261
228
380
131 1000
Calcolare quindi
(n ij − n ∗ij ) 2
n *ij
si ottiene la tabella di connessione nulla
Titolo di studio dell'intervistata
Titolo di studio Licenza Licenza
Diploma Laurea
del coniuge
elementare media
Lic. elementare
214,56
1,16
67,42 27,77
Licenza media
0,68 44,41
8,09 26,11
Diploma
51,40
0,01
44,31
1,14
Laurea
52,83 34,90
11,43 151,18
I
J
χ = ∑∑
2
i =1 j=1
(n ij − n ∗ij ) 2
n ∗ij
χ 2 = 214,56 + 1,16 + 67,42 + 27,77 + 0,68 + 44,41 + 8,09 +
+ 26,11 + 51,40 + 0,01 + 44,31 + 1,14 + 52,83 + 34,90 + 11,43 + 151,18 = 734,40
11
Essendo χ 2 > 0 il risultato indica che tra i due caratteri esiste una connessione e cioè che il titolo di
studio dell’intervistata è in qualche modo legata al titolo di studio del marito.
Indice di contingenza quadratica media
χ2
Φ2 =
n
734,40
Φ2 =
= 0,73
1000
Indici relativi di connessione unilaterali
Φ2
s −1
0,73
=
= 0,24
4 −1
ϕ2x / y =
ϕ 2x / y
Φ2
ϕ =
t −1
0,73
ϕ 2y / x =
= 0,2
4 −1
2
y/ x
Indici relativi bilaterali di connessione
Indice medio di connessione di Cramér
Φ2
ϕ2 =
min(s − 1, t − 1)
0,73
ϕ2 =
= 0,24
3
Indice di Tschuprov
Φ2
T=
(s − 1)( t − 1)
T=
0,73
= 0,24
(4 − 1)(4 − 1)
Essendo s=t ϕ 2x / y = ϕ 2y / x = ϕ 2 = T
Coefficiente di contigenza quadratica del Pearson
C=
Φ2
=
1+ Φ2
χ2
n + χ2
C=
0,73
734,40
=
= 0,65
1 + 0,73
1000 + 734,40
12
Gli indici ϕ2x / y , ϕ2y / x , ϕ 2 , T mettono in evidenza una modesta connessione fra i due caratteri.
Esercizio 8
Misurare il grado di connessione tra le variabili mediante l’indice χ 2 di Pearson, l’indice di
contingenza quadratica media Φ 2 e l’indice ϕ 2 di Cramer.
Calcolare inoltre l’indice lambda di Goodman e Kruskal del tempo occorso per trovare lavoro data
la residenza.
Tempo (in mesi)
Residenza
6 12 18 24 Totale
Nord-Ovest 3 2 0 0
5
Nord-Est
1 2 1 0
4
Centro
45 26 11 23
105
Sud
9 5 2 5
21
Totale
58 35 14 28
135
Indice χ 2 di Pearson
I
J
χ = ∑∑
2
(n ij − n ∗ij ) 2
n ∗ij
i =1 j=1
Costruire la tabella teorica di connessione nulla ( n ∗ij )
n ∗ij =
n i0 ⋅ n 0 j
n
Tempo (in mesi)
Residenza
6
12
18
24 Totale
Nord-Ovest 2,15 1,30 0,52 1,04
5
Nord-Est
1,72 1,04 0,41 0,83
4
Centro
45,11 27,22 10,89 21,78
105
Sud
9,02 5,44 2,18 4,36
21
Totale
58
35
14
28
135
Calcolare quindi
(n ij − n ∗ij ) 2
n *ij
si ottiene la tabella di connessione nulla
Tempo (in mesi)
Residenza
6
12
18
24
Nord-Ovest 0,336 0,377 0,520 1,040
Nord-Est
0,301 0,886 0,849 0,830
Centro
0,000 0,055 0,001 0,068
Sud
0,000 0,036 0,015 0,094
I
J
χ 2 = ∑∑
i =1 j=1
(n ij − n ∗ij ) 2
n ∗ij
χ 2 = 0,336 + 0,377 + 0,520 + 1,040 + 0,301 + 0,886 + 0,849 + 0,830 +
13
+ 0,000 + 0,055 + 0,001 + 0,068 + 0,000 + 0,036 + 0,015 + 0,094 = 5,408
Essendo χ 2 > 0 il risultato indica che tra i due caratteri esiste una connessione e cioè che il tempo
impiegato per trovare lavoro è in qualche modo legato alla zona di residenza.
Indice di contingenza quadratica media
χ2
2
Φ =
n
5,408
Φ2 =
= 0,040
135
Indice medio di connessione di Cramér
Φ2
2
ϕ =
min(s − 1, t − 1)
0,040
ϕ2 =
= 0,013
min(4 − 1)(4 − 1)
Indice lambda di Goodman e Kruskal
Si basa sul miglioramento della previsione di Y data la modalità del carattere X.
Assumiamo la moda del carattere Y in corrispondenza della modalità con frequenza n 0 j più grande
n ij è il max di n1 j n 2 j n 3 j … n it
n 0 j è il max di
s
λx/y =
∑n
i =1
ij
02
n 03 … n0t
− n0j
n − n0j
Residenza X
Nord-Ovest
Nord-Est
Centro
Sud
Totale
λx/y =
n 01 n
Tempo (in mesi) Y
6 12 18 24 Totale
3
2
0
0
5
1
2
1
0
4
45 26 11 23
105
9
5
2
5
21
58 35 14 28
135
(3 + 2 + 45 + 9) − 58
= 0,013
135 − 58
Se si tiene conto della residenza conoscendo il tempo impiegato per trovare lavoro il numero di
errori di previsione diminuirebbero del 1,3%, quindi c’è una bassa associazione.
14
Esercizio 9
Calcolare l’indice lambda di Goodman e Kruskal
professionale
del numero di figli data la condizione
Numero
Posizione nella professione
di figli
Dipend. in azienda Dipend. in
x
Totale
autonomo famigliare
altra azienda
0
38
6
78
122
1
4
2
16
22
2
1
1
3
5
Totale
43
9
97
149
Indice lambda di Goodman e Kruskal
n ij è il max di n1 j n 2 j n 3 j … n it
n 0 j è il max di n 01 n 02 n03… n0t
s
λx/y =
λx/ y
∑n
i =1
ij
− n0j
n − n0j
((78 + 16 + 3) − 97
=
=0
149 − 97
Il numero dei figli non dipende dalla posizione nella professione.
Esercizio 10
Calcolare il rapporto di correlazione del Pearson del voto di laurea dato il sesso.
Voto
81-85 86-90 91-95 96-100
101-105
106-110 e lode
17
26
13
22
11
1
5
11
10
5
18
31
24
32
16
Sesso
M
F
Totale
Rapporto di correlazione del Pearson
t
ηy / x
∑ (µ
1
=
σy
i =1
yi
− µ y )2 n i 0
n
k
µy =
µy =
∑y n
j=1
j
0j
n
(83 ⋅ 18) + (88 ⋅ 31) + (93 ⋅ 24) + (98 ⋅ 32) + (103 ⋅ 16) + (108 ⋅ 45) 16098
=
= 96,98
166
166
15
Totale
19
26
45
108
58
166
k
∑ (y
j=1
σy =
− µ y )2 n 0 j
j
n
y
(y − µ y )2
83
88
93
98
103
108
Totale
( y − µ y )2 n 0 j
n0 j
195,44
80,64
15,84
1,04
36,24
121,44
18
31
24
32
16
45
3517,92
2499,84
380,16
33,28
579,84
5464,80
12475,84
12475,84
= 8,67
166
σy =
Rapporto di correlazione del Pearson
t
ηy / x
∑ (µ
1
=
σy
i =1
yi
− µ y )2 n i 0
n
Oppure
t
∑ (µ
ηy / x =
i =1
yi
− µ y )2 n i0
nσ 2y
Dobbiamo calcolare le medie parziali della distribuzione del voto di laurea rispetto al sesso.
k
µ yi =
∑y n
j =1
j ij
ni0
µ y1 =
(83 ⋅ 17) + (88 ⋅ 26) + (93 ⋅13) + (98 ⋅ 22) + (103 ⋅ 11) + (108 ⋅19) 10249
=
= 94,90
108
108
µ y2 =
(83 ⋅1) + (88 ⋅ 5) + (93 ⋅11) + (98 ⋅ 10) + (103 ⋅ 5) + (108 ⋅ 26) 5849
=
= 100,84
58
58
Sesso
M
F
(µ y − µ y i ) 2 n i0
4,33
14,9
(µ y − µ y i ) 2 n i0
108
58
467,64
864,2
(µ y − µ y i ) 2 n i0
1331,84
16
t
∑ (µ
yi
− µ y )2 n i0
ηy / x =
1
σy
ηy / x =
1 1331,84
1
2,833
=
8,0231 =
= 0,33
8,67
166
8,67
8,67
i =1
n
Vi è una poco elevata dipendenza tra il sesso e il voto di laurea.
Esercizio 11
La tabella seguente riporta i voti (per classi) conseguiti all’esame di statistica da un gruppo di
studenti distinti per livello di conoscenza della matematica. Determinare la dipendenza in media del
voto in statistica rispetto al livello di conoscenza della matematica.
Livello di
Classi di voto di statistica
conoscenza
della matematica 18-22 23-27 28-30 Totale
Insufficiente
16
18
6
40
Sufficiente
15
14
9
38
Buono
2
9
15
26
Ottimo
3
6
18
27
Totale
36
47
48
131
k
µy =
∑y n
j
j=1
0j
n
(20 ⋅ 36) + (25 ⋅ 47) + (29 ⋅ 48)
µy =
= 25,09
131
k
σy =
∑ (y
j=1
− µ y )2 n 0 j
n
(y − µ y )2 n 0 j
y
20
25
29
Totale
σy =
j
25,91
0,01
15,29
(y − µ y )2 n 0 j
36
47
48
932,76
0,47
733,92
1667,15
1667,15
= 3,57
131
17
Rapporto di correlazione del Pearson
t
ηy / x
∑ (µ
1
=
σy
i =1
yi
− µ y )2 n i 0
n
Oppure
t
∑ (µ
ηy / x =
i =1
yi
− µ y )2 n i0
nσ 2y
Dobbiamo calcolare le medie parziali della distribuzione del voto di laurea rispetto al sesso.
Livello di
Classi di voto di statistica
conoscenza
della matematica 18-22 23-27 28-30 Totale
Insufficiente
16
18
6
40
Sufficiente
15
14
9
38
Buono
2
9
15
26
Ottimo
3
6
18
27
Totale
36
47
48
131
k
µ yi =
∑y n
j =1
j ij
ni0
(20 ⋅16) + (25 ⋅18) + (29 ⋅ 6)
µ y1 =
== 23,60
40
(20 ⋅15) + (25 ⋅14) + (29 ⋅ 9)
µ y2 =
= 23,97
38
(20 ⋅ 2) + (25 ⋅ 9) + (29 ⋅ 15)
= 26,92
26
(20 ⋅ 3) + (25 ⋅ 6) + (29 ⋅18)
µ y4 =
= 27,11
27
µ y3 =
Conoscenza
matematica
Insufficiente
Sufficiente
Buono
Ottimo
(µ y − µ y i ) 2 n i0
(µ y − µ y i ) 2 n i0
2,22
1,25
3,35
4,08
40
38
26
27
88,80
47,50
87,10
110,16
(µ y − µ y i ) 2 n i0
333,56
18
t
∑ (µ
yi
− µ y )2 n i 0
ηy / x =
1
σy
ηy / x =
1
333,56
1,596
= 3,57 2,5463 =
= 0,44
3,57
131
3,57
i =1
n
Vi è una dipendenza tra il voto di statistica e il livello di conoscenza della matematica.
Indici di concordanza
Esercizio 12
4 individui hanno le seguenti età e le seguenti altezze calcolare il coefficiente di correlazione
generalizzato e il coefficiente di correlazione lineare.
Età
X
A
B
C
D
25
27
30
40
Altezza
Y
165
168
170
172
Coefficiente di correlazione generalizzato per distribuzioni doppie unitarie
∑ d ij ⋅ δij
Ω=
iji ≠ j
∑d ⋅ ∑δ
2
ij
iji ≠ j
2
ij
iji≠ j
Determinare per ogni coppia la diversità tra età e altezza
Diversità
Diversità
Età
Coppie
Età
Età
Coppie
Statura Statura Statura
d
δ
AB
25
27
2 AB
165
168
3
AC
25
30
5 AC
165
170
5
AD
25
40
15 AD
165
172
7
BA
27
25
-2 BA
168
165
-3
BC
27
30
3 BC
168
170
2
BD
27
40
13 BD
168
172
4
CA
30
25
-5 CA
170
165
-5
CB
30
27
-3 CB
170
168
-2
CD
30
40
10 CD
170
172
2
DA
40
25
-15 DA
172
165
-7
DB
40
27
-13 DB
172
168
-4
DC
40
30
-10 DC
172
170
-2
19
Coppie
AB
AC
AD
BA
BC
BD
CA
CB
CD
DA
DB
DC
Totale
δ d ⋅ δ d2
3
6
4
5 25
25
7 105 225
-3
6
4
2
6
9
4 52 169
-5 25
25
-2
6
9
2 20 100
-7 105 225
-4 52 169
-2 20 100
428 1064
d
2
5
15
-2
3
13
-5
-3
10
-15
-13
-10
δ
2
9
25
49
9
4
16
25
4
4
49
16
4
214
Coefficiente di correlazione generalizzato per distribuzioni doppie unitarie
∑ d ij ⋅ δij
Ω=
iji ≠ j
∑d ⋅ ∑δ
2
ij
iji ≠ j
Ω=
2
ij
iji≠ j
428
428
=
= 0,8969
1064 ⋅ 214 477,18
Tra età e statura esiste un’elevata concordanza.
Coefficiente di correlazione lineare r del Bravais per distribuzioni doppie unitarie
r=
∑x
i
⋅ yi − n ⋅ µ x ⋅ µ y
i
(∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y )
i
i
Oppure
r=
∑ε
i
xi
⋅ ε yi
∑ε ∑ε
i
2
xi
i
2
yi
20
x
y
25
27
30
40
122
165
168
170
172
675
x
2
y2
xy
625 27225
729 28224
900 28900
1600 29584
3854 113933
4125
4536
5100
6880
20641
n
µx =
∑x
i =1
i
n
122
µx =
= 30,5
4
n
µy =
∑y
j=1
j
n
675
µy =
= 168,75
4
r=
∑x
r=
⋅ yi − n ⋅ µ x ⋅ µ y
(∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y )
i
r=
i
i
i
20641 − 4 ⋅ 30,5 ⋅168,75
(3858 − 4 ⋅ 30,52 )(113933 − 4 ⋅ 168,752 )
53,5
53,5
=
= 0,88
137 ⋅ 26,75 60,537
Possiamo affermare che esiste un’elevata concordanza tra l’età e l’altezza dei 4 individui del nostro
collettivo.
Calcoliamo il coefficiente di correlazione lineare utilizzando l’altra formula
∑i ε x i ⋅ ε yi
r=
∑ ε 2x i ∑ ε 2yi
i
ε xi = x i − µ x
i
ε yi = y i − µ y
21
x
ε xi
y
25
27
30
40
122
r=
∑ε
i
xi
-5,5
-3,5
-0,5
9,5
ε x i ⋅ ε yi ε 2x i
-3,75
-0,75
1,25
3,25
20,625
2,625
-0,625
30,875
53,5
ε 2yi
30,25 14,0625
12,25 0,5625
0,25 1,5625
90,25 10,5625
133
26,75
⋅ ε yi
∑ε ∑ε
i
r=
165
168
170
172
675
ε yi
2
xi
i
2
yi
53,5
53,5
=
= 0,90
133 ⋅ 26,75 59,65
La differenza nel risultato è dovuta alle approssimazioni
Esercizio 13
Calcolare l’indice di cograduazione di Spearman della distribuzione in 8 regioni italiane dei Tassi di
attività lavorativa e del PIL pro-capite.
Regione
Piemonte
Lombardia
Liguria
Toscana
Emilia
Romagna
Lazio
Puglia
Sicilia
T.a.l.
PIL
63
61
55
60
6
6,3
6,2
5,3
64
53
51
50
5,9
4,6
3,3
3,2
Indice di cograduazione di Spearman senza unità alla pari
6∑ d i2
i
ρ =1−
n (n 2 − 1)
Dove d i2 = (p i − πi ) 2
ρ =1−
6∑ ( p i − π i ) 2
i
n (n 2 − 1)
Tale indice è positivo se c’è concordanza e negativo se c’è discordanza e varia tra 0 e 1 in caso di
concordanza e tra -1 e 0 in caso di discordanza
22
Regione
Piemonte
Lombardia
Liguria
Toscana
Emilia
Romagna
Lazio
Puglia
Sicilia
ρ =1−
T.a.l.
PIL
63
61
55
60
6
6,3
6,2
5,3
64
53
51
50
5,9
4,6
3,3
3,2
pi
2
3
5
4
πi
3
1
2
5
1
6
7
8
| p i − πi | ( p i − πi ) 2
4
6
7
8
1
2
3
1
1
4
9
1
3
0
0
0
9
0
0
0
24
6∑ ( p i − π i ) 2
i
n (n 2 − 1)
6 ⋅ 24
144
ρ =1−
=1−
= 0,71
2
8(8 − 1)
504
Fra il T.a.l e il Pil esiste una buona concordanza.
Esercizio 14
Calcolare l’indice di cograduazione di Spearman della fra le graduatorie di 60 candidati ad un
concorso per titolo ed esami.
Graduatoria
per titoli
I
I
II
III
IV
Totale
II
1
6
2
1
10
Graduatoria per esami
III
IV
2
3
4
5
3
7
2
2
11
17
V
3
5
5
1
14
0
0
2
6
8
Totale
9
20
19
12
60
Per le unità alla pari si attribuisce ad ognuna il posto medio aritmetico dei posti da esse occupati nel
complesso.
Modalità
pi
n1 +1
2
n1 +
Freq
n1
n2
n +1
n2 +1
n1 + n 2 + 3
…..
2
2
n3
…..
23
n 1 + n 2 + .. + n k −1 +
nk
nk +1
2
Totale
n
Indice di cograduazione di Spearman con unità alla pari
t
s
t
1 3 s 3
3
3 
(
n
n
)
(
n
n
)
−
6
d ij2 ⋅ n ij
−
+
−

∑
∑
∑∑
i0
0j 
2
i =1
j=1
i =1 j=1

ρ=
s
t
( n 3 − ∑ n 3i 0 )(n 3 − ∑ n 30 j )
i =1
j=1
Dove d ij2 = (p i − πi )
2
ρ=
t
s
t
1 3 s 3
3
3 
(
n
n
)
(
n
n
)
−
6
(p i − π j ) 2 ⋅ n ij
−
+
−

∑
∑
∑∑
i0
0j 
2
i =1
j=1
i =1 j=1

s
t
i =1
j=1
(n 3 − ∑ n 3i 0 )(n 3 − ∑ n 30 j )
Tale indice è positivo se c’è concordanza e negativo se c’è discordanza e varia tra 0 e 1 in caso di
concordanza e tra -1 e 0 in caso di discordanza
s
t
Calcolo la ∑∑ (p i − π j ) 2 ⋅ n ij
i =1 j=1
πi
pi
5
19,5
39
54,5
Totale
ρ=
5,5
16
0,25
242
1176
49
2244,5
1587
2401 2964,5
5821,75 4842,5
30
1875
551,25
567
1200,5
4193,75
45,5 56,5 Totale
4920,75
0
7038
3380
0 5156,25
211,25 612,5 5222,25
81
24
6671
8593 636,5 24087,5
t
s
t
1 3 s 3
3
3 
2
(n − ∑ n i 0 ) + (n − ∑ n 0 j ) − 6∑∑ (p i − π j ) ⋅ n ij
2
i =1
j=1
i =1 j=1

s
t
i =1
j=1
(n 3 − ∑ n 3i 0 )(n 3 − ∑ n 30 j )
s
n 3 − ∑ n 3i 0 = 603 − 93 − 203 − 193 − 123 = 198684
i =1
t
n 3 − ∑ n 30 j = 603 − 103 − 113 − 173 − 143 − 83 = 205500
j=1
1
(198684 + 205500) − 6 ⋅ 24087,5
= 0,28
ρ= 2
198684 ⋅ 205500
Fra le due graduatorie vi è concordanza, ma abbastanza bassa.
24
Esercizio 15
Calcolare l’indice di cograduazione di Spearman dei pesi e delle altezze di 10 lanciatori di
giavellotto.
Peso
Altezza
184
168
180
184
185
188
180
177
178
188
93
80
86
94
84
83
80
70
75
70
Indice di cograduazione di Spearman
6∑ d i2
i
ρ =1−
n (n 2 − 1)
Tale indice è positivo se c’è concordanza e negativo se c’è discordanza e varia tra 0 e 1 in caso di
concordanza e tra -1 e 0 in caso di discordanza.
Dove d i2 = (p i − πi ) 2
6∑ ( p i − π i ) 2
ρ =1− i 2
n (n − 1)
Per le unità alla pari si attribuisce ad ognuna il posto medio aritmetico dei posti da esse occupati nel
complesso.
pi
Peso
93
80
86
94
84
83
80
70
75
70
ρ =1−
2
6,5
3
1
4
5
6,5
9,5
8
9,5
Altezza
184
168
180
184
185
188
180
177
178
188
πi
4,5
10
6,5
4,5
3
1,5
6,5
9
8
1,5
| p i − πi | ( p i − πi ) 2
6∑ ( p i − π i ) 2
i
n (n 2 − 1)
25
3,5
3,5
3,5
3,5
1
3,5
0
0,5
0
8
12,25
12,25
12,25
12,25
1
12,25
0
0,25
0
64
126,5
6 ⋅126,5
759
=1−
= 0,23
2
10(10 − 1)
990
Fra il peso e l’altezza esiste una bassa concordanza.
ρ =1−
Esercizio 16
Nella tabella successiva sono riportati i Tassi di attività lavorativa della popolazione (T.a.l) e i
prodotti interni lordi per abitante (PIL/ab.) in milioni di lire di otto regioni italiane nel 1979:
Regione
Piemonte
Lombardia
Liguria
Toscana
Emilia Romagna
Lazio
Puglia
Sicilia
T.a.l.
63
61
55
60
64
53
55
50
PIL
6
6,3
6,2
5,3
5,9
4,6
3,3
3,2
Calcolare il coefficiente di correlazione lineare r di Bravais-Pearson
r=
∑x
i
⋅ yi − n ⋅ µ x ⋅ µ y
i
(∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y )
i
i
y
x
63
61
55
60
64
53
55
50
461
6
6,3
6,2
5,3
5,9
4,6
3,3
3,2
40,8
2
y2
xy
3969
3721
3025
3600
4096
2809
3025
2500
26745
36
39,69
38,44
28,09
34,81
21,16
10,89
10,24
219,32
378
384,3
341
318
377,6
243,8
181,5
160
2384,2
x
n
µx =
∑x
i =1
i
n
=
461
= 57,63
8
=
40,8
= 5,1
8
n
µy =
∑y
i =1
n
i
26
r=
∑x
⋅ yi − n ⋅ µ x ⋅ µ y
i
i
(∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y )
i
i
2384,2 − 8 ⋅ 57,63 ⋅ 5,1
r=
(26745 − 8 ⋅ 57,632 )(219,32 − 8 ⋅ 5,12 )
32,896
32,896
r=
=
= 0,74
175,2648 ⋅ 11,24 44,384
Al crescere del T.a.l. cresce il Pil (correlazione lineare positiva) e tra i due caratteri esiste un’alta
relazione in termini lineari.
Oppure
r=
∑ εx
i
⋅ εy i
i
∑ εx ⋅ ∑ εy
2
i
i
i
x
6
6,3
6,2
5,3
5,9
4,6
3,3
3,2
∑ εx
i
5,37
3,37
-2,63
2,37
6,37
-4,63
-2,63
-7,63
0,9
1,2
1,1
0,2
0,8
-0,5
-1,8
-1,9
4,833
4,044
-2,893
0,474
5,096
2,315
4,734
14,497
33,1
28,8369
11,3569
6,9169
5,6169
40,5769
21,4369
6,9169
58,2169
179,8752
⋅ εy i
i
∑ εx ⋅ ∑ εy
2
i
i
r=
εx i εy i εx i εy i εx i2 εy i2
y
63
61
55
60
64
53
55
50
r=
2
i
2
i
i
33,1
33,1
=
= 0,74
179,8752 ⋅ 11,24 44,96
27
0,81
1,44
1,21
0,04
0,64
0,25
3,24
3,61
11,24
Esercizio 17
Calcolare il coefficiente di correlazione fra X e Y della seguente distribuzione
X
Y
1,4
1,6
3,2
4,5
6,8
6,2
7,5
8,9
5,4
4,8
6
7,8
7,1
5,4
4,5
2,6
∑x
r=
i
⋅ yi − n ⋅ µ x ⋅ µ y
i
(∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y )
i
x
i
y
1,4
1,6
3,2
4,5
6,8
6,2
7,5
8,9
40,1
5,4
4,8
6
7,8
7,1
5,4
4,5
2,6
43,6
x
2
1,96
2,56
10,24
20,25
46,24
38,44
56,25
79,21
255,15
y2
xy
29,16
23,04
36
60,84
50,41
29,16
20,25
6,76
255,62
7,56
7,68
19,2
35,1
48,28
33,48
33,75
23,14
208,19
n
µx =
∑x
i =1
i
n
=
40,1
= 5,01
8
=
43,6
= 5,45
8
n
µy =
r=
∑y
i =1
n
∑x
i
⋅ yi − n ⋅ µ x ⋅ µ y
i
(∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y )
i
r=
i
i
208,19 − 8 ⋅ 5,01⋅ 5,45
(255,15 − 8 ⋅ 5,012 )(255,62 − 8 ⋅ 5,452 )
− 10,246
− 10,246
r=
=
= −0,328
31,278
54,3492 ⋅ 18
All crescere di X la Y decresce (correlazione lineare negativa) e tra i due caratteri esiste una bassa
relazione in termini lineari.
28
Esercizio 18
Nella seguente tabella è data la distribuzione secondo il voto di laurea e il tempo impiegato per
trovare lavoro di 125 individui.
Calcolare il coefficiente di correlazione lineare di Bravais-Pearson.
Tempo (in mesi)
6
12
6
5
14
5
8
2
11
8
2
3
11
10
52
33
Voto
81-85
86-90
91-95
96-100
101-105
106-110
Totale
r=
∑∑ x
i
i
18
3
3
1
3
2
2
14
24
3
4
5
2
4
8
26
Totale
17
26
16
24
11
31
125
⋅ y j ⋅ n ij − n ⋅ µ x ⋅ µ y
j
(∑ x i2 n i 0 − n ⋅ µ 2x )(∑ y i2 n 0 j − n ⋅ µ 2y )
i
i
(83 ⋅ 17) + (88 ⋅ 26) + (93 ⋅ 16) + (98 ⋅ 24) + (103 ⋅ 11) + (108 ⋅ 31)
= 96,16
125
(6 ⋅ 52) + (12 ⋅ 33) + (18 ⋅ 14) + (24 ⋅ 26)
µy =
= 12,67
125
µx =
Calcolo la ∑∑ x i y j nij
i
j
Tempo (in mesi)
6
12
2988
4980
7392
5280
4464
2232
6468
9408
1236
3708
7128
12960
29676
38568
Voto
83
88
93
98
103
108
Totale
Calcolo
∑x n e∑y
2
i
i0
i
x
83
88
93
98
103
108
2
j
18
4482
4752
1674
5292
3708
3888
23796
n0j
j
ni 0
17
26
16
24
11
31
x
2
6889
7744
8649
9604
10609
11664
x 2 ni 0
117113
201344
138384
230496
116699
361584
1165620
29
24
5976
8448
11160
4704
9888
20736
60912
Totale
18426
25872
19530
25872
18540
44712
152952
n0 j
y
6
12
18
24
r=
y
52
33
14
26
36
144
324
576
∑∑ x
i
i
r=
y 2 n0 j
1872
4752
4536
14976
26136
⋅ y j ⋅ n ij − n ⋅ µ x ⋅ µ y
j
(∑ x i2 n i 0 − n ⋅ µ 2x )(∑ y i2 n 0 j − n ⋅ µ 2y )
i
r=
2
i
152952 − 125 ⋅ 96,16 ⋅12,67
(1165620 − 125 ⋅ 96,16 2 ) (26136 − 125 ⋅12,67 2 )
658,6
658,6
=
= 0,09
9776,8 ⋅ 6069,89 7703,51
Esiste una bassa correlazione positiva tra il tempo impiegato per trovare lavoro e il voto di laurea e
tale relazione raggiunge il 9% del suo massimo.
Oppure
r=
∑∑ εx
i
i
⋅ εy j ⋅ nij
j
∑ εx n ⋅ ∑ εy n
2
i
i
2
j
i0
0j
j
εx i = x i − µ x
εy j = y j − µ y
µ x = 96,16
µ y = 12,67
xi εxi εxi2 ni 0 εxi2 ni 0
83
88
93
98
103
108
-13,16
-8,16
-3,16
1,84
6,84
11,84
173,1856
66,5856
9,9856
3,3856
46,7856
140,1856
17
26
16
24
11
31
2944,1552
1731,2256
159,7696
81,2544
514,6416
4345,7536
9776,8
30
εy j εy 2j n0 j εy 2j n0 j
yj
6
12
18
24
-6,67
-0,67
5,33
11,33
Calcolo
∑∑ εx εy n
i
i
2313,4228
14,8137
397,7246
3337,5914
6063,5525
ij
εy j
-6,67
526,6632
761,9808
168,6176
-135,001
-91,2456
-868,701
362,3144
∑∑ εx
i
i
-0,67
44,086
27,336
4,2344
-9,8624
-13,7484
-79,328
-27,2824
5,33
-210,428
-130,478
-16,8428
29,4216
72,9144
126,2144
-129,199
⋅ εy j ⋅ nij
j
∑ εx n ⋅ ∑ εy n
2
i
i
r=
j
52
33
14
26
j
εx i
-13,16
-8,16
-3,16
1,84
6,84
11,84
Totale
r=
44,4889
0,4489
28,4089
128,3689
2
j
i0
0j
j
634,56
634,56
=
= 0,08
9776,8 ⋅ 6063,5525 7699,49
31
11,33
-447,3084
-369,8112
-179,014
41,6944
309,9888
1073,178
428,7272
Totale
-86,9876
289,0272
-23,0048
-73,7472
277,9092
251,3632
634,56