statistica descrittiva - Prof.ssa Mary Fraire / Prof. Bruno Delle Donne

bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
ESERCIZIO 1 – MEDIE ANALITICHE
Data la distribuzione del peso corporeo di un gruppo di malati adulti, appresso riportata, si
calcoli la media aritmetica
Classe di peso
n. malati
--| 50
32
50 --| 55
77
55 --| 60
118
60 --| 65
363
65 --| 75
627
75 --| 85
581
85 -202
Per il calcolo della media, visto che quella data è una distribuzione in classi, occorre individuare
il valore centrale della classe; per poterlo fare è necessario procedere attraverso i seguenti punti:
• è necessario stabilire per la prima classe un ragionevole estremo inferiore, scegliamolo in
45 visto che trattasi di adulti;
• è necessario stabilire per l'ultima un ragionevole estremo superiore, scegliamolo in 100
vista la tendenza al soprappeso delle popolazioni occidentali;
• le classi sono chiuse a destra quindi includono l'estremo superiore ma non quello
inferiore;
pertanto le classi andrebbero lette come 46-50, 51-55, 56-60, 61-65, 66-75, 71-85, 86-100.
Disponendo delle classi come indicato basterà effettuare la semisomma degli estremi per
disporre del valore centrale; pertanto la distribuzione può essere così riscritta:
valore centrale della classe
48
53
58
63
70,5
80,5
93
frequenza
32
77
118
363
627
581
202
La media da calcolare è rappresentata da (per distribuzioni di frequenza):
1 k
M=
⋅ ∑ x i ⋅ ni
media aritmetica (il simbolo più correttamente dovrebbe essere M1)
N i =1
Per lo sviluppo della formula si deve calcolare il prodotto delle modalità per le frequenze;
pertanto viste le dimensioni dei calcoli converrà adottare una origine arbitraria (ad es. 43 = 0) e
fissare un intervallo tra l’origine ed i successivi valori (ad es. 5) così che i valori centrali
diventeranno 1 (=43+1*5), 2 (=43+2*5), 3 (=43+3*5), 4 (=43+4*5), 5,5 (=43+5,5*5), 7,5
(=43+7,5*5), 10 (=43+10*5); pertanto la distribuzione diventa:
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
valore centrale della classe
frequenza
1
2
3
4
5,5
7,5
10
32
77
118
363
627
581
202
Per effettuare i conteggi sopra indicati conviene impostare i calcoli in una tabella con una serie
di colonne in cui svolgiamo i calcoli delle diverse formule:
xi
1
2
3
4
5,5
7,5
10
totale
ni
32
77
118
363
627
581
202
2.000
xi*ni
32
154
354
1.452
3.449
4.358
2.020
11.818
Con tali valori possiamo ottenere:
1
M=
⋅ 11818 = 5 ,909
2000
La media ottenuta è tuttavia riferita all’origine iniziale ed all’incremento fissati arbitrariamente
per comodità di calcolo; per avere il vero valore della media bisogna tener conto che la variabile
effettiva è una trasformata (espressione y=ax+b) di quella arbitraria secondo la seguente
relazione y=5x+43; conoscendo la trasformazione ed applicando la proprietà della media
aritmetica avremo: media = 5*5,909+43 = 72,55.
ESERCIZIO 2 – MEDIE ANALITICHE
Data la distribuzione appresso riportata, si calcolino le medie aritmetica, geometrica, quadratica
e si verifichi la proprietà delle medie di potenza
modalità
frequenza
1
2,5
3
5,5
7
8
10
3
3
5
2
1
1
2
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
Le medie da calcolare sono rappresentate da (per distribuzioni di frequenza):
1 k
M=
⋅ ∑ x i ⋅ ni
media aritmetica (il simbolo più correttamente dovrebbe essere M1)
N i =1
k
Mg =
N
∏
n
xi i
media geometrica (il simbolo più correttamente dovrebbe essere M0)
i =1
k
M2 =
1
⋅
N
∑
x i2 ⋅ ni
media quadratica
i =1
Per lo sviluppo delle diverse formule si deve calcolare:
• il prodotto delle modalità per le frequenze;
• le potenze delle modalità con esponente le frequenze e le produttorie successive dei
risultati;
• i quadrati delle modalità ed il loro prodotto per le frequenze.
Per effettuare i conteggi sopra indicati conviene impostare i calcoli in una tabella con una serie
di colonne in cui svolgiamo i calcoli delle diverse formule:
xi
ni
xi*ni x i ni
xi2
xi2*ni
x jn j
∏
1
3
3
1,00
1
1,00
3,00
2,5
3
8
15,63
16
6,25
18,75
3
5
15
243,00
3.797
9,00
45,00
5,5
2
11
30,25
114.855
30,25
60,50
7
1
7
7,00
803.988
49,00
49,00
8
1
8
8,00
6.431.906
64,00
64,00
10
2
20
100,00
643.190.625
100,00
200,00
totale
17
72
====
=======
====
440,25
Con tali valori possiamo ottenere:
M=
1
⋅ 72 = 4 ,206
17
;
M g = 17 643.190.625 = 3,297
;
M2 =
1
⋅ 440 ,25 = 5 ,089
17
Per verificare la proprietà delle medie di potenza, data da M s −1 ≤ M s ≤ M s +1 , è sufficiente
ricordare quanto indicato nei simboli delle medie (la media aritmetica è M1 e quella geometrica
M0) per verificare che: 3,297( M g = M 0 ) ≤ 4 ,206( M = M1 ) ≤ 5,089( M 2 )
ESERCIZIO 3 – MEDIE LASCHE
È stata rilevata la distribuzione del numero di studenti secondo la votazione attribuita in un
esame universitario, ottenendo i seguenti risultati:
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
votazione
giudizio
insufficiente
mediocre
discreto
buono
ottimo
voto
0-17
18-22
23-25
26-29
30
n. studenti
103
51
27
12
7
Calcolare la moda, la mediana, il terzo quartile ed il 91° percentile, il calcolo deve essere riferito
sia al giudizio che al voto.
Dopo aver rilevato le frequenze cumulate pari a: 103 154 181 193 200 (ottenute dalla frequenza
- n. studenti - scrivendo la prima, sommando la seconda alla prima, sommando la terza al
risultato ottenuto, sommando la quarta al risultato ottenuto e sommando la quinta al risultato
ottenuto) è possibile stabilire:
• la moda è il giudizio insufficiente (o il voto 0-17) essendo la modalità con la massima
frequenza;
• la mediana è il giudizio insufficiente (o il voto 0-17), che presenta una frequenza
cumulata tra 1 e 103, essendo la modalità che biseca la distribuzione ordinata: visto che N
è pari la modalità che occupa i posti 100 (N/2) e 101 (N/2+1) oppure il posto 100,5
(100+1/2);
• il terzo quartile è il giudizio discreto (o il voto 23-25), che presenta una frequenza
cumulata tra 155 e 181, essendo la modalità che lascia a sinistra i ¾ delle frequenze
(quindi 175=200*3/4);
• il 91° percentile è il giudizio buono (o il voto 26-29), che presenta una frequenza
cumulata tra 182 e 193, essendo la modalità che lascia a sinistra il 91% delle frequenze
(quindi 182=200*91/100).
Per la mediana è possibile, limitatamente al voto, individuare il voto esatto con la formula
x1 +
x2 − x1
⋅ (Fe − N e −1 ) in cui, con riferimento alla classe che individua la media lasca, x1
ne
ed x2 sono gli estremi inferiore e superiore, ne è la frequenza, Fe il valore esatto calcolato in
precedenza ed Ne-1 è la frequenza cumulata della classe precedente.
Pertanto risulterà:
•
mediana
= 0+
17 − 0
⋅ (100 ,5 − 0 ) = 16 ,59
103
ESERCIZIO 4 – VARIABILITÀ
Si calcoli per la distribuzione appresso riportata: il campo di variazione, la differenza
interquartilica, lo scarto quadratico medio, la varianza, il coefficiente di variazione e
l’escursione relativa; si verifichi inoltre la proprietà dello scarto semplice dalla media aritmetica
(somma degli scarti uguale zero)
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
età
n. dipendenti
40
41
42
43
44
45
46
47
48
49
totale
37
51
78
34
22
59
81
66
47
25
500
I valori da calcolare sono rappresentati (per distribuzioni di frequenza) da:
R = xN - x 1
campo di variazione
Δ = q3 - q 1
differenza interquartilica
1 k
⋅ ∑ ( x i − M )2 ⋅ n i scarto quadratico medio
N i =1
σ=
(
σ 2 = M 22 − M 2
σ
Cv =
M
δ =
R
)
varianza
coefficiente di variazione
escursione relativa
σ
Per effettuare i conteggi sopra indicati conviene impostare i calcoli in una tabella con una serie
di colonne in cui svolgiamo i calcoli delle diverse formule:
xi
ni
Ni
xi*ni xi - M (xi - M)*ni (xi - M)2 (xi - M)2*ni xi2
xi2*ni
40
41
42
43
44
45
46
47
48
49
37
51
78
34
22
59
81
66
47
25
totale 500
37
88
166
200
222
281
362
428
475
500
1480
2091
3276
1462
968
2655
3726
3102
2256
1225
-4,48
-3,48
-2,48
-1,48
-0,48
0,52
1,52
2,52
3,52
4,52
===
22241
===
-165,83
-177,58
-193,60
-50,39
-10,60
30,56
122,96
166,19
165,35
112,95
0
20,09
12,12
6,16
2,20
0,23
0,27
2,30
6,34
12,38
20,41
743,27
618,34
480,51
74,68
5,11
15,83
186,65
418,46
581,69
510,31
===
3634,84
1600
1681
1764
1849
1936
2025
2116
2209
2304
2401
59200
85731
137592
62866
42592
119475
171396
145794
108288
60025
=== 992959
Con le frequenze cumulate possiamo individuare il 1° quartile che risulta 42 (frequenze da 89 a
166) cioè la modalità che lascia a sinistra ¼ dei casi (125=500/4) ed il 3° quartile che risulta 47
(frequenze da 363 a 428) cioè la modalità che lascia a sinistra ¾ dei casi (375=500*3/4). Il
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
calcolo degli scarti ha richiesto l’individuazione della media aritmetica che è 44,482
(=22.241/500). Con tali valori possiamo ottenere:
campo di variazione
R = 49 – 40 = 9
differenza interquartilica Δ = 47 – 42 = 5
1
scarto quadratico medio σ = 500 ⋅ 3634 ,84 = 2 ,696
σ2 = 992959/500 – 44,4822
varianza
coefficiente di variazione Cv = 2,696/44,482 = 0,061
δ = 9/2,696 = 3,338
escursione relativa
Si rammenta che gli ultimi due indici, essendo coefficienti relativi, consentono un eventuale
confronto con altre distribuzioni. Per quanto attiene, infine, alla verifica della proprietà dello
scarto dalla media, questa risulta già in tabella (sesta colonna) essendo la sua sommatoria uguale
a zero.
ESERCIZIO 5 – MUTABILITÀ
Data la distribuzione del n. degli abitanti di un comune per sesso e condizione professionale,
appresso riportata, si calcoli l’indice di Gini, distintamente per maschi e femmine, sia assoluto
che relativo; si individui quale dei due sessi presenta maggiore mutabilità.
condizione professionale
sesso
Maschi
femmine
studenti
102
123
disoccupati
50
41
casalinghe
24
314
dipendenti
154
49
commercianti
24
35
artigiani
64
33
Liberi professionisti
42
15
pensionati
140
30
L’indice assoluto di Gini è espresso dalla formula:
k
⎛n
S = 1 − ∑ ⎜⎜ i
i =1 ⎝ N
⎞
⎟⎟
⎠
2
k
= 1 − ∑ f i2
i =1
mentre quello relativo risulta
S
S ⋅k
=
max S k − 1
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
Per il calcolo dell’indice di Gini occorrono quindi le frequenze relative ed il loro quadrato;
pertanto conviene impostare la seguente tabella:
maschi
xi
studenti
disoccupati
casalinghe
dipendenti
commercianti
artigiani
liberi professionisti
pensionati
totale
femmine
2
ni
fi
fi
102
50
24
154
24
64
42
140
600
0,170
0,083
0,040
0,257
0,040
0,107
0,070
0,233
1,000
0,029
0,007
0,002
0,066
0,002
0,011
0,005
0,054
0,176
ni
fi
f i2
123
41
314
49
35
33
15
30
640
0,192
0,064
0,491
0,077
0,055
0,052
0,023
0,047
1,000
0,037
0,004
0,241
0,006
0,003
0,003
0,001
0,002
0,296
Con tali valori possiamo ottenere:
indice assoluto di Gini (S):
= 1 – 0,176 = 0,824
per i maschi
;
= 1 – 0,296 = 0,704
per le femmine
;
= 0,704 * 7/6 = 0,821 per le femmine
indice relativo di Gini (S/maxS):
= 0,824 * 7/6 = 0,962 per i maschi
Gli indici relativi, che consentono il confronto tra distribuzioni diverse, evidenziano una
maggiore mutabilità dei maschi rispetto a quella delle femmine; in effetti dall’analisi della stessa
distribuzione si evidenzia una maggiore distribuzione delle frequenze dei maschi nelle diverse
modalità rispetto ad un notevole accentramento di quelle delle femmine intorno a poche
modalità (studenti e casalinghe).
ESERCIZIO 6 – DEVIANZA
Una popolazione è suddivisa nelle seguenti sottopopolazioni; calcolare la devianza di ciascun
gruppo e dell'intera popolazione; verificare la proprietà sulla scomposizione della devianza.
W1
xi
ni
2
5
6
7
9
12
16
3
9
10
Popolazioni di riferimento
W2
xi
ni
xi
3
4
5
7
8
8
5
21
4
2
W3
ni
2
7
12
13
(
19
13
9
19
)
(
)
La devianza può essere ottenuta con la formula: Dev (T ) = N ⋅ M 22 − M 2 = N ⋅ x 22 − x 2
Per poter effettuare i calcoli predisponiamo la tabella per ciascun gruppo (singole popolazioni
W) e per l’intera popolazione:
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
Popolazione W1
xi
ni
2
5
6
7
9
12
16
3
9
10
50
totale
media = 275/50 =
xi2
xi*ni
24
80
18
63
90
275
Popolazione W2
xi
ni
3
4
6
7
8
media = 214/40 =
xi2
xi*ni
8
5
21
4
2
40
24
20
126
28
16
214
xi2*ni
9
16
36
49
64
===
72
80
756
196
128
1232
5,35
Popolazione W3
xi
ni
2
6
12
13
87,10
xi2
xi*ni
19
13
9
19
60
38
78
108
247
471
xi2*ni
4
36
144
169
===
76
468
1296
3211
5051
7,85
Dev(W1) = 60*(5051/60 - 7,852) =
2
5
6
7
9
3
4
6
7
48
400
108
441
810
1807
294,50
Dev(W2) = 40*(1232/40 - 5,352) =
Popolazione totale
xi
4
25
36
49
81
===
5,50
Dev(W1) = 50*(1807/50 – 5,52) =
media = 471/60 =
xi2*ni
ni
1353,65
xi*ni
12
16
3
9
10
8
5
21
4
xi2
24
80
18
63
90
24
20
126
28
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
xi2*ni
4
25
36
49
81
9
16
36
49
48
400
108
441
810
72
80
756
196
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
8
2
6
12
13
totale
media = 960/150 =
2
19
13
9
19
150
16
38
78
108
247
960
64
4
36
144
169
===
128
76
468
1296
3211
8090
6,40
Dev(T) = 150*(8090/150 -6,42) =
1946,00
La proprietà sulla scomposizione della devianza afferma che la devianza totale (intera
popolazione) è data dalla somma delle devianze dei singoli gruppi – Dev(W) – più la devianza
delle medie – Dev(B); pertanto se i gruppi fossero m (nel nostro caso 3) la proprietà sarebbe
espressa dalla relazione:
Dev (T ) =
m
∑ Dev(W i ) +Dev (B )
i =1
Disponiamo già della somma delle devianze dei singoli gruppi che risulta pari a: 294,5 + 87,10
+ 1353,65 = 1735,25; occorre ancora calcolare la devianza delle medie. Per poter effettuare
quest’ultimo calcolo scriviamo la distribuzione delle medie (medie dei singoli gruppi con la loro
frequenza) ed effettuiamo i soliti calcoli.
Popolazioni medie
xi
ni
5,50
5,35
7,85
totale
media = 960/150 =
50
40
60
150
xi*ni
275
214
471
960
xi2
xi2*ni
30,2500
28,6225
61,6225
===
1512,50
1144,90
3697,35
6354,75
6,40
Dev(B) = 150*(6354,8/150 - 6,42) =
210,75
I conteggi effettuati sulla distribuzione delle medie consentono di:
• affermare innanzitutto che la media della popolazione divisa in gruppi (media di tutta la
pop. = 6,4) è pari alla media delle medie;
• verificare la proprietà della scomposizione della devianza; infatti se aggiungiamo alla
somma delle devianze dei gruppi (1735,25) la devianza delle medie (210,75) otteniamo
1946 che è la devianza dell’intera popolazione.
ESERCIZIO 7 – RELAZIONI (REGRESSIONE e CORRELAZIONE)
Sia data la seguente seriazione doppia
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
xi
1
3
5
6
8
23
yi
3
2
0
1
1
7
Calcolare: la regressione di Y su X e quella di X su Y; il coefficiente di correlazione tra X ed Y;
verificare infine la relazione esistente tra il coefficiente di Bravais-Pearson e i due coefficienti di
regressione.
La regressione di Y su X stima la dipendenza della variabile dipendente Y dalla variabile
indipendente X; per il calcolo della regressione dobbiamo calcolare i due parametri della retta
σ xy
by = 2
B0 = y − b y ⋅ x
y=by/xx+B0 dati da:
e
σx
x
x
mentre la regressione di X su Y stima la dipendenza della variabile dipendente X dalla variabile
σ xy
indipendente Y ed è espressa dalla retta x=bx/yy+B0 i cui coefficienti risultano: b x = 2
e
y
σy
B0 = x − b x ⋅ y
y
Il coefficiente di correlazione di Bravais-Pearson, infine, stima l’interdipendenza tra le due
variabili X ed Y (nessuna delle quali è antecedente all’altra) ed è espresso dalla formula
r=
σ xy
σ x ⋅σ y
Risulta quindi necessario calcolare la covarianza ed i due scarti quadratici medi; utilizzando le
formule semplificate per il calcolo di entrambi valori (si rammenta che i simboli sopra segnati
indicano le medie quadratiche ed aritmetiche):
1
2
2
σ
=
⋅ ∑ x i ⋅ yi − x ⋅ y
σ
=
y
−
y
σ x = x 22 − x 2
xy
;
;
y
2
N
Impostiamo pertanto la seguente tabella di calcolo:
tot.
xi
1
3
5
6
8
23
yi
3
2
0
1
1
7
xi2
1
9
25
36
64
135
yi2
9
4
0
1
1
15
da cui è possibile ottenere:
media aritmetica della variabile x
23
- x = 5 = 4 ,6 ;
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
xiyi
3
6
0
6
8
23
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
135
2
media quadratica al quadrato della variabile x - x 2 = 5 = 27 ;
7
- y = 5 = 1 ,4 ;
15
2
media quadratica al quadrato della variabile y - y 2 = 5 = 3
Con le medie sopra calcolate, possiamo ottenere:
media aritmetica della variabile y
- σ
covarianza
=
xy
23
− 4 ,6 ⋅ 1 ,4 = − 1 ,84
5
2
scarto della var. x - σ x = 27 − 4 ,6 = 2 ,417
2
scarto della var. y - σ y = 3 − 1,4 = 1,020
Disponendo di tutti gli elementi necessari possiamo calcolare i parametri delle rette di
regressione:
regressione di Y su X:
by
=
x
−1,84
2 ,417 2
= −0 ,315
;
B0 = 1,4-(-0,315)*4,6 = 2,849 quindi y=-0,315x+2,849
regressione di X su Y:
bx =
y
−1,84
1,020 2
= −1,769
;
B0 = 4,6-(-1,769)*1,4 = 7,077 quindi x=-1,769y+7,077
Inoltre è possibile calcolare anche il coefficiente di correlazione di Bravais-Pearson:
−1,84
r=
= −0 ,747
2 ,417 * 1,020
Dai risultati dell’esercizio è possibile dedurre:
• la regressione della Y sulla X è negativa e la retta è decrescente (vuol dire che la variabile
dipendente Y ha un andamento inverso a quello della variabile indipendente X);
• stessa analisi per la regressione della X sulla Y;
• non è possibile quantificare l’incidenza della dipendenza della Y sulla X o di quella della
X sulla Y essendo i coefficiente di regressione indici che possono assumere qualsiasi
valore;
• la correlazione tra le due variabili è negativa, risultato che era deducibile dall’andamento
inverso delle due variabili;
• la correlazione è più che significativa risultando il coefficiente r pari al 74,7% (si
rammenta che il coefficiente r varia tra -1 e +1).
Infine, la relazione tra coefficiente di correlazione e quelli di regressione è rappresentata da: “il
coefficiente di correlazione è la media geometrica (presa con il segno della covarianza) dei
due coefficienti di regressione”; pertanto la relazione stessa è data da:
r = b y ⋅ b x = − 0 ,315 ⋅ −1,769 = −0 ,747 (il segno meno deriva da quello della covarianza)
x
y
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
ESERCIZIO 8 – RELAZIONI (DIPENDENZA IN MEDIA)
La distribuzione dei contribuenti secondo i caratteri X: condizione professionale e Y: classe di
età - valori in migliaia (le classi includono l'estremo superiore e non quello inferiore) è quella
appresso riportata; si stimi la dipendenza in media del carattere Y dal carattere X; si commenti il
risultato ottenuto.
X: Condizione
professionale
Dipendenti
Artig. e Comm.
Liberi profess.
Totale
14-25
7
3
10
Y: Classi di età
25-40
40-45
45-60
24
44
26
5
12
13
1
14
11
30
70
50
60-75
19
7
14
40
totale
120
40
40
200
Essendo la distribuzione del carattere Y in classi è necessario individuare i valori centrali; si
deve osservare che le classi presentano estremi inferiori non inclusi quindi si dovrebbero leggere
come 15-25, 26-40, 41-45, 46-60 e 61-75.
Poste in quest’ultimo modo le diverse classi del carattere Y, è possibile ottenere il valore centrale
con il solito criterio della semisomma degli estremi di ciascuna classe; pertanto la tabella
riscritta avendo sostituito alle modalità del carattere Y i i valori centrali delle classi, risulta:
X: Condizione
professionale
Dipendenti
Artig. e Comm.
Liberi profess.
totale
20
7
3
10
Y: età (valori centrali)
33
43
53
24
44
26
5
12
13
1
14
11
30
70
50
67
19
7
14
40
totale
120
40
40
200
Per il calcolo dell'indipendenza in media è necessario calcolare il rapporto di correlazione di
Pearson, cioè:
ηy =
x
Dev( y ) σ y
=
Dev( y ) σ y
Occorre quindi calcolare lo scarto quadratico medio della variabile Y (denominatore della
formula) e quello delle medie delle varie distribuzioni parziali della stessa variabile per ciascuna
modalità del carattere X (numeratore della formula).
Moltiplichiamo le modalità del carattere Y (valori centrali delle classi) per le frequenze di
ciascuna distribuzione del carattere Y vincolata a ciascuna modalità del carattere X (cioè le varie
righe) e facciamo lo stesso per la riga dei totali (distribuzione marginale che rappresenta
frequenze del carattere Y indipendentemente dal carattere X) per ottenere la media di Y; su questi
ultimi due valori (modalità di Y e frequenze totali) facciamo anche i quadrati per la
corrispondente media quadratica.
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
X: Condizione
professionale
Dipendenti
Artig. e Comm.
Liberi profess.
yj*nj
yj2
yj2*nj
20
140
60
0
200
400
4.000
Y: età (valori centrali)
33
43
53
792
1.892
1.378
165
516
689
33
602
583
990
3.010
2.650
1.089
1.849
2.809
32.670
129.430
140.450
67
1.273
469
938
2.680
4.489
179.560
totale
5.475
1.899
2.156
9.530
===
486.110
La media generale del carattere Y è 47,65 (=9530/200), il quadrato della media quadratica è
2430,55 (=486110/200), mentre la devianza e lo scarto risultano:
(
)
(
)
Dev (Y ) = N ⋅ M 22 − M 2 = 200 ⋅ 2430 ,55 − 47 ,65 2 = 32006
σy =
Dev (Y )
32006
=
= 12 ,650
N
200
Con riferimento alle distribuzioni parziali, avendo calcolato su ciascuna riga la somma dei
prodotti delle modalità per le rispettive frequenze, possiamo ottenere la media di ciascuna
distribuzione dividendo il totale di riga per il corrispondente totale della tabella di partenza
(totale delle frequenze di ciascuna distribuzione parziale del carattere Y vincolata a ciascuna
modalità del carattere X): la media Dipendenti è pari a 45,625 (=5475/120), quella degli
Artigiani e Commercianti pari a 47,475 (=1899/40) e quella del Liberi professionisti è 53,9
(=2156/40).
Riscriviamo la distribuzione delle medie (singole medie con le loro frequenze) sui cui dobbiamo
calcolare la devianza e lo scarto quadratico medio:
X: Condizione
professionale
yj
n• j
y j ⋅ n• j
y 2j
y 2j ⋅ n• j
Dipendenti
45,625
120
5475
2081,64
249796,88
Artig. e Comm.
47,475
40
1899
2253,88
90155,03
Liberi profess.
53,900
40
2156
2905,21
116208,40
totale
=====
200
9530
=====
456160,30
La media risulta pari a 47,65 (=9530/200) come quella generale (si rammenta che la media di
una popolazione divisa in gruppi è la media delle medie) ed il quadrato della media quadratica è
pari a 2280,802 (=456160,30/200); pertanto la devianza e lo scarto quadratico risultano:
(
)
Dev (Y ) = 200 ⋅ 2280 ,802 − 47 ,65 2 = 2055 ,8
σy =
2055 ,8
= 3 ,206
200
Disponendo dei due scarti quadratici medi è possibile ottenere l'eta di Pearson che è pari a (vedi
formula sopra indicata) 0,253 (=3,206/12,65).
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
Commento
Il risultato ottenuto consente di affermare che la dipendenza in media risulta scarsamente
significativa essendo lo scarto quadratico medio delle medie appena il 25,3% di quello totale; si
rammenta che l'eta varia tra 0 ( indipendenza) e 1 (perfetta concordanza)
ESERCIZIO 9 – RELAZIONI (INTERDIPENDENZA CON MUTABILI)
La distribuzione di un collettivo secondo i caratteri X: stato civile e Y: zona di residenza,.è
risultata quella appresso riportata; si stimi la dipendenza tra i due caratteri; si commenti il
risultato ottenuto.
X: Zona di
residenza
Nord
Centro
Sud
Isole
totale
celibi
23
16
32
19
90
(valori x1.000)
Y: stato civile
coniugati separati divorziati
104
79
42
120
63
32
125
42
26
131
36
20
480
220
120
totale
vedovi
22
19
15
34
90
270
250
240
240
1.000
Per il calcolo dell'indipendenza in una tabella di contingenza è necessario calcolare il Chi
quadro, cioè:
r
s
χ = ∑∑
2
C ij2
2
i =1 j =1 nij
in cui
C ij = nij − n*ij
e
n*ij =
ni • ⋅ n• j
N
Occorre quindi calcolare nij* (frequenza di indipendenza) e Cij (contingenza) per ogni cella della
tabella a doppia entrata; si deve cioè ottenere la tabella d'indipendenza (scrivendo in ciascuna
casella il totale della sua riga per il totale della sua colonna diviso per il totale generale)
Tabella di indipendenza
Y
X
totale
24,3
22,5
21,6
21,6
90
129,6
120,0
115,2
115,2
480
59,4
55,0
52,8
52,8
220
32,4
30,0
28,8
28,8
120
24,3
22,5
21,6
21,6
90
totale
270
250
240
240
1.000
(ad es. la prima casella – prima riga e prima colonna – risulta dall’operazione 90*270/1000; la
casella della terza riga e della quarta colonna risulta dall’operazione 120*240/1000, ecc.).
Successivamente si può calcolare la tabella del Chi quadro facendo (per ogni casella) la
differenza tra la tabella effettiva e quella di indipendenza (ottenere cioè le cosiddette
contingenze), elevare al quadrato la differenza e dividere il risultato per la tabella di
indipendenza.
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
Tabella del Chi quadro
Y
0,070
1,878
5,007
0,313
7,268
X
totale
5,057
0,000
0,834
2,167
8,057
6,467
1,164
2,209
5,345
15,186
totale
2,844
0,133
0,272
2,689
5,939
0,218
0,544
2,017
7,119
9,897
14,656
3,719
10,339
17,633
46,347
Il totale della tabella rappresenta il Chi quadro (l'indice di indipendenza cercato); tale indice,
come noto, ha la dimensione di una frequenza assoluta.
Commento
L'indice ottenuto, essendo una misura assoluta legata alla frequenza assoluta, non consente di
indicare se la dipendenza può ritenersi elevata o meno; per tale motivo è necessario dapprima
depurare l'indice della dimensione dovuta al totale delle frequenze e successivamente rapportare
il risultato al suo massimo; cioè si debbono calcolare i due indici:
χ 2 46 ,347
Phi quadro φ 2 =
=
= 0 ,0463
N
Cramer
C=
1000
φ
2
min (r , s ) − 1
=
0 ,0463
= 0 ,0154
min( 4 ,5 ) − 1
L'ultimo indice varia tra 0 (indipendenza) e 1 (massima concordanza) e consente di affermare
che tra i due caratteri esiste quasi indipendenza risultando la dipendenza appena 1,54%.
ESERCIZIO 9 – RELAZIONI (INTERDIPENDENZA e DIPENDENZA IN MEDIA)
La distribuzione del numero degli assicurati di una Compagnia di assicurazioni secondo il
carattere X: zona territoriale e Y: età (valori in migliaia) è rappresentata da:
X: zona
territoriale
Nord-ovest
Nord-est
Centro
Sud
Isole
totale
20
20
8
9
7
6
50
Y: età (valori centrali delle classi)
30
40
50
60
55
44
48
19
46
54
46
22
41
30
45
37
7
21
30
64
1
11
11
18
150
160
180
160
70
14
4
18
31
33
100
totale
200
180
180
160
80
800
Si analizzi la dipendenza tra i due caratteri sia in termini di interdipendenza che di dipendenza in
media e si commentino i risultati ottenuti.
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
1° interdipendenza
Per l'interdipendenza tra i due caratteri (associazione in cui almeno uno dei caratteri è una
mutabile) si deve calcolare il Chi quadro, quindi:
r
s
χ = ∑∑
2
C ij2
2
i =1 j =1 nij
*
è la contingenza e nij =
*
in cui C ij = nij − nij
ni • ⋅ n• j
N
la frequenza
di indipendenza
Tabella di indipendenza (nij*=ni.n.j/N)
Y: età (valori centrali delle classi)
X: zona
totale
territoriale
20
30
40
50
60
70
Nord-ovest
12,5
37,5
40
45
40
25
200
Nord-est
11,25
33,75
36
40,5
36
22,5
180
Centro
11,25
33,75
36
40,5
36
22,5
180
Sud
10
30
32
36
32
20
160
Isole
5
15
16
18
16
10
80
Totale
50
150
160
180
160
100
800
2
Tabella del Chi quadro: Cij /nij
*
Y: età (valori centrali delle classi)
X: zona
territoriale
20
30
40
50
60
70
Nord-ovest
4,500
8,167
0,400
0,200
11,025
4,840
29,132
Nord-est
0,939
4,446
9,000
0,747
5,444
15,211
35,788
Centro
0,450
1,557
1,000
0,500
0,028
0,900
4,435
Sud
0,900
17,633
3,781
1,000
32,000
6,050
61,365
Isole
0,200
13,067
1,563
2,722
0,250
52,900
70,701
Totale
6,989
44,870 15,744
5,169
48,747 79,901
69,355
Pertanto χ = 69,355 da cui si può ottenere
φ
totale
φ2
= χ /N = 0,087 e C = min(r , s ) − 1 = 0,022.
L'ultimo indice varia tra 0 ed 1 e indica quindi una interdipendenza tra i due caratteri quasi nulla
(appena 2,2%).
2
2
2
2° dipendenza in media
Calcoliamo adesso la dipendenza in media di Y (il carattere quantitativo) sul carattere X; tale
dipendenza è stimata dall'Eta di Pearson, quindi:
ηy
=
x
σy
σy
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
Per il calcolo individuiamo le distribuzioni parziali e quella marginale del carattere Y ed
effettuiamo il prodotto delle modalità per le frequenze (per comodità di calcolo dividiamo per 10
le modalità del carattere Y).
modalità del carattere Y
distribuzione
carattere Y
2
3
4
5
6
7
1° parziale
40
165
176
240
114
98
833
2° parziale
16
138
216
230
132
28
760
3° parziale
18
123
120
225
222
126
834
4° parziale
14
21
84
150
384
217
870
5° parziale
12
3
44
55
108
231
453
marginale
100
450
640
900
960
700
3750
totali
Calcoliamo anche la media quadratica del carattere Y
Y2
4,0
Y2*n.j
9,0
16,0
25,0
36,0
49,0
===
200,0 1350,0 2560,0 4500,0 5760,0 4900,0 19270,0
E’ possibile quindi calcolare le singole medie delle distribuzioni parziali, quella dell’intera
distribuzione Y (marginale) e la media quadratica al quadrato di quest’ultima:
∑ y j ⋅ n1 j = 200 = 4 ,165
;
∑ y j ⋅ n3 j = 180 = 4 ,633
;
∑ y j ⋅ n5 j =
;
1
⋅
N
1
y3 = ⋅
N
1
y5 = ⋅
N
1
y 22 = ⋅
N
y1 =
833
834
∑ y 2j ⋅ n• j
453
= 5 ,663
80
19270
=
= 24 ,088
800
∑ y j ⋅ n2 j = 180 = 4 ,222
1
⋅
N
1
y4 = ⋅
N
1
y= ⋅
N
y2 =
760
∑ y j ⋅ n4 j = 160 = 5 ,438
∑ y j ⋅ n• j =
870
3750
= 4 ,688
800
pertanto si potrà calcolare lo scarto quadratico medio dell’intero carattere Y con l’usuale formula
σ y = y 22 − y 2 = 24 ,088 − 4 ,688 2 = 1,454 (i valori veri se fossero necessari per qualsiasi altra
elaborazione dovrebbero evidentemente essere moltiplicati per 10, ovviamente il quadrato della
media quadratica dovrebbe essere moltiplicato per 100).
Otteniamo infine lo scarto delle medie riscrivendo la distribuzione delle medie con le rispettive
frequenze
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire
bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08
carattere X
medie
(yi)
freq.
(ni)
xi*ni
yi2
yi2*ni
Nord-ovest
4,165
200
833,0
17,35
3469,45
Nord-est
4,222
180
760,0
17,83
3208,89
Centro
4,633
180
834,0
21,47
3864,20
Sud
5,438
160
870,0
29,57
4730,63
Isole
5,663
80
453,0
32,06
2565,11
totale
===
800
3750
===
17838,27
Possiamo pertanto calcolare la media delle medie = 4,688 (3750/800) ovviamente uguale alla
media dell’intera distribuzione Y (la media di una popolazione divisia in gruppi è uguale alla
media delle medie dei gruppi), il quadrato della media quadratica delle medie = 22,298
(17838,27/800) e quindi lo scarto quadratico medio delle medie
σ y = 22 ,298 − 4 ,688 2 = 0,570
(anche in questo caso i valori veri delle medie se fossero necessari per qualsiasi altra
elaborazione dovrebbero evidentemente essere moltiplicati per 10 e per 100).
Disponendo dei due scarti quadratici possiamo calcolare l’Eta di Pearson, stabilendo che
ηy =
x
0 ,570
=
1,454
0,392
L'ultimo indice varia tra 0 ed 1 e indica quindi una dipendenza delle medie di Y sul carattere X
non eccessivamente elevata (il 39,2%), sicuramente più significativa dell'interdipendenza.
Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire