Esercitazione 1 - Dipartimento di Economia, Finanza e Statistica

Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
Istituzioni di Statistica e Statistica Economica
Università degli Studi di Perugia
Facoltà di Economia, Assisi, a.a. 2013/14
Esercitazione n. 1
A. I dati riportati nella seguente tabella si riferiscono a 20 individui che hanno soggiornato nell’ultima
settimana presso una data struttura alberghiera. Per ciascun individuo è stata rilevata l’età (in anni
compiuti), il livello socio-economico (1 = elevato, 2 = medio, 3 = basso), la zona di residenza (1 =
urbana, 0 = non urbana) ed i giorni di presenza.
Unità statistica
Età
Livello socio-economico
Zona di residenza
Giorni di presenza
1
37
1
0
7
2
46
1
0
6
3
37
2
1
4
4
39
1
1
6
5
55
1
0
6
6
67
1
0
7
7
23
1
1
4
8
26
3
1
3
9
33
1
1
4
10
35
1
1
5
11
56
1
1
5
12
22
1
0
3
13
28
1
1
4
14
26
2
1
2
15
60
1
1
7
16
34
3
1
2
17
38
1
0
5
18
27
1
1
5
19
31
2
1
1
20
18
3
1
2
• Si calcolino le distribuzioni semplici di frequenza dei caratteri livello socio-economico, giorni di
presenza e età, utilizzando per quest’ultimo carattere le classi 18-30, 31-50 e 51-75;
• per la distribuzione del livello socio-economico si calcolino le frequenze relative e percentuali e
si rappresenti graficamente la distribuzione;
• per la distribuzione dell’età, si rappresenti l’istogramma di frequenza e la funzione di ripartizione
(N.B. si effettui la correzione per continuità in modo opportuno).
B. Si consideri la distribuzione dei giorni di presenza di cui al punto A. Con riferimento a tale distribuzione:
• si calcoli la media aritmetica, la mediana e la deviazione standard;
• si ottenga la corrispondente distribuzione di frequenza e la si rappresenti con un opportuno
grafico;
• sulla base della distribuzione di frequenza ottenuta, si calcoli la media aritmetica, la mediana e la
deviazione standard. Quindi, si verifichi che si ottengono gli stessi risultati ottenuti in precedenza
utilizzando la distribuzione unitaria o disaggregata.
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
C. Si consideri la seguente distribuzione unitaria relativa al numero di addetti rilevato in 11 alberghi
di data una località turistica:
5
10
7
3
12
4
6
18
9
22
19
• si calcoli la media aritmetica, la media geometrica e la mediana.
• si calcoli la varianza e il campo di variazione.
D. Con riferimento alla seguente distribuzione del fatturato (in milioni di €) riguardante il settore
manifatturiero nel 2008:
Fatturato
0-0.5
0.5-1
1-5
5-10
10-25
25-50
8
136
2997
2954
3189
1446
N. imprese
• si rappresenti graficamente la distribuzione con un istogramma di frequenza;
• si calcoli la media aritmetica, la mediana, il primo e terzo quartile;
• si individui la classe modale;
• si calcoli la deviazione standard e l’intervallo interquartilico.
E. La seguente tabella riporta il tasso di criminalità (numero di crimini per 100 abitanti) per alcune
regioni italiane nel 1999.
Regione
Tasso di
Popolazione residente
criminalità (%)
al 31/12/1999 (×1000)
Piemonte
4.39
4287
Valle d’Aosta
3.07
120
Umbria
3.11
835
Lazio
5.37
5264
Campania
3.82
5781
• Si calcoli una opportuna media del tasso di criminalità per le regioni considerate.
F. Si considerino i seguenti valori percentuali dell’Euribor (Euro Interbank Offered Rate) ad 1 mese
registrati nell’ultimo giorno lavorativo di ciascun mese per l’anno 2008:
Mese
Quotazione
1
2
3
4
5
6
7
8
9
10
11
12
2.647
2.387
2.589
2.792
2.897
2.666
3.030
3.094
3.383
3.272
3.574
3.634
1. Calcolare la media aritmetica, la media geometrica e la media quadratica. Quindi, verificare che
vale la diseguaglianza µ g ≤ µ ≤ µq .
2. Calcolare la mediana ed i quartili.
3. Calcolare la deviazione standard e la differenza interquartile.
G. Si considerino le seguenti distribuzioni relative al numero di esami sostenuti dagli studenti del
primo anno di due Università italiane:
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
Università 1
Università 2
Num. esami
Frequenza
Num. esami
Frequenza
0
14
0
23
1
41
1
56
2
83
2
154
3
116
3
27
4
56
4
12
5
5
5
2
• Per entrambe le distribuzioni si calcoli la devianza, la varianza e il coefficiente di variazione percentuale e, sulla base dei risultati ottenuti, si dica quale delle due distribuzioni presenta maggiore
variabilità.
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
H.
Si indichi se ognuna delle seguenti affermazioni è vera o falsa
N.
Domanda
1
Un collettivo statistico è un insieme di unità statistiche
2
Le frequenze assolute non sono mai negative
3
La temperatura è un carattere quantitativo continuo
4
Il titolo di studio è un carattere quantitativo discreto
5
Le frequenze relative non sono mai maggiori del numero di modalità
6
La somma delle frequenze relative è sempre pari al numero di osservazioni
7
La frequenza relativa di una modalità è il numero di volte in cui la modalità viene
osservata
8
Per il carattere età in anni compiuti, la correzione per continuità viene effettuata
aggiungendo 1 all’estremo destro di ogni classe
9
Le frequenze relative si possono calcolare solo per i caratteri qualitativi
10
La somma di tutte le frequenze assolute è pari al numero di osservazioni
11
Una frequenza assoluta è il numero di modalità distinte che vengono osservate
12
In una distribuzione in classi, due classi possono essere parzialmente sovrapposte
13
La moda non cambia se aggiungiamo a tutte le modalità una costante positiva
14
La media aritmetica è calcolabile solo per caratteri quantitativi
15
La mediana minimizza la somma dei quadrati degli scarti delle modalità da una
costante
16
La mediana può assumere qualsiasi valore reale
17
La mediana può coincidere con la modalità più piccola
18
La media aritmetica è calcolabile solo per caratteri qualitativi ordinati
19
La mediana gode della proprietà di internalità
20
La mediana coincide sempre con la modalità più grande
21
La somma degli scarti delle modalità dalla media aritmetica è sempre pari a 0
22
La media aritmetica è calcolabile per qualsiasi tipo di carattere
23
Se il carattere è discreto non in classi, la moda è la modalità a cui corrisponde la
massima frequenza assoluta
24
La media aritmetica minimizza la somma dei quadrati degli scarti da una costante
25
La differenza interquartilica non cambia se moltiplichiamo tutte le modalità per
una costante diversa da 1
26
La varianza è espressa nella stessa unità di misura delle osservazioni
27
La varianza è pari alla somma dei quadrati degli scarti delle osservazioni dalla loro
media aritmetica
28
La varianza è sempre maggiore di zero
29
La differenza interquartilica è nulla se solo se tutte le modalità sono uguali fra loro
30
Il coefficiente di variazione è il rapporto fra la varianza e la media aritmetica
31
La varianza è la media dei quadrati degli scarti delle osservazioni dalla media
aritmetica
32
Il coefficiente di variazione non cambia moltiplicando tutte le modalità per una
costante positiva
33
La differenza interquartilica può essere negativa
V
F
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
Istituzioni di Statistica e Statistica Economica
Università degli Studi di Perugia
Facoltà di Economia, Assisi, a.a. 2013/14
Soluzione esercitazione n. 1
A.
Livello socio-economico
Frequenza
Giorni di
Elevato (1)
14
presenza
Medio (2)
3
Basso (3)
Totale
Età
Frequenza
Frequenza
18-30
7
1
1
31-50
9
3
2
3
51-75
4
20
3
2
Totale
20
4
4
5
4
6
3
7
3
Totale
20
14
0.7
70
medio
3
0.15
15
basso
3
0.15
15
Totale
20
1
100
8
elevato
6
pi
Frequenze
fi
4
ni
0
2
Livello socio-economico
10
12
14
Grafico a barre per la distribuzione del livello socio−economico
Elevato
Classi di età
ni
Classi reali
18-30
7
18
31-50
9
51-75
4
Totale
20
Medio
fi
Fi
di
hi
31
0.35
0.35
13
0.0269
31
51
0.45
0.80
20
0.0225
51
76
0.20
1.00
25
0.0080
1.0
Basso
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
Funzione di ripartizione per la distribuzione dell'età
1.0
Istrogramma di frequenza per la distribuzione dell'età
0.4
0.6
Frequenza cumulata
0.015
0.005
0.2
0.0
18
31
51
●
●
0.000
0.010
Densità
0.020
0.8
0.025
●
●
76
18
31
51
Età
76
Età
B.
• Il numero medio di giorni di presenza si calcola come segue (media aritmetica per una distribuzione disaggregata o unitaria):
7 + 6 + 4 + ... + 1 + 2
=
88
= 4.4
20
20
Per il calcolo della mediana occorre innanzitutto ordinare in senso non decrescente le modalità:
µ=
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
x [i]
1
2
2
2
3
3
4
4
4
4
5
5
5
5
6
6
6
7
7
7
Essendo n = 20 pari, le modalità che occupano la posizione n/2 = 20/2 = 10 e n/2 + 1 = 11 sono
x [10] = 4 e x [11] = 5, quindi m = (4 + 5)/2 = 4.5.
Per il calcolo della deviazione standard possiamo, innanzitutto, calcolare la devianza
D=
N
X
(x i − µ)2 = (7 − 4.4)2 + (6 − 4.4)2 + . . . + (2 − 4.4)2 = 62.8
i=1
quindi, la varianza
σ2 =
62.8
20
= 3.14
ed, infine, la deviazione standard
r
σ=
62.8
20
=
p
3.14 = 1.772
• La distribuzione di frequenza è la seguente:
Giorni di presenza
ni
Ni
fi
Fi
x i ni
(x i − µ)2 ni
1
1
1
0.05
0.05
1
11.56
2
3
4
0.15
0.20
6
17.28
3
2
6
0.10
0.30
6
3.92
4
4
10
0.20
0.50
16
0.64
5
4
14
0.20
0.70
20
1.44
6
3
17
0.15
0.85
18
7.68
7
3
20
0.15
1.00
21
20.28
88
62.80
Totale
20
1.00
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
Grafico della funzione di ripartizione
0.0
1
0.2
0.4
2
ni
F(x)
0.6
3
0.8
4
1.0
Grafico della distribuzione di frequenza
1
2
3
4
5
6
7
0
1
2
3
x
4
5
6
7
x
• La media aritmetica calcolata sulla distribuzione di frequenza è pari a
µ=
1
20
(1 × 1 + 2 × 3 + . . . + 7 × 3) =
88
20
= 4.4
Per calcolare la mediana bisogna trovare la modalità i -esima tale che Fi−1 ≥ 0.5 < Fi ; siccome la
prima modalità che supera 0.5 è la quinta modalità, mentre la precedente è esattamente pari a
0.5, allora m = (4 + 5)/2 = 4.5.
Infine, dall’ultima colonna della precedente tabella si ottiene la devianza D = 62.8. A partire
da questa è immediato calcolare la varianza σ2 = 62.8/20 = 3.14 e la deviazione standard σ =
p
3.14 = 1.772.
Dal confronto si può vedere come calcolare la media, la mediana e la deviazione standard dalla distribuzione disaggregata o unitaria oppure dalla distribuzione di frequenza conduce agli stessi risultati.
C.
• La media aritmetica è data da
µ=
5 + 10 + . . . + 19
11
=
115
11
= 10.45
mentre la media geometrica è pari a
p
11
µg =
5 × 10 × . . . × 19 = 204773184001/11 = 8.66
oppure per agevolare i calcoli si può utilizzare
log(5) + log(10) + . . . + log(19)
µ g = exp
= exp{23.74258/11} = 8.66
11
Per il calcolo della mediana occorre ordinare i valori in senso non decrescente
i
1
2
3
4
5
6
7
8
9
10
11
x [i]
3
4
5
6
7
9
10
12
18
19
22
Dal momento che n = 11 è dispari, la mediana è la modalità che occupa la posizione (n + 1)/2 =
12/2 = 6, quindi m = x [6] = 9.
• La varianza si calcola come segue
σ2 =
(5 − 10.45)2 + (10 − 10.45)2 + . . . + (19 − 10.45)2
11
=
426.7275
11
= 38.79
Per il campo di variazione occorre semplicemente fare la differenza tra il valore massimo e il
valore minimo della distribuzione:
∆c = 22 − 3 = 19
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
D.
La seguente tabella riporta alcuni calcoli utili per i punti successivi:
Classi
ci−1
ci
ni
fi
Fi
di
hi
xi
x i ni
(x i − µ)2 ni
0-0.5
0.0
0.5
8
0.0007
0.0007
0.5
0.0015
0.25
2.0
1334.8
0.5-1
0.5
1.0
136
0.0127
0.0134
0.5
0.0253
0.75
102.0
20968.9
1-5
1.0
5.0
2997
0.2793
0.2927
4.0
0.0698
3.00
8991.0
309796.9
5-10
5.0
10.0
2954
0.2753
0.5680
5.0
0.0551
7.50
22155.0
94869.2
10-25
10.0
25.0
3189
0.2972
0.8652
15.0
0.0198
17.50
55807.5
59871.6
25-50
25.0
50.0
1446
0.1348
1.0000
25.0
0.0054
37.50
54225.0
856165.3
10730
1.0000
141282.5
1343006.8
Totale
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07
Densità
• L’istogramma di frequenza è riportato nel grafico seguente e si basa sui calcoli della densità di
frequenza (hi ) presenti nella tabella precedente.
0.0
5.0
10.0
25.0
50.0
Classi di fatturato
• La media aritmetica è pari a µ = 141282.4/10730 = 13.167.
Per il calcolo dei quartili la procedura è la seguente.
La più piccola classe per la quale Fi > 1/2 è la classe 5-10, quindi la mediana è pari a
m=5+
0.5 − 0.2927
0.2753
× 5 = 8.765
La più piccola classe per la quale Fi > 1/4 è la classe 1-5, quindi il primo quartile è pari a
q1 = 1 +
0.25 − 0.0134
0.2793
× 4 = 4.389
La più piccola classe per la quale Fi > 3/4 è la classe 10-25, quindi il terzo quartile è pari a
q3 = 10 +
0.75 − 0.568
0.2972
× 15 = 19.185
• la classe con la densità più elevata è la terza (h3 = 0.0698), quindi la classe modale è la classe 1-5.
• La deviazione standard si calcola come segue:
r
σ=
1343006.8
10730
= 11.19
mentre l’intervallo interquartilico
∆q = 19.185 − 4.389 = 14.796
E. In questo caso la media più opportuna è la media aritmetica ponderata dei tassi di criminalità
utilizzando la popolazione residente come peso.
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
xi
wi
x i wi
Piemonte
4.39
4287
18819.93
Valle d’Aosta
3.07
120
368.40
Umbria
3.11
835
2596.85
Lazio
5.37
5264
28267.68
Campania
3.82
5781
22083.42
16287
72136.28
Totale
µ = 72136.28/16287 = 4.429
F.
i
xi
log(x i )
x i2
(x i − µ)2
x [i]
f i = 1/N
Fi = i/N
1
2.647
0.9734
7.007
0.1226
2.387
0.0833
0.0833
2
2.387
0.8700
5.698
0.3722
2.589
0.0833
0.1667
3
2.589
0.9513
6.703
0.1665
2.647
0.0833
0.2500
4
2.792
1.0268
7.795
0.0421
2.666
0.0833
0.3333
5
2.897
1.0637
8.393
0.0100
2.792
0.0833
0.4167
6
2.666
0.9806
7.108
0.1096
2.897
0.0833
0.5000
7
3.030
1.1086
9.181
0.0011
3.030
0.0833
0.5833
8
3.094
1.1295
9.573
0.0094
3.094
0.0833
0.6667
9
3.383
1.2188
11.445
0.1489
3.272
0.0833
0.7500
10
3.272
1.1854
10.706
0.0756
3.383
0.0833
0.8333
11
3.574
1.2737
12.773
0.3328
3.574
0.0833
0.9167
12
3.634
1.2903
13.206
0.4057
3.634
0.0833
1.0000
35.965
13.0720
109.587
1.7965
35.965
1.0000
Totali
• La media aritmetica è pari a
35.965
µ=
12
= 2.997
La media geometrica si calcola come segue:
p
12
2.647 × 2.387 × . . . × 3.634 = 4754231/12 = 2.972
µg =
oppure
µ g = exp
13.0720
12
= 2.972
La media quadratica è pari a:
r
µq =
È immediato verificare che
µ g = 2.972
109.587
12
<
= 3.0219
µ = 2.997
<
µq = 3.0219.
• Per il calcolo dei quartili (mediana inclusa) occorre ordinare i valori originari in senso non decrescente. Dalla tabella precedente si ottengono:
•
PN
σ2 =
m
=
(x [6] + x [7] )/2 = (2.897 + 3.03)/2 = 2.9635
q1
=
(x [3] + x [4] )/2 = (2.647 + 2.666)/2 = 2.6565
q3
=
(x [9] + x [10] )/2 = (3.272 + 3.383)/2 = 3.3275
i=1 (x i
− µ)2
=
1.7965
N
12
∆Q = 3.3275 − 2.6565 = 0.671
= 0.1497
da cui σ =
p
0.1497 = 0.3869
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
G.
• Per l’Università 1 si ha
xi
ni
x i ni
(x i − µ)2
(x i − µ)2 ni
0
14
0
6.515
91.205
1
41
41
2.410
98.805
2
83
166
0.305
25.325
3
116
348
0.200
23.242
4
56
224
2.096
117.354
5
5
25
5.991
29.954
315
804
Totale
385.886
Quindi:
µ = 804/315 = 2.552
D = 385.886
σ2 = 385.886/315 = 1.225
p
σ = 385.886/315 = 1.107
C V = 1.107/2.552 × 100 = 43.36%
• Per l’Università 2 si ha
Totali
xi
ni
x i ni
(x i − µ)2
(x i − µ)2 ni
0
23
0
3.370
77.511
1
56
56
0.699
39.116
2
154
308
0.027
4.154
3
27
81
1.355
36.597
4
12
48
4.684
56.207
5
2
10
10.012
20.025
274
503
233.609
Quindi:
µ = 503/274 = 1.836
D = 233.609
σ2 = 233.609/274 = 0.853
p
σ = 233.609/274 = 0.923
C V = 0.923/1.836 × 100 = 50.27%
• Dal confronto tra i due valori del CV si evince che la distribuzione che presenta maggiore variabilità è quella associata alla seconda Università.
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
H.
N.
Domanda
V
F
1
Un collettivo statistico è un insieme di unità statistiche
X
2
Le frequenze assolute non sono mai negative
X
3
La temperatura è un carattere quantitativo continuo
X
4
Il titolo di studio è un carattere quantitativo discreto
5
Le frequenze relative non sono mai maggiori del numero di modalità
6
La somma delle frequenze relative è sempre pari al numero di osservazioni
X
7
La frequenza relativa di una modalità è il numero di volte in cui la modalità viene
osservata
X
8
Per il carattere età in anni compiuti, la correzione per continuità viene effettuata
aggiungendo 1 all’estremo destro di ogni classe
9
Le frequenze relative si possono calcolare solo per i caratteri qualitativi
X
X
X
X
10
La somma di tutte le frequenze assolute è pari al numero di osservazioni
X
11
Una frequenza assoluta è il numero di modalità distinte che vengono osservate
X
12
In una distribuzione in classi, due classi possono essere parzialmente sovrapposte
X
13
La moda non cambia se aggiungiamo a tutte le modalità una costante positiva
X
14
La media aritmetica è calcolabile solo per caratteri quantitativi
15
La mediana minimizza la somma dei quadrati degli scarti delle modalità da una
costante
16
La mediana può assumere qualsiasi valore reale
X
17
La mediana può coincidere con la modalità più piccola
X
18
La media aritmetica è calcolabile solo per caratteri qualitativi ordinati
19
La mediana gode della proprietà di internalità
20
La mediana coincide sempre con la modalità più grande
21
La somma degli scarti delle modalità dalla media aritmetica è sempre pari a 0
22
La media aritmetica è calcolabile per qualsiasi tipo di carattere
23
Se il carattere è discreto non in classi, la moda è la modalità a cui corrisponde la
massima frequenza assoluta
X
24
La media aritmetica minimizza la somma dei quadrati degli scarti da una costante
X
25
La differenza interquartilica non cambia se moltiplichiamo tutte le modalità per
una costante diversa da 1
X
26
La varianza è espressa nella stessa unità di misura delle osservazioni
X
27
La varianza è pari alla somma dei quadrati degli scarti delle osservazioni dalla loro
media aritmetica
X
28
La varianza è sempre maggiore di zero
X
29
La differenza interquartilica è nulla se solo se tutte le modalità sono uguali fra loro
X
30
Il coefficiente di variazione è il rapporto fra la varianza e la media aritmetica
X
31
La varianza è la media dei quadrati degli scarti delle osservazioni dalla media
aritmetica
X
32
Il coefficiente di variazione non cambia moltiplicando tutte le modalità per una
costante positiva
X
33
La differenza interquartilica può essere negativa
X
X
X
X
X
X
X
X