Istituzioni di Statistica 1 Esercizi su indici di posizione e di variabilit

Istituzioni di Statistica 1
Esercizi su indici di posizione e di variabilità
Esercizio 1
Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:
Durata (ore)
Frequenza
0 ⊢ 100
100 ⊢ 200
200 ⊢ 300
300 ⊢ 400
400 ⊢ 500
500 ⊢ 600
600 ⊢ 700
700 ⊢ 800
800 ⊢ 900
> 900
?
48
30
18
10
5
4
3
2
0
1. Trovare il dato mancante e rappresentare i dati graficamente.
2. Calcolare la durata media delle apparecchiature e la percentuale di apparecchiature che hanno funzionato per un tempo minore della media.
3. Quale è la durata al di sopra della quale si trova il 40% delle osservazioni?
4. Come indici di dispersione dei dati, si calcolino lo scarto interquartilico
e la varianza.
Esercizio 2
La direzione di un’azienda vuole conoscere l’entità delle assenze per malattia
(a detta dei dipendenti) nei giorni vicini al fine settimana. Questi sono i dati
relativi al numero di dipendenti in malattia nei giorni di lunedı̀ e venerdı̀
relativi a un gruppo di 5 settimane:
81, 86, 73, 77, 90, 91, 75, 62, 98, 74.
Relativamente alle stesse settimane, le assenze per malattia nei giorni centrali della settimana (martedı̀, mercoledı̀ e giovedı̀) sono state le seguenti:
89, 55, 59, 64, 37, 58, 35, 57, 65, 68, 42, 71, 69, 49, 67.
1. Fare il grafico delle funzioni di frequenza cumulata e dire cosa indicano.
2. Per ciascuno dei due gruppi, si calcolino il numero medio e il numero
mediano di assenze giornaliere.
3. Si confronti la variabilità delle due distribuzioni sia tramite la varianza
che lo scarto interquartilico.
1
Esercizio 3
Si osserva il tempo di attesa delle auto al casello autostradale in un’ora di
punta:
Attesa (minuti)
Numero di auto
0⊢3
9
3⊢7
53
7 ⊢ 10
28
10 ⊢ 20
10
1. Si rappresentino i dati tramite un istogramma.
2. Se il costo per un automobilista di un minuto di attesa può essere stimato in 0,5 euro, si calcoli la perdita media subita da un automobilista.
3. Si determini la varianza della perdita subita da un automobilista per
l’attesa al casello.
Esercizio 4
La seguente tavola mostra gli aumenti salariali di un campione di dipendenti
nel settore privato nell’anno 1996, divisi per sesso.
Uomini
Donne
0 ⊢ 2%
50
21
2% ⊢ 5%
47
27
5% ⊢ 9%
103
50
9% ⊢ 13%
76
35
13% ⊢ 15%
24
17
1. Calcolare l’aumento medio separatamente per i due sessi.
2. Confrontare le due distribuzioni tramite gli istogrammi.
3. Identificare per ciascuno dei due gruppi la classe modale.
4. Si calcoli il quantile 0,4 della distribuzione degli aumenti separatamente
per i due sessi.
Esercizio 5
I seguenti dati rappresentano le distribuzioni dei voti degli esami di Istituzioni
di Statistica registrati nel primo e nel secondo Appello 1996:
I
II
18
0
0
19
0
0
20
1
5
21
3
1
22
0
4
23
2
4
24
4
4
25
1
1
26
4
3
27
0
6
28
7
5
29
0
1
30
1
3
30
e lode
0
1
1. In base al voto medio, quale dei due appelli è andato meglio?
2. Confrontare la dispersione dei voti calcolando opportuni indici di variabilità.
2
3. Rappresentare graficamente le due distribuzioni mediante BoxPlot e
dire se sembrano diverse.
2
4
6
8
10
12
14
Esercizio 6
Per confrontare l’efficienza di due diverse configurazioni (A e B) di un processo produttivo, la produzione oraria (in quintali di materiale prodotto) è stata
rilevata in un totale di 2000 ore (1000 per ogni configurazione). Il seguente
grafico mostra il diagramma a scatola (boxplot) per i due gruppi di dati (i
baffi si estendono dal minimo al massimo).
A
B
1. Commentare il grafico.
2. Calcolare (approssimativamente) una misura di posizione ed una di
variabilità per ciascuno dei due gruppi di dati.
3. Solo per i dati della configurazione A, si calcoli (approssimativamente)
il valore della funzione di frequenza relativa cumulata nei punti 1; 4,1;
5; 5,9 e 10.
4. Disegnare (approssimativamente) le due funzioni di frequenza relativa
cumulata corrispondenti alle configurazioni A e B.
3
Soluzioni degli esercizi su indici di posizione e di variabilità
Esercizio 1
1. Il numero totale di apparecchiature è 200, il numero di apparecchiature
con durata maggiore di 100 ore è 120, quindi la frequenza assoluta
mancante è 80.
40
0
20
freq. ass.
60
80
La variabile osservata, la durata, è una variabile quantitativa continua,
quindi possiamo rappresentarla graficamente tramite un istogramma.
Poiché le classi hanno tutte uguale ampiezza, l’altezza dei rettangoli è
data dalla frequenza (assoluta o relativa) delle classi.
0
200
400
600
800
durata
Forte asimmetria positiva.
2. La durata media è
x̄ =
=
somma (valori centrali delle classi x freq. ass.)
num. totale
50 · 80 + 150 · 48 + 250 · 30 + 350 · 18 + 450 · 10 + 550 · 5 + 650 · 4 + 750 · 3 + 850 · 2
200
= 194 ore.
4
Si deve calcolare la percentuale di apparecchiature che funzionano per
un tempo inferiore a 194 ore. Un primo metodo è:
(80
48
· (194 − 100))/200 = 0, 626 = 62, 6%
100
⇓
+
⇓
classe 0 ⊢ 100
classe 100 ⊢ 200
Altrimenti si può ragionare in termini di funzione di frequenza cumulata:
F (200) − F (100)
· (194 − 100)
F (194) = F (100) +
200 − 100
128/200 − 80/200
80
+
· 94 = 0, 626
=
200
100
3. Si vuole determinare la durata oltre la quale si trova il 40% delle osservazioni, o, in altre parole, la durata al di sotto della quale si trova
il 60% delle osservazioni, e quindi il quantile 0,6 della distribuzione. A
questo fine calcoliamo le frequenze relative cumulate:
Durata
Freq. rel. cumulata
0 ⊢ 100
100 ⊢ 200
200 ⊢ 300
300 ⊢ 400
400 ⊢ 500
500 ⊢ 600
600 ⊢ 700
700 ⊢ 800
800 ⊢ 900
80/200=0,4
128/200=0,64
158/200=0,79
176/200=0,88
186/200=0,93
191/200=0,955
195/200=0,975
198/200=0,99
200/200=1
Dalla tabella vediamo che il quantile 0,6 cade nella classe 100 ⊢ 200.
Per determinare il quantile, facciamo l’ipotesi di distribuzione uniforme
all’interno della classe:
x0,6 = 100 +
0, 6 − 0, 4
(200 − 100) = 183, 33 ore
0, 64 − 0, 4
4. Per la varianza, usiamo la formula
V = M(X 2 ) − M2 (X)
M(X) è stata calcolata al punto 2. Dobbiamo calcolare M(X 2 ).
M(X 2 ) = (502 · 80 + 1502 · 48 + 2502 · 30 + 3502 · 18 + 44502 · 10 + 5502 · 5+
5
+6502 · 4 + 7502 · 3 + 8502 · 2)/200 = 68600 ore2
V = 68600 − (194)2 = 30964 ore2
Per lo scarto interquartilico abbiamo bisogno di determinare il quantile
0,25 e il quantile 0,75. Dalla tabella delle frequenze cumulate del punto
3 vediamo che il primo quartile cade nella classe 0 ⊢ 100, mentre il
terzo quartile cade nella classe 200 ⊢ 300. Sotto ipotesi di uniformità
all’interno delle classi si ha
QI = 0 +
QIII = 200 +
0, 25 − 0
· (100 − 0) = 62, 5ore
0, 4 − 0
0, 75 − 0, 64
· (300 − 200) = 273.3 ore
0, 79 − 0, 64
e quindi lo scarto interquartilico è
SI = 273.3 − 62, 5 = 201, 8 ore
Esercizio 2
1. Costruiamo le frequenze relative cumulate per i due gruppi.
Num. Assenze (L. e V.).
Freq. rel. cumulata
62
73
74
75
77
81
86
90
91
98
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10=1
6
Freq. rel. cumulata
35
37
42
49
55
57
58
59
64
65
687
68
69
71
89
1/15
2/15
3/15
4/15
5/15
6/15
7/15
8/15
9/15
10/15
11/15
12/15
13/15
14/15
15/15=1
0.0
0.2
0.4
F(x)
0.6
0.8
1.0
Num. Assenze (M., M. e G.).
40
50
60
70
80
90
100
assenze
Da cui si conclude che le assenze nei giorni centrali della settimana sono
stocasticamente (statisticamente) inferiori rispetto a quelle nei giorni
vicini al fine settimana.
7
2. Per il primo gruppo la mediana è
Me =
77 + 81
= 79
2
per il secondo gruppo è 59, confermando l’ordinamento rilevato nel
confronto tra le due funzioni di frequenza cumulata.
La media nel primo gruppo è 80,7 e nel secondo gruppo 59 (si è usata
la media aritmetica semplice sui dati originari).
3. Per il primo gruppo il primo quartile è QI =74, mentre il terzo quartile
è QIII =90. Quindi, lo scarto interquartilico è SI=90-74=16. Per la
varianza, usiamo la formula V=M(X 2 )-M2 (X);
M(X 2 ) =
812 + 862 + . . . + 742
= 6614, 5
10
e quindi
V = 6614, 5 − 80, 72 = 102, 01
Per il secondo gruppo, il primo quartile è QI =49, mentre il terzo quartile è QIII =68. Lo scarto interquartilico è SI=68-49=19. Per la varianza
calcoliamo
892 + 552 + . . . + 672
= 3669
M(X 2 ) =
15
da cui
V = 3669 − 592 = 188
Sia lo scarto interquartilico che la varianza indicano che vi è una maggiore variabilità nel numero di assenze per malattia nei giorni infrasettimanali, rispetto ai giorni prossimi al fine settimana.
Esercizio 3
1. Per costruire l’istogramma non essendo le classi di uguale ampiezza
è necessario calcolare le densità di frequenza, dividendo le frequenze
assolute o relative per l’ampiezza della classe, e stabilire un estremo
per la classe finale.
Attesa
dens. di freq.
0⊢3
9/(3 · 100)=0,03
3⊢7
53/(4 · 100)=0,1325
7 ⊢ 10
28/(3 · 100)=0,0933
10 ⊢ 20
10/(10 · 100)=0,01
dove si sono usate le frequenze relative per costruire le altezze degli
istogrammi e la classe finale è stata chiusa a 20 min.
8
0.12
0.10
0.08
0.06
0.00
0.02
0.04
dens. di freq
0
5
10
15
20
attesa
2. Possiamo seguire due strade per calcolare la perdita media legata all’attesa. La prima è riscrivere la tabella in termini di costi
Perdita (euro)
Numero di auto
0 ⊢ 1, 5
9
1, 5 ⊢ 3, 5
53
3, 5 ⊢ 5
28
5 e oltre
10
e calcolare la media associata a tale tabella, ossia
0, 75 · 9 + 2, 5 · 53 + 4, 25 · 28 + 7, 5 · 10
= 3, 33 euro
100
dove si è supposto che l’ultima classe termini a 20 minuti.
La seconda strada, più semplice, sfrutta le proprietà della media. Se
Y è la variabile che descrive la perdita e X la variabile che descrive
l’attesa, allora Y = 0, 5X. Si richiede M(Y ) = M(0, 5X) = 0, 5M(X),
dove M(X) è data da
M=
1.5 · 9 + 5 · 53 + 8.5 · 28 + 15 · 10
= 6, 665 min
100
e quindi M(Y ) = 0, 5 · 6, 665 = 3, 33 euro.
M(X) =
3. Anche per il calcolo della varianza si può procedere seguendo due strade. La prima è calcolare la varianza sulla tabella dei costi del punto 2.
Più precisamente, la media dei quadrati è
0, 752 · 9 + 2, 52 · 53 + 4, 252 · 28 + 7, 52 · 10
= 14, 046 euro2
M(Y ) =
100
2
9
da cui V(Y )=14,046-3,332 =2,96 euro2 .
La seconda strada sfrutta le proprietà della varianza. In particolare,
V(Y )=V(0,5 X)=0, 52 V(X).
M(X) =
1.52 · 9 + 52 · 53 + 8.52 · 28 + 152 · 10
= 56, 1825 min2
100
da cui V(X)=56,1925-6,6652 =11,76 min2 e V(Y )=0, 52 11,76 =2,94
euro2 .
dove le discrepanze tra le due varianze è dovuta ad errori di arrotondamento.
Esercizio 4
1. Indichiamo con U la variabile che descrive gli aumenti per gli uomini,
e con D la variabile che descrive gli aumenti per le donne. Allora,
M(U ) =
1 · 50 + 3.5 · 47 + 7 · 103 + 11 · 76 + 14 · 24
= 7, 025%
50 + 47 + 103 + 76 + 24
1 · 21 + 3.5 · 27 + 7 · 50 + 11 · 35 + 14 · 17
= 7, 257%
21 + 27 + 50 + 35 + 17
dove l’ultima classe è stata chiusa a 15%. Da cui si conclude che l’aumento medio per le donne è stato superiore all’aumento medio per gli
uomini.
M(D) =
0.04
0.00
0.02
dens.di freq.
0.06
0.08
2. Poiché le classi non hanno uguale ampiezza è necessario calcolare per
entrambi i sessi le densità di frequenza. Nel grafico sottostante si sono
usate le frequenze relative e la classe finale è stata chiusa a 15%.
0
5
10
15
aumenti perc.
dove le linee continue descrivono gli uomini e le linee tratteggiate le
donne.
3. Si vede direttamente dall’istogramma che la classe modale sia per gli
uomini che per le donne è data da 5% ⊢ 9%.
10
4. Per determinare il quantile 0,4 per entrambi i sessi calcoliamo le frequenze relative cumulate separatamente per uomini e donne.
Uomini
Donne
0 ⊢ 2%
50/300
21/150
2% ⊢ 5%
97/300
48/150
5% ⊢ 9%
200/300
98/150
9% ⊢ 13%
276/300
133/150
13% ⊢ 15%
1
1
Per entrambi i sessi la classe che contiene il quantile 0,4 è la classe
5% ⊢ 9%. Per determinare il quantile all’interno di tale classe usiamo
l’ipotesi di distribuzione uniforme; si ottiene
x0,4 = 5 +
0, 4 − 97/300
· (9 − 5) = 5, 89%
200/300 − 97/300
per gli uomini, mentre per le donne
x0,4 = 5 +
0, 4 − 48/150
· (9 − 5) = 5, 96%
98/150 − 48/150
Esercizio 5
1. Indichiamo con M I e M II , rispettivamente, il voto medio del primo e
del secondo appello. Ai fini dei calcoli al 30 e lode viene associato 31.
Il numero di voti registrati nel primo appello è N I = 23, il numero di
voti registrati nel secondo appello è N II = 38.
MI =
1
(20 + 21 · 3 + 23 · 2 + 24 · 4 + 25 + 26 · 4 + 28 · 7 + 30) = 25, 22
23
1
(20·5+21+22·4+23·4+24·4+25+26·3+27·6+28·5+29+30·3+31) = 25, 05
38
Da cui concludiamo che i due appelli sono simili in termini di voto
medio ottenuto dagli studenti.
M II =
2. Gli indici di variabilità che possiamo calcolare per il confronto della
dispersione dei voti tra i due appelli sono: campo di variazione (range),
differenza interquartile e varianza/coefficiente di variazione.
Per il campo di variazione,
nel primo appello: min=20 e max=30, campo di variazione=10;
nel secondo appello: min=20 e max=31, campo di variazione=11.
Per determinare la differenza interquartile nei due appelli, costruiamo
la tabella delle frequenze relative cumulate.
11
Voti
18
19
20
21
22
23
24
25
26
27
28
29
30
31
I Appello
fj
Fj
0
0
0
0
1/23=0,043 0,043
3/23=0,131 0,174
0
0,174
2/23=0,087 0,261
4/23=0,174 0,435
0,043
0,478
0,174
0,652
0
0,652
7/23=0,305 0,957
0
0,957
0,043
1
0
1
II Appello
fj
Fj
0
0
0
0
5/38=0,132 0,132
1/38=0,026 0,158
4/38=0,105 0,263
0,105
0,368
0,105
0,473
0,026
0,499
3/38=0,079 0,578
6/38=0,158 0,736
0,132
0,868
0,026
0,894
0,079
0,973
0,027
1
Guardando la tabella, osserviamo che
I appello: I quartile=23, III quartile=28, diff. interquartile=5
II appello: I quartile=22, III quartile=28, diff. interquartile=6
Per determinare la varianza dei voti in ciascuno dei due appelli, sfruttiamo l’usuale formula “momento secondo - momento primo al quadrato”.
Per il primo appello:
M (X 2 ) =
1
(202 +212 ·3+232 ·2+242 ·4+252 +262 ·4+282 ·7+302 ) = 643, 57
23
e quindi
VarI = 643, 57 − (25, 22)2 = 7, 52
Per il secondo appello:
M (X 2 ) =
1
(202 · 5 + 212 + 222 · 4 + 232 · 4 + 242 · 4 + 252 + 262 · 3+
38
+272 · 6 + 282 · 5 + 292 + 302 · 3 + 312 ) = 638, 05
e quindi
VarII = 638, 05 − (25, 05)2 = 10, 55
I coefficienti di variazione sono,
√ allora,
7,52
= 0, 11;
per il primo appello: CVI = 25,22
per il secondo appello: CVII =
√
10,55
25,05
= 0, 13.
Dal confronto dei vari indici di variabilità (campo di variazione, scarto
12
interquartile e coefficiente di variazione) notiamo che vi è una dispersione leggermente maggiore nei voti del secondo appello rispetto al
primo.
24
22
20
18
voto
26
28
30
3. Dalla tabella delle frequenze cumulate per i due appelli, deriviamo che:
per il primo appello: MeI =26;
per il secondo appello: MeII = 26.
Combinando questo risultato con i quartili già calcolati al punto 2.
otteniamo i seguenti boxplot affiancati per i voti dei due appelli.
I app.
II app.
I due boxplot, seppure molto simili, confermano una leggera maggior
dispersione dei voti nel secondo appello.
Si noti, infine, che gli arrotondamenti nel calcolo delle frequenze cumulate portano ad avere la mediana del II appello pari a 26. In realtà,
correggendo per tali arrotondamenti, risulta che al voto 25 corrisponde una frequenza relativa cumulata esattamente pari a 0,5 (19/38) e
quindi la mediana è (25+26)/2=25,5.
13
2
4
6
8
10
12
14
Esercizio 6
A
B
1. Dal grafico è evidente la maggiore efficienza della configurazione B rispetto ad A. Infatti, la distribuzione della produzione per la configurazione A si colloca a sinistra rispetto alla corrispondente distribuzione
per la configurazione B (i tre quartili e i valori massimo e minimo per
A sono più piccoli rispetto alle corrispondenti quantità per B). Si noti
inoltre che per A la distribuzione della produzione è simmetrica, mentre per B presenta una asimmetria positiva. Infine, i dati per B paiono
avere una maggiore variabilità rispetto ad A.
2. Per una misura di posizione possiamo prendere la mediana che leggiamo
immediatamente dal grafico. Per A la mediana è approssimativamente
MeA = 5 quintali, mentre per B la mediana è approssimativamente
MeB = 6, 1 quintali. Per una misura della variabilità possiamo prendere lo scarto interquartilico o il campo di variazione (range). Per A
lo scarto interquartilico (differenza tra il III e il I quartile) è approssimativamente (leggendo i valori dal grafico) SIA =5,9-4,1=1,8 quintali
mentre il campo di variazione (differenza tra il valore massimo e il valore
minimo) è approssimativamente 8,1-1,9=6,2 quintali. Per B le corrispondenti quantità sono SIB =8,1-5,1=3 quintali e rangeB =14-4,1=9.9
quintali. Sia scarto interquartilico che range evidenziano la maggiore
dispersione dei dati per B rispetto ad A.
14
3. Poiché il valore 1 è più piccolo del minimo valore osservato (approssimativamente 1,9) F(1)=0. Il valore 4,1 corrisponde approssimativamente
al I quartile e quindi F(4,1)=0,25; 5 corrisponde approssimativamente
alla mediana e quindi F(5)=0,5; 5,9 corrisponde approssimativamente
al III quartile e quindi F(5,9)=0,75; infine, 10 è maggiore del più grande
valore osservato (approssimativamente 8,1) e quindi F(10)=1.
0.8
1.0
4. Come noto il diagramma a scatola è costruito su alcuni quantili della distribuzione. Dai quantili rappresentati dal diagramma a scatola
possiamo risalire ad alcuni punti della funzione di frequenza relativa
cumulata F (x), come fatto per il punto precedente. Possiamo poi approssimare il comportamento di F (x) semplicemente congiungendo tali
punti tramite dei segmenti (tenendo conto del fatto che la variabile per
la quale stiamo costruendo la funzione di frequenza relativa cumulata è continua). Per esempio, dal boxplot di A sappiamo che il valore
minimo è approssimativamente 1,9 quindi F (x) = 0 per x ≤ 1, 9; sappiamo anche che il quantile 0,25 è approssimativamente 4,1, da cui
F (4, 1) = 0, 25; sappiamo che la mediana è approssimativamente 5, da
cui F (5) = 0, 5; sappiamo che il quantile 0,75 è approssimativamente
5,9, da cui F (5, 9) = 0, 75; sappiamo infine che il valore massimo è
approssimativamente 8,1, quindi F (x) = 1 per x ≥ 8, 1. I punti cosı̀
ottenuti possono essere uniti tramite dei segmenti e otteniamo in questo
modo una approssimazione di F (x). Analogo ragionamento per B. Il
risultato è rappresentato nel grafico successivo, dal quale si deduce che
la produzione nella configurazione A è stocasticamente inferiore alla
produzione nella configurazione B.
A
0.0
0.2
0.4
F(x)
0.6
B
0
5
10
produzione
15
15