Diapositiva 1 - Docenti.unina

annuncio pubblicitario
Anno accademico 2016-’17
Corso di
Germana Scepi
Lezione:
4
Argomento:
Statistica
[email protected]
Gli indici di variabilità
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
Gli indici sintetici
Posizione
Variabilità
Forma
 La variabilità di un fenomeno è la sua attitudine ad assumere differenti
modalità.
 Un indice di variabilità è una misura di tale attitudine, e dovrebbe possedere
almeno le seguenti caratteristiche:

E’ nullo se e solo se tutte le unità presentano la stessa modalità del carattere;

Aumenta all’aumentare della diversità tra le unità.
Rispetto a un centro
 La variabilità può
essere misurata
Come misura delle differenze tra tutte le possibili coppie di
unità osservate (Variabilità reciproca)
2
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La variabilità rispetto a un centro
1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
 x
  = 0
 x
 
i
i
i
i
 x
i
2


9
10
11
12
13
14
15
16
17
18
19
20
9
10
11
12
13
14
15
16
17
18
19
20
devianza
 
Distribuzioni di
frequenza
 x
Distribuzioni di
frequenza
  xi     ni
n
varianza
X2
    ni  0
2
i
2
i
i
i
X1
Distribuzioni di
frequenza
 x
i
    ni
2
i
n
3
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
Var  X  
Gli occupati in Italia (fonte: Istat)
Anno
Numero occupati
(x i )
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
20.207
20.435
20.692
21.080
21.604
21.913
22.241
22.404
22.563
22.988
23.417
23.170
23.025
Media
Devianza
Varianza
21.980
14.322.307
1.101.716
xi-
-1.773
-1.545
-1.288
-900
-376
-67
261
424
583
1.008
1.437
1.190
1.045
0
 x
i
    ni
2
i
n
(x i -  ) 2
3.143.256
2.386.787
1.658.746
809.862
141.318
4.479
68.161
179.841
339.979
1.016.219
2.065.190
1.416.283
1.092.186
14.322.307
4
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
Var  X  
 x
i
2
i
n
Gli occupati in Italia (fonte: Istat)
Anno
Numero occupati
(x i )
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
20.207
20.435
20.692
21.080
21.604
21.913
22.241
22.404
22.563
22.988
23.417
23.170
23.025
Media
Devianza
Varianza
21.980
14.322.307
1.101.716
xi-
-1.773
-1.545
-1.288
-900
-376
-67
261
424
583
1.008
1.437
1.190
1.045
0
    ni
(x i -  ) 2
3.143.256
2.386.787
1.658.746
809.862
141.318
4.479
68.161
179.841
339.979
1.016.219
2.065.190
1.416.283
1.092.186
14.322.307
Distribuzione semplice:
n
Var  X  

  xi   
2
i 1
n
14.322.307
13
 1.101.716
5
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
Var  X  
Gli occupati in Italia (fonte: Istat)
Anno
Numero occupati
(x i )
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
20.207
20.435
20.692
21.080
21.604
21.913
22.241
22.404
22.563
22.988
23.417
23.170
23.025
Media
Devianza
Varianza
21.980
14.322.307
1.101.716
xi-
-1.773
-1.545
-1.288
-900
-376
-67
261
424
583
1.008
1.437
1.190
1.045
0
 x
i
    ni
2
i
n
(x i -  ) 2
3.143.256
2.386.787
1.658.746
809.862
141.318
4.479
68.161
179.841
339.979
1.016.219
2.065.190
1.416.283
1.092.186
14.322.307
6
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
Età studenti
del Corso
Var  X  
Frequenze
assolute (x i -  )n i
(ni)
18
19
20
21
22
23
24
25
Totale
2
44
66
32
18
13
9
6
190
Età media
20,6579
-5,32
-72,95
-43,42
10,95
24,16
30,45
30,08
26,05
0,00
 x
i
    ni
2
i
n
(x i -  ) 2 n i
14,13
120,94
28,57
3,75
32,42
71,31
100,53
113,12
484,76
7
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
Età studenti
del Corso
Var  X  
Frequenze
assolute (x i -  )n i
(ni)
18
19
20
21
22
23
24
25
Totale
2
44
66
32
18
13
9
6
190
Età media
20,6579
-5,32
-72,95
-43,42
10,95
24,16
30,45
30,08
26,05
0,00
 x
i
    ni
2
i
n
(x i -  ) 2 n i
14,13
120,94
28,57
3,75
32,42
71,31
100,53
113,12
484,76
8
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
e lo Scarto quadratico medio
Età studenti
del Corso
Frequenze
assolute (x i -  )n i
(ni)
18
19
20
21
22
23
24
25
Totale
2
44
66
32
18
13
9
6
190
Età media
20,6579
Var  X  
484,76
 2,55
190
-5,32
-72,95
-43,42
10,95
24,16
30,45
30,08
26,05
0,00
Var  X  
 x
i
    ni
2
i
n
(x i -  ) 2 n i
14,13
120,94
28,57
3,75
32,42
71,31
100,53
113,12
484,76
Il problema dell’unità di
misura
Lo Scarto quadratico medio
Sqm  X  
 x
i
    ni
2
i
n
 Sqm  X   2,55  1, 60 anni
9
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
e lo Scarto quadratico medio
Var  X  
 x
i
    ni
2
i
n
Gli occupati in Italia (fonte: Istat)
Anno
Numero occupati
(x i )
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
20.207
20.435
20.692
21.080
21.604
21.913
22.241
22.404
22.563
22.988
23.417
23.170
23.025
Media
Devianza
Varianza
Sqm
21.980
14.322.307
1.101.716
1.050
xi-
-1.773
-1.545
-1.288
-900
-376
-67
261
424
583
1.008
1.437
1.190
1.045
0
(x i -  ) 2
3.143.256
2.386.787
1.658.746
809.862
141.318
4.479
68.161
179.841
339.979
1.016.219
2.065.190
1.416.283
1.092.186
14.322.307
10
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
e lo Scarto quadratico medio
Età studenti
del Corso
Frequenze
assolute (x i -  )n i
(ni)
18
19
20
21
22
23
24
25
Totale
2
44
66
32
18
13
9
6
190
Età media
20,6579
 
Max  2 
-5,32
-72,95
-43,42
10,95
24,16
30,45
30,08
26,05
0,00
(x i -  ) 2 n i
Sqm  X  
14,13
120,94
28,57
3,75
32,42
71,31
100,53
113,12
484,76
i
    ni
2
i
n
 x
i
    ni
2
i
n
Situazione di massima variabilità
n-1 unità hanno nulla;
1 unità ha l’intero ammontare
1
2
1
2
2

x



n

0



n

1

n












i
i


n i
n
1
 n 2   2  n2  2   2  2n 2 
n

 
Var  X  
 x
Max  2   2  n  1
1 2 2
n   n 2
n


 Max     n  1

1
n 2  n  1   2  n  1
n
11
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
e lo Scarto quadratico medio
Situazione di massima variabilità
Var  X  
Sqm  X  
n-1 unità hanno nulla;
 x
i
    ni
2
i
n
 x
i
    ni
2
i
n
1 unità ha l’intero ammontare
 
Max  2   2  n  1
Max     n  1
Se volessimo costruire un indice di variabilità normalizzato, potremmo dunque dividere lo sqm
per il suo massimo. Nella pratica, quest’indice normalizzato viene utilizzato raramente, anche
perché il massimo è, in realtà, un valore assolutamente teorico. Si utilizza, dunque, lo scarto
quadratico medio, che ha, comunque, una propria interpretabilità, oppure un indice normalizzato
ottenuto ricorrendo a massimi “empirici”.
Regola empirica per la maggior parte delle situazioni reali:
Per distribuzioni unimodali:
 
Max  2
2
 xmin 
x
  max

3


Max   
xmax  xmin
3
12
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
e lo Scarto quadratico medio
Var  X  
Sqm  X  
 x
i
    ni
2
i
n
 x
i
    ni
2
i
n
Un metodo alternativo per il calcolo di 2
  M X
2
2
  M  X 
2
13
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
e lo Scarto quadratico medio
 2  M  X 2   M  X 
Un metodo alternativo per il calcolo di 2
Anno
Numero occupati
(x i )
X2
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
20.207
20.435
20.692
21.080
21.604
21.913
22.241
22.404
22.563
22.988
23.417
23.170
23.025
408.322.849
417.589.225
428.158.864
444.366.400
466.732.816
480.179.569
494.662.081
501.939.216
509.088.969
528.448.144
548.355.889
536.848.900
530.150.625
Media
Devianza
Varianza
Sqm
21.980
14.322.307
1.101.716
1.050
484.218.734
14
2
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
e lo Scarto quadratico medio
 2  M  X 2   M  X 
2
Un metodo alternativo per il calcolo di 2
Anno
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
Numero occupati
(x i )
20.207
20.435
20.692
21.080
21.604
21.913
22.241
22.404
22.563
22.988
23.417
23.170
23.025
n
X2
408.322.849
417.589.225
428.158.864
444.366.400
466.732.816
480.179.569
494.662.081
501.939.216
509.088.969
528.448.144
548.355.889
536.848.900
530.150.625
 
M X2 
X
i 1
2
i
n
 484.218.734
 M  X  
2
  21.979,9231 
2
 483.117.015
Var  X   484.218.734  483.117.019
Media
Devianza
Varianza
Sqm
21.980
14.322.307
1.101.716
1.050
484.218.734
 1.101.715
15
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
e lo Scarto quadratico medio
 2  M  X 2   M  X 
Un metodo alternativo per il calcolo di 2
Età studenti
del Corso
18
19
20
21
22
23
24
25
M(X)
Varianza
Frequenze
assolute
(ni)
2
44
66
32
18
13
9
6
190
X2
X 2n i
324
361
400
441
484
529
576
625
648
15884
26400
14112
8712
6877
5184
3750
81567
20,66
2,5514
16
2
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
e lo Scarto quadratico medio
 2  M  X 2   M  X 
Un metodo alternativo per il calcolo di 2
Età studenti
del Corso
18
19
20
21
22
23
24
25
M(X)
Varianza
Frequenze
assolute
(ni)
2
44
66
32
18
13
9
6
190
X2
X 2n i
324
361
400
441
484
529
576
625
648
15884
26400
14112
8712
6877
5184
3750
81567
 
M X2 
81567
 429,30
190
M  X   20,662  426,75
2
 X2  429,30  426,75
 2,55
20,66
2,5514
17
2
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La varianza
e lo Scarto quadratico medio
Il confronto fra misure di variabilità
X
Y
Mamme
Neonati
Peso
(Kg.)
n
Peso
(Kg.)
n
45 - 50
4
1,5 - 2,0
5
50 - 55
12
2,0 - 2,5
12
55 - 60
22
2,5 - 3,0
25
60 - 65
40
3,0 - 3,5
35
65 - 70
19
3,5 - 4,0
18
70 - 75
3
4,0 - 4,5
5
100
100
M  X   60, 85
M Y   3,07
Var  X   31,528
Var Y   0,358
Sqm  X   5, 615
Sqm Y   0,598
CV  X   0, 092
CV Y   0,195
Var  X  
Sqm  X  
 x
i
    ni
2
i
n
 x
i
    ni
2
i
n
Coefficiente di variazione
CV 


.) Non è definito per <0
.) Tende ad “esplodere”per ≈0
18
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
Altri indici di variabilità
.) Scostamento semplice dalla mediana:
S  Me  
.) Differenza interquartile:
Q3  Q1
n
.) Differenza semplice media:
(Indice di mutua variabilità)
0
D


i  j 1
1
 xi  Me  ni
n i
xi  x j
n   n  1
D  2
Indice normalizzato:
D
2
R
Rapporto di
concentrazione
del Gini
19
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La variabilità reciproca
Modificato da Borra, Di Ciaccio, Statistica, 2004
TV
Rete 1
Rete 2
Rete 3
Rete 4
Rete 5
Rete 6
Rete 7
Rete 8
Rete 9
Media
Varianza
Sqm
Introiti pubblicitari
(in milioni di euro)
1.889
1.857
1.524
697
1.994
1.798
1.320
461
339
11.879
X2
3.568.321
3.448.449
2.322.576
485.809
3.976.036
3.232.804
1.742.400
212.521
114.921
19.103.837
1.319,89
380.541,88
616,88
20
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La variabilità reciproca
Modificato da Borra, Di Ciaccio, Statistica, 2004
TV
Rete 1
Rete 2
Rete 3
Rete 4
Rete 5
Rete 6
Rete 7
Rete 8
Rete 9
Media
Varianza
Sqm
Introiti pubblicitari
(in milioni di euro)
1.889
1.857
1.524
697
1.994
1.798
1.320
461
339
11.879
1.319,89
380.541,88
616,88
X2
3.568.321
3.448.449
2.322.576
485.809
3.976.036
3.232.804
1.742.400
212.521
114.921
19.103.837
 
Var  X   M X 2   M  X 
19.103.837
2

 1.319,89
9
2
 2.122.649  1.742.110
 380.539
Sqm  X   380.539
 617 mln €
21
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La variabilità reciproca
Modificato da Borra, Di Ciaccio, Statistica, 2004
TV
Rete 1
Rete 2
Rete 3
Rete 4
Rete 5
Rete 6
Rete 7
Rete 8
Rete 9
Media
Varianza
Sqm
Introiti pubblicitari
(in milioni di euro)
1.889
1.857
1.524
697
1.994
1.798
1.320
461
339
11.879
X2
3.568.321
3.448.449
2.322.576
485.809
3.976.036
3.232.804
1.742.400
212.521
114.921
19.103.837
1.319,89
380.541,88
616,88
22
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La variabilità reciproca
Modificato da Borra, Di Ciaccio, Statistica, 2004
TV
Rete 1
Rete 2
Rete 3
Rete 4
Rete 5
Rete 6
Rete 7
Rete 8
Rete 9
Media
Varianza
Sqm
Introiti pubblicitari
(in milioni di euro)
1.889
1.857
1.524
697
1.994
1.798
1.320
461
339
11.879
X2
3.568.321
3.448.449
2.322.576
Indice di485.809
mutua variabilità
3.976.036
3.232.804
Differenza
semplice media:
1.742.400
212.521
114.921
19.103.837
n
D

i  j 1
xi  x j
n  n  1
1.319,89
380.541,88
616,88
23
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
La variabilità reciproca
TV
Rete 1
Rete 2
Rete 3
Rete 4
Rete 5
Rete 6
Rete 7
Rete 8
Rete 9
TV
Introiti pubblicitari
(in milioni di euro)
1.889
1.857
1.524
697
1.994
1.798
1.320
461
339
11.879
Rete 1
n
  1.319,9
D

i  j 1
xi  x j
n  n  1
0  D  2  R 
Rete 2
Rete 3
Rete 4
Rete 5
Rete 6
54.808
 761,22
9 8

D
2
Rete 7

761,22
 0,289
2.639,8
Rete 8
Rete 9
Rete 1
0
32
365
1.192
-105
91
569
1.428
1.550
Rete 2
-32
0
333
1.160
-137
59
537
1.396
1.518
Rete 3
-365
-333
0
827
-470
-274
204
1.063
1.185
Rete 4
-1.192
-1.160
-827
0
-1.297
-1.101
-623
236
358
Rete 5
105
137
470
1.297
0
196
674
1.533
1.655
Rete 6
-91
-59
274
1.101
-196
0
478
1.337
1.459
Rete 7
-569
-537
-204
623
-674
-478
0
859
981
Rete 8
-1.428
-1.396
-1.063
-236
-1.533
-1.337
-859
0
122
Rete 9
-1.550
-1.518
-1.185
-358
-1.655
-1.459
-981
-122
0
24
54.808
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
Esercizio di riepilogo
Si riporta di seguito la distribuzione della durata (in secondi)
di 1185 brani musicali trasmessi il mese scorso da una emittente radiofonica.
Classi di valori
(secondi)
Frequenze
Si determini:
• la durata media
30 - 60
5
60 - 150
135
• la durata mediana
150 - 180
150
180 - 300
570
• la classe modale
300 - 450
280
450 - 950
45
• il primo e il terzo quartile
• la varianza (nei due modi studiati)
• lo scarto quadratico medio
• il coefficiente di variazione
25
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
Esercizio di riepilogo
Esempio
Calcolare:
Media, Mediana, Devianza, Varianza, Sqm, CV
26
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
Esercizio di riepilogo
Esempio
21,03
20,85
107,68
10,77
3,3
39,80
34,70
Dev  X  
x
i
 
2
i
Var  X  
 x
i
 
2
i
n
( )
( )
Sqm X = Var 27
X
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
Esercizio di riepilogo
Esempio
21,03
20,85
107,68
10,77
3,3
39,80
34,70
 
Var  X   M X 2  M  X 
2
 453, 03  442,26 10,73
28
Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica
Lezione 4 – Gli indici di variabilità
G. Scepi
Esercizio di riepilogo
Esempio
21,03
20,85
107,68
10,77
3,3
39,80
34,70
5346,08
534,61
23,1
29
Scarica