Statistica
V - 2005/06
1
STATISTICA: ramo del sapere essenzialmente
teorico che impiega strumenti logici e
matematici per la raccolta, il raggruppamento e
l’interpretazione dei dati
Si occupa di fenomeni ripetibili del mondo
reale che si manifestano con determinazioni
non costanti (presenza di variabilità)
V - 2005/06
2
1
Si distingue tra:
1. Ripetibilita’ attuale: tutte le
manifestazioni di interesse del fenomeno
si sono già realizzate (es. fenomeni
demografici)
2. Ripetibilità virtuale: non tutte le
manifestazioni si sono realizzate (es.
unità prodotte da un dato processo
produttivo)
V - 2005/06
3
RIPETIBILITA’
ATTUALE
RIPETIBILITA’
VIRTUALE
RILEVAZIONE
TOTALE
RILEVAZIONE
PARZIALE
UNIVERSO
CAMPIONE
INSIEME UNITA’
STATISTICHE RILEVATE
V - 2005/06
4
2
REALTA’
FENOMENI NON COSTANTI
(attitudine a variare)
RILEVAZIONE
1. Individuazione di uno o più CARATTERI sui quali
acquisire le informazioni
2. Individuazione delle UNITA’ STATISTICHE portatori
del carattere in studio
3. Procedimento di misurazione del carattere che porta alla
individuazione delle MODALITA’ con cui il carattere si
presenta
5
V - 2005/06
ESEMPIO DI RILEVAZIONE
(data set completo Excel)
Caratteri o variabili statistiche
ID
Unità
statistiche
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
CORSO LAUREA
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SPO
SPO
SPO
SPO
SPO
SPO
ORU
SESSO
M
F
M
F
F
M
F
M
F
F
M
M
F
M
F
F
M
M
F
F
MEDIA VOTI
22
24
21
26
27
26
25
24
27
24
26
30
29
27
23
27
28
29
28
26
CREDITI
6
71
19
27
9
10
18
27
10
17
18
18
84
27
9
30
33
30
48
66
RENDIMENTO
discreto
buono
discreto
buono
ottimo
buono
buono
buono
ottimo
buono
buono
ottimo
ottimo
ottimo
discreto
ottimo
ottimo
ottimo
ottimo
buono
Modalità
V - 2005/06
6
3
Variabili Statistiche
7
V - 2005/06
CLASSIFICAZIONE DEI FENOMENI STATISTICI
La SCALA DELLE MODALITÀ DI RILEVAZIONE
¾Fenomeni QUALITATIVI
si identificano in via naturale tramite attributi
¾Fenomeni QUANTITATIVI
si identificano in via naturale tramite numeri
V - 2005/06
8
4
¾Fenomeni QUALITATIVI
•Scale nominali (o sconnesse o categoriali):
categoriali):
le modalità non sono suscettibili di alcun
tipo di ordinamento
•Scale ordinali (o rettilinee): le modalità
presentano in via naturale un ordine
9
V - 2005/06
¾Fenomeni QUANTITATIVI
•Discreti: caratteri numerabili, modalità
ottenibile tramite un’operazione di
conteggio (classe dei numeri naturali)
•Continui: caratteri misurabili, modalità
ottenuta tramite un’operazione di
misurazione (classe dei numeri reali)
V - 2005/06
10
5
¾Fenomeni QUANTITATIVI
•Scale di intervalli: Si può valutare la
differenza tra due intensità, ma non è
sensato stabilire rapporti; non sono
sensibili a cambiamenti di origine
•Scale di rapporti: Sono articolate in
modalità ordinate la prima delle quali è in
via naturale lo zero; consentono di valutare
il rapporto esistente tra due modalità
11
V - 2005/06
SCALA DELLE MODALITÀ
QUALITATIVE
QUANTITATIVE
Nominale
Ordinale
Intervallare
Rapporto
RELAZIONI
Uguaglianza
xi = x j
Disuguaglianza
xi ≠ x j
Ordinamento
xi
Differenza
xi − x j
Rapporto
xi / x j
xj
9
9
9
9
9
9
9
9
9
9
9
9
9
9
Fonte: SPSS Italia
V - 2005/06
12
6
ESEMPIO (assegnazione etichette excel)
Qualitativa nominale
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
CORSO LAUREA
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SAM
SPO
SPO
SPO
SPO
SPO
SPO
ORU
SESSO
M
F
M
F
F
M
F
M
F
F
M
M
F
M
F
F
M
M
F
F
Qualitativa ordinale
MEDIA VOTI
22
24
21
26
27
26
25
24
27
24
26
30
29
27
23
27
28
29
28
26
CREDITI
6
71
19
27
9
10
18
27
10
17
18
18
84
27
9
30
33
30
48
66
Quantitativa continua
(è una media!)
RENDIMENTO
discreto
buono
discreto
buono
ottimo
buono
buono
buono
ottimo
buono
buono
ottimo
ottimo
ottimo
discreto
ottimo
ottimo
ottimo
ottimo
buono
Quantitativa discreta
(deriva da un conteggio).
13
V - 2005/06
Tabelle di Frequenza
V - 2005/06
14
7
Sintesi tabellare dei caratteri statistici:
Se abbiamo n dati relativi ad un indagine condotta su n
individui ad ogni modalita xi del carattere X andiamo ad
associare il numero di volte in cui la modalità si manifesta ni
n= numero delle unità statistiche rilevate
X=carattere oggetto di studio
k=num totale dei diversi valori assunti dal carattere X (modalità)
xi=modalità i-esima del carattere X
i=1,….,k
ni=frequenze assolute
15
V - 2005/06
FREQUENZE
FREQUENZE
RELATIVE
ASSOLUTE
FREQUENZE
PERCENTUALI
FREQUENZE
CUMULATE
i
Ni = ∑ n j
j =1
MODALITA’
xi
ni
x1
n1 n1/n=f1
f1*100 n1
x2
n2 n2/n=f2
f1*100 n1+ n2
x3
n3 n2/n=f2
f1*100 n1+ n2+ n3=n
n
fi
1
pi
Ni
 N1 = n1

 Nk = n
N − N = n
i −1
i
 i
100
Analogamente alle Ni possono essere costruite
anche le Fi e le Pi
V - 2005/06
16
8
ESEMPI (funzioni excel CONTA.SE e TABELLE PIVOT)
corso
SAM
SPO
ORU
IES
sesso
M
F
ni
137
251
186
159
733
ni
350
383
733
MEDIA VOTI
fi
18.69%
34.24%
25.38%
21.69%
1
fi
0.47749
0.52251
1
ni
pi
47.74898
52.25102
pi
18
19
20
21
22
23
24
25
26
27
28
29
30
11
11
18
29
47
75
105
84
105
85
94
49
20
1.50%
1.50%
2.46%
3.96%
6.41%
10.23%
14.32%
11.46%
14.32%
11.60%
12.82%
6.68%
2.73%
0.00%
733 100.00%
(vuote)
Totale complessivo
pi
18.69031
34.24284
25.37517
21.69168
100
Ni
Fi
11
1.50%
22
3.00%
40
5.46%
69
9.41%
116
15.83%
191
26.06%
296
40.38%
380
51.84%
485
66.17%
570
77.76%
664
90.59%
713
97.27%
733 100.00%
Si noti che le frequenze cumulate non vengono
calcolare per i fenomeni qualitativi sconnessi
rendim
sufficiente
discreto
buono
ottimo
crediti
0-|20
20-|40
40-|60
60-|80
80-|100
100-|120
120-|140
140-|160
160-|180
ni
fi
pi
40 0.05472
5.47%
150 0.205198
20.52%
293 0.400821
40.08%
248 0.339261
33.93%
731
1 100.00%
ni
207
183
84
83
64
42
29
24
17
733
fI
pi
0.282401
28.24%
0.249659
24.97%
0.114598
11.46%
0.113233
11.32%
0.087312
8.73%
0.057299
5.73%
0.039563
3.96%
0.032742
3.27%
0.023192
2.32%
1 100.00%
Ni
Fi
Pi
40 0.05472
5.47%
190 0.259918
25.99%
483 0.660739
66.07%
731
1 100.00%
Ni
207
390
474
557
621
663
692
716
733
Fi
Pi
0.282401
28.24%
0.53206
53.21%
0.646658
64.67%
0.759891
75.99%
0.847203
84.72%
0.904502
90.45%
0.944065
94.41%
0.976808
97.68%
1 100.00%
Se si ha un numero elevato di modalità xi, si
possono ragruppare le modalità in classi
V - 2005/06
17
Rappresentazioni Grafiche
V - 2005/06
18
9
¾ Caratteri qualitativi sconnessi e rettilinei
•
Rappresentazione tramite rettangoli
•
Grafici a torta o a settori circolari
•
Grafici a pila
¾ Carattere quantitativi discreti
•
Rappresentazione tramite segmenti o bastoncini
¾ Caratteri quantitativi continui
•
Istogramma
•
poligoni di frequenza
V - 2005/06
19
¾ Caratteri qualitativi sconnessi e rettilinei
Per i caratteri
rettilinei le barre e
le pile vanno
messe nell’ordine
naturale delle
modalità
V - 2005/06
20
10
ESEMPIO
¾ Caratteri quantitativi continui
•
Istogramma
(con classi di ampiezza diversa vanno rappresentate le densità=frequenza/ampiezza)
V - 2005/06
li =
ni
ai
21
ESEMPIO
¾ Caratteri quantitativi continui
•
Poligono di Frequenza (di solito si fanno per frequenze o percentuali)
V - 2005/06
22
11
Indici di Posizione
V - 2005/06
23
Gli indici si posizione sono misure sintetiche
(‘valori caratteristici’) che descrivono la tendenza
centrale di un fenomeno
La tendenza centrale è, in prima
approssimazione, la modalità della relativa
variabile verso la quale i casi tendono a gravitare,
ossia il ‘baricentro’ della distribuzione
V - 2005/06
24
12
MODA
È la modalità della variabile alla quale è associata la
maggior frequenza, cioè quella che è risultata
privilegiata dal fenomeno ed è ricorsa più volte in
sede di rilevazione
Mo = {xi : max(ni ) i = 1,...., k}
i
•Può essere calcolato per qualsiasi tipo di distribuzione
•È un indice elementare e non molto ‘informativo’
25
V - 2005/06
MODA
In caso di carattere raggruppato in classi la moda è il
valore medio (centrale) della classe a cui è associata la
densità di frequenza li più elevata
Mo = {
V - 2005/06
xi + xi +1
: max(li ) i = 1,...., k}
i
2
26
13
ESEMPI
VARIABILI QUALITATIVE
SCONNESSA O RETTILINEA
IES
CORSO
SAM
SPO
ORU
IES
ni
137
251
186
159
733
fi
18.69%
34.24%
25.38%
21.69%
1
ORU
pi
18.69031
34.24284
25.37517
21.69168
100
Mo=SPO
SPO
SAM
0
rendim
sufficiente
discreto
buono
ottimo
ni
40
150
293
248
731
fi
pi
0.05472
5.47%
0.205198
20.52%
0.400821
40.08%
0.339261
33.93%
1 100.00%
Ni
40
190
483
731
50
100
150
200
250
300
100%
90%
Fi
Pi
0.05472
5.47%
0.259918
25.99%
0.660739
66.07%
1 100.00%
80%
70%
ottimo
60%
buono
50%
40%
discreto
sufficiente
30%
20%
10%
0%
pi
Mo=Buono
27
V - 2005/06
ESEMPIO
DISTRIBUZIONE BIMODALE
MEDIA VOTI
ni
18
19
20
21
22
23
24
25
26
27
28
29
30
(vuote)
Totale complessivo
pi
1.50%
1.50%
2.46%
3.96%
6.41%
10.23%
14.32%
11.46%
14.32%
11.60%
12.82%
6.68%
2.73%
0.00%
733 100.00%
11
11
18
29
47
75
105
84
105
85
94
49
20
Ni
Fi
11
1.50%
22
3.00%
40
5.46%
69
9.41%
116
15.83%
191
26.06%
296
40.38%
380
51.84%
485
66.17%
570
77.76%
664
90.59%
713
97.27%
733 100.00%
CORSO LAUREA (Tutto)
120
100
80
Dati
60
pi
ni
40
20
0
18
19
20
21
22
23
24
25
26
27
28
29
30
(vuote)
MEDIA VOTI
Sono presenti due valori modali, Mo=24 e Mo=26
V - 2005/06
28
14
ESEMPIO
VARIABILE QUANTITATIVA RAGGRUPPATA IN
CALSSI
classi età numero lettori
classi età numero lettori
6-|11
11-|14
14-|20
20-|25
25-|35
35-!45
45-|55
55-|65
65 -|80
totale
6-|11
11-|14
14-|20
20-|25
25-|35
35-!45
45-|55
55-|65
65 -|80
totale
221
573
2883
2864
5449
5384
4607
3692
2694
28367
ai
221
573
2883
2864
5449
5384
4607
3692
2694
28367
5
3
6
5
10
10
10
10
15
li
44.2
191
480.5
572.8
544.9
538.4
460.7
369.2
179.6
Fonte; ISTAT, indagine sulla
lettura e su altro impiego del
tempo libero, 1986
Classe modale: 20-|25
Mo=(20+25)/2=22.5
29
V - 2005/06
MEDIANA
La mediana di una variabile è la modalità del caso che
occupa la distribuzione ‘di mezzo’ nella distribuzione
ordinata dei casi secondo quella variabile.
•non può essere calcolata per le variabili sconnesse perché
non possegono in via naturale un ordine
•Talvoltà è un idice più informativo della moda
V - 2005/06
30
15
ESEMPIO
modalità che occupa il posto centrale nella distribuzione di
frequenza (50% delle Pi)
SPO
SAM/ORU
Giudizio
Frequenza
Freq. Cum
Giudizio
Frequenza
Freq. Cum
INSUFF
3
3
INSUFF
25
25
SCARSO
7
10
SCARSO
30
55
SUFF
35
45
SUFF
35
90
BUONO
30
75
BUONO
7
97
OTTIMO
25
100
OTTIMO
3
100
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
31
MEDIANA
Se il numero di casi n è dispari, c’è un solo caso centrale:
quello che occupa la posizione (n+1)/2.
Se il numero di casi n è pari, ci sono due casi centrali: quelli
che occupano le due posizioni n/2 e n/2+1. Se questi due
casi presentano la stessa modalità, quella modalità è la
mediana, se presentano modalità diverse: la mediana è
indeterminata (se la variabile è ordinale); la mediana è la
media dei valori assunti nei due casi (se la variabile è
quantitativa).
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
32
16
MEDIANA
PER DATI RAGGRUPPATI IN CLASSI, (Iacus, pag 70)
1. Si calcola il valore (n+1)/2
2a. Se il valore cade a cavallo di due classi contigue xi-1-|xi
e xi-|xi+1, si sceglie il valore separatore delle due calssi
(xi) come mediana
2b. Se la cumulata di ordine (n+1)/2 cade nella classe i di
estremi xi-|xi+1 la mediana è fornita dalla seguente
formula
n
− Ni −1
Me = xi + 2
li
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
33
PERCENTILI
(o frattili o quantili)
Sono dei particolari valori della variabile X che
dividono la distribuzione di frequenza in 100 parti
tendenzialmente di uguale numerosità. Casi particolari:
•Percentile di ordine 50 che corrisponde alla mediana;
•Quartili che dividono la distribuzione di frequenza in
quattro parti tendenzialmente della stessa numerosità
n/4
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
34
17
QUARTILI
Q1
25%
75%
Q2=Me
50%
50%
Q3
75%
25%
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
35
QUARTILI
100.00%
75.00%
50.00%
25.00%
0.00%
Q1
Q2
Q3
Q1=modalità di X a cui corrisponde la prima frequenza percentuale (relativa) maggiore di 25% (0.25)
Q2=modalità di X a cui corrisponde la prima frequenza percentuale (relativa) maggiore di 50% (0. 5)
Q3=modalità di X a cui corrisponde la prima frequenza percentuale (relativa) maggiore di 75% (0.75)
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
36
18
PRIMO QUARTILE Q1
(Iacus, pag. 71)
1. Si calcola il valore
1
(n+1)
4
2. Si procede come per la mediana tenendo come
1
riferimento sempre la posizione (n+1).
4
Per i dati raggruppati in classe la formula è
1
n − Ni −1
4
Q1 = xi +
li
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
37
TERZO QUARTILE Q3
(Iacus, pag. 71)
1. Si calcola il valore
3
(n+1)
4
2. Si procede come per la mediana tenendo come
3
riferimento sempre la posizione (n+1).
4
Per i dati raggruppati in classe la formula è
3
n − Ni −1
Q3 = xi + 4
li
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
38
19
BOX - PLOT
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
39
ESEMPI
Non si calcolano Mediana e Quartili delle variabili Corso ei Laurea e Sesso perché sono
variabili sconnesse (nominali)
MEDIA VOTI
ni
pi
18
11
1.50%
11
1.50%
19
18
2.46%
20
29
3.96%
21
47
6.41%
22
75 10.23%
23
105 14.32%
24
84 11.46%
25
105 14.32%
26
85 11.60%
27
94 12.82%
28
49
6.68%
29
20
2.73%
30
Totale complessivo 733 100.00%
rendim
sufficiente
discreto
buono
ottimo
ni
Ni
Fi
11
1.50%
22
3.00%
40
5.46%
69
9.41%
116 15.83%
191 26.06%
296 40.38%
380 51.84%
485 66.17%
570 77.76%
664 90.59%
713 97.27%
733 100.00%
fi
pi
40 0.05457
5.47%
151 0.206003
20.52%
294 0.401091
40.08%
248 0.338336
33.93%
733
1 100.00%
Ni
1
( n + 1) = 183
4
1
( n + 1) = 367
2
3
( n + 1) = 550
4
Fi
40 0.05457
191 0.260573
485 0.661664
733
1
Pi
5.47%
25.99%
66.07%
100.00%
Q1=23
Q2=Me=25
Q3=27
Q1=‘discreto’
Q2=Me=‘buono’
Q3=‘ottimo’
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
40
20
ESEMPI
crediti
0-|20
20-|40
40-|60
60-|80
80-|100
100-|120
120-|140
140-|160
160-|180
ni
207
183
84
83
64
42
29
24
17
733
1
( n + 1) = 183
4
1
( n + 1) = 367
2
3
( n + 1) = 550
4
fI
0.282401
0.249659
0.114598
0.113233
0.087312
0.057299
0.039563
0.032742
0.023192
1
pi
28.24%
24.97%
11.46%
11.32%
8.73%
5.73%
3.96%
3.27%
2.32%
100.00%
Ni
207
390
474
557
621
663
692
716
733
Fi
0.282401
0.53206
0.646658
0.759891
0.847203
0.904502
0.944065
0.976808
1
Pi
28.24%
53.21%
64.67%
75.99%
84.72%
90.45%
94.41%
97.68%
100.00%
1
733 − 0
Q1 = 0 + 4
= 17, 7
207 / 20
1
733 − 207
Q2 = Me = 20 + 2
= 37, 4
183 / 20
3
733 − 474
Q3 = 60 + 4
= 78, 2
83 / 20
Q1=18
Q2=Me=37
Q3=78
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
41
ESEMPI: box plot (realizzati con SPSS)
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
N=
733
MEDIA VOTI
200
175
320
390
53
31
124
353
79
119
43
88
586
304
595
150
125
100
75
50
25
0
N=
733
CREDITI
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
42
21
MEDIA ARITMETICA
•La media è il valore caratteristico più noto fra quelli che
rilevano la tendenza centrale
•E’ il valore atteso di una successiva rilevazione
•E’ la parte del totale delle intensità che spetta a ciascuna unità
Può essere calcolata solo per variabili quantitative
ATTENZIONE: Molto spesso è comodo associare alle modalità qualitative codici
numerici (es. numero di matricola, codice identificativo cliente). Nonostante la
ricodifica, la variabile rimane connotata secondo la caratteristica intrinseca del
fenomeno di cui essa è rilevazione.
NON HA SENSO FARE LA MEDIA DEL NUMERO DI MATRICOLA!!!!!!!!!!
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
43
MEDIA ARITMETICA SEMPLICE
Se si considera una tabella di rilevazione, la media
aritmetica è data dalla seguente formula
x = (µ ) =
ID
1
2
3
4
5
VOTI
22
24
21
26
27
CREDITI
6
71
19
27
22
1 n
∑ xi
n i =1
M (Voti ) =
22 + 24 + 21 + 26 + 27
= 24
5
M (Crediti ) =
6 + 71 + 19 + 27 + 22
= 29
5
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
44
22
MEDIA ARITMETICA PONDERATA
Se si considera una tabella di frequenza, la media
aritmetica è data dalla seguente formula
1 n
x = ( µ ) = ∑ xi ni
n i =1
VOTI
19
21
24
25
26
27
30
Totale comp
crediti
20-|60
60-|100
100-|140
140-|180
totale
xi
40
80
120
160
ni
10
20
50
80
20
10
10
200
M (Voti ) =
ni
20
105
60
15
200
19 ⋅10 + 21 ⋅ 20 + 24 ⋅ 50 + 25 ⋅ 80 + 26 ⋅ 20 + 27 ⋅10 + 30 ⋅10
= 24,5
200
Per le variabili raggruppate in calsse si considerano i
valori centrali
M (Crediti ) =
40 ⋅ 20 + 80 ⋅105 + 120 ⋅ 60 + 160 ⋅15
= 94
200
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
45
ESEMPIO: MEDIA ARITMETICA (excel)
Dati
VOTI
18
19
20
21
22
23
24
25
26
27
28
29
30
Totale com
ni
pi
11
1.50%
11
1.50%
18
2.46%
29
3.96%
47
6.41%
75 10.23%
105 14.32%
84 11.46%
105 14.32%
85 11.60%
94 12.82%
49
6.68%
20
2.73%
733 100.00%
Ni
Pi
11
1.50%
22
3.00%
40
5.46%
69
9.41%
116
15.83%
191
26.06%
296
40.38%
380
51.84%
485
66.17%
570
77.76%
664
90.59%
713
97.27%
733 100.00%
xini
198
209
360
609
1034
1725
2520
2100
2730
2295
2632
1421
600
18433
INDICI DI POSIZIONE
MEDIA
25.147
Formula della media
aritmetica semplice,
partendo dalla rilevazione
25.147
Formula della media
artimetica ponderata,
calcolata a partire dalla
tabella di frequenza
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
46
23
ESEMPIO: MEDIA ARITMETICA (excel)
crediti
0 -| 20
20 -| 40
40 -| 60
60 -| 80
80 -| 100
100 -| 120
120 -| 140
140 -| 160
160 -| 180
MEDIA
ni
207
183
84
83
64
42
29
24
17
733
51.836
Formula della media
aritmetica semplice,
partendo dalla rilevazione
fI
0.282401
0.249659
0.114598
0.113233
0.087312
0.057299
0.039563
0.032742
0.023192
1
pi
28.24%
24.97%
11.46%
11.32%
8.73%
5.73%
3.96%
3.27%
2.32%
100.00%
51.836 52.128
Formula della media
artimetica ponderata,
calcolata a partire dalla
tabella di frequenza
Ni
207
390
474
557
621
663
692
716
733
Fi
0.282401
0.53206
0.646658
0.759891
0.847203
0.904502
0.944065
0.976808
1
Pi
28.24%
53.21%
64.67%
75.99%
84.72%
90.45%
94.41%
97.68%
100.00%
ai
20
20
20
20
20
20
20
20
20
li
10.35
9.15
4.2
4.15
3.2
2.1
1.45
1.2
0.85
xi
10
30
50
70
90
110
130
150
170
xini
2070
5490
4200
5810
5760
4620
3770
3600
2890
38210
MEDIA calcolata dalla
tebella di frequenza
raggruppata in classi
utilizzando come xi i valori
centrali delle classi
Osservazione
Se si utilizza una variabile quantitativa raggruppata
in classi, si perde l'informazione numerica sulle singole
unità statistiche (classi=categorie), pertanto gli indici
di posizione calcolati sulla tabella ragruppata in classi
possono differire da quelli originari, e dipendono dal
raggruppamento.
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
47
MEDIA ARITMETICA: PROPRIETA’
1.
La media aritmetica di una variabile è sempre compresa tra il valore
minimo e il valore massimo assunti dalla variabile stessa, cioè
xmin ≤ x ≤ xmax
2.
La media di una costante è uguale alla costante stessa, inoltre se
una variabile X viene moltiplicata per una costante anche la sua
media risulta moltiplicata per la stessa costante, cioè
M (a + bX ) = a + bM ( X ),
dove M si dice operatore media aritmetica
e a e b sono due costanti, vale quindi
M (a ) = a
M (bX ) = bM ( X )
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
48
24
MEDIA ARITMETICA: PROPRIETA’
3.
La somma algebrica degli scarti dei valori xi dalla loro media
aritmetica è uguale a zero
n
n
i =1
i =1
∑ ( xi − x ) = ∑ xi − nx = nx − nx = 0
4.
La somma dei quadrati degli scarti dei valori xi dalla loro media
aritmetica è minima (proprietà dei minimi quadrati)
n
∑ ( xi − x )
2
= minimo
i =1
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
49
ESEMPIO: PROPRIETA 2
Salario
CHIARA
15000€
FRANCESCA
16700€
DAVIDE
15500€
STEFANO
14000€
ELENA
13500€
Le persone elencate nella tabella costituiscono un
equipe di lavoro, se realizzeranno un progetto
riceveranno un premio fisso di 1000 € ciascuno e
un incremento del salario del 5% . A quanto
ammonterà il salario medio percepito dai
componenti dell’equipe in caso si realizzazione?
X=‘Salario’
Y=‘Salario dopo la realizzazione’=1000+1,05 X
1,05 = 1 + 0.05
(salario +incremento)
15000 + 16700 + 15500 + 14000 + 13500
= 14940
5
M (Y ) = M (1000 + 1, 05 ⋅ X ) = 1000 + 1, 05 ⋅ M ( X ) = 1000 + 1, 05 ⋅14940 = 16687
M (X ) =
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
50
25
MEDIA ARITMETICA: TEOREMI
Teorema 1
La media aritmetica di un miscuglio di k gruppi (o
sottopopolazioni), per ciascuno dei quali è già noto il valore
della media aritmetica, è uguale alla media aritmetica
ponderata delle media dei singoli gruppi
xi =
1
ni
ni
∑ xij
j =1
media aritmetica dell'i -esimo gruppo di numerosità ni
k
n = ∑ ni numerosità del miscuglio di k gruppi
i =1
1
x =
n
k
ni
1
∑ ∑ xij = n
i =1 j =1
k
∑ x i ni
i =1
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
51
MEDIA ARITMETICA: TEOREMI
Teorema 2
La media aritmetica della somma (o della differenza) di due
(o più variabili) è uguale alla somma (o alla differenza)
della media aritmetica delle singole variabili.
Se Z = X + Y
1 n
1 m
M (Z ) = M ( X + Y ) = M ( X ) + M (Y ) = ∑ xi + ∑ y j
n i=1
m j =1
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
52
26
ESEMPIO: TEOREMA 1
Miscuglio di k=4 corsi di laurea, variabile X=‘media voti’
CORSO LAUREA MEDIA VOTI ni
IES
24.34 159
ORU
24.45 186
SAM
24.46 137
SPO
26.55 251
Si ricorda che la media complessiva della variabile media voti calcolata
sulle 733 unità non suddivise per corso di laurea era 25, 147, verifichiamo
ora che la media del miscuglio coincide
x =
2 4, 3 4 ⋅1 5 9 + 2 4, 4 5 ⋅1 8 6 + 2 4 , 4 6 ⋅1 3 7 + 2 6, 5 5 ⋅ 2 5 1
= 2 5,1 4 7
733
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
53
ESEMPIO: TEOREMA 2
La tabella mostra il tempo (in minuti) di percorrenza a piedi per raggiungere le
sede di lavoro (X) e il tempo di percorrenza con i mezzi (Y).
X
Y
5
15
10
15
15
5
10
10
8
12
Calcolare il tempo di percorrenza medio complessivo per raggiungere la
sede di lavoro
5 + 10 + 15 + 10 + 8
= 9, 6
5
15 + 15 + 5 + 10 + 12
= 11, 4
M (Y ) =
5
M ( Z ) = M ( X + Y ) = M ( X ) + M (Y ) = 9, 6 + 11, 4 = 21
M (X ) =
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
54
27
ESEMPIO RIEPILOGATIVO TEOREMI
Nel prospetto sono riportati i tempi di percorrenza in minuti relativi a 10 convogli Eurostar
Italia sulle tratte Roma-Bologna e Bologna-Milano, indicati rispettivamente con X e Y.
X: tempo percorrenza RM-BO
164
183
153
177
167
166
168
156
152
156
Y: tempo percorrenza BO-MI
110
106
117
126
120
119
109
130
120
112
Sapendo che il tempo di percorrenza teorico dell’intero tragitto, RM-MI, è pari a 270
minuti, si indichi con W la variabile “ritardo totale riportato dai convogli”.
Si calcoli il ritardo medio complessivo sulla tratta RM-MI
M (X ) =
M (Y ) =
164 + 183 + 153 + 177 + 167 + 166 + 168 + 156 + 152 + 156
= 164, 2
10
110 + 106 + 117 + 126 + 120 + 119 + 109 + 130 + 120 + 112
= 116, 9
10
W=X+Y-270
M(W)=M(X+y-270)=M(X)+M(Y)-270=164,2+116,9-270=11,1
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
55
Variabilità
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
56
28
..senza variabilità non ci sarebbe la
statistica…
Se tutti votassimo lo stesso partito alle elezioni (=moda),
non ci sarebbero i sondaggi, ne le previsioni elettorali…il
voto politico sarebbe una unica modalità…
Se tutte le persone fossero alte uguali (=media) non
esisterebbe la variabile altezza, perché non la
misureremmo…
La statistica si basa sulla diversità, studia
l’attitudine a variare dei fenomeni
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
57
MUTABILITA’
LA VARIABILITA’ DEI FENOMENI QUALITATIVI
Per misurarla si usano gli indici di eterogeneità
•Sono indici che si basano sulla frequenze relative o
percentuali pi
•Non sono vincolati da un particolare ordinamento delle
modalità
•Quindi possono essere calcolati per qualsiasi tipo di
fenomeno
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
58
29
MUTABILITA’
LA VARIABILITA’ DEI FENOMENI QUALITATIVI
Proprietà degli indici di eterogeneità
•Sono sempre positivi
•Sono massimi quando ad ogni modalità assunta dal fenomeno
corrisponde la stessa frequenza, cioè pi=1/k per ogni i
•Sono minimi quando il fenomeno assume una sola modalità, cioè una
pi è uguale a 1 e tutte le altre (k-1) sono uguali a 0
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
59
MUTABILITA’
LA VARIABILITA’ DEI FENOMENI QUALITATIVI
Indice di eterogeneità di Gini
k
E1 = 1 − ∑ pi2
i =1
Assume valori compresi tra 0 (minimo) e (k-1)/k (massimo)
Per normalizzarlo in modo che vari tra 0 e 1 bisogna
dividerlo per il suo massimo:
E1* = E1
k
k −1
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
60
30
ESEMPIO: CORSO DI LAUREA
xi
SAM
SPO
ORU
IES
ni
137
251
186
159
733
pi
18,69%
34,24%
25,38%
21,69%
100,00%
pi2
0,034933
0,117257
0,06439
0,047053
0,263633
Indice di eterogeneità di Gini
E1
0,736367
k= 4
E1*
0,981823
INDICE NORMALIZZATO
PROSSIMO A 1: C'è quasi
massima eterogeneità
K = n° delle modalità = 4
k
E1 = 1 − ∑ pi2 = 1 − (0.18692 + 0.34242 + 0.25382 + 0.21692 ) = 1 − 0.2636633 = 0.7363
i =1
E1* = E1
k
4
= 0.7363 ⋅ = 0.9818
k −1
3
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
61
ESEMPIO: MEDIA VOTI
Dati
MEDIA VOTI
18
19
20
21
22
23
24
25
26
27
28
29
30
Totale complessivo
ni
pi
11
1,50%
11
1,50%
18
2,46%
29
3,96%
47
6,41%
75 10,23%
105 14,32%
84 11,46%
105 14,32%
85 11,60%
94 12,82%
49
6,68%
20
2,73%
733 100,00%
Indice di eterogeneità di Gini
E1
0,8935
E1*
0,9748
Ni
Fi
11
1,50%
22
3,00%
40
5,46%
69
9,41%
116 15,83%
191 26,06%
296 40,38%
380 51,84%
485 66,17%
570 77,76%
664 90,59%
713 97,27%
733 100,00%
pi2
0,000225205
0,000225205
0,000603027
0,001565266
0,004111381
0,010469226
0,020519683
0,013132597
0,020519683
0,013447139
0,016445526
0,004468731
0,000744478
0,106477147
k= 12
INDICE NORMALIZZATO
PROSSIMO A 1: C'è quasi
massima eterogeneità
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
62
31
ESEMPIO: RENDIMENTO
rendim
sufficiente
discreto
buono
ottimo
ni
fi
pi
0,054570259
5,47%
0,206002729 20,52%
0,401091405 40,08%
0,338335607 33,93%
1 100,00%
40
151
294
248
733
pi 2
Ni
Fi
Pi
40 0,054570259
5,47% 0,00299423
191 0,260572988 25,99% 0,042106366
485 0,661664393 66,07% 0,160657308
733
1 100,00% 0,11509822
0,320856125
Indice di eterogeneità di Gini
k= 4
E1
0,6791
E1*
0,9055
INDICE NORMALIZZATO
PROSSIMO A 1: C'è una
buona eterogeneità
ESEMPIO: SESSO
xi
M
F
ni
350
383
733
fi
0,47749
0,52251
1
pi 2
pi
47,74898 0,227996
52,25102 0,273017
0,501013
Indice di eterogeneità di Gini
k= 2
E1
0,498987
E1*
0,997973
INDICE NORMALIZZATO
PROSSIMO A 1: C'è
massima eterogeneità
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
63
ESEMPIO: CREDITI (raggruppata in classi)
crediti
0-|20
20-|40
40-|60
60-|80
80-|100
100-|120
120-|140
140-|160
160-|180
ni
207
183
84
83
64
42
29
24
17
733
fI
pi
0,282401
28,24%
0,249659
24,97%
0,114598
11,46%
0,113233
11,32%
0,087312
8,73%
0,057299
5,73%
0,039563
3,96%
0,032742
3,27%
0,023192
2,32%
1 100,00%
Ni
207
390
474
557
621
663
692
716
733
Fi
Pi
0,282401
28,24%
0,53206
53,21%
0,646658
64,67%
0,759891
75,99%
0,847203
84,72%
0,904502
90,45%
0,944065
94,41%
0,976808
97,68%
1 100,00%
pi2
0,07975
0,06233
0,013133
0,012822
0,007623
0,003283
0,001565
0,001072
0,000538
0,182116
Indice di eterogeneità di Gini
k= 9
E1
0,8179
E1*
0,9201
INDICE NORMALIZZATO
PROSSIMO A 1: C'è una
buona eterogeneità
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
64
32
ESEMPIO: Eterogeneità del RENDIMENTO nei CORSI DI LAUREA
CORSO LAUREA
SPO
Conteggio di ID
RENDIMENTO
Totale
buono
73
discreto
29
ottimo
147
sufficiente
2
Totale complessivo
251
CORSO LAUREA
Indice di eterogeneità di Gini
E1
0,559
E1*
0,7453
CORSO LAUREA
pi 2
0,084585959
0,013348994
0,342994556
6,34911E-05
0,440993
pi
29,08%
11,55%
58,57%
0,80%
100,00%
CORSO LAUREA
pi
46,72%
24,82%
21,90%
6,57%
100,00%
Indice di eterogeneità di Gini
E1
0,6679
E1*
0,8905
pi
42,47%
27,96%
22,58%
6,99%
100,00%
Indice di eterogeneità di Gini
E1
0,6856
E1*
0,9141
k= 4
SAM
Conteggio di ID
RENDIMENTO
Totale
buono
64
discreto
34
ottimo
30
sufficiente
9
Totale complessivo
137
ORU
Conteggio di ID
RENDIMENTO
Totale
buono
79
discreto
52
ottimo
42
sufficiente
13
Totale complessivo
186
pi2
0,218232191
0,061590921
0,047951409
0,004315627
0,332090149
k= 4
pi2
0,180397
0,078159
0,050989
0,004885
0,314429
k= 4
IES
Conteggio di ID
RENDIMENTO
Totale
buono
78
discreto
36
ottimo
29
sufficiente
16
Totale complessivo
159
pi
49,06%
22,64%
18,24%
10,06%
100,00%
Indice di eterogeneità di Gini
E1
0,6647
E1*
0,8863
pi2
0,240655
0,051264
0,033266
0,010126
0,335311
k= 4
NOTA:
Il corso di laurea più omogeneo è SPO, quello più eterogeneo è ORU
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
65
VARIABILITA’
LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
Per misurarla si usano
•gli indici di variabilità globale
si basano sulle differenze tra i valori delle modalità
•e gli indici di dispersione
si basano sulle differenze tra i valori delle modalità e un
prefissato indice di posizione
Entrambi possono essere calcolati solo per fenomeni quantitativi
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
66
33
VARIABILITA’
LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
Proprietà degli indici di variabilità e di
dispersione
•Sono sempre positivi
•Sono uguali a zero quando tutte le unità osservate assumono la stessa
modalità, la variabile statistica in tal caso si dice degenere
•Sono invarianti per traslazione, cioè se ad ogni xi viene aggiunta una
quantità c costante, la variabilità di X non cambia
NOTA: per gli indici di variabilità e dispersione non è affatto immediata la
determinazione del loro valore massimo, tralasceremo il calcolo dei valori
normalizzati degli indici
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
67
VARIABILITA’
LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
SALARIO CORRENTE
Maschi
1
2
3
4
5
6
7
8
1400
1610
1630
1700
1710
1750
1800
2000
Femmine
1
2
3
4
5
6
7
8
1650
1670
1680
1690
1700
1720
1740
1750
La media per i maschi e per le femmine coincide = 1700
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
68
34
VARIABILITA’
LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
1700
1400
2000
1700
1650
1750
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
69
VARIABILITA’
LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
Indici di variabilità globale
Differenza Interquartile D.I. = Q3-Q1
Campo di Variazione K= xmax-xmin
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
70
35
VARIABILITA’
LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
Maschi
xi
1400
1610
1630
1700
1710
1750
1800
2000
ni
1
1
1
1
1
1
1
1
Femmine
xi
pi
Pi
12.50% 12.50%
12.50% 25.00%
12.50% 37.50%
12.50% 50.00%
12.50% 62.50%
12.50% 75.00%
12.50% 87.50%
12.50% 100.00%
1650
1670
1680
1690
1700
1720
1740
1750
Min=1400; Max=2000
Q1=140; Q3=1750
D.I=140; k=600
ni
1
1
1
1
1
1
1
1
pi
Pi
12.50% 12.50%
12.50% 25.00%
12.50% 37.50%
12.50% 50.00%
12.50% 62.50%
12.50% 75.00%
12.50% 87.50%
12.50% 100.00%
Min=1650; Max=1750
Q1=1670; Q3=1720
D.I=50; k=100
Nel secondo caso i valori sono molto meno dispersi, stanno vicini tra loro
nell’intorno
della media
(laScienze
media
1700- Università
è moltodegli
più Studi
rappresentativa,
)
S.eSalini
- Corso di Statistica
- Facoltà di
Politiche
di Milano
71
VARIABILITA’
LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
Indici di dispersione
Varianza
Si basa sulla differenze tra i valori delle modalità e la loro media.
xi
x
xi − x
Si considerano gli scostamenti al quadrato per evitare compensazioni
tra distanze positive e negative.
NB: si ricordano la terza e la quarta proprietà della media
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
72
36
VARIAZA SEMPLICE
Se si considera una tabella di rilevazione, la varianza
aritmetica è data dalla seguente formula
2
1 n
1 n
σ = ∑ ( xi − x ) = ∑ xi2 − ( x )
n i =1
n i =1
2
FORMULA
OPERATIVA
2
ID VOTI CREDITI VOTI 2 CREDITI2
1
22
6
484
36
2
24
71
576
5041
3
21
19
441
361
4
26
27
676
729
5
27
22
729
484
2906
6651
M (Voti ) = 24; M (Crediti ) = 29
V (Voti ) =
2906
− 242 = 5, 2
5
V (Crediti ) =
6651
− 292 = 489, 2
5
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
73
VARIANZA PONDERATA
Se si considera una tabella di frequenza, la varianza è
data dalla seguente formula
FORMULA
2
1 k
1 k
σ = ∑ ( xi − x ) ni = ∑ xi2 ni − ( x )
n i =1
n i =1
2
VOTI
19
21
24
25
26
27
30
crediti
20-|60
60-|100
100-|140
140-|180
totale
ni
10
20
50
80
20
10
10
200
xi
40
80
120
160
VOTI2ni
VOTI2
361
3610
441
8820
576
28800
625
50000
676
13520
729
7290
900
9000
121040
ni
20
105
60
15
200
xi2
1600
6400
14400
25600
xi2ni
32000
672000
864000
384000
1952000
2
OPERATIVA
M (Voti ) = 24,5
V (Voti ) =
121040
− 24,52 = 4,95
200
M (Crediti ) = 94
V (Crediti ) =
1952000
− 942 = 924
200
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
74
37
VARIANZA: problemi
Elevando al quadrato si perde
l’unità di misura del fenomeno
SCARTO QUADRATICO
MEDIO
Ex. Se si è partiti dal peso, la varianza
risulta espressa in kg2
σ = σ2
E’ un indice assoluto, cioè risente
dell’unità di misura del fenomeno, e
ciò impedisce di fare confronti di
variabilità
COEFFICIENTE DI
VARIAZIONE
Ex. Le distanze, e quindi la loro somma, per
il fatturato nel settore Automobilistico sono
sicuramente più grandi di quelle nel settore
Abbigliamento, ciò non implica che ci sia
maggiore variabilità
CV =
σ
x
Indice relativo
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
75
ESEMPIO: MEDIA VOTI
Dati
MEDIA VOTI
18
19
20
21
22
23
24
25
26
27
28
29
30
Totale complessivo
Media
ni
pi
11
1.50%
11
1.50%
18
2.46%
29
3.96%
47
6.41%
75 10.23%
105 14.32%
84 11.46%
105 14.32%
85 11.60%
94 12.82%
49
6.68%
20
2.73%
733 100.00%
25.1473
Varianza
2
σ
σ
CV
7.14337 7.14337
2.67271
0.10628
Ni
Fi
11
1.50%
22
3.00%
40
5.46%
69
9.41%
116 15.83%
191 26.06%
296 40.38%
380 51.84%
485 66.17%
570 77.76%
664 90.59%
713 97.27%
733 100.00%
xi2
324
361
400
441
484
529
576
625
676
729
784
841
900
xi2ni
3564
3971
7200
12789
22748
39675
60480
52500
70980
61965
73696
41209
18000
468777
varianza cacolata con la
formula operativa
varianza calcolata con la
funzione VAR.POP()
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
76
38
ESEMPIO: CREDITI
crediti
0-|20
20-|40
40-|60
60-|80
80-|100
100-|120
120-|140
140-|160
160-|180
ni
207
183
84
83
64
42
29
24
17
733
fI
pi
0.282401
28.24%
0.249659
24.97%
0.114598
11.46%
0.113233
11.32%
0.087312
8.73%
0.057299
5.73%
0.039563
3.96%
0.032742
3.27%
0.023192
2.32%
1 100.00%
Ni
207
390
474
557
621
663
692
716
733
Fi
Pi
0.282401
28.24%
0.53206
53.21%
0.646658
64.67%
0.759891
75.99%
0.847203
84.72%
0.904502
90.45%
0.944065
94.41%
0.976808
97.68%
1 100.00%
xi
10
30
50
70
90
110
130
150
170
xi2
100
900
2500
4900
8100
12100
16900
22500
28900
xi 2ni
20700
164700
210000
406700
518400
508200
490100
540000
491300
3350100
Media
52.128
Varianza
2
1793.256 1793.256 1853.067
σ
42.34685
σ
CV
0.816934
varianza calcolata con la
funzione VAR.POP()
varianza cacolata con la
formula operativa sulla
tabella di frequenza non
raggruppata
varianza calcolata con la
formula operativa sulla
tabella raggruppata in
calssi
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
77
ESEMPIO: CREDITI NEI CORSI
DI LAUREA
CORSO LAUREA
IES
ORU
SAM
SPO
CREDITI sqm(i) CREDITI Media (i)VOTI sqm(i) VOTI media (i) CV (crediti) CV (voti)
46.23911861
64.57232704 2.605823639
24.33962264 0.71608258 0.107061
42.62440899
52.34946237 2.575695298
24.44623656 0.81422821 0.105362
44.50154193
50.75912409 2.627798053
24.45985401 0.87672005 0.107433
36.02140776
44.00398406 2.204688868
26.55378486 0.81859424 0.083027
SPO tra i 4 corsi di laurea è quello che presenta minore variabilità
nei voti, ciò conferma il risultato ottenuto con l’indice di Gini per i
rendimenti (che di fatto è una variabile qualitativa ricodificata
partendo da voti. Il corso di laurea con minre variabilità per quanto
riguarda i crediti è invece IES
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
78
39
VARIANZA: PROPRIETA’
1.
La varianza di una costante è uguale a 0, cioè
V (a) = 0
2.
E’ invariante per translazione, cioè se ad ogni xi viene aggiunta una
quantità a costante, la varianza non cambia, cioè
V ( X + a ) = σ x2
3.
Se ogni xi viene moltiplicata per una quantità b costante, la varianza
risulta moltiplicata per la costante b al quadrato, cioè
V (bX ) = b 2V ( X )
IN SINTESI (varianza di una trasformazione lineare)
V ( a + bX ) = b 2σ x2
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
79
VARIANZA: TEOREMI
Teorema 1
La varianza di un miscuglio di k gruppi (o
sottopopolazioni), per ciascuno dei quali è giuà noto il
valore della varianza , è pari alla somma di due varianza,
vale a dire
σ 2 = σ W2 + σ B2
σW2 =
1 k 2
∑σi ni
n i=1
σ i2 =
1 ni
∑ (xij − xi )2
ni j =1
VARIANZA NEI GRUPPI (Within)
2
σ B2 =
1 k
∑ ( xi − x ) ni
n i =1
VARIANZA FRA GRUPPI (Between)
Varianza ponderata delle medie dei gruppi
Media ponderata delle varianze dei gruppi
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
80
40
VARIANZA: TEOREMI
Teorema 2
La varianza della somma (o della differenza) di due è
uguale alla somma delle varianze delle singole variabili
solo se queste sono indipendenti
Se Z = X + Y
V (Z ) = V ( X + Y ) = V ( X ) + V (Y ) se X e Y sono indipendenti
altrimenti
V (Z ) = V ( X + Y ) = V ( X ) + V (Y ) + 2COV ( X , Y )
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
81
ESEMPIO: TEOREMA 1
MEDIA VOTI
Dati
CORSO LAUREA
IES
ORU
SAM
SPO
Totale complessivo
media( i )
24.33962264
24.44623656
24.45985401
26.55378486
25.1473397
varianza within
varianza between
varianza totale
6.1114268
1.031939247
7.143366047
tabella Pivot con campi: MEDIA,
VAR.POP e CONTEGGIO
varianza( i )
6.790316839
6.634206267
6.905322606
4.860653006
7.143366047
ni
159
186
137
251
733
xini
1079.660377
1233.962366
946.0291971
1220.023904
4479.675844
xi 2ni
xi2
592.4172303 94194.33962
597.6184819 111157.0376
598.2844584 81964.9708
705.1034904 176980.9761
464297.3242
Teorema 1: La varianza di un miscuglio di
k gruppi (o sottopopolazioni), per ciascuno
dei quali è giuà noto il valore della varianza
, è pari alla somma di varianza between e
varianza within
S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano
82
41