Statistica
STATISTICA
Ivan Zivko
Argomenti del corso
•
•
•
•
•
•
•
•
•
•
Distribuzioni statistiche e tabelle
Grafici
Misure di tendenza centrale (Medie)
Misure di dispersione
Rapporti statistici e numeri indice
Curva di Lorentz
Retta di regressione
Serie storiche
Campana di Gauss
…..
2
Docente: Ivan Zivko
1
Statistica
Introduzione
Popolazione
(Universo)
Unità
statistica
Abitanti
Svizzera
Persona
3
Introduzione: Tipi di variabili
• Le unità statistiche possono avere dei caratteri
o variabili che ne definiscono un aspetto, per
esempio:
– Colore degli occhi
– Altezza
– Stipendio
– Ecc.
4
Docente: Ivan Zivko
2
Statistica
Tipi di variabili
Variabili
(Caratteri)
Qualitative
Ordinabili
Non ordinabili
(Es.: Titolo
Studio)
(Es.: Colore
occhi)
Quantitative
Discrete
Continue
(Es.: Note)
(Es.: altezza)
5
Introduzione: Modalità
• Le modalità sono le possibili manifestazione di
una variabile. Esempi:
– Colore occhi: azzurri, verdi, marroni,…
– Nazionalità: svizzera, italiana,…
– Altezza: 170cm, 175cm,…
6
Docente: Ivan Zivko
3
Statistica
Distribuzioni statistiche
• Per rappresentare dei dati uno dei modi è usare
delle tabelle. Nella seguente per esempio
mostriamo le frequenze assolute:
Colore degli occhi
Frequenza assoluta
Azzurri
5
Verdi
3
Marroni
7
Scuri
2
TOTALE
17
7
Distribuzioni statistiche
• Un altro modo molto usato è quello di
rappresentare i dati tramite le frequenze
relative:
Colore degli occhi
Frequenza
assoluta
Frequenza
relativa
Azzurri
5
5/17=0.294=29.4
%
Verdi
3
0.176=17.6%
Marroni
7
0.411=41.1%
Scuri
2
0.118=11.8%
TOTALE
17
1=100%
8
Docente: Ivan Zivko
4
Statistica
Distribuzioni statistiche
• Un’altra distribuzione che può essere usata è la
frequenza cumulata, che può essere sia
assoluta che relativa.
Numero di figli
Frequenze relative
Freq. Relative
cumulate
1
40%
40%
2
30%
30%+40%=70%
3
20%
90%
>3
10%
100%
Totale
100%
9
Distribuzioni statistiche
• Oltre alle tabelle semplici viste fino ad adesso
se abbiamo più variabili contemporaneamente
possiamo rappresentarle in una tabella a
doppia entrata.
Sesso
Donne
Uomini
Totale
[20, 25[
21
24
45
[25, 30[
25
28
53
[30, 35[
15
31
46
Totale
61
83
144
Età
10
Docente: Ivan Zivko
5
Statistica
Distribuzioni statistiche:
suddivisione in classi
• Spesso i valori sono troppi, e non conviene
associare ad ognuno una modalità, perché i
dati sarebbero troppi e difficili da leggere.
• Molto spesso si impone quindi il
raggruppamento in classi.
11
Distribuzioni statistiche:
suddivisione in classi
• Per determinare il numero di classi ci sono 2
criteri possibili:
– Criterio della radice:
– Criterio di Sturges:
n. di classi  n
n. di classi  1 
10
log(n)
3
12
Docente: Ivan Zivko
6
Statistica
Distribuzioni statistiche:
suddivisione in classi, esempio
• Salario giornaliero di 40 dipendenti:
107
83
100
128
143
127
117
125
64
119
98
111
119
130
170
143
156
126
113
127
130
120
108
95
192
124
129
143
198
131
163
152
104
119
161
178
135
146
158
176
13
Distribuzioni statistiche:
suddivisione in classi, esempio
• Valore min.=64, Valore max=198.
– Il limite minore e quello superiore delle classi devono
contenere tutti i dati.
• Per esempio si può far partire la prima classe da
60 e l’ultima farla finire a 200.
– Il range sarà pertanto: 200-60=140.
• Per determinare il numero di classi usiamo il
criterio della radice: 40  6,3
– Si potrà creare 6-7 classi.
14
Docente: Ivan Zivko
7
Statistica
Distribuzioni statistiche:
suddivisione in classi, esempio
CLASSI
Freq. assolute
Freq. relative
[60, 80[
1
0.025
[80, 100[
3
0.075
[100, 120[
10
0.25
[120, 140[
12
0.30
[140, 160[
7
0.175
[160, 180[
5
0.125
[180, 200[
2
0.05
TOTALE
40
1
15
Grafici
• I grafici rispetto alle tabelle offrono una visione
immediata della situazione, permettendo una più
rapida memorizzazione e comprensione.
• La scelta del tipo di grafico dipende da fattori
soggettivi ma anche dal tipo di dati e dalla scala
di modalità impiegata.
16
Docente: Ivan Zivko
8
Statistica
Grafici a nastri o colonne
• I grafici a nastri o a colonne (o barre) vengono
usati soprattutto per variabili qualitative e
quantitative discrete.
17
Grafici a nastri o colonne
• Per ogni modalità del fenomeno vengono
disegnati rettangoli con larghezza generica e di
lunghezza proporzionale alla frequenza o
all’intensità.
• Esempio: ricavi di 5 negozi in un mese.
Docente: Ivan Zivko
NEGOZIO
Ricavi in euro
NEG. 1
21.750
NEG. 2
21.100
NEG. 3
20.550
NEG. 4
16.800
NEG. 5
19.700
18
9
Statistica
Grafici a nastri o colonne
NEG. 5
19,7
NEG. 4
16,8
NEG. 3
20,55
NEG. 2
21,1
NEG. 1
21,75
0
5
10
15
20
25
19
Grafici a nastri o colonne
25
21,75
21,1
20,55
19,7
20
16,8
15
10
5
0
NEG. 1
NEG. 2
NEG. 3
NEG. 4
NEG. 5
20
Docente: Ivan Zivko
10
Statistica
Grafici a nastri o colonne
• Questo tipo di grafico è possibile utilizzarlo
anche con tabelle a doppia entrata.
• Esempio 2:
ANNI
Importazioni
Esportazioni
1989
209.910
192.797
1990
217.703
203.515
1991
225.746
209.728
1992
232.111
219.436
1993
232.991
266.214
1994
270.063
305.479
21
Grafici a nastri o colonne
305,479
1994
270,063
266,214
1993
232,991
219,436
1992
232,111
209,728
1991
225,746
203,515
1990
217,703
192,797
1989
209,91
0
50
100
150
Esportazioni
200
250
300
350
Importazioni
22
Docente: Ivan Zivko
11
Statistica
Grafici a settori circolari o torta
• I grafici a settori circolari vengono usati per
mettere meglio in evidenza la suddivisione del
fenomeno fra le varie modalità che lo
compongono.
• Anche questo tipo di grafico è tipico per le
variabili qualitative e quantitative discrete.
• Gli angoli dei settori di ogni modalità si calcolano
col rapporto:  i
fi
f i  360

360
f totale
 i 
f totale
23
Grafici a settori circolari o torta
• Consideriamo l’esempio dei ricavi dei 5 negozi:
NEG. 5 ; 19,7
NEG. 1 ; 21,75
NEG. 4 ; 16,8
NEG. 2 ; 21,1
NEG. 3 ; 20,55
24
Docente: Ivan Zivko
12
Statistica
Grafici a settori circolari o torta
• Se si vuole mettere in risalto la percentuale di
una delle modalità si può estrarre la rispettiva
fetta:
NEG. 1 ; 21,75
NEG. 5 ; 19,7
NEG. 4 ; 16,8
NEG. 2 ; 21,1
NEG. 3 ; 20,55
25
Grafici a settori circolari o torta
• Chiaramente le dimensioni della torta possono
variare, ma se rappresentano lo stesso
fenomeno le aree di una stessa modalità
saranno proporzionali tra loro.
• Un grafico a torta può rappresentare sia
frequenze assolute che relative.
26
Docente: Ivan Zivko
13
Statistica
Istogrammi
• Gli istogrammi vengono usati dove abbiamo
delle variabili continue, quindi quando i dati
vengono distribuiti in classi.
27
Istogrammi
• Esempio: nella seguente tabella abbiamo
suddiviso in classi il numero di treni rispetto al
loro ritardo.
RITARDO (min.)
N. TRENI
[0, 5[
24
[5, 10[
10
[10, 15[
7
[15, 20[
11
[20,25[
9
[25, 30[
4
28
Docente: Ivan Zivko
14
Statistica
Istogrammi
Treni in ritardo
30
25
frequenza
20
15
10
5
0
[0, 5[
[5, 10[
[10, 15[
[15, 20[
[20,25[
[25, 30[
Ritardo in minuti
29
Istogrammi
• Quando le classi non hanno ampiezza uguale
bisogna fare attenzione, perché l’altezza della
barra non sarà più uguale alla frequenza.
• Esempio 2: Numero di studenti rispetto ai mesi
che hanno passato a studiare.
Docente: Ivan Zivko
Mesi di studio
N. Studenti
(Freq. Assoluta)
Densità di
frequenza
[0, 1[
1634
1634/1=1634
[1, 3[
2184
2184/2=1092
[3, 6[
4920
4920/3=1640
[6, 12[
3384
3384/6=564
TOTALE
12122
30
15
Statistica
Istogrammi
• La frequenza assoluta è rappresentata
dall’area delle barre, l’altezza è la densità di
frequenza.
31
Istogrammi
• Gli istogrammi ci mostrano quindi
immediatamente la relazione tra l’ampiezza
della classe e la frequenza.
• Una classe piccola con meno frequenze
assolute può avere maggiore importanza di
una classe grande con più frequenze.
32
Docente: Ivan Zivko
16
Statistica
Istogrammi
• Esempio 2: libri venduti in una giornata per
classi di prezzo.
CLASSI DI PREZZO
(CHF)
NUMERO DI LIBRI
VENDUTI
DENSITÀ DI
FREQUENZA
[5, 15[
20
20/10=2
[15, 20[
15
15/5=3
[20, 35[
15
15/15=1
33
Istogrammi
34
Docente: Ivan Zivko
17
Statistica
Diagrammi cartesiani
• Per rappresentare l’andamento di un fenomeno
al variare di un parametro si usano punti nel
piano cartesiano legati da segmenti, questi
grafici sono i diagrammi cartesiani.
• Si usano per variabili quantitative e qualitative
ordinabili.
35
Diagrammi cartesiani
• Esempio: distribuzione delle persone che si
sono recate in poliambulatorio in una
settimana:
Sesso
Uomini
Donne
Totale
Lunedì
31
23
54
Martedì
35
47
82
Mercoledì
33
42
75
Giovedì
19
40
59
Venerdì
31
39
70
TOTALE
149
191
340
Giorni
36
Docente: Ivan Zivko
18
Statistica
Diagrammi cartesiani
90
80
70
60
50
Uomini
Donne
40
Totale
30
20
10
0
Lunedì
Martedì
Mercoledì
Giovedì
Venerdì
37
Forma dei grafici
• Sia che rappresentiamo le frequenze con un
grafico a barre, un istogramma o un diagramma
cartesiano, possiamo definire alcuni tipi di
comportamenti a dipendenza della forma che
assume il grafico.
38
Docente: Ivan Zivko
19
Statistica
Forma dei grafici
• Distribuzione simmetrica a campana
39
Forma dei grafici
• Distribuzione positivamente asimmetrica
40
Docente: Ivan Zivko
20
Statistica
Forma dei grafici
• Distribuzione negativamente asimmetrica
41
Forma dei grafici
• Distribuzione ascendente
42
Docente: Ivan Zivko
21
Statistica
Forma dei grafici
• Distribuzione discendente
43
Forma dei grafici
• Distribuzione ad “U”
44
Docente: Ivan Zivko
22
Statistica
Forma dei grafici
• Distribuzione bimodale
45
Forma dei grafici
• Distribuzione plurimodale
46
Docente: Ivan Zivko
23
Statistica
L’ogiva
• Se rappresentiamo con un istogramma le
frequenze relative cumulate invece delle
frequenze assolute otteniamo un grafico
crescente.
• Se poi uniamo gli spigoli delle barre con dei
segmenti otteniamo un’ogiva.
47
L’ogiva
• Esempio: punti ottenuti da degli studenti in un
test attitudinale.
CLASSI
(PUNTI)
N. STUDENTI
(Freq. Assoluta)
Freq. RELATIVA
Freq. RELATIVA
CUMULATA
[900, 1400[
8
35%
35%
[1400, 1900[
7
30%
65%
[1900, 2400[
6
26%
91%
[2400, 2900[
2
9%
100%
48
Docente: Ivan Zivko
24
Statistica
L’ogiva
Frequenze cumulate
120%
100%
Percentuale studenti
80%
60%
40%
20%
0%
[0, 900[
[900, 1400[
[1400, 1900[
[1900, 2400[
[2400, 2900[
Punti
49
L’ogiva
• Con questo grafico possiamo per esempio dire
che percentuale di dati si trova al di sotto di
un certo valore.
• Si può anche determinare quanti dati si
trovano in un certo intervallo.
50
Docente: Ivan Zivko
25
Statistica
Misure di tendenza centrale
Misure di tendenza centrale
Medie ferme
Medie di posizione
* Media aritmetica
* Moda
* Media geometrica
* Mediana
Ecc.
51
Medie ferme
• Le medie ferme si calcolano usando tutti i
valori a disposizione.
• Rischio: è possibile che valori molto alti o
molto bassi con poca frequenza possano
falsare il valore centrale, o meglio quello
rappresentativo dei dati.
52
Docente: Ivan Zivko
26
Statistica
Medie Ferme: media aritmetica
• È la somma di tutti i valori diviso il loro
numero totale.
• Media aritmetica:
x  f  x  f  ....  xn  f n
x 1 1 2 2

N
n
x  f
i
i
i 1
N
53
Medie Ferme: media aritmetica
• Esempio 1: considera le note di 5 studenti:
– 3, 4, 5.5, 6, 4.5.
3  4  5.5  6  4.5 23
x

 4.6
5
5
54
Docente: Ivan Zivko
27
Statistica
Medie Ferme: media aritmetica
• Osservazione: la media aritmetica si può
calcolare disponendo anche solo delle
frequenze relative.
x1  f1  ....  xn  f n
f
f
 x1  1  ...xn  n
N
N
N
 x1  f rel .1  ...  xn  f rel .n
x
55
Medie Ferme: media aritmetica
• Esempio 2: se i dati sono molti e dobbiamo
suddividerli in una tabella bisognerà usare le
frequenze.
NOTE
N. Studenti (Freq.
Freq. relativa
Assoluta)
3
4
0.17
4
6
0.25
4.5
8
0.33
5
3
0.125
5.5
2
0.083
6
1
0.042
TOTALE
24
1
56
Docente: Ivan Zivko
28
Statistica
Medie Ferme: media aritmetica
• Esempio 2: per calcolare la media aritmetica si
possono usare sia le frequenze assolute che
quelle relative.
3  4  4  6  4.5  8  5  3  5.5  2  6 1 104
x

 4.33
24
24
x  0.17  3  0.25  4  0.33  4.5  0.125  5  0.083  5.5  0.042  6  4.33
57
Medie Ferme: media aritmetica
• Se i dati sono suddivisi in classi per calcolare la
media aritmetica bisogna prendere i valori
centrali delle classi.
• Esempio 3: salario dei dipendenti.
Classi di stipendio (in
migliaia di CHF)
Numero dipendenti
(Freq. Assoluta)
Centro classi
[50, 60[
10
55
[60, 70[
20
65
[70, 80[
15
75
TOTALE
45
x
Docente: Ivan Zivko
55 10  65  20  75 15 2975

 66.11
45
45
58
29
Statistica
Medie Ferme: media aritmetica
• È chiaro che suddividendo i dati in classi
perdiamo delle informazioni, e quindi
commetteremo un piccolo errore.
• L’errore dovuto all’uso delle classi sarà:
a
err. 
2x  a
59
Medie Ferme: media aritmetica
• La media aritmetica ha in genere una buona
stabilità, che cresce con l'aumentare dei dati.
• Quando nei dati ci sono valori estremi
particolarmente „pesanti“ la media aritmetica
può essere molto influenzata da essi anche se
in realtà non hanno una grande frequenza.
60
Docente: Ivan Zivko
30
Statistica
Medie Ferme: media geometrica
• La media geometrica viene usata per dati che
variano in progressione temporale, per
esempio per gli indici.
• Media geometrica:
f1
f2
x  x1  x2  ....  xnf n
N
61
Medie Ferme: media geometrica
• Esempio: È dato un bene di valore C. Questo
bene nel primo anno aumenta il valore dell’ 8%,
nel secondo del 12%, nel terzo del 9% e nel
quarto del 5%. Si vuole trovare l’aumento
percentuale medio. Da ciò si possono trovare i
moltiplicatori:
M 1  C  (1  0.08)
M 2  M 1  (1  0.12)  C  (1  0.08)  (1  0.12)
ecc.
62
Docente: Ivan Zivko
31
Statistica
Medie Ferme: media geometrica
• Quindi alla fine dei quattro anni l’aumento si
calcolerà come segue:
C  (1  0.08)  (1  0.12)  (1  0.09)  (1  0.05) 
 C 1.08 1.12 1.09 1.05  C 1.3843872
• Il moltiplicatore medio sarà:
4
1.3843872  1.0847
Che equivale a un aumento percentuale annuo
del
0.0847  8.47%
63
Medie Ferme: media geometrica
• Se avessimo fatto la media aritmetica
avremmo ottenuto un aumento dell’8.5%.
• Se per ogni anno usiamo questo aumento non
otteniamo il risultato esatto.
64
Docente: Ivan Zivko
32
Statistica
Medie di posizione
• Come detto quando ci sono valori estremi troppo
grandi la media aritmetica non va più bene.
• Non possiamo semplicemente non tenere conto di
questi valori, perchè non seguiremmo i principi
fondamentali della statistica.
• A differenza delle medie ferme con le medie di
posizione possiamo anche cercare il valore medio di
variabili qualitative.
65
Medie di posizione: Moda
• La moda è quella media che viene associata alla
modalità con frequenza più alta.
• Essa è tanto più esatta quanto più la sua frequenza
è elevata rispetto alle altre (se è maggiore del 50%
è molto buona).
• Se le frequenze sono simili la moda perde la sua
efficacia. Se ci sono due modalità con frequenza
uguale si dice che la classe è bimodale.
66
Docente: Ivan Zivko
33
Statistica
Medie di posizione: Moda
• Esempio 1: colore dei capelli di un gruppo.
Colore capelli
Frequenza
assoluta
Castani
70
Biondi
30
Rossi
30
Altro
10
Moda  Castani
67
Medie di posizione: Moda
• Il calcolo diventa un po’ più complicato se
abbiamo dei dati suddivisi in classi.
• Prima di tutto bisogna determinare la classe
modale, che è semplicemente la classe con
frequenza più elevata.
• Per trovare il valore modale si userà la formula
poi:
1
Moda  Linf . 
a
1   2
68
Docente: Ivan Zivko
34
Statistica
Medie di posizione: Moda
Linf .  Limite inferiore della classe modale
1  (Freq. assoluta classe modale)  (Freq. ass. classe precedente)
 2  (Freq. assoluta classe modale)  (Freq. ass. classe successiva)
a  ampiezza delle classi
69
Medie di posizione: Moda
• Esempio 2: altezze di un gruppo.
Classi (Altezza)
Freq. assoluta
[158, 162[
4
[162, 166[
7
[166, 170[
13
[170, 174[
18
[174, 178[
8
Totale
50
70
Docente: Ivan Zivko
35
Statistica
Medie di posizione: Moda
• La classe modale è la classe [170, 174[.
Usando la formula:
(18  13)
5
 4  170 
4 
(18  13)  (18  8)
5  10
5
 170   4  170  1.333  171.333
15
Moda  170 
71
Medie di posizione: Mediana
• Si definisce mediana di un insieme di elementi,
disposti in ordine crescente o decrescente, il
valore che occupa la posizione centrale.
• Esempio 1: se il numero di elementi è dispari.
8, 12, 7, 4, 9, 10, 55
Bisogna prima metterli in ordine crescente.
4, 7, 8, 9, 10, 12, 55
Mediana  9
Docente: Ivan Zivko
72
36
Statistica
Medie di posizione: Mediana
• Esempio 2: se il numero di elementi è pari.
36, 72, 82, 84, 98, 105
I due valori centrali sono 82 e 84, perciò:
Mediana 
82  84
 83
2
73
Medie di posizione: Mediana
• Se i dati sono molti, e quindi vengono
rappresentati in una tabella per determinare la
mediana si guardano le frequenze cumulate.
• La mediana è quella modalità in cui la
frequenza cumulata supera il 50%.
74
Docente: Ivan Zivko
37
Statistica
Medie di posizione: Mediana
• Esempio 3: numero di interrogazioni per
studente.
Numero
interrogazioni
Freq. assoluta
Freq. cumulata
0
3
3
1
6
9
2
4
13
3
2
15
Totale
75
Medie di posizione: Mediana
• Esempio 3: in questo caso la frequenza
cumulata viene superata nella seconda
modalità, quindi:
Mediana  1
76
Docente: Ivan Zivko
38
Statistica
Medie di posizione: Mediana
• Se i dati sono suddivisi in classi bisogna prima di
tutto determinare la classe mediana, che è la
classe in cui la frequenza cumulata supera il
50%.
• Poi per trovare il valore mediano si userà la
formula:
N
 f cumulata classe precedente
Mediana  Linf .  2
f classe mediana
a
77
Medie di posizione: Mediana
• Esempio 3: prendiamo l’esempio delle altezze.
Classi (Altezza)
Freq. assoluta
Freq. cumulata
[158, 162[
4
4
[162, 166[
7
11
[166, 170[
14
25
[170, 174[
17
42
[174, 178[
8
50
Totale
50
78
Docente: Ivan Zivko
39
Statistica
Medie di posizione: Mediana
• La classe mediana è la classe [170, 174[.
Usando la formula:
50
 11
25  11
Mediana  166  2
 4  166 
4 
14
14
14
 166   4  170
14
79
Misure di dispersione
• Le medie da sole non ci dicono molto sulla
distribuzione dei dati.
• Ci servono delle misure che ci dicano quanto i
dati sono dispersi intorno alle medie.
• La misura più importanti sono:
– Rango (o campo di variazione)
– Semidifferenza interquartile (per la mediana)
– Scostamento semplice assoluto
– Scarto quadratico medio (o deviazione standard)
80
Docente: Ivan Zivko
40
Statistica
Rango (campo di variazione)
• È la differenza tra il valore più alto e quello più
basso.
Rango  Valore Max  Valore Min
• Esempio: età di 6 persone: 45, 48, 51, 77, 81, 90.
r  90  45  45
81
Rango (campo di variazione)
• Si usa quando si vuole mettere in evidenza la
differenza tra il valore massimo e quello minimo
di una distribuzione, come per esempio la
differenza tra il peso massimo e minimo di un
gruppo di persone.
• Da solo non ci da abbastanza informazione sulla
dispersione dei dati.
82
Docente: Ivan Zivko
41
Statistica
Semidifferenza interquartile
• Abbiamo visto che la mediana corrisponde al
valore che si situa al 50% dei dati.
• Se dividiamo i dati in 4 parti abbiamo i
quartili!
Q1  primo quartile (25% dei dati)
Q 2  secondo quartile (50% dei dati)  Mediana
Q 3  terzo quartile (75% dei dati)
Q 4  quarto quartile (100% dei dati)
83
Semidifferenza interquartile
• Questa misura si usa solo per la mediana.
• Il calcolo è il seguente:
Q3  Q1
s
2
• Il 50% dei dati si trova nell’intervallo
Mediana  s
84
Docente: Ivan Zivko
42
Statistica
Semidifferenza interquartile
• Esempio: immagina semplicemente di avere 20
dati:
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20
• La mediana corrisponde a 10.5.
• Mentre
=5
= 15, perciò la
semidifferenza interquartile è s  15  5  10  5
2
2
• Significa che circa il 50% dei dati si trova tra 5.5 e
15.5.
85
Semidifferenza interquartile
• Esempio 2: se i dati sono suddivisi in classi
come prima cosa bisogna guardare le
frequenze cumulate relative.
Classi (Altezza)
Freq. assoluta
Freq. cumulata Freq. Cum. Rel.
[158, 162[
4
4
8%
[162, 166[
9
13
26%
[166, 170[
13
26
52%
[170, 174[
16
42
84%
[174, 178[
8
50
100%
Totale
50
86
Docente: Ivan Zivko
43
Statistica
Semidifferenza interquartile
• Esempio 2:
Q1  164, Q3  172
172  164 8
s
 4
2
2
87
Scostamento medio semplice
• È la media degli scostamenti!
• Esempio: considera cinque valori: 2, 2, 6, 6, 9.
Media 
SM 
22669
5
5
25  25  65  65  95
5

3  3 11 4
 2.4
5
88
Docente: Ivan Zivko
44
Statistica
Scarto quadratico medio
(Deviazione standard)
• La deviazione standard è la misura di dispersione
più usata in assoluto.
M-σ
M
M+σ
• Almeno il 68% dei dati si trova in questo
intervallo.
89
Scarto quadratico medio
(Deviazione standard)
• Se M è la media, allora definiamo come
varianza:
2
2
2

x1  M   f1  x2  M   f 2  ....  xn  M   f n
 
2
N
• La deviazione standard è la sua radice
quadrata:
Dev. standard   2  
90
Docente: Ivan Zivko
45
Statistica
Scarto quadratico medio
(Deviazione standard)
• Esempio: ospiti di un albergo per numero di
pernottamenti.
N. Notti
Frequenza
5
39
6
30
7
13
8
5
9
3
M  Media  6
91
Scarto quadratico medio
(Deviazione standard)
• Calcoliamo la varianza:
2 
5  62  39  6  62  30  7  62 13  8  62  5  9  62  3
90
 1.1
• E quindi la deviazione standard è:
  1.1  1.049  1
• Almeno il 68% dei dati si troverà nell’intervallo:
6 1
Docente: Ivan Zivko
92
46
Statistica
Dati standardizzati
• Per confrontare dati che fanno parte di serie diverse
bisogna che siano standardizzati rispetto alle
rispettive medie e allo scarto tipo.
• Esempio: uno studente all’esame di fisica ha preso
4.5, la media della classe era 4.2 e lo scarto tipo 0.9.
Lo stesso studente a matematica prende 5, ma la
media è 4.7 e lo scarto 1.2. Qual’ è il voto
relativamente migliore?
93
Dati standardizzati
• Per prima cosa vediamo quanto meglio ha fatto
rispetto alla media della classe nelle due materie:
FISICA
MATEMATICA
4.5  4.2  0.3
5  4.7  0.3
• Questo dato va però normalizzato rispetto allo
scarto tipo:
FISICA
0. 3
 0.333
0.9
MATEMATICA
0.3
 0.25
1.2
94
Docente: Ivan Zivko
47
Statistica
Dati standardizzati
• Più lo scarto tipo è alto e più ci saranno
studenti che si allontanano dalla media, e
quindi che hanno fatto anche meglio del
nostro studente.
• Lo studente ha fatto quindi relativamente
meglio l’esame di fisica.
95
Rapporti statistici: rapporto di
coesistenza
• I rapporti di coesistenza mettono a confronto due
fenomeni diversi relativi allo stesso tempo e luogo.
• Esempio: un agenzia turistica organizza un tour, al
quale partecipano 302 donne e 208 uomini. Il
rapporto di coesistenza è: 302
208
 1.45
• Moltiplicando per abbiamo: 1.45 100  145
Significa che ci sono 145 donne ogni 100 uomini.
96
Docente: Ivan Zivko
48
Statistica
Rapporti statistici:
rapporto di durata e ripetizione
• I rapporti di durata e ripetizione sono rapporti
utili per descrivere le variazioni quantitative
subite da un certo fenomeno (es.: scorte in
magazzino che si rinnovano, variazioni di degenti
in ospedale, ecc.).
• Rapporto di durata:
C0  presenze all' inizio
C1  presenze alla fine
d
C0  C1
E U
U  uscite
E  entrate
97
Rapporti statistici:
rapporto di durata e ripetizione
• In un negozio, che resta aperto 8 ore, al
momento dell’apertura ci sono 100 (C0) persone.
Durante il giorno ne sono entrate altre 950 (E) e
uscite 750 (U).
C1  100  950  750  300
d
100  300 400

 0.235  1.88 ore
950  750 1700
98
Docente: Ivan Zivko
49
Statistica
Rapporti statistici:
rapporto di durata e ripetizione
• Rapporto di ripetizione:
• Dall’esempio:
r
1
r
d
1
 4.25
0.235
ciò significa che le persone all’interno del
negozio si rinnovano completamente 4.25 volte
nel corso della giornata.
99
Numeri indice
• I numeri indice sono dei rapporti statistici che
evidenziano le variazioni, temporali o spaziali, di un
fenomeno.
• Si calcolano eseguendo il rapporto dei dati di una
serie per uno di essi (detto base). Si possono quindi
distinguere in:
– Numeri indice semplici a base fissa.
– Numeri indice semplici a base mobile.
– Numeri indice composti.
100
Docente: Ivan Zivko
50
Statistica
Numeri indice: applicazioni
• Il costo della vita (indice dei prezzi al consumo)
• Costo della produzione industriale
• Evoluzione della massa monetaria
• …
101
Numeri indice: costruzione
• Per trasformare una serie di valori in indici
dobbiamo prima di tutto scegliere un valore che
funga da base.
• In seguito dividere tutti gli altri valori per la
base, e eventualmente moltiplicare per 100.
102
Docente: Ivan Zivko
51
Statistica
Numeri indice: tipologia
• Le tipologie più usate di numeri indice sono:
– Indice dei prezzi
– Indice delle quantità (produzione, consumo,..)
– Indice del valore
103
Numeri indice: costruzione
• Esempio 1: Il prezzo di un certo bene nel 1980 era di
20 Fr., nel 1981 di 24 Fr. e nel 1982 di 25 Fr..
Se prendiamo come base il prezzo del 1980 avremo:
20
=
100 = 100
,
20
,
=
24
100 = 120
20
,
=
25
100 = 125
20
104
Docente: Ivan Zivko
52
Statistica
Numeri indice: costruzione
• Esempio 2:una ditta ha esportato nel 1980 32000 t
di cereali, nel 1981 29000 t e nel 1982 34000 t.
Prendendo come base la quantità del 1980:
32000
=
100 = 100
,
32000
,
,
=
29000
100 ≈ 91
32000
=
34000
100 ≈ 106
32000
105
Numeri indice: costruzione
• Esempio 3:una ditta nel 1980 ha esportato
32000 t di cereali a 60 Fr la tonnellata, mentre
nel 1981 solamente 29000 t a 62 Fr la tonnellata.
L’indice del valore con base 1980 sarà:
,
=
29000 62
100 =≈ 94
32000 60
106
Docente: Ivan Zivko
53
Statistica
Numeri indice a base fissa
• Esempio 4: produzione di lavatrici e
lavastoviglie in alcuni anni.
Anni
Lavatrici prodotte
Indici (base=1991)
1991
5’043’983
100
1992
5’140’277
102
1993
5’692’505
113
1994
6’251’283
124
1995
6’995’818
139
107
Numeri indice a base fissa
• Esempio 4:
Anni
Lavastoviglie
prodotte
Indici (base=1991)
1991
950’940
100
1992
937’720
99
1993
1’141’861
120
1994
1’464’885
154
1995
1’683’093
177
108
Docente: Ivan Zivko
54
Statistica
Numeri indice a base fissa
• Esempio 4:
190
180
170
160
150
140
Lavatrici
Lavastoviglie
130
120
110
100
109
90
1991
1992
1993
1994
1995
Numeri indice a base mobile
• Spesso invece di evidenziare l’andamento di
un fenomeno rispetto a un solo anno, si vuole
studiare la variazione di ogni dato rispetto
all’anno precedente.
• La base diventa il valore dell’anno precedente.
Si parla di base mobile.
110
Docente: Ivan Zivko
55
Statistica
Numeri indice a base mobile
• Esempio 5: consideriamo i dati dell’esempio 4 e
prendiamo come base l’anno precedente.
Anni
Indici lavatrici
base mobile
Indici lavastoviglie base
mobile
1991
-
-
1992
102
99
1993
111
122
1994
110
128
1995
112
115
111
Numeri indice a base mobile
• Esempio 5:
130
125
120
115
110
Lavatrici
Lavastoviglie
105
100
95
90
1992
Docente: Ivan Zivko
1993
1994
1995
112
56
Statistica
Numeri indice: proprietà
• Le seguenti proprietà valgono se gli indici non
sono ancora stati moltiplicati per 100.
• Proprietà di simmetria:
I 0,1 
1
I1,0
• Proprietà transitiva: I 4, 0  I 4,3  I 3, 2  I 2,1  I1, 0
113
Numeri indice: cambiamento di base
• Per trasformare una serie di indici da una base
ad un’altra bisogna dividere tutti gli indici per
quello dell’anno che desidero usare come base.
114
Docente: Ivan Zivko
57
Statistica
Numeri indice: cambiamento di base
• Esempio: sono dati gli indici concernenti lo
sviluppo della cifra d’affari di due apparecchi.
ANNO
INDICE
App. A
Anno base=2000
App. B
Anno base=2002
2000
100
--
2001
108
--
2002
112
100
2003
117
108
2004
124
114
115
Numeri indice: cambiamento di base
• Per poter confrontare le due serie di dati
dobbiamo trasformare tutto nella stessa base,
che in questo caso deve essere l’anno 2002:
100
100  89
112
108
I 01/ 02 
100  96
112
112
I 02 / 02 
100  100
112
117
I 03 / 02 
100  104
112
124
I 00 / 02 
100  111
112
I 00 / 02 
Docente: Ivan Zivko
116
58
Statistica
Numeri indice: cambiamento di base
• Adesso i dati sono confrontabili:
ANNO
INDICE
App. A
Anno base=2002
App. B
Anno base=2002
2000
89
--
2001
96
--
2002
100
100
2003
104
108
2004
111
114
117
Numeri indice
aggregati, semplici e ponderati
• Spesso gli indici sono composti da più fattori,
per esempio l’indice dei prezzi è composto dai
prezzi di più beni (es.: pane, latte, …). Per
esempio se l’anno base è 1:
p2,1
p


p
i,2
i ,1
118
Docente: Ivan Zivko
59
Statistica
Numeri indice
aggregati, semplici e ponderati
• Calcolare gli indici aggregati ponderati significa
moltiplicare i prezzi per le quantità, quindi
l’indice dei valori:
I 2,1
p


p
i,2
 qi , 2
i ,1
 qi ,1
119
Numeri indice
aggregati, semplici e ponderati
• Esempio: prezzo e quantità prodotta di
fitofarmaci tra il 2000 e il 2001:
Prodotti
Prezzo
(Fr. per pezzo)
2000
Prezzo
(Fr. per pezzo)
2001
Quantità
(in migliaia)
2000
Quantità
(in migliaia)
2001
Anticrittogamici
2
3
67
72
Diserbanti
2.5
3
35
29
Insetticidi
2
1
22
27
120
Docente: Ivan Zivko
60
Statistica
Numeri indice
aggregati, semplici e ponderati
• Volendo calcolare l’indice ponderato dei
fitofarmaci tra 2000 e 2001 potremmo fare:
I 2,1

p


p
i ,1
 qi ,1
i ,0
 qi ,0

3  72  3  29  1  27
2  67  2.5  35  2  22
330
 1.24  124
265.5
121
Numeri indice
aggregati, semplici e ponderati
• In realtà ci sono alcuni metodi particolari usati
per il calcolo degli indici:
– Indice di Laspeyeres: metodo dell’anno base
– Indice di Paasche: metodo dell’anno dato
– Metodo dell’anno tipico (la quantità base è la media
delle quantità)
– Indice di Fisher: media geometrica tra Laspeyeres e
Paasche
122
Docente: Ivan Zivko
61
Statistica
Numeri indice
aggregati, semplici e ponderati
• Indice di Laspeyeres: si prende sempre la
quantità dell’anno base.
IL 
3  67  3  35  1  22
328

 1.235  123.5
2  67  2.5  35  2  22 265.5
123
Numeri indice
aggregati, semplici e ponderati
• Indice di Paasche: si prende sempre la quantità
dell’anno dato.
IP 
3  72  3  29  1  27
330

 1.22  122
2  72  2.5  29  2  27 270.5
124
Docente: Ivan Zivko
62
Statistica
Numeri indice
aggregati, semplici e ponderati
• Indice di Fisher: si fa la media geometrica tra
l’indice di Laspeyeres e Paasche:
I F  123.5 122  15067  122.75
125
Misura di concentranzione
• Una misura di concentrazione serve in statistica
per verificare in che modo un certo bene è
diviso tra la popolazione, oppure per misurare la
presenza di un prodotto o di impresa in un certo
territorio.
126
Docente: Ivan Zivko
63
Statistica
Misura di concentrazione
• Esempio: distribuzione di un pacchetto azionario
fra gli azionisti. Cerchiamo di stabilire se le azioni
sono distribuite equamente o no.
Classi azioni
Frequenze
Ammontare azioni
[0, 10[
250
1250
[10, 20[
400
6000
[20, 30[
190
4750
[30, 40[
100
3500
[40, 50[
40
1800
Oltre 50
20
1400
Totale
1000
18700
127
Misura di concentrazione
• Trasformiamo i dati in percentuali, e poi ricaviamo
le percentuali cumulate:
Docente: Ivan Zivko
Classi azioni
Percentuale
azionisti
Perc.
cumulata
azionisti
Percentuale
azioni
Perc.
cumulata
azioni
[0, 10[
25
25
6.68
6.68
[10, 20[
40
65
32.08
38.76
[20, 30[
19
84
25.4
64.16
[30, 40[
10
94
18.72
82.88
[40, 50[
4
98
9.63
92.51
Oltre 50
2
100
7.49
100
Totale
100
100
128
64
Statistica
Misura di concentrazione
• Dalla tabella possiamo ottenere per esempio le
seguenti informazioni:
– Il 65% degli azionisti possiede il 38.76% delle azioni
– L’84% degli azionisti possiede il 64.16% delle azioni
– Ecc.
129
Misura di concentrazione
• Possiamo rappresentare la situazione bene con un
diagramma cartesiano, che in questo caso viene
chiamato anche curva di concentrazione o curva
di Lorentz.
% Azioni cumulate
120
100
80
60
40
20
0
0
Docente: Ivan Zivko
20
40
60
80
100
120
130
65
Statistica
Misura di concentrazione
• Nel caso di equidistribuzione tutti gli azionisti
dispongono di uno stesso numero di azioni: per
esempio il 25% degli azionisti possiede il 25%
delle azioni, ecc.. Retta di equidistribuzione:
120
100
80
60
40
20
0
0
20
40
60
80
100
120
131
Misura di concentrazione
• Più la curva di Lorentz si avvicina alla retta di
equidistribuzione, più i beni sono divisi
equamente tra la popolazione.
132
Docente: Ivan Zivko
66
Statistica
Retta di regressione
• Spesso si desidera analizzare l’andamento di una
variabile rispetto al tempo oppure rispetto a
un’altra variabile.
• Se un minimo legame effettivamente esiste è
possibile ricavare la retta di regressione, che ci
permette inoltre di fare previsioni.
133
Retta di regressione
• Esempio: esportazioni ed importazioni in milioni
di dollari di alcuni paesi nel 1986.
PAESE
Importazioni
Esportazioni
Danimarca
22.8
22.1
Irlanda
11.6
12.6
Olanda
75.4
80.6
Svizzera
40.9
37.3
Italia
100
97.5
Svezia
32.5
37.5
Portogallo
9.4
7.2
134
Docente: Ivan Zivko
67
Statistica
Retta di regressione
120
100
ESPORTAZIONI
80
60
40
20
0
0
20
40
60
IMPORTAZIONI
80
100
120
135
Retta di regressione
• Un equazione generale di una retta ha la
seguente forma:
y  axb
a  pendenza della retta
b  intersezione della retta con l' asse y
136
Docente: Ivan Zivko
68
Statistica
Retta di regressione: Covarianza
• Per poter calcolare la retta di regressione
dobbiamo prima calcolare la covarianza, un
valore che lega due variabili X e Y.
• Siano x1, x2, …, xn i valori della prima variabile e
Mx la loro media, rispettivamente y1,.., yn i valori
della seconda variabile e My la loro media:
 xy 
( x1  M x )  ( y1  M y )  ( x2  M x )  ( y2  M y )  ....
n
n
 (x  M
i

x
)  ( yi  M y )
i 1
n
137
Retta di regressione
• Quindi per determinare la retta noi dobbiamo
determinare a e b.
Cov ( x, y )  xy
a
 2
Var ( x)
x
b  My aMx
138
Docente: Ivan Zivko
69
Statistica
Retta di regressione
• Riprendiamo l’esempio sulle esportazioni e
importazioni e calcoliamo la retta di regressione.
 xy  995.234
a
 x 2  989.47
995.234
 1.0058
989.47
b  42.11  41.8 1.0058  0.0676
139
Retta di regressione
• Quindi otteniamo:
y  1.0058  x  0.0676
• Questa retta approssima i punti, e permette di
fare delle previsioni, per esempio come
sarebbero le esportazioni se le importazioni
fossero 120 milioni di dollari:
y  1.0058 120  0.0676  120.8
140
Docente: Ivan Zivko
70
Statistica
Retta di regressione
120
100
y = 1,0058x + 0,0708
ESPORTAZIONI
80
60
40
20
0
0
20
40
60
80
100
120
IMPORTAZIONI
141
142
Docente: Ivan Zivko
71
Statistica
Serie storiche
• Una serie storica è la classificazione di una
variabile rispetto al tempo.
• Le serie storiche vengono studiate sia per
interpretare un fenomeno, individuando
componenti di trend, di ciclicità, di stagionalità
e/o di accidentalità, sia per prevedere il suo
andamento futuro.
143
Serie storiche
• Esempi di fenomeni analizzabili con serie
storiche sono:
– Numero di dipendenti di un azienda
– Indice dei prezzi
– PIL
– Vendite
– …..
144
Docente: Ivan Zivko
72
Statistica
Serie storiche
• Esempio: PIL italiano trimestrale dal 1981 al
2008
145
Serie storiche
• Il movimento tendenziale (o trend) della serie
indica il suo andamento crescente o
decrescente nel tempo, senza considerare le
possibili fluttuazioni (vedi per esempio la retta
di regressione).
• Riguarda l’andamento sul lungo periodo
(diversi anni).
146
Docente: Ivan Zivko
73
Statistica
Serie storiche
• Il movimento ciclico della serie indica le
fluttuazioni periodiche o non periodiche attorno
alla curva di trend con durata pluriannale (ciclo
economico).
• Riguarda l’andamento sul medio periodo
(qualche anno).
147
Serie storiche
• Questo movimento può essere suddiviso in 4
fasi del ciclo economico (movimenti
congiunturali):
– Prosperità: aumento superiore a quello dell’anno
precedente.
– Recessione: aumento inferiore a quello dell’anno
precedente.
– Crisi: diminuzione negativa superiore a quella
dell’anno precedente.
– Ripresa: diminuzione negativa inferiore a quella
dell’anno precedente.
148
Docente: Ivan Zivko
74
Statistica
Serie storiche
• Il movimento stagionale rappresenta il ripetersi
di situazioni che fanno variare l’andamento
della serie con oscillazioni più o meno forti
negli stessi periodi dell’anno. Ad esempio
l’aumento del consumo di carburante in inverno
o la diminuzione della produzione in estate.
• Riguarda quindi l’andamento sul breve periodo.
149
Serie storiche
• Il movimento accidentale provoca oscillazioni
dovute ad eventi casuali come scioperi,
calamità naturali o concorrenza non prevista.
150
Docente: Ivan Zivko
75
Statistica
Teoria dei campioni
• Quando si vogliono rilevare dei dati, per ricavare
delle informazioni o fare previsioni, lo si fa di
solito su di un campione statistico e non
sull’intera popolazione, perché troppo
numerosa.
151
Teoria dei campioni
• È importante definire i criteri e le modalità per
l’estrazione del campione, infatti è indispensabile
che il campione sia rappresentativo della
popolazione in relazione alla variabile indagata.
• Se per es. si vuole valutare il reddito medio dei
lavoratori di una città bisogna che nel campione
tutte le categorie siano rappresentate nelle
percentuali giuste.
152
Docente: Ivan Zivko
76
Statistica
Teoria dei campioni
• Per ottenere dei campioni rappresentativi si può
procedere con un campionamento casuale.
• Per ottenere ciò a ogni elemento dell’universo si
assegna un numero progressivo, si ricorre poi a
una tavola dei numeri casuali oppure
all’estrazione.
153
Teoria dei campioni
• Esempio: si vuole campionare il peso di 14
lamine, estratte da un universo di 1500.
154
Docente: Ivan Zivko
77