La statistica descrittiva
Introduzione
• Oggetto della statistica: studio dei fenomeni collettivi
• Popolazione: insieme degli individui oggetto di una indagine statistica
• Unità statistica: ciascun elemento di una popolazione
• Campione: sottoinsieme della popolazione
ESEMPIO
PROIEZIONI DI VOTO (elezioni)
Popolazione: tutti gli aventi diritto al voto
Campione: solo gli aventi diritto interrogati
1
La statistica descrittiva
Introduzione
• Carattere: ogni aspetto del fenomeno da individuare
• Modalità: ciascuno dei diversi modi con cui un carattere può presentarsi
ESEMPIO
RELATIVAMENTE AL FENOMENO COLLETTIVO “GIOVANI”
Il carattere Titolo di studio si può presentare nelle seguenti modalità: licenza media,
qualifica professionale, diploma di scuola media superiore, laurea triennale, laurea
specialistica, dottorato.
Il carattere Utilizzo del tempo libero si può presentare nelle seguenti modalità: riposo,
letture varie, cinema e teatro, discoteche, bar e pub, attività sportive, visite a musei o mostre,
ecc.
2
La statistica descrittiva
Caratteri qualitativi e quantitativi
Qualitativo: le sue modalità non sono
espresse da numeri e rappresentano una
mutabile statistica.
Discreto (numeri naturali):
ad esempio il numero di figli.
CARATTERE
Quantitativo: le sue modalità sono
espresse da numeri e rappresentano
una variabile statistica.
Continuo (intervalli di
numeri reali): ad esempio
l’altezza o il peso.
3
La statistica descrittiva
Le distribuzioni di frequenze
• I dati di un’indagine statistica possono essere raccolti in una distribuzione di frequenze (assolute o
relative) nella quale ogni modalità xi del carattere è associata a un numero fi, la sua frequenza assoluta,
che indica quante volte quel carattere compare.
• Frequenza relativa:
pi =
fi
T
(T : totale delle osservazioni)
In forma percentuale: pi (percentuale) = pi  100%
• Rappresentazione della distribuzione di frequenze
x
Freq. ass.
Freq. rel.
x1
f1
p1
x2
f2
p2
…
…
…
xn
fn
pn
Dove:
x: carattere
xi: modalità del carattere
fi: frequenze assolute
pi: frequenze relative
4
La statistica descrittiva
Rappresentazione grafica
Una distribuzione di frequenze può essere rappresentata graficamente mediante:
• Un diagramma a rettangoli o ortogrammi
5
La statistica descrittiva
Rappresentazione grafica
• Un diagramma circolare o areogramma: l’ampiezza di ogni settore è proporzionale alla frequenza.
6
La statistica descrittiva
Rappresentazione grafica
• Un diagramma cartesiano (per dati quantitativi di natura discreta)
7
La statistica descrittiva
Rappresentazione grafica
• Un istogramma (per dati quantitativi di natura continua)
L ’ altezza dei rettangoli si ottiene dividendo la frequenza per
l’ampiezza della relativa classe.
8
La statistica descrittiva
Sintesi dei dati
Medie ferme: aritmetica, geometrica, armonica
Indici di posizione
Medie lasche: moda, mediana
Sintesi dei dati
Scarto quadratico medio o deviazione standard σ
Indici di variabilità
Varianza σ2
9
La statistica descrittiva
Le medie ferme
Si dice media aritmetica semplice fra n numeri x1, x2, ……., xn il rapporto M fra la loro somma ed n;
n
M=
x1 + x2 + ……., + xn
n
x
Σ
i=1
i
=
n
ESEMPIO
Un’azienda ha raccolto i dati relativi al numero di ore di lavoro mensili complessive dei dipendenti.
mese
1
2
3
4
5
6
7
8
9
10
11
12
N. ore
12360
15865
15940
15758
16075
16124
15635
4520
15942
16214
16120
15658
Calcoliamo il numero medio di ore lavoro mensili.
M=
176211
12
= 14684,25
La media aritmetica può essere calcolata solo per dati di tipo quantitativo.
10
La statistica descrittiva
Le medie ferme
Se i dati di una variabile statistica si presentano con una certa frequenza per calcolare il valor medio si
usa la media ponderata.
Una media in cui ogni dato ha un suo peso (rappresentato dalla sua frequenza) si dice ponderata.
Se f1, f2, …… fn sono le frequenze delle modalità x1, x2, …… xn, la media aritmetica M(x) è data dalla
formula
n
M(x) =
x1f1 + x2f2 + ……., + xnf
f1 + f2 + … fn
xf
Σ
i=1
i i
=
n
f
Σ
i=1
i
11
La statistica descrittiva
Le medie ferme
ESEMPIO
Num. Dei maschi nelle famiglie x
Freq. assoluta f
Prodotto x  f
0
1
2
3
4
5
6
7
50
120
300
250
190
60
20
10
0
120
600
750
760
300
120
70
TOTALE
1000
2720
Possiamo dire che in media, ogni famiglia ha un numero di maschi pari a:
M=
2720
1000
= 2,72
12
La statistica descrittiva
Le medie ferme
Nel caso di una distribuzione per classi, il calcolo della media viene fatto sostituendo ciascuna classe con
il suo termine centrale, ottenuto calcolando la semisomma dei valori estremi.
Altezze
Maschi
Maschi
Valori centrali
Freq.
Prodotti
Freq.
Prodotti
[100-140)
120
8
120  8 = 960
12
120  15 = 1 800
[140-160)
150
32
150  32 = 4 800
125
150  125 = 18 750
[160-170)
165
120
165  120 = 19 800
336
165  336 = 55 440
[170-175)
172,5
250
172,5  250 = 43 125
260
172,5  260 = 44 850
[175-180)
177,5
330
177,5  330 = 58 575
196
177,5  196 = 34 790
[180-190)
185
196
185  196 = 36 260
62
185  62 = 11 470
[190-200)
195
50
195  50 = 9 750
6
195  6 = 1 170
[200-210)
205
10
205  10 = 2 050
0
205  0 = 0
[210-250)
230
4
230  4 = 920
0
230  0 = 0
1000
176 240
1000
168 270
TOTALE
Altezza media dei maschi: M =
176 240
= 176,24 (cm)
1000
Altezza media delle femmine: M =
168 270
= 168,27 (cm)
1000
13
La statistica descrittiva
Le medie ferme
Si chiama scarto dalla media la differenza fra il valore osservato e la media stessa.
Dati cioè gli n valori x1, x2, …… xn, gli scarti dalla loro media M sono i valori
x1 – M,
x2 – M, ……., xn – M
Proprietà della media aritmetica.
n
• La somma degli scarti della media è sempre nulla:
Σ (x
1
– M) =
0
i=1
• Se si considerano i quadrati degli scarti, cioè (x1 – M)2, (x2 – M)2 ….., (xn – M)2, la somma dei
quadrati degli scarti della media aritmetica è minima (rispetto a una qualunque altra media).
14
La statistica descrittiva
Le medie ferme
• Media geometrica semplice MG fra n numeri positivi x1, x2, ….., xn: radice n-esima del loro prodotto.
MG = √x1  x2, ….., xn
ESEMPIO
Dati i sei numeri 3, 6, 9, 15, 24, 36
6
MG = √3  6  9  15  24  36 ≈ 11,32
15
La statistica descrittiva
Le medie ferme
• Nel caso di una media geometrica ponderata:
F
MG = √(x1)f1  (x2)f2,  …..,  (xn) fn
Dove fi: pesi e
F = f1 + f2 + ….. fn
ESEMPIO
30
x
f
5
6
8
10
3
9
12
6
TOTALE (F)
30
MG = √53  69  812  106 ≈ 7,32
Nel caso di distribuzioni per classi si trova prima il valore
centrale della classe e poi si effettua il calcolo della
media ponderata.
16
La statistica descrittiva
Le medie ferme
• Media quadratica semplice MQ fra n numeri i x1, x2, x3 ….., xn: radice quadrata della media aritmetica
dei quadrati dei dati.
MQ =
√
x12 + x22 +…+ xn2
=
n
√
n
Σ xi2
i=1
n
ESEMPIO
Dati i numeri 3, 5, 7, 9, 12
MQ =
√
32 + 52 + 72 + 92 + 122
≈ 7,85
5
17
La statistica descrittiva
• Nel caso di una media ponderata:
MQ =
√
Le medie ferme
x12 f1 + x22f2 +…..+ xn2fn
f1 + f2 +…… fn
Nel caso di distribuzioni per classi si usa il termine centrale di ogni classe.
ESEMPIO
x
f
5
6
8
10
3
9
12
6
TOTALE (F)
30
MQ =
√
52  3 + 62  9 + 82  12 + 102  6
=
30
√
1767
≈ 7,67
30
18
La statistica descrittiva
Le medie ferme
• Media armonica semplice MA fra due numeri x1, x2, ….., xn: reciproco della media aritmetica dei
reciproci dei dati.
MA =
1
1
1
1
+
+ …. +
x1 x2
xn
=
n
1
1
1
+
+ …. +
x 1 x2
xn
n
• Nel caso di una media ponderata:
MA =
f1 + f2 + ….. + fn
f1
f2
fn
+
+ …. +
x1 x2
xn
19
La statistica descrittiva
Le medie ferme
Nel caso di distribuzioni per classi si utilizza il termine centrale.
ESEMPIO
x
f
5
6
8
10
3
9
12
6
TOTALE (F)
30
MA =
30
3
9
12 6
+
+
+
5
6
8 10
≈ 7,14
Tutte le medie finora definite si possono calcolare solo per dati di tipo quantitativo.
20
La statistica descrittiva
Le medie lasche
Si dice moda (valore modale) di una distribuzione di frequenze, il termine, se esiste, cui corrisponde la
massima frequenza nella distribuzione.
• Località marine è la moda per i
turisti italiani.
• Città di interesse storico/artistico è
la moda per i turisti stranieri.
• Una distribuzione può avere più di un termine modale o può non averne (distribuzione in cui ogni
modalità ha la stessa frequenza).
21
La statistica descrittiva
Le medie lasche
Nel caso in cui una distribuzione sia per classi, si parla di classe modale.
• Se le classi della distribuzione hanno tutte
uguale ampiezza, allora la classe modale è
quella che presenta frequenza più alta.
• Se le classi hanno ampiezze diverse
si valuta il rapporto tra frequenza e
ampiezza della classe. La classe cui
corrisponde l’altezza maggiore è la
classe modale.
22
La statistica descrittiva
Le medie lasche
• Mediana Me di una distribuzione è il termine che, disposti i dati in ordine crescente o decrescente,
occupa il posto centrale.
• Se i termini fra cui calcolare il valore mediano sono n e n è dispari, la mediana è il valore che occupa il
posto
n+1
2
; se n è pari, tutti i punti dell’intervallo [x n
2
, x n+1 ] sono valori mediani; di solito si assume il
2
termine centrale di questo intervallo.
ESEMPIO
Date le distribuzioni di 7 termini e di 8 termini
• 1, 2, 3, 5, 7, 11, 20
Il termine mediano è quello di posto
7+1
2
=4
cioè Me = 5
• 1, 2, 3, 5, 7, 9, 12, 15, 34 Il termine mediano è il termine centrale dell’intervallo [7, 9] cioè Me = 8
23
La statistica descrittiva
Le medie lasche
Se i valori della distribuzione hanno un loro peso, bisogna calcolare le frequenze cumulate (frequenze
relative a una data modalità uguali alla somma delle frequenze di tutte le modalità minori o uguali a esse).
ESEMPIO
Numero voti
Frequenza
Freq. cumulate
1
2
3
4
5
2
8
12
6
2
2
10
22
28
30
TOTALE (F)
30
Consideriamo adesso la metà del totale delle frequenze (30 : 2 = 15); poiché n = 30, quindi è pari, il valore
mediano è il termine centrale dell’intervallo [x15, x16] ed è quindi necessario trovare quali sono questi
elementi.
continua
24
La statistica descrittiva
Le medie lasche
Allora, 2 posti sono occupati dalla modalità 1, 8 posti sono occupati dalla modalità 2 (in totale abbiamo 10
posti, cioè il valore della colonna delle frequenze cumulate in corrispondenza della seconda modalità), 12
sono i posti occupati dalla modalità 3 (in totale abbiamo contato 22 posti, cioè abbiamo superato la metà);
quindi il quindicesimo e il sedicesimo posto sono occupati entrambi dalla modalità 3.
La mediana della distribuzione è quindi il valore centrale dell’intervallo [3, 3], cioè Me = 3.
Nel caso in cui n è dispari, la mediana corrisponde all’elemento di posto
n+1
; per trovarlo basta
2
cercare nella colonna delle frequenze cumulate il primo numero che è maggiore o uguale di tale valore e
leggere l’elemento corrispondente.
25
La statistica descrittiva
Le medie lasche
Se la distribuzione è per classi bisogna calcolare la frequenza cumulata.
ESEMPIO
La metà delle osservazioni è 1000 e quindi per
arrivare alla mediana dobbiamo contare le prime
1000 persone disposte in ordine crescente di
numero di ricoveri subiti; poiché il valore 1000 e il
valore 1001 delle frequenze cumulate cadono
nella seconda classe, possiamo dire che la
classe mediana è la [5 – 9].
Il valore mediano si calcola poi con la formula:
(2
N
A
Me = i +
−F
)
Freq. Assol.
Freq. cumulate
[0-4]
732
732
[5-9]
928
1660
[10-14]
264
1924
[15-19]
56
1980
[20-24]
12
1992
[25-30]
8
2000
TOTALE (F)
2000
f
Nel nostro caso:
5  (1000 − 732)
Me = 5 +
Ricoveri
928
= 6,44 ≈ 6
N: numero totale osservazioni
F: frequenza cumulata fino alla mediana esclusa
f: frequenza della classe mediana
A: ampiezza della classe mediana
i: estremo inferiore della classe mediana
26
La statistica descrittiva
Le misure di sisperione
Per avere informazioni su come i dati di una indagine statistica si distribuiscono attorno ai valori di sintesi e
quindi poter confrontare distribuzioni, si studiano gli indici di variabilità.
• Campo di variabilità di un insieme di n dati numerici x1, x2, ….. xn: differenza tra il valore massimo
e il valore minimo degli xi.
ESEMPIO
Supponiamo che i rilevamenti compiuti su un campione di individui sulla pressione minima sanguigna
abbia dato i seguenti risultati:
80 80 85 90 85 60 90 95 95 80 85 115
Il campo di variabilità di questi dati è dato da 115 – 60 = 55; se basassimo le nostre considerazioni
solo su questo valore, saremmo portati a dire che in quel gruppo di persone vi è un’alta variabilità fra
i dati, mentre in realtà, osservando meglio, si nota che la maggior parte di essi (tranne due) si
distribuiscono in un ambito più ristretto compreso fra 80 e 95. Questo è un indice poco sensibile che
è grandemente influenzato dai valori esterni.
27
La statistica descrittiva
Le misure di dispersione
• Scarto quadratico medio o deviazione standard σ: media quadratica degli scarti dalla media
aritmetica M.
σ=
√
σ=
√
n
Σ (xi – M)2
i=1
Nel caso di dati semplici
n
n
Σ {(xi – M)2  fi }
i=1
Nel caso di dati ponderati con pesi fi
n
Σ fi
i=1
• Varianza (σ)2: quadrato dello scarto quadratico medio.
Per il calcolo di σ (e quindi di σ2) si può anche usare la formula:
σ = √media dei quadrati degli xi − quadrato della media
28
La statistica descrittiva
Le misure di dispersione
ESEMPIO
Ad otto gruppi di persone è stato chiesto di provare due tipi particolari di shampoo che indicheremo
con A e B, e di sceglierne quindi uno. Gli esiti di questa scelta sono riportati nella seguente tabella.
A
15
12
10
8
11
18
20
10
B
15
12
24
12
14
2
10
18
Sommando le preferenze accordate ai due prodotti, sia A che B ne hanno totalizzate 104.
Mediamente
104
= 13 voti da ciascun gruppo
8
continua
29
La statistica descrittiva
Le misure di dispersione
ESEMPIO
Calcoliamo lo scarto quadratico medio della distribuzione di A e di B.
Preferenze di A
Scarti
(Scarti)2
Preferenze di B
Scarti
(Scarti)2
15
2
4
12
-1
1
112
-1
1
12
-1
1
10
-3
9
24
11
121
8
-5
25
12
-1
1
11
-2
4
14
1
1
18
5
25
2
-11
121
20
7
49
10
-3
9
10
-3
9
18
5
25
TOTALE
126
TOTALE
280
√
σA =
8
Σ (x – 13)2
i=1 i
8
=
√
126
= 3,969
√
σB =
8
8
2
Σ
(x
–
13)
i
i=1
8
=
√
280
= 5,916
8
Lo shampoo A presenta una minore variabilità rispetto a B.
30