Capitolo 2 Distribuzioni di frequenza

Edizioni Simone - Vol. 43/1 Compendio di statistica

Capitolo 2 Distribuzioni di frequenza
Sommario1. Distribuzioni semplici. - 2. Distribuzioni doppie. - 3. Distribuzioni
parziali: condizionate e marginali. - 4. Misure sintetiche di distribuzioni
statistiche.
1.Distribuzioni semplici
La distribuzione di frequenza è una particolare tipologia di rappresentazione dei dati
statistici.
Per illustrare una distribuzione di frequenza è necessario costruire una tabella statistica nella quale ad ogni modalità o classe di modalità (qualitativa o quantitativa),
corrisponde la rispettiva frequenza assoluta o relativa.
Il passaggio dalla frequenza assoluta alla frequenza relativa, è utile in tutti i casi in cui
si intende confrontare due o più distribuzioni caratterizzate da un numero complessivo
di osservazioni differenti.
Una tabella statistica può essere semplice o multipla a seconda che si rilevino le modalità relative ad uno o più caratteri.
La tabella seguente indica la distribuzione (semplice) di frequenza di un carattere X
discreto:
Modalità di X
Frequenze
x2
n2
x1
:
n1
:
xi
ni
xk
nk
:
Totale
:
n
Tabella 1 (a)
16

Capitolo 2
La tabella seguente indica, invece, la distribuzione (semplice) di frequenza di un carattere continuo (con modalità raggruppate in classi):
Classi di modalità di X
Frequenze
x2 =x3
n2
:
:
x1 =x2
n1
xi =xi + 1
ni
:
:
xk =xk+ 1
nk
Totale
n
Tabella 1 (b)
Nulla vieta di disporre la distribuzione, anziché per colonne, per righe, per cui le
modalità (o le classi di modalità) del carattere saranno indicate nella prima riga
mentre le frequenze corrispondenti nella seconda riga.
L’individuazione del numero di classi di frequenza da costruire in tabella, rappresenta
una problematica piuttosto rilevante nella statistica descrittiva poiché la ricostruzione
della distribuzione reale di un fenomeno, è attendibile solo qualora vi siano un numero sufficientemente elevato di osservazioni.
In genere, il numero ottimale di classi utilizzate abitualmente in un’indagine campionaria, varia da un minimo di 4-5, fino ad un massimo di 10-15; la determinazione nel caso
concreto, avverrà sulla base della valutazione del numero complessivo di osservazioni.
Infatti, un numero di classi estremamente esiguo, determinerebbe, una sostanziale perdita di informazioni a causa dell’eccessivo raggruppamento dei dati, mentre un numero
troppo elevato di classi disperderebbe eccessivamente i valori della distribuzione.
I due metodi più utilizzati per la determinazione ottimale delle classi sono:
✔ quello proposto da Sturges
10
$ log 10 (N)
3
ove C indica il numero ottimale di classi, e N la numerosità delle osservazioni;
C=1+
✔ metodo di Scott, espresso dalla relazione:
3, 5 $ S
N
ove S è la deviazione standard (di cui si tratterà oltre).
h=
 17
Distribuzioni di frequenza
Nel caso si consideri un carattere qualitativo, nella tabella, invece delle modalità, figurano gli attributi.
Esempio 1
Nella tabella seguente è riportata la distribuzione di frequenza delle famiglie residenti
in un quartiere per numero di componenti:
Componenti
Numero delle famiglie
1
803
2
945
3
261
4
89
5
32
6
12
7
2
Totale
2.144
Tabella 2

Determinare le frequenze relative, le frequenze cumulate assolute e le frequenze cumulate relative.
Nella distribuzione riportata la frequenza relativa corrispondente alla modalità 1 componente è ottenuta nel modo seguente:
fi =
803
= 0, 37453
2.144
La frequenza cumulata assoluta della modalità 2 componenti è:
nli = 803 + 945 = 1.748
mentre, la frequenza cumulata relativa è:
fli =
803
945
+
= 0, 8152
2.144
2.144
È ovvio che la frequenza cumulata assoluta o relativa corrispondente alla 1a modalità
del carattere è pari alla frequenza assoluta o relativa della modalità 1 componente.
Frequenze
relative
Frequenze
cumulate assolute cumulate relative
Modalità
Frequenze
1
0,37453
803
0,37453
2
0,44076
1.748
0,81530
3
0,12174
2.009
0,93703
(Segue)
18

Capitolo 2
4
0,04151
2.098
0,97854
5
0,01493
2.130
0,99347
6
0,00560
2.142
0,99907
7
0,00093
2.144
1
Totale
1,00000
—
—
Schema 1
Esempio 2
Nella seguente tabella è riportata la distribuzione di frequenza di 270 impiegati di
un’azienda tessile per classi di età:
Classi di età
Numero di impiegati
30 - 33
37
34 - 37
48
38 - 41
20
42 - 45
33
46 - 49
21
50 - 53
26
54 - 57
50
58 - 61
20
62 - 65
15
Tabella 3
Determinare il valore centrale, la frequenza relativa e la frequenza cumulata di ogni
classe.
I valori centrali, le frequenze relative e le frequenze cumulate di ogni classe sono indicati nello schema seguente:
Classi di età
Frequenza
assoluta
Valore
centrale
Frequenza
relativa
Frequenza
cumulata
30 - 33
37
31,5
0,137
37
34 - 37
48
35,5
0,178
85
38 - 41
20
39,5
0,074
105
42 - 45
33
43,5
0,122
138
46 - 49
21
47,5
0,078
159
50 - 53
26
51,5
0,096
185
(Segue)
 19
Distribuzioni di frequenza
54 - 57
50
55,5
0,185
235
58 - 61
20
59,5
0,074
255
62 - 65
15
63,5
0,056
270
Schema 2
2.Distribuzioni doppie
La distribuzione doppia è una distribuzione congiunta di due caratteri X e Y, i quali
si suppone possano essere legati da una relazione, ed è esaminata rispetto al contemporaneo verificarsi di una modalità xi per X e di una modalità yj per Y.
Verosimilmente in una distribuzione doppia, dall’analisi delle modalità assunte rispettivamente da X e Y, alcune frequenze risulteranno essere più elevate rispetto ad una
situazione in cui vi è assenza di qualsiasi legame fra le variabili esaminate.
Una tabella a doppia entrata, o tabella tetracorica, è una tabella statistica in cui
sono riportate le frequenze assolute o relative riguardanti le diverse combinazioni di
modalità o classi di modalità di due caratteri X e Y, desumibili da una distribuzione
doppia. Si consideri la tabella seguente:
Y
X
x1
y1
y2
………
yj
………
yc
Totale
n11
n12
………
n1j
………
n1c
n1.
:
:
x2
n21
xi
xr
:
:
Totale
n22
………
ni1
ni2
………
nr1
nr2
………
n.1
n.2
:
:
n2j
………
nij
………
nrj
………
:
:
n.j
n2c
:
n2.
:
nic
ni.
nrc
nr.
n.c
n
:
:
Tabella 4
La prima riga della tabella è detta riga madre, in essa figurano le modalità del carattere Y:
y1, y2, …, yc
La prima colonna, invece, è detta colonna madre, in essa figurano le modalità del
carattere X:
x1, x2, …, xr
20

Capitolo 2
Il corpo della tabella è una matrice r × c (con r righe e c colonne), in essa figurano
frequenze del tipo nij (i = 1, 2, …, r; j = 1, 2, …, c) in cui il primo indice rappresenta
la riga e il secondo la colonna, la frequenza nij indica il numero di elementi della popolazione n che possiedono le modalità: xi di X e yj di Y, simultaneamente.
Nell’ultima riga, detta riga marginale, figurano le frequenze marginali, che rappresentano i totali delle c colonne, e precisamente la frequenza:
n.j =
r
/n
i=1
ij
indica il numero di elementi che possiedono la modalità yj del carattere Y, indipendentemente da come essa sia in combinazione con le modalità del carattere X.
Per esempio, in una tabella che rileva le frequenze doppie di peso (X) e altezza (Y),
la frequenza marginale n.j indica quanti individui sono alti un dato numero di centimetri, a prescindere dal loro peso.
Analogamente, nell’ultima colonna, detta colonna marginale, figurano le frequenze
marginali rappresentanti i totali delle r righe, e precisamente la frequenza:
ni. =
c
/n
j=1
ij
indica il numero di elementi che possiedono la modalità xi, del carattere X, indipendentemente da come essa sia in combinazione con le modalità del carattere Y.
Nella medesima tabella relativa al peso (X) e all’altezza (Y), la frequenza marginale ni. indica quanti individui pesano un dato numero di chili, a prescindere dalla loro
altezza.
Ovviamente, il totale generale è:
n =
r
c
r
c
i=1
j=1
/n =/n =/ /n
i=1
i.
j=1
.j
ij
Le considerazioni esposte possono essere estese al caso di variabili continue le cui
modalità sono raggruppate in classi, e al caso di variabili qualitative per le quali, invece delle modalità, figurano gli attributi.
Esempio 3
Nella seguente tabella è riportata la distribuzione doppia di 13.851 lavoratori per settori di attività economica e per posizione professionale:
 21
Distribuzioni di frequenza
Posizione professionale
Settori
Dipendenti
Totale
Autonomi
Agricoltura
485
776
1.261
Industria
4.147
956
5.103
Altre attività
4.941
2.546
7.487
Totale
9.573
4.278
13.851
Tabella 5
Nella tabella, la frequenza marginale di riga corrispondente alla modalità Agricoltura
del primo carattere Occupati per settore di attività è calcolata sommando 485 a 776;
essa sta ad indicare che 1.261 persone sono occupate in Agricoltura, a prescindere
dalla posizione professionale.
La frequenza marginale di colonna corrispondente alla modalità Dipendenti del secondo carattere Occupati per posizione professionale è ottenuta sommando i seguenti
valori: 485, 4.147, 4.941; essa sta ad indicare che 9.573 persone sono lavoratori dipendenti, a prescindere dal settore in cui sono occupati.
La somma delle frequenze marginali di riga è pari alla somma delle frequenze marginali di colonna e corrisponde alla numerosità della popolazione oggetto di osservazione.
Esempio 4
Nella seguente tabella è riportato il numero complessivo di lavoratori dipendenti impiegati nelle varie sedi di una grande azienda, distinti per settore d’impiego (X) e genere (Y).
M
F
Amministrazione
X/Y
22
31
Vendite
283
169
Logistica
19
11
Totale
324
211
Tabella 6
Calcolare:
✔ Le distribuzioni marginali ni., n.j ;
✔ Le frequenze relative congiunte fij ;
✔ Le distribuzioni di frequenza marginali relative fi. , f.j;
Per ciascuna modalità xi del carattere X, la frequenza marginale ni. si ottiene sommando le frequenze congiunte che si trovano sulla riga corrispondente. Analogamente le
frequenze marginali n.j per ciascuna modalità yi del carattere Y, si ottengono sommando le frequenze congiunte che si trovano sulla colonna corrispondente.
22

Capitolo 2
X/Y
2
ni. =
/n
n.j =
/n
j=1
ij
3
i=1
M
ij
F
Totale
Amministrazione
22
31
53
Vendite
283
169
452
Logistica
19
11
30
Totale
324
211
535
Tabella 7
Per ottenere le frequenze relative congiunte si dividono, invece, le frequenze assolute
congiunte per la numerosità totale n = 535.
fij = nij /n
Esempio:
numerosità dei maschi impiegati nel settore amministrativo = 22
numerosità totale n = 535
quindi: 22/535= 0,041.
Ripetendo la medesima operazione per ciascuna frequenza assoluta congiunta, si ottiene la tabella seguente (Tabella 8). In essa sono riportate, quindi, le frequenze marginali relative fi. , f.j per i due sessi.
X/Y
M
F
Totale
Amministrazione
0,041
0,058
0,099
Vendite
0,529
0,316
0,845
Logistica
0,035
0,020
0,055
Totale
0,605
0,394
1
Tabella 8
 23
Distribuzioni di frequenza
3.Distribuzioni parziali: condizionate e marginali
Da una tabella a doppia entrata si desumono distribuzioni che consentono di evidenziare caratteristiche diverse di una distribuzione doppia di frequenza; esse sono denominate distribuzioni parziali e sono: le distribuzioni condizionate e le distribuzioni marginali.
A) Distribuzioni condizionate
Una distribuzione condizionata è una distribuzione semplice ottenuta associando, in
una tabella a doppia entrata (v. Tabella 4), la riga madre con una qualsiasi delle r
righe successive, oppure associando la colonna madre con una qualsiasi delle c
colonne successive.
La distribuzione Y _ X = xi i è la distribuzione condizionata del carattere Y dato il valore xi del carattere X. La tabella derivata è la 9 (a) seguente.
Analogamente, la distribuzione X _ Y = y j i è la distribuzione condizionata del carattere X dato il valore yj del carattere Y. La tabella statistica risultante è la 9 (b).
Y
Frequenze
X
y1
ni1
x1
.
.
y2
ni2
.
.
.
.
.
n1j
x2
n2j
.
.
.
.
.
yj
nij
xi
nij
.
.
.
.
xr
nrj
.
.
.
.
yc
Totale
Frequenze
nic
ni.
Tabella 9 (a)
.
.
.
.
Totale
n.j
Tabella 9 (b)
Da una tabella a doppia entrata, quindi, si desumono:
✔ r distribuzioni condizionate del carattere Y alle corrispondenti modalità del carattere X;
✔ c distribuzioni condizionate del carattere X alle corrispondenti modalità del carattere Y.
24

Capitolo 2
B) Distribuzioni marginali
Una distribuzione marginale è una distribuzione semplice ottenuta associando, in una
tabella a doppia entrata (v. Tabella 4), la riga madre con la riga marginale, oppure
la colonna madre con la colonna marginale.
La prima distribuzione indica gli elementi della popolazione che possiedono le modalità y1, y2, …, yc del carattere Y indipendentemente da come esse siano associate alle
modalità x1, x2, … xr del carattere X. La tabella statistica risultante è la 10 (a) a pagina
seguente.
La seconda distribuzione indica gli elementi della popolazione che possiedono le
modalità x1, x2, …, xr del carattere X, indipendentemente da come esse siano associate
alle modalità y1, y2, …, yc del carattere Y. La tabella statistica risultante è la 10 (b) a
pagina seguente.
Y
Frequenze
n.1
X
x1
Frequenze
y2
n.2
x2
n2.
.
.
.
.
y1
.
.
.
.
.
.
.
yj
n.j
xi
ni.
.
.
.
.
.
.
yc
Totale
.
n1.
.
.
n.c
n
Tabella 10 (a)
.
.
xr
Totale
.
.
nr.
n
Tabella 10 (b)
Da una tabella a doppia entrata si desumono:
✔ 1 distribuzione marginale per il carattere X;
✔ 1 distribuzione marginale per il carattere Y.
Esempio
Facendo riferimento alla distribuzione doppia riportata in tabella 5, determinare:
a) gli occupati nei settori a prescindere dalla posizione professionale;
b) gli occupati per posizione professionale a prescindere dal settore.
Distribuzioni di frequenza
 25
La distribuzione riportata nella tabella 5 è doppia e attinente ai due caratteri: Occupati
per settori di attività economica e Occupati per posizione professionale.
a) Il primo punto richiede la determinazione della distribuzione marginale del carattere Occupati per settori di attività economica. Essa si ottiene associando la colonna
madre con la colonna marginale:
Settori
Occupati
Agricoltura
1.261
Industria
5.103
Altre attività
7.487
Totale
13.851
Tabella 11
Pertanto, a prescindere dalla loro posizione professionale, gli occupati in agricoltura sono 1.261, gli occupati nell’industria sono 5.103, gli occupati in altre attività sono,
invece, 7.487.
b) Al secondo punto si chiede di determinare la distribuzione marginale del carattere
Occupati per posizione professionale. Essa si ottiene associando la riga madre con
la riga marginale:
Posizione
professionale
Occupati
Dipendenti
9.573
Autonomi
4.278
Totale
13.851
Tabella 12
Pertanto, a prescindere dal settore di attività economica, i lavoratori dipendenti sono
9.573, mentre i lavoratori autonomi sono 4.278.
4.Misure sintetiche di distribuzioni statistiche
L’analisi statistica fornisce misure sintetiche per valutare aspetti complessi e globali
della distribuzione di un fenomeno X mediante un solo numero reale costruito in modo
da disperdere al minimo le informazioni sui dati originari.
In rapporto alle caratteristiche che si misurano si parla di rapporti statistici, indici di
posizione, indici di variabilità, indici di forma, di essi ci occuperemo, rispettivamente, nei capitoli quarto, quinto, sesto e settimo.
26

Capitolo 2
In rapporto alla natura, gli indici si distinguono in:
✔ indici assoluti che sono introdotti per valutare in modo sintetico un aspetto di una
distribuzione e sono espressi nella stessa unità di misura del fenomeno o in sua
funzione;
✔ indici relativi che non dipendono dall’unità di misura del fenomeno, e si ottengono rapportando due misure assolute oppure un indice assoluto al suo massimo.
Infine, gli indici normalizzati sono indici relativi che assumono valori in un intervallo finito quasi sempre [0, 1] oppure [–1, +1].
Questionario
1. Quando una distribuzione di frequenza si dice semplice e quando si dice multipla? (par. 1)
2. Quali sono i principali metodi per l’individuazione del numero ottimale di classi di frequenza da costruire in tabella? (par. 1)
3. In una tabella a doppia entrata, cosa esprimono le frequenze marginali? (par.
2)
4. Da una tabella a doppia entrata costituita da 6 righe e 4 colonne quante distribuzioni condizionate si traggono? (par. 3)
5. Da una tabella a doppia entrata costituita da 6 righe e 4 colonne quante distribuzioni marginali si traggono? (par. 3)
6. In quale unità di misura sono espressi gli indici relativi di un dato fenomeno
statistico? (par. 4)