Edizioni Simone - Vol. 43/1 Compendio di statistica Capitolo 2 Distribuzioni di frequenza Sommario1. Distribuzioni semplici. - 2. Distribuzioni doppie. - 3. Distribuzioni parziali: condizionate e marginali. - 4. Misure sintetiche di distribuzioni statistiche. 1.Distribuzioni semplici La distribuzione di frequenza è una particolare tipologia di rappresentazione dei dati statistici. Per illustrare una distribuzione di frequenza è necessario costruire una tabella statistica nella quale ad ogni modalità o classe di modalità (qualitativa o quantitativa), corrisponde la rispettiva frequenza assoluta o relativa. Il passaggio dalla frequenza assoluta alla frequenza relativa, è utile in tutti i casi in cui si intende confrontare due o più distribuzioni caratterizzate da un numero complessivo di osservazioni differenti. Una tabella statistica può essere semplice o multipla a seconda che si rilevino le modalità relative ad uno o più caratteri. La tabella seguente indica la distribuzione (semplice) di frequenza di un carattere X discreto: Modalità di X Frequenze x2 n2 x1 : n1 : xi ni xk nk : Totale : n Tabella 1 (a) 16 Capitolo 2 La tabella seguente indica, invece, la distribuzione (semplice) di frequenza di un carattere continuo (con modalità raggruppate in classi): Classi di modalità di X Frequenze x2 =x3 n2 : : x1 =x2 n1 xi =xi + 1 ni : : xk =xk+ 1 nk Totale n Tabella 1 (b) Nulla vieta di disporre la distribuzione, anziché per colonne, per righe, per cui le modalità (o le classi di modalità) del carattere saranno indicate nella prima riga mentre le frequenze corrispondenti nella seconda riga. L’individuazione del numero di classi di frequenza da costruire in tabella, rappresenta una problematica piuttosto rilevante nella statistica descrittiva poiché la ricostruzione della distribuzione reale di un fenomeno, è attendibile solo qualora vi siano un numero sufficientemente elevato di osservazioni. In genere, il numero ottimale di classi utilizzate abitualmente in un’indagine campionaria, varia da un minimo di 4-5, fino ad un massimo di 10-15; la determinazione nel caso concreto, avverrà sulla base della valutazione del numero complessivo di osservazioni. Infatti, un numero di classi estremamente esiguo, determinerebbe, una sostanziale perdita di informazioni a causa dell’eccessivo raggruppamento dei dati, mentre un numero troppo elevato di classi disperderebbe eccessivamente i valori della distribuzione. I due metodi più utilizzati per la determinazione ottimale delle classi sono: ✔ quello proposto da Sturges 10 $ log 10 (N) 3 ove C indica il numero ottimale di classi, e N la numerosità delle osservazioni; C=1+ ✔ metodo di Scott, espresso dalla relazione: 3, 5 $ S N ove S è la deviazione standard (di cui si tratterà oltre). h= 17 Distribuzioni di frequenza Nel caso si consideri un carattere qualitativo, nella tabella, invece delle modalità, figurano gli attributi. Esempio 1 Nella tabella seguente è riportata la distribuzione di frequenza delle famiglie residenti in un quartiere per numero di componenti: Componenti Numero delle famiglie 1 803 2 945 3 261 4 89 5 32 6 12 7 2 Totale 2.144 Tabella 2 ­ Determinare le frequenze relative, le frequenze cumulate assolute e le frequenze cumulate relative. Nella distribuzione riportata la frequenza relativa corrispondente alla modalità 1 componente è ottenuta nel modo seguente: fi = 803 = 0, 37453 2.144 La frequenza cumulata assoluta della modalità 2 componenti è: nli = 803 + 945 = 1.748 mentre, la frequenza cumulata relativa è: fli = 803 945 + = 0, 8152 2.144 2.144 È ovvio che la frequenza cumulata assoluta o relativa corrispondente alla 1a modalità del carattere è pari alla frequenza assoluta o relativa della modalità 1 componente. Frequenze relative Frequenze cumulate assolute cumulate relative Modalità Frequenze 1 0,37453 803 0,37453 2 0,44076 1.748 0,81530 3 0,12174 2.009 0,93703 (Segue) 18 Capitolo 2 4 0,04151 2.098 0,97854 5 0,01493 2.130 0,99347 6 0,00560 2.142 0,99907 7 0,00093 2.144 1 Totale 1,00000 — — Schema 1 Esempio 2 Nella seguente tabella è riportata la distribuzione di frequenza di 270 impiegati di un’azienda tessile per classi di età: Classi di età Numero di impiegati 30 - 33 37 34 - 37 48 38 - 41 20 42 - 45 33 46 - 49 21 50 - 53 26 54 - 57 50 58 - 61 20 62 - 65 15 Tabella 3 Determinare il valore centrale, la frequenza relativa e la frequenza cumulata di ogni classe. I valori centrali, le frequenze relative e le frequenze cumulate di ogni classe sono indicati nello schema seguente: Classi di età Frequenza assoluta Valore centrale Frequenza relativa Frequenza cumulata 30 - 33 37 31,5 0,137 37 34 - 37 48 35,5 0,178 85 38 - 41 20 39,5 0,074 105 42 - 45 33 43,5 0,122 138 46 - 49 21 47,5 0,078 159 50 - 53 26 51,5 0,096 185 (Segue) 19 Distribuzioni di frequenza 54 - 57 50 55,5 0,185 235 58 - 61 20 59,5 0,074 255 62 - 65 15 63,5 0,056 270 Schema 2 2.Distribuzioni doppie La distribuzione doppia è una distribuzione congiunta di due caratteri X e Y, i quali si suppone possano essere legati da una relazione, ed è esaminata rispetto al contemporaneo verificarsi di una modalità xi per X e di una modalità yj per Y. Verosimilmente in una distribuzione doppia, dall’analisi delle modalità assunte rispettivamente da X e Y, alcune frequenze risulteranno essere più elevate rispetto ad una situazione in cui vi è assenza di qualsiasi legame fra le variabili esaminate. Una tabella a doppia entrata, o tabella tetracorica, è una tabella statistica in cui sono riportate le frequenze assolute o relative riguardanti le diverse combinazioni di modalità o classi di modalità di due caratteri X e Y, desumibili da una distribuzione doppia. Si consideri la tabella seguente: Y X x1 y1 y2 ……… yj ……… yc Totale n11 n12 ……… n1j ……… n1c n1. : : x2 n21 xi xr : : Totale n22 ……… ni1 ni2 ……… nr1 nr2 ……… n.1 n.2 : : n2j ……… nij ……… nrj ……… : : n.j n2c : n2. : nic ni. nrc nr. n.c n : : Tabella 4 La prima riga della tabella è detta riga madre, in essa figurano le modalità del carattere Y: y1, y2, …, yc La prima colonna, invece, è detta colonna madre, in essa figurano le modalità del carattere X: x1, x2, …, xr 20 Capitolo 2 Il corpo della tabella è una matrice r × c (con r righe e c colonne), in essa figurano frequenze del tipo nij (i = 1, 2, …, r; j = 1, 2, …, c) in cui il primo indice rappresenta la riga e il secondo la colonna, la frequenza nij indica il numero di elementi della popolazione n che possiedono le modalità: xi di X e yj di Y, simultaneamente. Nell’ultima riga, detta riga marginale, figurano le frequenze marginali, che rappresentano i totali delle c colonne, e precisamente la frequenza: n.j = r /n i=1 ij indica il numero di elementi che possiedono la modalità yj del carattere Y, indipendentemente da come essa sia in combinazione con le modalità del carattere X. Per esempio, in una tabella che rileva le frequenze doppie di peso (X) e altezza (Y), la frequenza marginale n.j indica quanti individui sono alti un dato numero di centimetri, a prescindere dal loro peso. Analogamente, nell’ultima colonna, detta colonna marginale, figurano le frequenze marginali rappresentanti i totali delle r righe, e precisamente la frequenza: ni. = c /n j=1 ij indica il numero di elementi che possiedono la modalità xi, del carattere X, indipendentemente da come essa sia in combinazione con le modalità del carattere Y. Nella medesima tabella relativa al peso (X) e all’altezza (Y), la frequenza marginale ni. indica quanti individui pesano un dato numero di chili, a prescindere dalla loro altezza. Ovviamente, il totale generale è: n = r c r c i=1 j=1 /n =/n =/ /n i=1 i. j=1 .j ij Le considerazioni esposte possono essere estese al caso di variabili continue le cui modalità sono raggruppate in classi, e al caso di variabili qualitative per le quali, invece delle modalità, figurano gli attributi. Esempio 3 Nella seguente tabella è riportata la distribuzione doppia di 13.851 lavoratori per settori di attività economica e per posizione professionale: 21 Distribuzioni di frequenza Posizione professionale Settori Dipendenti Totale Autonomi Agricoltura 485 776 1.261 Industria 4.147 956 5.103 Altre attività 4.941 2.546 7.487 Totale 9.573 4.278 13.851 Tabella 5 Nella tabella, la frequenza marginale di riga corrispondente alla modalità Agricoltura del primo carattere Occupati per settore di attività è calcolata sommando 485 a 776; essa sta ad indicare che 1.261 persone sono occupate in Agricoltura, a prescindere dalla posizione professionale. La frequenza marginale di colonna corrispondente alla modalità Dipendenti del secondo carattere Occupati per posizione professionale è ottenuta sommando i seguenti valori: 485, 4.147, 4.941; essa sta ad indicare che 9.573 persone sono lavoratori dipendenti, a prescindere dal settore in cui sono occupati. La somma delle frequenze marginali di riga è pari alla somma delle frequenze marginali di colonna e corrisponde alla numerosità della popolazione oggetto di osservazione. Esempio 4 Nella seguente tabella è riportato il numero complessivo di lavoratori dipendenti impiegati nelle varie sedi di una grande azienda, distinti per settore d’impiego (X) e genere (Y). M F Amministrazione X/Y 22 31 Vendite 283 169 Logistica 19 11 Totale 324 211 Tabella 6 Calcolare: ✔ Le distribuzioni marginali ni., n.j ; ✔ Le frequenze relative congiunte fij ; ✔ Le distribuzioni di frequenza marginali relative fi. , f.j; Per ciascuna modalità xi del carattere X, la frequenza marginale ni. si ottiene sommando le frequenze congiunte che si trovano sulla riga corrispondente. Analogamente le frequenze marginali n.j per ciascuna modalità yi del carattere Y, si ottengono sommando le frequenze congiunte che si trovano sulla colonna corrispondente. 22 Capitolo 2 X/Y 2 ni. = /n n.j = /n j=1 ij 3 i=1 M ij F Totale Amministrazione 22 31 53 Vendite 283 169 452 Logistica 19 11 30 Totale 324 211 535 Tabella 7 Per ottenere le frequenze relative congiunte si dividono, invece, le frequenze assolute congiunte per la numerosità totale n = 535. fij = nij /n Esempio: numerosità dei maschi impiegati nel settore amministrativo = 22 numerosità totale n = 535 quindi: 22/535= 0,041. Ripetendo la medesima operazione per ciascuna frequenza assoluta congiunta, si ottiene la tabella seguente (Tabella 8). In essa sono riportate, quindi, le frequenze marginali relative fi. , f.j per i due sessi. X/Y M F Totale Amministrazione 0,041 0,058 0,099 Vendite 0,529 0,316 0,845 Logistica 0,035 0,020 0,055 Totale 0,605 0,394 1 Tabella 8 23 Distribuzioni di frequenza 3.Distribuzioni parziali: condizionate e marginali Da una tabella a doppia entrata si desumono distribuzioni che consentono di evidenziare caratteristiche diverse di una distribuzione doppia di frequenza; esse sono denominate distribuzioni parziali e sono: le distribuzioni condizionate e le distribuzioni marginali. A) Distribuzioni condizionate Una distribuzione condizionata è una distribuzione semplice ottenuta associando, in una tabella a doppia entrata (v. Tabella 4), la riga madre con una qualsiasi delle r righe successive, oppure associando la colonna madre con una qualsiasi delle c colonne successive. La distribuzione Y _ X = xi i è la distribuzione condizionata del carattere Y dato il valore xi del carattere X. La tabella derivata è la 9 (a) seguente. Analogamente, la distribuzione X _ Y = y j i è la distribuzione condizionata del carattere X dato il valore yj del carattere Y. La tabella statistica risultante è la 9 (b). Y Frequenze X y1 ni1 x1 . . y2 ni2 . . . . . n1j x2 n2j . . . . . yj nij xi nij . . . . xr nrj . . . . yc Totale Frequenze nic ni. Tabella 9 (a) . . . . Totale n.j Tabella 9 (b) Da una tabella a doppia entrata, quindi, si desumono: ✔ r distribuzioni condizionate del carattere Y alle corrispondenti modalità del carattere X; ✔ c distribuzioni condizionate del carattere X alle corrispondenti modalità del carattere Y. 24 Capitolo 2 B) Distribuzioni marginali Una distribuzione marginale è una distribuzione semplice ottenuta associando, in una tabella a doppia entrata (v. Tabella 4), la riga madre con la riga marginale, oppure la colonna madre con la colonna marginale. La prima distribuzione indica gli elementi della popolazione che possiedono le modalità y1, y2, …, yc del carattere Y indipendentemente da come esse siano associate alle modalità x1, x2, … xr del carattere X. La tabella statistica risultante è la 10 (a) a pagina seguente. La seconda distribuzione indica gli elementi della popolazione che possiedono le modalità x1, x2, …, xr del carattere X, indipendentemente da come esse siano associate alle modalità y1, y2, …, yc del carattere Y. La tabella statistica risultante è la 10 (b) a pagina seguente. Y Frequenze n.1 X x1 Frequenze y2 n.2 x2 n2. . . . . y1 . . . . . . . yj n.j xi ni. . . . . . . yc Totale . n1. . . n.c n Tabella 10 (a) . . xr Totale . . nr. n Tabella 10 (b) Da una tabella a doppia entrata si desumono: ✔ 1 distribuzione marginale per il carattere X; ✔ 1 distribuzione marginale per il carattere Y. Esempio Facendo riferimento alla distribuzione doppia riportata in tabella 5, determinare: a) gli occupati nei settori a prescindere dalla posizione professionale; b) gli occupati per posizione professionale a prescindere dal settore. Distribuzioni di frequenza 25 La distribuzione riportata nella tabella 5 è doppia e attinente ai due caratteri: Occupati per settori di attività economica e Occupati per posizione professionale. a) Il primo punto richiede la determinazione della distribuzione marginale del carattere Occupati per settori di attività economica. Essa si ottiene associando la colonna madre con la colonna marginale: Settori Occupati Agricoltura 1.261 Industria 5.103 Altre attività 7.487 Totale 13.851 Tabella 11 Pertanto, a prescindere dalla loro posizione professionale, gli occupati in agricoltura sono 1.261, gli occupati nell’industria sono 5.103, gli occupati in altre attività sono, invece, 7.487. b) Al secondo punto si chiede di determinare la distribuzione marginale del carattere Occupati per posizione professionale. Essa si ottiene associando la riga madre con la riga marginale: Posizione professionale Occupati Dipendenti 9.573 Autonomi 4.278 Totale 13.851 Tabella 12 Pertanto, a prescindere dal settore di attività economica, i lavoratori dipendenti sono 9.573, mentre i lavoratori autonomi sono 4.278. 4.Misure sintetiche di distribuzioni statistiche L’analisi statistica fornisce misure sintetiche per valutare aspetti complessi e globali della distribuzione di un fenomeno X mediante un solo numero reale costruito in modo da disperdere al minimo le informazioni sui dati originari. In rapporto alle caratteristiche che si misurano si parla di rapporti statistici, indici di posizione, indici di variabilità, indici di forma, di essi ci occuperemo, rispettivamente, nei capitoli quarto, quinto, sesto e settimo. 26 Capitolo 2 In rapporto alla natura, gli indici si distinguono in: ✔ indici assoluti che sono introdotti per valutare in modo sintetico un aspetto di una distribuzione e sono espressi nella stessa unità di misura del fenomeno o in sua funzione; ✔ indici relativi che non dipendono dall’unità di misura del fenomeno, e si ottengono rapportando due misure assolute oppure un indice assoluto al suo massimo. Infine, gli indici normalizzati sono indici relativi che assumono valori in un intervallo finito quasi sempre [0, 1] oppure [–1, +1]. Questionario 1. Quando una distribuzione di frequenza si dice semplice e quando si dice multipla? (par. 1) 2. Quali sono i principali metodi per l’individuazione del numero ottimale di classi di frequenza da costruire in tabella? (par. 1) 3. In una tabella a doppia entrata, cosa esprimono le frequenze marginali? (par. 2) 4. Da una tabella a doppia entrata costituita da 6 righe e 4 colonne quante distribuzioni condizionate si traggono? (par. 3) 5. Da una tabella a doppia entrata costituita da 6 righe e 4 colonne quante distribuzioni marginali si traggono? (par. 3) 6. In quale unità di misura sono espressi gli indici relativi di un dato fenomeno statistico? (par. 4)