Analisi Statistica Monovariata
Angelo Castiglione
2 luglio 2016
Indice
1 Introduzione
1.1 Denizioni Generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
2.1 Distribuzione statistica disaggregata . . . . . . . . . . . . . . . .
2.1.1 Media aritmetica e media ponderata . . . . . . . . . . .
2.1.2 Media armonica e media armonica ponderata . . . . . .
2.1.3 Media geometrica e media geometrica ponderata . . . . .
2.1.4 Media quadratica e media quadratica ponderata . . . . .
2.1.5 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.6 Quartili e Quantili . . . . . . . . . . . . . . . . . . . . .
2.2 Distribuzione Statistica di Frequenza . . . . . . . . . . . . . . .
2.2.1 Frequenze relative e frequenze cumulate . . . . . . . . .
2.2.2 Media aritmetica . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Media armonica . . . . . . . . . . . . . . . . . . . . . . .
2.2.4 Media geometrica . . . . . . . . . . . . . . . . . . . . . .
2.2.5 Mediana e quartili . . . . . . . . . . . . . . . . . . . . .
2.3 Distribuzione Statistica di Frequenza per Classi . . . . . . . . .
2.3.1 Media aritmetica . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Mediana e quartili . . . . . . . . . . . . . . . . . . . . .
2.4 Rappresentazione graca:istogramma . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Indici di Variabilità
3.1 Scostamento semplice medio e scostamento quadratico medio (Deviazione
Standard) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Distribuzione statistica disaggregata . . . . . . . . . . . . . . . .
3.1.2 Distribuzione statistica di frequenza . . . . . . . . . . . . . . . . .
3.1.3 Distribuzione statistica di frequenza per classi . . . . . . . . . . .
3.1.4 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Dierenza semplice media . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Campo di variazione e dierenza interquartile . . . . . . . . . . . . . . .
3.4 Indici percentuali di variabilità . . . . . . . . . . . . . . . . . . . . . . .
3.5 Variabilità per distribuzioni secondo caratteri trasferibili: concentrazione
3.5.1 Indice del Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.2 Interpretazione geometrica dell'indice del Gini . . . . . . . . . . .
3.6 Indici di variabilità per caratteri qualitativi . . . . . . . . . . . . . . . . .
2
5
5
10
10
11
12
13
13
14
15
16
17
22
22
22
22
24
27
28
32
34
34
34
37
40
41
41
45
45
46
48
51
57
Indice
4 Indici di Forma
4.1 Denizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Indici di simmetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Curtosi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
59
61
63
5 Numeri indici
5.1 Serie storica . . . . . . . . . . . . . . .
5.2 Numeri indici elementari a base ssa h
5.3 Numeri indici elementari a base mobile
5.4 Variazioni Relative . . . . . . . . . . .
5.4.1 Variazione relativa . . . . . . .
5.4.2 Variazione relativa media . . . .
5.5 Numeri indici complessi . . . . . . . .
67
67
67
69
71
71
71
72
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Analisi Statistica Monovariata
4
1 Introduzione
1.1 Denizioni Generali
La statistica è l' arte di apprendere dai dati. Essa si occupa della loro raccolta, della
loro descrizione e della loro analisi al ne di trarre informazione utile che li caratterizza
sinteticamente.
Quella parte della statistica che si occupa della raccolta e della descrizione sintetica
dei dati si chiama Statistica Descrittiva, mentre quella parte della statistica che si occupa
dell'analisi dei dati si chiama Inferenza Statistica.
Attraverso la statistica è possibile studiare un determinato processo o fenomeno che
può essere sico, economico, sociale, eccetera.
Esempio 1. Supponiamo di voler collaudare una bilancia di precisione.
Si procede pesando ripetutamente, un oggetto di valore noto (10 Kg). Per ciascuna
pesata si ottiene una misurazione diversa a causa di molteplici fattori:
• incertezza della bilancia;
• incertezza sulla lettura dello strumento;
• grandezze interferenti.
Supponiamo che il collaudo della bilancia si concluda dopo N misurazioni: si hanno
quindi a disposizione N misurazioni o dati come mostrato in Fig.1.1.1
Figura 1.1.1: collaudo di una bilancia
5
1 Introduzione
Denizione. (Collettivo statistico e unità statistiche) L'insieme degli N dati inerenti il
processo osservato costituiscono il collettivo statistico o popolazione dei dati. Si chiama
unità statistica il caso individuale componente del collettivo statistico.
Nell' esempio considerato il collettivo statistico è l'insieme delle misurazioni mentre
l'unità statistica è la singola misurazione eettuata, dell'oggetSupponiamo che il processo
osservato sia l'occupazione di lavoro in Italia.to di peso noto.
Denizione. (Carattere del collettivo statistico) Si chiama carattere ogni aspetto elementare dell' unità del collettivo statistico.
Nell' esempio considerato il carattere dell' unità statistica è il peso dell'oggetto considerato.
Denizione. (modalità osservata del carattere) Si chiama inne, modalità osservata del
carattere il modo con cui questo si presenta nel unità del collettivo statistico.
Nell' esempio considerato la modalità del carattere dell' unità statistica è il valore di
peso che ciascuna misurazione può fornire.
Per comprendere meglio il signicato di modalità del carattere è opportuno fare un
altro esempio.
Esempio 2. Supponiamo che il processo osservato sia l'occupazione di lavoro in Italia.
Il collettivo statistico è l'insieme di individui maggiorenni, l'unità statistica è il singolo
individuo, il carattere dell'unità statistica è lo stato occupazionale che può presentarsi
nella modalità occupato o nella modalità disoccupato.
Denizione. (Carattere quantitativo e qualitativo) Il carattere del unità statistica può
essere qualitativo o quantitativo.
Si dice qualitativo se descritto da un' espressione verbale; si dice quantitativo se
espresso da un numero reale.
Denizione. (Carattere qualitativo rettilineo e sconnesso) Le modalità del carattere
qualitativo possono essere ordinabili o non ordinabili; nel primo caso si parla di carattere
qualitativo rettilineo nel secondo caso si parla di carattere qualitativo sconnesso.
Denizione. (Carattere quantitativo discreto e continuo) Il carattere quantitativo si
dice anche variabile e può essere discreto, se presenta modalità espresse da quantità di
valore nito, oppure può essere continuo se presenta modalità espresse da quantità che
possono assumere valori appartenenti a intervalli di numeri reali.
6
1 Introduzione
Denizione. (Carattere quantitativo trasferibile e non trasferibile) Il carattere quantitativo può essere inoltre trasferibile o non trasferibile. Sostanzialmente un carattere
quantitativo di un collettivo statistico si dice trasferibile se in parte si può spostare da
una unità statistica ad un'altra unità statistica. Quando non è ragionevole supporre ciò,
il carattere quantitativo è non trasferibile.
Per esempio il reddito o il patrimonio è un carattere quantitativo trasferibile.
Denizione. (Carattere di stato e carattere di movimento) In generale il carattere di
una unità statistica può essere legato alla variabile tempo. Se la variabile tempo è
un fattore di disturbo per il carattere si parla di carattere di stato. Se il decorso del
tempo è un elemento indispensabile per la rilevazione del carattere si parla di carattere
di movimento.
Per esempio nel lungo periodo l' usura dei componenti meccanici di un motore a
scoppio è un carattere di Stato, mentre il consumarsi di una candela accesa è un carattere
di movimento.
Con l'osservazione del carattere di una singola unità statistica si eettua sostanzialmente una misurazione. Se il carattere è qualitativo la misurazione consiste nell'osservare
e registrare le modalità con cui si presentano i caratteri delle unità statistiche; se il carattere è quantitativo discreto la misurazione consiste nell'osservare e registrare un numero
nito, per ciascuna unità statistica. In tal caso è possibile stabilire un ordinamento
(graduatoria) tra le unità statistiche e anche eseguire operazioni di conteggio.
Se il carattere è quantitativo continuo la misurazione consiste nell'aver individuato
per l'unità statistica un intervallo di valori reali; in tal caso attraverso una operazione
di troncamento si fa corrispondere un numero nito all'intervallo (per esempio il valore
centrale dell'intervallo).
Il compito della statistica è quello di elaborare (processare) i dati costituenti il collettivo statistico al ne di determinare le cosidette statistiche che consentono di caratterizzare
pienamente il fenomeno o processo osservato. Tra le statistiche più comuni vi sono la media, la frequenza di accadimento, gli indici statistici. Le statistiche consentono all'utente
la giusta interpretazione del fenomeno osservato.
E' compito della statistica descrittiva illustrare e sintetizzare i dati raccolti; mentre è
compito dell' inferenza statistica costruire i modelli matematici che portano alla corretta
conclusione riguardante il processo esaminato.
I modelli matematici utilizzati nell'ambito della statistica sono quelli relativi alla teoria
della probabilità. I processi che danno origine alle statistiche sono:
1. l' indagine statistica;
2. l' esperimento;
3. lo studio o osservazione sul campo.
7
1 Introduzione
Sostanzialmente si tratta di tre diversi modi per la raccolta dei dati. Una volta raccolti i
dati questi vengono organizzati secondo la cosidetta matrice dei dati in modo che utenti
futuri possono accedere facilmente ai dati del collettivo statistico.
Si tratta di una disposizione per righe e colonne: in ogni riga vengono elencate secondo
un ordine stabilito le modalità dei caratteri rilevati di ogni singola unità statistica; in
ogni colonna sono riportate le caratteristiche delle unità statistiche.
Esempio 3. In Figura 1.1.2 viene mostrata una matrice di dat i che riporta i caratteri
età, peso, altezza e circonferenza del collo di un gruppo di 6 individui.
Figura 1.1.2: matrice di dati
Quando di un collettivo statistico si studia un solo carattere si parla di Analisi statistica Monovariata, quando dello stesso collettivo si studiano 2 caratteri si parla di Analisi
Statistica Bivariata e in generale se dello stesso collettivo si studiano più di due caratteri
si parla di Analisi Statistica Multivariata.
Come detto all'inizio, la statistica si suddivide fondamentalmente in Statistica Descrittiva e Inferenza Statistica. Dopo aver acquisito qualche nozione possiamo denirle
con più accuratezza.
I principi e i metodi della statistica descrittiva riguardano:
• la programmazione delle indagini censuarie;
• la rilevazione dei dati;
• la costruzione della distribuzione di frequenza o di quantità;
• la rappresentazione graca dei dati;
• calcolo delle costanti di sintesi.
Per inferenza statistica si intende l'insieme dei metodi che permettono di generalizzare
i risultati basati sull'osservazione parziale come nel caso dell' indagine campionaria; l'
inferenza statistica si avvale di due metodologie fondamentali:
• verica delle ipotesi;
• stima dei parametri.
Entrambe le metodologie sono basate sul calcolo della probabilità.
8
1 Introduzione
Alcuni calcoli statistici
Siano a e b due livelli o misure di uno stesso fenomeno espresso nella stessa unità di
misura ma riferiti a situazioni diverse. Tali quantità possono essere confrontate per
mezzo della dierenza assoluta
b−a
o per mezzo della dierenza relativa
b−a
a
o inne per mezzo della dierenza percentuale
b−a
· 100
a
Siamo pronti ad iniziare lo studio della statistica partendo dalla Statistica Descrittiva
Monovariata.
Quello che faremo è raccogliere i dati di un carattere di un collettivo statistico per poi
sintetizzarli attraverso opportuni indici: indici di tendenza centrale, indici di posizione,
indici di variabilità, indici di forma e numeri indice.
9
2 Indici di Tendenza Centrale:Indici
analitici e Indici di Posizione
La prima nozione che viene introdotta in statistica descrittiva è quella di distribuzione
statistica.
Una distribuzione statistica è una rappresentazione delle modalità di un carattere delle
unità di un collettivo statistico.
Si possono avere distribuzioni statistiche disaggregate, distribuzioni statistiche di frequenza e distribuzioni statistiche di frequenza per classi.
2.1 Distribuzione statistica disaggregata
Consideriamo un collettivo statistico formato da N unità e sia X il carattere osservato
per ciascuna di esse. Si chiama distribuzione statistica disaggregata secondo il carattere
X l'insieme delle modalità osservate per ciascuna unità:
{x1 , x2 , ......, xN }
Così x1 è la modalità osservata relativa all'unità statistica 1, x2 è la modalità osservata
relativa all'unità statistica 2 e così via.
Esempio 4. Supponiamo che il processo osservato sia l'esito dell' esame di Storia soste-
nuto nella Facoltà di Lettere a Catania da 10 studenti. In Figura 2.2.1 vengono riportati
i risultati dell'esame.
10
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Figura 2.1.1: esito esame di storia
Il collettivo statistico è l'insieme degli alunni, il carattere osservato è il voto di Storia
e inne la distribuzione statistica disaggregata è
{30, 28, 28, 25, 27, 26, 30, 29, 21, 24}
Nell' ambito delle distribuzioni statistiche disaggregate è sovente l'utilizzo di uno importante strumento che consente di sintetizzare i dati, detto media. Procediamo vedendo
quante medie si possono denire.
2.1.1 Media aritmetica e media ponderata
Sia
{x1 , x2 , ......, xN }
una distribuzione statistica disaggregata. Si chiama media aritmetica la somma delle
modalità osservate fratto il loro numero:
x1 + x2 + ...... + xN
µa. =
=
N
PN
i=1
xi
N
(2.1.1)
Se alle modalità osservate corrispondono rispettivamente le misure o pesi:
p1 , p2 , ......, pN
, si denisce media aritmetica ponderata la somma dei prodotti delle modalità osservate
per i rispettivi pesi fratto la somma dei pesi di tutte le modalità osservate:
µa.p.
PN
xi p i
x1 p1 + x2 p2 + ...... + xN pN
=
= Pi=1
N
p1 + p2 + ...... + pN
i=1 pi
11
(2.1.2)
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Esempio 5. Nella tabella mostrata in Figura 2.1.2 sono riportati i voti conseguiti da
uno studente di Ingegneria Informatica in alcune discipline assieme ai corrispondenti
CFU.
Figura 2.1.2: esito esami studente Ingegneria informatica
Valutiamo la media aritmetica e la media aritmetica ponderata.
2.1.2 Media armonica e media armonica ponderata
Sia
{x1 , x2 , ......, xN }
una distribuzione statistica disaggregata con modalità osservate NON nulle.
Si chiama media armonica il rapporto tra il numero N delle modalità e la somma dei
reciproci delle modalità osservate:
µarm. =
N
N
= PN
1/x1 + 1/x2 + ...... + 1/xN
i=1 1/xi
(2.1.3)
Se alle modalità osservate corrispondono rispettivamente le misure o pesi:
p1 , p2 , ......, pN
, si denisce media armonica ponderata il rapporto tra la somma dei pesi e la somma
dei rapporti tra i pesi e le corrispondenti modalità osservate:
µarm.p.
PN
pi
p1 + p2 + ...... + pN
=
= PN i=1
p1 /x1 + p2 /x2 + ...... + pN /xN
i=1 pi /xi
(2.1.4)
Esempio 6. Nella tabella mostrata in Figura 2.1.2 sono riportati i voti conseguiti da
uno studente di Ingegneria Informatica in alcune discipline assieme ai corrispondenti
CFU.
Valutiamo la media armonica e la media armonica ponderata.
12
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
2.1.3 Media geometrica e media geometrica ponderata
Sia
{x1 , x2 , ......, xN }
una distribuzione statistica disaggregata con modalità osservate NON nulle.
Si chiama media geometrica la radice N-esima del prodotto tra le modalità osservate:
µg. =
√
N
x1 · x2 · ......· xN
Se alle modalità osservate corrispondono rispettivamente le misure o pesi:
p1 , p2 , ......, pN
, si denisce media geometrica ponderata ,l'espressione:
µg. =
q
N
xp11 · xp22 · ......· xpNN
Esempio 7. Nella tabella mostrata in Figura 2.1.2 sono riportati i voti conseguiti da
uno studente di Ingegneria Informatica in alcune discipline assieme ai corrispondenti
CFU.
Valutiamo la media geometrica e la media geometrica ponderata.
2.1.4 Media quadratica e media quadratica ponderata
Sia
{x1 , x2 , ......, xN }
una distribuzione statistica disaggregata. Si chiama media quadratica la radice quadrata
della somma dei quadrati delle modalità osservate fratto il numero N delle modalità
osservate:
r
µq. =
x21
+
x22
+ ...... +
N
x2N
s
=
PN
i=1
x2i
N
(2.1.5)
Se alle modalità osservate corrispondono rispettivamente le misure o pesi:
p1 , p2 , ......, pN
, si denisce media quadratica ponderata, l'espressione
s
µq.p. =
x21 p1 + x2 p22 + ...... + x2N pN
=
p1 + p2 + ...... + pN
13
sP
N
2
i=1 xi pi
PN
i=1 pi
(2.1.6)
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Esempio 8. Nella tabella mostrata in Figura 2.1.2 sono riportati i voti conseguiti da
uno studente di Ingegneria Informatica in alcune discipline assieme ai corrispondenti
CFU.
Valutiamo la media quadratica e la media quadratica ponderata.
La media è un indice statistico che individua il valore baricentrico tra le modalità
osservate della distribuzione statistica disaggregata e per tale ragione viene detto indice
di tendenza centrale o indice analitico.
Altri importanti indici che consentono individuare il valore baricentrico della distribuzione statistica disaggregata sono gli indici di posizione.
Tra questi indici ci sono la mediana il quartile 1, il quartile 2 e il quartile 3. Per poter
determinare questi indici occorre ordinare le distribuzioni statistiche disaggregata per
modalità crescenti o decrescenti. Diamo quindi la seguente denizione.
Denizione. (Graduatoria) Sia
{x1 , x2 , ......, xN }
una distribuzione statistica disaggregata.
Indichiamo con
{y1 , y2 , ......, yN }
la distribuzione statistica disaggregata ordinata crescente detta graduatoria:
y1 < y2 < ...... < yN
Esempio 9. Sia data la distribuzione statistica disaggregata relativa all' Esempio 4:
X = {30, 28, 28, 25, 27, 26, 30, 29, 21, 24}
Si ha facilmente che da essa si ricava la graduatoria:
Y = {21, 24, 25, 26, 27, 28, 28, 29, 30, 30}
2.1.5 Mediana
sia
Y = {y1 , y2 , ......, yN }
una graduatoria.
Se N è dispari allora la mediana M è la modalità osservata di posizione (N+1)/ 2
M = y N +1
2
14
(2.1.7)
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Se N è pari allora la mediana M è la media aritmetica tra la modalità di posizione
N/2 e la modalità di posizione N/2+1
M=
y N + y N +1
2
2
2
(2.1.8)
Esempio 10. Valutare la mediana per la distribuzione statistica disaggregata dell'
Esempio 4.
2.1.6 Quartili e Quantili
I quartili sono tre quantità, indicate rispettivamente con Q1 Q2 e Q3 che suddividono
graduatoria in quattro parti aventi la stessa numerosità; per individuare i quartili occorre
ispezionare il numero:
H=
L
N
4
con L = 1, 2, 3
(2.1.9)
Nella formula, L è l'ndice del quartile.
Se H è intero allora il quartile l vale:
QL =
yH + yH+1
2
(2.1.10)
Se H non è intero, allora il quartile vale:N
QL = y[H]+1
(2.1.11)
essendo [H] la parte intera di H.
Sì osservi che il quartile 2 coincide con la mediana M.
I quantili sono un caso particolare dei quantili e come abbiamo detto consentono di
suddividere la graduatoria in quattro parti aventi la stessa numerosità .
Altri quantili sono ad esempio i decili. I decili suddividono la graduatoria in 10 parti
aventi la stessa numerosità.
In questo caso il numero H si stabilisce mediante la formula:
H=
L
N
10
con L = 1, 2, 3, 4, 5, 6, 7, 8, 9
(2.1.12)
I decili sono quindi 9 e si indicano con i simboli
D1 , D2 , D3 , ......., D9
Sia le medie che la mediana sono indici che cercano il valore baricentrico della distribuzione statistica disaggregata. Va detto però che in presenza di anomalie nei dati (
modalità troppo basse o troppo alte ), la mediana risulta essere più precisa della media.
Esempio 11. Valutare la mediana per la distribuzione statistica disaggregata dell'
Esempio 4.
15
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
2.2 Distribuzione Statistica di Frequenza
Consideriamo un collettivo statistico formato da N unità di cui vogliamo ispezionare
il carattere X. Dopo una investigazione statistica si trova la distribuzione statistica
disaggregata del carattere X
{x1 , x2 , ......, xN }
dove x1 , x2 , ... ...,xN sono rispettivamente le modalità osservate per le unità statistiche
1, 2, ... ..., N.
Nella tabella mostrata in Figura 2.2.1 ( matrice dei dati ) sono riportati per 10
individui ( unità statistiche ) i corrispondenti voti di laurea.
Figura 2.2.1: distribuzione disaggregata: voti di laurea
Si può osservare come sia possibile avere delle ripetizioni tra le modalità osservate. Possiamo fare a questo punto delle precisazioni.
Chiamiamo modalità le modalità osservate senza ripetizione. Quando il numero di
modalità osservate N è molto elevato è conveniente raggruppare i dati per modalità
anziché per modalità osservate.
Con riferimento alla tabella mostrata in Figura 2.2.1 si ha che le modalità sono:
x1 = 100, x2 = 98, x3 = 107, x4 = 110, x5 = 99, x6 = 82
Pertanto abbiamo che le modalita osservate sono
N = 10
mentre le modalità sono:
K=6
In generale indichiamo
16
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
x1 , x2 , ......, xK
le modalità di un collettivo statistico. Sì osservi che il numero K delle modalità è
sempre minore uguale al numero N delle modalità osservate:
K≤N
Il raggruppamento dei dati per modalità avviene attraverso un procedimento di conteggio detto sfoglio dei dati.
In sostanza lo sfoglio dei dati consiste nel realizzare una tabella formata da due colonne: nella colonna di sinistra vengono riportate le K-modalità e nella colonna di destra
vengono riportati i numeri di volte con cui si presentano le modalità.
2.2.1 Frequenze relative e frequenze cumulate
Il numero di volte con cui si presenta una modalità di un carattere in un collettivo si
chiama frequenza della modalità o con più enfasi frequenza assoluta.
Quindi alla generica modalità xi (con i = 1, 2, ..., K ) corrisponde la frequenza assoluta
nI .
L'insieme delle coppie (modalità, frequenza assoluta )costituiscono la distribuzione
statistica di frequenza.
Relativamente alla tabella mostrata in gura 2.2.1 si ottiene la distribuzione statistica
di frequenza mostrata in Figura 2.2.2.
Figura 2.2.2: distribuzione statistica di frequenza:voti di laurea
sì osservi che è
n1 + n2 + n3 + n4 + n5 + n6 =
= 3 + 1 + 3 + 1 + 1 + 1 = 10 = N
Cioè la somma delle frequenze delle K-modalità da il numero N delle unità statistiche,
quindi in generale possiamo scrivere:
17
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
n1 + n2 + ....... + nK = N
Eseguendo il rapporto tra la generica frequenza assoluta n1 e il numero N delle unità
statistiche si ricava la frequenza relativa relativa fi della mobilità xi
f1 =
n1
N
f2 =
n2
N
.
.
fK =
nK
N
Si denisce frequenza relativa percentual e la frequenza relativa moltiplicata per 100:
f1% =
n1
· 100
N
f2% =
n2
· 100
N
.
.
fK% =
nK
· 100
N
Quindi relativamente alla tabella mostrata in gura 2.2.2 le frequenze relative sono:
f1 =
n1
3
=
= 0, 3
N
10
f2 =
1
n2
=
= 0, 1
N
10
f3 =
n3
3
=
= 0, 3
N
10
f4 =
n4
1
=
= 0, 1
N
10
f5 =
n5
1
=
= 0, 1
N
10
18
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
f6 =
1
n6
=
= 0, 1
N
10
mentre le frequenze relative percentuali sono:
f1% =
n1
· 100 = 30%
N
f2% =
n2
· 100 = 10%
N
f3% =
n3
· 100 = 30%
N
f4% =
n4
· 100 = 10%
N
f5% =
n5
· 100 = 10%
N
f6% =
n6
· 100 = 10%
N
Si osservi che:
f1 + f2 + f3 + f4 + f5 + f6 = 0, 3 + 0, 1 + 0, 3 + 0, 1 + 0, 1 + 0, 1 = 1
Quindi in generale si ha che la somma delle frequenze relativa risulta pari a 1:
f1 + f2 + ....... + fK = 1
Si osservi pure che:
f1% + f2% + f3% + f4% + f5% + f6% = 30% + 10% + 30% + 10% + 10% + 10% = 100%
Quindi in generale si ha che la somma delle frequenze relativa percentuali risulta pari al
100%:
f1% + f2% + ....... + fK% = 100%
19
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Consideriamo nuovamente le frequenze assoluto dell 'esempio precedente:
n1 = 3
n2 = 1
n3 = 3
n4 = 1
n5 = 1
n6 = 1
le quantità:
N1 = n1 = 3
N2 = n1 + n2 = 3 + 1 = 4
N3 = n1 + n2 + n3 = 3 + 1 + 3 = 7
N4 = n1 + n2 + n3 + n4 = 3 + 1 + 3 + 1 = 8
N5 = n1 + n2 + n3 + n4 + n5 = 3 + 1 + 3 + 1 + 1 = 9
N6 = n1 + n2 + n3 + n4 + n5 + n6 = 3 + 1 + 3 + 1 + 1 + 1 = 10
si chiamano frequenze cumulate.
Sì osservi che le frequenze cumulate sono esattamente K cioè in numero pari alle
modalità del collettivo statistico quindi in generale le frequenze cumulate sono:
N1 , N2 , ......, NK
Dividendo le frequenze cumulate per il numero N delle unità statistiche si ottengono
le frequenza cumulata relative:
F1 =
3
N1
=
= 0, 3
N
10
20
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
F2 =
N2
4
=
= 0, 4
N
10
F3 =
N3
7
=
= 0, 7
N
10
F4 =
N4
8
=
= 0, 8
N
10
F5 =
N5
9
=
= 0, 9
N
10
F6 =
N6
10
=
=1
N
10
Le frequenze cumulate forniscono contenuto informativo solo per distribuzioni statistiche di frequenza ordinate, ossia per le graduatorie.
Per capire ciò consideriamo la graduatoria Y mostrata in Figura 2.2.3 ottenuta dalla
distribuzione statistica di frequenza di Figura 1.2.4. Per la graduatoria sono riportate
le frequenze assolute le frequenze accumulate:
Figura 2.2.3: graduatoria: voti di laurea
Guardando la tabella si ha per esempio che la frequenza cumulata N4 = 6 indica che
vi sono 6 individui il cui voto di laurea e minore o uguale a 100.
I dati espressi mediante distribuzioni statistiche di frequenza si possono sintetizzare
mediante un indice di tendenza centrae: media aritmetica, armonica, geometrica, o
quadratica. Oppure un indice di posizione: mediana e quartili.
Vogliamo adesso determinare gli inici di tendenza centrale e gli indici di posizione per
la generica distribuzione statistica di frequenza riportata in Figura 2.2.4.
21
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Figura 2.2.4: distribuzione statistica di frequenza
2.2.2 Media aritmetica
x1 n1 + x2 n2 + ...... + xK nK
µa. =
=
n1 + n2 + ...... + nK
PK
xi n i
P
x· n
N
(2.2.1)
N
n1 + n2 + ...... + nK
N
= PK
=P
n1 /x1 + n2 /x2 + ...... + nK /xK
n/x
i=1 ni /xi
(2.2.2)
i=1
N
=
2.2.3 Media armonica
µarm. =
2.2.4 Media geometrica
q
µg. = N xn1 1 · xn2 2 · ......· xnNK
(2.2.3)
2.2.5 Mediana e quartili
Se la distribuzione statistica di frequenza è ordinata (cioè se è una graduatoria), si determinano la mediana e i quartili come nel caso della distribuzione statistica disaggregata.
Consideriamo la graduatoria mostrata in Figura 2.2.5
Figura 2.2.5: Voti di Laurea
22
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
La mediana è data dalla formula:
(
y N +y N +1
M = 2 22
M = y N +1
se N è pari
se N è dispari
2
(2.2.4)
mentre i quartili si determinano mediante la formula:
(
y H +y H +1
QL = 2 2 2
QL = y[H]+1
se H è intero
se H non è intero
(2.2.5)
essendo
H=
N
· L L = 1, 2, 3
4
Per la graduatoria mostrata in Figura 2.2.5 si ha:
M = y N +1 = y 41+1 = y 42 = y21 = 105
2
2
2
Per il quartile 1 (L=1) il numero H vale
H=
N
41
· L = · 1 = 10, 25
4
4
Poichè H non è intero il quartile 1 vale:
Q1 = y[H]+1 = y[10,25]+1 = y10+1 = y11 = 100
Per il quartile 2 (L=2) il numero H vale:
H=
N
41
· L = · 2 = 20, 5
4
4
Poichè H non è intero il quartile 2 vale:
Q2 = y[H]+1 = y[20,5]+1 = y20+1 = y21 = 105
Per il quartile 3 (L=3) il numero H vale:
H=
N
41
· L = · 3 = 30, 75
4
4
Poichè H non è intero il quartile 3 vale:
Q3 = y[H]+1 = y[30,75]+1 = y30+1 = y32 = 107
Si osservi che il quartile 1 delimita il 25% della distribuzione, il quartile 2 delimita il
50% della distribuzione ed inne il quartile 3 delimita il 75% della distribuzione.
23
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
2.3 Distribuzione Statistica di Frequenza per Classi
Consideriamo un collettivo statistico formato da n unità ed investighiamo sul carattere
X; le modalità osservate del carattere X sono riportate in Figura 2.3.1
Figura 2.3.1: distribuzione statistica disaggregata
Dai dati in tabella si ricava immediatamente la distribuzione statistica disaggregata
X = {x1 , x2 , ......, xN }
Se il numero N delle modalità osservate è enorme i dati si organizzano in gruppi di
modalità osservate contigue dette classi.
Cioè le classi sono degli intervalli contigui che contengono modalità osservate. Si ricordi dalla matematica che la contiguità tra due intervalli equivale a dire che un elemento
non può appartenere a due dierenti intervalli.
Quindi se una modalità osservata appartiene ad una classe non può appartenere alla
classe ad essa adiacente.
Il numero di modalità osservate appartenenti alla classe Ci è la frequenza assoluta ni
della Classe Ci .
Si possono tenere delle classi contigue attraverso intervalli disgiunti:
[a, b), [b, c)........[v, z)
[a, b], (b, c]........(v, z]
Se consideriamo per esempio la Classe
[a, b)
il numero a si chiama estremo inferiore mentre il numero b si chiama estremo superiore.
Questi possono o non possono coincidere con una modalità osservata.
Se i dati sono raggruppati in K-classi
C1 , C2 , ........, CK
24
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
aventi rispettivamente frequenze assolute
n1 , n2 , ........, nK
è chiaro che la somma di queste ultime corrisponde al numero N delle unità statistiche
del collettivo statistico:
n1 + n2 + ........ + nK = N
Consideriamo la classe
Ci = [a, b)
si chiama ampiezza della classe la dierenza tra l'estremo superiore e l'estremo inferiore:
Ai = b − a
si chiama densità di frequenza la quantità
hi =
ni
Ai
essendo ni la frequenza assoluta della Classe Ci Si chiama inne valore centrale della
classe Ci la media aritmetica tra i suoi estremi
x̄i =
a+b
2
Il valore centrale di una classe non va confuso con il valore centrale di una distribuzione
.
Data una distribuzione disaggregata ordinata (graduatoria)
{y1 , y2 , ......, yN }
si chiama valore centrale della distribuzione la media aritmetica tra i suoi estremi:
µc =
y1 + yN
2
Si chiama moda di una distribuzione statistica di frequenza (per classi) la modalità
(classe) a frequenza più alta.
Consideriamo la distribuzione statistica disaggregata mostrata in Figura 2.3.2
25
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Figura 2.3.2: distribuzione statistica disaggrgata:voti di Laurea
Possiamo pensare di sintetizzare i dati raggruppandoli secondo le classi
C1 = [95, 96]
C2 = (96, 98]
C3 = (98, 100]
C4 = (100, 102]
Dalla tabella è evidente che alla classe C1 appartengono due modalità osservate e
pertanto è n1 = 2. Analogamente alla classe C2 appartengono 4 modalità osservate e
pertanto è n2 = 4 e così via si ottiene la distribuzione statistica di frequenza per classi
mostrata in Figura 2.3.3
26
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Figura 2.3.3: distribuzione statistica di frequenza per classi: voti di Laurea
Il raggruppamento dei dati per classi ha da una parte sintetizzato i dati stessi ma
anche portato una perdita di informazione.
Per ciascuna classe non sappiamo chi sono le sue modalità osservate; per esempio
se consideriamo la classe C4 sappiamo che al suo interno vi sono tre modalità ma non
sappiamo più chi sono!!!
2.3.1 Media aritmetica
Vogliamo adesso vedere come si valuta la media aritmetica quando la distribuzione è di
frequenza per classi.
Supponiamo di avere una distribuzione statistica di dati suddivisa nelle classi
C1 , C2 , ......, CK
rispettivamente di frequenze assolute
n1 , nn , ......, nK
Per ciascuna classe si valuta il valore centrale:
x̄1 , x̄n , ......, x̄K
Si chiama media aritmetica l'espressione:
x̄1 n1 + x̄2 n2 + ...... + x̄K nK
=
µa. =
n1 + n2 + ...... + nK
PK
i=1
N
x̄i ni
P
=
x̄· n
N
(2.3.1)
I valori centrali sono serviti a troncare gli intervalli ossia le classi: si osservi che
la formula per la media è un'approssimazione della reale media; più piccole sono le
classi migliore risulta l'approssimazione. Possiamo provare quest'ultima aermazione
calcolando la media aritmetica per la distribuzione dei dati voti di Laurea dell'esempio
precedente. Se i dati sono organizzati in modo disaggregato la media aritmetica vale:
27
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
µa. =
101 + 100 + 101 + 98 + 97 + 96 + 98 + 98 + 96 + 101
986
=
= 98, 6
10
10
Viceversa se i dati sono organizzati in classi come mostrato in Figura 2.3.4
Figura 2.3.4: distribuzione statistica di frequenza per classi: voti di Laurea
è chiaro che la media aritmetica vale:
P
µa. =
n· x̄
981
=
= 98, 1
N
10
2.3.2 Mediana e quartili
Vogliamo inne vedere come si valuta la mediana M e quartili Q1 , Q2 e Q3 quando la
distribuzione statistica è di frequenza per classi.
Si chiama classe mediana o seconda classe quartilica la classe che contiene l'accumulo
di frequenza relativa pari a 0,5.
La mediana M è il valore x interno alla classe mediana
CM = (xIN F , xSU P )
in corrispondenza del quale si ha l'accumulo di frequenza relativa pari a 0,5. Essa si
determina mediante la formula:
M = xIN F +
xSU P − xIN F
(0, 5 − FC.P.M )
FC.M. − FC.P.M.
(2.3.2)
dove FC.M. è la frequenza relativa cumulata no alla classe mediana CM ed FC.P.M. è la
frequenza relativa cumulata no alla classe che precede la classe mediana.
28
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Si chiama prima classe quartilica la classe che contiene l'accumulo di frequenza relativa
pari a 0,25.
Il quartile 1 è il valore x interno alla prima classe quartilica
CQ1 = (xIN F , xSU P )
in corrispondenza del quale si ha l'accumulo di frequenza relativa pari a 0,25. Esso si
determina mediante la formula:
Q1 = xIN F +
xSU P − xIN F
(0, 25 − FC.P.Q1 )
FC.Q1 − FC.P.Q1
(2.3.3)
dove FC.Q1 è la frequenza relativa cumulata no alla prima classe quartilica CQ1 ed FC.P.Q1
è la frequenza relativa cumulata no alla classe che precede la prima classe quartilica.
Si chiama terza classe quartilica la classe che contiene l'accumulo di frequenza relativa
pari a 0,75.
Il quartile 3 è il valore x interno alla terza classe quartilica
CQ3 = (xIN F , xSU P )
in corrispondenza del quale si ha l'accumulo di frequenza relativa pari a 0,75. Esso si
determina mediante la formula:
Q3 = xIN F +
xSU P − xIN F
(0, 75 − FC.P Q3 )
FC.Q3 − FC.P.Q3
(2.3.4)
dove FC.Q3 è la frequenza relativa cumulata no alla terza classe quartilica CQ3 ed FC.P.Q3
è la frequenza relativa cumulata no alla classe che precede la terza classe quartilica.
Esempio 12. Valutare la mediana, i quartili e la moda per la distribuzione statistica
di frequenza per classi mostrata in Figura 2.3.3.
Occorre innanzitutto costruire la tabella mostrata in Figura 2.3.5 dove sono riportate
le frequenze relative e le frequenze relative cumulate.
Figura 2.3.5: distribuzione statistica di frequenza per classi: voti di Laurea
29
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Dalla tabella risulta chiaro che l'accumulo di frequenza 0,5 è contenuto nella classe
(96, 98]
Quindi tale classe è la seconda classe quartilica o classe mediana:
CM = (96, 98]
Quindi abbiamo che è
xIN F = 96
xSU P = 98
La frequenza della classe mediana è F2 e quindi scriviamo
FC.M. = 0, 6
mentre la frequenza della classe che precede la classe mediana è F1 e quindi scriviamo:
FC.P.M. = 0, 2
A questo punto utilizzando la formula in (2.3.2) si ha:
M = xIN F +
xSU P − xIN F
(0, 5 − FC.P.M ) =
FC.M. − FC.P.M.
= 96 +
= 96 +
98 − 96
(0, 5 − 0, 2) =
0, 6 − 0, 2
2
(0, 3) = 96 + 1, 5 = 97, 5
0, 4
Dalla tabella risulta chiaro che l'accumulo di frequenza 0,25 è contenuto nella classe
(96, 98]
Quindi tale classe non solo è la seconda classe quartilica ma è anche la prima classe
quartilica:
CQ2 = (96, 98]
Quindi abbiamo che è
xIN F = 96
xSU P = 98
La frequenza della prima classe quartilica è F2 e quindi scriviamo
FC.Q1 = 0, 6
mentre la frequenza della classe che precede la prima classe quartilica è F1 e quindi
scriviamo:
30
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
FC.P.Q1 = 0, 2
A questo punto utilizzando la formula in (2.3.3) si ha:
Q1 = xIN F +
xSU P − xIN F
(0, 25 − FC.P.Q1 ) =
FC.Q1 − FC.P.Q1
= 96 +
= 96 +
98 − 96
(0, 25 − 0, 2) =
0, 6 − 0, 2
2
(0, 05) = 96 + 0, 25 = 96, 25
0, 4
Dalla tabella risulta chiaro che l'accumulo di frequenza 0,75 è contenuto nella classe
(100, 102]
Quindi tale è la terza classe quartilica:
CQ3 = (100, 102]
Quindi abbiamo che è
xIN F = 100
xSU P = 102
La frequenza della terza classe quartilica è F4 e quindi scriviamo
FC.Q3 = 1, 0
mentre la frequenza della classe che precede la prima classe quartilica è F3 e quindi
scriviamo:
FC.P.Q3 = 0, 7
A questo punto utilizzando la formula in (2.3.4) si ha:
Q3 = xIN F +
xSU P − xIN F
(0, 75 − FC.P.Q3 ) =
FC.Q3 − FC.P.Q3
= 100 +
= 100 +
102 − 100
(0, 75 − 0, 7) =
1, 0 − 0, 7
2
(0, 05) = 100 + 0, 333 = 100, 333
0, 3
Inne la moda è la classe:
(96, 98]
Esempio 13. Valutare la mediana, i quartili e la moda per la distribuzione statistica
di frequenza per classi mostrata in Figura 2.3.6
31
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Figura 2.3.6: distribuzione statistica di frequenza per classi: voti di Laurea
2.4 Rappresentazione graca:istogramma
Una distribuzione statistica di frequenza per classi può essere presentata all'utente
attraverso la rappresentazione graca chiamata istogramma.
Si tratta di un graco che presenta in ascissa le ampiezze Ai delle classi e in ordinate
le densità hi delle stesse classi. Se consideriamo la distribuzione statistica di frequenza
per classi mostrata in Figura 2.3.6 possiamo costruire la tabella mostrata in Figura 2.3.7
dove sono riportate per ciascuna classe, l'ampiezza e la densità.
Figura 2.4.1: distribuzione statistica di frequenza per classi: voti di Laurea
Note le ampiezze e le densità delle classi è chiaro che l'istogramma è il graco mostrato
in Figura 2.4.2.
32
2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione
Figura 2.4.2: distribuzione statistica di frequenza per classi:istogramma dei voti di
Laurea
Dall'istogramma si vede che la moda è anche la classe a densità più elevata nonchè la
classe che contiene la mediana e più in generale l'indice di tendenza centrale.
33
3 Indici di Variabilità
La variabilità e latitudine dei fenomeni naturali e sociali a manifestarsi in modi dierenti.
Si possono avere due distinte situazioni di variabilità:
• il fenomeno della variabilità si manifesta su entità distinte;
• il fenomeno della variabilità si presenta quando i dati statistici sono il risultato
dell'osservazione ripetuta di una stessa grandezza.
Esistono dei particolari parametri che consentono di misurare la variabilità detti indici di
variabilità. Fino ad ora abbiamo visto come attraverso indici analitici ( media aritmetica,
media aritmetica ponderata,...) e indici di posizione ( mediana, moda, quartili...) è stato
possibile sintetizzare i dati di una distribuzione statistica ( disaggregata, di frequenza,
di frequenza per classi) attraverso un unico valore.
In realtà gli indici analitici e gli indici di posizione non consentono di sintetizzare tutto
il contenuto informativo di una distribuzione statistica in quanto non tengono conto della
variabilità. Gli indici di variabilità sono dei parametri che danno una misura di come i
dati statistici sono distribuiti attorno ad indici di posizione o indici analitici.
Data una distribuzione statistica disaggregata:
X = {x1 , x2 , ......, xN }
misurare la variabilità vuol dire stabilire il grado di diversità tra i termini della
distribuzione.
Per un indice di variabilità valgono le proprietà :
1. L'indice di variabilità è nullo se è solo se tutti i termini della distribuzione sono
uguali.
2. L'indice di variabilità assume valori tanto più grandi quanto maggiore è la diversità
tra i termini della distribuzione.
Cominciamo a descrivere qualche indice di variabilità.
3.1 Scostamento semplice medio e scostamento
quadratico medio (Deviazione Standard)
3.1.1 Distribuzione statistica disaggregata
Consideriamo una distribuzione statistica disaggregata :
34
3 Indici di Variabilità
X = {x1 , x2 , ......, xN }
e calcoliamo la sua media aritmetica:
PN
P
x
x1 + x2 + ...... + xN
i=1 xi
=
=
(3.1.1)
µa =
N
N
N
Si chiama scostamento della modalità osservata x1 rispetto alla media aritmetica µa la
quantità:
|x1 − µa |
Si chiama scostamento della modalità osservata x2 rispetto alla media aritmetica µa la
quantità:
|x2 − µa |
e così via si chiama scostamento della modalità osservata xN rispetto alla media aritmetica µa la quantità:
|xN − µa |
Ovviamente per N modalità osservate del carattere X si hanno N scostamenti o scarti
rispetto alla media aritmetica:
|x1 − µa | , |x2 − µa | , ......, |xN − µa |
Si chiama scostamento semplice medio per una distribuzione statistica disaggregata
X, la media aritmetica tra gli scostamenti delle modalità osservate rispetto alla media
aritmetica:
|x1 − µa | + |x2 − µa | + ...... + |xN − µa |
=
Sµ =
N
PN
i=1 |xi − µa |
=
N
P
|x − µa |
(3.1.2)
N
Si chiama deviazione standard o scostamento quadratico medio la media quadratica degli
scarti:
s
σ=
2
2
2
|x1 − µa | + |x2 − µa | + ...... + |xN − µa |
=
N
s
PN
i=1
2
|xi − µa |
=
N
s
P
|x − µa |2
N
(3.1.3)
Esempio 14. Cinque studenti hanno conseguito la laurea in ingegneria elettronica con
i voti 98, 99, 105, 102 e 110. Determinare lo scostamento semplice medio e la deviazione
standard.
35
3 Indici di Variabilità
Si organizzano i dati come mostrato nella tabella di Figura 3.1.1. In questa tabella
sono riportati gli scarti e il quadrato degli scarti rispetto alla media aritmetica:
P
µa =
514
x
=
= 102, 8
N
5
Figura 3.1.1: distribuzione statistica disaggregata: voti di Laurea
Lo scostamento semplice medio risulta:
P
Sµ =
18, 8
|x − µa |
=
= 3, 76
N
5
mentre la deviazione standard risulta:
s
P
σ=
|x − µa |2
=
N
r
p
94, 8
= 18, 96 = 4, 35
5
Si osservi che se le modalità osservate sono valori assunti da una grandezza sica si
ha che lo scostamento semplice medio e la deviazione standard assumono la stessa unità
di misura della grandezza sica considerata.
Esempio 15. Consideriamo tre distinte distribuzioni statistiche disaggregate aventi
medesima media aritmetica:
X1 = {2, 3, 5, 6, 9} =⇒ µ1 =
2+3+5+6+9
=5
5
X2 = {0, 4, 5, 7, 9} =⇒ µ2 =
0+4+5+7+9
=5
5
X3 = {0, 0, 0, 1, 24} =⇒ µ3 =
0 + 0 + 0 + 1 + 24
=5
5
µ1 = µ2 = µ3 = µ = 5
36
3 Indici di Variabilità
Queste tre distribuzioni non hanno stessa deviazione standard. Vista la seplicità delle
distribuzioni assegnate si vede che la distribuzione X3 presenta modalità che si scostano
molto dalla media aritmetica; quindi c'è più variabilità nella distribuzione X3 anzichè
nelle distribuzioni X2 ed X1 . Questo vuol dire che la distribuzione X3 ha una maggiore
deviazione standard rispetto alle distribuzioni X2 ed X1 .
Confrontando le distribuzioni X2 ed X1 non si può dire a occhio quale di queste
presenta più variabilità e pertanto è necessario eseguire il calcolo:
s
|2 − 5|2 + |3 − 5|2 + |5 − 5|2 + |6 − 5|2 + |9 − 5|2
=
5
r
9 + 4 + 0 + 1 + 16 √
=
= 6 ' 2, 45
5
s
|0 − 5|2 + |4 − 5|2 + |5 − 5|2 + |7 − 5|2 + |9 − 5|2
=
5
r
25 + 1 + 0 + 4 + 16 p
=
= 46/5 ' 3, 03
5
σ1 =
σ2 =
s
σ3 =
|0 − 5|2 + |0 − 5|2 + |0 − 5|2 + |1 − 5|2 + |24 − 5|2
=
5
r
25 + 25 + 25 + 16 + 361 p
=
= 452/5 ' 9, 51
5
Visto che è
σ1 < σ2 < σ3
si ha più variabilità in X3 e a seguire si hanno rispettivamente le variabilità in X2 e X1 .
3.1.2 Distribuzione statistica di frequenza
Data la distribuzione statistica di frequenza mostrata in Figura 3.1.2
37
3 Indici di Variabilità
Figura 3.1.2: distribuzione statistica di frequenza
si ha che lo scostamento semplice medio vale:
P
|xi − µ| ni
N
P
|xi − µ|2 ni
N
Sµ =
mentre la deviazione standard vale:
s
σ=
essendo
P
µ=
xi · n i
N
la media aritmetica.
Esempio 16. Data la distribuzione statistica di frequenza mostrata in Figura 3.1.3
38
3 Indici di Variabilità
Figura 3.1.3: distribuzione statistica di frequenza:voti di laurea
Vogliamo determinare lo scostamento semplice medio e la deviazione standard.
Basta organizzare i dati come mostrato in Figura 3.1.4
Figura 3.1.4: distribuzione statistica di frequenza
La tabella è stata costruita tenendo conto che la media aritmetica vale:
P
µ=
1010
xi · n i
=
= 101
N
10
Detto ciò lo scostamento semplice medio vale:
P
Sµ =
|xi − µ| ni
54
=
= 5, 4
N
10
mentre la deviazione standard vale:
s
σ=
P
|xi − µ|2 ni
=
N
r
39
566 p
= 56, 6 = 7, 52
10
3 Indici di Variabilità
3.1.3 Distribuzione statistica di frequenza per classi
Data la distribuzione statistica di frequenza per classi mostrata in Figura 3.1.5
Figura 3.1.5: distribuzione statistica di frequenza
si ha che lo scostamento semplice medio vale:
P
|x̄i − µ| ni
N
P
|x̄i − µ|2 ni
N
Sµ =
mentre la deviazione standard vale:
s
σ=
essendo
P
µ=
x̄i · ni
N
la media aritmetica.
40
3 Indici di Variabilità
3.1.4 Varianza
Un parametro molto usato in statistica e la varianza denita come il quadrato della
deviazione standard σ :
σ 2 ←− varianza
Questo parametro non si può ritenere un indice di variabilità perché dimensionalmente
non è come le modalità osservate del carattere X.
3.2 Dierenza semplice media
Lo scostamento semplice medio Sµ e la deviazione standard σ sono due indici di variabilità costruiti prendendo come riferimento la media aritmetica.
Si possono costruire altri indici di variabilità utilizzando un riferimento diverso dalla
media aritmetica µ.
Consideriamo come al solito una distribuzione statistica disaggregata :
X = {x1 , x2 , ......, xN }
Si deniscono scarti delle modalità osservate rispetto alla modalità x1 le quantità:
|x1 − x1 | , |x2 − x1 | , |x3 − x1 | , ......, |xN − x1 |
Visto che |x1 − x1 | = 0 è ovvio che gli scatti appena deniti sono in numero pari a N −1.
Si deniscono scarti delle modalità osservate rispetto alla modalità x2 le quantità:
|x1 − x2 | , |x2 − x2 | , |x3 − x2 | , ......, |xN − x2 |
Visto che |x2 − x2 | = 0 è ovvio che anche gli scatti appena deniti sono in numero pari
a N −1 .
E così via deniscono scarti delle modalità osservate rispetto alla modalità xN le
quantità:
|x1 − xN | , |x2 − xN | , |x3 − xN | , ......, |xN − xN |
Visto che |xN − xN | = 0 è ovvio che gli scatti appena deniti sono in numero pari a
N − 1.
Quindi per una distribuzione statistica disaggregata aventi N modalità osservate
restano deniti N (N − 1) scarti delle modalità osservate.
I dati vengono riorganizzati come mostrato nella seguente gura:
41
3 Indici di Variabilità
Figura 3.2.1: distribuzione statistica disaggregata
Si denisce dierenza semplice media ∆, la media aritmetica degli scarti delle modalità
appena deniti:
P
∆=
|xi − x1 | +
P
|xi − x2 | +
N (N − 1)
P
|xi − xN |
P P
( |xi − xj |)
=
N (N − 1)
Per la dierenza semplice media ∆ valgono le stesse proprietà viste per gli altri indici
di variabilità:
• in assenza di variabilità l'indice vale zero ;
• maggiore è la variabilità, maggiore è l'i indice di variabilità.
Consideriamo adesso il caso della distribuzione statistica di frequenza.
I dati vengono riorganizzati come mostrato nella seguente gura:
42
3 Indici di Variabilità
Figura 3.2.2: distribuzione statistica di frequenza
In questo caso la dierenza semplice media vale:
P
∆=
|xi − x1 | ni +
P
|xi − x2 | ni +
N (N − 1)
P
|xi − xK | ni
P P
( |xi − xj | ni )
=
N (N − 1)
Inne nel caso della distribuzione statistica di frequenza per classi la dierenza semplice
media vale:
P
∆=
|x̄i − x̄1 | ni +
P
|x̄i − x̄2 | ni +
N (N − 1)
P
|x̄i − x̄K | ni
P P
( |x̄i − x̄j | ni )
=
N (N − 1)
Si osservi che quest'ultima formula è quella valida per le distribuzioni di frequenza
solo che utilizza i valori centrali delle classi al posto delle modalità.
43
3 Indici di Variabilità
Esercizio 17. Data la distribuzione statistica disaggregata mostrata in Figura 3.2.3
Figura 3.2.3: distribuzione statistica disaggregata :voti di laurea
Vogliamo determinare la dierenza semplice media.
Esercizio 18. Data la distribuzione statistica di frequenza mostrata in Figura 3.2.3
Figura 3.2.4: distribuzione statistica di frequenza:voti di laurea
Vogliamo determinare la dierenza semplice media.
Esercizio 19. Raggruppare i dati precedenti in classi e rivalutare la dierenza semplice
media.
44
3 Indici di Variabilità
3.3 Campo di variazione e dierenza interquartile
Consideriamo una distribuzione statistica disaggregata :
X = {x1 , x2 , ......, xN }
e sia la corrispondente graduatoria
Y = {y1 , y2 , ......, yN }
si chiama campo di variazione la dierenza tra le modalità osservate yN e y1 :
∆C = yN − y1
si chiama dierenza interquartile la dierenza tra il quartile Q3 e il quartile Q1 :
∆q = Q3 − Q1
∆C e ∆q sono due indici di variabilità di 0 larga massima0 e richiedono che la di-
stribuzione statistica disaggregata ( di frequenza o di frequenza per classi ) sia una
graduatoria.
In particolare ∆C indica l'ampiezza dell'intervallo che contiene tutti i termini della
graduatoria, mentre ∆q indica l'ampiezza dell'intervallo che contiene la metà dei termini
della graduatoria.
Sì osservi che la variabilità è tanto più grande quanto più grande è ∆q .
3.4 Indici percentuali di variabilità
Per determinare gli indici percentuali di variabilità occorre prima di tutto individuare
gli indici di variabilità relativi.
Dividendo lo scostamento semplice medio Sµ per la media aritmetica µ si ricava lo
scostamento semplice medio relativo:
Sµr =
Sµ
µ
Dividendo la deviazione standard σ per la media aritmetica µ si ricava la deviazione
standard relativa :
σr =
σ
µ
Dividendo la dierenza semplice media ∆ per la media aritmetica µ si ricava la
dierenza semplice media relativa:
∆r =
45
∆
µ
3 Indici di Variabilità
Dividendo in campo di variazione ∆C per la media aritmetica µ si ricava il campo di
variazione relativo
∆Cr =
∆C
µ
Dividendo inne la dierenza interquartile ∆q per la media aritmetica µ si ricava la
dierenza interquartile relativa
∆qr =
∆q
µ
Moltiplicando per 100 un qualunque indice di variabilità si ottiene il corrispondente
indice di variabilità percentuale :
Sµ% = Sµr · 100 ←− scostamento semplice medio percentuale
σ% = σr · 100 ←− deviazione standard percentuale
∆% = ∆r · 100 ←− dif f erenza semplice media percentuale
∆C% = ∆Cr · 100 ←− campo di variazione percentuale
∆q% = ∆qr · 100 ←− dif f erenza interquartile percentuae
Per le applicazioni ha rilevanza la deviazione standard percentuale chiamata pure
coeciente di variazione:
CV = σ% = σr · 100 ←− coef f iciente di variazione
Gli indici di variabilità relativi e percentuali hanno il pregio di non dipendere dall'unità
di misura del processo esaminato. Inoltre gli indici di variabilità relativi variano tra 0 e
1 mentre quelli di variabilità percentuale variano tra 0% e 100%.
3.5 Variabilità per distribuzioni secondo caratteri
trasferibili: concentrazione
Vogliamo determinare un indice di variabilità per il carattere trasferibile detto indice di
concentrazione.
Ricordiamo che un carattere si dice trasferibile se esso in parte si può spostare da una
unità statistica all'altra ( per esempio il reddito).
Consideriamo una graduatoria:
Y = {y1 , y2 , ......, yN }
46
3 Indici di Variabilità
Per essa la media aritmetica si scrive:
P
µ=
yi
N
La quantità:
AN = y1 + y2 + ...... + yN =
X
yi
si chiama totale del carattere. Esso si può scrivere in termini della media aritmetica
AN = µ · N
In generale, la concentrazione è l'attitudine di un carattere ad essere posseduto da un
numero ristretto di unità statistiche.
Consideriamo le seguenti graduatorie:
Y1 = {1, 1, 2, 2, 4, 4, 5, 5, 8, 8}
Y2 = {0, 0, 1, 4, 4, 5, 5, 5, 8, 8}
Y3 = {0, 0, 0, 0, 0, 0, 0, 0, 0, 40}
Tutte e tre le graduatorie presentano lo stesso totale del carattere:
AN 1 = 1 + 1 + 2 + 2 + 4 + 4 + 5 + 5 + 8 + 8 = 40
AN 2 = 0 + 0 + 1 + 4 + 4 + 5 + 5 + 5 + 8 + 8 = 40
AN 3 = 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 40 = 40
Cosa cambia allora tra le distribuzioni? Sicuramente la variabilità ma anche la concentrazione, ovvero il come il totale del carattere AN è distribuito.
La graduatoria Y3 presente il totale del carattere tutto concentrato nell'ultima unità
statistica e in questo caso si parla di massima concentrazione.
Se viceversa il totale del carattere risulta equidistribuito tra le unità statistiche della
graduatoria si ha concentrazione nulla.
Per determinare la graduatoria avento totale del carattere AN = 40 e concentrazione
nulla basta dividere per N=10 il totale del carattere per ottenere le equiparati possedute
dalle unità statistiche:
AN /10 = 40/10 = 4
Quindi
Y4 = {4, 4, 4, 4, 4, 4, 4, 4, 4, 4}
47
3 Indici di Variabilità
é la distribuzione a concentrazione nulla avente totale del carattere AN 4 = 40
Si osservi che avere una elevata concentrazione equivale a dire avere una elevata
variabilità; avere una bassa concentrazione equivale a dire avere una bassa variabilità.
La distribuzione Y4 ha concentrazione nulla e quindi variabilità nulla.
3.5.1 Indice del Gini
Vogliamo adesso determinare l'indice del Gini che fornisce una misura della concentrazione.
Consideriamo la graduatoria:
Y = {y1 , y2 , ......, yN }
il totale del carattere vale ovviamente:
AN = y1 + y2 + ...... + yN
Si chiama ammontare del carattere no all'unità statistica 1, la quantità:
A1 = y1
Si chiama ammontare del carattere no all'unità statistica 2, la quantità:
A1 = y1 + y2
Si chiama ammontare del carattere no all'unità statistica 3, la quantità:
A1 = y1 + y2 + y3
e così via si chiama ammontare del carattere no all'unità statistica N, la quantità:
AN = y1 + y2 + ...... + yN
Si deniscono frazioni del carattere, gli ammontari del carattere fratto il totale del
carattere:
Q1 =
A1
AN
Q2 =
A2
AN
...
...
QN =
AN
=1
AN
48
3 Indici di Variabilità
Supponiamo che il totale del carattere sia equidistribuito :
Y = {y1 , y2 , ......; yN } = {a, a, ......, a}
La graduatoria è equidistribuita e quindi risulta caratterizzata da una media pari al
valore a delle modalità:
µ=a
Quindi il totale del carattere vale:
AN = µ · N = a · N
mentre gli ammontari del carattere valgono:
A1 = a
A2 = a + a = 2 · a
A3 = a + a + a = 3 · a
..
..
AN = N · a
Quindi le frazioni del frazioni del carattere valgono:
Q1 =
A1
a
1
1
=
=
−→ P1 =
AN
N ·a
N
N
Q2 =
2·N
A2
2
2
=
= −→ P2 =
AN
N ·a
a
N
...
QN =
AN
N ·a
N
=
= 1 −→ PN =
=1
AN
N ·a
N
Quando le frazioni del carattere sono riferite ad una distribuzione equidistribuita
ssiindicano con i simboli P1 , P2 , ....., PN .
Si denisce indice del Gini la quantità:
(P1 − Q1 ) + (P2 − Q2 ) + ...... + (PN − QN )
=
G=
P1 + P2 + ...... + PN −1
49
P
(Pi − Qi )
PN −1
i=1 Pi
3 Indici di Variabilità
Osserviamo che se il totale del carattere è equidistribuito l'ndice del Gini risulta nullo:
G=
0
(P1 − P1 ) + (P2 − P2 ) + ...... + (PN − PN )
= PN −1 = 0
P1 + P2 + ...... + PN −1
i=1 Pi
Quindi G=0 equivale a dire concentrazione nulla.
Vediamo adesso che valore assume l'indice del Gini quando si ha concentrazione
massima.
Consideriamo una distribuzione a concentrazione massima:
Y = {y1 , y2 , ......; yN } = {0, 0, ......, AN }
le frazioni del caratte valgono:
Q1 =
Q2 =
y1
0
A1
=
=
=0
AN
AN
AN
A2
y1 + y2
0+0
=
=
=0
AN
AN
AN
...
QN −1 =
AN −1
0 + 0 + ..... + 0
=
=0
AN
AN
QN =
AN
=1
AN
Note queste ultime l'indice di Gini si scrive:
G=
(P1 − Q1 ) + (P2 − Q2 ) + ...... + (PN −1 − QN −1 ) + (PN − QN )
=
P1 + P2 + ...... + PN −1
=
(P1 − 0) + (P2 − 0) + ...... + (PN −1 − 0) + (1 − 1)
=
P1 + P2 + ...... + PN −1
=
P1 + P2 + ...... + PN −1
=1
P1 + P2 + ...... + PN −1
Quindi l'indice del Gini è un parametro che da una misura della concentrazione e
risulta compreso tra 0 e 1, con 0 e 1 inclusi:
0≤G≤1
Pertanto se l'indice del Gini è vicino allo zero si ha bassa concentrazione viceversa se
l'indice del Gini è vicino all'uno si ha alta concentrazione.
Non è dicile provare che l'indice del Gini si può scrivere pure come segue:
N
2 X
G=
(Pi − Qi )
N − 1 i=1
50
3 Indici di Variabilità
Esercizio 20. Valutare con entrambe le formule date, l'indice del Gini per le seguenti
graduatorie:
Y1 = {1, 1, 2, 2, 4, 4, 5, 5, 8, 8}
Y2 = {0, 0, 1, 4, 4, 5, 5, 5, 8, 8}
Y3 = {0, 0, 0, 0, 0, 0, 0, 0, 0, 40}
3.5.2 Interpretazione geometrica dell'indice del Gini
La formula:
N
2 X
(Pi − Qi )
G=
N − 1 i=1
si presta ad una interpretazione geometrica. Il graco che da essa ne viene fuori si
chiama curva di concentrazione o curva di Lorentz.
Si chiama curva di Lorentz la spezzata che si ottiene congiungendo con dei segmenti
di retta le coppie consecutive di punti di coordinate:
(0, 0) , (P1 , Q1 ) , (P2 , Q2 ) , ......, (PN , QN ) ≡ (1, 1)
Figura 3.5.1: curva di Lorentz
51
3 Indici di Variabilità
Vediamo la curva di Lorentz nei casi particolari di equidistribuzione e di massima
concentrazione.
Nel caso di equidistribuzione si ha:
P1 = Q1 ; P2 = Q2 ; ......; PN −1 = QN −1
e la curva di Lorenz si riduce ad un segmento di retta avente come estremi i punti di
coordinate:
(0, 0) , (1, 1)
Figura 3.5.2: curva di Lorentz
Nel caso di massima concentrazione si ha:
P1 =
1
2
N −1
N
; P2 = ; ......; PN −1 =
; PN =
=1
N
N
N
N
Q1 = 0; Q2 = 0; ......; QN −1 = 0; QN = 1
e la curva di Lorenz si riduce ad una spezzata formata dal segmento di retta di estremi:
(0, 0) ;
N −1
,0
N
e del segmento di retta gli estremi:
52
3 Indici di Variabilità
N −1
, 0 ; (1, 1)
N
Figura 3.5.3: curva di Lorentz
Riportiamo su uno stesso piano cartesiano la generica curva di Lorenz e quelle nel
caso di equidistribuzione come mostrato in Figura 3.5.4.
53
3 Indici di Variabilità
Figura 3.5.4: curva di Lorentz generica con curva di Lorentz nel caso di equidistribuzione
Viene indicata con S l'aria compresa tra le due curve.
Analogamente riportiamo su uno stesso piano cartesiano la curva di Lorenz nel caso di
equidistribuzione e quella nel caso di massima concentrazione come mostrato in Figura
3.5.5.
54
3 Indici di Variabilità
Figura 3.5.5: curva di Lorentz generica nel caso di massima concentrazione e curva di
Lorentz nel caso di equidistribuzione
L'area compresa tra le due curve viene indicata con SM AX e risulta essere chiaramente
l'area del triangolo mostrato in Figura 3.5.5:
SM AX =
N −1
b·h
=
2
2N
Si dimostra che l'indice del Gini si può pure scrivere come segue:
G=
S
SM AX
Poiché SM AX = costante, indice del Gini G cresce con S.
Dire che G cresce con S equivale a dire che la curva di Lorenz si allontana da quella
di equidistribuzione.
Se risulta:
N >> 1
allora l'indice del Gini si può approssimare come segue:
N
N
2 X
2 X
(Pi − Qi ) '
(Pi − Qi )
G=
N − 1 i=1
N i=1
Tale approssimazione si chiama indice di concentrazione R :
55
3 Indici di Variabilità
N
2 X
R=
(Pi − Qi )
N i=1
Inoltre se risulta
N >> 1
si ha che:
SM AX =
e
G=
N
1
N −1
'
=
2N
2N
2
S
SM AX
'
S
=2S
1/2
L'indice di concentrazione del Gini e l'indice di concentrazione R sono legati tra di
loro mediante le relazioni:
R=
N −1
G
N
G=
N
R
N −1
Vediamo adesso la concentrazione nel caso di distribuzione statistica di frequenza.
Consideriamo una distribuzione statistica di frequenza ordinata ( graduatoria):
Figura 3.5.6: distribuzione di frequenza
L'ammontare del carattere no alla modalità xi vale:
0
Ai = x1 n1 + x2 n2 + ...... + xi ni
mentre il totale del carattere vale:
0
AK = x1 n1 + x2 n2 + ...... + xK nK =
X
xi ni
Come nel caso delle distribuzioni statistiche disaggregate si costruiscono i rapporti:
56
3 Indici di Variabilità
Ni
N
0
Pi =
0
Qi =
Ai
0
AK
e quindi l'indice di concentrazione R :
N
2 X 0
0
Pi − Q i
R=
N i=1
Questa stessa formula si utilizza pure nel caso di distribuzione statistica di frequenza
per classi avendo cura di denire però l'ammontare del carattere X no alla modalità xi
come segue:
0
Ai = x̄1 n1 + x̄2 n2 + ...... + x̄i ni
e il totale del carattere X come segue:
0
AK = x̄1 n1 + x̄2 n2 + ...... + x̄K nK =
X
x̄i ni
essendo x̄i i valori centrali delle classi Ci rispettivamente.
Se per ogni classe si conosce il totale T allora gli Aii valgono:
0
Ai = T1 + T2 + ...... + Ti
con i = 1, 2, ..., K .
3.6 Indici di variabilità per caratteri qualitativi
Una distribuzione statistica di frequenza secondo un carattere qualitativo presenta la
minima eterogeneità ovvero la massima omogeneità quando tutte le unità del collettivo
statistico hanno la stessa modalità del carattere; per contro la distribuzione presenta la
massima eterogeneità quando le modalità hanno tutte la stessa frequenza:
57
3 Indici di Variabilità
Figura 3.6.1: eterogeneità
l'eterogeneità si misura attraverso l'indice di eterogeneità di Gini :
C1 = 1 −
X
fi2
o attraverso l'indice di entropia :
C2 = −
X
fi ln (fi )
essendo fi le frequenze relative della distribuzione di frequenza (odi frequenza per
classi).
58
4 Indici di Forma
4.1 Denizioni
Mentre le medie danno l'idea dell'ordine di grandezza del fenomeno studiato e gli indici di variabilità segnalano il grado di diversità tra le singole modalità osservate del
fenomeno, gli indici di forma completano il quadro delle tecniche di analisi riguardo le
distribuzioni statistiche di caratteri qualitativi. Questi indici si riferiscono nello specico
a distribuzioni statistiche di frequenza e riguardano due aspetti:
• il primo aspetto riguarda il maggiore o minore allontanamento della distribuzione
dalla forma simmetrica;
• il secondo aspetto riguarda il grado di deviazione della distribuzione rispetto alla
distribuzione normale (curtosi ).
Denizione. (Distribuzione statistica simmetrica)
Consideriamo una distribuzione statistica di frequenza
Figura 4.1.1: distribuzione statistica di frequenza
avente media µ;consideriamo inoltre le seguenti coppie di modalità:
(x1 , xK ) , (x2 , xK−1 ) , (x3 , xK−2 ) , ......., (xµ−1 , xµ+1 )
La distribuzione si dice simmetrica se per ciascuna coppia le modalità sono equidistanti
dalla media e hanno la stessa frequenza come mostrato in Figura 4.1.2.
59
4 Indici di Forma
Figura 4.1.2: simmetria distribuzione statistica di frequenza
Se la distribuzione di frequenza è per classi allora questa si dirà simmetrica se le
coppie di classi:
(C1 , CK ) , (C2 , CK−1 ) , (C3 , CK−2 ) , ......., (Cm−1 , Cm+1 )
sono equidistanti dalla classe mediana Cm e hanno la stessa densità di frequenza
comemostrato in Figura 4.1.3.
Figura 4.1.3: simmetria distribuzione statistica di frequenza per classi
Per una distribuzione simmetrica valgono le seguenti proprietà :
1. La media aritmetica coincide con la mediana;
2. la somma degli scarti dalla media aritmetica elevati ad una potenza dispari è uguale
a zero:
|x1 − µ|2p+1 + |x1 − µ|2p+1 + ...... + |x1 − µ|2p+1 = 0
60
per p = 0, 1, 2, ....
4 Indici di Forma
3. Il primo quartile il terzo quartile hanno la stessa distanza dalla mediana m:
|Q1 − m| = |Q3 − m|
Denizione. (asimmetria positiva e negativa)
Una distribuzione è asimmetrica positiva se l'ammontare di frequenza ( o densità di
frequenza ) è più elevata a sinistra della mediana (o della classe mediana):
Figura 4.1.4: asimmetria positiva
Denizione. Una distribuzione è asimmetrica negativa se l'ammontare di frequenza (
o densità di frequenza ) è più elevata a destra della mediana ( o della classe mediana ):
Figura 4.1.5: asimmetria negativa
4.2 Indici di simmetria
Una misura della simmetria di una distribuzione statistica di frequenza è data dal
seguente indice di simmetria:
K
1 1 X
α1 = 3
(xi − µ)3 ni
σ N i=1
se risulta:
61
4 Indici di Forma
α1 = 0
la distribuzione è simmetrica.
Se risulta
α1 > 0
la distribuzione è asimmetrica positiva.
Se risulta
α1 < 0
la distribuzione è asimmetra negativa.
Sì osservi che l'indice utilizza deviazione standard e media aritmetica. Esiste un altro
indice di simmetria che utilizza invece mediana e quartili:
α2 =
(Q3 − m) + (m − Q1 )
(Q3 − m) + (m − Q1 )
Se risulta:
α2 = 0
la distribuzione è simmetrica.
Se risulta:
α2 > 0
la distribuzione è asimmetrica positiva.
Se risulta
α2 < 0
la distribuzione è asimmetra negativa.
Confrontando gli dici possiamo dire:
• l'indice α1 non consente di dire se la simmetria è più o meno forte. Diveramente
l'indice α2 consente di dire se la simmetria è più o meno forte;
• l'indice α2 è molto sensibile ai valori molto piccoli e molto grandi mentre l'indice
α2 no;
• l'indice α1 non dipende dalla variabilità mentre l'indice α2 sì.
Per una distribuzione statistica disaggregata , l'indice α1 si scrive:
N
1 1 X
(xi − µ)3
α1 = 3
σ N i=1
62
4 Indici di Forma
4.3 Curtosi
Per curtosi si intende il grado di diversità tra una data distribuzione di frequenza e la
distribuzione normale.
La distribuzione normale è una distribuzione statistica di frequenza teorica caratterizzata da una funzione di densità di frequenza detta curva di Gauss la cui espressione
analitica è:
(x−µ)2
1
f (x) = √ e− 2 σ2
σ 2π
In questa espressione σ è la deviazione standard e µ è la media aritmetica. Nella
seguente gura viene mostrata la funzione densità di frequenza per la distribuzione
normale ovvero la così detta curva di Gauss:
Figura 4.3.1: curva di Gauss
Dal graco risulta evidente che la media aritmetica è quel valore per cui la densità
assume il valore massimo mentre la deviazione standard è un numero che determina
il grado di concentrazione dell'ammontare di frequenza attorno alla media aritmetica:
maggiore è la deviazione standard più la curva di Gauss risulta schiacciata sull'asse ~x:
63
4 Indici di Forma
Figura 4.3.2: curve di Gauss
Si dimostra che l'area sottesa dalla distribuzione normale risulta pari a 1:
Asottesa = 1
Nella seguente gura sono riportati la distribuzione normale con media aritmetica µ e
deviazione standard σ e una distribuzione statistica di frequenza per classi con medesima
media aritmetica µ e medesima deviazione standard σ .
Figura 4.3.3:
Si parla di ipernormalità se la distribuzione statistica di frequenza per classi eccede
nelle ordinate rispetto alla curva di Gauss; si parla di iponormalità in caso contrario:
64
4 Indici di Forma
Figura 4.3.4:
La curtosi si misura mediante l'indice y :
y=
K
1 1 X
(xi − µ)4 ni − 3
σ 4 N i=1
Se risulta:
y>0
si ha ipernormalità.
Se risulta:
y<0
65
4 Indici di Forma
si ha iponormalità.
Inne se risulta:
y=0
si ha che la distribuzione di frequenza per classi è molto simile alla curva di Gauss.
66
5 Numeri indici
Occupiamoci del problema della misura delle variazioni temporali di un fenomeno tramite
particolari rapporti statistici detti numeri indici.
I numeri indici si distinguono in numeri indici elementari e numeri indici complessi.
Tali indici statistici sono collegati alle medie e hanno attinenza con la variabilità.
5.1 Serie storica
Per introdurre i numeri indici elementari occorre fare riferimento ad una particolare
distribuzione statistica detta serie storica.
Una serie storica è una distribuzione statistica in cui le unità statistiche sono in tempi
successivi:
1, 2, 3, ........K
e le modalità del carattere sono le intensità:
a1 , a2 , a3 , ........aK
Una serie storica viene schematizzata come segue:
Figura 5.1.1: serie storica
5.2 Numeri indici elementari a base ssa h
Consideriamo una serie storica:
67
5 Numeri indici
Figura 5.2.1: serie storica
Si chiamano numeri indici elementari a base ssa h, tutti i rapporti che si ottengono
dividendo le intensità per l'intensità ah dove h è un tempo che può essere 1,2,3,...,K:
h
I1 =
a1
ah
h
I2 =
a2
ah
.
.
h
IK =
aK
ah
Moltiplicando per 100 si ricavano i corrispondenti indici percentuali.
Esempio 21. Data la serie storica mostrata in Figura 5.2.2:
Figura 5.2.2: serie storica
Determinare i numeri indici elementari a base ssa h=2003.
68
5 Numeri indici
2003
2003
I 2004 =
I 2003 =
43856
= 1 (100%)
43856
45097
= 1, 028 (102, 8%) ←− Questo indice indica che nel 2004
43856
il numero di divorzi è incrementato del
2, 8% rispetto al 2003
I 2005 =
47063
= 1, 073 (107, %)
43856
2003
I 2006 =
49534
= 1, 129 (112, 9%)
43856
2003
I 2007 =
50669
= 1, 155 (115, 5%)
43856
2003
Esiste un criterio che consente di cambiare la base dei numeri indici senza per forza
avere i dati originari come spiega la seguente proposizione.
Proposizione 22. Supponiamo di conosceere i numeri indici elementari:
h
I1,
h
I 2 , ....., h I K ,
allora i numeri indici elementari di base j si ottengono dividendo per l'indice h I j cioè
j
I1 =
I1
,
h Ij
h
j
I2 =
I2
, ....., j I K =
h Ij
h
IK
,
h Ij
h
5.3 Numeri indici elementari a base mobile
Sia data la serie storica:
Figura 5.3.1: serie storica
si chiamano numeri indici elementari a base mobile le quantità:
69
5 Numeri indici
i2 =
a2
a1
i3 =
a3
a2
.
.
iK =
aK
aK−1
Tali inidici mettono a confronto le singole intensità con l'intensità del tempo precedente.
Proposizione 23. (base ssa−→base mobile). Supponiamo di conoscere i numeri indici
elementari a base ssa h:
h
I1,
h
I 2 , ....., h I K ,
allora i numeri indici elementari a base mobile valgono:
i2 =
h
h
I2
,
I1
j
i3 =
h
h
I3
, ....., j i K =
I2
h
h
IK
I K−1
,
Proposizione 24. (base mobile −→base ssa ). Supponiamo di conoscere i numeri
indici elementari a base mobile:
i2 , i3 , ....., iK
ssati due tempi h e t, il numeri indici elementare a base ssa h al tempo t vale:
h
I t = ih+1 · ih+2 · ..... · it
h
It =
se h < t
oppure:
1
it+1 · it+2 · ..... · ih
70
se h > t
5 Numeri indici
5.4 Variazioni Relative
5.4.1 Variazione relativa
Consideriamo una serie storica:
Figura 5.4.1: serie storica
e siano dati due tempi h e t tali che
h<t
la dierenza relativa tra le intensità del fenomeno nei tempi h e t è data da:
h
vt =
at − ah
ah
e prende il nome di variazione relativ a oppure incremento relativo se risulta positivo o
decremento relativo se risulta negativo.
Si osservi che
h
vt =
at
ah
at
at − ah
=
−
=
−1 = h It −1
ah
ah ah
ah
ossia:
h
vt = h I t − 1
essendo
h
It =
un indice a base mobile.
5.4.2 Variazione relativa media
Consideriamo una serie storica:
71
at
ah
5 Numeri indici
Figura 5.4.2: serie storica
e siano dati due tempi h e t tali che
h<t
Siano:
ih+1 , ih+2 , ....., it
i numeri indici a base mobile e relativi ai tempi h + 1, h + 2,....,t, allora la variazione
relativa media dal tempo h al tempo t è data da:
h
v̄ t =
p
t−h
ih+1 · ih+2 · ..... · it − 1
tenendo conto che
it = h I t =
at
= ih+1 · ih+2 · ..... · it
ah
si ha pure che
r
h
v̄ t =
t−h
at
−1
ah
5.5 Numeri indici complessi
I numeri indici complessi sono degli indici statistici che danno una misura della variazione relativa media di un insieme di grandezze tra due tempi successivi.
Siano
p1b , p2b , ........, pKb
i prezzi di K-beni riferiti al tempo b e siano
p1t , p2t , ........, pKt
i prezzi degli stessi K-beni riferiti al tempo t. Consideriamo i rapporti:
72
5 Numeri indici
p1b p2b
pKb
,
, ........,
p1t p2t
pKt
che sono numeri indici elementari.
Indichiamo con
q1b , q2b , ........, qKb
le quantità di K-beni riferiti al tempo b e con
q1t , q2t , ........, qKt
le quantità degli stessi K-beni riferiti al tempo successivo t.
La variazione media dei prezzi dal tempo base b al tempo corrente ti per K-beni è
data da:
b
v̄ t = IL − 1
b
v̄ t = IP − 1
oppure da:
dove:
IL =
p1t q1b + p2t q2b + ........ + pKt qKb
p1b q1b + p2b q2b + ........ + pKb qKb
si chiama indice di Laspeyres e
IP =
p1t q1t + p2t q2t + ........ + pKt qKt
p1b q1t + p2b q2t + ........ + pKb qKt
si chiama indice di Phasce.
La variazione relativa media in condizioni ideali vale:
b
v̄ t = IF − 1
essendo
IF =
p
IL · IP
l'indice di Fisher.
73