8. Rappresentazioni grafiche L18

annuncio pubblicitario
Appunti di Statistica Sociale.
Università Kore di Enna.
LE RAPPRESENTAZIONI GRAFICHE DELLE DISTRIBUZIONI DI FREQUENZA
Obiettivo
Cogliere rapidamente, attraverso le rappresentazioni grafiche più opportune, le informazioni più
importanti sull’andamento e/o sulla struttura dei dati osservati. Il grafico deve rispettare la natura e
le proprietà della variabile, rispetto alla quale sono ordinate e distribuite le unità statiche. I dati da
rappresentare possono presentarsi sotto come una serie, quando la natura del fenomeno studiato è
qualitativa, o di una seriazione, quando la natura del fenomeno è quantitativa.
Serie
Distribuzione di frequenza di unità statistiche (us), secondo un carattere qualitativo, osservato su di
una popolazione (o campione). Le serie possono essere:
→ Territoriali: quando le frequenze delle modalità del fenomeno qualitativo sono
classificate per area geografica;
→ Storiche, o temporali: quando le frequenze delle modalità del fenomeno
qualitativo sono riferite ai periodi o agli istanti in cui il fenomeno si è
manifestato;
→ Qualitative in senso stretto: quando sono il risultato della classificazione delle us
di un collettivo, secondo le modalità di un fenomeno qualitativo (generando una
distribuzione di frequenza).
Le serie possono essere ulteriormente classificate in:
- Rettilinee: quando le modalità sono ordinabili ed esiste una prima e un’ultima
modalità. Es.: un campione di studenti ordinati secondo l’anno di corso;
- Cicliche: quando le modalità sono ordinabili, ma non esistono né un minimo,
né un massimo naturali. Es.: il numero di matrimoni celebrati nel 1985,
ordinati secondo il giorno della settimana;
- Sconnesse: quando le modalità non sono ordinabili. Es.: il numero di occupati
in Italia al 30.06.05, secondo il settore di attività economica.
Seriazione
È la distribuzione di frequenza di un collettivo di unità statistiche (u.s.), secondo un carattere
quantitativo, osservato su di una popolazione (o campione). Le seriazioni possono essere discrete o
continue.
Nei paragrafi successivi saranno illustrate le rappresentazioni grafiche più opportune, in relazione
alla natura della variabile in esame.
Docente: Fabio Aiello.
A.A. 2014/15
Appunti di Statistica Sociale.
Università Kore di Enna.
RAPPRESENTAZIONI GRAFICHE DI VARIABILI QUALITATIVE
La natura qualitativa delle modalità (stati) di variabili sconnesse e/o ordinabili rende impossibile il
ricorso ad un classico riferimento di assi cartesiani X0Y. La scelta tra le differenti tipologie di
rappresentazione grafica per serie sconnesse è funzione della natura del fenomeno da rappresentare
e del pubblico a cui la rappresentazione è destinata. La maggior parte delle rappresentazioni
grafiche è tale che le frequenze delle modalità della variabile qualitativa sono generalmente
rappresentate con aree di figure piane. Le rappresentazioni grafiche più comuni e diffuse sono:
i. i grafici a colonne. Si ricorre a due “semiassi”: uno orizzontale, senza unità di misura, né
orientamento (se le modalità sono di una variabile mutabile), l’altro verticale, con unità di
misura e orientamento. Sul primo asse si dispongono le modalità, o stati, della variabile
qualitativa, secondo un ordine prestabilito (variabile sconnessa), o secondo l’ordinamento
delle modalità (variabile ordinale). In corrispondenza di ogni modalità si disegna un
rettangolo di base unitaria convenzionale, la cui area rappresenta la frequenza di ciascuna
modalità. I rettangoli devono essere necessariamente staccati tra loro, a causa della natura
almeno sconnessa delle modalità rappresentate. Alla base dei rettangoli viene riportata
l’etichetta della modalità a cui si riferisce la frequenza rappresentata (figura 1). L’unica
scala di riferimento (con unità di misura e ordine di grandezza) impiegata è quella posta
sull’asse verticale, parallelo alle altezze dei rettangoli: essa consente di apprezzare il
livello delle frequenze rappresentate. Questo tipo di rappresentazione grafica è anche nota
come grafico a barre.
Figura 1. Diagramma a barre di un gruppo di studenti, secondo il tipo di maturità posseduta.
Distribuzione studenti per tipo di maturità
40
35
30
25
20
15
10
5
te
cn
ic
a
e
tri
al
us
in
d
n.
te
c
te
c
n.
C
te
c
om
n.
m
C
er
c.
om
m
om
C
n.
te
c
Pr
og
r
er
c.
.
m
.
so
ci
op
si
sc
co
ie
pe
d
nt
ifi
ag
ca
g.
ps
ic
op
ed
a
st
ra
ag
i
m
cl
as
si
ca
le
0
ii.
Grafici a nastri. Sono simili ai grafici a barre sopra esposti, ma ruotati di 90°. I rettangoli
hanno quindi altezze unitarie e le basi sono di lunghezza numericamente uguale alle
rispettive aree. A sinistra di ciascun rettangolo si pone l’etichetta della modalità cui
corrisponde la frequenza rappresentata (figura 2). Sotto tutti i nastri è riportata una scala
di riferimento orizzontale, sulla quale sono riportati i livelli delle frequenze rappresentate.
Docente: Fabio Aiello.
A.A. 2014/15
Appunti di Statistica Sociale.
Università Kore di Enna.
Distribuzione studenti per tipo di maturità
tecnica
tecn. industriale
tecn. Commerc. Progr
tecn. Commerc.
tecn. Comm.
sociopsicopedag.
scientifica
psicopedag.
magistrale
classica
0
5
10
15
20
25
30
35
40
Figura 2. Diagramma a nastri di un gruppo di studenti, secondo il tipo di maturità posseduta.
iii.
Aerogrammi a settori circolari, più comunemente noti come grafici “a torta”. Si ricorre
alla superficie di un cerchio, con raggio unitario (r = 1), per rappresentare la frequenza
totale (pari a N) delle modalità osservate. Proporzionalmente, la frequenza, nk, di
ciascuna delle k modalità viene rappresentata dall’area di un settore circolare. È noto che
l’area di un settore circolare è proporzionale al raggio del cerchio e all’angolo al centro,
delimitato dai raggi che definiscono il settore; pertanto, fissato r = 1, l’area di ciascun
settore è proporzionale soltanto all’angolo la centro.
L’ampiezza dell’angolo al centro, definita αk, del settore circolare corrispondente alla
frequenza assoluta, nk, o relativa, fk, della k-esima modalità, è determinata dalla
proporzione:
360° α k
=
,
N
nk
da cui si deriva:
360°
∀ k = 1, 2, …, K.
N
Per determinare le ampiezze degli angoli al centro, per ciascuna delle k modalità
osservate, è sufficiente quindi moltiplicare le frequenze di ciascuna modalità per la
360°
(figura 3).
costante pari a
N
α k = nk
Docente: Fabio Aiello.
A.A. 2014/15
Appunti di Statistica Sociale.
Università Kore di Enna.
Freq.
classica
magistrale
psicopedag.
scientifica
sociopsicopedag.
tecn. Comm.
tecn. Commerc.
tecn. Commerc. Progr
tecn. industriale
tecnica
Figura 3. Aerogrammi a settori circolari un gruppo di studenti, secondo il tipo di maturità posseduta.
RAPPRESENTAZIONI GRAFICHE DI VARIABILI QUANTITATIVE
Le rappresentazioni grafiche, qui di seguito illustrate, appartengono alla più ampia famiglia delle
tecniche per le analisi esplorative dei dati. Servono a rappresentare particolari caratteristiche e/o
andamenti di uno o più fenomeni di interesse, singolarmente presi, e/o ad indagare l’esistenza di
relazioni tra più fenomeni congiuntamente considerati. Quando si analizza un fenomeno alla volta,
l’obiettivo è rappresentarne la forma della distribuzione osservata su un certo collettivo, per
coglierne particolari caratteristiche, facilitandone la descrizione e la sintesi.
Data la natura quantitativa dei fenomeni da rappresentare, alcune di queste rappresentazioni
grafiche, come vedremo, impiegano un sistema di riferimento di assi cartesiani X0Y, detto
dimetrico, perché generalmente dotato di due diverse unità di misura, una per l’asse delle ascisse e
una per quello delle ordinate.
Tra le tecniche grafiche più in uso, che qui di seguito verranno brevemente illustrate, vi sono il boxplot, il grafico gambo-e-foglia, l’istogramma, il diagramma a bastoncini (o a punti).
La rappresentazione grafica di un fenomeno quantitativo è realizzata impiegando la combinazione
di coppie di informazioni, quali:
1. le modalità (o le classi) della variabile, xk (xk–a | xk), che vengono generalmente riportate
sulle ascisse;
2. le frequenze assolute: nk, riportate in ordinata;
3. le frequenze assolute cumulate: Nk, riportate in ordinata
4. le frequenze relative (o funzione di frequenza): fk = f(xk), riportate in ordinata;
n
5. la densità (o funzione di densità): d k = k , riportate in ordinata;
ak
6. le frequenze relative cumulate (o funzione di ripartizione): Fk = F(xk), riportate in ordinata
Le modalità, o le classi della variabile sono disposte sulle ascisse e sono associate ad una sola tra le
altre informazioni che si possono disporre sulle ordinate, così da avere coppie di informazioni.
Docente: Fabio Aiello.
A.A. 2014/15
Appunti di Statistica Sociale.
Università Kore di Enna.
IL GRAFICO SCATOLA-E-BAFFI (BOX-PLOT)
Il box-plot, anche noto come box and whiskers plot, o diagramma scatola-baffi, è una
rappresentazione grafica della distribuzione di una variabile misurata almeno su scala ordinale.
In realtà, essa è molto più frequentemente impiegata per la rappresentazione di distribuzioni di
variabili quantitative.
L’aspetto interessante del box-plot è che esso impiega misure molto semplici sia di tendenza
centrale, sia di dispersione e pertanto permette di acquisire simultaneamente informazioni su diversi
aspetti della distribuzione di un fenomeno, quali l’intensità, la variabilità e la forma.
La rappresentazione mediante box-plot può avvenire sia verticalmente che orizzontalmente e
prevede la costruzione di un rettangolo (box, o scatola) diviso in due parti, da cui escono due
segmenti (whiskers, o baffi). I due lati più corti del rettangolo sono tracciati in corrispondenza del
primo quartile, Q1 (in basso, o a sinistra), e del terzo quartile, Q3 (in alto, o a destra), della
distribuzione di frequenza dei dati; inoltre, il rettangolo è attraversato da un terzo segmento,
intermedio e parallelo ai due lati, tracciato in corrispondenza del secondo quartile, Q2, ovvero la
mediana. L’uso dei quartili garantisce che vengano rappresentati graficamente quattro intervalli
della distribuzione di frequenza, ugualmente popolati.
Per realizzare un box-plot sono necessari almeno cinque passi (figura 4):
1. disporre i valori da rappresentare su un asse verticale (o orizzontale);
2. disegnare una scatola sopra l’asse scelto, ad es. il verticale, in modo che il lato inferiore sia
allineato con il primo quartile, Q1, e quello superiore con il terzo quartile, Q3;
3. dividere la scatola in due parti, con un segmento orizzontale allineato con la mediana, Q2;
4. tracciare una prima linea verticale, chiamata baffo, dal lato inferiore della scatola, fino al
punto corrispondente al valore minimo (o altro diversamente scelto) osservato;
5. tracciare un’altra linea verticale, dal lato superiore della scatola fino al punto che risulta
allineato con il valore massimo (o altro diversamente scelto) osservato.
Figura 4. Box-plot dell’età di un campione.
Box Plot (eser 29 g ennaio 2005.sta 10v*66c)
40
38
36
34
32
30
28
26
24
Mediana = 23
25% -75%
= (22, 25)
Min-M ax
= (20, 39)
Estremi
22
20
18
età
Esistono scelte alternative per rappresentare il box-plot e tutte concordano sui tre quartili per
rappresentare il rettangolo, ma differiscono per la lunghezza dei segmenti. Generalmente, per
Docente: Fabio Aiello.
A.A. 2014/15
Appunti di Statistica Sociale.
Università Kore di Enna.
determinare la lunghezza dei baffi si impiegano il valore minimo e massimo osservati, ma si
possono anche operare scelte diverse, qualora il massimo e/o il minimo assumano dei valori troppo
"estremi". In questi casi, i baffi hanno lunghezza data dal “recinto”, e massimo e minimo sono
rappresentati da punti sul piano contraddistinti da asterischi (per indicare che sono degli outliers).
Comunemente, gli estremi del recinto sono determinati attraverso:
1. particolari quantili, solitamente della forma qα e q1-α, come ad esempio i decili, q0,1 e q0,9;
2. i valori [Q1–1.5⋅(Q3–3Q1)] e [Q3+1.5⋅(Q3–3Q1)];
3. i valori (5⋅Q1–3⋅Q3)/2 e (5⋅Q3–3⋅Q1)/2, in modo che entrambi i segmenti siano lunghi 1.5
volte la lunghezza del rettangolo.
L’esame grafico dei dati attraverso un box-plot fornisce informazioni utili per indagare la
dispersione, la concentrazione e l’eventuale asimmetria della distribuzione di dati.
LA RAPPRESENTAZIONE GAMBO-E-FOGLIA (STEAM-AND-LEAF)
È un’altra tecnica di rappresentazione grafica, utile quando si devono esplorare insiemi composti da
un numero contenuto di dati. La rappresentazione gambo-e-foglia è dedicata a misure almeno
discrete e fornisce informazioni sul range dei dati, evidenzia la concentrazione delle misure più
elevate e mette in luce l’eventuale presenza asimmetria. Un vantaggio di questa rappresentazione
grafica è che mantiene l’informazione contenuta nei dati individuali, che si perde ad esempio nel
momento in cui si raggruppano i dati, per costruire un istogramma. Inoltre, questo grafico può
essere realizzato direttamente durante il processo di rilevazione dei dati, senza che questi siano
organizzati in una tabella ordinata.
Per costruire un grafico gambo-e-foglia è necessario dividere i dati osservati in due parti:
1. il gambo, costituito da una o più cifre iniziali del valore numerico;
2. la foglia, costituita da una o più delle rimanenti cifre.
I valori così suddivisi vengono disposti insieme sullo stesso schema: i gambi formano una colonna
ordinata in senso crescente, con il gambo più piccolo all’inizio e il più grande alla fine. Nella
colonna sono inseriti tutti i gambi contenuti nel range dei valori, quindi compariranno anche i gambi
di quei valori numerici che non sono stati realmente osservati. Le righe del grafico, invece,
contengono le foglie, ordinate ed elencate a destra dei rispettivi gambi (figura 5). Quando le foglie
sono formate da più di una cifra, tutte le cifre dopo la prima possono essere eliminate. Ad esempio,
se i dati presentano cifre decimali, allora, queste saranno omesse dalla rappresentazione. Al termine
della procedura i gambi risulteranno separati dalle rispettive foglie da una linea verticale.
Figura 5. Grafico gambo-foglia dell’età di un campione.
Gambo
1
2
3
4
5
6
Foglia
8899
0111222222333333344444444455556666666666677777777777888888899999999
00000000001111111222223334444456667777788888999
000000111222233344455566777788888899
000112233336
1233
Docente: Fabio Aiello.
A.A. 2014/15
Appunti di Statistica Sociale.
Università Kore di Enna.
Nella figura sopra, i primi quattro valori osservati sono (18, 18, 19, 19), che condividono il gambo
(1), ma ciascuno è rappresentato dalla propria foglia. La rappresentazione mostra chiaramente
l’asimmetria positiva della distribuzione di dati, con una netta prevalenza dei valori più piccoli.
Il grafico gambo-e-foglia fornisce una tabella ordinata dei dati registrati.
L’ISTOGRAMMA
È la tecnica da impiegare per rappresentare graficamente la forma di una distribuzione di frequenza
in classi, di una variabile quantitativa continua.
In un sistema di assi cartesiani X0Y, si dispongono in ordine crescente le classi osservate della
variabile, ciascuna con ampiezza definita dall’intervallo (xk – xk–a), sull’asse delle ascisse. Sull’asse
delle ordinate, invece, si dispongono:
- le densità delle classi, dk, necessariamente quando le classi hanno ampiezze, ak, diverse;
- oppure, le frequenze assolute, nk, o quelle relative, fk, solo quando le classi hanno uguale
ampiezza, a;
In generale, l’ampiezza di ciascuna delle k classi è data dalla differenza tra estremo superiore ed
inferiore:
ak = xk − xk − a
e costituisce la base (ak) di un rettangolo che ha per altezza la densità di frequenza, dk, della classe
stessa:
n
dk = k .
ak
La densità di frequenza, dk, della classe k, esprime quanta parte della frequenza, nk, della classe
compete in media ad ogni segmento di ampiezza unitaria, che costituisce la classe k. La densità è
quindi una quantità non negativa ed uniformemente distribuita entro ogni classe.
L’area totale dell’istogramma rappresenta l’intero ammontare delle osservazioni, N, se si
rappresentano le nk, 1, se si rappresentano le fk, ed è ripartita tra i singoli rettangoli,
proporzionalmente al numero di casi entro ciascuna classe. L’area di ciascun rettangolo
dell’istogramma è pari alla frequenza assoluta (o relativa) della classe corrispondente (figura 6):
nk = dk⋅ak.
Come è noto, le classi sono intervalli contigui, disgiunti e ordinati, quindi i rettangoli che le
rappresentano in un istogramma devono essere necessariamente uniti: dove finisce la base di uno,
inizia quella del rettangolo adiacente. È necessario porre molta attenzione alla definizione degli
estremi delle classi, in modo che non ci siano salti di valori, che darebbero luogo a rettangoli
separati.
Docente: Fabio Aiello.
A.A. 2014/15
Appunti di Statistica Sociale.
Università Kore di Enna.
Figura 6. Istogramma dell’età di un campione.
IL DIAGRAMMA A BASTONCINI
È noto che in presenza di un fenomeno quantitativo discreto i dati siano generalmente organizzati in
distribuzioni di frequenza per modalità. In tal caso, la rappresentazione grafica si può pensare come
caso degenere dell’istogramma, in cui le basi si riducono ad un punto. Anche in questo caso, si
ricorre ad un sistema di assi cartesiani dimetrico, X0Y e, ancora una volta, sull’asse delle ascisse si
pongono le modalità xk di X, su quello delle ordinate le frequenza assolute, nk, o quelle relative, fk.
Data la natura di X, l’asse delle ascisse possiede un’unità di misura specifica, che serve a
determinare le distanze tra le diverse modalità sull’asse.
Ogni coppia modalità-frequenza (xk, nk) individua univocamente un punto sul piano, le cui
proiezioni sull’asse delle ascisse costituiscono i bastoncini della rappresentazione (figura 7).
Osservando la serie di bastoncini si coglie la forma della distribuzione di frequenza.
Se non si tracciano le proiezioni, la rappresentazione prende il nome di diagramma a punti. In
questo caso, data la natura discreta della variabile, mai congiungere i punti (xk, nk) con delle
spezzate, che darebbero l’idea di una continuità inammissibile.
Docente: Fabio Aiello.
A.A. 2014/15
Appunti di Statistica Sociale.
Università Kore di Enna.
Figura 7. Diagramma a bastoncini del numero di componenti per
famiglia, di un campione di donne.
RAPPRESENTAZIONI GRAFICHE DI SERIE STORICHE
Nelle serie storiche le intensità dei fenomeni oggetto di studio possono assumente la connotazione
di frequenze relative ad istanti o ad intervalli di tempo. In entrambi i casi si ricorre ad un
riferimento cartesiano ortogonale X0Y, che pone:
1. sull’asse delle ascisse una corrispondenza biunivoca tra i punti dell’asse e gli istanti di
tempo in cui avvengono le rilevazioni delle intensità del fenomeno;
2. sull’asse delle ordinate, invece, le intensità o le frequenze del fenomeno.
Si otterranno rappresentazioni grafiche dalla struttura differente, a seconda che la serie storica sia
relativa ad un fenomeno di stato o ad un fenomeno di flusso. Vediamole separatamente.
RAPPRESENTAZIONE GRAFICA DI UN FENOMENO DI STATO
Le intensità o le frequenze del fenomeno collettivo sono riferite a precisi istanti di tempo. Ciascuna
coppia di valori (istante di rilevazione, intensità) sarà rappresentata nel sistema di riferimento X0Y
per mezzo di un punto. La serie di punti viene poi unita da un linea, per dare l’idea dell’andamento
del fenomeno nel tempo (figura 8). In genere, ciascun punto è unito al precedente ed al seguente per
mezzo di segmenti, che danno origine ad una spezzata. Tale procedura corrisponde ad una precisa
ipotesi (implicitamente assunta): la variazione, incremento o decremento, esibita dall’intensità del
fenomeno negli istanti di tempo consecutivi, si realizza in modo costante negli intervalli adiacenti,
che compongono l’intero periodo di osservazione.
Docente: Fabio Aiello.
A.A. 2014/15
Appunti di Statistica Sociale.
Università Kore di Enna.
Figura 8. Grafico a linee dell’ammontare della Popolazione Italiana in un cinquantennio (step = 10 anni).
Popolazione
70
60
50
pop.
40
30
20
10
0
1940
1950
1960
1970
1980
1990
2000
2010
Anno
RAPPRESENTAZIONE GRAFICA DI UN FENOMENO DI FLUSSO
Le manifestazioni del fenomeno collettivo sono osservate in corrispondenza di determinati
intervalli di tempo. La loro rappresentazione è sempre basata su un diagramma cartesiano, ma ora le
intensità del fenomeno sono riferite ad intervalli, adiacenti e non sovrapposti, costruiti sull’asse
delle ascisse. Quindi, le intensità relative ad un dato intervallo, sono rappresentate da aree di
rettangoli con base unitaria convenzionale, poiché generalmente le rilevazioni avvengono ad
intervalli di tempo equispaziati. La rappresentazione grafica di un fenomeno di flusso è del tutto
analoga a quella di un istogramma, con classi di ampiezza comune e unitaria, poste sull’asse delle
ascisse e le intensità del fenomeno poste sull’asse delle ordinate. In questo caso però le aree dei
rettangoli coincidono con le rispettive altezze.
Non di rado, comunque, serie storiche relative a fenomeni di flusso sono rappresentate da una linea
spezzata, che congiunge le intensità riferite ai punti medi degli intervalli di osservazione. Questo si
può fare, sotto l’ipotesi di equidistribuzione delle manifestazioni del fenomeno, in ciascun intervallo
di osservazione.
A questa rappresentazione è lecito ricorrere quando:
i.
la serie di dati è molto lunga e gli intervalli di tempo troppo brevi;
ii.
lo scopo principale del grafico è rappresentare l’andamento del fenomeno nel tempo,
più che evidenziare l’entità delle sue manifestazioni nei vari periodi di osservazione.
ALCUNE REGOLE PER COSTRUIRE CORRETTAMENTE UN GRAFICO
Per creare un grafico in maniera corretta completa e comprensibile è opportuno seguire alcune
norme elementari:
1. scegliere la rappresentazione grafica opportuna, condizionatamente alla natura del fenomeno
oggetto di studio;
2. descrivere correttamente il grafico, assegnando il nome alle quantità poste sui due assi di
riferimento;
Docente: Fabio Aiello.
A.A. 2014/15
Appunti di Statistica Sociale.
Università Kore di Enna.
3. introdurre una legenda (con simboli, linee, o colori diversi), per le diverse modalità
rappresentate all’interno del grafico, ciò ne può aumentare la chiarezza e la comprensibilità;
4. inserire sempre, nel titolo del grafico, le unità statistiche delle quali si rappresenta la
distribuzione secondo la variabile studiata;
5. citare la fonte di provenienza delle informazioni rappresentate.
Docente: Fabio Aiello.
A.A. 2014/15
Scarica