6. Le Rappresentazioni Grafiche_SDS

Appunti di Statistica Sociale.
Università Kore di Enna.
LE RAPPRESENTAZIONI GRAFICHE DELLE DISTRIBUZIONI DI FREQUENZA
Obiettivo: cogliere rapidamente, attraverso le rappresentazioni grafiche più opportune, le
informazioni più importanti sull’andamento e/o sulla struttura dei dati osservati.
Il grafico deve rispettare e conservare la natura e le proprietà del carattere, rispetto a cui sono
ordinate e distribuite le unità statiche.
Serie: distribuzione di frequenza, di una Popolazione (o Campione) di unità statistiche (u.s.)
secondo un carattere qualitativo.
Le serie possono essere di diverso tipo:
→ Territoriali: quando le frequenze o intensità di un fenomeno collettivo sono
classificate per area geografica;
→ Storiche, o temporali: quando le frequenze, o intensità, del fenomeno sono
riferite ai periodi o agli istanti in cui il fenomeno si è manifestato;
→ Qualitative in senso stretto: quando sono il risultato della classificazione delle
u.s. di un collettivo, secondo le modalità di un carattere qualitativo.
Queste possono essere ulteriormente classificate in:
- Rettilinee: modalità ordinabili, dove esiste una prima e un’ultima modalità.
Es.: campione di studenti ordinati secondo l’anno di corso;
- Cicliche: modalità ordinabili, per le quali non esistono né un minimo, né un
massimo naturali.
Es.: numero di matrimoni celebrati nel 1985 ordinati secondo il giorno della
settimana;
- Sconnesse: modalità non ordinabili.
Es.: occupati in Italia al 30.06.05 secondo il settore di attività economica.
Seriazione: distribuzione di frequenza, di una Popolazione (o Campione) di unità statistiche (u.s.),
secondo un carattere quantitativo. Le seriazioni possono essere discrete o continue.
RAPPRESENTAZIONI GRAFICHE DI VARIABILI QUALITATIVE
La non ordinabilità delle modalità di variabili di questa natura rende impossibile il ricorso ad un
riferimento di assi cartesiani. La scelta tra le tante e differenti tipologie di rappresentazione grafica
di serie sconnesse è funzione della natura del fenomeno da rappresentare e del pubblico cui la
rappresentazione è destinata. La maggior parte delle rappresentazioni grafiche è tale che le
frequenze delle modalità della variabile qualitativa sono generalmente rappresentate con aree di
figure piane.
Le rappresentazioni più comuni e diffuse di grafici sono:
i. Grafici a colonne. La frequenza di ciascuna modalità è rappresentata dall’area di un
rettangolo di base unitaria. I rettangoli devono essere tutti tra loro staccati! Alla base di
ciascuno di essi viene riportata l’etichetta della modalità a cui si riferisce la frequenza
rappresentata (figura 1). L’unica scala di riferimento impiegata in questo tipo di
rappresentazioni è una scala verticale, parallela alle altezze dei rettangoli: essa consente
di apprezzare il livello delle frequenze rappresentate. Questo tipo di rappresentazione
grafica è anche nota col nome di grafico a barre.
Docente: Fabio Aiello.
A.A. 2010/11.
Appunti di Statistica Sociale.
Università Kore di Enna.
Distribuzione studenti per tipo di maturità
40
35
30
25
20
15
10
5
a
cn
te
.i
cn
te
om
te
cn
.C
ic
al
tri
us
nd
c.
er
m
.C
cn
te
so
e
r
Pr
m
er
om
om
.C
cn
te
ci
op
og
c.
.
m
g.
si
sc
co
ie
pe
nt
ifi
da
ca
g.
ed
a
ps
ic
m
cl
ag
op
is
as
si
tr a
ca
le
0
Figura 1. Diagramma a barre di un gruppo di studenti, secondo il tipo di maturità posseduta.
ii.
Grafici a nastri. Sono in tutto simili ai grafici a barre sopra esposti, ma ruotati di 90°. I
rettangoli hanno altezze unitarie e, quindi, le lunghezze delle basi sono numericamente
uguali alle rispettive aree. A sinistra di ciascun rettangolo si pone l’etichetta della
modalità cui corrisponde la frequenza rappresentata (figura 2). Sotto tutti i nastri è
riportata una scala di riferimento orizzontale, sulla quale sono riportati i livelli delle
frequenze rappresentate.
Distribuzione studenti per tipo di maturità
tecnica
tecn. industriale
tecn. Commerc. Progr
tecn. Commerc.
tecn. Comm.
sociopsicopedag.
scientifica
psicopedag.
magistrale
classica
0
5
10
15
20
25
30
35
40
Figura 2. Diagramma a nastri di un gruppo di studenti, secondo il tipo di maturità posseduta.
iii.
Aerogrammi a settori circolari (più comunemente noti come grafici a torta). La
frequenza totale, N, delle modalità osservate della variabile, è rappresentata dalla
superficie di un cerchio, con raggio unitario (r = 1). La frequenza della k-esima modalità,
nk, invece, è rappresentata dall’area di un settore circolare. È noto che l’area di un settore
Docente: Fabio Aiello.
A.A. 2010/11.
Appunti di Statistica Sociale.
Università Kore di Enna.
circolare è proporzionale al raggio del cerchio e all’angolo al centro, delimitato dai raggi
che definiscono il settore; fissato r = 1, l’area di ciascun settore è proporzionale soltanto
all’angolo la centro.
L’ampiezza dell’angolo al centro, αk, del settore circolare deputato a rappresentare la
frequenza assoluta, nk, o relativa, fk, della k-esima modalità, è determinata dalla
proporzione:
360° α k
=
,
N
nk
da cui si deriva:
360°
∀ k = 1, 2, …, K.
α k = nk
N
Per determinare le ampiezze degli angoli al centro, per ciascuna delle k modalità
osservate, è sufficiente quindi moltiplicare le frequenze di ciascuna modalità per la
costante 360°/N (figura 3).
Freq.
classica
magistrale
psicopedag.
scientifica
sociopsicopedag.
tecn. Comm.
tecn. Commerc.
tecn. Commerc. Progr
tecn. industriale
tecnica
Figura 3. Aerogrammi a settori circolari un gruppo di studenti, secondo il tipo di maturità posseduta.
Tutte le rappresentazioni grafiche relative a serie sconnesse sono tali che gli oggetti usati (barre,
nastri, settori circolari, ecc.), per rappresentare le frequenze delle modalità, possono essere ordinati
in qualsiasi modo, perché le modalità di serie sconnesse non sono ordinabili.
RAPPRESENTAZIONI GRAFICHE DI VARIABILI QUANTITATIVE
Le rappresentazioni grafiche, qui di seguito illustrate, appartengono alla più ampia famiglia delle
tecniche per le analisi esplorative dei dati. Servono a rappresentare particolari andamenti dei
fenomeni di interesse e/o ad indagare l’esistenza di relazioni tra più fenomeni. L’obiettivo è
rappresentare la forma della distribuzione osservata di un fenomeno su un certo collettivo, per
coglierne particolari caratteristiche, facilitandone la descrizione e la sintesi.
Data la natura quantitativa dei fenomeni da rappresentare, alcune di queste rappresentazioni
grafiche, come vedremo, impiegano un sistema di riferimento di assi cartesiani X0Y, detto
dimetrico, ovvero dotato di diversa unità di misura per le ascisse e per le ordinate.
Tra le tecniche grafiche più in uso vi sono la rappresentazione grafica tramite box-plot, gambo-efoglia, l’istogramma, il diagramma a bastoncini (o a punti), che qui di seguito verranno brevemente
illustrate.
La rappresentazione grafica di un fenomeno, necessita di alcune informazioni, quali, le:
Docente: Fabio Aiello.
A.A. 2010/11.
Appunti di Statistica Sociale.
Università Kore di Enna.
1.
2.
3.
4.
modalità (oppure le classi) del fenomeno: xk (xk–a |⎯ xk), riportate in ascisse;
frequenze assolute: nk, riportate in ordinata;
frequenze assolute cumulate: Nk, riportate in ordinata
frequenze relative (o funzione di frequenza): fk = f(xk), riportate in ordinata;
n
5. densità (o funzione di densità): d k = k , riportate in ordinata;
ak
6. frequenze relative cumulate (o funzione di ripartizione): Fk = F(xk), riportate in ordinata
IL GRAFICO SCATOLA-E-BAFFI (BOX-PLOT)
Il box-plot, anche noto come box and whiskers plot, o diagramma scatola-baffi, è una
rappresentazione grafica della distribuzione di una variabile misurata su scala almeno ordinale.
In realtà, usa molto più frequentemente tale rappresentazione in presenza di variabili quantitative. Il
motivo della diffusione del box-plot risiede nel fatto che è basato su misure di posizione e di
dispersione molto semplici e che permette di acquisire simultaneamente informazioni su molti
aspetti della distribuzione di un fenomeno, come variabilità e forma.
La rappresentazione mediante box-plot può avvenire sia verticalmente che orizzontalmente e
prevede la costruzione di un rettangolo (la scatola) diviso in due parti, da cui escono due segmenti
(i baffi). I due lati più corti del rettangolo sono tracciati in corrispondenza, rispettivamente, del
primo quartile, Q1 (in basso, o a sinistra), e del terzo quartile, Q3 (in alto, o a destra), della
distribuzione di frequenza dei dati; inoltre, il rettangolo è attraversato da un terzo segmento,
intermedio e parallelo ai primi due, tracciato in corrispondenza del secondo quartile, Q2, ovvero la
mediana. L’uso dei quartili garantisce che vengano rappresentati graficamente quattro intervalli
della distribuzione di frequenza, ugualmente popolati.
Per realizzare un box-plot sono necessari almeno cinque passi (figura 4):
1. disporre i valori da rappresentare su un asse verticale (o orizzontale);
2. disegnare una scatola sopra l’asse scelto, ad es. il verticale, in modo il cui lato inferiore sia
allineato con il primo quartile, Q1, e il superiore con il terzo quartile, Q3;
3. dividere la scatola in due parti, con un segmento orizzontale allineato con la mediana, Q2;
4. tracciare una prima linea verticale, chiamata baffo, dal lato inferiore della scatola, fino al
punto corrispondente al valore minimo (o altro diversamente scelto) osservato;
5. tracciare un’altra linea verticale, dal lato superiore della scatola fino al punto che risulta
allineato con il valore massimo (o altro diversamente scelto) osservato.
Box Plot (eser 29 g ennaio 2005.sta 10v*66c)
40
38
36
34
32
30
28
26
24
Mediana = 23
25% -75%
= (22, 25)
Min-M ax
= (20, 39)
Estremi
22
20
18
età
Figura 4. Box-plot dell’età di un campione.
Docente: Fabio Aiello.
A.A. 2010/11.
Appunti di Statistica Sociale.
Università Kore di Enna.
Esistono scelte alternative per rappresentare il box-plot e tutte concordano sui tre quartili per
rappresentare il rettangolo, ma differiscono per la lunghezza dei segmenti. Generalmente si
impiegano il valore minimo e massimo osservati, per determinare la lunghezza dei baffi, ma si
possono anche operare scelte diverse, per costruire baffi più corti ed evitare valori troppo "estremi",
che vengono solitamente rappresentati come dei punti.
Comunemente i segmenti possono venire delimitati da:
1. particolari quantili, solitamente della forma qα e q1-α, come ad esempio i decili, q0,1 e q0,9;
2. i valori Q1–1.5(Q3–3Q1) e Q3+1.5(Q3–3Q1)
3. i valori (5Q1–3Q3)/2 e (5Q3–3Q1)/2, in modo che entrambi i segmenti siano lunghi 3/2 volte
la lunghezza del rettangolo.
L’esame grafico dei dati attraverso un box-plot fornisce informazioni utili per indagare la
dispersione, la concentrazione e l’eventuale asimmetria della distribuzione di dati.
LA RAPPRESENTAZIONE GAMBO-E-FOGLIA (STEAM-AND-LEAF)
È un’altra tecnica di rappresentazione grafica, utile quando si devono esplorare insiemi composti da
un numero contenuto di dati. La rappresentazione gambo-e-foglia è dedicata a misure almeno
discrete e fornisce informazioni sul range dei dati, evidenzia la concentrazione delle misure più
elevate e mette in luce l’eventuale presenza asimmetria. Un vantaggio di questa rappresentazione
grafica è che mantiene l’informazione contenuta nei dati individuali, che si perde ad esempio nel
momento in cui si raggruppano i dati, per costruire un istogramma. Inoltre, questo grafico può
essere realizzato direttamente durante il processo di rilevazione dei dati, senza che questi siano
organizzati in una tabella ordinata.
Per costruire un grafico gambo-e-foglia è necessario dividere i dati osservati in due parti:
1. il gambo, costituito da una o più cifre iniziali del valore numerico;
2. la foglia, costituita da una o più delle rimanenti cifre.
I valori così suddivisi vengono disposti insieme sullo stesso schema: i gambi formano una colonna
ordinata in senso crescente, con il gambo più piccolo all’inizio e il più grande alla fine. Nella
colonna sono inseriti tutti i gambi contenuti nel range dei valori, quindi compariranno anche i gambi
di quei valori numerici che non sono stati realmente osservati. Le righe del grafico, invece,
contengono le foglie, ordinate ed elencate a destra dei rispettivi gambi (figura 5). Quando le foglie
sono formate da più di una cifra, tutte le cifre dopo la prima possono essere eliminate. Ad esempio,
se i dati presentano cifre decimali, allora, queste saranno omesse nella rappresentazione gambo-efoglia. Al termine della procedura i gambi risultano separati dalle rispettive foglie da una linea
verticale.
Gambo
1
2
3
4
5
6
Foglia
8899
0111222222333333344444444455556666666666677777777777888888899999999
00000000001111111222223334444456667777788888999
000000111222233344455566777788888899
000112233336
1233
Figura 5. Grafico gambo-foglia dell’età di un campione.
Nell’illustrazione sopra riportata, ad esempio, i primi quattro valori osservati sono (18, 18, 19, 19),
che condividono il gambo (1), ma ciascuno è rappresentato dalla propria foglia. Si nota come
emerge chiaramente l’asimmetria positiva della distribuzione di dati, con una netta prevalenza dei
valori più piccoli.
Il grafico gambo-e-foglia fornisce una tabella ordinata dei dati registrati. Va sottolineato che le
rappresentazioni gambo-e-foglia sono efficaci con insiemi di dati piuttosto contenuti. In questo
caso, lo sono più degli istogrammi.
Docente: Fabio Aiello.
A.A. 2010/11.
Appunti di Statistica Sociale.
Università Kore di Enna.
L’ISTOGRAMMA
È la tecnica da impiegare per rappresentare graficamente la forma di una distribuzione di frequenza
in classi, di una variabile quantitativa continua, X.
In un sistema di assi cartesiani X0Y si dispongono in ordine crescente, sull’asse delle ascisse, le
classi osservate della variabile, ciascuna con ampiezza definita dall’intervallo (xk–a |⎯ xk). Sull’asse
delle ordinate, invece, si dispongono:
- le frequenze assolute nk, o le relative fk, delle classi, quando hanno uguale ampiezza, a;
- le densità, dk, delle classi, quando ampiezze diverse, ak.
È noto che l’ampiezza delle k classi, condivisa o meno, è data da:
ak = xk − xk − a
e costituisce la base (ak), sopra la quale si costruisce un rettangolo, la cui altezza, dk, è la densità di
frequenza della classe stessa:
n
dk = k .
ak
La densità di frequenza, dk, della classe k, esprime quanta parte della frequenza della classe, nk,
compete in media ad ogni segmento di ampiezza unitaria, in essa contenuto. La densità è una
quantità non negativa, uniformemente distribuita in ogni classe.
L’area totale dell’istogramma rappresenta l’intero ammontare di osservazioni (N, se si
rappresentano le nk, 1, se le fk) ed è ripartita tra i singoli rettangoli, proporzionalmente al numero di
casi entro ciascuna classe. L’area di ciascun rettangolo dell’istogramma è pari alla frequenza
assoluta (o relativa) della classe corrispondente (figura 6):
nk = dk⋅ak.
Figura 6. Istogramma dell’età di un campione.
Come è noto, le classi sono intervalli contigui, disgiunti e ordinati, quindi i rettangoli che le
rappresentano in un istogramma devono essere necessariamente uniti: dove finisce la base di uno,
inizia quella del rettangolo adiacente. È necessario porre molta attenzione alla definizione degli
estremi delle classi, in modo che non ci siano salti di valori, che darebbero luogo a rettangoli
separati.
Docente: Fabio Aiello.
A.A. 2010/11.
Appunti di Statistica Sociale.
Università Kore di Enna.
IL DIAGRAMMA A BASTONCINI
Quando il fenomeno è quantitativo discreto e i dati sono organizzati in una distribuzione di
frequenza per modalità, la rappresentazione grafica si può pensare come caso degenere
dell’istogramma, in cui le basi si riducono ad un punto. Si ricorre ancora ad un sistema di assi
cartesiani dimetrico X0Y: sull’asse delle ascisse si pongono le modalità xk di X, su quello delle
ordinate le frequenza assolute, nk, o le relative, fk. Data la natura di X, l’asse delle ascisse possiede
un’unità di misura specifica, che serve a determinare le distanze tra le diverse modalità sull’asse.
Ogni coppia modalità-frequenza (xk, nk) è rappresentata da un punto sul piano e con dei bastoncini
si tracciano le proiezioni dei punti sull’asse delle ascisse (figura 7). Osservando la serie di
bastoncini si coglie la forma della distribuzione di frequenza.
Se non si tracciano le proiezioni, la rappresentazione prende il nome di diagramma a punti. In
questo caso, data la natura discreta della variabile, mai congiungere i punti (xk, nk) con delle
spezzate, che darebbero l’idea di una continuità inammissibile.
Figura 7. Diagramma a bastoncini del numero di componenti per
famiglia, di un campione di donne.
RAPPRESENTAZIONI GRAFICHE DI SERIE STORICHE
Nelle serie storiche le intensità o le frequenze dei fenomeni oggetto di studio sono relative o ad
istanti di tempo, o ad intervalli di tempo. In entrambi i casi si ricorre ad un riferimento cartesiano
ortogonale X0Y. Sull’asse delle ascisse si pone una corrispondenza biunivoca tra i punti dell’asse e
gli istanti di tempo in cui sono rilevate le intensità del fenomeno. Le intensità o le frequenze del
fenomeno saranno riportate, invece, sull’asse delle ordinate.
Si otterranno rappresentazioni grafiche dalla struttura differente, a seconda che la serie storica sia
relativa ad un fenomeno di stato o ad un fenomeno di flusso. Vediamole separatamente.
RAPPRESENTAZIONE GRAFICA DI UN FENOMENO DI STATO
Le intensità o le frequenze del fenomeno collettivo sono riferite a precisi istanti di tempo. Ciascuna
coppia di valori (istante di rilevazione, intensità) sarà, quindi, rappresentata nel sistema di
riferimento X0Y per mezzo di un punto. La serie di punti viene poi unita da un linea, per dare l’idea
dell’andamento del fenomeno nel tempo (figura 8). In genere, si ricorre ad una spezzata per unire
tutti i punti della serie, per cui ciascun punto è unito al precedente ed al seguente per mezzo di
segmenti. Tale procedura corrisponde ad una precisa ipotesi (implicitamente assunta): la variazione,
Docente: Fabio Aiello.
A.A. 2010/11.
Appunti di Statistica Sociale.
Università Kore di Enna.
incremento o decremento, esibita dall’intensità del fenomeno in istanti di tempo consecutivi, si
realizza in modo costante negli intervalli adiacenti, che compongono l’intero periodo di
osservazione.
Popolazione
70
60
50
pop.
40
30
20
10
0
1940
1950
1960
1970
1980
1990
2000
2010
Anno
Figura 8. Grafico a linee dell’ammontare della Popolazione Italiana in un cinquantennio (step = 10 anni).
RAPPRESENTAZIONE GRAFICA DI UN FENOMENO DI FLUSSO
Le manifestazioni del fenomeno collettivo sono osservate in determinati intervalli di tempo. La loro
rappresentazione è sempre basata su un diagramma cartesiano, ma ora le intensità del fenomeno
sono riferite a degli intervalli, adiacenti e non sovrapposti, costruiti sull’asse delle ascisse. Quindi,
le intensità relative ad un dato intervallo, sono rappresentate da aree di rettangoli con base unitaria,
perché sono generalmente rilevate ad intervalli di tempo uguali.
La rappresentazione grafica di un fenomeno di flusso è del tutto analoga a quella di un istogramma,
con classi di ampiezza unitaria e sull’asse delle ordinate sono riportate le intensità del fenomeno,
dato che le aree dei rettangoli coincidono con le rispettive altezze.
Non di rado, comunque, serie storiche relative a fenomeni di flusso sono rappresentate da una linea
spezzata, che congiunge le intensità riferite ai punti medi degli intervalli di osservazione. Questo si
può fare, sotto l’ipotesi di equidistribuzione delle manifestazioni del fenomeno, in ciascun intervallo
di osservazione.
A questa rappresentazione è lecito ricorrere quando:
i.
la serie di dati è molto lunga e gli intervalli di tempo troppo brevi;
ii.
lo scopo principale del grafico è rappresentare l’andamento del fenomeno nel tempo,
più che evidenziare l’entità delle sue manifestazioni nei vari periodi di osservazione.
ALCUNE REGOLE PER COSTRUIRE CORRETTAMENTE UN GRAFICO
Per creare un grafico in maniera corretta, completa e comprensibile è opportuno seguire alcune
norme elementari.
1. scegliere la rappresentazione grafica opportuna, condizionatamente alla natura del fenomeno
oggetto di studio;
2. descrivere correttamente il grafico, assegnando il nome alle quantità poste sui due assi di
riferimento;
3. introdurre una legenda (con simboli, linee, o colori diversi), per le diverse modalità
rappresentate dal grafico: ciò può aumentare la chiarezza e la comprensibilità del grafico;
Docente: Fabio Aiello.
A.A. 2010/11.
Appunti di Statistica Sociale.
Università Kore di Enna.
4. inserire sempre le unità statistiche, nel titolo del grafico, delle quali si rappresenta la
distribuzione secondo la variabile studiata;
5. citare sempre la fonte di provenienza delle informazioni rappresentate.
Docente: Fabio Aiello.
A.A. 2010/11.