La rappresentazione grafica di dati statistici COS`E` UN GRAFICO

La rappresentazione
grafica di dati statistici
COS’E’ UN GRAFICO ?
E’ la rappresentazione di un
fenomeno mediante un disegno.
Gruppo di lavoro per la didattica della Statistica dell’IRRE Lombardia
Proposta di Monica Terenghi
Gruppo di Statistica IRRE Lombardia
1
Gruppo di Statistica IRRE Lombardia
PRINCIPALI RAPPRESENTAZIONI
GRAFICHE DI DISTRIBUZIONI SEMPLICI
Esistono diversi tipi di grafici
CARATTERE
La scelta dipende da:
¾
¾
¾
QUALITATIVO
natura del fenomeno che si vuole
rappresentare
tipo di carattere che descrive il
fenomeno
numero dei caratteri coinvolti nel
fenomeno (distribuzioni semplici/multiple)
Gruppo di Statistica IRRE Lombardia
SCONNESSO
ORDINATO
a torta
a barre
Ha l’aspetto di un
cerchio suddiviso in
settori di diversa
ampiezza.
„
Il cerchio
rappresenta il totale
delle unità statistiche
QUANTITATIVO
DISCRETO
a colonne
Gruppo Statisitca IRRE Lombardia
5
a punti
cartesiano
(ripart. - dens)
istogramma
Gruppo di Statistica IRRE Lombardia
4
DIAGRAMMA A TORTA
„
Ad ogni settore corrisponde
una delle diverse modalità con
cui si presenta il carattere
indagato.
• L’ampiezza dei singoli
…settori è proporzionale
…alla frequenza della
…modalità da esso
…rappresentata.
Gruppo di Statistica IRRE Lombardia
CONTINUO
ideogramma
3
DIAGRAMMA A TORTA
„
2
mod.4
mod.1
mod.2
mod.3
Gruppo di Statistica IRRE Lombardia
6
1
Esempio
Si vuole
rappresentare la
diffusione del
fumo in Italia nel
1994, secondo
quanto indicato
nella tabella di
frequenze a
fianco.
Costruiamo un diagramma a torta
La torta viene
suddivisa in tre
“fette”, l’ampiezza
delle quali si calcola in
modo proporzionale
alla frequenza di ogni
modalità.
Ad esempio: la “fetta”
relativa alla modalità
“ex fumatori” è quella
individuata dall’angolo
al centro che misura
(19,6:100) x360°, cioè
quasi 71°.
1994
Mai fumatori
54,1
Ex fumatori
19,6
Fumatori
26,3
Fonte: ISTAT
Gruppo di Statistica IRRE Lombardia
7
frequenze angoli
Mai fumatori
54,1
194,76
Ex fumatori
19,6
70,56
Fumatori
26,3
94,68
TOTALE
100
360
Gruppo di Statistica IRRE Lombardia
8
Spesso, soprattutto sui mass media, i diagrammi
a torta sono a settori esplosi e/o tridimensionali
Ed ecco il diagramma
risultante:
Diffusione del fumo in Italia - 1994
Diffusione del fumo in Italia - 1994
26,3
Mai fumatori
26,3
54,1
Ex fumatori
Fumatori
19,6
Diffusione del fumo in Italia - 1994
Mai fumatori
Ex fumatori
Fumatori
54,1
26,3
M ai f umat ori
19,6
Ex f umat ori
54,1
Fumat ori
19,6
Gruppo di Statistica IRRE Lombardia
9
Quando è O.K.?
„
„
„
quando si vuole
ottenere una visione
globale e parziale del
fenomeno per un
rapido confronto tra
il “totale” e le parti
che lo compongono.
Gruppo Statisitca IRRE Lombardia
10
Quando è K.O.?
quando ogni unità
statistica rientra in
una delle categorie
individuate dalle
modalità del
carattere
Gruppo di Statistica IRRE Lombardia
Gruppo di Statistica IRRE Lombardia
11
„
non è adatto a
rappresentare
fenomeni in cui il
carattere si manifesti
con numerose
modalità
non permette un
rapido confronto tra
lo stesso fenomeno
visto in situazioni
diverse
In entrambi i casi è consigliabile un diagramma a barre
Gruppo di Statistica IRRE Lombardia
12
2
DIAGRAMMA A BARRE
Ad ogni rettangolo corrisponde una delle diverse
modalità con cui si manifesta il carattere
La distribuzione è rappresentata da una serie
di rettangoli
„
VERTICALI
allineati su un asse
orizzontale e aventi tutti
base della stessa
dimensione.
„
ORIZZONTALI
allineati su un asse verticale
e aventi tutti altezza della
stessa dimensione.
BARRE VERTICALI
L’altezza dei singoli
rettangoli è
proporzionale alla
frequenza della modalità
cui si riferisce
„
„
BARRE ORIZZONTALI
La base dei singoli
rettangoli è
proporzionale alla
frequenza della modalità
cui si riferisce
mod.6
40
35
mod.5
30
mod.4
25
20
mod.3
15
mod.2
10
5
mod.1
0
0
mod.1 mod.2 mod.3 mod.4 mod.5 mod.6
Gruppo di Statistica IRRE Lombardia
13
FREQUENZE
54,1
Ex
fumatori
19,6
Fumatori
26,3
40
Gruppo di Statistica IRRE Lombardia
14
Diffusione del fumo in Italia - 1994
54,1
„
50
40
30
26,3
19,6
20
fonte:
ISTAT
30
60
PERCENTUALI
Mai
fumatori
20
L’efficacia del diagramma a barre è
evidente in situazioni in cui:
ESEMPIO DI DIAGRAMMA A BARRE
TABELLA DELLE
10
si vogliano
confrontare gli
aspetti di uno
stesso fenomeno in
collettivi diversi o
in periodi diversi
10
Ex fumatori
Fumatori
Gruppo di Statistica IRRE Lombardia
15
DIAGRAMMA A BARRE
CONTIGUE
1,6
40
max lic.elem.
40,8
30
media inf.
34,0
20
diploma
19,0
10
laurea
4,6
0
Gruppo di Statistica IRRE Lombardia
35
25
15
5
analfabeti
max lic.elem.
media inf.
diploma
„
laurea
Fonte: ISTAT
A volte, soprattutto nel caso in cui il carattere sia
ordinato, le barre sono contigue l’una all’altra e le
modalità
sono
disposte,
secondo
la
loro
successione, lungo l’asse orizzontale
Gruppo di Statistica IRRE Lombardia
Gruppo Statisitca IRRE Lombardia
16
Poiché sia le modalità che le frequenze
sono espresse da un valore numerico, si
può utilizzare il piano cartesiano
ortogonale
popolazione di età superiore ai 6 anni
45
analfabeti
esempio
CARATTERE QUANTITATIVO
DISCRETO
Grado di istruzione in Italia 1991
1991
il carattere
indagato presenti
numerose
modalità
esempio
0
Mai fumatori
„
17
ad ogni modalità
corrisponde un
punto dell’asse
delle ascisse
„
ad ogni
frequenza
corrisponde un
punto dell’asse
delle ordinate
Gruppo di Statistica IRRE Lombardia
18
3
Si ottiene il seguente
grafico a punti:
Esempio
COMPOSIZIONE DELLE FAMIGLIE ITALIANE
ANNO 1991 (fonte ISTAT)
numero di
frequenza
30
frequenze percentuali
Si vogliono
rappresentare
le famiglie
italiane per
numero di
componenti
nel 1991.
Composizione famiglie - Italia 1991
componenti percentuale
1
20,6
2
24,7
3
22,2
4
21,2
5
7,9
>5
3,4
25
20
15
10
5
0
0
1
2
3
4
5
6
n° com ponenti
Gruppo di Statistica IRRE Lombardia
19
Gruppo di Statistica IRRE Lombardia
20
più spesso però si utilizza un
grafico a colonne “sottili”, poiché
il diagramma ad aste non è
previsto nei fogli elettronici
oppure un diagramma ad
aste
Composizione famiglie - Italia 1991
frequenze percentuali
30
25
20
15
10
5
0
1
2
3
4
5
6
n° com ponenti
Gruppo di Statistica IRRE Lombardia
21
Gruppo di Statistica IRRE Lombardia
Confronto tra il 1951 e
il 1991
Si ottiene il seguente
grafico a punti:
COMPOSIZIONE DELLE FAMIGLIE ITALIANE
ANNO 1991 (fonte ISTAT)
numero di
1951
Composizione famiglie - Italia 1951 e 1991
1991
componenti frequenze frequenze
1
9,5
20,6
2
17,4
24,7
3
20,7
22,2
4
19,0
21,2
5
13,3
7,9
>5
20,1
3,4
Gruppo di Statistica IRRE Lombardia
Gruppo Statisitca IRRE Lombardia
30
frequenze percentuali
Per confrontare lo stesso
fenomeno in due
momenti temporali
diversi si possono
immettere i dati sullo
stesso piano
cartesiano,
rappresentando i punti
o le colonne relativi
alle due distribuzioni
con colori diversi.
In questo modo è
facilitata la
comparazione tra la
situazione nel 1951 e
quella di 40 anni dopo.
22
25
20
1951
15
1991
10
5
0
0
1
2
3
4
5
6
n° com ponenti
23
Gruppo di Statistica IRRE Lombardia
24
4
o il seguente grafico a
colonne
DIAGRAMMA CARTESIANO
Composizione famiglie - Italia 1951 e 1991
frequenze percentuali
30
25
20
1951
15
In generale il diagramma
cartesiano è utilizzato per
rappresentare fenomeni che
si evolvono con continuità nel
tempo.
1991
10
5
0
1
2
3
4
5
6
n° com ponenti
Gruppo di Statistica IRRE Lombardia
25
Gruppo di Statistica IRRE Lombardia
DIAGRAMMA CARTESIANO
26
ESEMPIO
L’asse delle ascisse rappresenta l’asse temporale, mentre sull’asse delle
ordinate vengono indicate le modalità del carattere, cioè le intensità.
I punti del piano cartesiano che rappresentano le coppie di dati
disponibili (momento considerato, relativa intensità) vengono uniti tra
loro in modo da formare una spezzata.
La tabella riporta i
livelli di Pm10
registrati dalle
centraline
dell’Agenzia
Regionale di
Protezione
dell’Ambiente nella
giornata di domenica
13/1/02 durante il
blocco del traffico.
andamento fenomeno
3
2,5
2
1,5
1
Pioltello-Limito
sab-dom (*)
133,7
dom. ore 8
35
dom. ore 10
79
dom. ore 12
38
dom. ore 14
16
Fonte: Corriere della Sera del 15.01.02
0,5
0
19 95
199 6
1997
199 8
1999
(*) Il primo valore si riferisce alla media dei valori registrati dalle 8 di sabato 12 alle 7 di
domenica 13, prima cioè del blocco del traffico.
2000
Gruppo di Statistica IRRE Lombardia
27
Gruppo di Statistica IRRE Lombardia
28
Ulteriori informazioni si traggono visualizzando le
soglie di attenzione e di allarme (pari
rispettivamente a una media giornaliera di 50 e 75
µg/m3)
La rappresentazione del fenomeno mediante un
diagramma cartesiano è particolarmente efficace;
è possibile infatti stimare il livello di Pm10 anche
negli orari intermedi a quelli di registrazione
Livelli di Pm10
sab 12.01.02 e dom 13.01.02
Pioltello - Limito
Livelli di Pm10
160
microgrammi/metrocubo
microgrammi/metrocubo
160
140
120
100
80
60
40
20
140
120
Pioltello-Limito
100
80
soglia di attenzione
60
soglia di allarme
40
20
0
0
sab-dom
dom h8
dom h10
dom h12
Gruppo di Statistica IRRE Lombardia
Gruppo Statisitca IRRE Lombardia
sab-dom
dom h14
29
dom h8
dom h10
dom h12
dom h14
Gruppo di Statistica IRRE Lombardia
30
5
CARATTERE QUANTITATIVO
CONTINUO
E’ possibile inoltre confrontare l’andamento
del fenomeno in varie località colorando
diversamente le relative linee.
Quando le modalità possono assumere tanti
valori diversi, è comodo raggrupparle in
Livelli di Pm10
sab 12.01.02 e dom 13.01.02
classi.
Se ad esempio si vuole rappresentare la
distribuzione relativa all’età degli
individui di una certa popolazione, si
suddividono i dati in classi di età.
microgrammi/metrocubo
160
140
120
Pioltello-Limito
100
Milano-Verziere
80
Vimercate
60
soglia di attenzione
40
soglia di allarme
L’ampiezza delle classi dipende dai fini
dell’indagine, e può variare da una
classe all’altra.
20
0
sab-dom
dom h8
dom h10
dom h12
dom h14
Gruppo di Statistica IRRE Lombardia
31
Gruppo di Statistica IRRE Lombardia
La rappresentazione grafica più
adeguata a rappresentare la
distribuzione di un carattere
quantitativo continuo con modalità
suddivise in classi è l’ISTOGRAMMA.
Ha l’aspetto di una
serie di rettangoli
allineati, ognuno dei
quali corrisponde ad
una determinata
classe. L’area dei
rettangoli
rappresenta l’entità
della modalità. Gruppo di Statistica IRRE Lombardia
10
0
classe 1
classe 2
classe 3
Come si costruisce un
istogramma
Classi d’età
Fr
Primo caso
[0; 10)
1
[10; 20)
11
Consideriamo la
tabella che riporta
i dati relativi alle
età dei visitatori
pomeridiani di un
museo:
[20; 30)
45
[30; 40)
34
[40; 50)
41
[50; 60)
28
[60; 70)
19
[70; 80)
4
[80; 90)
1
TOTALE
184
Le classi hanno la stessa ampiezza
33
Come si costruisce un
istogramma
32
Gruppo di Statistica IRRE Lombardia
34
ISTOGRAMMA DELLE ETÀ
Le classi hanno tutte la stessa ampiezza: 10 anni.
50
45
Le basi dei rettangoli sono dunque uguali tra loro.
40
35
L’area dei rettangoli deve essere proporzionale alla
frequenza di ogni singola modalità.
30
25
Serie1
20
L’altezza di ogni rettangolo, segnata sull’asse delle
ordinate, è la frequenza di ogni modalità.
15
10
5
0
[0;10)
L’istogramma che ne risulta è il seguente:
Gruppo di Statistica IRRE Lombardia
Gruppo Statisitca IRRE Lombardia
35
[10;20)
[20;30)
[30;40)
[40;50)
[50;60)
[60;70)
[70;80)
[80;90)
Gruppo di Statistica IRRE Lombardia
36
6
Come si costruisce un
istogramma
Secondo caso
„ Consideriamo la
tabella che
riporta i dati
relativi alla
popolazione
residente in
Italia nel 1991,
suddivisa per
classi di età.
Come si costruisce un
istogramma
•si calcola l’ampiezza di ogni
classe, in anni, dopo aver
fissato un massimo per l’ultima
classe;
•l’altezza di ogni rettangolo
rappresenta una densità, cioè
una frequenza per unità di
ampiezza della classe;
Popolazione residente in Italia nel 1991 divisa per
classi di età
classi di età
freq. percent.
[0,5)
4,9
[5,15)
11,0
[15,20)
7,6
[20,40)
30,1
[40,60)
25,3
[60,75)
14,4
[75,…)
6,7
•si calcolano le densità come
rapporti tra le frequenze e le
ampiezze; queste saranno le
misure delle altezze dei
rettangoli.
Popolazione residente in Italia
nel 1991 divisa per classi di età
età
freq
ampiezza
densità
[0,5)
4,9
5
0,98
[5,15)
11,0
10
1,10
[15,20)
7,6
5
1,52
[20,40)
30,1
20
1,51
[40,60)
25,3
20
1,27
[60,75)
14,4
15
0,96
[75,105)
6,7
30
BASI
0,22
ALTEZZE
Batini-Olivieri, "Descrivere la realtà: i metodi della statistica"
Le classi non hanno la stessa ampiezza
Gruppo di Statistica IRRE Lombardia
37
ed ecco l’istogramma
risultante:
Gruppo di Statistica IRRE Lombardia
38
Alcune curiosità sui grafici
Residenti in Italia per classi di età - 1991
„
i grafici ingannevoli
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
[0,5)
[5,15)
[15,20)
[20,40)
[40,60)
[60,75)
[75,105)
grafico costruito con Excel (che in realtà NON disegna istogrammi)
Gruppo di Statistica IRRE Lombardia
39
Gruppo di Statistica IRRE Lombardia
40
Esempio 1: osserviamo il grafico seguente
I grafici ingannevoli
Delitti denunciati per criminalità violenta nel 1998
su 100.000 abitanti dai 14 anni in su (fonte: ISTAT)
“Esistono tre modi di alterare la verità:
230
220
mentire semplicemente,
210
200
190
mentire spudoratamente,
180
Bari
mentire con le statistiche.”
Winston Churchill
Gruppo di Statistica IRRE Lombardia
Gruppo Statisitca IRRE Lombardia
41
Bologna
Milano
Reggio C.
Roma
Torino
Trieste
E' stata tracciata solo una parte dell'asse y (scala incompleta).
Ad un primo colpo d'occhio si ha l'impressione (ingannevole) che, per
esempio, il numero di denunce a Trieste sia oltre il doppio di quello di
Milano e il quintuplo di quello di Roma! Bari invece sembrerebbe quasi
un’oasi di tranquillità.
Per leggere correttamente il fenomeno è necessario porre attenzione ai
valori posti sull'asse y.
Gruppo di Statistica IRRE Lombardia
42
7
…e si può ancora peggiorare...
…ma anche migliorare...
Delitti denunciati per criminalità violenta nel 1998
Delitti denunciati per criminalità violenta nel 1998
su 100.000 abitanti dai 14 anni in su
su 100.000 abitanti dai 14 anni in su
230
250
200
150
100
50
0
180
Bari
Bologna
Milano
Reggio C.
Roma
Torino
Bari
Trieste
E' stata tracciata solo una parte dell'asse y (scala incompleta), e sono
stati inoltre eliminati i valori intermedi, e la relativa griglia.
In questo modo è ancora più facile non accorgersi del “trucco”.
Gruppo di Statistica IRRE Lombardia
43
Esempio 2: osserviamo il grafico seguente
Milano
Reggio C.
Roma
Torino
Trieste
E' stata tracciato tutto l'asse y (scala completa).
L’impressione che riceviamo è completamente diversa da quella dei
grafici precedenti e, ovviamente, più aderente alla realtà.
Trieste ovviamente mantiene il suo “record” negativo, ma è “tallonata”
da Torino e Reggio Calabria. Il confronto con Milano e con Roma
viene percepito in termini decisamente non marcati. Per non parlare di
Bari, che sembrava quasi non interessata al fenomeno!
Gruppo di Statistica IRRE Lombardia
44
Come rappresentare correttamente il fenomeno:
Decessi al di sotto di un anno di età in Gran Bretagna
Decessi al di sotto di un anno di età in Gran Bretagna
120
120
100
su 1000 na ti vivi
80
60
40
20
0
1942
1944
1946
1948
1950
40
20
0
10
anno
19
anno
Il grafico è stato tracciato trascurando il fatto che gli anni cui si fa
riferimento non sono distanziati da uno stesso intervallo di tempo.
Dal 1910 al 1940 i dati sono "visibili" ogni dieci anni, in seguito invece
ogni due. Si ha l’impressione (non corretta) che il fenomeno tenda a
diminuire più “lentamente” negli ultimi anni rappresentati piuttosto che
nei primi.
Gruppo di Statistica IRRE Lombardia
19
40
19
42
19
44
19
46
19
48
19
50
1940
30
1930
60
19
1920
80
20
1910
100
19
su mille nati vivi
Bologna
Si ha una diversa percezione del fenomeno lungo gli anni se il grafico
viene tracciato rispettando la diversità degli intervalli temporali.
45
Un’altra rappresentazione corretta del fenomeno:
Gruppo di Statistica IRRE Lombardia
46
Esempio 3: osserviamo il grafico seguente
andamento fenomeno
Decessi al di sotto di un anno di età in Gran Bretagna
3
su m ille n a ti vivi
120
2,5
100
80
2
60
1,5
40
1
20
0,5
0
1910
1920
1930
1940
0
19 95
1950
199 6
1997
199 8
1999
2000
anno
Esso rappresenta l’andamento di un certo fenomeno nel tempo.
Il fenomeno non ha un andamento costante poiché presenta alcune
oscillazioni.
Un altro modo per avere una corretta percezione del fenomeno è
quello di rappresentare solo i dati distanziati di uno stesso intervallo
di tempo.
Gruppo di Statistica IRRE Lombardia
Gruppo Statisitca IRRE Lombardia
47
Gruppo di Statistica IRRE Lombardia
48
8
Come diminuire l’effetto oscillazione:
Come aumentare l’effetto oscillazione:
andamento fenomeno
andament o fenomeno
5
4
E’ stato dilatato l’asse y
(aumentandone la dimensione e
diminuendo il valore massimo
visibile) e contratto l’asse x.
2, 5
2
3
2
1
0
1995
Il fenomeno sembra presentare
oscillazioni più marcate rispetto
a quelle del grafico precedente.
1, 5
1
1996
1997
1998
1999
2000
Gruppo di Statistica IRRE Lombardia
Gruppo Statisitca IRRE Lombardia
1998
1999
2000
Il grafico risulta “appiattito” e le oscillazioni vengono percepite come poco
marcate. Si è indotti quindi a pensare che il fenomeno abbia un andamento
pressoché costante nel tempo.
0
1995
1997
E’ stato contratto l’asse y (diminuendone la dimensione, e aumentando il valore
massimo visibile) e dilatato l’asse x.
L’andamento del fenomeno viene
percepito come soggetto ad ampi
sbalzi.
0, 5
1996
49
Gruppo di Statistica IRRE Lombardia
50
9