Rappresentazioni grafiche per variabili qualitative - UniFI

Diagrammi a barre per variabili qualitative
X = mezzo di trasporto usato per recarsi al lavoro
Rappresentazioni
grafiche per
variabili qualitative

Barre verticali, categorie lungo l’asse orizzontale

Altezze proporzionali alle frequenze (assolute o relative)

In alternativa: barre orizzontali – preferibile se le modalità sono molte
Cicchitelli Cap. 3
NB. Le barre sono separate: la variabile non può assumere
valori tra una categoria e l’altra
L. Grilli ‐ Statistica 2013/2014
96
Ordine delle barre
97
L. Grilli ‐ Statistica 2013/2014
Diagramma a barre accostate
VARIABILI SCONNESSE: nel diagramma per il mezzo di trasporto o in quello dell’arrivo in orario
(sì o no) l’ordine delle barre è arbitrario
femmina
14
5
19
fumo no
fumo sì
maschio
27
9
36
X = fumatore
Y = sesso
41
14
55
Diagramma a barre accostate
maschio
fumo sì
femmina
VARIABILI ORDINALI: nel diagramma dell’ora di sveglia le categorie sono ordinate e quindi devono essere rappresentate nell’ordine giusto per vedere l’andamento delle frequenze
L. Grilli ‐ Statistica 2013/2014
fumo no
0
10
20
30
Frequenze assolute


98
Le barre del diagramma rappresentano le frequenze congiunte: ci sono 14 femmine non fumatrici
Confrontando le barre adiacenti possiamo vedere che sia tra i maschi che tra le femmine prevalgono i non fumatori
Confrontando le due barre viola, possiamo vedere che tra i fumatori ci sono più maschi che femmine
L. Grilli ‐ Statistica 2013/2014
99
Diagramma a barre in pila
femmina
14
5
19
fumo no
fumo sì
maschio
27
9
36
Diagramma a barre in pila 100%
41
14
55
femmina
14
5
19
fumo no
fumo sì
Diagramma a barre in pila
femmina
30
0%
40
25%
996
in cerca di 1a occup.
altri
TOTALE
1152
L. Grilli ‐ Statistica 2013/2014
101
Barre o torta?
Tab. 2- Forze lavoro per
condizione, anno 1999 (migliaia)
disoccupati
100%
Per confrontare le proporzioni di fumatori tra i maschi e le femmine, conviene impilare le barre usando le percentuali di colonna anziché le frequenze
Diagramma a torta
Freq.
75%
100
L. Grilli ‐ Statistica 2013/2014
20435
50%
Frequenze relative %
Per capire qual è la proporzione di fumatori tra i maschi e le femmine, conviene impilare le barre occupati
maschio
75.0%
25.0%
100.0%
fumo sì
Frequenze assolute
Condizione
femmina
73.7%
26.3%
100.0%
fumo no
femmina
fumo sì
20
fumo no
fumo sì
maschio
fumo no
10
41
14
55
Diagramma a barre in pila 100%
maschio
0
maschio
27
9
36
Diagramma circolare (torta): angolo al centro proporzionale alla frequenza

Diagramma a barre  migliore percezione delle differenze

Diagramma a torta  migliore percezione della composizione
596
23179
Occupati
Fonte: Istat, Rapporto
sull'Italia 2001
in cerca di 1a occup.
disoccupati
  360 
nj
altri
N
L. Grilli ‐ Statistica 2013/2014
0
102
0.2
0.4
0.6
0.8
1
L. Grilli ‐ Statistica 2013/2014
103
http://www.causeweb.org
Un grafico orrendo
Located at http://people.howstuffworks.com/prison4.htm
104
105
Grafici per variabili quantitative
Rappresentazioni
grafiche per variabili
quantitative

Per capire come sintetizzare la distribuzione di un carattere quantitativo è utile conoscere la sua forma

La forma di una distribuzione può essere vista attraverso un grafico

Grafici più utilizzati
● Dot‐plot
● Ramo‐foglia (Steam and leaf)
● Istogramma
● Diagramma a bastoncini
● Box‐plot [verrà presentato più avanti, dopo gli indici di forma]
Cicchitelli Cap. 3
106
L. Grilli ‐ Statistica 2013/2014
107
Diagramma a bastoncini
Dot‐plot
Quando la variabile è discreta con poche modalità

Diagramma a bastoncini: altezza proporzionale alla frequenza
Tab. 3 – Famiglie per numero di
componenti. Italia 1998.

Bar Chart
Componenti
freq.
%
6000000
1
2
3
4
5
6 e più
Totale
4594130
5527810
4954870
4466810
1294420
381960
21220000
21.65
26.05
23.35
21.05
6.1
1.8
100
5000000
Il dot‐plot mostra i singoli casi osservati come punti
dal dot‐plot possiamo vedere la forma, il centro e la dispersione dei dati
4000000
Velocità di alcuni mammiferi
5
15
Il dot-plot è utile quando:
• si hanno pochi casi
• si vogliono vedere i singoli valori
3000000
2000000
25
35
45
55
65
75
velocità (mph)
1000000
Fonte: Istat, Rapporto sull'Italia 2001
Attenzione. Software diversi fanno dot-plot diversi: a volte 1 punto rappresenta 1
singolo caso, a volte 2 o più casi, a volte i valori vengono arrotondati
0
1
2
3
4
5
6 e più
Componenti
108
L. Grilli ‐ Statistica 2013/2014


Dot‐plot: durata gestazione di alcuni mammiferi
Istogramma
La distribuzione è centrata verso i valori più bassi, senza gruppi o buchi particolari
C’è una sorta di ‘muro’ a 0 giorni, perché nessun mammifero può avere un periodo di gestazione più piccolo! 

elefante
160
0
100
200
300
400
500
600
700

durata gestazione (giorni)



L. Grilli ‐ Statistica 2013/2014
L’elefante è l’unico mammifero fuori norma (outlier)
Circa la metà dei mammiferi hanno un periodo di gestazione superiore a 160 giorni e la metà hanno un periodo più breve
La metà centrale ha un periodo di gestazione che varia tra i 63 e i 284 giorni.
L. Grilli ‐ Statistica 2013/2014

110
109
L’istogramma rappresenta un insieme di casi (raggruppati in classi) come rettangoli
Se le classi sono di uguale ampiezza, l’altezza del rettangolo è proporzionale alla frequenza della classe (molti programmi di analisi dei dati consentono solo classi di uguale ampiezza)
L’istogramma può essere costruito utilizzando sia le frequenze assolute che relative
Rappresenta la distribuzione sotto la seguente ipotesi: in ogni classe le frequenze sono uniformemente distribuite nell’intervallo
L. Grilli ‐ Statistica 2013/2014
111
Istogramma: esempio (freq. assolute)
Istogramma: esempio (freq. relative) Quale proporzione degli studenti ha un’altezza di 180 cm o più?
Soluzione
 Individuare l’intervallo di valori >180 sull’asse X
 Quale proporzione dell’area totale corrisponde alle barre su questo intervallo?

10 |- 20
20 |- 30
30 |- 40
40 |- 50
50 |- 60
Frequenza
3
6
5
4
2
Is t o gra m m a : T e m pe ra t ura M a s s im a
G io rna lie ra
7
5
5
4
4
3
3
2
2
1
Il carattere è continuo
 non c’è spazio fra le
barre!
6
6
Frequenza
Intervallo
0
0
0
0 0 10 10 2020 30 30 40 40 50 50 60 60 70
Temperatura in Gradi
112
L. Grilli ‐ Statistica 2013/2014
Istogramma: quante classi?



L. Grilli ‐ Statistica 2013/2014
113
L’arte di fare istogrammi
Cambiando l’ampiezza delle classi dell’istogramma (o cambiando il numero di classi) a volte si ha un’impressione diversa della forma della distribuzione
Per esempio, l’istogramma (1) per la velocità dei mammiferi ha meno barre ma più ampie rispetto all’istogramma (2) e mostra una forma a campana più simmetrica, con un solo picco invece di due Se ci sono pochi valori è difficile identificare i picchi, in questi casi è meglio utilizzare grafici che mostrano i singoli dati, come il dot‐plot o il ramo‐foglia
(1)
• A occhio questa proporzione è circa 1/3  circa 1/3 degli studenti hanno un’altezza>180
• In maniera più precisa: possiamo sommare le altezze delle 3 barre dell’istogramma alla destra di 180, cioè 22+6+2 = 30  30%
(2)



Non c’è una regola per trovare qual è l’ampiezza di classe migliore per disegnare l’istogramma, proprio come per un fotografo non c’è una regola che dica quando e come usare lo zoom! Versioni diverse del grafico mettono in luce caratteristiche differenti della distribuzione: l’abilità dello statistico sta nel trovare una versione che mostra bene le caratteristiche più importanti!
Un istogramma è una buona rappresentazione dei dati quando:
Ci sono molti valori da rappresentare
Non interessa conoscere la posizione di ciascun valore
 Si è interessati a mostrare la forma generale della distribuzione


L. Grilli ‐ Statistica 2013/2014
114
L. Grilli ‐ Statistica 2013/2014
115
Istogramma: classi di ampiezza diversa
Istogramma: classi di ampiezza diversa (cont)
Altezza = hi = fi / ai = densità classe
xi-1
xi
X
Base = xi – xi-1 = ai = ampiezza classe
Area = ai  hi = fi = frequenza classe
Definire classi di ampiezza variabile è utile quando vi sono intervalli con alta frequenza e intervalli con bassa frequenza (es. per la variabile «reddito mensile da lavoro dipendente» molti lavoratori hanno valori tra 1000 e 2000 euro ( è opportuno fare classi di 100 euro), pochi tra 8000 e 10000 ( bastano classi di 500 o 1000 euro)
Classi
Freq.rel.
Ampiezza
Densità
x0- x1
f1
a1
h1
…
…
…
…
xi-1- xi
fi
ai
hi
…
…
…
…
xk-1- xk
fk
ak
hk
Totale
1
Densità di frequenza:
Ampiezza di classe:
116
L. Grilli ‐ Statistica 2013/2014
Istogramma: classi di ampiezza diversa (cont)
hi = fi /ai
ai = xixi-1
L. Grilli ‐ Statistica 2013/2014
117
La funzione di ripartizione
Data una v.s. quantitativa X si dice funzione di ripartizione
F(x) la frequenza relativa (proporzione) dei valori minori o
uguali a x:
Distribuzione dei
redditieri per classi
di reddito dichiarato
in milioni di lire
(Italia, 1977)
F ( x)  pr  u : X (u )  x   pr  X  x 
Proprietà:
• F(x)=0 per x < xmin
• F(x)=1 per x ≥ xmax
• F(x) non decrescente
Insieme delle modalità ordinate di X:
X discreta {xmin,…, xj ,…, xmax }
X continua [xmin, xmax ]
Vediamo 2 tipi di funzione di ripartizione: quella empirica e quella dedotta dall’istogramma
L. Grilli ‐ Statistica 2013/2014
118
L. Grilli ‐ Statistica 2013/2014
119
Funzione di ripartizione empirica
Funzione di ripartizione empirica (cont)
Data una successione di dati grezzi x1, x2, …, xn di
una v.s. X, la F(X) calcolata a partire da tali dati è
detta funzione di ripartizione empirica.
Proprietà:
• F(X<xmin)=0; F(X≥xmax)=1; non decrescente
1
0.875
• Funzione ‘a gradini’: costante in [xj-1; xj)
0.75
X = {0,0,3,5,5,12,15,15}
xj
nj
0
3
5
12
15
tot
fj
F(x)
2
1
2
1
0.250
0.125
0.250
0.125
0.250
0.375
0.625
0.750
2
8
0.250 1.000
1.000
fj
0.625
0.5
0.375
• In X=xj F(x) ‘salta’ di fj (frequenza rel. di xj)
0.25
0.125
0
-1
1
3
5
7
9
11
13
15
17
1
0.875
1
0.875
0.625
0.5
0.75
Pr(y<=5)
Fj
0.75
0.625
f(y=5)
fj
0.5
0.375
0.375
0.25
0.25
0.125
0.125
0
-1
1
3
5
7
9
11
13
15
17
0
-1
1
3
120
L. Grilli ‐ Statistica 2013/2014
Funzione di ripartizione dedotta
dalla densità (variabili continue)
5
7
9
11
13
15
17
121
L. Grilli ‐ Statistica 2013/2014
Funzione di ripartizione dedotta
dalla densità (variabili continue)
Proprietà:
x

pr ( X  x)  F ( x) 
• F(X<xmin)=0; F(X≥xmax)=1; non decrescente
f (t )dt

• Funzione lineare in [xj-1; xj)
Ipotesi dell’istogramma
• la derivata prima rappresenta la pendenza dei segmenti di
retta che uniscono due estremi di classe successivi
F ( x)  F ( x j 1 )  h j ( x  x j 1 ),
hj 
densità
x   x j 1 ; x j 
1
0.9
fj
Interpolazione lineare
in (xj-1; xj)
0.8
0.7
x j  x j 1
0.6
F ( x)  F ( x j 1 )  h j ( x  x j 1 )
Esatta in xj
0.5
0.4
0.3
0.2
0.1
0
L. Grilli ‐ Statistica 2013/2014
122
0
10
20
30
40
50
60
70
80
L. Grilli ‐ Statistica 2013/2014
90
100
123
Grafici per serie storiche
Cartogrammi
Rappresentazione di serie territoriali
Sottoscrizioni alla rivista per anno
350
250
Aree geografiche: comuni
200
150
Carattere: densità della popolazione
100
50
0
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
Forma della distribuzione: simmetrica
125
L. Grilli ‐ Statistica 2013/2014
Forma della distribuzione: asimmetrica
La forma della distribuzione si dice simmetrica se le osservazioni sono distribuite approssimativamente in modo simmetrico rispetto al centro La forma della distribuzione è detta asimmetrica se le osservazioni sono distribuite in modo marcatamente asimmetrico
Distribuzione con Asimmetria Positiva
Distribuzione Simmetrica
10
9
8
7
6
5
4
3
2
1
0
12
10
Frequenza
Una distribuzione con asimmetria
positiva (obliqua a destra) ha una
coda che si estende a destra, nella
direzione dei valori positivi.
8
6
4
2
0
1
Una distribuzione con asimmetria
negativa (obliqua a sinistra) ha una
coda che si estende a sinistra, nella
direzione dei valori negativi.
1
2
3
4
5
6
7
8
2
3
4
5
6
7
8
9
8
9
Distribuzione con Asimmetria Negativa
12
10
Frequenza
1991
1990
124
L. Grilli ‐ Statistica 2013/2014
Frequenza
Migliaia di sottoscrittori
300
8
6
4
2
9
0
1
L. Grilli ‐ Statistica 2013/2014
126
L. Grilli ‐ Statistica 2013/2014
2
3
4
5
6
7
127
L. Grilli ‐ Statistica 2013/2014
128
L. Grilli ‐ Statistica 2013/2014
129
130
L. Grilli ‐ Statistica 2013/2014
131
Grafici ingannevoli


Come insegna il classico libro di D. Huff «Mentire con la statistica» il grafici possono essere disegnati in modo da trarre in inganno
I due trucchi più frequenti sono
 Compressione o espansione degli assi del diagramma cartesiano
 L’asse verticale che non parte da zero

A volte invece i grafici sono semplicemente inutili perché non aggiungono niente ad una sintesi in forma di tabella (tali grafici spesso hanno il fine di catturare l’attenzione del lettore)
L. Grilli ‐ Statistica 2013/2014
Un grafico inutile
Delitti denunciati per criminalità violenta nel 1998 su 100.000
abitanti dai 14 anni in su (fonte: ISTAT)
Due grafici a barre per gli stessi dati: nel primo l’asse verticale parte da zero, nel secondo parte da 180
250
200
150
100
50
0
Bari
Bologna
Milano
Torino
Delitti denunciati per crim inalità violenta nel 1998 su 100.000
abitanti dai 14 anni in su (fonte: ISTAT)
230
220
210
200
190
180
Bari
Bologna
Milano
Qui l’asse verticale non parte da zero: sembra che il tasso di denunce a Torino sia oltre il doppio che a Milano, mentre Bari appare un oasi di tranquillità!
Fonte: adattato da S. Watterson: “Liquid Gold-Australians Are Changing the World of Wine. Even
the French Seem Grateful”, Time, 22 novembre 1999, 68.
Torino
L. Grilli ‐ Statistica 2013/2014
132
L. Grilli ‐ Statistica 2013/2014
133