Lezione 5 marzo 2015 File

annuncio pubblicitario
statistica
la rappresentazione grafica
alessandro polli
facoltà di scienze politiche, sociologia, comunicazione
5 marzo 2015
Rappresentazioni grafiche
Obiettivo
Le rappresentazioni grafiche hanno lo scopo di illustrare, mediante
figure, linee o segmenti, superfici o aree, solidi, simboli convenzionali
ecc., una distribuzione, di frequenze o di intensità, in funzione delle
modalità, qualitative o quantitative, di uno o più caratteri
Se il carattere è uno solo ed è qualitativo (mutabile sconnessa,
rettilinea o ciclica), la distribuzione statistica semplice, di frequenza o di
intensità, prende il nome di serie
se il carattere è quantitativo (variabile, scala di intervalli o scala di
rapporti), la distribuzione statistica semplice prende il nome di
seriazione
Rappresentazioni grafiche
Obiettivo
Nel caso in cui si abbiano due caratteri parleremo di distribuzione
statistica doppia, che può essere costituita da:
1. due caratteri qualitativi (ad es. la popolazione italiana secondo il
sesso e lo stato civile);
2. due caratteri quantitativi (ad es. la popolazione italiana secondo la
statura e il peso);
3. un carattere quantitativo (ad es. età) e un carattere qualitativo (ad
es. stato civile)
Nel caso infine di più di due caratteri si avrà una distribuzione statistica
multipla; i caratteri possono essere tutti quantitativi, variabili
(multivariata), tutti qualitativi o misti (variabili e mutabili).
Rappresentazioni grafiche
Vantaggi
La rappresentazione grafica di una distribuzione statistica presenta
alcuni vantaggi rispetto alla rappresentazione tabellare (numerica):
1. Consente una visualizzazione immediata dell’andamento del fenomeno e
della struttura della distribuzione e quindi una efficace descrizione globale
dei dati;
2. Consente, con notevole sintesi e in poco spazio, il confronto tra più
distribuzioni (curve, spezzate ecc.);
3. Ha potenzialità investigative: mette in rilievo casi “anomali” (particolari
“picchi” grafici) che possono essere dovuti a errori nei dati o a effettivi casi
“anomali” che invitano a ulteriori approfondimenti; correlazioni tra caratteri
aventi tra loro un legame logico; individuazione di andamenti di fondo
(trend) interpolabili con funzioni matematiche (ad es. curva normale, retta
ecc.);
4. Consente una forma più divulgativa per i dati statistici che non la forma
tabellare
Rappresentazioni grafiche
Diverse possibilità di rappresentazione
Per ogni distribuzione statistica semplice o doppia o multipla esiste il
tipo di rappresentazione grafica adatta e una stessa distribuzione può
essere rappresentata con più tipologie di grafico
In generale esistono dei vincoli tra tipo di rappresentazione grafica e
livello di misurazione dei caratteri da rappresentare che vanno
rispettati affinché questa sia corretta, ossia fornisca un’immagine
visiva quanto più possibile fedele del fenomeno e della sua
distribuzione statistica
Affinché una rappresentazione grafica sia utile ed efficace dovrebbe
contenere con immediatezza e chiarezza tutte le informazioni
necessarie alla comprensione dei dati in essa rappresentati
Rappresentazioni grafiche
I dati sono l’elemento centrale
Per massimizzare l’efficacia di un grafico l’attenzione deve essere
concentrata sui dati. Quindi le componenti di supporto:
1. Devono essere presenti solo se necessarie: titoli degli assi, legende
e etichette in alcuni casi possono essere essenziali per la
comprensione del grafico, ma in altri possono essere del tutto
inutili
2. Devono essere lievi: è preferibile usare linee più leggere per gli assi
e per la griglia e linee più marcate per i dati
3. Gli effetti decorativi non devono distogliere l’attenzione del lettore
dalla lettura dei dati
Rappresentazioni grafiche
I dati sono l’elemento centrale
Un grafico chiaro
Un grafico confuso
30
30
25
25
20
20
15
Serie1
15
10
10
10
10
0
A
B
C
Nel grafico a sinistra tutte le componenti
hanno un forte impatto cromatico e grafico:
il risultato è un grafico confuso, difficile da
leggere anche se sono presenti solo 3 valori
0
A
B
C
Il grafico a destra è più facile da leggere in
quanto caratterizzato da una maggiore
«leggerezza». Il ricorso a poche
componenti di supporto permette di
concentrare l’attenzione sui dati.
Rappresentazioni grafiche
I dati sono l’elemento centrale
Questi 2 grafici rappresentano la stessa distribuzione.
Qual dei 2 è più chiaro?
Quale settore del diagramma circolare è maggiore?
Rappresentazioni grafiche
Per la maggior parte delle persone è più facile confrontare segmenti
piuttosto che angoli. Nel diagramma circolare i settori numero 1 e 4
sembrano identici, mentre nel diagramma a barre è evidente la
differenza
È quindi sensato individuare la rappresentazione
grafica che meglio rappresenta il messaggio che si
vuole comunicare
Rappresentazioni grafiche
Rappresentazione grafica per caratteri qualitativi
I caratteri qualitativi possono essere efficacemente rappresentati
attraverso i seguenti strumenti grafici:
a) Grafici a barre
b) Diagrammi circolari
Rappresentazioni grafiche
I grafici a barre
I grafici a barre (o ortogrammi) sono impiegati per rappresentare graficamente
serie sconnesse o ordinali e possono essere di due tipi:
•
A colonne, se sono costituiti da una successione di colonne, segmenti
verticali o rettangoli equidistanti, in numero pari alle modalità del carattere,
e hanno altezza uguale o proporzionale alla frequenza (assoluta o relativa);
•
A nastri, se sono costituiti da tanti nastri (segmenti orizzontali, rettangoli)
sovrapposti ed equidistanti, in numero pari alle modalità del carattere, e
hanno lunghezza uguale o proporzionale alla frequenza (assoluta o relativa)
I grafici a barre sono pertanto caratterizzati dall’avere un solo asse (verticale nel
caso a colonne, orizzontale nel caso a nastri) in scala graduata, secondo l’unità di
misura che si è scelta per rappresentare le frequenze. Sull’altro asse, invece,
figureranno le modalità (qualitative), per convenzione equidistanti
Rappresentazioni grafiche
Ortogramma a colonne
Ortogramma a nastri
Se la rappresentazione grafica riguarda una serie sconnessa,
l’ordine in cui saranno poste le modalità è arbitrario; se si
tratta invece di una serie ordinale (es. titolo di studio), le
modalità saranno poste nell’ordine naturale che esse presentano
nella serie
Rappresentazioni grafiche
I diagrammi circolari
I diagrammi circolari (o areogrammi) per la loro forma circolare, sono
comunemente noti come «diagrammi a torta» (pie-chart)
Sono particolarmente adatti per la rappresentazione di serie sconnesse o
ordinali
Sono efficaci per mettere in evidenza l’importanza relativa delle singole
modalità rispetto al totale;
Ne esistono di vari tipi e principalmente:
• A spicchi o settori variabili, con angoli al centro corrispondenti alle
frequenze assolute ( o relative) delle singole modalità e raggio fisso;
• A spicchi o settori fissi, con angoli al centro uguali e raggio variabile
corrispondente alle frequenze assolute (o relative) delle singole modalità
Rappresentazioni grafiche
Areogramma a settori variabili
Areogramma a settori fissi
L’aereogramma a settori fissi è una rappresentazione grafica
particolarmente idonea nel caso di caratteri qualitativi ordinati
(es. graduatorie), in cui l’ordinamento è stabilito a priori in
funzione delle frequenze assolute
Rappresentazioni grafiche
Rappresentazione grafica per caratteri quantitativi
I caratteri qualitativi possono essere rappresentati attraverso i seguenti
strumenti grafici:
a)
b)
c)
d)
Istogrammi
Diagrammi cartesiani a segmenti
Poligono e curve di frequenza per variabili continue
Rappresentazioni di tipo informatico:
- a ramo e foglia (stem and leaf plot)
- a scatola (boxplot)
- le facce di Chernoff
- ideogrammi o pittogrammi
Rappresentazioni grafiche
Gli istogrammi
Gli istogrammi sono utilizzati per rappresentare distribuzioni di
frequenza di caratteri quantitativi le cui modalità sono costituite da
classi di valori. Distinguiamo due casi:
1. Le classi di valori hanno uguale ampiezza. In questo caso avremo
tanti rettangoli contigui, ciascuno avente base uguale all’ampiezza
della classe e altezza (densità) proporzionale alla frequenza
(assoluta o relativa) associata alla classe
L’ipotesi di base su cui si
fonda la rappresentazione
per istogrammi è che le
unità classificate in
ciascuna classe di valori
siano equidistribuite
Rappresentazioni grafiche
Gli istogrammi
2. Le classi di valori hanno diversa ampiezza. In quest’altro caso
avremo una serie di rettangoli caratterizzati da basi diverse, uguali
all’ampiezza delle classi, e altezze proporzionali alle frequenze
(assolute e relative), per garantire che queste equivalgano alle aree
dei rispettivi rettangoli
In ordinata, pertanto,
avremo le cosiddette
densità di frequenza,
date dal rapporto tra la
frequenza (assoluta o
relativa) di ciascuna classe
e la relativa ampiezza:
𝛿𝑖 =
𝑁𝑖
𝑎𝑖
Rappresentazioni grafiche
I diagrammi cartesiani a segmenti
Sono impiegati per rappresentare graficamente caratteri quantitativi
discreti, non ripartiti in classi, e si configurano come diagrammi a
segmenti verticali (c.d. a canne d’organo)
Esempio. Numero dei componenti per famiglia, numero delle stanze
delle abitazioni, numero di unità locali delle aziende e così via.
In questo caso è
inappropriato costruire il
poligono di frequenza
poiché il carattere è
discreto e quindi tra le
singole modalità non
esistono valori intermedi
Rappresentazioni grafiche
Poligoni di frequenza
I diagrammi cartesiani ortogonali sono impiegati anche per
rappresentare graficamente i caratteri quantitativi continui (come ad
esempio redditi, prezzi) o, nel caso delle serie storiche, per quei
caratteri che si suppone si modifichino con continuità nel tempo
La costruzione di tali diagrammi è del tutto analoga a quella vista per i
diagrammi ad aste o segmenti salvo che, in questo caso, una volta
rappresentati nel piano cartesiano i punti rappresentanti la
distribuzione considerata, essi vanno uniti mediante una spezzata detta
poligono di frequenza
Rappresentazioni grafiche
Poligoni di frequenza
All’aumentare del numero di unità rilevate il poligono di frequenza si
approssima sempre più a una linea continua detta curva di frequenza,
la quale talvolta è esprimibile anche mediante l’ausilio di funzioni
matematiche
Rappresentazioni grafiche
Poligoni di frequenza
Problemi di scala: i due grafici rappresentano la stessa distribuzione ma
l’andamento della serie è nei due casi percepito in maniera diversa
Il grafico a sinistra mostra un
trend stabile per circa 10 anni,
seguito da una moderata
crescita
Riducendo la scala sull’asse delle
ordinate (grafico a destra) si
evidenziano le variazioni
intervenute nei primi dieci anni
e la crescita dell’ultimo periodo
è enfatizzata
Rappresentazioni grafiche
Rappresentazioni informatiche: il diagramma ramo-foglia
Un modo interessante per rappresentare la distribuzione di frequenza
in classi è quello di partire dalla costruzione del diagramma ramo-foglia
(proposto da J.W. Tukey nel 1977). Tale grafico, adatto per caratteri
quantitativi in collettivi poco numerosi, rappresenta i
numeri tenendo conto del valore posizionale delle cifre nel sistema
decimale
Rappresentazioni grafiche
Rappresentazioni informatiche: il diagramma ramo-foglia
Ipotizziamo di aver svolto un’indagine per accertare i tempi medi di
percorrenza casa-lavoro di un campione di N=55 studenti che hanno
svolto attività di stage e che i risultati siano stati raccolti nel seguente
prospetto di rilevazione:
Rappresentazioni grafiche
Rappresentazioni informatiche: il diagramma ramo-foglia
I dati della nostra indagine sono numeri composti da unità e da decine
e quindi possiamo utilizzare tale caratteristica per distribuirli. Il (r-f) è
costituito da tanti rami quanti sono le decine evidenziate nei dati
osservati e, per ogni ramo, da tante foglie quante sono le unità
riscontrate
Per i dati in oggetto otterremo il
grafico a sinistra, dove, ad esempio, il
valore 25 è rappresentato con una
‘foglia’ (5) nel ‘ramo’ 2; tale
rappresentazione permette di
evidenziare il dato più frequente e di
contare il numero di valori compresi
fra due decine consecutive, rendendo
molto più agevole la costruzione di un
prospetto di sintesi
Rappresentazioni grafiche
Rappresentazioni informatiche: il diagramma a scatola (box-plot)
È una rappresentazione grafica che consente di leggere con
immediatezza le principali caratteristiche di una distribuzione
osservata:
Il box-plot si configura come un
rettangolo, in cui:
1. I lati inferiore e superiore
indicano rispettivamente il 1°
quartile (Q1) e il 3° quartile (Q3)
della distribuzione considerata
2. La linea tratteggiata all’interno
del rettangolo indica la posizione
della mediana (Q2=2° quartile)
3. Il simbolo ‘‘+’’ rappresenta la media aritmetica
4. Le linee verticali tratteggiate (whiskers) indicano l’estensione
della distribuzione dal valore minimo della distribuzione a Q1 e da Q3 al
valore massimo osservato
Rappresentazioni grafiche
Rappresentazioni informatiche: le facce di Chernoff
Introdotta nel 1973 ed eseguibile soltanto tramite computer e software
apposito, utilizza i tratti di un volto (occhi, naso, bocca) per
rappresentare le diverse componenti di un’informazione. Le facce di
Chernoff possono essere adottate sia per distribuzioni statistiche
semplici che multiple
Un limite di queste rappresentazioni è che l’informazione che se ne
ricava è più di tipo qualitativo (somiglianze, dissomiglianze) che
quantitativo
Rappresentazioni grafiche
Rappresentazioni informatiche: ideogrammi o pittogrammi
Rappresentazioni grafiche aventi carattere divulgativo, si avvalgono di
figure, simboli, generalmente tutti simili tra loro, aventi un’immediata
attinenza con il carattere considerato (figure umane, oggetti ecc.) e di
grandezza o numero variabile per indicare l’entità della frequenza o
dell’intensità del carattere rappresentato
Qualsiasi carattere statistico (qualitativo o quantitativo) può essere
rappresentato con questa tipologia di grafici
Rappresentazioni grafiche
Rappresentazioni grafiche di distribuzioni statistiche doppie
Le distribuzioni statistiche doppie possono essere rappresentate
attraverso i seguenti strumenti grafici:
a)
b)
c)
d)
Nuvola di punti (diagramma scatter, scatter-plot)
Stereogramma
Cartodiagrammi
Piramide delle età
Rappresentazioni grafiche
Nuvola di punti o scatter-plot
Rappresentazione grafica adottata nel caso di una distribuzione
statistica doppia (X,Y) in cui entrambi i caratteri sono quantitativi
perché consente di visualizzare la correlazione esistente fra le variabili
Lo scatter-plot rappresenta su un diagramma cartesiano le unità
statistiche, individuate da una coppia di valori (xi,yi), ad esempio
altezza e peso
La nuvola dei punti consente di evidenziare la dispersione tra le unità
statistiche, che influisce sulla conformazione della nuvola dei punti e
può fornire indicazioni sul tipo di relazione esistente tra le due variabili
Rappresentazioni grafiche
Nuvola di punti o scatter-plot
1. Se la nuvola di punti assume una forma «sferica», tra le due
variabili non sussiste un legame di tipo lineare;
2. Se i punti tendono invece a disporsi lungo una retta, le due variabili
hanno una relazione di tipo lineare (del tipo 𝑦 = 𝛼 + 𝛽𝑥 )
Rappresentazioni grafiche
Stereogramma
Lo stereogramma è una rappresentazione grafica particolarmente
indicata per mutabili o variabili statistiche doppie
Lo stereogramma è costituito da una diagramma cartesiano ortogonale
in uno spazio a tre dimensioni, in cui sui tre assi (x, y e z) sono riportati
rispettivamente i valori della variabile X, i valori della variabile Y e le
frequenze assolute o relative congiunte delle due variabili
Rappresentazioni grafiche
Stereogramma
A seconda che le variabili siano entrambe discrete, una discreta e una
continua oppure entrambe continue, lo stereogramma sarà del tipo:
A pali, nel caso di due
variabili discrete
A curve, nel caso in cui entrambe le
variabili sono continue oppure una
è discreta e l’altra continua
Rappresentazioni grafiche
Cartodiagramma
Il cartodiagramma è un cartogrammi in cui, anziché delle serie
territoriali semplici, sono rappresentate delle serie territoriali di due o
più caratteri
Esempio: I nati vivi e i morti
per 1.000 abitanti nelle 20
Regioni italiane nel 1986
Rappresentazioni grafiche
Piramide delle età
È una particolare ed efficace rappresentazione grafica della struttura
per età e sesso di un dato collettivo o popolazione
È rappresentata da due istogrammi rovesciati, corrispondenti ai due
sessi, in cui sull’asse verticale comune è indicata l’età ripartita in classi
e sull’asse orizzontale le frequenze (assolute o relative) dei maschi e
delle femmine, corrispondenti a ciascuna classe di età considerata
Rappresentazioni grafiche
Piramide delle età
Dalla forma assunta dalla piramide è possibile trarre indicazioni sia sui
fattori che caratterizzano la struttura per età e sesso attuale che
sull’evoluzione passata nonché previsioni per un arco di tempo non
superiore a un secolo. Tali indicazioni possono essere tratte
analizzando, in particolare:
1. La base, che fornisce indicazioni circa il flusso delle nascite. Se è molto
larga, si ha un flusso di nascite consistente; se è stretta significa che il flusso
delle nascite è scarso e non garantisce il ricambio generazionale;
2. L’inclinazione dei lati, che fornisce indicazioni circa il livello generale di
eliminazione per morte. Se l’obliquità dei lati è forte, si ha un’alta mortalità;
se è debole, si ha una bassa mortalità;
3. La presenza di rigonfiamenti o strozzature per particolari classi d’età, che
fornisce indicazione dell’intervento di particolari fattori di perturbazione (es.
Prima Guerra Mondiale)
Bibliografia
UNECE, Making Data Meaningful Part 2: A guide to presenting statistics, United
Nations, Geneva 2009
Scarica