La rappresentazione grafica di dati statistici COS’E’ UN GRAFICO ? E’ la rappresentazione di un fenomeno mediante un disegno. Gruppo di lavoro per la didattica della Statistica dell’IRRE Lombardia Proposta di Monica Terenghi Gruppo di Statistica IRRE Lombardia 1 Gruppo di Statistica IRRE Lombardia PRINCIPALI RAPPRESENTAZIONI GRAFICHE DI DISTRIBUZIONI SEMPLICI Esistono diversi tipi di grafici CARATTERE La scelta dipende da: ¾ ¾ ¾ QUALITATIVO natura del fenomeno che si vuole rappresentare tipo di carattere che descrive il fenomeno numero dei caratteri coinvolti nel fenomeno (distribuzioni semplici/multiple) Gruppo di Statistica IRRE Lombardia SCONNESSO ORDINATO a torta a barre Ha l’aspetto di un cerchio suddiviso in settori di diversa ampiezza. Il cerchio rappresenta il totale delle unità statistiche QUANTITATIVO DISCRETO a colonne Gruppo Statisitca IRRE Lombardia 5 a punti cartesiano (ripart. - dens) istogramma Gruppo di Statistica IRRE Lombardia 4 DIAGRAMMA A TORTA Ad ogni settore corrisponde una delle diverse modalità con cui si presenta il carattere indagato. • L’ampiezza dei singoli …settori è proporzionale …alla frequenza della …modalità da esso …rappresentata. Gruppo di Statistica IRRE Lombardia CONTINUO ideogramma 3 DIAGRAMMA A TORTA 2 mod.4 mod.1 mod.2 mod.3 Gruppo di Statistica IRRE Lombardia 6 1 Esempio Si vuole rappresentare la diffusione del fumo in Italia nel 1994, secondo quanto indicato nella tabella di frequenze a fianco. Costruiamo un diagramma a torta La torta viene suddivisa in tre “fette”, l’ampiezza delle quali si calcola in modo proporzionale alla frequenza di ogni modalità. Ad esempio: la “fetta” relativa alla modalità “ex fumatori” è quella individuata dall’angolo al centro che misura (19,6:100) x360°, cioè quasi 71°. 1994 Mai fumatori 54,1 Ex fumatori 19,6 Fumatori 26,3 Fonte: ISTAT Gruppo di Statistica IRRE Lombardia 7 frequenze angoli Mai fumatori 54,1 194,76 Ex fumatori 19,6 70,56 Fumatori 26,3 94,68 TOTALE 100 360 Gruppo di Statistica IRRE Lombardia 8 Spesso, soprattutto sui mass media, i diagrammi a torta sono a settori esplosi e/o tridimensionali Ed ecco il diagramma risultante: Diffusione del fumo in Italia - 1994 Diffusione del fumo in Italia - 1994 26,3 Mai fumatori 26,3 54,1 Ex fumatori Fumatori 19,6 Diffusione del fumo in Italia - 1994 Mai fumatori Ex fumatori Fumatori 54,1 26,3 M ai f umat ori 19,6 Ex f umat ori 54,1 Fumat ori 19,6 Gruppo di Statistica IRRE Lombardia 9 Quando è O.K.? quando si vuole ottenere una visione globale e parziale del fenomeno per un rapido confronto tra il “totale” e le parti che lo compongono. Gruppo Statisitca IRRE Lombardia 10 Quando è K.O.? quando ogni unità statistica rientra in una delle categorie individuate dalle modalità del carattere Gruppo di Statistica IRRE Lombardia Gruppo di Statistica IRRE Lombardia 11 non è adatto a rappresentare fenomeni in cui il carattere si manifesti con numerose modalità non permette un rapido confronto tra lo stesso fenomeno visto in situazioni diverse In entrambi i casi è consigliabile un diagramma a barre Gruppo di Statistica IRRE Lombardia 12 2 DIAGRAMMA A BARRE Ad ogni rettangolo corrisponde una delle diverse modalità con cui si manifesta il carattere La distribuzione è rappresentata da una serie di rettangoli VERTICALI allineati su un asse orizzontale e aventi tutti base della stessa dimensione. ORIZZONTALI allineati su un asse verticale e aventi tutti altezza della stessa dimensione. BARRE VERTICALI L’altezza dei singoli rettangoli è proporzionale alla frequenza della modalità cui si riferisce BARRE ORIZZONTALI La base dei singoli rettangoli è proporzionale alla frequenza della modalità cui si riferisce mod.6 40 35 mod.5 30 mod.4 25 20 mod.3 15 mod.2 10 5 mod.1 0 0 mod.1 mod.2 mod.3 mod.4 mod.5 mod.6 Gruppo di Statistica IRRE Lombardia 13 FREQUENZE 54,1 Ex fumatori 19,6 Fumatori 26,3 40 Gruppo di Statistica IRRE Lombardia 14 Diffusione del fumo in Italia - 1994 54,1 50 40 30 26,3 19,6 20 fonte: ISTAT 30 60 PERCENTUALI Mai fumatori 20 L’efficacia del diagramma a barre è evidente in situazioni in cui: ESEMPIO DI DIAGRAMMA A BARRE TABELLA DELLE 10 si vogliano confrontare gli aspetti di uno stesso fenomeno in collettivi diversi o in periodi diversi 10 Ex fumatori Fumatori Gruppo di Statistica IRRE Lombardia 15 DIAGRAMMA A BARRE CONTIGUE 1,6 40 max lic.elem. 40,8 30 media inf. 34,0 20 diploma 19,0 10 laurea 4,6 0 Gruppo di Statistica IRRE Lombardia 35 25 15 5 analfabeti max lic.elem. media inf. diploma laurea Fonte: ISTAT A volte, soprattutto nel caso in cui il carattere sia ordinato, le barre sono contigue l’una all’altra e le modalità sono disposte, secondo la loro successione, lungo l’asse orizzontale Gruppo di Statistica IRRE Lombardia Gruppo Statisitca IRRE Lombardia 16 Poiché sia le modalità che le frequenze sono espresse da un valore numerico, si può utilizzare il piano cartesiano ortogonale popolazione di età superiore ai 6 anni 45 analfabeti esempio CARATTERE QUANTITATIVO DISCRETO Grado di istruzione in Italia 1991 1991 il carattere indagato presenti numerose modalità esempio 0 Mai fumatori 17 ad ogni modalità corrisponde un punto dell’asse delle ascisse ad ogni frequenza corrisponde un punto dell’asse delle ordinate Gruppo di Statistica IRRE Lombardia 18 3 Si ottiene il seguente grafico a punti: Esempio COMPOSIZIONE DELLE FAMIGLIE ITALIANE ANNO 1991 (fonte ISTAT) numero di frequenza 30 frequenze percentuali Si vogliono rappresentare le famiglie italiane per numero di componenti nel 1991. Composizione famiglie - Italia 1991 componenti percentuale 1 20,6 2 24,7 3 22,2 4 21,2 5 7,9 >5 3,4 25 20 15 10 5 0 0 1 2 3 4 5 6 n° com ponenti Gruppo di Statistica IRRE Lombardia 19 Gruppo di Statistica IRRE Lombardia 20 più spesso però si utilizza un grafico a colonne “sottili”, poiché il diagramma ad aste non è previsto nei fogli elettronici oppure un diagramma ad aste Composizione famiglie - Italia 1991 frequenze percentuali 30 25 20 15 10 5 0 1 2 3 4 5 6 n° com ponenti Gruppo di Statistica IRRE Lombardia 21 Gruppo di Statistica IRRE Lombardia Confronto tra il 1951 e il 1991 Si ottiene il seguente grafico a punti: COMPOSIZIONE DELLE FAMIGLIE ITALIANE ANNO 1991 (fonte ISTAT) numero di 1951 Composizione famiglie - Italia 1951 e 1991 1991 componenti frequenze frequenze 1 9,5 20,6 2 17,4 24,7 3 20,7 22,2 4 19,0 21,2 5 13,3 7,9 >5 20,1 3,4 Gruppo di Statistica IRRE Lombardia Gruppo Statisitca IRRE Lombardia 30 frequenze percentuali Per confrontare lo stesso fenomeno in due momenti temporali diversi si possono immettere i dati sullo stesso piano cartesiano, rappresentando i punti o le colonne relativi alle due distribuzioni con colori diversi. In questo modo è facilitata la comparazione tra la situazione nel 1951 e quella di 40 anni dopo. 22 25 20 1951 15 1991 10 5 0 0 1 2 3 4 5 6 n° com ponenti 23 Gruppo di Statistica IRRE Lombardia 24 4 o il seguente grafico a colonne DIAGRAMMA CARTESIANO Composizione famiglie - Italia 1951 e 1991 frequenze percentuali 30 25 20 1951 15 In generale il diagramma cartesiano è utilizzato per rappresentare fenomeni che si evolvono con continuità nel tempo. 1991 10 5 0 1 2 3 4 5 6 n° com ponenti Gruppo di Statistica IRRE Lombardia 25 Gruppo di Statistica IRRE Lombardia DIAGRAMMA CARTESIANO 26 ESEMPIO L’asse delle ascisse rappresenta l’asse temporale, mentre sull’asse delle ordinate vengono indicate le modalità del carattere, cioè le intensità. I punti del piano cartesiano che rappresentano le coppie di dati disponibili (momento considerato, relativa intensità) vengono uniti tra loro in modo da formare una spezzata. La tabella riporta i livelli di Pm10 registrati dalle centraline dell’Agenzia Regionale di Protezione dell’Ambiente nella giornata di domenica 13/1/02 durante il blocco del traffico. andamento fenomeno 3 2,5 2 1,5 1 Pioltello-Limito sab-dom (*) 133,7 dom. ore 8 35 dom. ore 10 79 dom. ore 12 38 dom. ore 14 16 Fonte: Corriere della Sera del 15.01.02 0,5 0 19 95 199 6 1997 199 8 1999 (*) Il primo valore si riferisce alla media dei valori registrati dalle 8 di sabato 12 alle 7 di domenica 13, prima cioè del blocco del traffico. 2000 Gruppo di Statistica IRRE Lombardia 27 Gruppo di Statistica IRRE Lombardia 28 Ulteriori informazioni si traggono visualizzando le soglie di attenzione e di allarme (pari rispettivamente a una media giornaliera di 50 e 75 µg/m3) La rappresentazione del fenomeno mediante un diagramma cartesiano è particolarmente efficace; è possibile infatti stimare il livello di Pm10 anche negli orari intermedi a quelli di registrazione Livelli di Pm10 sab 12.01.02 e dom 13.01.02 Pioltello - Limito Livelli di Pm10 160 microgrammi/metrocubo microgrammi/metrocubo 160 140 120 100 80 60 40 20 140 120 Pioltello-Limito 100 80 soglia di attenzione 60 soglia di allarme 40 20 0 0 sab-dom dom h8 dom h10 dom h12 Gruppo di Statistica IRRE Lombardia Gruppo Statisitca IRRE Lombardia sab-dom dom h14 29 dom h8 dom h10 dom h12 dom h14 Gruppo di Statistica IRRE Lombardia 30 5 CARATTERE QUANTITATIVO CONTINUO E’ possibile inoltre confrontare l’andamento del fenomeno in varie località colorando diversamente le relative linee. Quando le modalità possono assumere tanti valori diversi, è comodo raggrupparle in Livelli di Pm10 sab 12.01.02 e dom 13.01.02 classi. Se ad esempio si vuole rappresentare la distribuzione relativa all’età degli individui di una certa popolazione, si suddividono i dati in classi di età. microgrammi/metrocubo 160 140 120 Pioltello-Limito 100 Milano-Verziere 80 Vimercate 60 soglia di attenzione 40 soglia di allarme L’ampiezza delle classi dipende dai fini dell’indagine, e può variare da una classe all’altra. 20 0 sab-dom dom h8 dom h10 dom h12 dom h14 Gruppo di Statistica IRRE Lombardia 31 Gruppo di Statistica IRRE Lombardia La rappresentazione grafica più adeguata a rappresentare la distribuzione di un carattere quantitativo continuo con modalità suddivise in classi è l’ISTOGRAMMA. Ha l’aspetto di una serie di rettangoli allineati, ognuno dei quali corrisponde ad una determinata classe. L’area dei rettangoli rappresenta l’entità della modalità. Gruppo di Statistica IRRE Lombardia 10 0 classe 1 classe 2 classe 3 Come si costruisce un istogramma Classi d’età Fr Primo caso [0; 10) 1 [10; 20) 11 Consideriamo la tabella che riporta i dati relativi alle età dei visitatori pomeridiani di un museo: [20; 30) 45 [30; 40) 34 [40; 50) 41 [50; 60) 28 [60; 70) 19 [70; 80) 4 [80; 90) 1 TOTALE 184 Le classi hanno la stessa ampiezza 33 Come si costruisce un istogramma 32 Gruppo di Statistica IRRE Lombardia 34 ISTOGRAMMA DELLE ETÀ Le classi hanno tutte la stessa ampiezza: 10 anni. 50 45 Le basi dei rettangoli sono dunque uguali tra loro. 40 35 L’area dei rettangoli deve essere proporzionale alla frequenza di ogni singola modalità. 30 25 Serie1 20 L’altezza di ogni rettangolo, segnata sull’asse delle ordinate, è la frequenza di ogni modalità. 15 10 5 0 [0;10) L’istogramma che ne risulta è il seguente: Gruppo di Statistica IRRE Lombardia Gruppo Statisitca IRRE Lombardia 35 [10;20) [20;30) [30;40) [40;50) [50;60) [60;70) [70;80) [80;90) Gruppo di Statistica IRRE Lombardia 36 6 Come si costruisce un istogramma Secondo caso Consideriamo la tabella che riporta i dati relativi alla popolazione residente in Italia nel 1991, suddivisa per classi di età. Come si costruisce un istogramma •si calcola l’ampiezza di ogni classe, in anni, dopo aver fissato un massimo per l’ultima classe; •l’altezza di ogni rettangolo rappresenta una densità, cioè una frequenza per unità di ampiezza della classe; Popolazione residente in Italia nel 1991 divisa per classi di età classi di età freq. percent. [0,5) 4,9 [5,15) 11,0 [15,20) 7,6 [20,40) 30,1 [40,60) 25,3 [60,75) 14,4 [75,…) 6,7 •si calcolano le densità come rapporti tra le frequenze e le ampiezze; queste saranno le misure delle altezze dei rettangoli. Popolazione residente in Italia nel 1991 divisa per classi di età età freq ampiezza densità [0,5) 4,9 5 0,98 [5,15) 11,0 10 1,10 [15,20) 7,6 5 1,52 [20,40) 30,1 20 1,51 [40,60) 25,3 20 1,27 [60,75) 14,4 15 0,96 [75,105) 6,7 30 BASI 0,22 ALTEZZE Batini-Olivieri, "Descrivere la realtà: i metodi della statistica" Le classi non hanno la stessa ampiezza Gruppo di Statistica IRRE Lombardia 37 ed ecco l’istogramma risultante: Gruppo di Statistica IRRE Lombardia 38 Alcune curiosità sui grafici Residenti in Italia per classi di età - 1991 i grafici ingannevoli 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 [0,5) [5,15) [15,20) [20,40) [40,60) [60,75) [75,105) grafico costruito con Excel (che in realtà NON disegna istogrammi) Gruppo di Statistica IRRE Lombardia 39 Gruppo di Statistica IRRE Lombardia 40 Esempio 1: osserviamo il grafico seguente I grafici ingannevoli Delitti denunciati per criminalità violenta nel 1998 su 100.000 abitanti dai 14 anni in su (fonte: ISTAT) “Esistono tre modi di alterare la verità: 230 220 mentire semplicemente, 210 200 190 mentire spudoratamente, 180 Bari mentire con le statistiche.” Winston Churchill Gruppo di Statistica IRRE Lombardia Gruppo Statisitca IRRE Lombardia 41 Bologna Milano Reggio C. Roma Torino Trieste E' stata tracciata solo una parte dell'asse y (scala incompleta). Ad un primo colpo d'occhio si ha l'impressione (ingannevole) che, per esempio, il numero di denunce a Trieste sia oltre il doppio di quello di Milano e il quintuplo di quello di Roma! Bari invece sembrerebbe quasi un’oasi di tranquillità. Per leggere correttamente il fenomeno è necessario porre attenzione ai valori posti sull'asse y. Gruppo di Statistica IRRE Lombardia 42 7 …e si può ancora peggiorare... …ma anche migliorare... Delitti denunciati per criminalità violenta nel 1998 Delitti denunciati per criminalità violenta nel 1998 su 100.000 abitanti dai 14 anni in su su 100.000 abitanti dai 14 anni in su 230 250 200 150 100 50 0 180 Bari Bologna Milano Reggio C. Roma Torino Bari Trieste E' stata tracciata solo una parte dell'asse y (scala incompleta), e sono stati inoltre eliminati i valori intermedi, e la relativa griglia. In questo modo è ancora più facile non accorgersi del “trucco”. Gruppo di Statistica IRRE Lombardia 43 Esempio 2: osserviamo il grafico seguente Milano Reggio C. Roma Torino Trieste E' stata tracciato tutto l'asse y (scala completa). L’impressione che riceviamo è completamente diversa da quella dei grafici precedenti e, ovviamente, più aderente alla realtà. Trieste ovviamente mantiene il suo “record” negativo, ma è “tallonata” da Torino e Reggio Calabria. Il confronto con Milano e con Roma viene percepito in termini decisamente non marcati. Per non parlare di Bari, che sembrava quasi non interessata al fenomeno! Gruppo di Statistica IRRE Lombardia 44 Come rappresentare correttamente il fenomeno: Decessi al di sotto di un anno di età in Gran Bretagna Decessi al di sotto di un anno di età in Gran Bretagna 120 120 100 su 1000 na ti vivi 80 60 40 20 0 1942 1944 1946 1948 1950 40 20 0 10 anno 19 anno Il grafico è stato tracciato trascurando il fatto che gli anni cui si fa riferimento non sono distanziati da uno stesso intervallo di tempo. Dal 1910 al 1940 i dati sono "visibili" ogni dieci anni, in seguito invece ogni due. Si ha l’impressione (non corretta) che il fenomeno tenda a diminuire più “lentamente” negli ultimi anni rappresentati piuttosto che nei primi. Gruppo di Statistica IRRE Lombardia 19 40 19 42 19 44 19 46 19 48 19 50 1940 30 1930 60 19 1920 80 20 1910 100 19 su mille nati vivi Bologna Si ha una diversa percezione del fenomeno lungo gli anni se il grafico viene tracciato rispettando la diversità degli intervalli temporali. 45 Un’altra rappresentazione corretta del fenomeno: Gruppo di Statistica IRRE Lombardia 46 Esempio 3: osserviamo il grafico seguente andamento fenomeno Decessi al di sotto di un anno di età in Gran Bretagna 3 su m ille n a ti vivi 120 2,5 100 80 2 60 1,5 40 1 20 0,5 0 1910 1920 1930 1940 0 19 95 1950 199 6 1997 199 8 1999 2000 anno Esso rappresenta l’andamento di un certo fenomeno nel tempo. Il fenomeno non ha un andamento costante poiché presenta alcune oscillazioni. Un altro modo per avere una corretta percezione del fenomeno è quello di rappresentare solo i dati distanziati di uno stesso intervallo di tempo. Gruppo di Statistica IRRE Lombardia Gruppo Statisitca IRRE Lombardia 47 Gruppo di Statistica IRRE Lombardia 48 8 Come diminuire l’effetto oscillazione: Come aumentare l’effetto oscillazione: andamento fenomeno andament o fenomeno 5 4 E’ stato dilatato l’asse y (aumentandone la dimensione e diminuendo il valore massimo visibile) e contratto l’asse x. 2, 5 2 3 2 1 0 1995 Il fenomeno sembra presentare oscillazioni più marcate rispetto a quelle del grafico precedente. 1, 5 1 1996 1997 1998 1999 2000 Gruppo di Statistica IRRE Lombardia Gruppo Statisitca IRRE Lombardia 1998 1999 2000 Il grafico risulta “appiattito” e le oscillazioni vengono percepite come poco marcate. Si è indotti quindi a pensare che il fenomeno abbia un andamento pressoché costante nel tempo. 0 1995 1997 E’ stato contratto l’asse y (diminuendone la dimensione, e aumentando il valore massimo visibile) e dilatato l’asse x. L’andamento del fenomeno viene percepito come soggetto ad ampi sbalzi. 0, 5 1996 49 Gruppo di Statistica IRRE Lombardia 50 9