DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE

BETA
INTRODUZIONE AL DATA JOURNALISM
DAI DATI ALLA NOTIZIA
IN QUATTRO MOSSE
Che cos’è il Datajournalism
school.dataninja.it
@Alessio Cimarelli / @Andrea Nelson Mauro
> INDICE DELLA DISPENSA
● Pag 3 - Introduzione, cenni storici
● Pag 11 - Dove trovare i dati e come scaricarli
● Pag 28 - Pulire i dati
● Pag 41 - Esplorare i dati
● Pag 54 - Visualizzare i dati
● Pag 69 - Credits
● Pag 70 - Changelog
school.dataninja.it
2
> UNA STORIA CHE VIENE DA LONTANO.
1952
Il primo uso del computer a fini giornalistici risale al 1952
negli USA: nasce il C.A.R. (Computer Assisted Reporting)
http://www.wired.com/science/discoveries/news/2008/11/dayintech_1104
1967 Nel 1967 Philip Meyer consacra questa pratica con
un’inchiesta di successo
http://www.nieman.harvard.edu/reports/article/102053/1968-A-Newspapers-Role-Between-the-Riots.aspx
1973
Nel 1973 Meyer stesso fonda il “giornalismo di precisione”,
coniugando uso della tecnologia e metodo scientifico
“The New Precision Journalism”: http://www.unc.edu/~pmeyer/book/
“Giornalismo e metodo scientifico”: http://www.armando.it/schedalibro/20046/Giornalismo-e-metodo-scientifico
school.dataninja.it
3
> UNA STORIA CHE VIENE DA LONTANO..
Il salto si ha con l’aumento esponenziale della quantità e della qualità
dei dati digitali a disposizione, oltre che degli strumenti tecnologici e
concettuali per gestirli e analizzarli.
school.dataninja.it
4
> UNA STORIA CHE VIENE DA LONTANO...
Nato in ambito anglosassone, oggi il data journalism (DDJ) è una pratica
adottata un po’ ovunque. La si trova in luoghi dedicati (datablog, giornali
ad-hoc), ma è sempre più pervasiva nel giornalismo in generale, anche
perché si può applicare a qualsiasi tema e contesto.
L’Italia è indietro, ma anni-luce avanti rispetto a pochi anni fa.
school.dataninja.it
5
> PECULIARITÀ E LIMITI DEL DDJ
Richiede competenze multi-disciplinari e quindi team di professionisti:
● data scientist / statistico
● sviluppatore
● designer / grafico
Porta facilmente a prodotti giornalistici di lunga vita.
Richiede molta accortezza nell’uso degli strumenti statistici.
Si rischiano prodotti giornalistici “belli”, ma fini a se stessi.
school.dataninja.it
6
> PECULIARITÀ E LIMITI TECNOLOGICI DEL DDJ
Spesso è necessario imparare
a usare software con curve
di apprendimento abbastanza ripide.
Gli strumenti e le piattaforme cambiano
molto velocemente e bisogna rimanere aggiornati.
● Spesso si usano servizi di terze parti di cui non si ha il controllo.
● Ci sono ampie libertà di riutilizzo e riciclo.
● Il rilascio dei dati permette di costruire comunità attorno ad essi.
school.dataninja.it
7
> PECULIARITÀ E LIMITI ITALIANI DEL DDJ
● Richiede competenze multi-disciplinari e tecnologicamente avanzate
in una professione in cui si inizia a parlare ora di formazione
continua. http://www.odg.it/content/formazione-continua
● Si intreccia con la crisi dei media,
dell’editoria e del giornalismo.
● Cerca di farsi spazio
in una cultura giornalistica
votata al giornalismo di opinione.
Daniel Hallin, Paolo Mancini, “Modelli di giornalismo. Mass Media e politica nelle democrazie occidentali”. Editore Laterza (2004)
school.dataninja.it
8
> LA GENESI DI UN’INCHIESTA DATA-DRIVEN
Mi imbatto in un insieme di dati e sento il
profumo di una possibile notizia: li raccolgo, li
analizzo, faccio delle ipotesi, le verifico, scopro
la notizia.
Ho un interesse, un’idea, una tesi, cerco i dati
che la riguardano, li analizzo, rivedo l’idea
iniziale, torno ai dati, scopro una notizia.
http://www.theguardian.com/news/datablog/2011/apr/07/data-journalism-workflow
school.dataninja.it
9
> SCHEMA DEL PROCESSO DI PRODUZIONE
1.
2.
3.
4.
Trovare
Pulire
Analizzare
Raccontare
school.dataninja.it
10
INTRODUZIONE AL DATA JOURNALISM
DAI DATI ALLA NOTIZIA
IN QUATTRO MOSSE
1. Dove trovare i dati e come scaricarli
school.dataninja.it
11
> COSA SONO I DATI: UNA DEFINIZIONE
“
Singoli pezzi di informazione di ogni natura,
descrizioni di fatti riproducibili senza ambiguità,
parti di informazioni strutturate che possono
essere archiviate in formato digitale
Maurizio Napolitano, Technologist presso la Fondazione Bruno Kessler
school.dataninja.it
”
12
> COSA SONO I DATI: IL CONTESTO
“
From the dawn of civilization until
2003, humankind generated five
exabytes of data. Now we produce
five exabytes every two days… and
Eric Schmidt
Google’s executive chairman
the pace is accelerating!
1 exabyte = 1018 bytes = 1.000.000.000.000.000.000 (un trilione di) bytes
1 byte ~= 1 carattere di testo | Divina Commedia: ~ 500.000 caratteri
school.dataninja.it
”
13
> TIPI DI DATI: DATI NON STRUTTURATI
school.dataninja.it
14
> TIPI DI DATI: DATI STRUTTURATI E METADATI
Un metadato è un’informazione che
descrive un dato e ne descrive
anche la relazione con gli altri dati.
Strutturare un insieme di dati
significa esplicitarne il significato e
le relazioni reciproche.
Esempio:
● 110 (dato)
● Superficie calpestabile dell’abitazione in mq (metadato)
school.dataninja.it
15
> TIPI DI DATI: OPEN E CLOSED (LICENZE)
“
Un dato è aperto se chiunque è libero di
usarlo, riutilizzarlo, ridistribuirlo, ed è
soggetto tutt’al più all’obbligo di citazione o
condivisione allo stesso modo
Open Definition: http://opendefinition.org/od
school.dataninja.it
”
16
> TIPI DI DATI: QUELLI CHE PRODUCIAMO NOI
Sondaggi, informazioni, interviste
giornalistiche, dati personali: è
importante capire con che tipo di dati
abbiamo a che fare e quali sono le
regole che vogliamo darci nel diffonderli.
Ormai siamo anche noi produttori
di dati e dataset, quindi
dobbiamo scegliere una
licenza di distribuzione!
school.dataninja.it
17
> A CACCIA DI DATI: UNA BUONA DOMANDA
UN EVENTO
UN TEMA
FOLLOW THE MONEY
LA NOSTRA
VOGLIAMO
SE VUOI FARE
INCHIESTA PUÒ
CONTESTUALIZZARE,
UN’INCHIESTA E NON
NASCERE DA UN
ANALIZZARE E
SAI DA DOVE
EVENTO DI CRONACA
INDAGARE UNA
PARTIRE, PROVA A
CHE VOGLIAMO
TEMATICA SPECIFICA
SEGUIRE L’ODORE
APPROFONDIRE
O UN FENOMENO
DEI SOLDI!
school.dataninja.it
18
> A CACCIA DI DATI: FONTI
LEAKS
PUBBLICA
AMMINISTRAZIONE
SOCIAL NETWORK
ASSOCIAZIONI
ONG
TERZO SETTORE
COMUNITÀ DI INTERESSE
COMITATI DI CITTADINI ATTIVI
ORGANISMI
INTERNAZIONALI
GIORNALISTI
NOI STESSI...
school.dataninja.it
19
> FONTI DI DATI: PUBBLICA AMMINISTRAZIONE
Legislazioni sull’Open Data By Default - Nel 2013 è entrato in vigore il
Codice dell’Amministrazione Digitale (CAD) che prevede l’”Open Data
by Default”. Il formato di tipo aperto è “un formato di dati reso pubblico,
documentato esaustivamente e neutro rispetto agli strumenti tecnologici
necessari per la fruizione dei dati stessi”.
Fonte: http://goo.gl/zmjbY7
Diritto (e richieste) di accesso ai dati - Chiunque può chiedere
accesso ai dati della PA. Le leggi che disciplinano l’accesso sono la 214
del 1990 e la 33 del 2013.
school.dataninja.it
20
> FONTI DI DATI: SOGGETTI PRIVATI
●
●
●
●
●
●
Editori, giornali di carta / on-line
Organizzazioni non governative
Associazioni
Fondazioni
Istituti di ricerca
Grandi aziende private / a
partecipazione pubblica
school.dataninja.it
21
> FONTI DI DATI: SONO QUALIFICATE?
● Chi è la nostra fonti di dati e
quali sono i suoi scopi?
● È un soggetto comunemente ritenuto
affidabile nel contesto in cui opera?
● È possibile verificare altrove se i dati
che fornisce sono credibili?
● Qualcun altro ha usato dati
da questa fonte?
school.dataninja.it
22
> SCARICARE I DATI: FORMATI DEI FILE
Se i dati sono strutturati e offerti in un formato machine readable, il
lavoro è semplice: è sufficiente scaricare il file e aprirlo con un software
apposito (spesso un foglio di calcolo).
● Alcuni formati comuni: xls(x), csv, tsv, ods
● Formati strutturati, ma meno gestibili con
pacchetti di ufficio: xml, sql, json, shp, kml
school.dataninja.it
23
> SCARICARE I DATI: E SE SONO TROPPI?
Se i dati sono suddivisi in una grande
quantità di file, pubblicati per esempio
come un elenco di indirizzi web, ci sono
diversi strumenti di download massivo che
automatizzano il lavoro e scaricano tutto
sostanzialmente da soli.
Esempio: https://www.gnu.org/software/wget/
school.dataninja.it
24
> SCRAPING: GRATTARE DAL WEB (HTML)
I dati possono trovarsi pubblicati
direttamente su pagine web sotto
forma di tabelle o liste: prima di
essere elaborati su fogli di calcolo è
necessario estrarli e riorganizzarli
in formati machine readable (xls, csv,
tsv, ods).
Spesso, più che una scienza, è un’arte. Ci sono molti strumenti con cui
partire (DataMiner, ScraperWiki, …)
school.dataninja.it
25
> SCRAPING: GRATTARE DAL WEB (PDF)
I dati possono trovarsi sotto forma di tabelle
inserite in un file PDF. Sono ben strutturati
solo visivamente e quindi non sono usabili
direttamente in fogli di calcolo, ma vanno
estratti. Anche qui serve un lavoro di scraping
per estrarli e renderli machine readable (xls,
csv, tsv, ods).
È uno dei compiti di scraping più difficili, spesso impossibile (per
esempio quando i documenti sono scansioni): alcuni strumenti utili sono
Okular, Tabula, la suite professionale di Adobe.
school.dataninja.it
26
> SCRAPING: SE SERVE UNO SVILUPPATORE
Non tutti i dati possono essere estratti in maniera automatica.
Anche se ci si trova nelle condizioni di fare
scraping, non sempre ci sono software già
pronti: può essere necessario uno strumento ad
hoc costruito da uno sviluppatore professionista.
Uno scraper è un software appositamente scritto
in un qualche linguaggio di programmazione
(python, javascript, java, …)
school.dataninja.it
27
INTRODUZIONE AL DATA JOURNALISM
DAI DATI ALLA NOTIZIA
IN QUATTRO MOSSE
2. Pulire i dati
school.dataninja.it
28
> PULIRE I DATI: UN PASSAGGIO IMPORTANTE
La pulizia dei dati è fondamentale per
assicurarsi che siano strutturati bene
all’interno delle righe e delle colonne, che i
valori inseriti siano coerenti, che siano stati
inseriti correttamente.
Analizzare i dati senza fare un attento data
cleaning potrebbe portare successivamente
a gravi errori o a difficoltà ingestibili.
school.dataninja.it
29
> PULIRE I DATI: I TIPI DI DATI
Di fronte all’enorme varietà del mondo, il
computer comprende pochi tipi di variabili:
●
●
●
●
●
school.dataninja.it
numeri interi (con segno, incluso lo 0)
numeri decimali (con segno)
date e orari
stringhe di caratteri (case sensitive)
valore mancante (o NULL)
30
> PULIRE I DATI: LA TABELLA
Una tabella è composta da colonne e righe.
● Ogni colonna rappresenta e contiene uno e un
solo tipo di dato.
● Ogni riga rappresenta e contiene uno e un solo
oggetto, definito univocamente dalla collezione
di dati inseriti nelle varie colonne.
● Non possono esistere righe completamente
vuote o più righe perfettamente identiche.
school.dataninja.it
31
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 1
Controlla che la struttura dei dati sia
corretta. Ogni colonna deve contenere
valori dello stesso tipo. Se la colonna indica
una data, in tutte le righe di quella colonna
devono esserci solo date (o NULL). Se
contiene nomi di persone, devono esserci
solo quelli (o NULL). Nella colonna “Nato il”
non può esserci un nome di persona, e
nella colonna “Nome” non possono esserci
date.
school.dataninja.it
32
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 2
Controlla che i dati siano scritti
alla stessa maniera. Se una
colonna contiene date, le date
devono essere scritte con la stessa
struttura (esempio: nella notazione
italiana GG/MM/AAAA).
Attenzione a quando si mescolano notazione italiana e anglosassone
(MM/GG/AAAA): alcune date sono valide, ma sbagliate!
school.dataninja.it
33
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 3
Controlla che all’interno delle righe le parole
siano scritte in maniera omogenea. Ad
esempio nella colonna dei nomi è un errore
scrivere in una riga “Italia” e nella riga
successiva “ITALIA”: l’applicazione potrebbe
capire che si tratta di cose differenti. È
necessario scrivere “Italia” (oppure “ITALIA”) in
entrambe le righe, e in tutte quelle dov’è
presente il valore “Italia” sia in maiuscolo che in
minuscolo.
school.dataninja.it
34
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 4
Controlla quale sistema di numerazione stai usando. Europeo o
anglosassone? È importante perché esistono separatori diversi per
indicare i decimali e le migliaia.
● Le migliaia – In Europa si scrive 1.000 (mille), mentre negli Stati
Uniti e in Gran Bretagna si scrive 1,000. In questo caso in Europa
indichiamo le migliaia con un punto, non con la virgola.
● I decimali – In Europa si scrive 1,5 (uno e mezzo), mentre negli
Stati Uniti e in Gran Bretagna si scrive 1.5. In questo caso in Europa
indichiamo i decimali con una virgola, non con il punto.
school.dataninja.it
35
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 5
Controlla le intestazioni e assicurati che
siano sempre nella prima riga della tua
tabella. Le intestazioni sono i “nomi” dei tuoi
dati, che si trovano suddivisi in colonne. Ogni
intestazione dà il nome alla colonna nella
quale si trova: perché però il tutto funzioni, le
intestazioni devono trovarsi nella prima riga
della tua tabella (e solo lì, non devono
ripetersi in mezzo alla tabella).
school.dataninja.it
36
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 6
Controlla le righe e le celle bianche /
vuote. La tua tabella potrebbe averne,
perché spesso i fogli di calcolo vengono usati
in maniera impropria. Le righe vuote non
devono esistere. Le celle vuote possono
invece indicare valori mancanti, l’importante è
essere coerenti (tutte le celle vuote indicano
sempre valori mancanti).
Attenzione a celle fintamente vuote: il
carattere spazio c’è, anche se non si vede!
school.dataninja.it
37
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 7
Controlla le somme se lavori su tabelle numeriche e le stai
modificando, esportando o salvando in altri file. Le somme dei dati
numerici dai vecchi ai nuovi file possono essere dei check molto utili per
evidenziare degli errori.
school.dataninja.it
38
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 8
È sempre meglio avere a che fare
con dati il più granulari e dettagliati
possibile. Se si può, quindi, meglio
suddividere le informazioni in
più colonne possibile (per
esempio se si hanno nomi
completi, meglio dividerli in “nome”
e “cognome”, se si hanno “codice
fiscale” e “partita iva”, meglio
prevedere due campi separati, ...).
school.dataninja.it
39
> PULIRE I DATI: GLI STRUMENTI
I dati possono essere puliti anche da
foglio di calcolo o con un semplice
editor di testo, ma uno degli strumenti
migliori è OpenRefine, un’applicazione
open-source che permette di filtrare,
riorganizzare e trasformare anche
grandi quantità di dati in pochi click:
http://openrefine.org/.
school.dataninja.it
40
INTRODUZIONE AL DATA JOURNALISM
DAI DATI ALLA NOTIZIA
IN QUATTRO MOSSE
3. Esplorare i dati
school.dataninja.it
41
> ANALISI: ESPLORARE I DATI
Le possibili strade per esplorare i dati
dipendono dalla loro quantità e dalla loro
qualità. Tra gli elementi da tenere presenti
ci sono le dimensioni che li caratterizzano.
● I nostri dati hanno una dimensione geografica e permettono un
confronto tra territori?
● Hanno una dimensione temporale e possono permetterci di
valutare come un fenomeno cambia nel tempo?
school.dataninja.it
42
> ANALISI / 1. LA NORMALIZZAZIONE DEI DATI
La normalizzazione è un aspetto cruciale per confrontare i dati tra loro.
È indispensabile se un valore muta in relazione al contesto al quale
afferisce. Esempio: non ha senso confrontare direttamente i disoccupati
di un territorio più popoloso con quelli di un territorio meno popoloso.
La normalizzazione si ottiene costruendo un rapporto tra il dato e il
contesto. Per confrontare i disoccupati di Lombardia e Molise, li
dobbiamo relazionare alla popolazione (“Disoccupati Lombardia /
Residenti Lombardia” vs. “Disoccupati Molise / Residenti Molise”).
school.dataninja.it
43
> ANALISI / 2. ANDAMENTO NEL TEMPO
Confrontare i dati nel tempo è importante. La disoccupazione cresce? Il
reddito è in aumento? Per rispondere a queste domande dobbiamo
misurarne la variazione.
Concentriamoci sul reddito a base regionale: per sapere se nel 2013 è
aumentato rispetto al 2012 (e dove), dobbiamo avere entrambi i dati per
ogni regione. Ci serve un dataset costruito così: nella prima colonna
avremo il nome dalla regione, nella seconda il corrispondente reddito del
2012, nella terza quello del 2013.
school.dataninja.it
44
> ANALISI / 2. ANDAMENTO NEL TEMPO
Per sapere di quanto è aumentato o diminuito il reddito è sufficiente
calcolarne la variazione relativa per ogni regione:
(reddito 2013 - reddito 2012)
reddito 2012
Il risultato è un indice di variazione relativa del reddito espresso in
percentuale (es. +12%).
school.dataninja.it
45
> ANALISI / 3. LA DISTRIBUZIONE
Quando si ha un insieme di numeri abbastanza grande (centinaia o più),
come per esempio le superfici degli esercizi commerciali di una città, è
utile conoscerne la distribuzione, cioè il modo in cui popolano tutti i
possibili valori che possono assumere teoricamente.
Per esempio una superficie è misurata con un numero decimale
positivo di metri quadrati. Quindi nel nostro dataset di esercizi
commerciali possiamo trovare qualsiasi valore tra 0 e (teoricamente)
infinito.
school.dataninja.it
46
> ANALISI / 3. LA DISTRIBUZIONE
Operativamente si divide l’intero intervallo di valori possibili (es. 0 ->
+infinito) in tanti piccoli intervallini (es. 0-50 -> 50-100 -> …), quindi si
contano per ognuno di essi quanti valori del dataset ci cadono dentro.
Il grafico qui accanto mostra per
esempio la distribuzione della
superficie di 109.654 esercizi
commerciali italiani. La maggior
parte ha un superficie intorno ai 50
mq, quasi tutti sono sotto i 200 mq.
school.dataninja.it
47
> ANALISI / 4. GLI INDICATORI STATISTICI
Attraverso analisi quantitative i dati possono essere confrontati, per
esempio costruendo un indicatore.
Poniamo di avere un dataset con tre colonne: nella prima l'elenco delle
regioni italiane, nella seconda il numero totale di disoccupati per
regione, nella terza il numero di giovani disoccupati per regione.
I giovani disoccupati sono una parte del totale dei disoccupati: dividendo
"giovani disoccupati" per "totale dei disoccupati" in ciascuna regione,
possiamo costruire il nostro indicatore (il risultato sarà sempre compreso
tra 0 e 1). Ora possiamo confrontare i territori attraverso un indice di
disoccupazione giovanile.
school.dataninja.it
48
> ANALISI / 5. LE CORRELAZIONI
Nel mondo reale oggetti e fenomeni interagiscono tra loro. Un fenomeno
può essere causa di un altro, o può manifestarsi come un effetto di una
qualche causa, o due fenomeni possono dipendere da una causa
comune.
Un primo indizio di un legame tra
due fenomeni è dato dalla loro
eventuale correlazione: la
tendenza di uno a variare in
funzione dell’altro.
school.dataninja.it
49
> ANALISI / 5. LE CORRELAZIONI
Per verificare qualitativamente una possibile correlazione tra due variabili
è sufficiente costruire un grafico ponendo una variabile su ogni asse. Es.
l’altezza dei padri vs. l’altezza dei figli mostra una correlazione positiva
(cresce una, cresce l’altra per questioni genetiche).
Quantitativamente si possono
calcolare degli indici o coefficienti
di correlazione. Il più semplice e
utile è quello di Pearson (valori
d’esempio mostrati in figura).
school.dataninja.it
50
> ANALISI / 6. ORDINARE I DATI
Ordinare i dati è un’operazione tanto semplice quanto utile: la facciamo
ogni giorno, per esempio per sapere quali sono le nostre spese più o
meno importanti, oppure organizzando i nomi dei contatti della rubrica
secondo l’ordine alfabetico.
Durante l’analisi dei dati può essere utilissima perché ci permette di
conoscere immediatamente i valori massimi e minimi dei dati che stiamo
analizzando. Nell’esempio sulla disoccupazione, ordinando i dati finali
scopriamo facilmente dove la disoccupazione è maggiore e dov’è
minore.
school.dataninja.it
51
> ANALISI / 7. FILTRARE I DATI
Filtrare i dati è un’operazione semplice che può avere varie utilità.
● Filtriamo i dati per concentrarci su quelli che ci interessano di più in
base a un parametro comune. Avendo i valori della disoccupazione
per tutte le province italiane, potrebbero servirci solo quelli della
Lombardia: li filtriamo quindi per la chiave “Lombardia”.
● Filtriamo i dati anche per isolare i valori più significativi: ad esempio
se ci interessano solo le province dove la disoccupazione è in
aumento, filtreremo solo le righe con valori positivi.
school.dataninja.it
52
> ANALISI / 8. RAGGRUPPARE I DATI
Raggruppare i dati è un’operazione che permette di aggregarli secondo
criteri specifici, funzionali alla nostra ricerca giornalistica. Nei fogli di
calcolo questa operazione è assolta dalle Tabelle Pivot.
Poniamo che la nostra inchiesta non sia sull’occupazione in generale,
ma solo su quella giovanile e che abbiamo i dati dei disoccupati
suddivisi non solo per regione, ma anche per età. Per ogni riga abbiamo
quindi “Territorio” / “Fascia d’età” / “Disoccupati”. Possiamo ricavare i
dati complessivi per regione raggruppando i dati originali per Fascia
d’età (inferiore a 24 anni), sommando i relativi singoli valori.
school.dataninja.it
53
INTRODUZIONE AL DATA JOURNALISM
DAI DATI ALLA NOTIZIA
IN QUATTRO MOSSE
4. Visualizzare i dati
school.dataninja.it
54
> VISUALIZZARE I DATI: PERCHÉ
“
Alberto Cairo
The functional art
Come non era mai successo nelle nostre vite, oggi
abbiamo accesso a un’infinità di informazioni libere
e gratuite. Con gli strumenti giusti possiamo
cominciare a dare un senso a questi dati per
vedere schemi e trend che altrimenti per noi
sarebbero invisibili. Trasformando i numeri in forma
grafica, permetteremo ai lettori di conoscere le
storie che quei numeri nascondono.
school.dataninja.it
55
> VISUALIZZARE I DATI: COME
La visualizzazione dei dati è un aspetto
cruciale: è fondamentale scegliere un tipo
di visualizzazione adeguata al tipo di dati
che si hanno a disposizione perché
● se corretta, permette di comprendere
a fondo il senso dei dati;
● se sbagliata, ne può falsare
completamente il significato.
school.dataninja.it
56
> VIZ / 1. GRAFICO DI DISPERSIONE
Grafico a punti o
di dispersione
È il più semplice
per evidenziare
una dipendenza tra
due variabili
(correlazione).
school.dataninja.it
57
> VIZ / 2. GRAFICO A LINEE
Grafico a linee
Il più usato per
mostrare i
cambiamenti o gli
andamenti nel
tempo.
school.dataninja.it
58
> VIZ / 3. ISTOGRAMMA
Istogramma
Quando i valori di ciascun elemento,
come le nazioni dell’esempio, non
hanno una relazione reciproca gli uni
con gli altri, o quando è importante
evidenziare alcuni valori specifici, è
preferibile un istogramma piuttosto
che un grafico a punti o a linee.
school.dataninja.it
59
> VIZ / 4. GRAFICO A BARRE
Grafico a barre
Questa variante è molto utile se si
hanno molte etichette lunghe da
mostrare. Qui le informazioni sono
nella parte sinistra della
visualizzazione, in modo da lasciare
più spazio e rendere più facile e
piacevole la lettura.
school.dataninja.it
60
> VIZ / 5. GRAFICO A TORTA
Grafico a torta
Da usare solo per mostrare dati che sommati
insieme rappresentano un totale (e presi
singolarmente rappresentano le parti del
totale).
Il grafico a ciambella è una variante del
grafico a torta: spesso è usato in ambito politico
per indicare la distribuzione del parlamentari di
maggioranza e opposizione.
school.dataninja.it
61
> VIZ / 6. LE MAPPE INTERATTIVE
Visualizzare i dati su una mappa richiede un requisito fondamentale: che
i dati contengano almeno una dimensione geografica. La
rappresentazione dei dati avviene in tre modalità differenti:
● Punti - Luoghi geografici con specifiche coordinate (latitudine e
longitudine) ai quali i dati si riferiscono (indirizzi, città, …)
● Linee - Serie di punti collegati e relativi dati (strade, percorsi, …)
● Perimetri - Poligoni che definiscono determinate aree afferenti ai
dati (quartieri, comuni, province, regioni, nazioni, …)
school.dataninja.it
62
> VIZ / 6. PRINCIPALI TIPI DI MAPPE
CHOROPLETH
CARTOGRAMMI
HEATMAP
Diffusione dei giornali
Perimetri colorati in
base al valore dei dati
Numero figli per donna
Perimetri deformati in
base al valore dei dati
Distribuzione slot
Colore in base al valore
medio di punti adiacenti
school.dataninja.it
63
> VIZ / 7. LE RETI
Una visualizzazione a rete è adatta per
evidenziare rapporti reciproci tra elementi.
Sono necessari due ingredienti: i nodi,
individuati da un id unico e caratterizzati da
vari parametri, e i collegamenti, individuati
da una coppia ordinata di nodi e caratterizzati
a loro volta da vari parametri.
Esempio: un gruppo di persone (nodi) e i loro rapporti di amicizia
(collegamenti). Ed ecco visualizzato Facebook, per esempio…
school.dataninja.it
64
> VISUALIZZARE I DATI: I SOFTWARE
Esistono numerosi software che permettono in maniera più o meno
semplice di visualizzare i dati tradurre i numeri in immagini.
●
●
●
●
●
●
●
Datawrapper (grafici di base) http://datawrapper.de/
Quantum GIS (mappe) http://www.qgis.org/it/site/
CartoDB (mappe di ogni genere) http://cartodb.com/
Google Fusion Tables (grafici di base e mappe con GMaps)
Infogr.am (grafici di vario genere organizzati in una infografica)
Gephi (reti) https://gephi.org/
D3js (libreria javascript per scrivere web app interattive) http://d3js.org/
school.dataninja.it
65
> RACCONTARE UNA STORIA
Mai dimenticare che il data journalism
non è altro che giornalismo.
●
●
●
●
5 W (+ H di How, come)
Verifica delle fonti
Deontologia professionale
Trasparenza (citazione delle fonti,
rilascio dei dati)
E poi una buona scrittura (e belle foto, bei video, interviste utili,
applicazioni interattive chiare e fruibili, …).
school.dataninja.it
66
> RISORSE VARIE: SU WEB
● http://www.dataninja.it
● http://datajournalismhandbook.org/
● http://www.datajournalism.it
● http://datadrivenjournalism.net/
● http://www.ascuoladiopencoesione.it
● http://datajcrew.sudmediatika.it/
● http://www.openricostruzione.it
● http://it.okfn.org/
● http://www.wired.it/data
● http://www.spaghettiopendata.org/
● http://www.theguardian.com/data
● http://www.datamediahub.it/
● http://www.datajournalismblog.com/
● http://simonrogers.net/
● http://flowingdata.com/
school.dataninja.it
67
> RISORSE VARIE: LIBRI
● Paul Bradshaw, “Scraping for Journalists”, Leanpub (2014)
● John Mair, Richard Lance Keeble, “Data Journalism”, abramis (2014)
● Paul Bradshaw, “Data Journalism Heist”, Leanpub (2013)
● Claire Miller, “Getting Started with Data Journalism”, Leanpub (2013)
● Nathan Yau, “Data Points: Visualization That Means Something”, Wiley (2013)
● Simon Rogers, “Facts are Sacred”, Faber & Faber (2013)
● Jonathan Gray et al., “The Data Journalism Handbook”, O'Reilly (2012)
● Nathan Yau, “Visualize This”, Wiley (2011)
school.dataninja.it
68
> CREDITS
Andrea Nelson Mauro / "nelsonmau"
Alessio Cimarelli / "jenkin27"
[email protected]
[email protected]
@nelsonmau
@jenkin27
Dataninja
www.dataninja.it
|
http://school.dataninja.it
Newsletter
http://dataninja.it/newsletter
Q&A
http://school.dataninja.it/qa
school.dataninja.it
69
> CREDITS
Le immagini utilizzate in questa presentazione sono prodotte da Dataninja.it, o messe a
disposizione dai relativi autori in formato CC-by. Alcune delle immagini sono tratte da:
●
School of Data (Open Knowledge Foundation)
●
Datadrivenjournalism.net
●
Openclipart
●
Pixabay
●
De.straba.us (blog di Maurizio Napolitano)
Per maggiori info sui contenuti, puoi contattarci all’indirizzo email [email protected]
school.dataninja.it
70
> CHANGELOG
La dispensa è stata realizzata da dataninja.it a maggio 2014. In questa pagina terremo traccia
delle modifiche che effettueremo.
●
Ultimo aggiornamento: 10/10/2015 by @nelsonmau
●
Ultimo aggiornamento: 16/05/2014 by @nelsonmau
school.dataninja.it
71