BETA INTRODUZIONE AL DATA JOURNALISM DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE Che cos’è il Datajournalism school.dataninja.it @Alessio Cimarelli / @Andrea Nelson Mauro > INDICE DELLA DISPENSA ● Pag 3 - Introduzione, cenni storici ● Pag 11 - Dove trovare i dati e come scaricarli ● Pag 28 - Pulire i dati ● Pag 41 - Esplorare i dati ● Pag 54 - Visualizzare i dati ● Pag 69 - Credits ● Pag 70 - Changelog school.dataninja.it 2 > UNA STORIA CHE VIENE DA LONTANO. 1952 Il primo uso del computer a fini giornalistici risale al 1952 negli USA: nasce il C.A.R. (Computer Assisted Reporting) http://www.wired.com/science/discoveries/news/2008/11/dayintech_1104 1967 Nel 1967 Philip Meyer consacra questa pratica con un’inchiesta di successo http://www.nieman.harvard.edu/reports/article/102053/1968-A-Newspapers-Role-Between-the-Riots.aspx 1973 Nel 1973 Meyer stesso fonda il “giornalismo di precisione”, coniugando uso della tecnologia e metodo scientifico “The New Precision Journalism”: http://www.unc.edu/~pmeyer/book/ “Giornalismo e metodo scientifico”: http://www.armando.it/schedalibro/20046/Giornalismo-e-metodo-scientifico school.dataninja.it 3 > UNA STORIA CHE VIENE DA LONTANO.. Il salto si ha con l’aumento esponenziale della quantità e della qualità dei dati digitali a disposizione, oltre che degli strumenti tecnologici e concettuali per gestirli e analizzarli. school.dataninja.it 4 > UNA STORIA CHE VIENE DA LONTANO... Nato in ambito anglosassone, oggi il data journalism (DDJ) è una pratica adottata un po’ ovunque. La si trova in luoghi dedicati (datablog, giornali ad-hoc), ma è sempre più pervasiva nel giornalismo in generale, anche perché si può applicare a qualsiasi tema e contesto. L’Italia è indietro, ma anni-luce avanti rispetto a pochi anni fa. school.dataninja.it 5 > PECULIARITÀ E LIMITI DEL DDJ Richiede competenze multi-disciplinari e quindi team di professionisti: ● data scientist / statistico ● sviluppatore ● designer / grafico Porta facilmente a prodotti giornalistici di lunga vita. Richiede molta accortezza nell’uso degli strumenti statistici. Si rischiano prodotti giornalistici “belli”, ma fini a se stessi. school.dataninja.it 6 > PECULIARITÀ E LIMITI TECNOLOGICI DEL DDJ Spesso è necessario imparare a usare software con curve di apprendimento abbastanza ripide. Gli strumenti e le piattaforme cambiano molto velocemente e bisogna rimanere aggiornati. ● Spesso si usano servizi di terze parti di cui non si ha il controllo. ● Ci sono ampie libertà di riutilizzo e riciclo. ● Il rilascio dei dati permette di costruire comunità attorno ad essi. school.dataninja.it 7 > PECULIARITÀ E LIMITI ITALIANI DEL DDJ ● Richiede competenze multi-disciplinari e tecnologicamente avanzate in una professione in cui si inizia a parlare ora di formazione continua. http://www.odg.it/content/formazione-continua ● Si intreccia con la crisi dei media, dell’editoria e del giornalismo. ● Cerca di farsi spazio in una cultura giornalistica votata al giornalismo di opinione. Daniel Hallin, Paolo Mancini, “Modelli di giornalismo. Mass Media e politica nelle democrazie occidentali”. Editore Laterza (2004) school.dataninja.it 8 > LA GENESI DI UN’INCHIESTA DATA-DRIVEN Mi imbatto in un insieme di dati e sento il profumo di una possibile notizia: li raccolgo, li analizzo, faccio delle ipotesi, le verifico, scopro la notizia. Ho un interesse, un’idea, una tesi, cerco i dati che la riguardano, li analizzo, rivedo l’idea iniziale, torno ai dati, scopro una notizia. http://www.theguardian.com/news/datablog/2011/apr/07/data-journalism-workflow school.dataninja.it 9 > SCHEMA DEL PROCESSO DI PRODUZIONE 1. 2. 3. 4. Trovare Pulire Analizzare Raccontare school.dataninja.it 10 INTRODUZIONE AL DATA JOURNALISM DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE 1. Dove trovare i dati e come scaricarli school.dataninja.it 11 > COSA SONO I DATI: UNA DEFINIZIONE “ Singoli pezzi di informazione di ogni natura, descrizioni di fatti riproducibili senza ambiguità, parti di informazioni strutturate che possono essere archiviate in formato digitale Maurizio Napolitano, Technologist presso la Fondazione Bruno Kessler school.dataninja.it ” 12 > COSA SONO I DATI: IL CONTESTO “ From the dawn of civilization until 2003, humankind generated five exabytes of data. Now we produce five exabytes every two days… and Eric Schmidt Google’s executive chairman the pace is accelerating! 1 exabyte = 1018 bytes = 1.000.000.000.000.000.000 (un trilione di) bytes 1 byte ~= 1 carattere di testo | Divina Commedia: ~ 500.000 caratteri school.dataninja.it ” 13 > TIPI DI DATI: DATI NON STRUTTURATI school.dataninja.it 14 > TIPI DI DATI: DATI STRUTTURATI E METADATI Un metadato è un’informazione che descrive un dato e ne descrive anche la relazione con gli altri dati. Strutturare un insieme di dati significa esplicitarne il significato e le relazioni reciproche. Esempio: ● 110 (dato) ● Superficie calpestabile dell’abitazione in mq (metadato) school.dataninja.it 15 > TIPI DI DATI: OPEN E CLOSED (LICENZE) “ Un dato è aperto se chiunque è libero di usarlo, riutilizzarlo, ridistribuirlo, ed è soggetto tutt’al più all’obbligo di citazione o condivisione allo stesso modo Open Definition: http://opendefinition.org/od school.dataninja.it ” 16 > TIPI DI DATI: QUELLI CHE PRODUCIAMO NOI Sondaggi, informazioni, interviste giornalistiche, dati personali: è importante capire con che tipo di dati abbiamo a che fare e quali sono le regole che vogliamo darci nel diffonderli. Ormai siamo anche noi produttori di dati e dataset, quindi dobbiamo scegliere una licenza di distribuzione! school.dataninja.it 17 > A CACCIA DI DATI: UNA BUONA DOMANDA UN EVENTO UN TEMA FOLLOW THE MONEY LA NOSTRA VOGLIAMO SE VUOI FARE INCHIESTA PUÒ CONTESTUALIZZARE, UN’INCHIESTA E NON NASCERE DA UN ANALIZZARE E SAI DA DOVE EVENTO DI CRONACA INDAGARE UNA PARTIRE, PROVA A CHE VOGLIAMO TEMATICA SPECIFICA SEGUIRE L’ODORE APPROFONDIRE O UN FENOMENO DEI SOLDI! school.dataninja.it 18 > A CACCIA DI DATI: FONTI LEAKS PUBBLICA AMMINISTRAZIONE SOCIAL NETWORK ASSOCIAZIONI ONG TERZO SETTORE COMUNITÀ DI INTERESSE COMITATI DI CITTADINI ATTIVI ORGANISMI INTERNAZIONALI GIORNALISTI NOI STESSI... school.dataninja.it 19 > FONTI DI DATI: PUBBLICA AMMINISTRAZIONE Legislazioni sull’Open Data By Default - Nel 2013 è entrato in vigore il Codice dell’Amministrazione Digitale (CAD) che prevede l’”Open Data by Default”. Il formato di tipo aperto è “un formato di dati reso pubblico, documentato esaustivamente e neutro rispetto agli strumenti tecnologici necessari per la fruizione dei dati stessi”. Fonte: http://goo.gl/zmjbY7 Diritto (e richieste) di accesso ai dati - Chiunque può chiedere accesso ai dati della PA. Le leggi che disciplinano l’accesso sono la 214 del 1990 e la 33 del 2013. school.dataninja.it 20 > FONTI DI DATI: SOGGETTI PRIVATI ● ● ● ● ● ● Editori, giornali di carta / on-line Organizzazioni non governative Associazioni Fondazioni Istituti di ricerca Grandi aziende private / a partecipazione pubblica school.dataninja.it 21 > FONTI DI DATI: SONO QUALIFICATE? ● Chi è la nostra fonti di dati e quali sono i suoi scopi? ● È un soggetto comunemente ritenuto affidabile nel contesto in cui opera? ● È possibile verificare altrove se i dati che fornisce sono credibili? ● Qualcun altro ha usato dati da questa fonte? school.dataninja.it 22 > SCARICARE I DATI: FORMATI DEI FILE Se i dati sono strutturati e offerti in un formato machine readable, il lavoro è semplice: è sufficiente scaricare il file e aprirlo con un software apposito (spesso un foglio di calcolo). ● Alcuni formati comuni: xls(x), csv, tsv, ods ● Formati strutturati, ma meno gestibili con pacchetti di ufficio: xml, sql, json, shp, kml school.dataninja.it 23 > SCARICARE I DATI: E SE SONO TROPPI? Se i dati sono suddivisi in una grande quantità di file, pubblicati per esempio come un elenco di indirizzi web, ci sono diversi strumenti di download massivo che automatizzano il lavoro e scaricano tutto sostanzialmente da soli. Esempio: https://www.gnu.org/software/wget/ school.dataninja.it 24 > SCRAPING: GRATTARE DAL WEB (HTML) I dati possono trovarsi pubblicati direttamente su pagine web sotto forma di tabelle o liste: prima di essere elaborati su fogli di calcolo è necessario estrarli e riorganizzarli in formati machine readable (xls, csv, tsv, ods). Spesso, più che una scienza, è un’arte. Ci sono molti strumenti con cui partire (DataMiner, ScraperWiki, …) school.dataninja.it 25 > SCRAPING: GRATTARE DAL WEB (PDF) I dati possono trovarsi sotto forma di tabelle inserite in un file PDF. Sono ben strutturati solo visivamente e quindi non sono usabili direttamente in fogli di calcolo, ma vanno estratti. Anche qui serve un lavoro di scraping per estrarli e renderli machine readable (xls, csv, tsv, ods). È uno dei compiti di scraping più difficili, spesso impossibile (per esempio quando i documenti sono scansioni): alcuni strumenti utili sono Okular, Tabula, la suite professionale di Adobe. school.dataninja.it 26 > SCRAPING: SE SERVE UNO SVILUPPATORE Non tutti i dati possono essere estratti in maniera automatica. Anche se ci si trova nelle condizioni di fare scraping, non sempre ci sono software già pronti: può essere necessario uno strumento ad hoc costruito da uno sviluppatore professionista. Uno scraper è un software appositamente scritto in un qualche linguaggio di programmazione (python, javascript, java, …) school.dataninja.it 27 INTRODUZIONE AL DATA JOURNALISM DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE 2. Pulire i dati school.dataninja.it 28 > PULIRE I DATI: UN PASSAGGIO IMPORTANTE La pulizia dei dati è fondamentale per assicurarsi che siano strutturati bene all’interno delle righe e delle colonne, che i valori inseriti siano coerenti, che siano stati inseriti correttamente. Analizzare i dati senza fare un attento data cleaning potrebbe portare successivamente a gravi errori o a difficoltà ingestibili. school.dataninja.it 29 > PULIRE I DATI: I TIPI DI DATI Di fronte all’enorme varietà del mondo, il computer comprende pochi tipi di variabili: ● ● ● ● ● school.dataninja.it numeri interi (con segno, incluso lo 0) numeri decimali (con segno) date e orari stringhe di caratteri (case sensitive) valore mancante (o NULL) 30 > PULIRE I DATI: LA TABELLA Una tabella è composta da colonne e righe. ● Ogni colonna rappresenta e contiene uno e un solo tipo di dato. ● Ogni riga rappresenta e contiene uno e un solo oggetto, definito univocamente dalla collezione di dati inseriti nelle varie colonne. ● Non possono esistere righe completamente vuote o più righe perfettamente identiche. school.dataninja.it 31 > PULIRE I DATI: CHECKLIST DI CONTROLLI / 1 Controlla che la struttura dei dati sia corretta. Ogni colonna deve contenere valori dello stesso tipo. Se la colonna indica una data, in tutte le righe di quella colonna devono esserci solo date (o NULL). Se contiene nomi di persone, devono esserci solo quelli (o NULL). Nella colonna “Nato il” non può esserci un nome di persona, e nella colonna “Nome” non possono esserci date. school.dataninja.it 32 > PULIRE I DATI: CHECKLIST DI CONTROLLI / 2 Controlla che i dati siano scritti alla stessa maniera. Se una colonna contiene date, le date devono essere scritte con la stessa struttura (esempio: nella notazione italiana GG/MM/AAAA). Attenzione a quando si mescolano notazione italiana e anglosassone (MM/GG/AAAA): alcune date sono valide, ma sbagliate! school.dataninja.it 33 > PULIRE I DATI: CHECKLIST DI CONTROLLI / 3 Controlla che all’interno delle righe le parole siano scritte in maniera omogenea. Ad esempio nella colonna dei nomi è un errore scrivere in una riga “Italia” e nella riga successiva “ITALIA”: l’applicazione potrebbe capire che si tratta di cose differenti. È necessario scrivere “Italia” (oppure “ITALIA”) in entrambe le righe, e in tutte quelle dov’è presente il valore “Italia” sia in maiuscolo che in minuscolo. school.dataninja.it 34 > PULIRE I DATI: CHECKLIST DI CONTROLLI / 4 Controlla quale sistema di numerazione stai usando. Europeo o anglosassone? È importante perché esistono separatori diversi per indicare i decimali e le migliaia. ● Le migliaia – In Europa si scrive 1.000 (mille), mentre negli Stati Uniti e in Gran Bretagna si scrive 1,000. In questo caso in Europa indichiamo le migliaia con un punto, non con la virgola. ● I decimali – In Europa si scrive 1,5 (uno e mezzo), mentre negli Stati Uniti e in Gran Bretagna si scrive 1.5. In questo caso in Europa indichiamo i decimali con una virgola, non con il punto. school.dataninja.it 35 > PULIRE I DATI: CHECKLIST DI CONTROLLI / 5 Controlla le intestazioni e assicurati che siano sempre nella prima riga della tua tabella. Le intestazioni sono i “nomi” dei tuoi dati, che si trovano suddivisi in colonne. Ogni intestazione dà il nome alla colonna nella quale si trova: perché però il tutto funzioni, le intestazioni devono trovarsi nella prima riga della tua tabella (e solo lì, non devono ripetersi in mezzo alla tabella). school.dataninja.it 36 > PULIRE I DATI: CHECKLIST DI CONTROLLI / 6 Controlla le righe e le celle bianche / vuote. La tua tabella potrebbe averne, perché spesso i fogli di calcolo vengono usati in maniera impropria. Le righe vuote non devono esistere. Le celle vuote possono invece indicare valori mancanti, l’importante è essere coerenti (tutte le celle vuote indicano sempre valori mancanti). Attenzione a celle fintamente vuote: il carattere spazio c’è, anche se non si vede! school.dataninja.it 37 > PULIRE I DATI: CHECKLIST DI CONTROLLI / 7 Controlla le somme se lavori su tabelle numeriche e le stai modificando, esportando o salvando in altri file. Le somme dei dati numerici dai vecchi ai nuovi file possono essere dei check molto utili per evidenziare degli errori. school.dataninja.it 38 > PULIRE I DATI: CHECKLIST DI CONTROLLI / 8 È sempre meglio avere a che fare con dati il più granulari e dettagliati possibile. Se si può, quindi, meglio suddividere le informazioni in più colonne possibile (per esempio se si hanno nomi completi, meglio dividerli in “nome” e “cognome”, se si hanno “codice fiscale” e “partita iva”, meglio prevedere due campi separati, ...). school.dataninja.it 39 > PULIRE I DATI: GLI STRUMENTI I dati possono essere puliti anche da foglio di calcolo o con un semplice editor di testo, ma uno degli strumenti migliori è OpenRefine, un’applicazione open-source che permette di filtrare, riorganizzare e trasformare anche grandi quantità di dati in pochi click: http://openrefine.org/. school.dataninja.it 40 INTRODUZIONE AL DATA JOURNALISM DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE 3. Esplorare i dati school.dataninja.it 41 > ANALISI: ESPLORARE I DATI Le possibili strade per esplorare i dati dipendono dalla loro quantità e dalla loro qualità. Tra gli elementi da tenere presenti ci sono le dimensioni che li caratterizzano. ● I nostri dati hanno una dimensione geografica e permettono un confronto tra territori? ● Hanno una dimensione temporale e possono permetterci di valutare come un fenomeno cambia nel tempo? school.dataninja.it 42 > ANALISI / 1. LA NORMALIZZAZIONE DEI DATI La normalizzazione è un aspetto cruciale per confrontare i dati tra loro. È indispensabile se un valore muta in relazione al contesto al quale afferisce. Esempio: non ha senso confrontare direttamente i disoccupati di un territorio più popoloso con quelli di un territorio meno popoloso. La normalizzazione si ottiene costruendo un rapporto tra il dato e il contesto. Per confrontare i disoccupati di Lombardia e Molise, li dobbiamo relazionare alla popolazione (“Disoccupati Lombardia / Residenti Lombardia” vs. “Disoccupati Molise / Residenti Molise”). school.dataninja.it 43 > ANALISI / 2. ANDAMENTO NEL TEMPO Confrontare i dati nel tempo è importante. La disoccupazione cresce? Il reddito è in aumento? Per rispondere a queste domande dobbiamo misurarne la variazione. Concentriamoci sul reddito a base regionale: per sapere se nel 2013 è aumentato rispetto al 2012 (e dove), dobbiamo avere entrambi i dati per ogni regione. Ci serve un dataset costruito così: nella prima colonna avremo il nome dalla regione, nella seconda il corrispondente reddito del 2012, nella terza quello del 2013. school.dataninja.it 44 > ANALISI / 2. ANDAMENTO NEL TEMPO Per sapere di quanto è aumentato o diminuito il reddito è sufficiente calcolarne la variazione relativa per ogni regione: (reddito 2013 - reddito 2012) reddito 2012 Il risultato è un indice di variazione relativa del reddito espresso in percentuale (es. +12%). school.dataninja.it 45 > ANALISI / 3. LA DISTRIBUZIONE Quando si ha un insieme di numeri abbastanza grande (centinaia o più), come per esempio le superfici degli esercizi commerciali di una città, è utile conoscerne la distribuzione, cioè il modo in cui popolano tutti i possibili valori che possono assumere teoricamente. Per esempio una superficie è misurata con un numero decimale positivo di metri quadrati. Quindi nel nostro dataset di esercizi commerciali possiamo trovare qualsiasi valore tra 0 e (teoricamente) infinito. school.dataninja.it 46 > ANALISI / 3. LA DISTRIBUZIONE Operativamente si divide l’intero intervallo di valori possibili (es. 0 -> +infinito) in tanti piccoli intervallini (es. 0-50 -> 50-100 -> …), quindi si contano per ognuno di essi quanti valori del dataset ci cadono dentro. Il grafico qui accanto mostra per esempio la distribuzione della superficie di 109.654 esercizi commerciali italiani. La maggior parte ha un superficie intorno ai 50 mq, quasi tutti sono sotto i 200 mq. school.dataninja.it 47 > ANALISI / 4. GLI INDICATORI STATISTICI Attraverso analisi quantitative i dati possono essere confrontati, per esempio costruendo un indicatore. Poniamo di avere un dataset con tre colonne: nella prima l'elenco delle regioni italiane, nella seconda il numero totale di disoccupati per regione, nella terza il numero di giovani disoccupati per regione. I giovani disoccupati sono una parte del totale dei disoccupati: dividendo "giovani disoccupati" per "totale dei disoccupati" in ciascuna regione, possiamo costruire il nostro indicatore (il risultato sarà sempre compreso tra 0 e 1). Ora possiamo confrontare i territori attraverso un indice di disoccupazione giovanile. school.dataninja.it 48 > ANALISI / 5. LE CORRELAZIONI Nel mondo reale oggetti e fenomeni interagiscono tra loro. Un fenomeno può essere causa di un altro, o può manifestarsi come un effetto di una qualche causa, o due fenomeni possono dipendere da una causa comune. Un primo indizio di un legame tra due fenomeni è dato dalla loro eventuale correlazione: la tendenza di uno a variare in funzione dell’altro. school.dataninja.it 49 > ANALISI / 5. LE CORRELAZIONI Per verificare qualitativamente una possibile correlazione tra due variabili è sufficiente costruire un grafico ponendo una variabile su ogni asse. Es. l’altezza dei padri vs. l’altezza dei figli mostra una correlazione positiva (cresce una, cresce l’altra per questioni genetiche). Quantitativamente si possono calcolare degli indici o coefficienti di correlazione. Il più semplice e utile è quello di Pearson (valori d’esempio mostrati in figura). school.dataninja.it 50 > ANALISI / 6. ORDINARE I DATI Ordinare i dati è un’operazione tanto semplice quanto utile: la facciamo ogni giorno, per esempio per sapere quali sono le nostre spese più o meno importanti, oppure organizzando i nomi dei contatti della rubrica secondo l’ordine alfabetico. Durante l’analisi dei dati può essere utilissima perché ci permette di conoscere immediatamente i valori massimi e minimi dei dati che stiamo analizzando. Nell’esempio sulla disoccupazione, ordinando i dati finali scopriamo facilmente dove la disoccupazione è maggiore e dov’è minore. school.dataninja.it 51 > ANALISI / 7. FILTRARE I DATI Filtrare i dati è un’operazione semplice che può avere varie utilità. ● Filtriamo i dati per concentrarci su quelli che ci interessano di più in base a un parametro comune. Avendo i valori della disoccupazione per tutte le province italiane, potrebbero servirci solo quelli della Lombardia: li filtriamo quindi per la chiave “Lombardia”. ● Filtriamo i dati anche per isolare i valori più significativi: ad esempio se ci interessano solo le province dove la disoccupazione è in aumento, filtreremo solo le righe con valori positivi. school.dataninja.it 52 > ANALISI / 8. RAGGRUPPARE I DATI Raggruppare i dati è un’operazione che permette di aggregarli secondo criteri specifici, funzionali alla nostra ricerca giornalistica. Nei fogli di calcolo questa operazione è assolta dalle Tabelle Pivot. Poniamo che la nostra inchiesta non sia sull’occupazione in generale, ma solo su quella giovanile e che abbiamo i dati dei disoccupati suddivisi non solo per regione, ma anche per età. Per ogni riga abbiamo quindi “Territorio” / “Fascia d’età” / “Disoccupati”. Possiamo ricavare i dati complessivi per regione raggruppando i dati originali per Fascia d’età (inferiore a 24 anni), sommando i relativi singoli valori. school.dataninja.it 53 INTRODUZIONE AL DATA JOURNALISM DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE 4. Visualizzare i dati school.dataninja.it 54 > VISUALIZZARE I DATI: PERCHÉ “ Alberto Cairo The functional art Come non era mai successo nelle nostre vite, oggi abbiamo accesso a un’infinità di informazioni libere e gratuite. Con gli strumenti giusti possiamo cominciare a dare un senso a questi dati per vedere schemi e trend che altrimenti per noi sarebbero invisibili. Trasformando i numeri in forma grafica, permetteremo ai lettori di conoscere le storie che quei numeri nascondono. school.dataninja.it 55 > VISUALIZZARE I DATI: COME La visualizzazione dei dati è un aspetto cruciale: è fondamentale scegliere un tipo di visualizzazione adeguata al tipo di dati che si hanno a disposizione perché ● se corretta, permette di comprendere a fondo il senso dei dati; ● se sbagliata, ne può falsare completamente il significato. school.dataninja.it 56 > VIZ / 1. GRAFICO DI DISPERSIONE Grafico a punti o di dispersione È il più semplice per evidenziare una dipendenza tra due variabili (correlazione). school.dataninja.it 57 > VIZ / 2. GRAFICO A LINEE Grafico a linee Il più usato per mostrare i cambiamenti o gli andamenti nel tempo. school.dataninja.it 58 > VIZ / 3. ISTOGRAMMA Istogramma Quando i valori di ciascun elemento, come le nazioni dell’esempio, non hanno una relazione reciproca gli uni con gli altri, o quando è importante evidenziare alcuni valori specifici, è preferibile un istogramma piuttosto che un grafico a punti o a linee. school.dataninja.it 59 > VIZ / 4. GRAFICO A BARRE Grafico a barre Questa variante è molto utile se si hanno molte etichette lunghe da mostrare. Qui le informazioni sono nella parte sinistra della visualizzazione, in modo da lasciare più spazio e rendere più facile e piacevole la lettura. school.dataninja.it 60 > VIZ / 5. GRAFICO A TORTA Grafico a torta Da usare solo per mostrare dati che sommati insieme rappresentano un totale (e presi singolarmente rappresentano le parti del totale). Il grafico a ciambella è una variante del grafico a torta: spesso è usato in ambito politico per indicare la distribuzione del parlamentari di maggioranza e opposizione. school.dataninja.it 61 > VIZ / 6. LE MAPPE INTERATTIVE Visualizzare i dati su una mappa richiede un requisito fondamentale: che i dati contengano almeno una dimensione geografica. La rappresentazione dei dati avviene in tre modalità differenti: ● Punti - Luoghi geografici con specifiche coordinate (latitudine e longitudine) ai quali i dati si riferiscono (indirizzi, città, …) ● Linee - Serie di punti collegati e relativi dati (strade, percorsi, …) ● Perimetri - Poligoni che definiscono determinate aree afferenti ai dati (quartieri, comuni, province, regioni, nazioni, …) school.dataninja.it 62 > VIZ / 6. PRINCIPALI TIPI DI MAPPE CHOROPLETH CARTOGRAMMI HEATMAP Diffusione dei giornali Perimetri colorati in base al valore dei dati Numero figli per donna Perimetri deformati in base al valore dei dati Distribuzione slot Colore in base al valore medio di punti adiacenti school.dataninja.it 63 > VIZ / 7. LE RETI Una visualizzazione a rete è adatta per evidenziare rapporti reciproci tra elementi. Sono necessari due ingredienti: i nodi, individuati da un id unico e caratterizzati da vari parametri, e i collegamenti, individuati da una coppia ordinata di nodi e caratterizzati a loro volta da vari parametri. Esempio: un gruppo di persone (nodi) e i loro rapporti di amicizia (collegamenti). Ed ecco visualizzato Facebook, per esempio… school.dataninja.it 64 > VISUALIZZARE I DATI: I SOFTWARE Esistono numerosi software che permettono in maniera più o meno semplice di visualizzare i dati tradurre i numeri in immagini. ● ● ● ● ● ● ● Datawrapper (grafici di base) http://datawrapper.de/ Quantum GIS (mappe) http://www.qgis.org/it/site/ CartoDB (mappe di ogni genere) http://cartodb.com/ Google Fusion Tables (grafici di base e mappe con GMaps) Infogr.am (grafici di vario genere organizzati in una infografica) Gephi (reti) https://gephi.org/ D3js (libreria javascript per scrivere web app interattive) http://d3js.org/ school.dataninja.it 65 > RACCONTARE UNA STORIA Mai dimenticare che il data journalism non è altro che giornalismo. ● ● ● ● 5 W (+ H di How, come) Verifica delle fonti Deontologia professionale Trasparenza (citazione delle fonti, rilascio dei dati) E poi una buona scrittura (e belle foto, bei video, interviste utili, applicazioni interattive chiare e fruibili, …). school.dataninja.it 66 > RISORSE VARIE: SU WEB ● http://www.dataninja.it ● http://datajournalismhandbook.org/ ● http://www.datajournalism.it ● http://datadrivenjournalism.net/ ● http://www.ascuoladiopencoesione.it ● http://datajcrew.sudmediatika.it/ ● http://www.openricostruzione.it ● http://it.okfn.org/ ● http://www.wired.it/data ● http://www.spaghettiopendata.org/ ● http://www.theguardian.com/data ● http://www.datamediahub.it/ ● http://www.datajournalismblog.com/ ● http://simonrogers.net/ ● http://flowingdata.com/ school.dataninja.it 67 > RISORSE VARIE: LIBRI ● Paul Bradshaw, “Scraping for Journalists”, Leanpub (2014) ● John Mair, Richard Lance Keeble, “Data Journalism”, abramis (2014) ● Paul Bradshaw, “Data Journalism Heist”, Leanpub (2013) ● Claire Miller, “Getting Started with Data Journalism”, Leanpub (2013) ● Nathan Yau, “Data Points: Visualization That Means Something”, Wiley (2013) ● Simon Rogers, “Facts are Sacred”, Faber & Faber (2013) ● Jonathan Gray et al., “The Data Journalism Handbook”, O'Reilly (2012) ● Nathan Yau, “Visualize This”, Wiley (2011) school.dataninja.it 68 > CREDITS Andrea Nelson Mauro / "nelsonmau" Alessio Cimarelli / "jenkin27" [email protected] [email protected] @nelsonmau @jenkin27 Dataninja www.dataninja.it | http://school.dataninja.it Newsletter http://dataninja.it/newsletter Q&A http://school.dataninja.it/qa school.dataninja.it 69 > CREDITS Le immagini utilizzate in questa presentazione sono prodotte da Dataninja.it, o messe a disposizione dai relativi autori in formato CC-by. Alcune delle immagini sono tratte da: ● School of Data (Open Knowledge Foundation) ● Datadrivenjournalism.net ● Openclipart ● Pixabay ● De.straba.us (blog di Maurizio Napolitano) Per maggiori info sui contenuti, puoi contattarci all’indirizzo email [email protected] school.dataninja.it 70 > CHANGELOG La dispensa è stata realizzata da dataninja.it a maggio 2014. In questa pagina terremo traccia delle modifiche che effettueremo. ● Ultimo aggiornamento: 10/10/2015 by @nelsonmau ● Ultimo aggiornamento: 16/05/2014 by @nelsonmau school.dataninja.it 71