Il punto di vista del mercato: una app con i dati sugli incidenti stradali Come usare i dati dell’ISTAT per creare applicazioni di mercato Il punto di vista di Evodevo, azienda specializzata in Open Data e semantica Stefano De Luca| Evodevo srl In due parole: sicurezza delle strade La sicurezza delle strade è un tema particolarmente importante per l’enorme numero di vittime. L’ISTAT raccoglie informazioni su tutti gli incidenti con almeno un ferito, secondo un protocollo europeo. Evodevo ha usato questi dati per un prototipo di Poste Italiane per la Polizia Provinciale di Roma, con analisi di crime mapping e geo-statistica per identificare le zone e le strade più pericolose, gli andamenti nel tempo, le ragioni dell’incidentalità di un luogo e, con metodi statistici inferenziali la previsione di pericolosità di un tratto stradale, per poter migliorare l’efficacia di interventi correttivi. Si è quindi esteso il lavoro ai dati della Gran Bretagna. 211.404 incidenti stradali 4.090 morti 302.735 feriti dati istat 2010 I dati Tramite SISTAN, è stata fatta una richiesta all’ISTAT per ottenere i dati, che non sono oggi del tutto open data, data la sensibilità di alcune informazioni. I dati forniti sono stati resi anonimi. Questi dati sono stati integrati con quelli delle multe. Problemi nei dati: • Non tutte le istanze hanno le stesse informazioni (dati mancanti) • Difficile la geocodifica: • «via Nazionale n. 12, Roma» OK! • «via Aurelia, Roma» è una strada lunghissima! • «via Nazionale incrocio via Milano» i geocoder non dànno risultato SISTAN: data set incidenti Problemi: • qualità dei dati variabile • difficile geocodifica Il sistema: Crime Mapping & geo-statistica Il sistema CRIMAP ha circa 60 analisi, basate su tecniche geo-statistiche Sono state usate tecniche studiate nell’ambito dell’analisi criminale tramite aspetti geografici, il cosiddetto crime mapping KERNEL DENSITY: analisi delle aree con più incidenti HOT SPOT ANALYSIS: analisi delle aree più pericolose (hot spot) o più tranquille (cold spot) SDE: direzionalità e centro dei problemi CLUSTER & OUTLIERS: raggruppamenti per punti critici (ad es. incroci) e anomalie CORRELAZIONI STATISTICHE: geostatistica, studio delle correlazioni tra variabili e data mining spaziale Applicazione CRIMAP: 60 analisi crime mapping geo statistica Mapping e location intelligence Il sistema permette di mappare gli incidenti su base geografica Le analisi sono per dato tabellare e per dato geografico Location Intelligence Il livello più semplice è la visualizzazione dei dati e l’analisi comparativa, ad es: • Incidenti per gravità • Analisi delle quantità per zona censuaria • Ricerche • Dettagli • Reports di business intelligence Tutte le analisi posso essere studiate per la variazione temporale Hot spot analysis Hot spot analisys consente di trovare le zone pericolose (hot spots) e quelle «virtuose» (cold spots) Le analisi sono state divise tra • strategiche (sull’intera provincia di Roma) • tattiche: a livello di quartiere Di ogni analisi si è verificata la significatività statistica Hot Spot Analysis • Zone più pericolose • Analisi strategica e tattica Clusters & Outliers / Spatial distribution CRIMAP permette di analizzare cluster di incidenti organizzati per diverse dimensioni geografiche (strade, incroci, sezioni di censimento, CAP) Si analizzano anche le zone con comportamenti anomali (outliers) Tramite la distribuzione spaziale (SDE, Standard Deviational Ellipse) si può vedere qual è il centroide del problema e quale sia il suo orientamento nello spazio. Importanti le differenze nel tempo (giorno, notte) e per tipologia, ad es. in figura i diversi ellissi per tipologia di rischio dei verbali (rischio di incidentalità) Clusters: concentrazioni Outliers: anomalie Distribuzione spaziale: dove Pericolosità di una strada: indice SPF Per calcolare quanto sia pericolosa una strada, abbiamo un indice tramite funzione predittiva SPF safety performance functions*, tramite inferenza bayesiana e parametri della strada (tipo di pavimentazione, larghezza, rurale/cittadina etc.). Calcolare il rischio futuro è importante per: • definire dove intervenire e • misurare l’efficacia degli interventi (scostamento rispetto la previsione) Sono state inoltre usate analisi per semivariogramma ed altre tecniche di data mining spaziale per identificare la causa dell’aumento di rischio Pericolosità di una strada Previsione futura Data mining spaziale • Dominique Lord, Bhagwant N. Persaud, Estimating the safety performance of urban road transportation networks, Accident Analysis & Prevention, 36 (2004) 609– 620 • Ozlem Yanmaz-Tuzel, Kaan Ozbay A comparative Full Bayesian before-and-after analysis and application to urban road safety countermeasures in New Jersey, Accident Analysis & Prevention, 42 (2010) 2099–2107 Analisi incidenti di Londra Abbiamo creato una versione «light» di CRIMAP ad uso dei cittadini: http://lab.evodevo.it/roadsafety con analisi per gli incidenti di Londra, usando i gli open data pubblicati su data.gov.uk Versione ridotta di CRIMAP, ad uso dei cittadini. Disponibili hot spot analysis, density, SDE, conteggio degli incidenti, Street Performance Index. Hot spots Obiettivi: • informare sui rischi, • aumentare la consapevolezza • coinvolgere i cittadini nella riduzione degli incidenti Open Data Open Source Info ai cittadini SPF – Strade pericolose Conclusioni L’ISTAT raccoglie dati preziosissimi per la comunità e le imprese. I dati dell’ISTAT sono frutto di un processo di alta qualità ed omogenei su tutta Italia (o addirittura Europa), sono aggiornati periodicamente: l’ideale per lo sviluppo di un’applicazione! Esiste un mercato delle applicazioni basate sugli open data, ad uso di cittadini ed amministratori: all’aumentare delle informazioni disponibili, le applicazioni potranno essere più ricche (ad es. introducendo l’inquinamento nelle analisi viste). Evodevo è attiva sul mercato del riuso e della pubblicazione di open data (con il prodotto Evodevo Open Data Ground) ed opera per la liberazione di nuovi dati Ulteriori informazioni: Evodevo www.evodevo.it [email protected] Stefano De Luca [email protected] twitter @stefano_de_luca