UE COAST MED: LINEE GUIDA E METODI Visualizzazione e analisi di dati geografici delle regioni dei paesi appartenenti all’Unione Europea che si affacciano sul bacino del Mare Mediterraneo. UE COAST MED: LINEE GUIDA E METODI1 INDICE 1. Introduzione 2. Fonti e metodi 2.1. Analisi delle fonti statistiche, aree tematiche e indicatori 2.2. Scelta del livello geografico e definizione delle aree costiere 2.3. Le metainformazioni 3. Processo per la classificazione dei dati 3.1 Criteri generali 3.2 Metodi di divisione 4. Funzionalità tecniche 4.1. GIstat: Il sistema Informativo Geografico per le Statistiche 4.2. La web application 4.3. Funzionalità del prodotto 4.4. Procedure di automazione 4.5. Il geodatabase 4.6. La piattaforma di esercizio 5. Considerazioni di sintesi e sviluppi futuri 6. Riferimenti bibliografici e sitografici Allegato A – Guida alla navigazione Allegato B – Poster XII Conferenza Nazionale di Statistica: “Un’applicazione GIS per le coste dei Paesi UE” 1 Il progetto si inquadra nell’ambito della cooperazione avviata tra l’Ufficio territoriale per la Sicilia (RMH-DIRM) e il Servizio Ambiente e territorio, registro delle unità geografiche e statistiche (ATA-DCAT); il gruppo di lavoro è coordinato da A.P.M. Mirto e P.G. Ticca e ne fanno parte R. Abbate, M. Arcasenza, A. Gigantino F. Roberto, S. Scialanca. Sebbene il lavoro sia frutto della collaborazione congiunta tra gli autori si possono attribuire le singole parti come segue: A. P. M. Mirto (autore parr. 1, 2 e 6) e P. G. Ticca (autore parr. 1, 4.1 e 6), R. Abbate (par. 3), S. Scialanca (par. 4.2), A. Gigantino (parr. 4.3, 4.4), M. Arcasenza (par. 4.5 e Allegato A) e F. Roberto (par. 4.6). Si ringraziano, inoltre, F. Abate e F. Crescenzi per gli utili suggerimenti ricevuti in corso d’opera. Istituto Nazionale di Statistica |1 1. Introduzione Il progetto nasce dalla collaborazione interstrutturale tra il Dipartimento per la raccolta dati e lo sviluppo di metodi e tecnologie per la produzione e diffusione di informazione statistica (DIRM) e la Direzione centrale per le statistiche ambientali e territoriali (DCAT), e in particolare tra l’Ufficio Territoriale per la Sicilia (DIRM/RMH) e il Servizio Ambiente, territorio e registro delle unità geografiche e territoriali dell’Istat (DCAT/ATA) al fine di realizzare modelli di sviluppo delle informazioni geografiche attraverso l’utilizzo di innovativi sistemi di visualizzazione e analisi geospaziale. Va tuttavia precisato che gran parte dello sviluppo GIS è in carico a risorse appartenenti alla DCIT, tra le quali anche quelle transitate dalla DCAT alla DCIT in seguito alle recenti procedure di mobilità attuate in Istituto. Esso porta avanti l’idea di riutilizzare i modelli applicativi rispetto ad altri contesti geostatistici e si orienta, in particolare, alla visualizzazione e analisi di dati geografici che si riferiscono alle regioni dei paesi appartenenti all’Unione Europea che si affacciano sul bacino del Mare Mediterraneo. Rispondendo anche alle raccomandazioni con le quali l'UE invita ad investire maggiormente nell'integrazione tra informazione statistica e geospaziale, l'Istat continua la produzione e diffusione di informazione geografica e statistica georiferita in cui l'Istituto è attivo con profitto da diversi decenni; con UE Coast Med si amplia l'offerta di servizi geospaziali disponibili online all'indirizzo http://gisportal.istat.it e di cui si dirà nei paragrafi seguenti. Le preliminari funzionalità dell’applicazione sono state presentate alla XII Conferenza nazionale di statistica “Più forza ai dati: un valore per il paese” che si è svolta a Roma a Giugno 2016, attraverso il poster scientifico dal titolo” Gistat-ConfrontaCoste. Un’applicazione GIS per le coste dei Paesi UE” (per ulteriori dettagli cfr. Allegato B). Il poster mostra alcune delle modalità di analisi e confronto tra territori, periodi temporali e indicatori statistici che sono disponibili in modo completo e interattivo nella web application UE Coast Med. In questa nota si descrive la web application UE Coast Med che rappresenta una versione prototipale di un progetto più ampio che verrà sviluppato da Istat nell’ambito del Grant Eurostat “A reusable webGIS application and a geospatial database schema for the EU countries comparison” nel corso del 2017-20182. 2. Fonti e metodi 2.1 Analisi fonti statistiche, aree tematiche e indicatori L’applicazione, denominata UE Coast Med, è stata realizzata attraverso il ri-uso di esperienze, modelli dati e template applicativi già patrimonio dell’Istituto con Gistat, il sistema informativo geografico per le statistiche. 2 Cfr. Grant agreement Number 08143.2016.001-2016.414, European Commission – Eurostat, Directorate E – Sectoral and regional statistics. Istituto Nazionale di Statistica |2 I database di riferimento da cui sono stati estratti i principali dati e indicatori sono essenzialmente due: Census Hub3, database di Eurostat per i dati sull’ultimo censimento della popolazione e DB Regio, database tematico Eurostat con dati territoriali a livello almeno di NUTS2. Entrambi offrono una ampia selezione di dati su diversi tematismi e per ciascun indicatore sono definiti un set di metadati (cfr. Figura 1 e Tavola 1). Il processo di costruzione della web application ha visto un percorso che è iniziato con la definizione dei domini (scelta delle aree territoriali, dei tematismi e degli indicatori, individuazione dei periodi temporali) ed è terminato con la pubblicazione del prodotto UE Coast Med nel sito dell’Istat tra le applicazioni web (cfr. Figura 2). Figura 1 – Tematismi individuati da DB Regio Tavola 1 – Caratteristiche delle metainformazioni presenti nei database Eurostat Euro-SDMX Metadata Structure (ESMS) Standard internazionale utilizzato dagli stati membri per scambiare I dati e informazioni con Eurostat ed è alla base dei database. Classificazioni Legislazione e metodologia Classificazioni internazionali e nomenclature utilizzate Atti normative e manuali metodologici di riferimento CODED (Eurostat's Concepts and Definitions Database) e altri glossari riferiti alle indagini statistiche ISI (International Statistical Institute) glossary e altri thesauri on line Metodologie utilizzate per produrre le statistiche UE e i Quality report Concetti e definizioni Glossari e Tesauri Metodi nazionali 3 Census Hub: https://ec.europa.eu/CensusHub2/query.do?step=selectHyperCube&qhc=false. Istituto Nazionale di Statistica |3 Con riferimento alle aree tematiche l’attenzione è stata rivolta al tema popolazione individuato neI database Census Hub e ai dati riguardanti altri settori che invece sono stati estratti dal database di Eurostat DB Regio4. In particolare, i tematismi sono stati definiti secondo una relazione di pertinenza tra argomento e area costiera (così il nucleo centrale ha riguardato i temi Turismo, Trasporti e Ambiente a cui si sono affiancati gli altri) e sono quelli indicati di seguito: - Turismo Trasporti Ambiente Istruzione e lavoro Inclusione sociale Sviluppo economico Popolazione. Figura 2 – Step sulla progettazione della web application UE Coast Med 1.Definizione dei domini •Aree territoriali, tematismi e riferimenti temporali 2. Selezione delle fonti •Selezione e Calcolo degli indicatori 3. Alimentazione delle mappe •Definizione della struttura dell'applicazione e delle funzionalità 4. Sviluppo dell'applicativo prototipale 5. Definizione prodotto web per Pianedit Gli indicatori che sono stati selezionati sono invece indicati nella seguente tabella (cfr. Tavola 2) con l’indicazione del riferimento temporale e territoriale disponibile e la significatività in termini di tipologia di fonte Eurostat. Inoltre, sono rappresentate attraverso la Fig. 3 e la Tav. 3 le relazioni esistenti tra gli indicatori scelti nell’applicazione UE Coast Med e il riferimento alle politiche dell’Unione Europea rivolte alle regioni. Così le 4 Database Eurostat con dati a livello almeno di NUTS 2: http://ec.europa.eu/eurostat/data/database?p_p_id=NavTreeportletprod_WAR_NavTreeportletprod_INSTANCE_nPqeVbPXRmWQ &p_p_lifecycle=0&p_p_state=normal&p_p_mode=view&p_p_col_id=column-2&p_p_col_count=1. Istituto Nazionale di Statistica |4 principali considerate sono le Politiche Marittime UE che influenzano notevolmente le aree costiere e sono volte a massimizzare l’uso sostenibile dei mari e degli oceani, assicurare lo sviluppo e la crescita delle aree costiere. Le regioni costiere dell’UE sono infatti sottoposte a una pressione costante poiché quasi la metà della popolazione comunitaria vive a meno di 50 km dal mare e le risorse delle zone litoranee producono gran parte della ricchezza economica dell’UE5. A tal proposito la Commissione Europea esorta gli stati membri ad attuare strategie nazionali di gestione integrata delle aree costiere, agevolare lo sviluppo sostenibile delle aree costiere del mediterraneo e promuovere il turismo costiero e marittimo come uno dei principali settori per incentivare la crescita blu6. Di interesse in tale contesto sono anche le politiche di Coesione che mirano al miglioramento delle condizioni sociali, economiche e ambientali delle regioni. I principali temi che si approfondiscono attraverso gli indicatori di coesione territoriale riguardano lo sfruttamento dei punti di forza di ogni territorio, la gestione della concentrazione in alcune aree, il miglioramento dei collegamenti tra territori e lo sviluppo della cooperazione7. La fase di programmazione 2014-2020 è perfettamente allineata con la Strategia Europe 2020 che promuove la crescita smart, sostenibile e inclusiva8 attraverso 5 obiettivi chiave: occupazione, ricerca e sviluppo, cambiamento climatico e sostenibilità energetica, istruzione, lotta alla povertà ed esclusione sociale. Inoltre i Sustainable Development Goals, approvati a settembre del 2015 dall’Assemblea Generale delle Nazioni Unite, rappresentano un quadro di riferimento armonizzato per arginare le diverse forme di povertà, combattere le disuguaglianze e affrontare i cambiamenti climatici9 e hanno un riscontro tra le politiche europee per lo Sviluppo Sostenibile. A tal proposito il nuovo quadro di riferimento europeo è stato recentemente proposto dall’UE al fine di diffondere un set di indicatori armonizzati per monitorare la Sustainable Development Strategy10. 5 6 7 8 9 10 Cfr. Comunicazione UE n.547/2000. Cfr. Comunicazione UE n. 86/2014. Cfr. Consiglio Unione Europea (2011). http://ec.europa.eu/eurostat/web/cohesion-policy-indicators/cohesion-indicators. http://ec.europa.eu/eurostat/web/sdi/overview. Cfr. Comunicazione UE n 739/2016, Next steps for a sustainable European future: European action for sustainability. Istituto Nazionale di Statistica |5 Figura 3 – Tipologia di aree tematiche di EU Coast Med in relazione alle EU Policies COHESION POLICY Ambiente, Trasporti, Povertà, Mercato del lavoro EUROPE 2020 Forze di lavoro, Istruzione, Povertà, Conti economici SUSTAINIBLE DEVELOPMNET Ambiente, Forze di lavoro, Istruzione, Povertà MARITIME POLICIES Demografia, Turismo, Trasporti, Mercato del Lavoro Fonte: elaborazioni dal sito Eurostat. Tavola 2 – Indicatori per area tematica e principali metainformazioni AREA TEMATICA INDICATORE ANNI AREA DB EUROSTAT Db Regio – Tourism Turismo Presenze turistiche per 1.000 ab. Arrivi turistici per 1.000 abitanti Numero strutture turistiche 2008-2012-2013-2014 2008-2012-2013-2014 2008-2012-2013-2014 NUTS 2 NUTS 2 NUTS 2 Trasporti Passeggeri aerei trasportati – Partenze Passeggeri aerei trasportati – Arrivi Automobili per 1.000 abitanti Passeggeri marittimi per 1.000 ab. – Partenze Passeggeri marittimi per 1.000 ab. - Arrivi 2008-2012-2013-2014 2008-2012-2013-2014 2008-2012-2013-2014 2008-2011-2012-2013 2008-2011-2012-2013 NUTS 2 NUTS 2 NUTS 2 NUTS 2 NUTS 2 Erosione del suolo dovuta all’acqua 2000-2010 NUTS 3 Ambiente Db Regio – Transport DB Regio – Environment and Energy Istruzione lavoro e NEET - % giovani che non lavorano o studiano Tasso di occupazione 15-64 anni Tasso di disoccupazione 15 anni e più 2012-2013-2014-2015 2008-2013-2014-2015 2008-2013-2014-2015 NUTS 2 NUTS 2 NUTS 2 DB Regio – Labour Market and Education Inclusione sociale Medici per 100.000 abitanti Posti letto ospedalieri per 100.000 abitanti Persone a rischio povertà o esclusione sociale 2008-2012-2013-2014 2008-2012-2013-2014 2008-2012-2013-2014 NUTS 2 NUTS 2 NUTS 2 DB Regio – Health care resources, Income and living condition Sviluppo economico PIL a prezzi di mercato Unità locali imprese 2008-2012-2013-2014 2008-2012-2013-2014 NUTS 2 NUTS 2 DB Regio – Economic account, SBS Popolazione % Popolazione > 64 anni % Popolazione < 15 anni % Edifici dal 2001 in poi % Stranieri su popolazione totale 2008-2013-2014-2015 2008-2013-2014-2015 2011 2011 NUTS 3 NUTS 3 NUTS 3 NUTS 3 Census Hub Fonte: Eurostat – DB Regio e Census Hub. Istituto Nazionale di Statistica |6 Tavola 3 – Indicatori per tipo di politica UE di riferimento INDICATORE MARITIME POLICY Presenze turistiche per 1.000 ab. Arrivi turistici per 1.000 abitanti Numero strutture turistiche √ √ √ Passeggeri aerei trasportati – Partenze Passeggeri aerei trasportati – Arrivi Automobili per 1.000 abitanti Passeggeri marittimi per 1.000 ab. – Partenze Passeggeri marittimi per 1.000 ab. - Arrivi √ √ √ √ √ SUSTAINABLE DEVELOPMENT EUROPE 2020 COHESION POLICY Erosione del suolo dovuta all’acqua √ NEET - % giovani che non lavorano o studiano Tasso di occupazione 15-64 anni Tasso di disoccupazione 15 anni e più √ √ √ √ √ √ Medici per 100.000 abitanti Posti letto ospedalieri per 100.000 abitanti Persone a rischio povertà o esclusione sociale √ √ √ √ √ √ PIL a prezzi di mercato Unità locali imprese % Popolazione > 64 anni % Popolazione < 15 anni % Edifici dal 2001 in poi % Stranieri su popolazione totale √ √ √ Fonte: elaborazioni dal sito Eurostat. 2.2 Scelta del livello geografico e definizione delle aree costiere La scelta del livello geografico è stata vincolata dalla disponibilità dei dati nei database Eurostat, per la maggior parte presenti a livello di NUTS2, tranne per alcuni indicatori sull’Ambiente e sulla Popolazione che invece erano disponibili anche a livello di NUTS 3. La classificazione delle aree costiere ha riguardato le regioni (NUTS 3) per cui calcolare ed estrarre il set di indicatori11 secondo almeno uno dei tre criteri: a. La regione ha un confine sul mare; b. La regione ha più della metà della sua popolazione che risiede all’interno di un’area che dista 50 km dal mare; c. Amburgo (è stata inclusa pur non rientrando nei precedenti due criteri). Nell’ambito di questa applicazione il criterio è stato esteso anche alle regioni NUTS 2 ipotizzando che fossero costiere quelle per le quali fosse valido almeno uno dei primi due criteri. In particolare si sono considerati due insiemi geografici di riferimento, il primo per i paesi UE 28: Austria, Belgio, Bulgaria, Croazia, Danimarca, Germania, Estonia, Irlanda, Grecia, Lussemburgo, Spagna, Francia, 11 Identificazione delle regioni costiere: http://ec.europa.eu/eurostat/web/maritime-policy-indicators/methodology. Istituto Nazionale di Statistica |7 Italia, Cipro, Lettonia, Lituania, Malta, Montenegro, Olanda, Polonia, Portogallo, Repubblica Ceca, Romania, Slovenia, Finlandia, Svezia, Regno Unito, Ungheria. Il secondo per i paesi che si affacciano sul Mediterraneo: Gibilterra, Spagna, Francia. Monaco, Italia, Slovenia, Croazia, Montenegro, Albania, Grecia, Turchia, Cipro, Siria, Israele, Libano, Egitto, Libia, Malta, Tunisia, Algeria, Marocco. Infine si sono selezionati i paesi Euromed cioè quelli appartenenti all’UE che si affacciano sul Mediterraneo: Italia, Francia, Spagna, Grecia, Croazia, Slovenia, Malta, Cipro, Regno Unito. 2.3 Le metainformazioni Le metainformazioni nell’ambito di questo prodotto rivestono un interesse particolare perché specificano all’utente il set di attributi geografici e statistici che si collegano al dato georeferenziato. In particolare, possiamo qui distinguere differenti tipi di metainformazioni per le quali è stata fatta una apposita riflessione. Si può fare riferimento a: - Metadati generali: sono tutte le informazioni che riguardano l’area tematica e le indagini di riferimento da cui sono stati elaborati gli indicatori, e inoltre le principali caratteristiche dei sistemi di rilevazione dei diversi paesi membri, il link ai metadati presenti nel sito Eurostat, il tipo di riferimento normativo sotteso alla rilevazione; - Metadati indicatore: la definizione dell’indicatore tratta dal sito dell’Istat o di Eurostat e generalizzata per i paesi UE, l’unità di misura del fenomeno; - Metadati geografici singola cella: riguardano eventuali avvisi e note che si riferiscono al singolo dato (provvisorio, stimato, break nella serie storica,…), l’identificativo del sistema NUTS, il link alla pagina di Meta informazioni; - Metadati rappresentazione: riguarda due informazioni quella sulla legenda di ogni quadrante e quella che si riferisce al sistema di classificazione adottato per l’indicatore rappresentato in ogni quadrante. Seguendo le specifiche precedenti le “Metainformazioni” sono state rappresentate in un pannello apposito che si apre dalla casella sulla parte sinistra dello schermo e includono i metadati generali e quelli indicatore. I metadati singola cella appaiono al click nei singoli poligoni rappresentati nei quattro quadranti e i metadati rappresentazione vengono visualizzati aprendo, per ogni pannello, gli appositi menù a tendina “Legenda” e “Classificazione”. Istituto Nazionale di Statistica |8 Figura 4 - Schema dei differenti tipi di metadati rappresentati su UE Coast Med Metadati generali Metadati indicatore Metadati geografici singola cella Metadati rappresentazione Area tematica Definizione Avvisi e note: provvisorio, stimato,... Legenda Rilevazioni: caratteristiche principali dei sistemi dei paesi UE Unità di misura Territorio di riferimento Sistema di classificazione Riferimenti normativi: Direttive e Regolamenti NUTS_ID Link sito EUROSTAT Link Meta informazioni Istituto Nazionale di Statistica |9 Figura 5 – Metainformazioni degli Indicatori per Tema INDICATORE/TEMA Presenze turistiche totali per 1.000 abitanti Arrivi turistici totali per 1.000 abitanti Numero strutture turistiche Passeggeri aerei trasportati - Partenze Passeggeri aerei trasportati - Arrivi Automobili per 1.000 abitanti Passeggeri marittimi per 1.000 abitanti - Partenze Passeggeri marittimi per 1.000 abitanti - Arrivi Erosione del suolo dovuta all'acqua (tonnellate per ettaro all'anno) NEET (%) Tasso di occupazione 15-64 anni (%) Tasso di disoccupazione 15 anni e più (%) Medici per 100.000 abitanti Posti letto ospedalieri per 100.000 abitanti Persone a rischio povertà o esclusione sociale (%) Pil a prezzi di mercato Numero unità locali imprese % popolazione > 64 anni % popolazione < 15 anni % edifici dal 2001 in poi % stranieri su popolazione totale DEFINIZIONE INDICATORE RILEVAZIONE TURISMO Numero di presenze per 1.000/ popolazione I dati sono raccolti dalle autorità nazionali media residente. attraverso indagini campionarie o censuarie, in Numero di arrivi per 1.000/ popolazione accordo a una metodologia armonizzata tra i media residente. paesi membri e in ottemperanza al Numero di esercizi ricettivi alberghieri ed Regolamento UE 692/2011 e alla Direttiva extra-alberghieri. 95/57/EC. TRASPORTI Passeggeri il cui viaggio inizia nell'aeroporto dichiarante, sono esclusi i passeggeri in transito diretto. I dati sui trasporti sono raccolti dai paesi Passeggeri il cui viaggio termina membri su base volontaria e su base legale. nell'aeroporto dichiarante, sono esclusi i Rientrano nella prima categoria i dati sul passeggeri in transito diretto. trasporto stradale. Vi sono invece specifici Numero di automobili diviso la popolazione riferimenti legali sul trasporto aereo media residente, per 1.000. (Regolamento EC/47/2003) e marittimo Passeggeri il cui viaggio inizia nel porto di (Direttiva 2009/42/EC). imbarco diviso la popolazione media http://ec.europa.eu/eurostat/cache/metadat residente, per 1.000. a/en/reg_tran_esms.htm Passeggeri il cui viaggio termina nel porto di sbarco diviso la popolazione media residente, per 1.000. AMBIENTE i dati sull'erosione del suolo sono raccolti L'erosione del suolo può essere deefinita sotto un accordo internazionale del data provider Joint Research Centre della come il trascinamento da un punto della superficie terrestre verso un altro punto Commissione Europea (JRC - ISPRA), uno dei attraverso le forze fisiche come pioggia, partner per la definizione degli Indicatori grandine, ghiaccio, vento, cambiamenti Agroambientali. Sono stimati attraverso un della temperatura o altri agenti naturali. modello empirico denominato RUSLE. ISTRUZIONE E LAVORO La fonte sui dati del mercato del lavoro è la Labour Force Survey svolta nei paesi UE. L'indagine condotta su un campione di famiglie su base trimestrale segue le definizioni e classificazioni emendate da ILO International Labour Organization). http://ec.europa.eu/eurostat/cache/metadat a/en/reg_lmk_esms.htm I dati sull'istruzione sono raccolti dai singoli % giovani (15-24 anni) che non lavorano o stati membri, successivamente viene studiano. compilato un questionario congiunto definito da Eurostat/ONU/OCDE sulla base di Rapporto % tra gli occupati (15-64 anni) e la classificazioni condivise dell'International corrispondente popolazione di riferimento. Standard Education Classification (ISCED). Rapporto % tra le persone in cerca di http://ec.europa.eu/eurostat/cache/metadat occupazione e le corrispondenti forze di a/en/reg_educ_esms.htm lavoro (occupati e disoccupati). INCLUSIONE SOCIALE I dati sulla salute si riferiscono primariamente alle risorse umane (medici, infermieri,…) e a quelle tecniche (posti letto,..) e sono indicati in valori assoluti e in tassi per 100.000 abitanti. I Numero di medici diviso la popolazione dati sono forniti dagli stati membri sulla base media residente per 100.000. di un gentleman's agreement stabilito nell'ambito del corrispondente working group sulle statistiche sulla salute. http://ec.europa.eu/eurostat/cache/metadat Numero di posti letto delle strutture a/en/hlth_res_esms.htm Le ospedaliere diviso la popolazione media persone a rischio povertà costituiscono un residente per 100.000. indicatore fondamentale incluso nella strategia 2020. Dal 2001 i dati vengono raccolti attraverso la rilevazione EU-SILC (Statistics on Income and Living Conditions). % di persone a rischio povertà o esclusione http://ec.europa.eu/eurostat/cache/metadat sociale a/en/ilc_esms.htm SVILUPPO ECONOMICO Pil ai prezzi di mercato (milioni di euro) è il risultato dell'attività di produzione delle I dati sui conti regionali sono elaborati in unità produttive residenti. L'unità locale corrisponde a un’unità accordo ad ESA2010. giuridico-economica o ad una parte http://ec.europa.eu/eurostat/cache/metadat dell'unità giuridico-economica situata in una a/en/reg_eco10_esms.htm località topograficamente identificata. In I dati su Structural Business Statistics sono tale località, o da tale località, una o più raccolti attraverso il Regolamentio Europeo persone svolgono (lavorando 250/2009. eventualmente a tempo parziale) delle http://ec.europa.eu/eurostat/cache/metadat attività economiche per conto di una stessa a/en/sbs_esms.htm POPOLAZIONE Le statistiche demografiche a livello regionale forniscono annualmente i dati per gli stati membri in accordo a sistemi di classificazione e definizione armonizzati. La normativa di riferimento si rifà al Regolamento n. 1260/2013 e n. 205/2014. Quota della popolazione con più di 64 anni http://ec.europa.eu/eurostat/cache/metadat rispetto alla popolazione complessiva. a/en/demo_r_gind3_esms.htm Quota della popolazione con meno di 15 Il Census Hub 2011 è il risultato di un progetto anni rispetto alla popolazione complessiva. dei paesi UE di diffondere i dati sul Quota % di edifici edificati dopo il 2001 Censimento della popolazione e abitazioni del rispetto al totale edifici. 2011. Quota % di stranieri rispetto alla https://ec.europa.eu/CensusHub2/metadata. popolazione totale. do CLASSIFICAZIONE "Metodo Intervallo geometrico " "Metodo Natural breaks " "Metodo Intervallo geometrico " "Metodo Intervallo geometrico " "Metodo Intervallo geometrico " "Metodo Intervallo geometrico " "Metodo Intervallo geometrico " "Metodo Intervallo geometrico " "Metodo Intervalli uguali " "Metodo Deviazione standard " "Metodo Natural breaks " "Metodo Natural breaks " "Metodo Natural breaks " "Metodo Natural breaks " "Metodo Intervalli uguali " "Metodo Intervallo geometrico " "Metodo Intervallo geometrico " "Metodo Deviazione standard " "Metodo Deviazione standard " "Metodo Intervalli uguali " "Metodo Intervalli uguali " Istituto Nazionale di Statistica |10 3. Processo per la classificazione dei dati 3.1 Criteri generali Uno dei problemi essenziali da affrontare nella rappresentazione delle informazioni quantitative relative ai dati riguarda il rispetto della natura informativa delle variabili utilizzate con il vincolo di ottenere una visualizzazione omogenea e confrontabile nei quattro quadranti dell'applicazione WebGis UE Coast Med. Per facilitare la scelta della gestione della rappresentazione del dato, cioè delle variabili spazio, tempo, metodo di divisione in classi e natura dei dati si è imposto un procedimento rigoroso per tutti gli indicatori selezionati. L'obiettivo principale è quello quindi di rappresentare, scelto il metodo, una distribuzione di dati in classi identica per tutti gli anni di quell'indicatore, in maniera tale non alterare la rappresentazione (tematismi di classe) in funzione dell'anno prescelto e dei suoi dati. Il passo iniziale è stato quello di verificare il comportamento della distribuzione annuale del singolo indicatore, adattando la migliore funzione attraverso il test di Kolmogorov-Smirnov12, (le distribuzioni sono diverse: Gamma, Beta, Log-Normale, Normale, Logistica, Chi-Quadro, GEV, Weibull, Fisher-Tippet, Esponenziale, Erlang ecc.). Scelta quindi la distribuzione di probabilità che si adatta meglio ai dati di quell'indicatore e di quell'anno, si è proceduto allo stesso modo per tutti gli anni. In genere si è verificato, salvo pochissime eccezioni, che la migliore distribuzione adattata per un anno era anche quella migliore per gli altri anni, facendo supporre che il comportamento in distribuzione di una stessa variabile nel tempo non cambia. 3.2 Metodi di divisione in classi Per approfondire l'analisi della distribuzione dei dati, dopo la verifica dell'adattamento di una specifica funzione di probabilità, si è realizzata un’analisi grafica della forma, asimmetria, kurtosi, unimodalità o multimodalità, presenza di gruppi omogenei di valori intorno a picchi, uniformità e linearità. Ognuna di queste informazioni ha contribuito alla scelta di una specifico metodo di divisione in classi tra quelli presenti in ArcGIS: intervalli uguali, intervalli definiti, quantili, natural breaks, geometrico, deviazione standard. • • Il metodo "intervalli uguali" divide la gamma di valori di attributi in intervalli secondari di uguale dimensione. È possibile specificare il numero di intervalli desiderati, determinando automaticamente le interruzioni di classe in base all'insieme di valori. Ad esempio, se si specificano tre classi per un campo i cui valori vanno da 0 a 300, ArcGIS creerà tre classi con gamme di 0-100, 101-200, e 201-300. Questo metodo enfatizza la quantità di un valore di attributo rispetto ad altri valori. Il metodo "intervalli uguali " è applicato con migliori risultati a intervalli come percentuali e temperatura. Esso si utilizza in presenza di distribuzioni asimmetriche, con concentrazioni di dati. Il metodo "intervalli definiti" consente di determinare la dimensione di un intervallo. Per esempio, ogni intervallo coprirà 75 unità oppure un determinato range. Si determinerà il numero di classi in 12 Il test di Kolmogorov-Smirnov è un test non parametrico che verifica la forma delle distribuzioni campionarie. È applicabile a dati continui, non richiede di per sé alcuna ipotesi sulla distribuzione campionaria (salvo nel caso a un campione, in cui viene testata una distribuzione a propria scelta). Esso si basa sul confronto delle funzioni di ripartizione campionaria e teorica, e se questa differenza non è statisticamente grande è possibile affermare che le due funzioni di ripartizione sono simili e che il campione è una realizzazione casuale di una V.C. che si distribuisce secondo quella funzione di probabilità. Istituto Nazionale di Statistica |11 • • • • base alla dimensione dell'intervallo prefissato. Questo metodo è molto simile al metodo per quantili. Esso si utilizza in presenza di distribuzioni multimodali con molta variabilità o in presenza di miscugli di distribuzioni. Il "metodo per quantili" stabilisce che ogni classe contenga un numero uguale di unità. Non ci sono classi vuote o classi con troppo pochi o troppi valori. Poiché utilizzando la classificazione quantili le unità sono raggruppate in numero uguale in ogni classe, la mappa risultante può essere spesso fuorviante. Unità simili possono essere collocate in classi adiacenti, o unità con valori molto diversi possono essere messe nella stessa classe. È possibile ridurre questa distorsione aumentando il numero di classi. Una classificazione per quantile è adatta a dati linearmente distribuiti o uniformi, o crescenti o decrescenti. Il "metodo natural breaks" si basa su raggruppamenti naturali inerenti i dati. I limiti di classe vengono identificati attraverso l'individuazione di gruppi con valori simili che massimizzano le differenze tra le classi. Le unità sono suddivise in classi i cui confini sono definiti nel punto in cui ci sono relativamente grandi differenze nei valori dei dati. Questo metodo si applica in evidenza di gruppi naturali, dicotomici o politomici, per esempio valori relativi al genere. Esso si utilizza in presenza di distribuzioni multimodali con molta variabilità. Il "metodo ad intervallo geometrico" crea intervalli geometrici minimizzando la somma dei quadrati del numero di elementi in ogni classe. Ciò assicura che ogni intervallo di classe ha approssimativamente lo stesso numero di valori e che la differenza nella dimensione degli intervalli può risultare anche abbastanza consistente. Questo algoritmo è stato specificamente progettato per dati continui. Si tratta di un metodo di compromesso tra uguali intervalli, i natural breaks (Jenks), e quantile. Esso crea un equilibrio tra variazioni evidenti nei valori medi e nei valori estremi, producendo così un risultato che è visivamente accattivante e cartograficamente completo. Esso si utilizza in presenza di distribuzioni fortemente asimmetriche. Il "metodo di classificazione deviazione standard" mostra quanto il valore di una unità varia intorno per esempio alla media. Il metodo determina le soglie di classe con intervalli simmetrici i cui valori sono una frazione o un multiplo della deviazione standard rispetto alla media. Viene applicato a distribuzioni di valori unimodali e simmetriche. Per la distribuzione dei dati annuali di ogni indicatore, scelto il metodo di divisione in classi, sono stati calcolati anche la media dei valori, la deviazione standard, il minimo e il massimo. Successivamente per tutti gli anni di quell'indicatore si è supposto che le varie distribuzioni di dati, aventi medie e deviazione standard simili e stessa funzione di probabilità adattata, provenissero da una identica originaria distribuzione generatrice dei dati. Le varie distribuzioni annuali sono state così messe insieme in un’unica "superdistribuzione", con un minimo e massimo assoluto dei dati e delle nuove soglie di classe determinate con l'applicazione del metodo precedentemente individuato dalle distribuzioni parziali annuali e imponendo cinque classi. Il risultato è stato quello di ottenere dei limiti di classe unici validi da utilizzare per ogni distribuzione annuale dell'indicatore (Figura 6). Figura 6 - Schema di determinazione soglie di classe generali Adattamento della funzione ai dati annuali dell'indicatore Le funzioni di probabilità adattate sono uguali? SI Metodi di divisione in classi, medie e deviazioni standard sono simili? SI Unica super popolazione, adattamento di un metodo di divisione in classi, individuazione soglie generali Applicazione delle soglie di classe generali alle distribuzioni annuali Istituto Nazionale di Statistica |12 Questo processo ci ha consentito di rappresentare in maniera confrontabile l'indicatore annuale nei quattro quadranti (quattro anni diversi) dell'applicazione WebGis UE Coast Med. Infatti, la tematizzazione delle classi non viene alterata con la variazione temporale della selezione dell'anno, in quanto le soglie di classe sono identiche per le quattro distribuzioni di dati, con un minimo e un massimo assoluto uguali e uno stesso metodo di divisione in classi adottato per tutti gli anni dell'indicatore. Questo tipo di approccio se da un lato ha consentito la confrontabilità temporale del dato rappresentato nei diversi quadranti, ha limitato al contrario il confronto spaziale intra-anno bloccando i valori limite degli intervalli di classe appartenenti a una distribuzione più generale e non specifica di quell'anno con propri intervalli. Il rischio è quello di rappresentare dei dati annuali il cui minimo o massimo annuale, per esempio, non corrispondono con il minimo o massimo assoluto della categorizzazione generale, e questo può confondere l'utente, che interrogando i territori di un riquadro con l'identify, non trova quelli con minimo o massimo assoluti riportati in legenda. Inoltre, questo tipo di iter deve scontare l'eccessiva manualità dei processi, che sono fortemente condizionati dalla numerosità dell'insieme geografico su cui si applica la procedura: infatti al variare o del numero di unità geografiche da inserire nella rappresentazione, o degli anni da inserire per l'indicatore (aggiunta di un anno alla serie dei dati per aggiornamento) occorre ricominciare dall'inizio, ricalcolando le funzioni da adattare, selezionando il metodo di divisione in classi, ridefinendo le nuove soglie di classe generali. 4. Funzionalità tecniche 4.1 Gistat: il Sistema Informativo Geografico per le Statistiche L’Istat si occupa di produzione e diffusione di informazione geospaziale da più di 20 anni, e durante questo periodo ha accresciuto costantemente conoscenze e competenze in ambito GIS (Geographic Information System), tecnologia fondamentale per il trattamento del dato geografico. In questo contesto nasce e si sviluppa Gistat, il Sistema Informativo Geografico per le Statistiche dell’Istat. Gistat nasce con la digitalizzazione ed evoluzione delle basi territoriali prodotte dall’Istituto originariamente per i censimenti ed è costituito da una banca dati spazio-temporale in continuo aggiornamento; è operativo su una moderna piattaforma di esercizio. Esso offre all’utenza interna ed esterna dati e funzioni geospaziali, accessibili sia attraverso l’uso di applicazioni web, sia in modalità machine-to-machine per gli sviluppatori (http://gisportal.istat.it). I servizi offerti sono reperibili ed accessibili online anche attraverso il Catalogo dei Geometadati, che consente di effettuare ricerche sui metadati sia per i dati scaricabili, sia per i WebMapServices, garantendo in questo modo ri-uso ed interoperabilità, secondo gli standard nazionali ed europei (RNDT, INSPIRE). Tale sistema è la base operativa su cui la web application UE Coast MED è stata progettata e realizzata. Di seguito verranno descritte in dettaglio le modalità di ri-uso ed evoluzione di modelli applicativi già utilizzati e pubblicati su internet. Si dettaglieranno le strutture dati del geodatabase e la sua ottimizzazione per la pubblicazione attraverso dei WebMapServices. Si descriveranno le funzionalità del prodotto con particolare riferimento all’automazione realizzata per renderle operative sul geodatabase. Verrà inoltre schematizzato l’ambiente di esercizio. 4.2 La web application La web application UE Coast Med è stata realizzata attraverso il ri-uso di esperienze, modelli dati e template applicativi già patrimonio dell’Istituto attraverso Gistat. In particolare si è scelto di ri-usare un Istituto Nazionale di Statistica |13 modello applicativo che permette all'utente di realizzare un confronto spazio-temporale multi-pannello di indicatori statistici. Le scelte tecnologiche sono state fatte in base al grado di interattività che si è scelto di offrire all’utente: la possibilità di visualizzare quattro mappe contemporaneamente e di selezionare molteplici modalità di confronto su un’estesa base dati. L’applicazione, infatti, opera su quattro quadranti, in ognuno dei quali è possibile scegliere l’anno di riferimento e l’indicatore statistico in maniera indipendente, permettendo così un confronto temporale, spaziale oppure tematico; inoltre si può definire un livello territoriale più o meno approfondito, scegliendo tra il dettaglio delle NUTS2 e delle NUTS3. Come già accennato, il prodotto si avvale della piattaforma Gistat che rende disponibili sul web dei servizi mappa (WebMapServices), cioè WebServices REST (REpresentational State Transfer), i quali rendono disponibili sulla rete sia il dato geografico, sia il dato statistico. I dati geografici e statistici sono agganciati attraverso una serie di relazioni tabellari, a volte dinamiche, a volte parte dello schema del geodatabase utilizzato e di seguito descritto. Le strutture dati (Dataset) a cui i servizi fanno riferimento risiedono dunque in un geodatabase, perfettamente innestato nella piattaforma e progettato secondo due livelli: uno che contiene i dati geografici, che non saranno oggetto di variazioni per gli anni di riferimento scelti (MapLayer) e uno che contiene i dati statistici, che potranno essere aggiornati e arricchiti con nuove rilevazioni nel tempo. Figura 7 – Il geodatabase: lo strato geografico (MapLayer) e le tabelle di dati L’architettura service-oriented della piattaforma Gistat è già stata sperimentata dall’Istat con l’introduzione dei nuovi prodotti Web GIS nel corso degli ultimi anni e si è rivelata una soluzione vincente non solo per l’alta affidabilità e le elevate prestazioni nella diffusione di grandi quantità di dati sul web, ma anche per la flessibilità che garantisce nell’aggiornamento degli indicatori statistici. I WebMapService pubblicati dalla piattaforma sono “consumati” dall’applicazione web attraverso librerie client-side JavaScript, che consentono un’alta interattività sul browser e allo stesso tempo demandano il disegno delle geometrie sulle mappe al server GIS, con notevole riduzione dei tempi di risposta. Il formato di comunicazione tra il server GIS e la web application è il JSON (JavaScript Object Notation), lo standard più utilizzato dalle applicazioni client-side, in particolar modo da quelle in JavaScript, sia per la facilità con cui può essere interpretato e gestito, sia per la velocità di trasferimento del dato. Istituto Nazionale di Statistica |14 Figura 8 - Il funzionamento della piattaforma Gistat Il cuore di UE Coast Med è il linguaggio JavaScript che attraverso le API esri ArcGIS (la tecnologia GIS utilizzato da Gistat) permette una comunicazione rapida ed efficace con la piattaforma lato server. Alla prima richiesta dell’applicazione vengono inviate delle chiamate http asincrone che rendono il caricamento più veloce e allo stesso tempo consentono comunque l’interazione da parte dell’utente, senza interromperne la navigazione. Anche tutti i testi presenti nella web application sono recuperati da una chiamata http verso un servizio web ad hoc che permette il caricamento dinamico dei contenuti testuali, sia per quanto riguarda la parte descrittivo-informativa dell’applicazione, sia per la codifica degli indicatori veri e propri visualizzati dai servizi mappa. UE Coast Med è quindi già predisposta per l’introduzione di altre lingue oltre l’italiano, anche a livello di dato geografico e statistico. 4.3 Funzionalità del prodotto L’applicazione UECoastMed permette all’utente di interagire con rappresentazioni cartografiche dinamiche di indicatori per le aree costiere dei paesi UE che si affacciano sul mediterraneo. Come già detto, l’interfaccia presenta 4 pannelli per la rappresentazione di altrettante mappe in contemporanea. La navigazione da parte dell’utente inizia con la scelta del dettaglio o livello territoriale di riferimento tra quelli proposti, che sono costituiti dalle NUTS 2 e dalle NUTS 3. La scelta del dettaglio territoriale guida la navigazione, facendo stabilire all’utente a quale livello desidera operare il confronto. A valle di tale scelta i quattro pannelli si sincronizzano sulla rappresentazione cartografica del livello geografico prescelto, lasciando libero l’utente di parametrizzare opportunamente ciascuna mappa per ottenere la rappresentazione cartografica dell’indicatore di suo interesse che chiameremo “tematismo”, selezionato tra quelli proposti. Sul piano applicativo ne discende l’attivazione, per i 4 pannelli, degli anni per i quali sono disponibili in consultazione i tematismi e l’elenco dei tematismi stessi. Istituto Nazionale di Statistica |15 Ciascun pannello, infatti, è dotato di un menu di scelta tra gli anni di riferimento disponibili e di un menu per la selezione dell’indicatore appartenente a una specifica categoria tematica tra cui ad esempio TURISMO, AMBIENTE o dati provenienti dal censimento della popolazione per i paesi UE (esempio in Fig.9). Figura 9 – Esempio di menù per la scelta degli “Indicatori” appartenenti alle aree tematiche 4.3.1 La tematizzazione Ogni tematismo è rappresentato mediante una classificazione in intervalli per colori graduati. Le rampe di colore sono state prodotte in automatico in base a un colore iniziale e uno finale. Il criterio utilizzato per la scelta è stato quello di usare un colore rappresentativo per ogni categoria tematica: • • • • • • • blu per il TURISMO marrone per i TRASPORTI verde per l’AMBIENTE viola per ISTRUZIONE E LAVORO fucsia per INCLUSIONE SOCIALE rosso per SVILUPPO ECONOMICO giallo-arancio per POPOLAZIONE Sono stati esaminati i risultati di vari algoritmi per la rappresentazione delle scale di colore, in modo da scegliere quello che consente di evidenziare l’informazione in modo ottimale (Fig.10). Figura 10 – Esempio di studio delle rampe di colore nelle rappresentazioni tematiche Istituto Nazionale di Statistica |16 Legenda e metodo di classificazione sono consultabili attraverso apposite finestre (Fig.11) attivabili all’interno dei pannelli contenenti le mappe. Figura 11 – Esempio di Menù “Legenda” e “Classificazione” 4.3.2 La visualizzazione Per ogni pannello è prevista la possibilità di attivare visualizzazioni e ingrandimenti indipendenti, che consentono il confronto su finestre affiancate di territori diversi per lo stesso indicatore o di indicatori diversi per lo stesso territorio (Fig.12) secondo criteri geografici, tematici, temporali o semplicemente per una consultazione libera. Figura 12 – Esempio dei 4 pannelli della web application UE Coast Med Istituto Nazionale di Statistica |17 4.3.3 La consultazione delle informazioni Su ogni mappa si possono effettuare interrogazioni semplicemente toccando l’area geografica investigata: si apre così finestra dei risultati (Fig.13) che riporta le informazioni disponibili per il poligono corrispondente. Per migliorare la consultazione si è scelto di mostrare su ogni tematismo i soli campi di interesse, tralasciando quelli geometrici, dimodoché sul pannello dei risultati dell’interrogazione di ciascun poligono l’utente potrà prendere visione in modo chiaro delle informazioni utili, contenute in altrettanti campi alfanumerici: identificativo dell’area geografica, denominazione del territorio, nome dell’indicatore, avvisi e note, link. Quest’ultimo campo, in particolare, fa riferimento alle cosiddette “Meta informazioni”, contenute in un’apposita sezione documentale dell’applicativo web, referenziata sia dalla finestra dei risultati dell’interrogazione, sia dalla sezione principale dell’interfaccia (Fig. 14). Figura 13 – Finestra dei risultati di interrogazione del “poligono” Figura 14 – Pannello di “Meta informazioni” 4.3.4 Scaricare i dati L’applicativo UECoastMed è provvisto di una funzionalità che consente di effettuare il download dei dati che vengono resi disponibili sotto forma di file di testo in formato CSV e shapefile per i dati geografici. Istituto Nazionale di Statistica |18 4.4 Procedure di automazione Con il duplice scopo di velocizzare operazioni ripetitive sul geodatabase UECoastMed e nel contempo ridurre le possibilità di errore in cui è possibile incorrere durante l’esecuzione di operazioni manuali, sono state allestite delle procedure di automazione. Esse sono state predisposte per conseguire le finalità di seguito riportate: popolare tabelle di “servizio” in formato CSV e in uso ai map services (sviluppo procedure in linguaggio Python 2.7 con librerie Esri ArcGIS); velocizzare e automatizzare la creazione dei Group Layer all’interno dei file mappa (sviluppo di un Addin in linguaggio C# per Esri ArcMap - ArcGIS Desktop); velocizzare e automatizzare il popolamento dei Group Layer con gli opportuni tematismi (sviluppo di un Add-in in linguaggio Visual Basic per Esri ArcMap - ArcGIS Desktop); aggiungere il campo LINK alle tabelle del geodatabase destinate alla pubblicazione (sviluppo procedure in linguaggio Python 2.7 con librerie Esri ArcGIS); popolare con opportune codifiche il campo Avvisi e note; effettuare controlli sulla struttura del geodatabase (sviluppo procedure in linguaggio Python 2.7 con librerie Esri ArcGIS). 4.4.1 Popolare tabelle di “servizio” e in uso ai map services Nell’ambito della fase di preelaborazione finalizzata alla creazione delle procedure di trattamento dei dati si è ritenuto opportuno generare in parte automaticamente, ove possibile, e in parte manualmente, delle tabelle di supporto. In primo luogo è stato predisposto il file PARAMETRI.CSV che contiene le informazioni funzionali a tutto il flusso delle elaborazioni automatiche. Le informazioni fanno riferimento a: anno, livello geografico, categoria tematica, nome della feature class, nome della tabella del geodatabase, campo riferito all’indicatore, alias, tipo classificazione, numero di classi, estremi inferiore e superiore delle classi, rampa di colori, colore dominante di appartenenza della rampa utilizzata per la tematizzazione. Il file è invocato dalle procedure per permettere l’interazione veloce, automatica e con minime possibilità di errore con i dati e i file mappa. La presenza delle tabelle di “servizio” generate in modalità automatica TABTESTI.CSV e CATIND.CSV si è resa necessaria affinché fossero referenziate dalla web application per fornire configurazioni e informazioni al momento dell’interazione dell’utente con l’interfaccia del prodotto. Tracciato record della tabella TABTESTI.CSV: CODICE (type: Text, alias: CODICE) ALIAS (type: Text, alias: ALIAS) DESCRIZIONE type: Text, alias: DESCRIZIONE) LINGUA (type: Text, alias: LINGUA) CLASSIFICAZIONE ( type: esriFieldTypeString , alias: CLASSIFICAZIONE Istituto Nazionale di Statistica |19 Tracciato record della tabella CATIND.CSV: • • CATEGORIA (type: Text, alias: CATEGORIA) INDICATORE (type: Text, alias: INDICATORE) Un’altra tabella di supporto alle elaborazioni è quella definita come TRANSCODIFICA_AVVISI.CSV, in uso alla procedura di cui al sottoparagrafo 4.4.5 Tracciato record della tabella TRANSCODIFICA_AVVISI.CSV: • • • • 4.4.2 CODICE_AVVISO (type: Text, alias: CODICE_AVVISO) AVVISI (type: Text, alias: AVVISI) DEFINIZIONE_IT (type: Text, alias: DEFINIZIONE_IT ) DEFINIZIONE_EN (type: Text, alias: DEFINIZIONE_EN) Velocizzare e automatizzare la creazione dei Group Layer all’interno dei file mappa Lo studio degli scenari implementativi ha condotto alla configurazione finale che prevede l’allestimento di un map service per ciascun anno di riferimento. Ogni map service referenzia un file mappa (vedasi paragrafo apposito). Ogni file mappa contiene i tematismi raggruppati in “Group Layer” (“raggruppamenti di layer”). Tutto ciò premesso, la procedura crea un raggruppamento per ciascun livello geografico da considerare per l’anno di riferimento (NUTS 2 e/o NUTS 3). Questa struttura è particolarmente utile per suddividere in modo visualmente logico i tematismi all’interno del file mappa, e allo stesso tempo funzionale all’esecuzione del codice della web application. All’interno di ogni Group Layer delle NUTS la procedura configura e crea i raggruppamenti tematici per categoria, ad esempio Turismo, Ambiente, Trasporti ecc. Ciascuno di questi raggruppamenti tematici è destinato a contenere i tematismi relativi agli indicatori di riferimento per l’anno di interesse, che verranno generati da un’altra procedura (vedasi paragrafo successivo). 4.4.3 Velocizzare e automatizzare il popolamento dei Group Layer con gli opportuni tematismi La procedura aggiunge al file mappa i tematismi coerentemente con ciascuno strato geografico NUTS di riferimento: ogni tematismo viene realizzato aggiungendo al file mappa, sotto il Group Layer della categoria tematica di riferimento, lo strato geografico NUTS, e collegando allo strato geografico l’opportuna tabella di indicatori presente nel geodatabase. I campi di interesse vengono lasciati visibili e provvisti di alias, mentre vengono rimossi dalla visualizzazione quelli ridondanti. Ciascun tematismo viene provvisto di un render (vestizione) per poi essere caricato nel file mappa. I nomi dei Group Layer, nonché quelli dei tematismi, sono stati codificati in modo da poter riflettere automaticamente in futuro la scelta della lingua inglese. La procedura prende i parametri di configurazione dalla tabella di servizio PARAMETRI.CSV. 4.4.4 Aggiunta del campo LINK alle tabelle del geodatabase destinate alla pubblicazione Istituto Nazionale di Statistica |20 La procedura genera in ciascuna delle tabelle degli indicatori un campo LINK, valorizzato con il riferimento al tag html per invocare a partire dall’interrogazione del link sull’interfaccia web la pagina HTML contenente le Meta informazioni addizionali previste per l’elemento interrogato sulla mappa (Fig.15). Figura 15 – Tabelle di riferimento collegate al link “Info” 4.4.5 Popolare con opportune codifiche il campo Avvisi e note La procedura realizzata effettua la sostituzione sulle tabelle del geodatabase nel campo Avvisi e note delle occorrenze in base alle codifiche contenute nella tabella di servizio TRANSCODIFICA_AVVISI.CSV (Fig.16). Figura 16 – Tabelle del geodatabase per “Avvisi e note” L’aggiornamento del geodatabase con queste codifiche permette all’applicazione web di leggere dinamicamente la definizione corrispondente alla codifica (Fig.17), consentendo inoltre sia un rapido aggiornamento nel caso di una modifica di tali codici (aggiunta di nuovi codici, modifica o cancellazione) sia l’eventuale lettura dinamica della definizione, se dovessero essere disponibili in futuro definizioni in lingua inglese. Istituto Nazionale di Statistica |21 Figura 17 – Codifica ”Avvisi e note” 4.4.6 Effettuare controlli sulla struttura del geodatabase Le procedure in oggetto sono finalizzate al controllo della struttura del database, in termini di coerenza dei nomi delle tabelle, dei nomi dei campi, degli alias dei campi rispetto allo schema prestabilito. Le procedure generano dei report RTF e CSV contenenti l’elenco degli oggetti investigati in un workspace o una directory e le eventuali anomalie riscontrate: Controllo sui NOMI delle TABELLE: viene segnalata la presenza di eventuali caratteri speciali, vocali accentate, per quanto riguarda i nomi delle tabelle nel geodatabase; Controllo sui NOMI dei CAMPI: viene effettuata la verifica della presenza di soli caratteri ASCII all’interno dei nomi dei campi; Controllo sugli ALIAS: si effettua la ricerca di stringhe di testo all’interno degli alias per verificarne la coerenza con lo schema dati previsto. 4.5 Il geodatabase Come già accennato i dati della web application sono stati archiviati all’interno di un database geografico. Per la sua realizzazione è stato adottato un modello dati generalizzato, progettato ed implementato per altri applicativi e nel quale sono stati caricati i dati di riferimento per UE Coast MED. In particolare attraverso delle procedure automatizzate, i dati hanno subito delle fasi di trasformazione per essere resi disponibili attraverso dei WebMapServices alla Web Application GIS pubblicata sulla piattaforma Gistat. I dati su cui è fondata l’applicazione sono stati archiviati su un File Geodatabase. Si tratta di un formato dati GIS particolarmente ottimizzato per la gestione, l’interrogazione e la diffusione dei dati spaziali. In esso è possibile archiviare oltre i dati geografici anche i dati tabellari e statistici; è gestibile attraverso i software GIS, ma è comunque pubblico e disponile a tutti. Istituto Nazionale di Statistica |22 Figura 18 – Estratto dello schema del Geodatabase I dati geografici (layers) a cui sono riferiti i dati statistici, sono due e corrispondono ai due livelli geografici visualizzati nell’applicazione: le NUTS2 e le NUTS3. La fonte di provenienza è Eurostat, in particolare il Sistema di Informazione Geografica GISCO che ha, tra gli altri, il compito di produrre i confini delle Unità Territoriali a fini statistici dei diversi paesi dell’Unione Europea. I file geografici sono stati acquisiti, dal relativo sito internet, in versione generalizzata, cioè meno dettagliata: i poligoni sono stati semplificati nelle geometrie per ridurne la complessità e aumentarne la leggibilità e velocità di visualizzazione. Dai singoli file geografici sono stati selezionati i paesi dell’Unione Europea che si affacciano sul Mar Mediterraneo (cfr. paragrafo 2.2) e riproiettati secondo la proiezione WGS 1984 Web Mercator Auxiliary Sphere per consentire un minor tempo di caricamento dei dati in sovrapposizione alla mappa di sfondo. Il geodatabase è stato strutturato in modo da contenere i livelli geografici, a cui sono riferiti i dati statistici, e tante tabelle quanti sono gli indicatori da rappresentare (Fig. 18). Istituto Nazionale di Statistica |23 4.5.1 Descrizione delle strutture dati Il tracciato record dei due livelli geografici è identico e contiene il codice identificativo della NUTS, il codice del livello amministrativo, la denominazione della regione o della provincia, l’area e la lunghezza del perimetro del poligono rappresentante la NUTS (Fig. 19). Figura 19 – Tracciato record dei dati geografici La struttura dati delle tabelle statistiche contiene il codice identificativo delle NUTS, che rappresenta la chiave di aggancio per il collegamento tra i dati geografici e quelli statistici, le colonne relative ai dati statistici in formato numerico double, e campi di tipo testuale, corrispondenti a chiarimenti e note riguardanti alcuni indicatori. Figura 20 – tracciato record della tabella relativa all’indicatore “Tasso di occupazione 15-64 anni” I campi dei dati statistici di ciascuna tabella sono riferibili ad un medesimo indicatore e riportati per ogni anno disponibile (Fig. 20). Sia la configurazione dei dati che la nomenclatura delle tabelle e dei relativi campi sono state stabilite in modo da poter essere invocate da una serie di routine sviluppate ad hoc in linguaggio python. Tali procedure hanno consentito di: creare e popolare i file mappa a partire dall’ambiente ArcGIS per poi creare i servizi mappa; automatizzare l’inserimento dei testi e ipertesti nell’applicazione (alias, note, meta-informazioni). Istituto Nazionale di Statistica |24 In particolare ogni file mappa, realizzato per ogni anno di riferimento, è strutturato in due principali GroupLayer corrispondenti ai livelli geografici NUTS2 e NUTS3. Per ogni livello geografico sono stati inseriti altrettanti GroupLayer corrispondenti ai diversi tematismi: Turismo, Trasporti, Ambiente, Istruzione e lavoro, Inclusione Sociale, Sviluppo economico, Popolazione. Per ogni tematismo è stata effettuata un’operazione di join per agganciare i relativi indicatori e successivamente scelta la opportuna tematizzazione e simbologia (Fig. 21). Figura 21 – GroupLayer nel file mappa e legenda della tematizzazione Per ottimizzare, velocizzare ed evitare errori, sono state create delle routine ad hoc che hanno permesso di reiterare tale processo per tutti gli indicatori disponibili e per tutto l’arco temporale a disposizione (cfr. paragrafo 4.4: Procedure di automazione). La procedura automatizzata ha permesso anche di “nascondere” i campi di dati riferiti ad anni diversi da quello in visualizzazione. Pertanto, il tracciato record finale della tabella relativa al layer geografico scelto, a cui sono agganciati, mediante la join i dati statistici, risulta essere quello rappresentato in Figura 22 Figura 22 – Tracciato record finale della tabella relativa al layer tematizzato Sono state, inoltre, sviluppate procedure ad hoc per l’acquisizione automatica di testi ed ipertesti (Fig. 23). La progettazione e la configurazione del database e delle tabelle a corredo si è rivelata un punto focale di tutto il processo finalizzato alla realizzazione dell’applicazione. Si è scelto, infatti, di strutturare il geodatabase in modo da avere i dati geografici disgiunti da quelli statistici. Ciò consente la successiva acquisizione e rappresentazione di nuove ripartizioni geografiche, l’incremento di nuovi dati statistici e l’ampliamento dell’arco temporale di riferimento. Inoltre, le regole di nomenclatura delle tabelle e dei rispettivi campi, introdotte nel corso del processo di lavorazione, hanno permesso di invocare le procedure Istituto Nazionale di Statistica |25 automatiche che sono state sviluppate aggiornamento/ampliamento della banca dati. e che potranno essere riutilizzate in caso di Figura 23 - Campi testuali delle tabelle statistiche e visualizzazione nella finestra dei risultati dell’identify nell’applicazione (cfr. par 4.2) 4.6 La piattaforma di esercizio La piattaforma di esercizio, come già detto, è quella di Gistat (figura 24). E’ operativa ormai da anni sul sito Istituzionale e su di essa sono pubblicati parecchi dati geografici e statistici, accessibili direttamente attraverso i relativi WebMapServices, oppure consultando le Web Application GIS che ne fanno uso. La piattaforma di esercizio è disponibile all'indirizzo http://gisportal.istat.it Allo stesso modo di quella di sviluppo, è completamente virtuale ed è stata realizzata in modo da rispondere ai requisiti di: efficienza disponibilità affidabilità prestazioni sicurezza. Il Server di Front End, su cui è installata l'applicazione web UE Coast Med, è basato su Internet Information Services (IIS 8.5) Il Server di Back End è composto da una batteria di server GIS, su cui risiede il motore esri ArcGIS Server, e diversi Database Server tra i quali è presente anche il motore Oracle. Tutti i server sono connessi tra di loro in modalità di "Alta Affidabilità", sono ridondanti e sono configurati per una possibile scalabilità del sistema. L'applicazione UE Coast Med in esercizio attraverso l'Application Server IIS, comunica con i Server GIS per la navigazione, le tematizzazioni, e le interrogazioni dinamiche attraverso l'interfaccia REST, esposta dai servizi mappa. I Server GIS, a loro volta, sono connessi ai Database Server da cui prelevano i dati. Istituto Nazionale di Statistica |26 Figura 24 – Architettura di Gistat Istituto Nazionale di Statistica |27 5. Considerazioni di sintesi e sviluppi futuri La versione attuale del prodotto costituisce un prototipo del progetto Istat che sta procedendo nell’ambito del Grant “A reusable webGIS application and a geospatial database schema for the EU countries comparison”, cofinanziato dalla Commissione Europea. UE Coast Med assicura la comparabilità tematica, geografica e temporale di una batteria di 21 indicatori che sono rappresentati in quattro quadranti. Gli indicatori, come noto, sono stati scelti sulla base delle priorità individuate dalle più importanti politiche comunitarie (Politiche Marittime, Sviluppo Sostenibile, Europa 2020, Politiche di Coesione Territoriale). La dimensione territoriale scelta si è limitata a considerare il livello NUTS2 e in alcuni casi NUTS3 a causa della limitata disponibilità dei dati per tutti i paesi UE presi in considerazione. Le criticità maggiori sono state affrontate con riferimento alla scelta degli indicatori che assicurassero una sufficiente disponibilità dei dati per i paesi UE considerati, all’analisi dei diversi metodi di divisione in classi e alla determinazione delle aree costiere secondo la classificazione delle unità territoriali statistiche (NUTS). La Web Application UE Coast MED, come in parte già detto, risponde alle raccomandazioni internazionali che richiedono sempre più l'integrazione della dimensione geospaziale nei processi di produzione, analisi e diffusione statistica. UE Coast MED partecipa inoltre allo sviluppo di Gistat, con cui l'Istat risponde all'utenza interna ed esterna offrendo strumenti GIS tecnologicamente avanzati che consentono la diffusione e l'analisi dell'informazione statistica sfruttandone la localizzazione geografica. Proprio basandosi sulla geolocalizzazione del dato statistico, è possibile estendere le opportunità già presenti in UE Coast MED, fornendo agli utenti ulteriori strumenti di analisi secondo modalità non possibili usando sistemi di analisi tradizionale, quali ad es. la ricerca di relazioni spaziali di vicinanza, adiacenza, intersezione,...) e già disponibili all'interno di Gistat. Tra gli sviluppi si pensa anche a estendere l'analisi ad altri territori, quali quelli complementari alle aree costiere (aree interne), oppure ad aumentare la gamma delle funzionalità GIS, quali ad esempio la composizione di query di selezione, basate appunto sulle relazioni spaziali di cui sopra, per rispondere a quesiti del tipo 'differenze/somiglianze di indicatori statistici in territori a una data distanza', oppure 'ricerca delle aree di differenza/somiglianza sovrapposte geograficamente', etc. La presente guida offre all’utente alcuni modelli di navigazione per facilitare i possibili confronti tra indicatori ma non esaurisce dunque le potenzialità del prodotto. Un altro contributo rilevante che offre l’applicazione riguarda la scelta del metodo di classificazione che, è stato indagato preliminarmente, e pertanto ne impone uno variabile a seconda dell’indicatore. Il progetto proseguirà appunto con l’estensione del set di indicatori con riferimento ad altri contesti territoriali che potranno riguardare anche le aree rurali, le aree metropolitane, le aree per grado di urbanizzazione. Inoltre, i paesi presi in considerazione potrebbero essere estesi considerando anche gli altri appartenenti all’Unione Europea e ai paesi di vicinato Europeo (dell’Est e del Sud), con i quali nell’ultimo decennio l’Ue ha stabilito relazioni privilegiate allo scopo di rafforzare valori comuni quali la democrazia e i diritti umani, regole di buon governo, principi di economia di mercato e sviluppo sostenibile. Istituto Nazionale di Statistica |28 6. Riferimenti bibliografici e sitografici AA.VV. (2016), Poster scientifico: Gistat-ConfrontaCoste. Un’applicazione GIS per le coste dei Paesi UE, http://www.istat.it/it/dodicesima-conferenza/poster-scientifici#Nuove forme di comunicazione e rappresentazione della statistica, XII Conferenza nazionale di statistica, Giugno 2016, Roma. Conolly J., Lake M. (2006), Geographical Information Systems in Archaeology, Cambridge, pp. 141-145. Commissione Europea (2014), Investimenti per l’occupazione e la crescita. Promuovere lo sviluppo e la buona governance nelle città e regioni dell’UE, Sesta relazione sulla coesione economica, sociale e territoriale, luglio 2014. Consiglio Unione Europea (2011), “How to strengthen the territorial dimension of 'Europe 2020' and EU Cohesion Policy based on the Territorial Agenda 2020”, Varsavia. Dent B. D. (1999), Cartography. Thematic Map Design. Fifth Edition, London, pp. 146; 406. Daniel, Wayne W. (1990), "Kolmogorov–Smirnov one-sample test". Applied Nonparametric Statistics (2nd ed.), Boston: PWS-Kent. pp. 319–330. Eurostat (2016.a), Urban Europe. Statistics on cities, towns and suburbs, Statistical book. Eurostat (2016.b), Smarter, greener, more inclusive? Indicators to support the Europe 2020 strategy, Statistical book. Eurostat (2015), Regions in the European Union. Nomenclature of territorial units for statistics NUTS 2013/EU-28, Manuals and Guidelines. Jenks, George F. (1967), "The Data Model Concept in Statistical Mapping", International Yearbook of Cartography 7: pp.186-190. Kolmogorov A. (1933), "Sulla determinazione empirica di una legge di distribuzione". G. Ist. Ital. Attuari. 4: pp.83–91. Pearson, E. S. and Hartley, H. O., eds. (1972), Biometrika Tables for Statisticians. 2. Cambridge University Press. pp. 117–123, Tables 54, 55. QGIS - Geometric Class – http://184.106.205.13/uselessarchaeology/CMSimple_UA/?Programming_QGIS_Geometric_Class. Smirnov N. (1948), "Table for estimating the goodness of fit of empirical distributions". Annals of Mathematical Statistics. 19: pp. 279–281. Stephens, M. A. (1974), "EDF Statistics for Goodness of Fit and Some Comparisons". Journal of the American Statistical Association 69 (347): pp. 730–737. Istituto Nazionale di Statistica |29 Allegato A – UE Coast MED - Guida utente Come utilizzare l'applicazione Questa applicazione consente rappresentazioni cartografiche interattive e dinamiche di indicatori statistici per le aree costiere dei Paesi dell'Unione Europea che si affacciano sul Mediterraneo. L'utente ha la possibilità di scegliere i differenti tematismi, quali Turismo, Trasporti, Ambiente, Istruzione e Lavoro, Inclusione sociale, Sviluppo economico, Popolazione ed integrare i dati provenienti dal Censimento della Popolazione per i paesi UE a livello NUTS2 e NUTS3. Schermata principale La schermata principale è composta da quattro sezioni contenenti ciascuna una mappa di sfondo e una rappresentazione di un indicatore statistico scelto dall'utente. La sezione laterale, a sinistra, contiene informazioni relative all'applicazione, descrive i criteri di confronto delle mappe ed espone i metodi di classificazione dei dati statistici. Tale sezione può essere nascosta tramite il pulsante ampia visualizzazione delle mappe. (presente in alto a sinistra) per permettere una più Selezione livello geografico Prima della navigazione vera e propria, è necessario selezionare il livello geografico a cui visualizzare i dati. E' possibile rappresentare i dati su base regionale (NUTS2) oppure provinciale (NUTS3). Passando da un ambito geografico all'altro, le mappe presenti nei quattro quadranti subiscono un refresh, che le riconduce al set di dati di default. Istituto Nazionale di Statistica |30 Selezione anno di riferimento In ciascuno dei quattro quadranti dell'applicazione è presente il menu a tendina, utile per la scelta dell' anno di riferimento da rappresentare nella mappa. Fare click per visualizzare l'elenco degli anni disponibili e scegliere quello di interesse. Selezione indicatori Stabilito il livello geografico e l'anno di riferimento da elaborare, si sceglie l'indicatore statistico da rappresentare sulla mappa. Il menu a tendina permette di optare tra i diversi indicatori, distinti secondo i seguenti Tematismi: Turismo, Trasporti, Ambiente, Istruzione e Lavoro, Inclusione sociale, Sviluppo economico, Popolazione. Il tema scelto viene immediatamente rappresentato sulla mappa tramite una rampa di colori. Ogni colore rappresenta un range di valori, che è visualizzabile attraverso la legenda. Legenda Attivare la legenda E' sufficiente fare click sulla freccia posta in alto a destra di ogni sezione di mappa. Nello stesso modo la legenda si disattiva, al fine di agevolare la visibilità dei contenuti. Classificazione Dalla finestra della Legenda è possibile accedere anche al tab Classificazione che fornisce l'informazione dettagliata sul metodo di classificazione specifico per l'indicatore appena scelto. Il metodo è basato sulla distribuzione di frequenza dell'indicatore selezionato e scelto tra: Natural Break, Deviazione Standard, Quantile, Stesso intervallo, Intervallo Definito ed Intervallo Geometrico. Navigazione mappe E' possibile spostarsi all'interno di ciascun quadrante della mappa utilizzando il cursore e la rotellina del mouse oppure tramite i pulsanti "riduci" e "ingrandisci" presenti nel box di ogni mappa. L'icona "Home" consente di tornare all'estensione geografica di default. L'applicazione permette di confrontare lo stesso indicatore per anni diversi, in un'area geografica prestabilita, oppure indicatori diversi per uno stesso anno di riferimento. Istituto Nazionale di Statistica |31 Tramite i quattro quadranti, presenti nell'applicazione, è possibile effettuare i seguenti confronti: Confronto spaziale: un indicatore può essere confrontato su 4 diversi territori e per lo stesso anno; Confronto temporale: un indicatore può essere confrontato su 4 anni diversi e per lo stesso territorio; Confronto tematico: nell'ambito dello stesso tematismo è possibile confrontare indicatori differenti per anni uguali o per territori uguali; Confronto libero: è possibile confrontare indicatori diversi appartenenti ad aree tematiche differenti fissando la dimensione temporale o quella spaziale. Interrogazione mappe Per ottenere tutte le informazioni relative agli elementi visibili nella mappa è possibile utilizzare il cursone del mouse e fare un click sul poligono di interesse. I risultati dell'interrogazione saranno presentati in una finestra in sovraimpressione. La finestra dei risultati descrive le informazioni richieste: denominazione dell'indicatore statistico visualizzato, codice identificativo Eurostat della NUTS regionale o provinciale (NUTS2 o NUTS3), denominazione dell'unità territoriale e valore dell'indicatore scelto. Il box delle informazioni può essere ingrandito cliccando sul quadratino in alto a destra, mentre l'icona della lente, posta in basso a sinistra, consente di posizionare la mappa nell'area interrogata, attivando un ingrandimento sulla zona di interesse. Ulteriori informazioni, riguardanti la descrizione dettagliata dell'indicatore scelto, sono riportate, nel link info in una nuova finestra del browser, mentre per specifici indicatori di alcune aree costiere sono presenti particolari informazioni descritte in Avvisi e note. Istituto Nazionale di Statistica |32 Allegato B – Poster XII Conferenza Nazionale di Statistica: “Un’applicazione GIS per le coste dei Paesi UE” Il poster è dotato dinamicità proponendo 4 videate in sequenza, attraverso un formato GIF dinamico; come tale è consultabile al link http://www.istat.it/storage/Conf12File/posterImg/071.gif Per semplicità è stata di seguito riportata una singola immagine. Istituto Nazionale di Statistica |33