Informazione Statistica Informazione Geografica e Banche Dati Online: Sviluppi Metodologici ed Applicativi Maurizio Vichi Presidente Società Italiana di Statistica e Dpt. Statistica Probabilità e Statistiche Applicate Università “La Sapienza” di Roma em: [email protected] 1 La Statistica: tra Diffusione e Comunicazione • • • • • La Statistica tra cattiva immagine e grande successo in Italia (ma anche all’estero) La funzione delle Statistica è in generale di acquisire informazione “soggettiva” (ovvero dati su singoli individui) e restituire informazione “oggettiva”, (conoscenza) legata alla collettività; Con la Società dell’Informazione (basata su radio, televisione, telefonia e internet), l’informazione soggettiva è enormemente aumentata; La percezione pubblica della statistica è in parte negativa. Da che dipende? I media spesso usano informazione soggettiva e la pubblicano come oggettiva; La gente ha una percezione di dipendenza della Statistica ufficiale dal Governo. Necessità di favorire l’indipendenza e l’autorevolezza (credibilità); Che cosa si può fare per migliorare l’immagine pubblica della Statistica. Due punti in discussione nel workshop: la condivisione e la diffusione dell’informazione statistica • • Organizzare l’informazione statistica online per renderla universalmente accessibile, integrabile e facile da leggere ed interpretare; Completare la modernizzazione della Statistica. Il Datawarehouse non è un problema informatico ma è statistico; La comunicazione dell’informazione statistica. La Statistica non si deve fermare alle tabelle e grafici ma deve comunicare l’informazione rilevante dandone l’interpretazione oggettiva, ovvero la descrizione ed l’inferenza su ciò che è stato osservato. • Analizziamo gli sviluppi metodologici ed applicativi che sono necessari per migliorare la condivisione e la diffusione dell’informazione statistica 2 SIS Sistema Informativo Statistico online Costruzione di un Sistema Informativo Statistico online Quali sono le caratteristiche generali di un SIS online Per gli aspetti di Organizzazione Accessibilità dei dati e dei metadati online; Organizzazione dei dati per l’analisi statistica; Integrazione tra dati (modularità) mediante internet Per gli aspetti di Comunicazione Ridurre i tempi di pubblicazione dei dati; Trasparenza e certificazione (qualità dei dati); Predisposizione di strumenti statistici di elaborazione; Interpretazione oggettiva delle elaborazioni (information mining). 3 Basi Dati Online Analizziamo tre rilevanti DB Online per esaminare le loro caratteristiche • UN data (http://data.un.org/) • La Divisione Statistica delle Nazioni Unite (UNSD) del DESA ha lanciato un nuovo servizio internet che permette di trovare e scaricare una varietà di dati statistici delle agenzie delle Nazioni Unite. • • • • • • • • • Databases Education UNESCO UIS Data Employment ILO Data Energy UNSD Energy Statistics Environment UNFCCC Greenhouse Gas Inventory Food and Agriculture FAO Data , FAO Fertilizer Data Health WHO Data , HIV/AIDS UNAIDS Data Human Development UNDP Human Development Report Indicator databases UNSD Key Global Indicators, UNSD Gender Info 2007 , UNSD Indicators on Women and Men ,UNSD Millennium Development Goals , UNICEF The State of the World’s Children 2009 Industry UNSD Industrial Commodity Statistics Information and Communication Technology TU Data National Accounts UNSD Official Country Data , UNSD Estimates of Main Aggregates Population UNSD Demographic Statistics , UNPD World Population Prospects Refugees UNHCR Statistical Yearbook Trade UNSD Commodity Trade Statistics Tourism UNWTO Data • • • • • • • 4 Basi Dati Online 2 • Eurostat (http://epp.eurostat.ec.europa.eu) • Disponibile sul sito ed esplorata con un albero • • Euroindicators database Economy and finance Main economic indicators, National accounts (incl.GDP), Government statistics, Financial accounts, Exchange rates, Interest rates, Monetary and other financial ,statistics, Prices , Balance of payments Population and social conditions Population, Health , Education and training , Labour market , Living conditions and welfare , Crime and criminal justice , Industry, trade and services Short-term business statistics , Structural business statistics , Information society statistics , Tourism , Statistics on the production of manufactured goods , General and regional statistics Regions , Urban audit , Non EU countries , Agriculture and fisheries Agriculture Forestry, Fisheries ,Food External trade External trade Transport Environment and energy Environment ,Energy Science and technology Science and technology • • • • • • • • 5 Basi Dati Online 3 • Statistics Portal OECD.Stat Extracts • • • • • • • • • • • • • • • • • • • • • • General Statistics Agriculture and Fisheries Demography and Population Development Economic Projections, Education and Training Environment Finance Globalisation Health Industry and Services International Trade and Balance of Payments Labour Monthly Economic Indicators National Accounts Prices and Purchasing Power Parities Productivity Public Sector, Taxation and Market Regulation Regional Statistics Science, Technology and Patents Social and Welfare Statistics Non-member Economies Others 6 Vista Univariata o tabellare dei DB • In UNDATA sono riportate le serie storiche degli indicatori ed ha un motore di mappe tematiche; • In EUROSTAT c’è una applet Java che permette di costruire tabelle; • In OECD Portal c’è eXplorer che è uno strumento per costruire tabelle e grafici e fare confronti territoriali; • In un SIS i dati sono logicamente strutturati in uno o più “CUBI” di informazioni: • unità territoriali x indicatori x tempi, che sono le dimensioni tipiche di ogni fenomeno statistico con struttura complessa. 7 Struttura Multiway dei Dati organizzati in uno o più data-set a tre vie (Three-way Data Set) X un insieme X di I × J × K attributi relativi a: J Indicatori (variabili) misurati, (osservati, stimati) su I Unità Territoriali (oggetti geografici, aggregazioni amministrative) osservati, K Occasioni (tempi, diverse fonti di dati) Si ha un Cubo X o 3-Way Array Comuni, provincie, regioni, comucap x11r x12r ... x1kK x11h x12h ... x1kh x111 x121 … x1k1 Unità territoriale i xijk anno, semestre, trimestre, mensile tempo k xn11 xn21... x1JK Indicatore j Un insieme di indicatori economici, demegrafici, sociali 8 Analisi statistica dei dati di un SIS I dati presentano tre diverse tipologie di relazione di cui si deve tener conto RELAZIONE TERRITORIALI, tra le unità territoriali rispetto agli indicatori in un istante di tempo (correlazione spaziale, (dis)similarità fra oggetti spaziali, vincoli di contiguità, ecc.); TIPO DI ANALISI: Statistica per il territorio (Spaziale) ed uso dei GIS; GIS Indici di associazione spaziale, regressione e segmentazione vincolata al territorio. territorio RELAZIONE MULTIVARIATE,ovvero tra gli indicatori sulla base di unità territoriali osservate in un istante di tempo (associazione e correlazione fra variabili); TIPO DI ANALISI : Statistica Multivariata. Costruzione di indicatori complessi, complessi segmentazione del mercato. mercato Regressione tra indicatori RELAZIONI TEMPORALI, ovvero in ciascun indicatore che si riferiscono a indicatori e/o unità territoriali (auto-correlazione temporale); TIPO DI ANALISI: Analisi delle Serie Storiche ed uso della modellistica per le Previsioni. Previsioni 9 Prima vista del SIS CONFRONTI TERRITORIALI (sezionando verticalmente X) occasion Tempo rr x11r x12r ...x1kr occasion Tempo 22 occasion Tempo 11 x112 x122 ...x1k2 xikr x111 x121 ...x1k1 Unità Territoriali Units xi11 x121 ... xik1 xik2 xnkr xnk2 xn11 xn21 ...xnk1 Variables Indicatori Unità territoriali multivariate Confronti territoriali tra indicatori in uno stesso istante di tempo (Analisi cross-section); Analisi delle posizioni relative tra le unità territoriali su indicatori o spazi fattoriali (indicatori compositi); 10 Segmentazione del territorio in aree omogenee. Seconda Vista PREVISIONI STATISTICHE n Serie Storiche Multiple (sezionando orizzontalmente X) Variables Indicatori x x 11r 12r tempi Occasions x 1kr x 21r x x x x x x x x x 111 211 121 221 1k1 Unit 11 Unità 2k1 x n1r n11 n21 nk1 Unità Unit n I Un insieme di dati Panel Confronti tra n Serie Storiche multivariate (Panel di dati) Analisi delle “storie” tra più unità territoriali sulla base di un set di indicatori; Previsioni su un territorio sulla base di un set di indicatori; Analisi di convergenza e divergenza territoriale; 11 Terza vista CONVERGENZA (sezionando lateralmente X) di INDICATORI un insieme di K Serie Storiche Multiple x 11r x 112 x Units Unità 21r x 111 x 212 x 211 x n1r x n12 variable k Indicatore K x n11 Occasions Tempi Indicatore variable 1 1 Un insieme di dati Panel Confronti “storici” tra indicatori per le unità territoriali; Previsioni di indicatori in un territorio; Analisi di convergenza e divergenza degli indicatori sul territorio; 12 Altra modalità “geografica” di vedere i dati GIS- Geographical Information System • Un GIS è un sistema orientato alla Geografia, che permette, la gestione, l’analisi e la visualizzazione di informazioni legate al territorio Diversi modi di vedere un GIS La vista del Database: dati geografici Collezioni ordinate di caratteristiche vettoriali (insiemi di punti, linee e poligoni) Collegamenti tra oggetti geografici modelli digitali di elevazione del territorio Terreni e altre superficie Insiemi di dati di ricerche geografiche 13 altre informazioni geografiche Secondo e Terzo modo di vedere un GIS Dati di relazione tra gli oggetti spaziali e i dati di flusso. Relazioni spaziali come topologie e reti sono parti cruciali di un GIS. La topologia è impiegata per gestire confini comuni tra oggetti geografici Organizzazione tematica dei dati (livelli tematici) 14 Integrazione tra GIS e SIS Tre tipologie di vista dei dati Visualizzazione cartografica (tipica GIS) Gli indicatori che definiscono una serie territoriale originano un cartogramma. Visualizzazione tabellare (tipica SIS) Tabelle unità territoriali x indicatori; Tabelle unità terrritoriali x tempi; Tabelle indicatori x tempi Visualizza grafica (tipica SIS e GIS + cartografia) Per variabili qualitative 1 indicatore: grafico a colonne 1 indicatore x anni: grafico a colonne contrapposte Per variabili quantitative Istogramma 1 indicatore x anni: grafico cartesiano m indicatori x anni: grafici cartesiani a confronto 15 Integrazione tra GIS e SIS: Geo Web Starter Diffusione, confronti DBMS archivi Confronti avanzati Segmentazione territorio in aree omogenee Warehouse cubi di dati Basi Dati ufficiali, Servizio WEB multimediale Basi Dati gestione, validazione utente Cartografia & Tabelle e Grafici 3 90 80 90 86 JAP 83 80 2 90 CAN 8386 1 8090 Factor 2 (24%) 86 83 80 60 40 ITA SPA 80 -4 -3 86 -2 0 80 20 2 0 83 90 1 Factor 1 (60%) •GESTIONE DATI •BASE DATI RELAZIONALE •INTEGRAZIONI DI FONTI * Strumenti per il DBMS * Gestione della sicurezza * Raccolta di dati mediante questionari interattivi * Controllo e correzione dati * Geo-processing dei dati -80 8 81 82 83 84 85 86 87 88 89 90 3.000.000 2.500.000 yi11 ... yin1 2.000.000 1.500.000 1.000.000 yn11 ...ynn1 Lombardia Friuli-VeneziaGiulia Veneto 500.000 Piemonte 0 Liguria 45-64 -2 -4 -6 CA FR GB GE JAP ITA SPA USA 0 20 5-9 Metadata Catalogo Dati 1° Trim. 2° Trim. 3° Trim. 4° Trim. Modelli per serie temporali e serie spaziali y111 ... y1n1 8 6 4 15-24 Gestione profili utenti -1 86 -2 90 83 100 GER USA 83 8086 83 90 FRA 86 80 83 86 90 GRB 80 F R U S G R C A G E J A I T S P N A A A B R P A • ANALISI DEI DATI •PRESENTAZIONE RISULTATI * Strumenti grafici per la presentazione dei dati * Gestione della tabelle * Geo-processing dei dati * Strumenti statistici per l’analisi dei dati * Classificazione dei territori * Costruzione di indicatori complessi * Modelli per le relazioni tra indicatori 16 * Geo-processing dei dati Software Statistico (Open Source) DESC FREQ PROB ANOVA1 ANOVA+ EXPER SLR MLR LOG LOGIT PROBIT GLM ANCOVA NONPAR LOGLIN TIME SURV PCA FACT CCA CA DISCR CLUST ADE 4 • DATAPLOT • • • EASYREG • • GRETL • INSTAT + • • • • • • • • • • • • • • • • • • • MACANOVA • • • • • • • MATRIXER • • • • • • MICROSIRIS • • • • • • • • OPENSTAT • • • • • • • • R • • • • • • • • TANAGRA • • • • VISTA • • • • • WINIDAMS • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 17 Software Online • SOCR (Statistics Online Computational Resource) • (http://www.socr.ucla.edu/) Database di risorse computazionali online • • • • • • • • • • • • include: Distributions (interactive graphs and calculators), Experiments (virtual computer-generated analogs of popular games and processes), Analyses (collection of common web-accessible tools for statistical data analysis), Games (interfaces and simulations to real-life processes), Modeler (tools for distribution, polynomial and spectral model-fitting and simulation), Graphs, Plots and Charts (comprehensive web-based tools for exploratory data analysis), Additional Tools (other statistical tools and resources), SOCR Wiki (collaborative Wiki resource), Educational Materials and Hands-on Activities (varieties of SOCR educational materials), SOCR Statistical Consulting Statistical Computing Libraries 18