Informazione Statistica Informazione Geografica e

Informazione Statistica
Informazione Geografica e
Banche Dati Online: Sviluppi
Metodologici ed Applicativi
Maurizio Vichi
Presidente Società Italiana di Statistica
e
Dpt. Statistica Probabilità e Statistiche Applicate
Università “La Sapienza” di Roma
em: [email protected]
1
La Statistica: tra Diffusione e Comunicazione
•
•
•
•
•
La Statistica tra cattiva immagine e grande successo in Italia (ma anche all’estero)
La funzione delle Statistica è in generale di acquisire informazione “soggettiva” (ovvero dati
su singoli individui) e restituire informazione “oggettiva”, (conoscenza) legata alla collettività;
Con la Società dell’Informazione (basata su radio, televisione, telefonia e internet),
l’informazione soggettiva è enormemente aumentata;
La percezione pubblica della statistica è in parte negativa. Da che dipende?
I media spesso usano informazione soggettiva e la pubblicano come oggettiva;
La gente ha una percezione di dipendenza della Statistica ufficiale dal Governo. Necessità
di favorire l’indipendenza e l’autorevolezza (credibilità);
Che cosa si può fare per migliorare l’immagine pubblica della Statistica.
Due punti in discussione nel workshop: la condivisione e la diffusione dell’informazione statistica
•
•
Organizzare l’informazione statistica online per renderla universalmente accessibile,
integrabile e facile da leggere ed interpretare;
Completare la modernizzazione della Statistica. Il Datawarehouse non è un problema
informatico ma è statistico;
La comunicazione dell’informazione statistica. La Statistica non si deve fermare alle tabelle e
grafici ma deve comunicare l’informazione rilevante dandone l’interpretazione oggettiva,
ovvero la descrizione ed l’inferenza su ciò che è stato osservato.
•
Analizziamo gli sviluppi metodologici ed applicativi che sono necessari per migliorare la
condivisione e la diffusione dell’informazione statistica
2
SIS Sistema Informativo Statistico online
Costruzione di un Sistema Informativo Statistico online
Quali sono le caratteristiche generali di un SIS online
Per gli aspetti di Organizzazione
Accessibilità dei dati e dei metadati online;
Organizzazione dei dati per l’analisi statistica;
Integrazione tra dati (modularità) mediante internet
Per gli aspetti di Comunicazione
Ridurre i tempi di pubblicazione dei dati;
Trasparenza e certificazione (qualità dei dati);
Predisposizione di strumenti statistici di elaborazione;
Interpretazione oggettiva delle elaborazioni (information
mining).
3
Basi Dati Online
Analizziamo tre rilevanti DB Online per esaminare
le loro caratteristiche
• UN data (http://data.un.org/)
•
La Divisione Statistica delle Nazioni Unite (UNSD) del DESA ha lanciato un nuovo
servizio internet che permette di trovare e scaricare una varietà di dati statistici delle
agenzie delle Nazioni Unite.
•
•
•
•
•
•
•
•
•
Databases
Education UNESCO UIS Data
Employment ILO Data
Energy UNSD Energy Statistics
Environment UNFCCC Greenhouse Gas Inventory
Food and Agriculture FAO Data , FAO Fertilizer Data
Health WHO Data , HIV/AIDS UNAIDS Data
Human Development UNDP Human Development Report
Indicator databases UNSD Key Global Indicators, UNSD Gender Info 2007 , UNSD Indicators on Women and Men ,UNSD Millennium
Development Goals , UNICEF The State of the World’s Children 2009
Industry UNSD Industrial Commodity Statistics
Information and Communication Technology TU Data
National Accounts UNSD Official Country Data , UNSD Estimates of Main Aggregates
Population UNSD Demographic Statistics , UNPD World Population Prospects
Refugees UNHCR Statistical Yearbook
Trade UNSD Commodity Trade Statistics
Tourism UNWTO Data
•
•
•
•
•
•
•
4
Basi Dati Online 2
• Eurostat (http://epp.eurostat.ec.europa.eu)
•
Disponibile sul sito ed esplorata con un albero
•
•
Euroindicators database
Economy and finance Main economic indicators, National accounts (incl.GDP), Government
statistics, Financial accounts, Exchange rates, Interest rates, Monetary and other financial
,statistics, Prices , Balance of payments
Population and social conditions Population, Health , Education and training , Labour market ,
Living conditions and welfare , Crime and criminal justice ,
Industry, trade and services Short-term business statistics , Structural business statistics ,
Information society statistics , Tourism , Statistics on the production of manufactured goods ,
General and regional statistics Regions , Urban audit , Non EU countries ,
Agriculture and fisheries Agriculture Forestry, Fisheries ,Food
External trade External trade
Transport
Environment and energy Environment ,Energy
Science and technology Science and technology
•
•
•
•
•
•
•
•
5
Basi Dati Online 3
• Statistics Portal OECD.Stat Extracts
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
General Statistics
Agriculture and Fisheries
Demography and Population
Development
Economic Projections, Education and Training
Environment
Finance
Globalisation
Health
Industry and Services
International Trade and Balance of Payments
Labour
Monthly Economic Indicators
National Accounts
Prices and Purchasing Power Parities
Productivity
Public Sector, Taxation and Market Regulation
Regional Statistics
Science, Technology and Patents
Social and Welfare Statistics
Non-member Economies
Others
6
Vista Univariata o tabellare dei DB
• In UNDATA sono riportate le serie storiche degli
indicatori ed ha un motore di mappe tematiche;
• In EUROSTAT c’è una applet Java che permette di
costruire tabelle;
• In OECD Portal c’è eXplorer che è uno strumento per
costruire tabelle e grafici e fare confronti territoriali;
• In un SIS i dati sono logicamente strutturati in uno o più
“CUBI” di informazioni:
• unità territoriali x indicatori x tempi, che sono le
dimensioni tipiche di ogni fenomeno statistico con
struttura complessa.
7
Struttura Multiway dei Dati organizzati in
uno o più data-set a tre vie
(Three-way Data Set)
X
un insieme X di I × J × K attributi relativi a:
J Indicatori (variabili) misurati, (osservati, stimati) su
I Unità Territoriali (oggetti geografici, aggregazioni
amministrative) osservati,
K Occasioni (tempi, diverse fonti di dati)
Si ha un Cubo X o 3-Way Array
Comuni,
provincie,
regioni,
comucap
x11r x12r ... x1kK
x11h x12h ... x1kh
x111 x121 … x1k1
Unità
territoriale
i
xijk
anno, semestre, trimestre,
mensile
tempo
k
xn11 xn21... x1JK
Indicatore j
Un insieme di indicatori
economici, demegrafici, sociali
8
Analisi statistica dei dati di un SIS
I dati presentano tre diverse tipologie di relazione di cui si deve tener
conto
™ RELAZIONE TERRITORIALI, tra le unità territoriali rispetto agli
indicatori in un istante di tempo (correlazione spaziale, (dis)similarità fra
oggetti spaziali, vincoli di contiguità, ecc.);
TIPO DI ANALISI: Statistica per il territorio (Spaziale) ed uso dei
GIS;
GIS Indici di associazione spaziale, regressione e segmentazione
vincolata al territorio.
territorio
™RELAZIONE MULTIVARIATE,ovvero tra gli indicatori sulla base di
unità territoriali osservate in un istante di tempo (associazione e
correlazione fra variabili);
TIPO DI ANALISI : Statistica Multivariata. Costruzione di indicatori
complessi,
complessi segmentazione del mercato.
mercato Regressione tra indicatori
™RELAZIONI TEMPORALI, ovvero in ciascun indicatore che si
riferiscono a indicatori e/o unità territoriali (auto-correlazione
temporale);
TIPO DI ANALISI: Analisi delle Serie Storiche ed uso della
modellistica per le Previsioni.
Previsioni
9
Prima vista del SIS CONFRONTI TERRITORIALI
(sezionando verticalmente X)
occasion
Tempo rr
x11r x12r ...x1kr
occasion
Tempo 22
occasion
Tempo 11
x112 x122 ...x1k2
xikr
x111 x121 ...x1k1
Unità Territoriali
Units xi11 x121 ... xik1
xik2
xnkr
xnk2
xn11 xn21 ...xnk1
Variables
Indicatori
Unità territoriali multivariate
Confronti territoriali tra indicatori in uno stesso istante di tempo
(Analisi cross-section);
Analisi delle posizioni relative tra le unità territoriali su indicatori o
spazi fattoriali (indicatori compositi);
10
Segmentazione del territorio in aree omogenee.
Seconda Vista PREVISIONI STATISTICHE
n Serie Storiche Multiple
(sezionando orizzontalmente X)
Variables
Indicatori
x x
11r
12r
tempi
Occasions
x
1kr
x
21r
x x
x
x x
x
x x
x
111
211
121
221
1k1
Unit 11
Unità
2k1
x
n1r
n11
n21
nk1
Unità
Unit n I
Un insieme di dati Panel
Confronti tra n Serie Storiche multivariate (Panel di dati)
Analisi delle “storie” tra più unità territoriali sulla base di un
set di indicatori;
Previsioni su un territorio sulla base di un set di indicatori;
Analisi di convergenza e divergenza territoriale;
11
Terza vista CONVERGENZA
(sezionando lateralmente X)
di INDICATORI
un insieme di K Serie Storiche Multiple
x
11r
x
112
x
Units
Unità
21r
x
111
x
212
x
211
x
n1r
x
n12
variable k
Indicatore
K
x
n11
Occasions
Tempi
Indicatore
variable 1 1
Un insieme di dati Panel
Confronti “storici” tra indicatori per le unità territoriali;
Previsioni di indicatori in un territorio;
Analisi di convergenza e divergenza degli indicatori sul
territorio;
12
Altra modalità “geografica” di vedere i dati
GIS- Geographical Information System
• Un GIS è un sistema orientato alla Geografia, che permette, la
gestione, l’analisi e la visualizzazione di informazioni legate al territorio
Diversi modi di vedere un GIS
La vista del Database: dati geografici
Collezioni ordinate di caratteristiche vettoriali
(insiemi di punti, linee e poligoni)
Collegamenti tra oggetti geografici
modelli digitali di elevazione del territorio
Terreni e altre superficie
Insiemi di dati di ricerche geografiche
13
altre informazioni geografiche
Secondo e Terzo modo di vedere un GIS
Dati di relazione tra gli oggetti spaziali e i dati di flusso.
Relazioni spaziali come topologie e reti sono parti
cruciali di un GIS. La topologia è impiegata per
gestire confini comuni tra oggetti geografici
Organizzazione tematica dei dati (livelli tematici)
14
Integrazione tra GIS e SIS
Tre tipologie di vista dei dati
Visualizzazione cartografica (tipica GIS)
Gli indicatori che definiscono una serie territoriale originano un cartogramma.
Visualizzazione tabellare (tipica SIS)
Tabelle unità territoriali x indicatori;
Tabelle unità terrritoriali x tempi;
Tabelle indicatori x tempi
Visualizza grafica (tipica SIS e GIS + cartografia)
Per variabili qualitative
1 indicatore: grafico a colonne
1 indicatore x anni: grafico a colonne contrapposte
Per variabili quantitative
Istogramma
1 indicatore x anni: grafico cartesiano
m indicatori x anni: grafici cartesiani a confronto
15
Integrazione tra GIS e SIS: Geo Web Starter
Diffusione, confronti
DBMS archivi
Confronti avanzati
Segmentazione
territorio in aree
omogenee
Warehouse cubi di dati
Basi Dati ufficiali,
Servizio
WEB multimediale
Basi Dati gestione, validazione
utente
Cartografia & Tabelle e Grafici
3
90 80
90
86
JAP
83
80
2
90 CAN
8386
1
8090
Factor 2 (24%)
86
83
80
60
40
ITA
SPA
80
-4
-3
86
-2
0
80
20
2
0
83
90
1
Factor 1 (60%)
•GESTIONE DATI
•BASE DATI RELAZIONALE
•INTEGRAZIONI DI FONTI
* Strumenti per il DBMS
* Gestione della sicurezza
* Raccolta di dati mediante
questionari interattivi
* Controllo e correzione dati
* Geo-processing dei dati
-80
8
81 82 83 84 85 86 87 88 89 90
3.000.000
2.500.000
yi11 ... yin1
2.000.000
1.500.000
1.000.000
yn11 ...ynn1
Lombardia
Friuli-VeneziaGiulia
Veneto
500.000
Piemonte
0
Liguria
45-64
-2
-4
-6
CA
FR
GB
GE
JAP
ITA
SPA
USA
0
20
5-9
Metadata
Catalogo Dati
1° Trim. 2° Trim. 3° Trim. 4° Trim.
Modelli per
serie temporali
e serie spaziali
y111 ... y1n1
8
6
4
15-24
Gestione
profili utenti
-1
86
-2 90
83
100
GER
USA
83
8086
83 90 FRA
86
80
83
86 90
GRB
80
F R U S G R C A G E J A I T S P
N
A
A
A
B
R
P
A
• ANALISI DEI DATI
•PRESENTAZIONE
RISULTATI
* Strumenti grafici per la
presentazione dei dati
* Gestione della tabelle
* Geo-processing dei dati
* Strumenti statistici per
l’analisi dei dati
* Classificazione dei territori
* Costruzione di indicatori
complessi
* Modelli per le relazioni
tra indicatori
16
* Geo-processing dei dati
Software Statistico (Open Source)
DESC FREQ PROB ANOVA1 ANOVA+ EXPER SLR MLR LOG LOGIT PROBIT GLM ANCOVA NONPAR LOGLIN TIME SURV PCA FACT CCA CA DISCR CLUST
ADE 4
•
DATAPLOT
•
•
•
EASYREG
•
•
GRETL
•
INSTAT +
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
MACANOVA
•
•
•
•
•
•
•
MATRIXER
•
•
•
•
•
•
MICROSIRIS
•
•
•
•
•
•
•
•
OPENSTAT
•
•
•
•
•
•
•
•
R
•
•
•
•
•
•
•
•
TANAGRA
•
•
•
•
VISTA
•
•
•
•
•
WINIDAMS
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
17
Software Online
• SOCR (Statistics Online Computational Resource)
• (http://www.socr.ucla.edu/) Database di risorse
computazionali online
•
•
•
•
•
•
•
•
•
•
•
•
include:
Distributions (interactive graphs and calculators),
Experiments (virtual computer-generated analogs of popular games and processes),
Analyses (collection of common web-accessible tools for statistical data analysis),
Games (interfaces and simulations to real-life processes),
Modeler (tools for distribution, polynomial and spectral model-fitting and simulation),
Graphs, Plots and Charts (comprehensive web-based tools for exploratory data analysis),
Additional Tools (other statistical tools and resources),
SOCR Wiki (collaborative Wiki resource),
Educational Materials and Hands-on Activities (varieties of SOCR educational materials),
SOCR Statistical Consulting
Statistical Computing Libraries
18