Per determinare le variabili (voci), ovvero quali

annuncio pubblicitario
Progetto:
Creazione
di
una
banca
dati
nazionale di servizio all’Impresa
Committenti: C.I.D.E. e Sofip srl
Direzione del progetto: Prof. Alberto Roveda
Referente di progetto: Ing. Renzo Valente
Coadiutori: Dott. Moreno Ferrarese
Dott. ssa Elena Dalla Chiara
Tempo di esecuzione: dal 1 Giugno 2007 al 30 Novembre 2007
Residenza della banca dati: C.I.D.E. – Università degli Studi di Verona
Residenza Mirror: Sofip srl – Verona
Proprietà della banca dati: C.I.D.E. – Università degli Studi di Verona
Obiettivo
Lo scopo di questa banca dati è quello di analizzare la situazione socioeconomica delle singole province italiane e calcolare alcuni indicatori
sintetici che la possano riassumere utilizzando dei fattori di attrattività al
fine di individuare il potenziale vantaggio competitivo delle varie
province e le corrispondenze con le realtà economiche.
Successivamente, si vuole confrontare la situazione delle province per
studiare le differenti realtà economiche presenti nel territorio italiano.
Per questo motivo si sono raggruppate molteplici informazioni socioeconomiche raccolte, elaborate e rese disponibili, nella maggior parte dei
casi, dalle diverse fonti ufficiali e certificate.
Analisi esplorativa del progetto
Per determinare le variabili intervenienti, ovvero quali aspetti socioeconomici considerare per creare la tabella strutturata per l’inserimento
dei dati, sono state consultate le seguenti fonti certificate citate in ordine
alfabetico e non di importanza: Aci, ANCI, Banca d’Italia, Censis, CNEL,
Istat (in particolar modo le Indagini Multiscopo sulle famiglie), Istituto
Tagliacarne, MEF, MIT, Sistan, Unioncamere, Unità di progetto statistico
della Regione del Veneto (UPS).
Tra le fonti citate sono state escluse l’ANCI e la Banca d’Italia.
La prima per diverse motivazioni: gli indici sono disponibili a pagamento,
i dati sono disomogenei, i dati non sono aggiornati ed infine l’ANCI
fornisce soprattutto dati di finanza locale. La Banca d’Italia, invece, è stata
esclusa perché i dati relativi all’ABI sono antecedenti ai tre anni.
1
Dopo aver analizzato i diversi aspetti delle fonti consultate, per procedere
alla creazione della tabella strutturata si è scelto di seguire uno schema perfezionato - mutuato dalla Camera di Commercio di Vicenza, in quanto
ha sviluppato, da lunghi anni, attraverso il suo Ufficio Statistica, una
solida tradizione statistica con studi e ricerche mirati al commercio
nazionale ed internazionale legato alle piccole e medie imprese.
Le caratteristiche dei database
Di seguito verranno descritti i punti di debolezza dei database ottenuti, gli
aspetti positivi ed altre considerazioni generali che descrivono i dati.
Punti di debolezza
Solo una caratteristica dei database può essere considerata un punto di
debolezza legato all’impostazione e alla struttura della tabella originale,
ovvero il caso riguardante le informazioni dei “Prezzi medi all’ingrosso”;
negli altri casi, la completezza dei singoli database dipende dalla scarsa
quantità e qualità dei dati che si riesce a reperire.
Nel primo caso, i dati delle varie categorie scelte per studiare i “Prezzi
medi all’ingrosso” vengono raccolti e classificati diversamente per ogni
provincia e, come precedentemente detto, ci siamo basati sulla struttura
sviluppata dalla Camera di Commercio di Vicenza. Infatti, i singoli
prodotti esaminati dalla Borsa Merci di riferimento sono suddivisi in base
alle differenti caratteristiche del prodotto stesso. Inizialmente si sono fatte
diverse ipotesi per cercare di determinare quale voce preferire tra le
specifiche classificazioni, ma preferiamo lasciare al lettore stabilire quali di
2
queste utilizzare per riassumere il prodotto di interesse in quanto i prezzi
nei vari contesti cambiano in modo rilevante.
Negli altri casi si sono verificate le seguenti situazioni:
1. Gli stessi dati resi disponibili da fonti certificate o ufficiali diverse
spesso presentano valori discordanti. Probabilmente questo potrebbe
essere causato da aspetti differenti utilizzati nel valutare le singole voci
o al diverso raggruppamento dei dati effettuato.
In queste circostanze, quando disponibile e ad eccezione di un unico
caso, abbiamo preso in considerazione la serie storica dei dati per
avere lo stesso errore di misura relativo alla raccolta dei dati in quanto
si presuppone che siano state utilizzate le stesse metodologie di
raccolta. L’unico caso in questione si riferisce alle serie storiche rese
disponibili da SEAT Pagine Gialle (fonte non ufficiale) in quanto
queste rappresentano elaborazioni principalmente di dati Istat. I dati
di queste serie storiche si sono utilizzati per gli anni in cui non si
riusciva a reperire il dato da altre fonti, a condizione che i valori degli
altri anni disponibili non fossero molto diversi da quelli già presenti e
indicati dalle fonti certificate e ufficiali.
2. Difficoltà nel trovare i dati disaggregati di alcuni aspetti economici,
nello specifico per le variabili “Occupati per attività economica” e
“Valore aggiunto al costo dei fattori”. Di conseguenza si sono creati un
ugual numero di fogli di lavoro aggiuntivi per rappresentare i dati in
forma aggregata per macrosettori.
Dal
momento
che
queste
variabili
vengono
analizzate
per
macrosettori, abbiamo raggruppato nello stesso modo anche i dati dei
“Consumi
energia
elettrica”
per
poterli
studiare
e
metterli
direttamente in relazione con altri fenomeni così raccolti.
3
3. Le informazioni relative al “RIL a costo dei fattori” sono disponibili
per la quasi totalità dei casi solo a livello regionale e non per le singole
province ed inoltre sono distinte in base alle varie figure professionali.
Nella modalità da noi impostata sono reperibili solo per le province
autonome di Trento e Bolzano e per la regione autonoma a statuto
speciale della Valle d’Aosta.
4. Per diverse motivazioni si sono inseriti separatamente i dati relativi ai
censimenti per non confonderli, quando disponibili, con quelli di fine
anno:
a. In alcune province sono gli unici dati disponibili per le variabili
“Unità locali per ramo” e “Patrimonio zootecnico”.
b. I dati del censimento della “Popolazione residente” e delle
“Famiglie residenti” si sono messi per dare continuità alla serie
storica delle “Famiglie residenti” divulgata dall’Istat a partire dal
2003. Questo è possibile analizzando il rapporto delle due variabili
al censimento e per gli anni compresi tra il 2003 e il 2006;
analizzando poi il comportamento dei dati, per interpolazione si
riescono a stimare i valori degli anni precedenti avendo così a
disposizione la serie completa delle “Famiglie residenti”.
c. Per quanto riguarda gli “Occupati per attività economica” si è
pensato di indicare le singole sezioni delle classificazioni delle
attività economiche ATECO 2002, anche se consapevoli che a livello
provinciale sarebbero stati disponibili solo per il censimento, perché
si vuole dare un’indicazione della ripartizione del fenomeno
studiato.
4
In tutte queste situazioni si fa riferimento ai seguenti censimenti:
5° Censimento generale dell’Agricoltura (22/10/2000)
8° Censimento generale dell’Industria e dei Servizi (22/10/2001)
14° Censimento generale della Popolazione e delle Abitazioni (21/10/2001)
Aspetti positivi
Nonostante le considerazioni critiche precedentemente descritte, sono
disponibili le serie storiche per le seguenti variabili: “Popolazione
residente”, “Famiglie residenti”, “Produzioni agricole”, “Imprese attive
iscritte al registro”, “Imprese artigiane iscritte all’albo”, “Grandi
magazzini e supermercati alimentari”, “Veicoli immatricolati”, “Veicoli
circolanti”,
“Autovetture
immatricolate”,
“Fallimenti”,
“Protesti”,
“Occupati per macrosettori”, “Indice prezzi medi al consumo” (valori non
presenti per tutte le province), “Consumi energia elettrica”
e
“Popolazione scolastica delle sole scuole statali”.
Questo è un aspetto molto positivo in quanto consente di ridurre, anche se
parzialmente, l’errore di rilevazione in quanto ogni singola provincia che
fornisce i dati può considerare o raggruppare i dati utilizzando
metodologie differenti.
Da sottolineare che le “Produzioni agricole” contengono dati provvisori,
per gli anni 2005 e 2006, e valori stimati dall’Istat. Si sono indicati come
stimati i dati che presentano le voci principali delle singole coltivazioni
stimate dall’Istat, mentre solo per la categoria delle ortive i dati si sono
generalmente indicati come valori stimati quando questi sono presenti per
quattro o più varietà di ortive.
5
Altre considerazioni
1. Non tutte le variabili sono espresse con le unità di misura solitamente
usate per indicarle: infatti si sono uniformate, utilizzando un cambio
di scala dei dati, per renderle tra loro immediatamente confrontabili e
meno complicata l’analisi. Abbiamo quindi utilizzato il quintale per le
unità di misura di peso e di massa, mentre tutte le grandezze
monetarie sono espresse in migliaia di euro.
2. In alcune regioni sono state istituite nuove province, alcune di esse
non ancora operative.
Di conseguenza l’analisi della serie storica risulta distorta in quanto si
registrano riduzioni della dimensione dei fenomeni presi in
considerazione da quando questi iniziano ad essere rilevati per le
nuove province.
Altre
difficoltà
che
in
questi
casi
si
potrebbero
riscontrare
nell’analizzare i dati sono legate ai valori diffusi dall’ACI: infatti l’ACI
ha fornito i dati per alcune nuove province prima che queste fossero
operative. Questo può causare problemi quando, per gli stessi anni, si
confrontano queste informazioni con quelle delle altre variabili che
invece considerano giustamente la situazione com’era allo stato attuale
dell’indagine. Per questo motivo è stato indicato da quando le nuove
province sono o saranno operative.
Un caso significativo è rappresentato dalla Regione Sardegna con
quattro nuove province che hanno assunto piena operatività a partire
da maggio 2005.
3. La fonte dei dati dei “Fatturati per settori economici” è la Banca Dati
AIDA, prodotta dalla Bureau Van Dijk, che contiene i bilanci delle
6
principali società pubbliche e private italiane con fatturato pari o
maggiore di 500.000 €.
Ci sono due aspetti da considerare nell’analisi dei dati: questa soglia
prima del 2004 era pari a 1.000.000 €; inoltre, la Bureau Van Dijk segue
l’andamento delle società, una volta che hanno superato il fatturato
soglia, anche per alcuni anni in cui questo non si dovesse verificare.
4. Infine potrebbero verificarsi difficoltà nel confrontare o analizzare
congiuntamente i dati presenti in questa banca dati con quelli futuri in
quanto l’Istat ha pubblicato una nuova classificazione delle attività
economiche ATECO 2007 che entrerà in vigore a partire dal 1°
Gennaio 2008. Tale classificazione costituisce la versione nazionale
della
nomenclatura europea, NACE rev.2, pubblicata sull'Official
Journal il 30 dicembre 2006 (Regolamento (CE) n.1893/2006 del PE e
del Consiglio del 20/12/2006).
Analisi esplorativa dei dati
In un primo momento abbiamo voluto valutare il legame e l’interazione
tra alcune variabili.
Per questo motivo abbiamo scelto delle variabili principali da prendere in
considerazione per l’analisi delle vendite di un ipotetico prodotto:
“Popolazione residente”, “Famiglie residenti”, “Popolazione scolastica”,
“Imprese attive iscritte al registro”, “Esercizi ricettivi”, “Impieghi”,
“Depositi”, “Indice prezzi medi al consumo” e “Pil”.
Come esempio abbiamo considerato le province di Verona, Milano,
Firenze, Roma, Bari e Palermo per analizzare la forma di dipendenza che
tali variabili presentano e si sono calcolate le rispettive matrici di
7
correlazione. Questa operazione può essere considerata un’analisi
esplorativa in quanto alcune delle variabili indicate sono derivate dalle
altre o diretta conseguenza di qualcun’altra.
Come ci si aspettava, dalle matrici di correlazione è emersa la presenza di
multicollinearità: una situazione contraria rappresenterebbe un indice di
anomalia, ovvero di un qualche fattore diverso non considerato
nell’analisi che regola la realtà economica.
Successivamente
abbiamo
effettuato
un’analisi
delle
componenti
principali, una metodologia statistica che consente di analizzare la
struttura relazionale di un insieme multivariato di variabili quantitative
attraverso la derivazione di un numero inferiore di variabili dette
componenti principali, in modo tale che la perdita di informazioni sia
minima. Le nuove variabili sono ottenute come combinazioni lineari di
quelle osservate e devono essere in grado di spiegare una porzione
rilevante della varianza totale dei dati.
Dall’analisi fattoriale è emerso che tutte le variabili considerate possono
essere spiegate da un’unica componente: l’indice di benessere territoriale.
Possibili applicazioni
Nello studio di relazioni fra variabili in ambito economico (e sociale),
spesso il modello lineare generale risulta non conforme. La ragione
essenziale sta nel fatto che si è in un contesto non osservato dall’analista,
di conseguenza si verificano incertezze in merito al meccanismo
generatore
dei dati,
variabili
rilevanti
non
osservate,
regressori
potenzialmente correlati con il disturbo, ecc….
8
Di conseguenza, avendo a disposizione solo lo scenario d’ambiente e non
di mercato, indichiamo alcune procedure di lavoro che si potrebbero
applicare ai dati disponibili.
Oltre all’analisi delle componenti principali descritta nel paragrafo
precedente, un’altra tipologia di analisi possibile consiste nell’utilizzo
della classe dei modelli lineari generalizzati, un’estensione dei modelli
lineari classici, che trovano applicazione nel caso in cui la distribuzione
della variabile risposta sia diversa da quella normale, ma segua invece una
distribuzione appartenente alla famiglia esponenziale, nel caso di legame
più complesso di quello lineare con le variabili dipendenti e nel caso di
varianza dell’errore non costante.
Altri modelli di regressione che trovano particolare applicazione in campo
econometrico sono i modelli di equazioni strutturali (SEM), dei modelli di
regressione multi-equazione nei quali le variabili risposta di un’equazione
del SEM possono comparire come regressori in un’altra equazione, ovvero
le variabili di un SEM si influenzano a vicenda tra loro. Inoltre i modelli di
equazioni strutturali rappresentano una delle metodologie più diffuse
nell’analisi di dati comportamentali poiché consentono di studiare le
interazioni esistenti tra variabili non direttamente misurabili, dette
variabili latenti o fattori.
Conclusioni
Si sono riscontrate notevoli differenze sia di metodologia di raccolta che di
pubblicazione dei dati di nostro interesse. Questo si è verificato non solo a
livello regionale, ma spesso anche a livello provinciale, di conseguenza la
quantità di valori mancanti presenti nei database varia in funzione di
questo e della incongruenza dei valori trovati in più fonti.
9
Questi e quelli descritti nei paragrafi precedenti sono aspetti da tenere in
considerazione in quanto potrebbero rendere difficoltoso il confronto dei
dati.
Verona, lì 29 novembre 2007
Redatto da Elena Dalla Chiara
Supervisore Moreno Ferrarese
10
Bibliografia
Banca Dati AIDA
http://linktobusiness.seat.it/start.html
http://webpress.unraeservizi.com/
http://www.aci.it/
http://www.anci.it/
http://www.attivitaproduttive.gov.it/
http://www.bancaditalia.it/
http://www.censis.it/
http://www.cnel.it/
http://www.edscuola.com/
http://www.infocamere.it
http://www.innovazione.gov.it/
http://www.istat.it
http://www.mef.gov.it/
http://www.pubblica.istruzione.it/
http://www.sistan.it/
http://www.starnet.unioncamere.it/
http://www.tagliacarne.it/
http://www.terna.it/
http://www.unioncamere.it/
Sono inoltre stati consultati i siti delle Camere di Commercio di tutte le
province, i siti di tutte le Province e i siti di tutte le Regioni.
11
Ringraziamenti
Dott. Moreno Ferrarese
Prof. Alberto Roveda
Dott. Nicola Tommasi
Ing. Renzo Valente
12
Scarica