Progetto: Creazione di una banca dati nazionale di servizio all’Impresa Committenti: C.I.D.E. e Sofip srl Direzione del progetto: Prof. Alberto Roveda Referente di progetto: Ing. Renzo Valente Coadiutori: Dott. Moreno Ferrarese Dott. ssa Elena Dalla Chiara Tempo di esecuzione: dal 1 Giugno 2007 al 30 Novembre 2007 Residenza della banca dati: C.I.D.E. – Università degli Studi di Verona Residenza Mirror: Sofip srl – Verona Proprietà della banca dati: C.I.D.E. – Università degli Studi di Verona Obiettivo Lo scopo di questa banca dati è quello di analizzare la situazione socioeconomica delle singole province italiane e calcolare alcuni indicatori sintetici che la possano riassumere utilizzando dei fattori di attrattività al fine di individuare il potenziale vantaggio competitivo delle varie province e le corrispondenze con le realtà economiche. Successivamente, si vuole confrontare la situazione delle province per studiare le differenti realtà economiche presenti nel territorio italiano. Per questo motivo si sono raggruppate molteplici informazioni socioeconomiche raccolte, elaborate e rese disponibili, nella maggior parte dei casi, dalle diverse fonti ufficiali e certificate. Analisi esplorativa del progetto Per determinare le variabili intervenienti, ovvero quali aspetti socioeconomici considerare per creare la tabella strutturata per l’inserimento dei dati, sono state consultate le seguenti fonti certificate citate in ordine alfabetico e non di importanza: Aci, ANCI, Banca d’Italia, Censis, CNEL, Istat (in particolar modo le Indagini Multiscopo sulle famiglie), Istituto Tagliacarne, MEF, MIT, Sistan, Unioncamere, Unità di progetto statistico della Regione del Veneto (UPS). Tra le fonti citate sono state escluse l’ANCI e la Banca d’Italia. La prima per diverse motivazioni: gli indici sono disponibili a pagamento, i dati sono disomogenei, i dati non sono aggiornati ed infine l’ANCI fornisce soprattutto dati di finanza locale. La Banca d’Italia, invece, è stata esclusa perché i dati relativi all’ABI sono antecedenti ai tre anni. 1 Dopo aver analizzato i diversi aspetti delle fonti consultate, per procedere alla creazione della tabella strutturata si è scelto di seguire uno schema perfezionato - mutuato dalla Camera di Commercio di Vicenza, in quanto ha sviluppato, da lunghi anni, attraverso il suo Ufficio Statistica, una solida tradizione statistica con studi e ricerche mirati al commercio nazionale ed internazionale legato alle piccole e medie imprese. Le caratteristiche dei database Di seguito verranno descritti i punti di debolezza dei database ottenuti, gli aspetti positivi ed altre considerazioni generali che descrivono i dati. Punti di debolezza Solo una caratteristica dei database può essere considerata un punto di debolezza legato all’impostazione e alla struttura della tabella originale, ovvero il caso riguardante le informazioni dei “Prezzi medi all’ingrosso”; negli altri casi, la completezza dei singoli database dipende dalla scarsa quantità e qualità dei dati che si riesce a reperire. Nel primo caso, i dati delle varie categorie scelte per studiare i “Prezzi medi all’ingrosso” vengono raccolti e classificati diversamente per ogni provincia e, come precedentemente detto, ci siamo basati sulla struttura sviluppata dalla Camera di Commercio di Vicenza. Infatti, i singoli prodotti esaminati dalla Borsa Merci di riferimento sono suddivisi in base alle differenti caratteristiche del prodotto stesso. Inizialmente si sono fatte diverse ipotesi per cercare di determinare quale voce preferire tra le specifiche classificazioni, ma preferiamo lasciare al lettore stabilire quali di 2 queste utilizzare per riassumere il prodotto di interesse in quanto i prezzi nei vari contesti cambiano in modo rilevante. Negli altri casi si sono verificate le seguenti situazioni: 1. Gli stessi dati resi disponibili da fonti certificate o ufficiali diverse spesso presentano valori discordanti. Probabilmente questo potrebbe essere causato da aspetti differenti utilizzati nel valutare le singole voci o al diverso raggruppamento dei dati effettuato. In queste circostanze, quando disponibile e ad eccezione di un unico caso, abbiamo preso in considerazione la serie storica dei dati per avere lo stesso errore di misura relativo alla raccolta dei dati in quanto si presuppone che siano state utilizzate le stesse metodologie di raccolta. L’unico caso in questione si riferisce alle serie storiche rese disponibili da SEAT Pagine Gialle (fonte non ufficiale) in quanto queste rappresentano elaborazioni principalmente di dati Istat. I dati di queste serie storiche si sono utilizzati per gli anni in cui non si riusciva a reperire il dato da altre fonti, a condizione che i valori degli altri anni disponibili non fossero molto diversi da quelli già presenti e indicati dalle fonti certificate e ufficiali. 2. Difficoltà nel trovare i dati disaggregati di alcuni aspetti economici, nello specifico per le variabili “Occupati per attività economica” e “Valore aggiunto al costo dei fattori”. Di conseguenza si sono creati un ugual numero di fogli di lavoro aggiuntivi per rappresentare i dati in forma aggregata per macrosettori. Dal momento che queste variabili vengono analizzate per macrosettori, abbiamo raggruppato nello stesso modo anche i dati dei “Consumi energia elettrica” per poterli studiare e metterli direttamente in relazione con altri fenomeni così raccolti. 3 3. Le informazioni relative al “RIL a costo dei fattori” sono disponibili per la quasi totalità dei casi solo a livello regionale e non per le singole province ed inoltre sono distinte in base alle varie figure professionali. Nella modalità da noi impostata sono reperibili solo per le province autonome di Trento e Bolzano e per la regione autonoma a statuto speciale della Valle d’Aosta. 4. Per diverse motivazioni si sono inseriti separatamente i dati relativi ai censimenti per non confonderli, quando disponibili, con quelli di fine anno: a. In alcune province sono gli unici dati disponibili per le variabili “Unità locali per ramo” e “Patrimonio zootecnico”. b. I dati del censimento della “Popolazione residente” e delle “Famiglie residenti” si sono messi per dare continuità alla serie storica delle “Famiglie residenti” divulgata dall’Istat a partire dal 2003. Questo è possibile analizzando il rapporto delle due variabili al censimento e per gli anni compresi tra il 2003 e il 2006; analizzando poi il comportamento dei dati, per interpolazione si riescono a stimare i valori degli anni precedenti avendo così a disposizione la serie completa delle “Famiglie residenti”. c. Per quanto riguarda gli “Occupati per attività economica” si è pensato di indicare le singole sezioni delle classificazioni delle attività economiche ATECO 2002, anche se consapevoli che a livello provinciale sarebbero stati disponibili solo per il censimento, perché si vuole dare un’indicazione della ripartizione del fenomeno studiato. 4 In tutte queste situazioni si fa riferimento ai seguenti censimenti: 5° Censimento generale dell’Agricoltura (22/10/2000) 8° Censimento generale dell’Industria e dei Servizi (22/10/2001) 14° Censimento generale della Popolazione e delle Abitazioni (21/10/2001) Aspetti positivi Nonostante le considerazioni critiche precedentemente descritte, sono disponibili le serie storiche per le seguenti variabili: “Popolazione residente”, “Famiglie residenti”, “Produzioni agricole”, “Imprese attive iscritte al registro”, “Imprese artigiane iscritte all’albo”, “Grandi magazzini e supermercati alimentari”, “Veicoli immatricolati”, “Veicoli circolanti”, “Autovetture immatricolate”, “Fallimenti”, “Protesti”, “Occupati per macrosettori”, “Indice prezzi medi al consumo” (valori non presenti per tutte le province), “Consumi energia elettrica” e “Popolazione scolastica delle sole scuole statali”. Questo è un aspetto molto positivo in quanto consente di ridurre, anche se parzialmente, l’errore di rilevazione in quanto ogni singola provincia che fornisce i dati può considerare o raggruppare i dati utilizzando metodologie differenti. Da sottolineare che le “Produzioni agricole” contengono dati provvisori, per gli anni 2005 e 2006, e valori stimati dall’Istat. Si sono indicati come stimati i dati che presentano le voci principali delle singole coltivazioni stimate dall’Istat, mentre solo per la categoria delle ortive i dati si sono generalmente indicati come valori stimati quando questi sono presenti per quattro o più varietà di ortive. 5 Altre considerazioni 1. Non tutte le variabili sono espresse con le unità di misura solitamente usate per indicarle: infatti si sono uniformate, utilizzando un cambio di scala dei dati, per renderle tra loro immediatamente confrontabili e meno complicata l’analisi. Abbiamo quindi utilizzato il quintale per le unità di misura di peso e di massa, mentre tutte le grandezze monetarie sono espresse in migliaia di euro. 2. In alcune regioni sono state istituite nuove province, alcune di esse non ancora operative. Di conseguenza l’analisi della serie storica risulta distorta in quanto si registrano riduzioni della dimensione dei fenomeni presi in considerazione da quando questi iniziano ad essere rilevati per le nuove province. Altre difficoltà che in questi casi si potrebbero riscontrare nell’analizzare i dati sono legate ai valori diffusi dall’ACI: infatti l’ACI ha fornito i dati per alcune nuove province prima che queste fossero operative. Questo può causare problemi quando, per gli stessi anni, si confrontano queste informazioni con quelle delle altre variabili che invece considerano giustamente la situazione com’era allo stato attuale dell’indagine. Per questo motivo è stato indicato da quando le nuove province sono o saranno operative. Un caso significativo è rappresentato dalla Regione Sardegna con quattro nuove province che hanno assunto piena operatività a partire da maggio 2005. 3. La fonte dei dati dei “Fatturati per settori economici” è la Banca Dati AIDA, prodotta dalla Bureau Van Dijk, che contiene i bilanci delle 6 principali società pubbliche e private italiane con fatturato pari o maggiore di 500.000 €. Ci sono due aspetti da considerare nell’analisi dei dati: questa soglia prima del 2004 era pari a 1.000.000 €; inoltre, la Bureau Van Dijk segue l’andamento delle società, una volta che hanno superato il fatturato soglia, anche per alcuni anni in cui questo non si dovesse verificare. 4. Infine potrebbero verificarsi difficoltà nel confrontare o analizzare congiuntamente i dati presenti in questa banca dati con quelli futuri in quanto l’Istat ha pubblicato una nuova classificazione delle attività economiche ATECO 2007 che entrerà in vigore a partire dal 1° Gennaio 2008. Tale classificazione costituisce la versione nazionale della nomenclatura europea, NACE rev.2, pubblicata sull'Official Journal il 30 dicembre 2006 (Regolamento (CE) n.1893/2006 del PE e del Consiglio del 20/12/2006). Analisi esplorativa dei dati In un primo momento abbiamo voluto valutare il legame e l’interazione tra alcune variabili. Per questo motivo abbiamo scelto delle variabili principali da prendere in considerazione per l’analisi delle vendite di un ipotetico prodotto: “Popolazione residente”, “Famiglie residenti”, “Popolazione scolastica”, “Imprese attive iscritte al registro”, “Esercizi ricettivi”, “Impieghi”, “Depositi”, “Indice prezzi medi al consumo” e “Pil”. Come esempio abbiamo considerato le province di Verona, Milano, Firenze, Roma, Bari e Palermo per analizzare la forma di dipendenza che tali variabili presentano e si sono calcolate le rispettive matrici di 7 correlazione. Questa operazione può essere considerata un’analisi esplorativa in quanto alcune delle variabili indicate sono derivate dalle altre o diretta conseguenza di qualcun’altra. Come ci si aspettava, dalle matrici di correlazione è emersa la presenza di multicollinearità: una situazione contraria rappresenterebbe un indice di anomalia, ovvero di un qualche fattore diverso non considerato nell’analisi che regola la realtà economica. Successivamente abbiamo effettuato un’analisi delle componenti principali, una metodologia statistica che consente di analizzare la struttura relazionale di un insieme multivariato di variabili quantitative attraverso la derivazione di un numero inferiore di variabili dette componenti principali, in modo tale che la perdita di informazioni sia minima. Le nuove variabili sono ottenute come combinazioni lineari di quelle osservate e devono essere in grado di spiegare una porzione rilevante della varianza totale dei dati. Dall’analisi fattoriale è emerso che tutte le variabili considerate possono essere spiegate da un’unica componente: l’indice di benessere territoriale. Possibili applicazioni Nello studio di relazioni fra variabili in ambito economico (e sociale), spesso il modello lineare generale risulta non conforme. La ragione essenziale sta nel fatto che si è in un contesto non osservato dall’analista, di conseguenza si verificano incertezze in merito al meccanismo generatore dei dati, variabili rilevanti non osservate, regressori potenzialmente correlati con il disturbo, ecc…. 8 Di conseguenza, avendo a disposizione solo lo scenario d’ambiente e non di mercato, indichiamo alcune procedure di lavoro che si potrebbero applicare ai dati disponibili. Oltre all’analisi delle componenti principali descritta nel paragrafo precedente, un’altra tipologia di analisi possibile consiste nell’utilizzo della classe dei modelli lineari generalizzati, un’estensione dei modelli lineari classici, che trovano applicazione nel caso in cui la distribuzione della variabile risposta sia diversa da quella normale, ma segua invece una distribuzione appartenente alla famiglia esponenziale, nel caso di legame più complesso di quello lineare con le variabili dipendenti e nel caso di varianza dell’errore non costante. Altri modelli di regressione che trovano particolare applicazione in campo econometrico sono i modelli di equazioni strutturali (SEM), dei modelli di regressione multi-equazione nei quali le variabili risposta di un’equazione del SEM possono comparire come regressori in un’altra equazione, ovvero le variabili di un SEM si influenzano a vicenda tra loro. Inoltre i modelli di equazioni strutturali rappresentano una delle metodologie più diffuse nell’analisi di dati comportamentali poiché consentono di studiare le interazioni esistenti tra variabili non direttamente misurabili, dette variabili latenti o fattori. Conclusioni Si sono riscontrate notevoli differenze sia di metodologia di raccolta che di pubblicazione dei dati di nostro interesse. Questo si è verificato non solo a livello regionale, ma spesso anche a livello provinciale, di conseguenza la quantità di valori mancanti presenti nei database varia in funzione di questo e della incongruenza dei valori trovati in più fonti. 9 Questi e quelli descritti nei paragrafi precedenti sono aspetti da tenere in considerazione in quanto potrebbero rendere difficoltoso il confronto dei dati. Verona, lì 29 novembre 2007 Redatto da Elena Dalla Chiara Supervisore Moreno Ferrarese 10 Bibliografia Banca Dati AIDA http://linktobusiness.seat.it/start.html http://webpress.unraeservizi.com/ http://www.aci.it/ http://www.anci.it/ http://www.attivitaproduttive.gov.it/ http://www.bancaditalia.it/ http://www.censis.it/ http://www.cnel.it/ http://www.edscuola.com/ http://www.infocamere.it http://www.innovazione.gov.it/ http://www.istat.it http://www.mef.gov.it/ http://www.pubblica.istruzione.it/ http://www.sistan.it/ http://www.starnet.unioncamere.it/ http://www.tagliacarne.it/ http://www.terna.it/ http://www.unioncamere.it/ Sono inoltre stati consultati i siti delle Camere di Commercio di tutte le province, i siti di tutte le Province e i siti di tutte le Regioni. 11 Ringraziamenti Dott. Moreno Ferrarese Prof. Alberto Roveda Dott. Nicola Tommasi Ing. Renzo Valente 12