Individuazione degli indicatori di sintesi del “bene comune” e graduatoria finale delle regioni italiane: analisi 2014 Premessa A partire dalla ridefinizione e strutturazione di nuovi indicatori che potessero meglio ricostruire i confini del concetto di “Bene Comune”, é stata condotta una nuova analisi statistica al fine di determinare il posizionamento delle regioni italiane rispetto alle singole dimensioni del macro concetto studiato. Una volta aggiornata la batteria degli indicatori socio-demografici per le 20 regioni italiane1, la fase successiva ha riguardato l’applicazione di un insieme di analisi statistiche volte a: i) ridurre il numero di indicatori mediante una rilettura empirica e logica degli stessi che tenga conto del loro diverso grado di rappresentatività del macrofenomeno studiato; ii) analizzare, attraverso una tecnica che rientra nell’Analisi Multidimensionale dei Dati (Lebart et al., 1995), la batteria ridotta di indicatori individuata al punto i) ed identificare quelli che meglio spiegano il macroconcetto; iii) giungere, attraverso tecniche di sintesi degli indicatori sociali (Del Vecchio, 1995) ad un'unica misura statistica sintetica che permetta di ordinare le 20 regioni su un continuum che esprime la diversa capacità di produrre “bene comune”. Di seguito sono quindi spiegati nel dettaglio i diversi step che hanno guidato l’analisi statistica dei dati. 1. La scelta degli indicatori La fase di pulitura della banca dati sono stati conservati solo quegli indicatori che presentavano al massimo un valore mancante, identificabile attraverso tecniche di stima aventi l’obiettivo di prevedere o “stimare” i valori sostitutivi. Per tali indicatori, i valori mancanti sono stati così ricostruiti sulla base di un metodo deterministico di stima nel quale si sostituisce la mancata risposta nella variabile con un unico valore, rappresentato dalla media calcolata sul totale dei rispondenti (Little et al., 1987). In generale tale metodo, pur preservando il valore medio, causa un’attenuazione 1 Sono state escluse dall’analisi le due province autonome di Trento e Bolzano. 1 della varianza della variabile per la quale è stata effettuata l’imputazione e genera delle distorsioni nella forma della sua distribuzione, ma risulta valido nel caso in cui (come quello in esame) il numero dei dati mancanti per ciascuna variabile è esiguo. La matrice di partenza è una matrice (Mˈ120×75) contenente un insieme ridotto di variabili suddiviso, rispetto alle diverse aree di interesse, così come riportato in tabella 1.1 2 AREE DI INTERESSE INDICATORI Ambiente 6 Persona 12 Stato e Servizi 20 Famiglia 8 Lavoro 17 Corpi intermedi e partecipazione 7 Società 5 Totale 75 Tabella 1.1 - Numero di indicatori rispetto alle 7 aree di interesse Al fine di individuare, tra la batteria di indicatori presenti nella matrice (Mˈ120×75), quelli che meglio potessero rappresentare ogni singola area di interesse e ricostruire una graduatoria, sia parziale che totale, delle regioni rispetto al macrofenomeno “Bene Comune”, è stata condotta un’analisi esplorativa dei dati attraverso l’Analisi in Componenti Principali, al fine di ottenere una sintesi degli indicatori elementari. Le graduatorie finali sono state, quindi, ricostruite (con modalità differenti rispetto alla prima analisi condotta nell’anno 2012) a partire dai punteggi fattoriali che l’Analisi in Componenti Principali restituisce sulle singole unità statistiche. 2. l’Analisi in Componenti Principali L’Analisi in Componenti Principali (ACP) è una tecnica idonea a ridurre un sistema complesso di variabili attraverso la ricostruzione di un nuovo sottoinsieme di variabili tra loro non correlate e legate linearmente alle variabili di partenza. L’applicazione di tale tecnica al caso in esame ha visto lo strutturarsi di due fasi principali: la preparazione della matrice-dati; l’analisi della struttura dei dati e la scelta degli indicatori finali. 3 2.1 La preparazione della matrice-dati La prima fase è quella di osservare le correlazioni tra le variabili in modo da eliminare gli indicatori “inutili” ai fini statistici (tecnica di riduzione dei dati), ossia quegli indicatori che, essendo tra loro estremamente correlati, rappresentano una ridondanza di informazione. A partire, quindi, dalle singole matrici suddivise per aree di interesse, si è proceduto ad una eliminazione di quegli indicatori che risultavano ridondanti ai fini dell’analisi, ossia che avevano una correlazione maggiore del valore fissato a 0.80. Rispetto a quanto detto la fase di scelta degli indicatori ha prodotto 7 nuove matrici con un numero ridotto di variabili, che hanno costituito poi la base per l’ACP. 2.2 L’analisi della struttura dei dati e la scelta degli indicatori finali2 Sulla base del sottoinsieme di indicatori così ottenuto, per ogni area di appartenenza definita precedentemente, l’ACP ha permesso di individuare in quale proporzione i fattori latenti, ovvero le variabili relative al bene comune originariamente raccolte, costituiscano la struttura di fondo delle relazioni osservate. L’idea di base è quella di ridurre il numero di variabili (o componenti) che descrivono il profilo delle unità e di riprodurre le caratteristiche di queste ultime attraverso un numero ristretto di nuove variabili, scomponendo il fenomeno secondo degli assi strutturali di importanza decrescente. Si ricerca quella riduzione ottimale che conservi al massimo la struttura relazionale esistente fra le unità nella matrice dei dati, in termini di distanze fra i punti corrispondenti. In tal modo, le componenti principali rappresentano delle variabili inosservabili che consentono di attribuire dei punteggi complessi alle unità. Tali punteggi sono espressi dalle coordinate dei punti unità sugli assi fattoriali, intesi come strutture latenti o “punti di vista” del fenomeno studiato (Bolasco, 1999, p. 79). Nello specifico, la fase di analisi della struttura dei dati ha riguardato, per ogni singola area di interesse: a. la lettura della matrice di correlazione tra le variabili (e l’eventuale eliminazione di nuove variabili estremamente correlate e portatrici di informazioni ridondanti); b. la scelta del numero di componenti principali, il calcolo delle comunalità3 per ogni indicatore e l’eliminazione di nuovi indicatori con valori estremamente bassi in termini di capacità di spiegare gli assi fattoriali scelti; 2 L’analisi dei dati attraverso l’ACP è stata effettuata con il software statistico Spad 5.5 4 c. l’analisi finale sui nuovi indicatori che meglio rappresentano la sotto-dimensione analizzata. Una volta definito il numero di indicatori per ogni sotto-dimensione analizzata, la costruzione delle graduatorie finali è avvenuta, quindi, a partire dai punteggi (scores) normalizzati delle diverse componenti, per le 20 regioni considerate. Al fine di non tralasciare nessuna quota di informazione, si è scelto di prendere tutti i punteggi e costruire l’indice sintetico per ciascuna unità utilizzando le coordinate che essa presenta su ciascuno degli assi principali, secondo la formula proposta da Rizzi4: K Di (sgn C i1 ) cir2 r 1 dove: - c ir2 rappresenta le coordinate delle componenti principali associate alla i-ma unità statistica; - (sgn Ci1 ) è il segno della prima componente principale relativo alla unità i-ma (assegnato all’indice che, essendo calcolato come somma dei quadrati, risulterebbe sempre positivo). Viene assunto il segno della prima componente principale in quanto essa, per definizione, è quella che spiega più variabilità rispetto a tutte le altri componenti. 3. La trasformazione dei dati e la costruzione delle graduatorie Una volta individuata la batteria di indicatori per le 7 aree di interesse, il passo successivo è stato quello di costruire le graduatorie finali trasformando i punteggi fattoriali in numeri indici più chiari e facilmente confrontabili. Tra i diversi metodi di sintesi degli indicatori semplici si è scelto di utilizzare la somma dei valori relativizzati con il campo di variazione. Per mezzo di tale trasformazione gli indicatori non solo vengono svincolati dall’unità di misura nella quale sono espressi ma anche dalla loro variabilità visto che vengono relativizzati con il campo di variazione. Ciò consentirà di far variare gli indicatori trasformati tutti entro la medesima scala da 0 a 1, facilitandone le valutazioni comparative. Tale trasformazione può essere espressa mediante la seguente formula: 3 La comunalità rappresenta la quota di varianza di ciascuna variabile (standardizzata) spiegata dalle componenti principali estratte, ossia la capacità di spiegazione delle componenti principali estratte per ciascuna delle variabili. 4 Rizzi A., Un metodo di graduazione di più unità statistiche, op. cit. 5 xij xij min xij max xij min xij La graduatoria finale è stata poi ricostruita attraverso una semplice somma dei punteggi ottenuti dalle regioni sulle singole sotto-dimensioni del macroconcetto “Bene Comune”. 6 Bibliografia AURELI CUTILLO E., 2002, Lezioni di Statistica Sociale, CISU, Roma BARCAROLI G., D’AURIZIO L., LUZI O., MANZARI A. e PALLARA A., 1999, Metodi e software per il controllo e la correzione dei dati, Quaderni di Ricerca, n. 1/1999, ISTAT. BOLASCO S., 1999, “Analisi multidimensionale dei dati”, Carocci Editore, Roma CASTELLANO, R.,1993, “Problemi di imputazione di mancate risposte parziali. Il caso simulato di una indagine economica”. Rocco Curto Editore, Napoli. DEL VECCHIO F., 1995, “Scale di misura e indicatori sociali”, Cacucci Editore, Bari LEBART L., MORINEAU A., PIRON M., 1995, “Statique exploratoire multidimensionnnelle”, Dunod, Paris. LITTLE R. J. A., RUBIN D. B., 1987, “Statistical analysis with missing data”, John Wiley & Sons, New York. RIZZI A., 1988, “Un metodo di graduazione di più unità statistiche”, Rivista di Statistica Applicata, vol. 21, n. 1. ZAMAGNI S., 2007, “L’economia del bene comune”, Città Nuova, Roma 7