La struttura della distribuzione dei redditi in Italia: un approccio non parametrico Income Distribution in Italy: A Nonparametric Approach Maria Grazia Pittau Dipartimento di Contabilità Nazionale e Analisi dei Processi Sociali, Università di Roma "La Sapienza", [email protected] Roberto Zelli Dipartimento di Contabilità Nazionale e Analisi dei Processi Sociali, Università di Roma "La Sapienza", [email protected] Abstract: this paper looks at the time evolution of the income distribution in Italy by analysing the whole income distribution and some households attribute-conditioned densities. The data consists of cross sectional samples from the population of Italian households during the period 1987-1995. No assumption is considered on the form of the underlying densities and non parametric estimation is firstly yielded. A formal test whether the non parametrically estimated densities have a specific functional form is then carried out. Empirical results show the presence of multimodality in total income distribution and strong evidence of log-normality for subgroups of families. Parole chiave: income distribution, kernel density estimation, log-normality test. 1. Introduzione La ricerca di modelli teorici in grado di rappresentare adeguatamente le distribuzioni di reddito osservate è tuttora un tema ampiamente dibattuto in letteratura data la sua importanza sia a fini descrittivi e perequativi, sia per la formulazione di specifiche teorie sui meccanismi distributivi. Ciò si concretizza, prevalentemente, nella "ricerca di semplici funzioni matematiche che generino distribuzioni di frequenza ben adattabili alle distribuzioni del reddito osservabili e che, per quanto possibile, abbiano un fondamento logico" (Carbonaro, 1991). Nonostante i modelli proposti in letteratura siano stati numerosissimi, non si è ancora raggiunto, tuttavia, un soddisfacente compromesso tra grado di adattabilità delle funzioni teoriche proposte e relativa semplicità di interpretazione ed utilizzazione dei parametri che definiscono tali funzioni. Una possibile motivazione risiede nel fatto che le distribuzioni empiriche osservate sono multimodali, mentre le funzioni matematiche che cercano di approssimarle sono unimodali. Come recentemente sottolineato da Hildrenbrand (1998), la struttura multimodale delle curve di distribuzione dei redditi delle famiglie si può intendere come mistura di due o più funzioni di densità unimodali, ognuna caratterizzante specifici sottogruppi della popolazione totale (funzioni condizionate). In questo contesto, lo scopo del presente lavoro è fornire evidenza empirica delle caratteristiche della distribuzione del reddito in Italia attraverso l'analisi dei microdati tratti dall'indagine sui bilanci delle famiglie della Banca d'Italia. A tal fine, è stato seguito un approccio non parametrico di stima delle funzioni di densità per individuare la struttura sottostante della distribuzione del reddito e fornire indicazioni sul numero di mode presenti nella distribuzione e quindi sul numero di sottogruppi di famiglie con distribuzione del reddito unimodale. E’ stata quindi sottoposta a verifica l’ipotesi statistica che le distribuzioni stimate, totali e condizionate, potessero essere ben approssimate da una particolare funzione parametrica. Il resto del lavoro è organizzato come segue: nella sezione successiva viene affrontato il problema della stima delle funzioni di densità in ambito non parametrico e quello dei test statistici per verificare l'ipotesi di corretta specificazione parametrica. Nella sezione 3 vengono discussi i dati utilizzati e presentati i principali risultati del lavoro. 2. Stima non parametrica e test di ipotesi sulle funzioni di densità Date n osservazioni di una variabile casuale X, la cui funzione di densità è pari a f ( x ) , lo stimatore nucleo (kernel) di f ( x ) è: 1 n x Xi fh x , K n h i 1 h dove la funzione nucleo, K, è una qualunque funzione che abbia le proprietà di una funzione di densità e h è l'ampiezza della banda (bandwidth parameter). E' ormai consolidata regola empirica il fatto che le stime kernel siano qualitativamente robuste al variare della scelta della funzione nucleo ma non dell'ampiezza della banda. Pertanto, ad un valore di h ottenuto minimizzando una funzione di rischio data dall’errore quadratico medio integrato ottenuto con formula approssimata (AMISE), sono stati affiancati anche valori alternativi che risultano più adeguati per la stima di distribuzioni empiriche multimodali o fortemente asimmetriche. La verifica della presenza di m mode nella funzione di densità stimata viene effettuata mediante un test bootstrap proposto in Silvermann (1981) che si basa sul principio che il numero di mode presenti in una densità stimata decresce al crescere dell’ampiezza della banda. Se la vera densità presenta m+1 mode allora occorrerà una banda molto ampia per rendere la distribuzione m-modale. Questo suggerisce che la statistica test utilizzata per la verifica dell’ipotesi nulla di m-modalità sia data da ĥm che rappresenta il più piccolo valore di h che assicura la m-modalità. Di conseguenza un valore un elevato valore di ĥm indica la presenza di più di m mode e quindi il rifiuto dell’ipotesi nulla. Il test bootstrap per l’ipotesi di mmodalità si basa sul livello di significatività osservato: * * 1 ˆ ˆ ASL boot Prob F̂ hm x hm x dove x è il campione bootstrap ottenuto a partire 0 dalla densità F̂0 dei dati sotto l’ipotesi nulla. Se il livello di significatività osservato risulta superiore al livello di significatività teorico l’ipotesi nulla è rifiutata. L’ipotesi che la funzione di densità empirica possa essere approssimata da una particolare forma funzionale viene invece verificata effettuando un confronto tra stima 1 Poichè i campioni bootstrap estratti da F̂0 presentano una variabilità piu’ elevata rispetto alla varianza del campione originario essi vengono opportunamenti corretti come suggerito da Efron e Tibshirani (1993). parametrica e stima non parametrica. La statistica test considerata si basa su una misura di distanza tra le due densità: 2 1 M nh min f xi ; fh xi n i 1 n [1] con distribuzione asintotica nota con parametri stimabili dalle corrispondenti funzioni empiriche (Aït-Sahalia, 1996). L’ipotesi nulla di uguaglianza tra le due densità viene è significativamente elevato. rifiutata quando il valore empirico della statistica M Nella [1], f xi ; rappresenta la funzione di densità parametrica con vettore dei parametri e nh costante di normalizzazione. Per massimizzare la potenza del test, si considera lo scenario più favorevole al modello parametrico, misurando la distanza tra le due funzioni di densità con il miglior stimatore parametrico possibile, ossia: 2 1 M arg min f xi ; fh xi . n i 1 n La procedura fin qui esposta può essere estesa a distribuzioni di densità condizionate a particolari attributi della popolazione. Se le densità condizionate possono essere approssimate da particolari forme funzionali note è possibile ipotizzare che la distribuzione del reddito dell’intero campione sia il risultato di una mistura di due o più distribuzioni appartenenti alla stessa famiglia parametrica ma con differenti parametri. 3. Un’analisi empirica sulla distribuzione del reddito in Italia L’analisi empirica è stata condotta su microdati tratti dalle indagini campionarie Banca d’Italia sui bilanci delle famiglie per il periodo 1987-1995. Per tale periodo di osservazione si è in presenza di una sostanziale omogeneità delle definizioni e delle classificazioni adottate dall’indagine. Il campione è formato da circa 8.000 famiglie per ogni anno di osservazione e la variabile considerata è il reddito disponibile. Una ispezione grafica delle stime non parametriche delle densità del reddito per l’intera popolazione mostra quasi sempre la presenza di almeno due mode, risultato ulteriormente confermato dal test bootstrap, come mostrato nella tabella 1. La presenza di bimodalità nella distribuzione è maggiormente evidente per gli anni estremi della serie, mentre per il 1991 si è portati ad accettare l’ipotesi di unimodalità. Tabella 1: Test di Silverman sul numero di mode nella distribuzione del reddito disponibile delle famiglie: valori critici della banda e relativi livelli di significatività. anno: mode banda p-val. 1 0,18 0.00 1987 2 0.09 0.62 3 0.05 0.00 1 0.18 0.01 1989 2 0.10 0.32 3 0.04 0.00 1 0.18 0.14 1991 2 0.09 0.03 3 0.04 0.00 1 0.18 0.01 1993 2 0.10 0.52 3 0.08 0.00 1 0.15 0.00 1995 2 0.09 0.76 3 0.03 0.00 La struttura multimodale di queste densità può essere spiegata come il risultato di una mistura di densità unimodali caratterizzanti alcune particolari sottopopolazioni. Questo risultato, intuibile con una ispezione grafica, è confermato dal fatto che l’ipotesi di unimodalità e, specificamente, di log-normalità, (funzione largamente utilizzata per rappresentare la distribuzione dei redditi) non può essere sempre rifiutata quando si considerano le distribuzioni condizionate a particolari attributi delle famiglie. In particolare, in base ai risultati ottenuti in questo studio, è possibile affermare che la condizione lavorativa del capofamiglia è l’attributo che maggiormente contribuisce alla spiegazione della multimodalità nella distribuzione complessiva. La procedura è stata effettuata separatamente per ciascun anno di osservazione. Al fine di illustrare l’analisi condotta, si riportano in tabella 2 i valori del test per la verifica di log-normalità e il numero di mode derivato dal test di multimodalità relativi al 1995 sia per la distribuzione del reddito complessiva sia per le distribuzioni condizionate ottenute stratificando il campione di famiglie in base alla condizione lavorativa del capofamiglia2. Tabella 2: Parametri caratteristici e valori del test per l’accettazione dell’ipotesi di lognormalità (totale famiglie e sottopopolazioni ottenute in base alla condizione lavorativa del capofamiglia) – Anno 1995 numerosità media (mln) s.q.m. (mln) z M mode Note: La statistica Totale famiglie 8.122 43.860 34.708 7,552* 2 z M Pensionati 3.392 37.125 28.602 0,852 Non Pensionati 4.730 48.690 37.666 1,432 Occupati 4.147 51.506 38.456 0,625 Occupati dipendenti 2.995 49.705 27.716 0,845 Occupati indipendenti 1.152 56.187 57.432 0,544 1 1/2 1 1 1 si distribuisce secondo una normale standardizzata. *indica significatività al 5%. Sul piano interpretativo i risultati relativi al 1995 mostrano come la popolazione totale delle famiglie possa considerarsi come una mistura di due sottopopolazioni unimodali e log-normali: quella delle famiglie con capofamiglia pensionato (sottopopolazione con moda più bassa) e le altre famiglie, con moda più elevata. Risultati solo parzialmente simili sono stati ottenuti per gli altri anni di osservazione, dal momento che la distribuzione del reddito delle famiglie con capofamiglia pensionato risulta stabilmente una log-normale, mentre si modifica nel tempo la distribuzione relativa ai non pensionati. Riferimenti bibliografici Aït-Sahalia Y. (1996) Testing Continuous-Time Models of the Spot Interest Rate, The Review of Financial Studies, 2, 385-426. Carbonaro G. (1991) Distribuzione quantitativa del reddito, in: Statistica Economica, G. Marbach (Ed.), UTET, 205-228. Efron B., Tibshirani R. J. (1993) An Introduction to the Bootstrap, Monographs on Statistics and Applied Probability, 57, Chapman and Hall, New York. Hildenbrand W. (1998) How relevant are specifications of behavioural relations on the micro-level for modelling the time path of population aggregates?, European Economic Review, 42, 1-21. Silverman B. W. (1981) Using kernel density estimates to investigate multimodality, Journal of the Royal Statistical Society B, 43, 97-99. 2 I risultati relativi agli altri anni non sono stati riportati per brevità di esposizione.