La struttura della distribuzione dei redditi in Italia - UniFI

La struttura della distribuzione dei redditi in Italia:
un approccio non parametrico
Income Distribution in Italy: A Nonparametric Approach
Maria Grazia Pittau
Dipartimento di Contabilità Nazionale e Analisi dei Processi Sociali,
Università di Roma "La Sapienza", [email protected]
Roberto Zelli
Dipartimento di Contabilità Nazionale e Analisi dei Processi Sociali,
Università di Roma "La Sapienza", [email protected]
Abstract: this paper looks at the time evolution of the income distribution in Italy by
analysing the whole income distribution and some households attribute-conditioned
densities. The data consists of cross sectional samples from the population of Italian
households during the period 1987-1995. No assumption is considered on the form of
the underlying densities and non parametric estimation is firstly yielded. A formal test
whether the non parametrically estimated densities have a specific functional form is
then carried out. Empirical results show the presence of multimodality in total income
distribution and strong evidence of log-normality for subgroups of families.
Parole chiave: income distribution, kernel density estimation, log-normality test.
1. Introduzione
La ricerca di modelli teorici in grado di rappresentare adeguatamente le distribuzioni di
reddito osservate è tuttora un tema ampiamente dibattuto in letteratura data la sua
importanza sia a fini descrittivi e perequativi, sia per la formulazione di specifiche teorie
sui meccanismi distributivi. Ciò si concretizza, prevalentemente, nella "ricerca di
semplici funzioni matematiche che generino distribuzioni di frequenza ben adattabili
alle distribuzioni del reddito osservabili e che, per quanto possibile, abbiano un
fondamento logico" (Carbonaro, 1991). Nonostante i modelli proposti in letteratura
siano stati numerosissimi, non si è ancora raggiunto, tuttavia, un soddisfacente
compromesso tra grado di adattabilità delle funzioni teoriche proposte e relativa
semplicità di interpretazione ed utilizzazione dei parametri che definiscono tali funzioni.
Una possibile motivazione risiede nel fatto che le distribuzioni empiriche osservate sono
multimodali, mentre le funzioni matematiche che cercano di approssimarle sono
unimodali. Come recentemente sottolineato da Hildrenbrand (1998), la struttura
multimodale delle curve di distribuzione dei redditi delle famiglie si può intendere come
mistura di due o più funzioni di densità unimodali, ognuna caratterizzante specifici
sottogruppi della popolazione totale (funzioni condizionate). In questo contesto, lo
scopo del presente lavoro è fornire evidenza empirica delle caratteristiche della
distribuzione del reddito in Italia attraverso l'analisi dei microdati tratti dall'indagine sui
bilanci delle famiglie della Banca d'Italia. A tal fine, è stato seguito un approccio non
parametrico di stima delle funzioni di densità per individuare la struttura sottostante
della distribuzione del reddito e fornire indicazioni sul numero di mode presenti nella
distribuzione e quindi sul numero di sottogruppi di famiglie con distribuzione del
reddito unimodale. E’ stata quindi sottoposta a verifica l’ipotesi statistica che le
distribuzioni stimate, totali e condizionate, potessero essere ben approssimate da una
particolare funzione parametrica.
Il resto del lavoro è organizzato come segue: nella sezione successiva viene affrontato il
problema della stima delle funzioni di densità in ambito non parametrico e quello dei
test statistici per verificare l'ipotesi di corretta specificazione parametrica. Nella sezione
3 vengono discussi i dati utilizzati e presentati i principali risultati del lavoro.
2. Stima non parametrica e test di ipotesi sulle funzioni di densità
Date n osservazioni di una variabile casuale X, la cui funzione di densità è pari a f ( x ) ,
lo stimatore nucleo (kernel) di f ( x ) è:
1 n  x  Xi 
fh  x  
,
 K
n  h i 1  h 
dove la funzione nucleo, K, è una qualunque funzione che abbia le proprietà di una
funzione di densità e h è l'ampiezza della banda (bandwidth parameter). E' ormai
consolidata regola empirica il fatto che le stime kernel siano qualitativamente robuste al
variare della scelta della funzione nucleo ma non dell'ampiezza della banda. Pertanto, ad
un valore di h ottenuto minimizzando una funzione di rischio data dall’errore quadratico
medio integrato ottenuto con formula approssimata (AMISE), sono stati affiancati anche
valori alternativi che risultano più adeguati per la stima di distribuzioni empiriche
multimodali o fortemente asimmetriche. La verifica della presenza di m mode nella
funzione di densità stimata viene effettuata mediante un test bootstrap proposto in
Silvermann (1981) che si basa sul principio che il numero di mode presenti in una
densità stimata decresce al crescere dell’ampiezza della banda. Se la vera densità
presenta m+1 mode allora occorrerà una banda molto ampia per rendere la distribuzione
m-modale. Questo suggerisce che la statistica test utilizzata per la verifica dell’ipotesi
nulla di m-modalità sia data da ĥm che rappresenta il più piccolo valore di h che assicura
la m-modalità. Di conseguenza un valore un elevato valore di ĥm indica la presenza di
più di m mode e quindi il rifiuto dell’ipotesi nulla. Il test bootstrap per l’ipotesi di mmodalità
si
basa
sul
livello
di
significatività
osservato:
*
*
1
ˆ
ˆ
ASL boot  Prob F̂ hm x  hm x  dove x è il campione bootstrap ottenuto a partire
0
  

dalla densità F̂0 dei dati sotto l’ipotesi nulla. Se il livello di significatività osservato
risulta superiore al livello di significatività teorico l’ipotesi nulla è rifiutata.
L’ipotesi che la funzione di densità empirica possa essere approssimata da una
particolare forma funzionale viene invece verificata effettuando un confronto tra stima
1
Poichè i campioni bootstrap estratti da
F̂0 presentano una variabilità piu’ elevata rispetto alla varianza
del campione originario essi vengono opportunamenti corretti come suggerito da Efron e Tibshirani
(1993).
parametrica e stima non parametrica. La statistica test considerata si basa su una misura
di distanza tra le due densità:
2
1
M  nh min   f  xi ;    fh  xi 
  n
i 1
n
[1]
con distribuzione asintotica nota con parametri stimabili dalle corrispondenti funzioni
empiriche (Aït-Sahalia, 1996). L’ipotesi nulla di uguaglianza tra le due densità viene
 è significativamente elevato.
rifiutata quando il valore empirico della statistica M
Nella [1], f  xi ;   rappresenta la funzione di densità parametrica con vettore dei
parametri   e nh costante di normalizzazione. Per massimizzare la potenza del test,
si considera lo scenario più favorevole al modello parametrico, misurando la distanza tra
le due funzioni di densità con il miglior stimatore parametrico possibile, ossia:
2
1
 M  arg min   f  xi ;   fh  xi  .
n i 1

n
La procedura fin qui esposta può essere estesa a distribuzioni di densità condizionate a
particolari attributi della popolazione. Se le densità condizionate possono essere
approssimate da particolari forme funzionali note è possibile ipotizzare che la
distribuzione del reddito dell’intero campione sia il risultato di una mistura di due o più
distribuzioni appartenenti alla stessa famiglia parametrica ma con differenti parametri.
3. Un’analisi empirica sulla distribuzione del reddito in Italia
L’analisi empirica è stata condotta su microdati tratti dalle indagini campionarie Banca
d’Italia sui bilanci delle famiglie per il periodo 1987-1995. Per tale periodo di
osservazione si è in presenza di una sostanziale omogeneità delle definizioni e delle
classificazioni adottate dall’indagine. Il campione è formato da circa 8.000 famiglie per
ogni anno di osservazione e la variabile considerata è il reddito disponibile. Una
ispezione grafica delle stime non parametriche delle densità del reddito per l’intera
popolazione mostra quasi sempre la presenza di almeno due mode, risultato
ulteriormente confermato dal test bootstrap, come mostrato nella tabella 1. La presenza
di bimodalità nella distribuzione è maggiormente evidente per gli anni estremi della
serie, mentre per il 1991 si è portati ad accettare l’ipotesi di unimodalità.
Tabella 1: Test di Silverman sul numero di mode nella distribuzione del reddito
disponibile delle famiglie: valori critici della banda e relativi livelli di significatività.
anno:
mode
banda
p-val.
1
0,18
0.00
1987
2
0.09
0.62
3
0.05
0.00
1
0.18
0.01
1989
2
0.10
0.32
3
0.04
0.00
1
0.18
0.14
1991
2
0.09
0.03
3
0.04
0.00
1
0.18
0.01
1993
2
0.10
0.52
3
0.08
0.00
1
0.15
0.00
1995
2
0.09
0.76
3
0.03
0.00
La struttura multimodale di queste densità può essere spiegata come il risultato di una
mistura di densità unimodali caratterizzanti alcune particolari sottopopolazioni. Questo
risultato, intuibile con una ispezione grafica, è confermato dal fatto che l’ipotesi di
unimodalità e, specificamente, di log-normalità, (funzione largamente utilizzata per
rappresentare la distribuzione dei redditi) non può essere sempre rifiutata quando si
considerano le distribuzioni condizionate a particolari attributi delle famiglie. In
particolare, in base ai risultati ottenuti in questo studio, è possibile affermare che la
condizione lavorativa del capofamiglia è l’attributo che maggiormente contribuisce alla
spiegazione della multimodalità nella distribuzione complessiva. La procedura è stata
effettuata separatamente per ciascun anno di osservazione. Al fine di illustrare l’analisi
condotta, si riportano in tabella 2 i valori del test per la verifica di log-normalità e il
numero di mode derivato dal test di multimodalità relativi al 1995 sia per la
distribuzione del reddito complessiva sia per le distribuzioni condizionate ottenute
stratificando il campione di famiglie in base alla condizione lavorativa del
capofamiglia2.
Tabella 2: Parametri caratteristici e valori del test per l’accettazione dell’ipotesi di lognormalità (totale famiglie e sottopopolazioni ottenute in base alla condizione lavorativa
del capofamiglia) – Anno 1995
numerosità
media (mln)
s.q.m. (mln)
z M
mode
Note: La statistica
Totale
famiglie
8.122
43.860
34.708
7,552*
2
z M
Pensionati
3.392
37.125
28.602
0,852
Non
Pensionati
4.730
48.690
37.666
1,432
Occupati
4.147
51.506
38.456
0,625
Occupati
dipendenti
2.995
49.705
27.716
0,845
Occupati
indipendenti
1.152
56.187
57.432
0,544
1
1/2
1
1
1
si distribuisce secondo una normale standardizzata. *indica significatività al 5%.
Sul piano interpretativo i risultati relativi al 1995 mostrano come la popolazione totale
delle famiglie possa considerarsi come una mistura di due sottopopolazioni unimodali e
log-normali: quella delle famiglie con capofamiglia pensionato (sottopopolazione con
moda più bassa) e le altre famiglie, con moda più elevata. Risultati solo parzialmente
simili sono stati ottenuti per gli altri anni di osservazione, dal momento che la
distribuzione del reddito delle famiglie con capofamiglia pensionato risulta stabilmente
una log-normale, mentre si modifica nel tempo la distribuzione relativa ai non
pensionati.
Riferimenti bibliografici
Aït-Sahalia Y. (1996) Testing Continuous-Time Models of the Spot Interest Rate, The
Review of Financial Studies, 2, 385-426.
Carbonaro G. (1991) Distribuzione quantitativa del reddito, in: Statistica Economica, G.
Marbach (Ed.), UTET, 205-228.
Efron B., Tibshirani R. J. (1993) An Introduction to the Bootstrap, Monographs on
Statistics and Applied Probability, 57, Chapman and Hall, New York.
Hildenbrand W. (1998) How relevant are specifications of behavioural relations on the
micro-level for modelling the time path of population aggregates?, European
Economic Review, 42, 1-21.
Silverman B. W. (1981) Using kernel density estimates to investigate multimodality,
Journal of the Royal Statistical Society B, 43, 97-99.
2
I risultati relativi agli altri anni non sono stati riportati per brevità di esposizione.