m - dipartimento studi aziendali e quantitativi

ISTITUTO DI STATISTICA E MATEMATICA
FACOLTÀ DI ECONOMIA
UNIVERSITÀ DEGLI STUDI DI NAPOLI
“PARTHENOPE”
(GIÀISTITUTOUNIVERSITARIONAVALE)
SCRITTI DI
STATISTICA ECONOMICA
NAPOLI
9
QUADERNI
DI
DISCUSSIONE
21
a cura di
Claudio Quintano
LA VALUTAZIONE DELLA
RICOSTRUZIONE DI DATI
MANCANTI NELLA
VARIABILE REDDITO: UN
CONFRONTO TRA
IMPUTAZIONE MULTIPLA E
DA DONATORE
CLAUDIO QUINTANO
ROSALIA CASTELLANO
ANDREA REGOLI
ESTRATTO
ISTITUTO DI STATISTICA E MATEMATICA
UNIVERSITA’ DEGLI STUDI DI NAPOLI
“PARTHENOPE”
(GIÀ ISTITUTO UNIVERSITARIO NAVALE)
2002
403
LA VALUTAZIONE DELLA RICOSTRUZIONE DI DATI
MANCANTI NELLA VARIABILE REDDITO: UN CONFRONTO
TRA IMPUTAZIONE MULTIPLA E DA DONATORE (*)
Claudio Quintano
Rosalia Castellano
(**)
Andrea Regoli
1. INTRODUZIONE
L’obiettivo di questo lavoro è la valutazione della bontà del processo di
ricostruzione della variabile reddito familiare, soggetta a mancate risposte
parziali.
A tale scopo si introducono due metodi di ricostruzione, rispettivamente
l’imputazione da donatore e l’imputazione multipla, valutandone la performance
sia a livello di microunità sia in termini di statistiche dell’intera distribuzione.
La disponibilità di un patrimonio informativo ampio e variegato, quale
quello offerto dall’Indagine sui bilanci delle famiglie italiane condotta dalla
Banca d’Italia, permette di costruire un modello di non risposta che fa dipendere
la probabilità di rispondere al reddito dal livello della spesa per consumi: in
(*)
Lavoro svolto nell’ambito della ricerca M.U.R.S.T. 60%, anno 1997-98, “Censimento intermedio nel
contesto della qualità dei dati delle rilevazioni di flusso”, titolare prof.ssa Rosalia Castellano.
La stampa degli estratti del presente lavoro è finanziata con i fondi della ricerca M.U.R.S.T. 60%,
anno 1997-98, “Il censimento intermedio: indagine Long Form”, titolare prof. Claudio Quintano.
Il lavoro è frutto dell’impegno congiunto degli Autori. Tuttavia, i parr. 1. e 12. sono da attribuire al
prof. Claudio Quintano; i parr. 2., 3., 6., 8. e 11. alla prof.ssa Rosalia Castellano; i parr. 4., 5., 7., 9.
e 10. al dott. Andrea Regoli.
(**)
Claudio Quintano è Professore Ordinario di Statistica economica; Rosalia Castellano è Professore
Straordinario di Rilevazione e controllo di dati economici; Andrea Regoli è Ricercatore di Statistica
economica, presso l’istituto di Statistica e Matematica, Facoltà di Economia, Università degli Studi
di Napoli “Parthenope”.
Quintano C. (a cura di) (2002), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e
Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
404 C. Quintano, R. Castellano e A. Regoli.
questo modo, si genera artificialmente nella variabile reddito una quota di
missing data pari al 20%.
2. I DATI MANCANTI E GLI EFFETTI SULLE RILEVAZIONI ECONOMICHE
Il problema della stima dei dati non rilevati, come ben noto dalla
letteratura, è una questione cruciale sia nella tipologia di mancata risposta
totale sia nella tipologia di mancata risposta parziale. Infatti, si tratta di
situazioni che, nello svolgimento di una indagine concreta, insieme ad altre
tipologie di errori, vanno ad attaccare i requisiti di qualità che, auspicabilmente
1
dovrebbe rispettare l’informazione statistica prodotta . In particolare, ciò si
riflette in una distorsione delle stime dei parametri che si ottengono dai dati
incompleti.
In questa sede si affronta il problema delle mancate risposte parziali in una
situazione particolarmente delicata, ossia finalizzando la procedura di
ricostruzione dei dati mancanti al caso di una variabile reddituale in una
2
indagine economica .
Premessa fondamentale per poter costruire e monitorare un itinerario
“ragionato” di ricostruzione dei dati mancanti dovrebbe essere la conoscenza
della distribuzione dei non rispondenti e del meccanismo generatore delle
mancate risposte. Purtroppo, è ben noto che quando l’analista interviene con le
procedure di correzione e controllo dei dati può usufruire di alcune informazioni
(spesso piuttosto esigue) ma non ha la disponibilità di elementi certi che
governino il comportamento effettivo della non risposta nei suoi dati. È, dunque,
1
2
Si ricorda che l’EUROSTAT ha diffuso linee guida sulla definizione di qualità e sui criteri di
riferimento che dovrebbero essere rispettati dalle statistiche: rilevanza, accuratezza, tempestività,
facilità di accesso, comparabilità, coerenza e completezza (Eurostat, 1998; Depoutot, 1999).
E’ nota la difficoltà di rilevare variabili collegate ad informazioni di natura economico-finanziaria,
identificabili come risposte a quesiti “sensibili”. Pertanto la cattura di queste tipologie di dati è
particolarmente soggetta sia al fenomeno dell’under-reporting (Cannari e D’lessio, 1992) sia a
quello della mancata risposta. Come esempi di applicazione e valutazione delle procedure di
imputazione multipla a dati economico-finanziari delle famiglie si rinvia a Kennickell (1998) ed a
Raghunathan e Paulin (1998).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 405
evidente che una “gestione robusta” di una procedura di stima dei dati mancanti
dipende non soltanto dal metodo di imputazione scelto (quest’ultimo aderente
alla tipologia di dati ed alle caratteristiche della rilevazione) ma anche dalla
“adattabilità” ai dati stessi delle ipotesi di “ignorabilità” del meccanismo di non
risposta, introdotte nella maggior parte dei casi per rientrare nei criteri di uso
delle procedure standard di imputazione.
Per “ragionare” intorno a questi due poli della adattabilità e della
ignorabilità, si può osservare come nella realtà della gestione di una indagine
statistica, ogni procedura di trattamento delle mancate risposte parziali fa leva
su due aspetti importanti.
Il primo è costituito dalla massa informativa da utilizzare quale input delle
procedure. Tali informazioni, la cui disponibilità esercita condizionamenti più o
meno influenti sulla scelta dei metodi ed il grado di complessità, provengono o
dalla stessa matrice dei dati dei rispondenti, che contiene le covariate
(auspicabilmente senza missing), o da occasioni di indagini precedenti, nei
disegni di tipo panel.
Il secondo è dato dalle ipotesi sul modello di non risposta teorico che
impone i condizionamenti più forti e significativi sulla scelta dei metodi. Infatti, le
connessioni tra ipotesi sul modello teorico di non risposta e metodi da
implementare sono cruciali e costituiscono la cornice al cui interno è proliferata
la letteratura prevalente.
La ricerca del modello di non risposta è una operazione molto complessa
in quanto deve ipotizzarsi che esso sia più aderente possibile ad una realtà
sconosciuta; in assenza cioè di informazioni empiriche “certe” derivanti da
indagini ad hoc e che siano facilmente trasferibili.
Infatti, è ben nota la difficoltà di conoscere, e quindi controllare, i
comportamenti di rifiuto, con la conseguente scarsa aderenza dei dati incogniti
ad ipotesi sul comportamento di coloro che dovrebbero partecipare alle
indagini. A causa di questo strettissimo intreccio le ipotesi sottostanti
influenzano la buona riuscita dell’operazione di reintegrazione dei dati mancanti
effettuata con opportune tecniche di imputazione.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
406 C. Quintano, R. Castellano e A. Regoli.
La letteratura sull’integrazione dei dati mancanti, pur se meno ricca
rispetto a quella di altri comparti consolidati della statistica metodologica ed
applicata, è comunque vasta di soluzioni teoriche del problema. Anzi, in effetti,
è possibile affermare che gli sforzi in quest’area specialistica dovrebbero
concentrarsi da una parte sul collegamento tra modello di non risposta e metodi
da applicare, dall’altra sulla costruzione di algoritmi che consentano
l’implementazione e la sperimentazione di metodi più specifici, contemperando
anche la gestione di modelli non ignorabili di non risposta (Beaumont, 1999;
2000).
Il ricercatore che deve validare una procedura di imputazione e gli effetti
da essa provocati in termini di microdati e di statistiche prodotte, ha di fronte a
sé due strade da seguire: la prima è quella obbligata per gli istituti di rilevazione
che alla fine della fase di cattura dei dati, si ritrovano con un insieme di valori
non completamente corrispondente alle premesse teoriche e devono intervenire
nel miglior modo possibile e pratico per reintegrarlo.
La seconda è quella dello studioso (non produttore dei dati) che può
sperimentare, tenendo sotto controllo l’intero processo, una procedura di
imputazione, grazie alla riproduzione di una matrice di dati “integra”, generata
artificialmente o comunque presa a prestito dai risultati di rilevazioni disponibili
e da cui sono state eliminate le incongruenze per farla assurgere al ruolo di
3
insieme vero di dati .
Quest’ultima strategia è quella adottata in questo lavoro e rientra nelle
tecniche basate sulla simulazione. Il percorso, dunque, si serve della
simulazione di un file di dati osservati mediante l’introduzione artificiale di dati
mancanti in un file di dati “veri” (reale o simulato a sua volta) al fine di
conoscere:
•
la natura del meccanismo di generazione delle mancate risposte parziali
(costruito ad hoc);
3
Per altri lavori di studiosi italiani che hanno adottato l’approccio della “perturbazione” di una matrice
dei dati “integra” si rinvia, tra gli altri, a Castellano (1993), Quintano, Castellano e Romano (1996),
Luzi (1998).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 407
•
per ogni missing artificiale, il corrispondente valore “vero”;
•
i valori “veri” dei parametri delle distribuzioni dei dati;
•
l’entità e la tipologia delle relazioni tra i dati.
L’organizzazione di un percorso del tipo di quello appena descritto
favorisce il processo di valutazione finale della procedura.
Nell’approccio qui adottato si fa, per l’appunto, riferimento ad una matrice
di dati realmente esistente, in quanto rappresenta il risultato dell’Indagine sui
bilanci delle famiglie italiane, periodicamente condotta dalla Banca d’Italia, con
la finalità di ottenere informazioni dettagliate ed accurate sulla situazione
economico-finanziaria delle famiglie italiane nei vari anni di riferimento. In tal
modo si dispone di una base informativa molto ricca a cui fare riferimento, dato
che le tecniche di ricostruzione che verranno applicate hanno bisogno di un
quadro sufficientemente grande ed articolato di informazioni socioeconomiche
ausiliarie che, per l'appunto, la ricchezza dei contenuti della Rilevazione, curata
dal Servizio Studi dell’Istituto di emissione, può assicurare.
Si ricorda, infatti, che la rilevazione sui bilanci delle famiglie italiane è stata
ristrutturata a partire dal 1987, dal punto di vista delle innovazioni
contenutistiche del questionario nonché dell’impianto metodologico, specie il
disegno d’indagine campionaria (Banca d’Italia, 1991; 1993; 1995; 1997; 2000).
La numerosità campionaria, nel 1987, è di 8.027 famiglie intervistate, che
costituiscono un insieme di unità indipendenti nel tempo. Ma una novità
interessante introdotta a partire dal 1989 nel disegno di indagine è data dalla
presenza nel campione di una quota di unità già intervistate nella precedente
occasione (trasformando in tal modo la rilevazione in una tipologia di disegno
panel, utile per analizzare l’evoluzione dei fenomeni economici considerati su
uno stesso insieme di unità nel tempo).
I dati qui utilizzati si riferiscono alla rilevazione dei bilanci delle famiglie nel
1998 (operativamente realizzata con le interviste tra febbraio e luglio 1999); si
tratta di un campione di 7.147 famiglie, in cui la componente panel è pari al
37,3% corrispondente a 2.669 famiglie (Banca d’Italia, 2000; pp. 27-28).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
408 C. Quintano, R. Castellano e A. Regoli.
Per quanto concerne i contenuti, in sintesi, tramite essa è possibile la
comparazione dei redditi familiari per variabili strutturali socio-demografiche,
analisi specifiche di contenuto e di concentrazione della ricchezza reale, la
costruzione di modelli di rischio delle famiglie usando come punto di partenza i
dati sulla tipologia e sulla diffusione di attività finanziarie, la valutazione delle
scelte delle famiglie tra i vari strumenti di pagamento, indicatori abitativi delle
4
famiglie stesse .
3. ELEMENTI INFORMATIVI DI NATURA SOCIO-ECONOMICA INTERNI
ALLA RILEVAZIONE STESSA
Sulla base dei dati dell’Indagine sui bilanci delle famiglie italiane del 1998
(Banca d’Italia, 2000) è stata condotta una simulazione per generare
artificialmente mancate risposte parziali per la variabile reddito familiare annuo.
In quest’ottica, la matrice dei dati diffusi è da considerare come la matrice dei
dati “veri”, vista dal lato dell’utilizzatore delle informazioni, mentre quella dei dati
comprendenti le mancate risposte simulate è da considerare la matrice dei dati
“osservati”.
La generazione dei dati mancanti è avvenuta in base ad un meccanismo,
ignorabile secondo la terminologia introdotta in letteratura da Little e Rubin
(1987). Una volta ricostruita la matrice dei dati completi attraverso le principali
procedure di imputazione, l’obiettivo è di verificare e confrontare l’accuratezza
di tali metodi.
Il campione della Banca d’Italia per il 1998 è costituito da 7.147 famiglie. Il
reddito familiare annuo è definito al netto delle imposte sul reddito e dei
contributi previdenziali e assistenziali ed è ottenuto aggregando le voci relative
alle componenti di reddito di tutti i membri della famiglia. Dall’analisi sono state
escluse quelle unità che presentano valori del reddito familiare non positivi; la
numerosità di riferimento è quindi scesa a 7.112 famiglie.
4
Per uno studio critico del contenuto si rinvia al Bollettino Statistico stesso in cui sono pubblicati i più
importanti risultati, nei vari anni (Banca d’Italia, 1991, 1993, 1995, 1997, 2000).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 409
Le informazioni utilizzate per la definizione del meccanismo di generazione
delle mancate risposte e per il metodo di imputazione sono tutte incentrate sulla
caratteristica trasversale, per cui si fa uso del singolo campione totale
indipendente relativo all’ultimo anno di indagine disponibile (1998); non si è al
momento
preso
in
considerazione
lo
sfruttamento
della
caratteristica
longitudinale ottenibile dalla componente panel del campione.
Il tasso di mancata risposta introdotto è pari al 20%; tale scelta, in base
anche ad altre sperimentazioni condotte su indagini dello stesso tipo, è stata
guidata dalla considerazione che una quota inferiore potrebbe sminuire
l’interesse per l’integrazione dei dati mancanti, così come una quota troppo
elevata potrebbe rappresentare il superamento di una soglia dimensionale
ragionevolmente
accettabile
per
“dare
credito”
ad
una
procedura
di
ricostruzione che sarebbe basata su un sottinsieme di dati disponibili troppo
esiguo.
Una premessa essenziale richiede l’analisi del potenziale patrimonio
informativo di una serie di variabili di supporto ricavate dall’indagine in
questione. Esse offrono un set di indicazioni di natura socio-demografica ed
economica, alcune attribuibili al capofamiglia (sesso, età, titolo di studio, stato
civile, condizione professionale propria e del coniuge, settore di attività), altre
all’intero nucleo familiare. Queste ultime possono essere classificate in
indicatori della composizione e localizzazione familiare (numero di componenti,
numero di percettori, ripartizione territoriale), della condizione economicofinanziaria (reddito, consumi, ricchezza, possesso di attività finanziarie) e della
condizione abitativa (titolo di godimento, zona di ubicazione, categoria e
superficie dell’abitazione, possesso di altri immobili).
Le specifiche delle variabili utilizzate sono riportate nello schema di Tab.
3.1.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
410 C. Quintano, R. Castellano e A. Regoli.
Tab. 3.1. – Elementi informativi per l’analisi: lista delle variabili, con codice delle modalità e
descrizione.
VARIABILE
Indicatori socio-demografici
del capofamiglia
Sesso
Età in anni
Titolo di studio
Stato civile
Qualifica professionale
Settore di attività
Qualifica
coniuge
professionale
del
Indicatori di composizione e
localizzazione della famiglia
Numero di percettori
Numero di componenti
Ripartizione territoriale
Indicatori economicofinanziari della famiglia
Reddito familiare
(*)
Ricchezza netta familiare
Consumo familiare
Possesso di depositi bancari
CODICE MODALITÀ
1
2
DESCRIZIONE
maschio
femmina
1
2
3
4
5
1
2
3
4
1
2
3
4
5
6
7
1
2
3
4
5
0
1
2
3
4
5
6
7
senza titolo
licenza elementare
media inferiore
media superiore
laurea e specializzazione post-laurea
coniugato/a
celibe/nubile
separato/divorziato
vedovo/a
operaio
impiegato
dirigente, direttivo
imprenditore, libero professionista
altro autonomo
pensionato
altro non occupato
agricoltura
industria
P.A., servizi pubblici
altri settori
nessun settore
il capofamiglia non ha coniuge
operaio
impiegato
dirigente, direttivo
imprenditore, libero professionista
altro autonomo
pensionato
altro non occupato
1
2
Nord-Centro
Sud e Isole
1
2
si
no
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 411
Segue Tab. 3.1.
Possesso di titoli di stato
Possesso di obbligazioni e
quote di fondi comuni
Possesso
di
azioni
e
partecipazioni
Indicatori
abitativi
della
famiglia
Titolo di godimento
dell’abitazione
Caratteristiche della zona
Tipologia dell’abitazione
Superficie dell’abitazione
Possesso di altri immobili
1
2
1
2
1
2
si
no
si
no
si
no
1
2
3
4
1
2
3
1
2
di proprietà
in affitto
a riscatto
usufrutto o uso gratuito
zona di pregio
zona di degrado
zona intermedia
di lusso o signorile
altro
1
2
si
no
(*)
Nella definizione usata nell’Indagine della Banca d’Italia si considera la ricchezza reale netta
familiare, cioè la differenza tra le attività reali (ad esempio, per il 1998, esse sono risultate costituite
per l’86% da immobili, per il 11,7% da partecipazioni in aziende e per il restante 2,3% da oggetti di
valore) e le passività contratte per l’acquisto di beni reali.
Dalle statistiche descrittive della variabile reddito familiare annuo, rilevato
su 7.112 unità nel 1998, si evidenziano alcune caratteristiche riportate nella
Tab. 3.2.
5
Il reddito medio annuo è pari a 48,5 milioni ed i valori di posizione (i
quartili)
confermano
la
tipica
forma
asimmetrica
della
distribuzione,
caratterizzata da un maggiore addensamento su valori medio-bassi di reddito.
L’indice di concentrazione di Gini è pari a 0,37.
Il 10% delle famiglie con reddito più basso detiene soltanto il 2,1% del
reddito complessivo ed ha un reddito medio di 10,3 milioni, mentre al 10% delle
famiglie con reddito più alto corrisponde una quota di reddito pari al 27,4% ed
un reddito medio di 133 milioni (Tab. 3.3.).
5
Si noti che i risultati da noi ottenuti, in merito alle costanti caratteristiche della distribuzione del
reddito, sintetizzati nelle Tab. 3.2. e 3.3., differiscono, pur se in maniera impercettibile, da quelli
pubblicati nel Supplemento al Bollettino Statistico “I bilanci delle famiglie italiane nell’anno 1998”
della Banca d’Italia in quanto sono state escluse le famiglie con reddito non positivo.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
412 C. Quintano, R. Castellano e A. Regoli.
Tab. 3.2. – Statistiche descrittive della variabile reddito familiare annuo. Distribuzione
originaria, senza missing (n = 7.112).
(migliaia di lire)
48.468
41.758
24.527
39.380
61.290
6,83
106,02
0,3724
Media
Scarto quadratico medio
Primo quartile
Mediana
Terzo quartile
Asimmetria
Curtosi
Concentrazione
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
Tab. 3.3. – Redditi medi e quote di reddito della variabile reddito familiare annuo per decimi
di famiglie. Distribuzione originaria, senza missing (n = 7.112).
Decimi di famiglie
Fino al 1° decile
Dal 1° al 2° decile
Dal 2° al 3° decile
Dal 3° al 4° decile
Dal 4° al 5° decile
Dal 5° al 6° decile
Dal 6° al 7° decile
Dal 7° all’8° decile
Dall’8° al 9° decile
Oltre il 9° decile
Valore di ripartizione
(migliaia di lire)
15.000
21.592
27.252
33.140
39.380
47.200
55.984
67.537
86.851
-
Quota di reddito
(valori percentuali)
2,1
3,9
5,0
6,2
7,5
8,9
10,6
12,7
15,7
27,4
Reddito medio
(migliaia di lire)
10.318
18.556
24.484
30.129
36.079
43.221
51.403
61.424
76.172
133.041
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
La valutazione delle relazioni tra il reddito e le altre variabili di natura
socio-demografica ed economica è essenziale per la realizzazione di due fasi
del procedimento, sia per la specificazione del meccanismo di mancata risposta
da introdurre sia per la selezione delle covariate da utilizzare nella procedura di
imputazione.
Trattandosi di un mix di variabili misurate su scala metrica o nominale,
l’intensità del legame di ciascuna con il reddito è riprodotta con il coefficiente di
correlazione lineare di Bravais-Pearson r, per le variabili esplicative di tipo
quantitativo, e con il rapporto di correlazione η per le esplicative categoriali
(Tab. 3.4.).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 413
Tab. 3.4. – Correlazione tra reddito familiare annuo e covariate. Distribuzione originaria,
senza missing (n = 7.112).
Variabili quantitative
Consumo familiare
Ricchezza familiare
Età del capofamiglia
Numero di percettori
Numero di componenti
Superficie dell’abitazione
Variabili categoriali
Sesso del capofamiglia
Titolo di studio del capofamiglia
Stato civile del capofamiglia
Qualifica professionale del capofamiglia
Settore di attività del capofamiglia
Qualifica professionale del coniuge
Ripartizione territoriale
Possesso di depositi bancari
Possesso di titoli di Stato
Possesso di obbligazioni e quote di fondi
comuni
Possesso di azioni e partecipazioni
Titolo di godimento dell’abitazione
Caratteristiche della zona
Tipologia dell’abitazione
Possesso di altri immobili
Coefficiente di correlazione lineare
di Bravais-Pearson r
0,69
0,43
–0,10
0,38
0,25
0,32
Rapporto di correlazione η
0,18
0,40
0,22
0,38
0,23
0,35
0,21
0,28
0,21
0,33
0,35
0,22
0,19
0,27
0,29
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
Come era nelle aspettative, le variabili economiche presentano il legame
più stretto con il reddito. In particolare, la correlazione più forte è tra reddito e
consumo (0,69), superiore a quella osservata per l’altra grandezza economica,
la ricchezza familiare (0,43). Con riferimento alla composizione della famiglia, il
livello di reddito complessivo familiare è maggiormente legato al numero di
percettori (0,38) che al numero di componenti (0,25).
Le variabili categoriali che contribuiscono in maniera più influente alla
variabilità del reddito risultano gli indicatori socio-professionali del capofamiglia
e del coniuge (titolo di studio e qualifica), con valori dell’indice η compresi tra
0,35 e 0,40. Seguono quelli relativi al possesso di attività finanziarie e reali (da
0,21 a 0,35), mentre le variabili che definiscono le connotazioni dello status
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
414 C. Quintano, R. Castellano e A. Regoli.
abitativo identificano una quota di variabilità spiegata più bassa, ad eccezione
della tipologia dell’abitazione (0,27).
4. LA COSTRUZIONE DEL MODELLO DI NON RISPOSTA PER LA
VARIABILE REDDITO DELLE FAMIGLIE IN FUNZIONE DEI CONSUMI
Nel presente lavoro, si è scelto di introdurre un meccanismo ignorabile di
generazione della mancata risposta al reddito familiare, tralasciando la
situazione di meccanismo non ignorabile, che richiederebbe un trattamento più
6
complesso per la ricostruzione dei dati .
Si fa presente che, in un precedente lavoro (Quintano, Castellano e
Regoli, 2001), si sono confrontati due meccanismi ignorabili, in cui si ipotizzava
alternativamente che la probabilità di risposta al reddito dipendesse dalla
variabile consumo oppure dalla variabile ricchezza. In quella sede, la presenza
di due alternative era giustificata dalla maggiore enfasi assegnata nello studio
alla formulazione del modello di non risposta, ma i risultati hanno spinto a
privilegiare nel proseguimento la variabile consumo sia perché, come noto a
priori, è una variabile della stessa natura del reddito, cioè di flusso, sia perché
presenta una maggiore correlazione con il reddito stesso, che viene preservata
anche alla fine del processo di ricostruzione.
L’ipotesi sottostante la specificazione del meccanismo è che la probabilità
di mancata risposta alla variabile reddito aumenti al crescere del livello di
consumo; in altre parole, maggiore è l’ammontare di consumo dichiarato,
maggiore è la probabilità di non rispondere alla domanda sul reddito.
Un’ulteriore ipotesi contemplata è che per valori del consumo inferiori al primo
quartile, la probabilità di non rispondere al reddito sia nulla, cioè in
corrispondenza di un livello di consumo non superiore al primo quartile non si
può avere un valore di reddito mancante.
6
Per alcuni recenti esempi di valutazione degli effetti di meccanismi di mancata risposta introdotti, si
rinvia a Hu, Salvucci, Weng. e Cohen (1996), Hu, Salvucci e Cohen (1998), Nordholt (1998),
Paraloglou ., Salvucci e Hurley (1999).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 415
La specificazione della probabilità di mancata risposta è avvenuta
attraverso una funzione di distribuzione di una esponenziale negativa, del tipo
 x −Q1 

−λ 
1 − e  σ 
pi = 
0
se x > Q1
se x ≤ Q1
dove x rappresenta la variabile esplicativa, cioè il consumo, Q1 è il primo
quartile e σ lo scarto quadratico medio della sua distribuzione, λ è stato scelto
in maniera tale da fornire il 20% di mancate risposte. In questo caso,
Q1=21.400, σ=26.182 e λ=0,443.
La generazione delle mancate risposte è avvenuta attraverso l’estrazione
di un sottocampione di 1421 osservazioni (il 20% del totale), con probabilità di
estrazione proporzionale alla probabilità stimata in base al modello sopra
7
specificato . Il valore del reddito originario osservato su questo sottocampione è
stato quindi sostituito da un valore mancante. In tal modo, la distribuzione del
reddito originario risulta suddivisa in due sottoinsiemi, la distribuzione dei
rispondenti (nR=5.691) e la distribuzione dei non rispondenti artificiali
(nM=1.421)
5. LE DISTRIBUZIONI DEI RISPONDENTI E DEI NON RISPONDENTI
ARTIFICIALI
Le statistiche descrittive della distribuzione del reddito dei rispondenti
(Tab. 5.1.) sono tutte sottostimate rispetto alla distribuzione originaria. Ciò
conferma che lo specifico meccanismo di non risposta ha effettivamente inciso
con probabilità maggiore su redditi mediamente più elevati, determinando
anche una riduzione nella dispersione della distribuzione.
7
La selezione del sottoinsieme che avrà il ruolo di insieme dei non rispondenti artificiali è stata
prodotta dalla procedura SURVEYSELECT di SAS v.8.1, secondo uno schema di probabilità
proporzionale all’ampiezza. Per un approfondimento metodologico, si rinvia a Cicchitelli, Herzel e
Montanari (1992).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
416 C. Quintano, R. Castellano e A. Regoli.
Tab. 5.1. – Statistiche descrittive della variabile reddito familiare annuo in base al
meccanismo di non risposta. Distribuzione dei rispondenti, al netto dei missing
(nR= 5.691) e distribuzione dei non rispondenti, missing artificiali (nM = 1.421).
Media
Scarto quadratico medio
Primo quartile
Mediana
Terzo quartile
Asimmetria
Curtosi
Rispondenti
(migliaia di lire)
42.919
35.701
21.858
34.702
54.876
6,54
114,99
Non rispondenti
(migliaia di lire)
72.367
54.405
43.682
59.600
81.966
6,90
82,12
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
In maniera speculare, una chiave di lettura alternativa dell’effetto del
meccanismo introdotto, che ovviamente conferma gli elementi di valutazione
considerati finora, emerge osservando la distribuzione dei non rispondenti
artificiali. In particolare, il reddito medio dei non rispondenti artificiali supera il
reddito medio originario di circa il 50%, raggiungendo il valore di 72,4 milioni.
Anche la variabilità in termini di scarto quadratico medio è maggiore del 30,3%
tra i non rispondenti.
La Fig. 5.1. facilita il confronto tra la distribuzione dei rispondenti e quella
dei non rispondenti, viste in relazione con la distribuzione originaria sul totale
delle osservazioni.
L’effetto dell’introduzione della mancata risposta si può evidenziare anche
in termini di concentrazione espressa dal reddito medio per decimi di famiglie.
La distribuzione dei rispondenti registra valori medi più bassi rispetto alla
distribuzione originaria (Tab. 5.2.): la sottostima risulta particolarmente
accentuata in corrispondenza dell’ultima classe (114,9 milioni contro 133
milioni, pari al 13,66% in termini percentuali).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 417
redorig
redorig
1e+06
.1e+06
28.1
28.1
Rispondenti
Non rispondenti
redorig
.1e+06
28.1
Totale
Fig. 5.1. – Rappresentazione box-plot della distribuzione del reddito dei rispondenti
(nR=5.691), dei non rispondenti artificiali (nM=1.421) e del totale delle osservazioni (n=7.112).
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
418 C. Quintano, R. Castellano e A. Regoli.
Tab. 5.2. – Redditi medi e quote di reddito della variabile reddito familiare annuo per decimi
di famiglie. Distribuzione dei rispondenti, al netto dei missing (nR=5.691).
Decimi di famiglie
Fino al 1° decile
Dal 1° al 2° decile
Dal 2° al 3° decile
Dal 3° al 4° decile
Dal 4° al 5° decile
Dal 5° al 6° decile
Dal 6° al 7° decile
Dal 7° all’8° decile
Dall’8° al 9° decile
Oltre il 9° decile
Valore di ripartizione
(migliaia di lire)
13.900
19.632
24.440
29.319
34.702
41.340
50.040
61.100
78.576
-
Quota di reddito
(valori percentuali)
2,2
3,9
5,1
6,3
7,5
8,8
10,6
12,9
16,0
26,7
Reddito medio
(migliaia di lire)
9.379
16.840
21.900
26.905
32.152
37.884
45.569
55.127
68.792
114.864
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle
famiglie italiane nell’anno 1998 (Banca d’Italia, 2000).
6. LA RICOSTRUZIONE DELLE MANCATE RISPOSTE PARZIALI CON
L’IMPUTAZIONE DA DONATORE CON DISTANZA MINIMA
Per ogni unità che presenta un valore mancante in una variabile,
l’imputazione da donatore individua un’unità, simile secondo determinati criteri
in base alle caratteristiche osservate, che svolga la funzione di donatrice; il
valore osservato della variabile per questa seconda unità viene quindi sostituito
al valore mancante della prima unità (Ford, 1983). Nel caso in cui le mancate
risposte parziali si concentrano tutte su una sola variabile, le osservazioni che
presentano valori mancanti costituiscono le unità incomplete da ricostruire,
mentre le osservazioni che presentano valori osservati formano il serbatoio dei
donatori.
Così come sviluppato nella procedura RIDA (Ricostruzione delle
Informazioni con Donazione Automatica; Abbate, 1997), il metodo del donatore
con distanza minima valuta la somiglianza tra due unità in termini delle variabili
osservate, introducendo un’opportuna metrica in base alla scala di misura di
ogni variabile.
Per variabili qualitative sconnesse (tipo X), la distanza è nulla se le due
unità i e j presentano la stessa modalità e massima (pari a 1) se, al contrario,
assumono modalità diverse, ossia:
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 419
0 se X i = X j
DX ij = 
.
1
se
X
X
≠
i
j

Per variabili qualitative ordinabili con m classi (tipo C), la distanza
normalizzata è data dal rapporto tra la differenza assoluta dei valori delle classi
e il numero delle classi meno uno, cioè:
se X i = X j
 0

DCij =  r − s
 m − 1 se X i = r, X j = s, r ≠ s
Se la variabile è qualitativa classificata gerarchicamente (tipo G), la
distanza (DG) è misurata in base al numero di cifre differenti a partire dall’ultima
cifra. Date due generiche modalità (codici numerici Xi e Xj), due unità distano 0
se tutte le cifre della modalità sono uguali, distano 1 se solo l’ultima cifra è
diversa, distano 2 se le ultime due cifre sono diverse, e così via. La
normalizzazione della distanza avviene dividendo per il numero delle cifre.
Per variabili quantitative (tipo N), la distanza è definita dal rapporto tra la
differenza assoluta dei valori delle due unità e la differenza tra il valore
massimo e minimo della variabile, ossia:
DN ij =
Xi − X j
X max − X min
Le variabili da utilizzare per il confronto possono essere suddivise in
variabili di strato e variabili di matching. Le variabili di strato definiscono
raggruppamenti di osservazioni omogenei al loro interno e vincolano la ricerca
del donatore entro tali gruppi. Le variabili di matching sono quelle effettivamente
utilizzate per il calcolo della distanza. La scelta delle variabili ausiliarie da
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
420 C. Quintano, R. Castellano e A. Regoli.
considerare e del loro ruolo nell’ambito della procedura deve avvenire in base
all’associazione con la variabile da ricostruire.
Ad ogni variabile di matching, inoltre, può essere assegnato un peso,
determinabile in base al grado di dipendenza tra ciascuna variabile di matching
e la variabile che presenta dati mancanti. A partire dalle distanze elementari, è
possibile definire una funzione di distanza mista Dij tra ogni osservazione
incompleta i e ogni potenziale donatore j, ottenuta come somma ponderata
delle singole distanze semplici, a cui viene aggiunto un fattore di penalizzazione
U dovuto all’utilizzo ripetuto di una stessa unità donatrice:
NX
NC
NG
NN
l =1
l =1
l =1
l =1
Dij = ∑ DX ijl ⋅ WX l + ∑ DCijl ⋅ WCl + ∑ DGijl ⋅ WGl + ∑ DN ijl ⋅ WN l + r j ⋅ U ,
dove NX, NC, NG e NN rappresentano il numero di variabili della stessa
tipologia, WX, WC, WG e WN i pesi di ciascuna variabile e rj indica il numero di
riutilizzi del donatore.
Nell’ambito di ogni strato, il valore mancante di un’osservazione viene
sostituito dal valore osservato riferito a quell’unità che presenta, tra tutti i
potenziali donatori, il valore minimo della distanza mista Dij dall’unità
incompleta.
La procedura permette di fissare a priori il numero massimo di volte in cui
uno stesso record donatore può essere utilizzato e anche il limite massimo della
distanza tra due record alla quale può avvenire la donazione.
7. LA RICOSTRUZIONE DELLE MANCATE RISPOSTE PARZIALI CON
L’IMPUTAZIONE MULTIPLA
L’imputazione multipla, introdotta da Rubin (1987), sostituisce ad ogni
valore mancante un vettore di m valori, con m≥2. In questo modo, si arriva a
disporre di m insiemi di dati completi, ognuno dei quali può essere analizzato
con le procedure statistiche standard. Le stime ricavate da ogni dataset sono
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 421
poi combinate tra di loro in modo da fornire una stima che rifletta in maniera
appropriata la variabilità dovuta alla presenza delle mancate risposte.
Se il parametro di interesse della popolazione si indica con Q e gli
stimatori
ricavati
dagli
m
dataset
Q1,
con
Q2,…,Qm,
rispettivamente U1, U2,…,Um, lo stimatore combinato
con
varianza
Q̂ si ottiene come media
degli m stimatori:
1 m
ˆ
Q = ∑ Qi
m i =1
La sua varianza è data dalla somma di tre componenti: la media delle m
varianze calcolate sui dati completi
(U ) , la varianza tra le stime calcolate sugli
m dataset (componente between, B) e una funzione di quest’ultima e del
numero m delle replicazioni (B/m):
B
Var (Qˆ ) = U + B + = U + (1 + m −1 ) ⋅ B ,
m
1 m
1 m
dove U =
Ui e B =
Qi − Qˆ
∑
∑
m i =1
m − 1 i =1
(
La
componente
di
varianza
)
2
interna
U è dovuta alla variabilità
campionaria, la componente B riflette la variabilità del meccanismo di non
risposta e la componente B/m la variabilità ulteriore dovuta al numero delle
replicazioni effettuate; al tendere di m a + ∞ , questa componente tende ad
annullarsi.
Per costruire intervalli di confidenza e test di ipotesi sul parametro Q, la
distribuzione approssimata di riferimento è la t di Student con v gradi di libertà,
dove
v = (m − 1) ⋅ (1 + r −1 )
2
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
422 C. Quintano, R. Castellano e A. Regoli.
(1 + m )⋅ B
r=
−1
con
U
che misura l’incremento relativo della varianza causato
dalla mancata risposta.
La quota di informazione mancante dovuta alla non risposta si ricava dalla
seguente formula:
γ =
r + 2 /(v + 3)
r +1
e, al tendere di m a + ∞ , corrisponde alla percentuale di variabilità totale dovuta
alla componente extracampionaria.
Il principio dell’imputazione multipla si inquadra in un ambito bayesiano: le
m imputazioni, infatti, sono m estrazioni dalla distribuzione predittiva a posteriori
dei dati mancanti, una volta scelto un modello per i dati e per il meccanismo di
non risposta. La distribuzione a posteriori dei dati mancanti, definita da:
f (Ymanc | X , Yoss , R )
dipende dalle variabili esplicative X, dai valori osservati della stessa variabile
obiettivo Y (Yoss) e dalla variabile risposta R. Dalla distribuzione a posteriori dei
dati mancanti deriva poi la distribuzione a posteriori del parametro incognito Q,
sulla quale si basa l’inferenza bayesiana.
Ipotizzando ignorabile il meccanismo di generazione della mancata
risposta, non è necessario includere la variabile R tra le condizionanti e la
distribuzione a posteriori dei dati mancanti diviene:
f (Ymanc | X , Yoss )
Nell’ipotesi ulteriore di specificazione di un modello esplicito per i dati, la
procedura dell’imputazione multipla si sviluppa in tre fasi:
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 423
1.
la scelta del modello
2.
la stima dei parametri
3.
l’imputazione
Al primo stadio, si sceglie un modello per i dati (per esempio, il modello di
regressione lineare multipla), da cui dipende la distribuzione a posteriori dei dati
mancanti. Successivamente, nel passo di stima, viene formulata la distribuzione
a posteriori dei parametri del modello al fine di poterne estrarre dei valori. Per
l’imputazione si estrae un valore dalla distribuzione a posteriori dei dati
mancanti, e questa operazione si svolge in due passi: nel primo si estrae un
parametro dalla distribuzione a posteriori ottenuta nella fase di stima e poi si
estrae
un
valore
dalla
distribuzione
a
posteriori
dei
dati
mancanti,
condizionatamente al parametro stimato. Ripetendo il procedimento m volte, si
ottengono le m imputazioni.
8.
LA VALUTAZIONE
DONATORE
DELLA
PROCEDURA
DI
IMPUTAZIONE
DA
Per la sperimentazione del metodo da donatore, si è fatto ricorso al
software RIDA, implementato nel sistema CONCORD (CONtrollo e CORrezione
8
Dati), sviluppato dall’ISTAT in ambiente SAS .
L’insieme dei rispondenti (5.691 unità) rappresenta il serbatoio dei
donatori. La distanza mista minima viene calcolata sulla base di quattro variabili
di matching: queste variabili, che presentano la correlazione più alta con il
reddito, sono la spesa per consumi e la ricchezza familiare (variabili
numeriche), il titolo di studio e la qualifica professionale del capofamiglia
(variabili categoriche). A ciascuna delle variabili di matching viene affiancato un
8
Si ringraziano il dott. Giulio Barcaroli del Servizio “Metodologia di base per la produzione statistica”
dell’ISTAT per aver concesso la disponibilità all’uso del programma, peraltro non ancora definitivo,
insieme al dott. Paolo Floris e Ercole Riccini Margarucci , anch’essi del Servizio “Metodologia di
base per la produzione statistica” dell’ISTAT, per i frequenti contatti avuti per la soluzione dei vari
problemi di funzionamento.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
424 C. Quintano, R. Castellano e A. Regoli.
peso proporzionale all’intensità della sua associazione con il reddito. Come
variabile di stratificazione è stato poi introdotto il numero di percettori: in base al
numero di percettori si individuano, infatti, gruppi di famiglie omogenee al loro
interno e disomogenee tra di loro con riferimento al reddito familiare. Questo
permette di far eseguire la ricerca del donatore tra le famiglie che hanno lo
stesso numero di percettori della famiglia con reddito mancante.
Come informazioni di controllo della procedura, si fa riferimento al numero
di volte in cui ciascun donatore viene utilizzato e al valore della distanza alla
quale avviene l’accoppiamento. I record utilizzati più di una volta, fino ad un
massimo di sei ripetizioni, sono 263. In quattro casi, poi, la ricerca del donatore
si realizza a distanza nulla; in altre parole, per quattro famiglie con reddito
mancante si individuano, nell’ambito dello stesso strato, altrettante famiglie che,
nel serbatoio dei donatori, presentano i medesimi valori delle variabili di
matching. La ricerca del donatore, infine, ha sempre esito positivo, cioè non si
raggiunge mai il limite di riutilizzo di uno stesso donatore né il limite massimo
della distanza tra due record.
I risultati ottenuti con il metodo da donatore così definito (4 variabili di
matching e 1 variabile di stratificazione) possono essere confrontati con una
specificazione più generale e quindi meno affinata: questa considera come
variabili di matching tutte le informazioni disponibili, alle quali viene dato lo
stesso peso, e non introduce variabili di stratificazione (metodo del donatore
con 17 variabili di matching). Con questo metodo, 254 donatori sono utilizzati
più di una volta - al massimo 4 volte - e nessun accoppiamento avviene a
distanza nulla.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 425
9. LA VALUTAZIONE DELLA PROCEDURA DI IMPUTAZIONE MULTIPLA:
LA VARIABILITÀ CAMPIONARIA E NON CAMPIONARIA
9
Per l’imputazione multipla basata sulla regressione , il numero m di
replicazioni è stato stabilito pari a 10, ritenendo questo valore una soglia di
convergenza “ragionevole” per la stabilità dei risultati, condizionatamente al
peso relativo dell’informazione mancante.
Il modello di regressione utilizzato per le procedure di imputazione multipla
è stimato sull’insieme dei rispondenti (5.691 unità).
La variabile dipendente (reddito familiare) è espressa in forma logaritmica:
la trasformazione è necessaria in quanto i dati espressi nella loro unità di
misura di base non rispettano le ipotesi di normalità richieste dal modello. Tra le
variabili esplicative, anche le altre variabili monetarie, consumo e ricchezza,
sono introdotte nel modello con la trasformazione logaritmica.
Essendo il modello di regressione utilizzato nell’ambito di una procedura di
imputazione, la scelta delle covariate non sottintende necessariamente una
relazione di dipendenza del reddito da tali variabili, intese come esplicative dei
livelli di reddito. Nel caso della relazione reddito-consumo, anche se una parte
della teoria economica utilizza il reddito come variabile indipendente per
spiegare il consumo, qui, per imputare dati di reddito, si include invece il
consumo tra le variabili esplicative del reddito. Ciò è motivato dalla
considerazione che escludere il consumo equivale ad assumere una
correlazione parziale nulla tra reddito e consumo, condizionatamente alle altre
variabili incluse nel modello specificato per l’imputazione (Raghunathan e
Paulin, 1998).
Sempre allo scopo di evitare di assumere a priori una correlazione nulla
tra il reddito e le altre variabili osservate, si rende necessario includere nel
modello di regressione un elevato numero di variabili esplicative, anche a costo
di considerare variabili dal contributo trascurabile (Rubin, 1996).
9
Da un punto di vista operativo, la procedura implementata per l’imputazione multipla è quella
contenuta nel software SOLAS v.3.0. Per una aggiornata rassegna comparativa dei diversi software
disponibili per l’imputazione multipla con regressione, si rinvia a Horton e Lipsitz (2001).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
426 C. Quintano, R. Castellano e A. Regoli.
Per l’interpretazione dei risultati del modello di regressione stimato, si
rinvia a Quintano, Castellano e Regoli (2001).
Come indicatore di funzionamento del processo, la scomposizione della
varianza dello stimatore combinato “reddito medio” rappresenta un’utile
informazione di diagnostica per valutare l’impatto dei dati mancanti sui risultati
finali.
L’effetto della procedura di imputazione multipla sulla variabilità del reddito
medio può essere valutata confrontando la varianza dello stimatore combinato
con la varianza dello stimatore derivato da una procedura di imputazione
singola; a questo scopo, il risultato derivante dalla prima replicazione (m=1) può
essere letto come output dell’applicazione di un’imputazione singola. Come ci si
poteva aspettare, la variabilità complessiva cresce quando si effettua
un’imputazione multipla invece di una singola: l’aumento nella varianza è pari al
6,95% (Tab. 9.1.). Con riferimento al peso relativo delle componenti di
variabilità campionaria e non campionaria, quest’ultima spiega circa il 10% della
variabilità complessiva; tale quota non differisce molto dalla frazione di
informazione mancante dovuta alla nonrisposta, che fornisce infatti la stessa
informazione al tendere all’infinito del numero delle replicazioni effettuate.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 427
Tab. 9.1. – Procedura di imputazione multipla del reddito familiare annuo. Scomposizione
della varianza dello stimatore reddito medio in base al numero delle replicazioni.
m=1
m=10
Componenti della varianza
U
262.411
254.005
B
-
24.217
B/m
-
2.422
262.411
280.644
-
6,95%
Varianza totale
Incremento % della varianza rispetto a m=1
Composizione %
U
100,00%
90,51%
0,00%
9,49%
Aumento relativo nella varianza dovuto alla non
risposta
-
0,1049
Gradi di libertà
-
999
Percentuale di informazione mancante dovuta alla
non risposta
-
0,0967
B+B/m
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
Nota: U=varianza interna delle replicazioni; B=varianza tra le replicazioni
10. L’ACCURATEZZA DEI PROCESSI DI RICOSTRUZIONE NELL’INSIEME
DEL COLLETTIVO
In questo lavoro, al fine di procedere ad un giudizio globale delle
procedure di imputazione del reddito, data la scelta effettuata di generare
artificialmente i dati mancanti, si può pensare di privilegiare la valutazione degli
scostamenti tra i redditi originari ed imputati delle singole unità del subcollettivo
dei non rispondenti.
Tuttavia, non si può fare a meno di considerare alcune connotazioni di
tutto l’insieme delle determinazioni dei redditi, a seguito del compimento dei
processi di ricostruzione, in quanto è proprio la distribuzione finale ricostruita
che alimenta la matrice dei dati realmente a disposizione degli statistici
economici.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
428 C. Quintano, R. Castellano e A. Regoli.
Le statistiche descrittive della distribuzione dei redditi ricostruita attraverso
i differenti metodi sono presentate nella Tab. 10.1. Se si utilizzano le procedure
di imputazione da regressione (sia imputazione multipla che singola), il valore
del reddito medio risulta sovrastimato rispetto al valore vero, mentre con le
procedure basate sul metodo da donatore risulta sottostimato. Il valore
massimo della media della distribuzione ricostruita secondo i differenti metodi è
pari a 49,4 milioni (imputazione semplice con regressione) e il valore minimo è
pari a 45,9 milioni (imputazione da donatore con il set completo di variabili di
matching). Quanto ai principali indici di posizione, il primo e il secondo quartile
di tutte le distribuzioni ricostruite sono inferiori ai rispettivi indici della
distribuzione originaria; per il terzo quartile, si osserva, invece, che i metodi che
utilizzano la regressione producono valori superiori rispetto a quello della
distribuzione originaria, a differenza dei metodi da donatore.
Tab. 10.1. – Statistiche descrittive della variabile reddito familiare annuo in base al metodo di
stima dei dati mancanti. Distribuzione finale ricostruita (n F =n R +n I =7.112).
Media
Scarto quadratico medio
Primo quartile
Mediana
Terzo quartile
Asimmetria
Curtosi
Concentrazione
Imputazione
multipla da
regressione
(m=10).
17 variabili
esplicative
(migliaia di lire)
49.107
42.503
23.953
38.375
61.643
5,36
71,97
0,3853
Imputazione
semplice da
regressione.
17 variabili
esplicative
Imputazione da
donatore.
17 variabili di
matching
(migliaia di lire)
49.414
43.200
23.908
38.400
61.940
5,09
59,46
0,3888
(migliaia di lire)
45.920
35.928
23.864
37.864
58.840
5,64
91,99
0,3580
Imputazione da
donatore.
4 variabili di
matching;
1 variabile di
stratificazione
(migliaia di lire)
47.395
38.097
24.264
38.840
61.225
5,95
92,12
0,3641
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
L’imputazione da regressione approssima per eccesso anche l’indice di
concentrazione, al contrario dei metodi che utilizzano il donatore.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 429
Le differenze, comunque contenute, tra le statistiche descrittive della
distribuzione originaria e di quelle ricostruite sono in parte riconducibili al peso
consistente dei rispondenti (80%) che formano il collettivo completo, e che
attenua l’effetto dello specifico meccanismo di ricostruzione dei dati mancanti.
Tenendo conto di un tipo di utilizzazione usuale dei dati di reddito
nell’analisi
economica,
e
in
particolare
nell’ambito
dell’analisi
della
disuguaglianza, si è testato l’effetto delle due principali procedure di
ricostruzione (imputazione multipla da regressione e imputazione da donatore
con 4 variabili di matching ed una variabile di stratificazione) sulla distribuzione
della quota di reddito e del reddito medio per decimi di famiglie. Nella
distribuzione ricostruita con l’imputazione multipla (Tab. 10.2.), il 10% delle
famiglie più ricche detiene il 28,5% del reddito e ad esse corrisponde un reddito
medio pari a 140,2 milioni; nella distribuzione ricostruita con il metodo del
donatore, invece (Tab. 10.3.), il 10% delle famiglie più ricche assorbe il 26,4%
del reddito, corrispondente ad un reddito medio di 125,3 milioni. Questi risultati
sono evidentemente coerenti con i valori sopra commentati dell’indice di
concentrazione.
Tab. 10.2. – Redditi medi e quote di reddito della variabile reddito familiare annuo per decimi
di famiglie. Distribuzione finale ricostruita (n F =n R +n I =7.112).
Imputazione multipla da regressione.
Decimi di famiglie
Fino al 1° decile
Dal 1° al 2° decile
Dal 2° al 3° decile
Dal 3° al 4° decile
Dal 4° al 5° decile
Dal 5° al 6° decile
Dal 6° al 7° decile
Dal 7° all’8° decile
Dall’8° al 9° decile
Oltre il 9° decile
Valore di ripartizione
(migliaia di lire)
14.981
21.273
26.817
32.412
38.375
46.311
55.697
68.342
91.167
-
Quota di reddito
(valori percentuali)
2,1
3,8
4,9
6,0
7,2
8,6
10,4
12,6
15,9
28,5
Reddito medio
(migliaia di lire)
10.290
18.375
24.022
29.534
35.291
42.350
50.934
61.790
78.426
140.198
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
430 C. Quintano, R. Castellano e A. Regoli.
Tab. 10.3. – Redditi medi e quote di reddito della variabile reddito familiare annuo per decimi
di famiglie. Distribuzione finale ricostruita (n F =n R +n I =7.112).
Imputazione da donatore (4 variabili di matching; 1 variabile di stratificazione)
Decimi di famiglie
Fino al 1° decile
Dal 1° al 2° decile
Dal 2° al 3° decile
Dal 3° al 4° decile
Dal 4° al 5° decile
Dal 5° al 6° decile
Dal 6° al 7° decile
Dal 7° all’8° decile
Dall’8° al 9° decile
Oltre il 9° decile
Valore di ripartizione
(migliaia di lire)
15.000
21.516
27.152
32.936
38.840
46.334
55.267
67.065
85.630
-
Quota di reddito
(valori percentuali)
2,2
3,9
5,1
6,3
7,5
9,0
10,8
12,9
16,0
26,4
Reddito medio
(migliaia di lire)
10.269
18.529
24.321
29.904
35.666
42.546
50.885
61.205
75.570
125.253
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
Le procedure di imputazione vanno comparate tenendo conto del
maggiore o minore grado di aderenza ai principi ai quali le politiche di qualità
richiedono di ispirarsi. Tali principi, nel contesto della valutazione della
ricostruzione dell'intero collettivo finale ricostruito, riguardano:
a) la conservazione delle statistiche della distribuzione
b) la conservazione della correlazione tra reddito e covariate
10.1. CONSERVAZIONE DELLE STATISTICHE DELLA DISTRIBUZIONE
Le modificazioni di ciascuna costante caratteristica dei redditi delle 7.112
famiglie del campione a seguito dell’applicazione del metodo di imputazione per
la ricostruzione dei redditi vengono segnalate dalla famiglia degli indici di
distorsione, così espressa per una generica statistica T con riferimento alla
distribuzione finale (fin) e originaria (orig):
Distorsione assoluta
D A = T fin − Torig
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 431
Distorsione relativa
dove
T fin
DR =
T fin − Torig
Torig
1 m
ˆ
= T fin = ∑ Ti , fin nel caso in cui la ricostruzione avvenga con
m i =1
l’imputazione multipla.
In
termini
assoluti,
la
distorsione
nel
reddito
medio
generata
dall’imputazione multipla è pari a +638mila lire, rispetto ad un valore di
-1.073mila prodotto dal metodo da donatore; in termini di distorsione relativa,
1,32% contro –2,21% (Tab. 10.1.1.).
Tab. 10.1.1. – Indicatori di valutazione della procedura di imputazione del reddito.
Conservazione delle statistiche della distribuzione del reddito familiare annuo in
base al metodo di stima dei dati mancanti (n F =n R +n I =7.112).
Media
Scarto quadratico medio
1° decile
2° decile
Primo quartile
3° decile
4° decile
Mediana
6° decile
7° decile
Terzo quartile
8° decile
9° decile
Asimmetria
Curtosi
Concentrazione
Imputazione multipla da
regressione (m=10).
17 variabili esplicative
DA
DR
638
1,32%
744
1,78%
–19
–0,13%
–319
–1,48%
–574
–2,34%
–434
–1,59%
–728
–2,20%
–1.005
–2,55%
–889
–1,88%
–287
–0,51%
353
0,58%
805
1,19%
4.315
4,97%
–1,48
–21,60%
–34,05
–32,11%
0,01
3,46%
Imputazione da donatore.
4 variabili di matching;
1 variabile di stratificazione
DA
DR
–1.073
–2,21%
–3.661
–8,77%
0
0,00%
–76
–0,35%
–264
–1,07%
–100
–0,37%
–204
–0,61%
–540
–1,37%
–866
–1,83%
–717
–1,28%
–65
–0,11%
–473
–0,70%
–1.221
–1,41%
–0,89
–12,98%
–13,90
–13,11%
–0,0083
–2,23%
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
Nota: DA = distorsione assoluta; DR = distorsione relativa.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
432 C. Quintano, R. Castellano e A. Regoli.
Il metodo da donatore sottostima anche la variabilità espressa in termini di
scarto quadratico medio (–8,77% in termini relativi contro una distorsione
positiva e pari a 1,78% per l’imputazione multipla).
Per i decili della distribuzione, l’imputazione da donatore ricostruisce valori
che sono tutti inferiori agli originari; gli scostamenti sono comunque assai
contenuti, inferiori al 2%. Con l’imputazione multipla si osservano, invece,
distorsioni di segno negativo fino al settimo decile e di segno positivo per
l’ottavo e il nono decile; in particolare, per l’ultimo decile, la differenza è
consistente e pari a circa il 5%.
10.2. CONSERVAZIONE DELLA CORRELAZIONE TRA IL REDDITO E LE
COVARIATE
Per variabili quantitative, le differenze tra il coefficiente di correlazione
nella distribuzione finale ricostruita (fin) e in quella originaria (orig) sono
misurate dai seguenti indici:
Distorsione assoluta
Distorsione relativa
dove
rfin
D A = rfin − rorig
DR =
rfin − rorig
rorig
1 m
= rˆfin = ∑ ri , fin nel caso in cui la ricostruzione avvenga con
m i =1
l’imputazione multipla.
Nella distribuzione ricostruita con l’imputazione, il coefficiente di
correlazione tra reddito e variabili economiche subisce, in termini di distorsione
relativa, una accentuata riduzione (Tab. 10.2.1.). La correlazione tra consumo e
reddito, infatti, risulta sottostimata con entrambi i metodi di imputazione, in
misura maggiore con il metodo da donatore (-16,11% contro –13,10%); la
correlazione tra ricchezza e reddito, invece, evidenzia una distorsione minore
quando l’imputazione viene effettuata da donatore (–8,75% contro –14,38%).
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 433
Tab. 10.2.1. – Indicatori di valutazione della procedura di imputazione del reddito.
Conservazione della correlazione tra reddito familiare annuo e covariate in
base al metodo di stima dei dati mancanti (n F =n R +n I =7.112).
Imputazione multipla da
regressione (m=10).
17 variabili esplicative
DA
Variabili quantitative
Consumo familiare
Ricchezza familiare
Età del capofamiglia
Numero di percettori
Numero di componenti
Superficie dell’abitazione
Variabili categoriali
Sesso del capofamiglia
Titolo di studio del capofamiglia
Stato civile del capofamiglia
Qualifica professionale del
capofamiglia
Settore di attività del capofamiglia
Qualifica professionale del coniuge
Ripartizione territoriale
Possesso di depositi bancari
Possesso di titoli di Stato
Possesso di obbligazioni e quote di
fondi comuni
Possesso di azioni e partecipazioni
Titolo di godimento dell’abitazione
Caratteristiche della zona
Tipologia dell’abitazione
Possesso di altri immobili
–0,09
–0,06
–0,01
0,05
0,03
–0,01
–0,0010
–0,0209
0,0055
Imputazione da donatore.
4 variabili di matching;
1 variabile di
stratificazione
DR
DA
DR
Coefficiente di correlazione lineare
di Bravais-Pearson r
–13,10%
–0,11
–16,11%
–14,38%
–0,04
–8,75%
–10,97%
–0,02
–18,88%
12,64%
0,03
7,30%
13,45%
0,02
6,12%
–2,49%
–0,02
–7,64%
Rapporto di correlazione η
–0,52%
0,0012
–5,21%
0,0111
2,48%
0,0050
0,67%
2,76%
2,23%
–0,0085
0,0043
0,0104
0,0010
–0,0074
0,0060
–2,27%
1,92%
2,96%
0,50%
–2,59%
2,81%
–0,0035
0,0002
0,0106
0,0000
0,0068
–0,0084
–0,93%
0,10%
3,02%
–0,02%
2,39%
–3,96%
0,0018
–0,0164
–0,0006
–0,0145
–0,0239
–0,0303
0,55%
–4,75%
–0,29%
–7,46%
–8,94%
–10,50%
–0,0143
–0,0321
0,0032
–0,0092
–0,0183
–0,0152
–4,40%
–9,27%
1,44%
–4,73%
–6,84%
–5,26%
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
Nota: DA = distorsione assoluta; DR = distorsione relativa.
Per quanto riguarda, infine, le variabili di composizione familiare,
l’imputazione da donatore, che utilizza il numero di percettori come variabile di
stratificazione, determina una distorsione minore nel legame associativo tra
reddito e numero di percettori e tra reddito e numero di componenti, a
differenza di quanto accade con l’imputazione multipla.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
434 C. Quintano, R. Castellano e A. Regoli.
Per variabili categoriali, i corrispondenti indici sono costruiti in funzione
dell’indice di connessione:
Distorsione assoluta
Distorsione relativa
dove
η fin
= ηˆ fin =
D A = η fin − ηorig
DR =
η fin − ηorig
ηorig
1 m
∑ηi , fin nel caso in cui la ricostruzione avvenga con
m i =1
l’imputazione multipla.
Se la ricostruzione dei dati mancanti è affidata al metodo da donatore, le
relazioni tra ogni variabile categoriale ed il reddito subiscono distorsioni relative
che, in valore assoluto, vanno da un minimo di 0,02% ad un massimo di 9,27%.
Con l’imputazione multipla, al contrario, le distorsioni, in valore assoluto, sono
comprese tra 0,29% e 10,50%.
11.
L’ACCURATEZZA DEI PROCESSI DI
SUBCOLLETTIVO DEI NON RISPONDENTI
RICOSTRUZIONE
NEL
I principi delle politiche di qualità nel contesto della valutazione della
ricostruzione nel solo subcollettivo dei non rispondenti riguardano:
a) la conservazione dei singoli valori
b) la conservazione delle statistiche della distribuzione dei valori imputati
11.1. CONSERVAZIONE DEI SINGOLI VALORI
Un aspetto differente dalla valutazione dell’impatto della procedura di
imputazione multipla sulla intera distribuzione è quello che investe l’accuratezza
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 435
nella ricostruzione dei microdati cancellati. Questa indicazione è fornita dai
seguenti indicatori:
Scarto medio assoluto
1
SA =
nM
nM
∑ Yk ,imp − Yk ,miss ⋅ wk
∑ wk k =1
k =1
Scarto medio relativo
SR =
nM
1
∑
nM
Yk ,imp − Yk ,miss
Yk ,miss
∑ wk k =1
⋅ wk
k =1
Deviazione standard
DS =
1
nM
nM
∑ (Yk ,imp − Yk ,miss )2 ⋅ wk
∑ wk k =1
k =1
dove
Yk ,imp
1 m
ˆ
= Yk ,imp = ∑ Yik ,imp nel caso in cui la ricostruzione avvenga
m i =1
con l’imputazione multipla.
Indicatore di reintegro al 10%
R10 =
1
nM
nM
∑Vk ⋅ wk ,
∑ wk k =1
k =1
dove
1
Vk = 
0
se Yk ,miss − 10%Yk ,miss < Yk ,imp < Yk ,miss + 10%Yk ,miss
se {Yk ,imp ≤ Yk ,miss − 10%Yk ,miss }∪ {Yk ,imp ≥ Yk ,miss + 10%Yk ,miss }
Lo scarto medio assoluto è pari a 22.634 per l’imputazione multipla e
raggiunge il valore massimo di 35.375 per l’imputazione singola da regressione
(Tab. 11.1.1.); anche in termini relativi, gli indicatori si muovono nella stessa
direzione. Fra i due metodi da donatore, quello che considera solo 4 variabili di
matching pesate e una variabile di stratificazione dà origine a differenze medie
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
436 C. Quintano, R. Castellano e A. Regoli.
più piccole nei confronti dell’altro metodo che utilizza tutte le variabili esplicative
come variabili di matching.
Tab. 11.1.1. – Indicatori di valutazione della procedura di imputazione del reddito.
Conservazione dei singoli valori dei redditi imputati in base al metodo di
stima dei dati mancanti (n i =1.421).
Scarto medio assoluto (SA)
Scarto medio relativo (SR)
Deviazione standard (DS)
Indicatore di reintegro al 10% (R10)
Imputazione
multipla da
regressione
(m=10).
17 variabili
esplicative
22.634
0,3153
42.298
0,2637
Imputazione
semplice da
regressione.
17 variabili
esplicative
35.375
0,5052
58.360
0,1340
Imputazione
da donatore.
17 variabili di
matching
28.928
0,3760
55.363
0,1891
Imputazione
da donatore.
4 variabili di
matching;
1 variabile di
stratificazione
25.272
0,3436
48.933
0,2137
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
La percentuale media di casi in cui il reddito imputato ricade nell’intervallo
intorno al corrispondente valore originario e di semiampiezza pari al 10% dello
stesso valore originario (espressa dall’indicatore di reintegro R10) è massima e
pari al 26,37% per l’imputazione multipla e minima (13,40%) per l’imputazione
singola da regressione.
In sintesi, in termini di conservazione dei singoli valori perturbati, la
ricostruzione con l’imputazione multipla sembra da preferire rispetto agli altri
metodi, presentando indicatori più favorevoli
Di questi risultati occorre tener conto nelle situazioni in cui l’analisi dei
redditi richiede di rivolgere l’attenzione al livello micro. Un esempio tipico
riguarda le analisi longitudinali, in cui è indispensabile garantire che ogni
singolo dato mancante sia ricostruito con la massima fedeltà a quello che
sarebbe stato il dato effettivo, se si fosse osservato. Solo il rispetto di questa
condizione permette di evitare incompatibilità nei percorsi longitudinali e nelle
relazioni causali con le determinanti del reddito, per poter analizzare
correttamente i processi dinamici di formazione e utilizzo delle risorse.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 437
Come per la valutazione della ricostruzione in termini aggregati, anche in
questo caso ci si può concentrare solo sui risultati ottenuti con l’imputazione
multipla da regressione e l’imputazione da donatore con 4 variabili di matching
e una variabile di stratificazione. Più specificamente, all’interno della
subdistribuzione dei redditi imputati con entrambe le procedure, i primi tre
indicatori di valutazione della “conservazione dei singoli valori” sono stati
ricalcolati per decimi di famiglie (Tab. 11.1.2.). Ancora una volta si evidenzia
che la ricostruzione dei microdati appare meno efficace per le classi estreme di
reddito, particolarmente per i redditi più bassi in termini di scarto medio relativo
e per i redditi più alti in base allo scarto medio assoluto.
Tab. 11.1.2. – Indicatori di valutazione della procedura di imputazione del reddito.
Conservazione dei singoli valori per decimi di famiglie calcolati sulla
distribuzione dei redditi imputati in base al metodo di stima dei dati
mancanti (n i =1.421).
Decimi di famiglie
Fino al 1° decile
Dal 1° al 2° decile
Dal 2° al 3° decile
Dal 3° al 4° decile
Dal 4° al 5° decile
Dal 5° al 6° decile
Dal 6° al 7° decile
Dal 7° all’8° decile
Dall’8° al 9° decile
Oltre il 9° decile
Imputazione multipla da regressione
(m=10).
17 variabili esplicative
SA
SR
DS
12.494
0,5704
17.001
10.691
0,2910
18.323
14.962
0,3421
21.455
13.128
0,2630
18.255
13.913
0,2485
19.099
16.547
0,2602
22.050
18.308
0,2525
25.888
22.176
0,2653
29.999
33.658
0,3269
45.185
70.597
0,3318
109.697
Imputazione da donatore.
4 variabili di matching;
1 variabile di stratificazione
SA
SR
DS
11.899
0,5175
17.854
11.478
0,3131
17.229
15.935
0,3624
22.053
21.563
0,4344
36.480
14.767
0,2627
20.045
19.163
0,3020
25.098
20.849
0,2880
34.050
20.072
0,2421
27.759
29.203
0,2834
35.895
87.979
0,4298
131.522
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
Nota: SA = scarto medio assoluto; SR = scarto medio relativo; DS = deviazione standard.
11.2. CONSERVAZIONE DELLE STATISTICHE DELLA DISTRIBUZIONE
Tale
principio,
già
calato
sull’insieme
delle
7.112
osservazioni
parzialmente ricostruite, viene applicato anche per i soli 1.421 dati ricostruiti
utilizzando i seguenti indici, definiti sempre per una generica statistica T con
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
438 C. Quintano, R. Castellano e A. Regoli.
riferimento alla distribuzione dei soli redditi imputati (imp) e alla corrispondente
distribuzione originaria (miss):
Distorsione assoluta
Distorsione relativa
dove
Timp
D A = Timp − Tmiss
DR =
Timp − Tmiss
Tmiss
1 m
ˆ
= Timp = ∑ Ti ,imp nel caso in cui la ricostruzione avvenga con
m i =1
l’imputazione multipla.
Valutando il processo di ricostruzione dei dati sulla base della distribuzione
dei soli redditi imputati, le distorsioni si amplificano rispetto a quelle calcolate
sull’intera distribuzione completa finale.
In particolare, con l’imputazione multipla, la media dei valori imputati
supera del 4,68% la media dei valori cancellati (Tab. 11.2.1.); anche la
variabilità e gli indici di posizione a partire dalla mediana risultano sovrastimati,
questi ultimi di una quota progressivamente maggiore, che arriva al 19,33% per
l’ultimo decile.
Con l’imputazione da donatore, ad una stima per difetto della media e
della variabilità si accompagnano sottostime in tutti gli indici di posizione, meno
pronunciate nella parte centrale della distribuzione; per l’ultimo decile la
distorsione è pari a –9,31%.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 439
Tab. 11.2.1. – Indicatori di valutazione della procedura di imputazione del reddito.
Conservazione delle statistiche della distribuzione del reddito dei valori
imputati in base al metodo di non risposta (ni = 1.421).
Media
Scarto quadratico medio
1° decile
2° decile
Primo quartile
3° decile
4° decile
Mediana
6° decile
7° decile
Terzo quartile
8° decile
9° decile
Asimmetria
Curtosi
Imputazione multipla da
regressione (m=10).
17 variabili esplicative
DA
DR
3.389
4,68%
1.344
2,47%
–4.788
–15,05%
–4.434
–11,12%
–4.307
–9,86%
–3.945
–8,37%
–2.164
–4,04%
853
1,43%
3.343
4,36%
8.749
9,73%
11.804
14,40%
14.954
12,63%
22.882
19,33%
–3,18
–46,02%
–49,16
–59,86%
Imputazione da donatore.
4 variabili di matching;
1 variabile di stratificazione
DA
DR
–5.695
–7,87%
–12.833
–23,59%
–1.578
–4,96%
–2.938
–7,37%
–2.914
–6,67%
–3.138
–6,66%
–2.044
–3,82%
–652
–1,09%
–1.108
–1,64%
–555
–0,72%
–2.093
–2,55%
–4.123
–4,58%
–11.022
–9,31%
–1,41
–20,39%
–17,26
–21,02%
Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie
italiane nell’anno 1998 (Banca d’Italia, 2000).
Nota: DA = distorsione assoluta; DR = distorsione relativa.
12. CONCLUSIONI
La ricchezza informativa del dataset dell’Indagine sui bilanci delle famiglie
italiane della Banca d’Italia garantisce la disponibilità di un gran numero di
variabili da utilizzare per la ricostruzione dei valori mancanti di reddito familiare.
Le potenzialità si estendono ulteriormente se si introduce come informazione
ausiliaria anche quella riferita alla dimensione longitudinale dell’indagine, per le
famiglie intervistate con successo in precedenti occasioni della stessa
rilevazione. Il presente lavoro, tuttavia, sfrutta soltanto la dimensione
trasversale dell’indagine, rinviando a successivi approfondimenti l’introduzione
della componente longitudinale.
La ricostruzione dei redditi è avvenuta attraverso due differenti metodi:
l’imputazione multipla a partire da un modello di regressione e l’imputazione da
donatore con il metodo della distanza minima
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
440 C. Quintano, R. Castellano e A. Regoli.
Dalla valutazione del processo di ricostruzione in base al corretto ripristino
dei singoli valori di reddito (secondo un punto di vista micro), si evidenzia che
l’imputazione multipla presenta indicatori più favorevoli rispetto al metodo da
donatore, con scarti medi sistematicamente inferiori.
A livello aggregato, in virtù del tasso ridotto di dati perturbati e resi
mancanti artificialmente (pari al 20%), l’intera distribuzione del reddito ricostruita
con le due tecniche non presenta differenze rilevanti rispetto alla distribuzione
originaria. Tuttavia, con l’imputazione multipla, la media e tutti gli indici di
variabilità, sia in termini di dispersione sia in termini di concentrazione, vengono
sovrastimati; inoltre, anche gli indici di posizione a partire dal terzo quartile
risultano superiori ai corrispondenti indici della distribuzione originaria. Con il
metodo da donatore, invece, tutti gli indici medi e di variabilità della
distribuzione ricostruita risultano costantemente inferiori a quelli della
distribuzione di partenza.
Un’ulteriore conseguenza del processo di imputazione dei redditi è la forte
riduzione del legame lineare con le altre variabili monetarie (consumi e
ricchezza), anche se tali variabili sono utilizzate come variabili esplicative nella
regressione per l’imputazione multipla e come variabili di matching per la
ricerca del donatore con distanza minima.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 441
BIBLIOGRAFIA
ABBATE C. (1997), La completezza delle informazioni e l’imputazione da
donatore con distanza mista minima, Quaderni di ricerca, n. 4, pp. 67-102,
ISTAT, Roma.
BANCA D’ITALIA (1991), I bilanci delle famiglie italiane nell’anno 1989,
Supplemento al Bollettino Statistico, n. 26.
BANCA D’ITALIA (1993), I bilanci delle famiglie italiane nell’anno 1991,
Supplemento al Bollettino Statistico, n. 44.
BANCA D’ITALIA (1995), I bilanci delle famiglie italiane nell’anno 1993,
Supplemento al Bollettino Statistico, n. 9.
BANCA D’ITALIA (1997), I bilanci delle famiglie italiane nell’anno 1995,
Supplemento al Bollettino Statistico, n. 14.
BANCA D’ITALIA (2000), I bilanci delle famiglie italiane nell’anno 1998,
Supplemento al Bollettino Statistico, n. 22.
BEAUMONT J.F. (1999), A Robust Estimation Method in the Presence of
Nonignorable Nonresponse, Proceedings of the Section on Survey
Research Methods, American Statistical Association, pp. 819-824.
BEAUMONT J.F. (2000), An Estimation Method for Nonignorable Nonresponse,
Survey Methodology, Vol. XXVI, n. 2, pp.131-136.
CANNARI L. e D’ALESSIO G. (1992), Mancate interviste e distorsione degli
stimatori, Temi di Discussione, n. 172, Banca d’Italia.
CASTELLANO R. (1993), L’imputazione dei redditi mancanti con medie
condizionate, Quaderni di Discussione, Istituto di Statistica e Matematica,
Istituto Universitario Navale, n. 6, Curto, Napoli.
CICCHITELLI G., HERZEL A. e MONTANARI G.E. (1992), Il campionamento
statistico, Il Mulino, Bologna.
DEPOUTOT R. (1999), Reporting Quality: the Eurostat Experience, IASS
Topics, 52
nd
Session of ISI, August 10-18, 1999, Helsinki.
EUROSTAT (1998), Proposal for a Quality Report in Statistics, Working Group
Document.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
442 C. Quintano, R. Castellano e A. Regoli.
FORD (1983), An Overview of Hot-Deck Procedures, in Madow W.G., Olkin I.,
Rubin D.B. (eds.), Incomplete Data in Sample Surveys, vol. II, pp. 185207.
HORTON N.J. e LIPSITZ S.R. (2001), Multiple Imputation in Practice:
Comparison of Software Packages for Regression Models with Missing
Variables, The American Statistician, n. 55, vol. III, pp. 244-254.
HU M., SALVUCCI S.M., WENG S. e COHEN M.P. (1996), Evaluation of Proc
Impute and Schefer’s Imputation Software, Proceedings of the Section on
Survey Research Methods, American Statistical Association, pp.287-292.
HU M., SALVUCCI S.M. e COHEN M. P. (1998), Evaluation of Some Popular
Imputation Algorithms, Proceedings of the Section on Survey Research
Methods, American Statistical Association, pp. 308-313.
KENNICKELL A.B. (1998), Multiple Imputation In The Survey Of Consumer
Finances, Proceedings of the Business and Economic Statistics Section,
pp.11-20.
LITTLE R.J.A. e RUBIN D.B. (1987), Statistical Analysis with Missing Data,
Wiley.
LUZI O. (1998), L’editing selettivo come strumento per la razionalizzazione del
processo di editing: un primo studio su occupazione, retribuzioni e orario di
lavoro nelle grandi imprese, Quaderni di Ricerca, n. 3, ISTAT, Roma.
NORDHOLT E.S. (1998), Imputation: Methods, Simulation Experiments, and
Practical Examples, International Statistical Review, n. 66, vol. II, pp.157180.
PARALOGLOU M.N., SALVUCCI S.M. e HURLEY P. (1999), A Comparison Of
Two Imputation Alghoritms, Proceedings of the Section on Government
and Section on Social Statistics, pp. 217-221.
QUINTANO C., CASTELLANO R. e REGOLI A. (2001), How to Improve the
Quality of the Income Variable in a Household Survey. A Simulation Study
Through Multiple Imputation, International Conference on Quality in Official
Statistics, 14-15 May 2001, Stockholm.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
La valutazione della ricostruzione di dati mancanti…. 443
QUINTANO C., CASTELLANO R. e ROMANO A.A. (1996), L’Imputazione delle
mancate risposte nelle indagini con parte panel. Il caso dei redditi familiari
della Banca d’Italia, Quaderni di Discussione, Istituto di Statistica e
Matematica, Istituto Universitario Navale, n. 6, Curto, Napoli.
RAGHUNATHAN T.E. e PAULIN G.D. (1998), Multiple Imputation Of Income In
The Consumer Expenditure Survey: Evaluation of Statistical Inferences,
Proceedings of the Business and Economic Statistics Section, pp.1-10.
RUBIN D.B. (1987), Multiple Imputation For Nonresponse in Surveys, Wiley,
New York.
RUBIN D.B. (1996), Multiple Imputation After 18+ years, JASA, Vol. XCI, n. 343,
pp. 473-489.
Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano
C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica,
Università degli Studi di Napoli “Parthenope”, n. 21, Napoli.
489
Posizione degli Autori, riassunto, summary e résumé
516
Claudio Quintano
Professore Ordinario di Statistica economica
Rosalia Castellano
Professore Straordinario di Rilevazione e controllo di dati economici
Andrea Regoli
Ricercatore di Statistica economica
Istituto di Statistica e Matematica, Facoltà di Economia, Università degli Studi di
Napoli “Parthenope”.
Riassunto
La valutazione della ricostruzione di dati mancanti nella variabile reddito: un
confronto tra imputazione multipla e da donatore
L’obiettivo di questo lavoro è la valutazione della bontà del processo di
ricostruzione della variabile reddito familiare, soggetta a mancate risposte
parziali.
A tale scopo si introducono due metodi di ricostruzione, rispettivamente
l’imputazione da donatore e l’imputazione multipla, valutandone la performance
sia a livello di microunità sia in termini di statistiche dell’intera distribuzione.
La disponibilità di un patrimonio informativo ampio e variegato, quale quello
offerto dall’Indagine sui bilanci delle famiglie italiane condotta dalla Banca
d’Italia, permette di costruire un modello di non risposta che fa dipendere la
probabilità di rispondere al reddito dal livello della spesa per consumi: in questo
modo, si genera artificialmente nella variabile reddito una quota di missing data
pari al 20%.
517
Summary
The Evaluation of Income Missing Data Reconstruction: a Comparison Between
Imputation from a Donor and Multiple Imputation
The aim of this paper is to evaluate the goodness of the reconstruction process
of household income, affected by item nonresponse.
To this end, two methods are considered, respectively imputation from a donor
and multiple imputation, whose performances are evaluated both in terms of
microdata and of statistics of the whole distribution.
The availability of a wide range of information, such as the one given by the
Bank of Italy’s Survey of Italian Household Income and Wealth, allows to build
an ad hoc nonresponse model, in which the probability of income to be missed
depends on the consumption level; following this simulation approach, a 20% of
missing data is artificially generated in household income variable.
Résumé
L’évaluation de la reconstruction des données de revenu à la suite de
nonréponse: une comparaison entre l’imputation depuis un donneur et
l’imputation depuis un donneur et l’imputation multiple
L’objectif de ce travail est l’évaluation de la qualité de la reconstruction de la
variable revenu familial, exposée aux nonréponses partielles.
Dans ce but, nous introduisons deux méthodes pour la reconstruction,
respectivement l’imputation depuis un donneur et l’imputation multiple, dont les
performances sont évaluées tant en termes de micro-données que de
statistiques de la distribution complète.
La disponibilité d’une large richesse en information, en provenance de l’Enquête
sur les Budgets Familiaux de la Banque d’Italie, permet de construire un modèle
ad hoc de nonréponse qui fait dépendre la probabilité de répondre au revenu du
518
niveau des consommations; selon cette approche, nous avons introduit
artificiellement dans la variable revenu familial une fraction de nonréponses qui
atteint le 20%.
La presente pubblicazione, per la quale sono stati adempiuti gli
obblighi previsti dalle norme per la consegna obbligatoria di
esemplari degli stampati e delle pubblicazioni di cui alla legge
del 2 febbraio 1939 n. 374 e successive modificazioni, è
soggetta alle norme vigenti in materia di tutela del diritto di
Autore come previsto nella legge 22 aprile 1941 n. 633 e
successive modifiche. Pertanto, è vietata la riproduzione non
autorizzata, anche parziale, con qualsiasi mezzo effettuata
compresa la fotocopia e la masterizzazione in conformità anche
di quanto previsto dalle modifiche e integrazioni introdotte
dalla legge 18 agosto 2000 n. 248. La pubblicazione, finita di
stampare il 26 marzo 2002, è stata depositata il 27 marzo
2002 in copia cartacea e su supporto informatico (CD-ROM)
presso i seguenti uffici:
n. 1 copia presso l’Istituto di Statistica e Matematica– Facoltà
di Economia – Università degli Studi di Napoli “Parthenope”, Via
Medina, 40 – 80133 Napoli, protocollo Registro dello
Stampatore n. 7 dell’anno 2002;
n. 4 copie presso l’Ufficio Stampa della Prefettura di Napoli –
consegnata all’Ufficio in qualità di stampatore;
n. 1 copia presso l’Ufficio Stampa della Procura Generale della
Repubblica di Napoli – consegnata all’Ufficio in qualità di
stampatore;
n. 1 copia agli uffici della Questura di Napoli – sezione Digos –
consegnata all’Ufficio in qualità di Editori della Rivista “Scritti
di Statistica Economica”.
INIZIO
DELL’ARTICOLO
HOME
ESCI