ISTITUTO DI STATISTICA E MATEMATICA FACOLTÀ DI ECONOMIA UNIVERSITÀ DEGLI STUDI DI NAPOLI “PARTHENOPE” (GIÀISTITUTOUNIVERSITARIONAVALE) SCRITTI DI STATISTICA ECONOMICA NAPOLI 9 QUADERNI DI DISCUSSIONE 21 a cura di Claudio Quintano LA VALUTAZIONE DELLA RICOSTRUZIONE DI DATI MANCANTI NELLA VARIABILE REDDITO: UN CONFRONTO TRA IMPUTAZIONE MULTIPLA E DA DONATORE CLAUDIO QUINTANO ROSALIA CASTELLANO ANDREA REGOLI ESTRATTO ISTITUTO DI STATISTICA E MATEMATICA UNIVERSITA’ DEGLI STUDI DI NAPOLI “PARTHENOPE” (GIÀ ISTITUTO UNIVERSITARIO NAVALE) 2002 403 LA VALUTAZIONE DELLA RICOSTRUZIONE DI DATI MANCANTI NELLA VARIABILE REDDITO: UN CONFRONTO TRA IMPUTAZIONE MULTIPLA E DA DONATORE (*) Claudio Quintano Rosalia Castellano (**) Andrea Regoli 1. INTRODUZIONE L’obiettivo di questo lavoro è la valutazione della bontà del processo di ricostruzione della variabile reddito familiare, soggetta a mancate risposte parziali. A tale scopo si introducono due metodi di ricostruzione, rispettivamente l’imputazione da donatore e l’imputazione multipla, valutandone la performance sia a livello di microunità sia in termini di statistiche dell’intera distribuzione. La disponibilità di un patrimonio informativo ampio e variegato, quale quello offerto dall’Indagine sui bilanci delle famiglie italiane condotta dalla Banca d’Italia, permette di costruire un modello di non risposta che fa dipendere la probabilità di rispondere al reddito dal livello della spesa per consumi: in (*) Lavoro svolto nell’ambito della ricerca M.U.R.S.T. 60%, anno 1997-98, “Censimento intermedio nel contesto della qualità dei dati delle rilevazioni di flusso”, titolare prof.ssa Rosalia Castellano. La stampa degli estratti del presente lavoro è finanziata con i fondi della ricerca M.U.R.S.T. 60%, anno 1997-98, “Il censimento intermedio: indagine Long Form”, titolare prof. Claudio Quintano. Il lavoro è frutto dell’impegno congiunto degli Autori. Tuttavia, i parr. 1. e 12. sono da attribuire al prof. Claudio Quintano; i parr. 2., 3., 6., 8. e 11. alla prof.ssa Rosalia Castellano; i parr. 4., 5., 7., 9. e 10. al dott. Andrea Regoli. (**) Claudio Quintano è Professore Ordinario di Statistica economica; Rosalia Castellano è Professore Straordinario di Rilevazione e controllo di dati economici; Andrea Regoli è Ricercatore di Statistica economica, presso l’istituto di Statistica e Matematica, Facoltà di Economia, Università degli Studi di Napoli “Parthenope”. Quintano C. (a cura di) (2002), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 404 C. Quintano, R. Castellano e A. Regoli. questo modo, si genera artificialmente nella variabile reddito una quota di missing data pari al 20%. 2. I DATI MANCANTI E GLI EFFETTI SULLE RILEVAZIONI ECONOMICHE Il problema della stima dei dati non rilevati, come ben noto dalla letteratura, è una questione cruciale sia nella tipologia di mancata risposta totale sia nella tipologia di mancata risposta parziale. Infatti, si tratta di situazioni che, nello svolgimento di una indagine concreta, insieme ad altre tipologie di errori, vanno ad attaccare i requisiti di qualità che, auspicabilmente 1 dovrebbe rispettare l’informazione statistica prodotta . In particolare, ciò si riflette in una distorsione delle stime dei parametri che si ottengono dai dati incompleti. In questa sede si affronta il problema delle mancate risposte parziali in una situazione particolarmente delicata, ossia finalizzando la procedura di ricostruzione dei dati mancanti al caso di una variabile reddituale in una 2 indagine economica . Premessa fondamentale per poter costruire e monitorare un itinerario “ragionato” di ricostruzione dei dati mancanti dovrebbe essere la conoscenza della distribuzione dei non rispondenti e del meccanismo generatore delle mancate risposte. Purtroppo, è ben noto che quando l’analista interviene con le procedure di correzione e controllo dei dati può usufruire di alcune informazioni (spesso piuttosto esigue) ma non ha la disponibilità di elementi certi che governino il comportamento effettivo della non risposta nei suoi dati. È, dunque, 1 2 Si ricorda che l’EUROSTAT ha diffuso linee guida sulla definizione di qualità e sui criteri di riferimento che dovrebbero essere rispettati dalle statistiche: rilevanza, accuratezza, tempestività, facilità di accesso, comparabilità, coerenza e completezza (Eurostat, 1998; Depoutot, 1999). E’ nota la difficoltà di rilevare variabili collegate ad informazioni di natura economico-finanziaria, identificabili come risposte a quesiti “sensibili”. Pertanto la cattura di queste tipologie di dati è particolarmente soggetta sia al fenomeno dell’under-reporting (Cannari e D’lessio, 1992) sia a quello della mancata risposta. Come esempi di applicazione e valutazione delle procedure di imputazione multipla a dati economico-finanziari delle famiglie si rinvia a Kennickell (1998) ed a Raghunathan e Paulin (1998). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 405 evidente che una “gestione robusta” di una procedura di stima dei dati mancanti dipende non soltanto dal metodo di imputazione scelto (quest’ultimo aderente alla tipologia di dati ed alle caratteristiche della rilevazione) ma anche dalla “adattabilità” ai dati stessi delle ipotesi di “ignorabilità” del meccanismo di non risposta, introdotte nella maggior parte dei casi per rientrare nei criteri di uso delle procedure standard di imputazione. Per “ragionare” intorno a questi due poli della adattabilità e della ignorabilità, si può osservare come nella realtà della gestione di una indagine statistica, ogni procedura di trattamento delle mancate risposte parziali fa leva su due aspetti importanti. Il primo è costituito dalla massa informativa da utilizzare quale input delle procedure. Tali informazioni, la cui disponibilità esercita condizionamenti più o meno influenti sulla scelta dei metodi ed il grado di complessità, provengono o dalla stessa matrice dei dati dei rispondenti, che contiene le covariate (auspicabilmente senza missing), o da occasioni di indagini precedenti, nei disegni di tipo panel. Il secondo è dato dalle ipotesi sul modello di non risposta teorico che impone i condizionamenti più forti e significativi sulla scelta dei metodi. Infatti, le connessioni tra ipotesi sul modello teorico di non risposta e metodi da implementare sono cruciali e costituiscono la cornice al cui interno è proliferata la letteratura prevalente. La ricerca del modello di non risposta è una operazione molto complessa in quanto deve ipotizzarsi che esso sia più aderente possibile ad una realtà sconosciuta; in assenza cioè di informazioni empiriche “certe” derivanti da indagini ad hoc e che siano facilmente trasferibili. Infatti, è ben nota la difficoltà di conoscere, e quindi controllare, i comportamenti di rifiuto, con la conseguente scarsa aderenza dei dati incogniti ad ipotesi sul comportamento di coloro che dovrebbero partecipare alle indagini. A causa di questo strettissimo intreccio le ipotesi sottostanti influenzano la buona riuscita dell’operazione di reintegrazione dei dati mancanti effettuata con opportune tecniche di imputazione. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 406 C. Quintano, R. Castellano e A. Regoli. La letteratura sull’integrazione dei dati mancanti, pur se meno ricca rispetto a quella di altri comparti consolidati della statistica metodologica ed applicata, è comunque vasta di soluzioni teoriche del problema. Anzi, in effetti, è possibile affermare che gli sforzi in quest’area specialistica dovrebbero concentrarsi da una parte sul collegamento tra modello di non risposta e metodi da applicare, dall’altra sulla costruzione di algoritmi che consentano l’implementazione e la sperimentazione di metodi più specifici, contemperando anche la gestione di modelli non ignorabili di non risposta (Beaumont, 1999; 2000). Il ricercatore che deve validare una procedura di imputazione e gli effetti da essa provocati in termini di microdati e di statistiche prodotte, ha di fronte a sé due strade da seguire: la prima è quella obbligata per gli istituti di rilevazione che alla fine della fase di cattura dei dati, si ritrovano con un insieme di valori non completamente corrispondente alle premesse teoriche e devono intervenire nel miglior modo possibile e pratico per reintegrarlo. La seconda è quella dello studioso (non produttore dei dati) che può sperimentare, tenendo sotto controllo l’intero processo, una procedura di imputazione, grazie alla riproduzione di una matrice di dati “integra”, generata artificialmente o comunque presa a prestito dai risultati di rilevazioni disponibili e da cui sono state eliminate le incongruenze per farla assurgere al ruolo di 3 insieme vero di dati . Quest’ultima strategia è quella adottata in questo lavoro e rientra nelle tecniche basate sulla simulazione. Il percorso, dunque, si serve della simulazione di un file di dati osservati mediante l’introduzione artificiale di dati mancanti in un file di dati “veri” (reale o simulato a sua volta) al fine di conoscere: • la natura del meccanismo di generazione delle mancate risposte parziali (costruito ad hoc); 3 Per altri lavori di studiosi italiani che hanno adottato l’approccio della “perturbazione” di una matrice dei dati “integra” si rinvia, tra gli altri, a Castellano (1993), Quintano, Castellano e Romano (1996), Luzi (1998). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 407 • per ogni missing artificiale, il corrispondente valore “vero”; • i valori “veri” dei parametri delle distribuzioni dei dati; • l’entità e la tipologia delle relazioni tra i dati. L’organizzazione di un percorso del tipo di quello appena descritto favorisce il processo di valutazione finale della procedura. Nell’approccio qui adottato si fa, per l’appunto, riferimento ad una matrice di dati realmente esistente, in quanto rappresenta il risultato dell’Indagine sui bilanci delle famiglie italiane, periodicamente condotta dalla Banca d’Italia, con la finalità di ottenere informazioni dettagliate ed accurate sulla situazione economico-finanziaria delle famiglie italiane nei vari anni di riferimento. In tal modo si dispone di una base informativa molto ricca a cui fare riferimento, dato che le tecniche di ricostruzione che verranno applicate hanno bisogno di un quadro sufficientemente grande ed articolato di informazioni socioeconomiche ausiliarie che, per l'appunto, la ricchezza dei contenuti della Rilevazione, curata dal Servizio Studi dell’Istituto di emissione, può assicurare. Si ricorda, infatti, che la rilevazione sui bilanci delle famiglie italiane è stata ristrutturata a partire dal 1987, dal punto di vista delle innovazioni contenutistiche del questionario nonché dell’impianto metodologico, specie il disegno d’indagine campionaria (Banca d’Italia, 1991; 1993; 1995; 1997; 2000). La numerosità campionaria, nel 1987, è di 8.027 famiglie intervistate, che costituiscono un insieme di unità indipendenti nel tempo. Ma una novità interessante introdotta a partire dal 1989 nel disegno di indagine è data dalla presenza nel campione di una quota di unità già intervistate nella precedente occasione (trasformando in tal modo la rilevazione in una tipologia di disegno panel, utile per analizzare l’evoluzione dei fenomeni economici considerati su uno stesso insieme di unità nel tempo). I dati qui utilizzati si riferiscono alla rilevazione dei bilanci delle famiglie nel 1998 (operativamente realizzata con le interviste tra febbraio e luglio 1999); si tratta di un campione di 7.147 famiglie, in cui la componente panel è pari al 37,3% corrispondente a 2.669 famiglie (Banca d’Italia, 2000; pp. 27-28). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 408 C. Quintano, R. Castellano e A. Regoli. Per quanto concerne i contenuti, in sintesi, tramite essa è possibile la comparazione dei redditi familiari per variabili strutturali socio-demografiche, analisi specifiche di contenuto e di concentrazione della ricchezza reale, la costruzione di modelli di rischio delle famiglie usando come punto di partenza i dati sulla tipologia e sulla diffusione di attività finanziarie, la valutazione delle scelte delle famiglie tra i vari strumenti di pagamento, indicatori abitativi delle 4 famiglie stesse . 3. ELEMENTI INFORMATIVI DI NATURA SOCIO-ECONOMICA INTERNI ALLA RILEVAZIONE STESSA Sulla base dei dati dell’Indagine sui bilanci delle famiglie italiane del 1998 (Banca d’Italia, 2000) è stata condotta una simulazione per generare artificialmente mancate risposte parziali per la variabile reddito familiare annuo. In quest’ottica, la matrice dei dati diffusi è da considerare come la matrice dei dati “veri”, vista dal lato dell’utilizzatore delle informazioni, mentre quella dei dati comprendenti le mancate risposte simulate è da considerare la matrice dei dati “osservati”. La generazione dei dati mancanti è avvenuta in base ad un meccanismo, ignorabile secondo la terminologia introdotta in letteratura da Little e Rubin (1987). Una volta ricostruita la matrice dei dati completi attraverso le principali procedure di imputazione, l’obiettivo è di verificare e confrontare l’accuratezza di tali metodi. Il campione della Banca d’Italia per il 1998 è costituito da 7.147 famiglie. Il reddito familiare annuo è definito al netto delle imposte sul reddito e dei contributi previdenziali e assistenziali ed è ottenuto aggregando le voci relative alle componenti di reddito di tutti i membri della famiglia. Dall’analisi sono state escluse quelle unità che presentano valori del reddito familiare non positivi; la numerosità di riferimento è quindi scesa a 7.112 famiglie. 4 Per uno studio critico del contenuto si rinvia al Bollettino Statistico stesso in cui sono pubblicati i più importanti risultati, nei vari anni (Banca d’Italia, 1991, 1993, 1995, 1997, 2000). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 409 Le informazioni utilizzate per la definizione del meccanismo di generazione delle mancate risposte e per il metodo di imputazione sono tutte incentrate sulla caratteristica trasversale, per cui si fa uso del singolo campione totale indipendente relativo all’ultimo anno di indagine disponibile (1998); non si è al momento preso in considerazione lo sfruttamento della caratteristica longitudinale ottenibile dalla componente panel del campione. Il tasso di mancata risposta introdotto è pari al 20%; tale scelta, in base anche ad altre sperimentazioni condotte su indagini dello stesso tipo, è stata guidata dalla considerazione che una quota inferiore potrebbe sminuire l’interesse per l’integrazione dei dati mancanti, così come una quota troppo elevata potrebbe rappresentare il superamento di una soglia dimensionale ragionevolmente accettabile per “dare credito” ad una procedura di ricostruzione che sarebbe basata su un sottinsieme di dati disponibili troppo esiguo. Una premessa essenziale richiede l’analisi del potenziale patrimonio informativo di una serie di variabili di supporto ricavate dall’indagine in questione. Esse offrono un set di indicazioni di natura socio-demografica ed economica, alcune attribuibili al capofamiglia (sesso, età, titolo di studio, stato civile, condizione professionale propria e del coniuge, settore di attività), altre all’intero nucleo familiare. Queste ultime possono essere classificate in indicatori della composizione e localizzazione familiare (numero di componenti, numero di percettori, ripartizione territoriale), della condizione economicofinanziaria (reddito, consumi, ricchezza, possesso di attività finanziarie) e della condizione abitativa (titolo di godimento, zona di ubicazione, categoria e superficie dell’abitazione, possesso di altri immobili). Le specifiche delle variabili utilizzate sono riportate nello schema di Tab. 3.1. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 410 C. Quintano, R. Castellano e A. Regoli. Tab. 3.1. – Elementi informativi per l’analisi: lista delle variabili, con codice delle modalità e descrizione. VARIABILE Indicatori socio-demografici del capofamiglia Sesso Età in anni Titolo di studio Stato civile Qualifica professionale Settore di attività Qualifica coniuge professionale del Indicatori di composizione e localizzazione della famiglia Numero di percettori Numero di componenti Ripartizione territoriale Indicatori economicofinanziari della famiglia Reddito familiare (*) Ricchezza netta familiare Consumo familiare Possesso di depositi bancari CODICE MODALITÀ 1 2 DESCRIZIONE maschio femmina 1 2 3 4 5 1 2 3 4 1 2 3 4 5 6 7 1 2 3 4 5 0 1 2 3 4 5 6 7 senza titolo licenza elementare media inferiore media superiore laurea e specializzazione post-laurea coniugato/a celibe/nubile separato/divorziato vedovo/a operaio impiegato dirigente, direttivo imprenditore, libero professionista altro autonomo pensionato altro non occupato agricoltura industria P.A., servizi pubblici altri settori nessun settore il capofamiglia non ha coniuge operaio impiegato dirigente, direttivo imprenditore, libero professionista altro autonomo pensionato altro non occupato 1 2 Nord-Centro Sud e Isole 1 2 si no Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 411 Segue Tab. 3.1. Possesso di titoli di stato Possesso di obbligazioni e quote di fondi comuni Possesso di azioni e partecipazioni Indicatori abitativi della famiglia Titolo di godimento dell’abitazione Caratteristiche della zona Tipologia dell’abitazione Superficie dell’abitazione Possesso di altri immobili 1 2 1 2 1 2 si no si no si no 1 2 3 4 1 2 3 1 2 di proprietà in affitto a riscatto usufrutto o uso gratuito zona di pregio zona di degrado zona intermedia di lusso o signorile altro 1 2 si no (*) Nella definizione usata nell’Indagine della Banca d’Italia si considera la ricchezza reale netta familiare, cioè la differenza tra le attività reali (ad esempio, per il 1998, esse sono risultate costituite per l’86% da immobili, per il 11,7% da partecipazioni in aziende e per il restante 2,3% da oggetti di valore) e le passività contratte per l’acquisto di beni reali. Dalle statistiche descrittive della variabile reddito familiare annuo, rilevato su 7.112 unità nel 1998, si evidenziano alcune caratteristiche riportate nella Tab. 3.2. 5 Il reddito medio annuo è pari a 48,5 milioni ed i valori di posizione (i quartili) confermano la tipica forma asimmetrica della distribuzione, caratterizzata da un maggiore addensamento su valori medio-bassi di reddito. L’indice di concentrazione di Gini è pari a 0,37. Il 10% delle famiglie con reddito più basso detiene soltanto il 2,1% del reddito complessivo ed ha un reddito medio di 10,3 milioni, mentre al 10% delle famiglie con reddito più alto corrisponde una quota di reddito pari al 27,4% ed un reddito medio di 133 milioni (Tab. 3.3.). 5 Si noti che i risultati da noi ottenuti, in merito alle costanti caratteristiche della distribuzione del reddito, sintetizzati nelle Tab. 3.2. e 3.3., differiscono, pur se in maniera impercettibile, da quelli pubblicati nel Supplemento al Bollettino Statistico “I bilanci delle famiglie italiane nell’anno 1998” della Banca d’Italia in quanto sono state escluse le famiglie con reddito non positivo. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 412 C. Quintano, R. Castellano e A. Regoli. Tab. 3.2. – Statistiche descrittive della variabile reddito familiare annuo. Distribuzione originaria, senza missing (n = 7.112). (migliaia di lire) 48.468 41.758 24.527 39.380 61.290 6,83 106,02 0,3724 Media Scarto quadratico medio Primo quartile Mediana Terzo quartile Asimmetria Curtosi Concentrazione Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). Tab. 3.3. – Redditi medi e quote di reddito della variabile reddito familiare annuo per decimi di famiglie. Distribuzione originaria, senza missing (n = 7.112). Decimi di famiglie Fino al 1° decile Dal 1° al 2° decile Dal 2° al 3° decile Dal 3° al 4° decile Dal 4° al 5° decile Dal 5° al 6° decile Dal 6° al 7° decile Dal 7° all’8° decile Dall’8° al 9° decile Oltre il 9° decile Valore di ripartizione (migliaia di lire) 15.000 21.592 27.252 33.140 39.380 47.200 55.984 67.537 86.851 - Quota di reddito (valori percentuali) 2,1 3,9 5,0 6,2 7,5 8,9 10,6 12,7 15,7 27,4 Reddito medio (migliaia di lire) 10.318 18.556 24.484 30.129 36.079 43.221 51.403 61.424 76.172 133.041 Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). La valutazione delle relazioni tra il reddito e le altre variabili di natura socio-demografica ed economica è essenziale per la realizzazione di due fasi del procedimento, sia per la specificazione del meccanismo di mancata risposta da introdurre sia per la selezione delle covariate da utilizzare nella procedura di imputazione. Trattandosi di un mix di variabili misurate su scala metrica o nominale, l’intensità del legame di ciascuna con il reddito è riprodotta con il coefficiente di correlazione lineare di Bravais-Pearson r, per le variabili esplicative di tipo quantitativo, e con il rapporto di correlazione η per le esplicative categoriali (Tab. 3.4.). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 413 Tab. 3.4. – Correlazione tra reddito familiare annuo e covariate. Distribuzione originaria, senza missing (n = 7.112). Variabili quantitative Consumo familiare Ricchezza familiare Età del capofamiglia Numero di percettori Numero di componenti Superficie dell’abitazione Variabili categoriali Sesso del capofamiglia Titolo di studio del capofamiglia Stato civile del capofamiglia Qualifica professionale del capofamiglia Settore di attività del capofamiglia Qualifica professionale del coniuge Ripartizione territoriale Possesso di depositi bancari Possesso di titoli di Stato Possesso di obbligazioni e quote di fondi comuni Possesso di azioni e partecipazioni Titolo di godimento dell’abitazione Caratteristiche della zona Tipologia dell’abitazione Possesso di altri immobili Coefficiente di correlazione lineare di Bravais-Pearson r 0,69 0,43 –0,10 0,38 0,25 0,32 Rapporto di correlazione η 0,18 0,40 0,22 0,38 0,23 0,35 0,21 0,28 0,21 0,33 0,35 0,22 0,19 0,27 0,29 Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). Come era nelle aspettative, le variabili economiche presentano il legame più stretto con il reddito. In particolare, la correlazione più forte è tra reddito e consumo (0,69), superiore a quella osservata per l’altra grandezza economica, la ricchezza familiare (0,43). Con riferimento alla composizione della famiglia, il livello di reddito complessivo familiare è maggiormente legato al numero di percettori (0,38) che al numero di componenti (0,25). Le variabili categoriali che contribuiscono in maniera più influente alla variabilità del reddito risultano gli indicatori socio-professionali del capofamiglia e del coniuge (titolo di studio e qualifica), con valori dell’indice η compresi tra 0,35 e 0,40. Seguono quelli relativi al possesso di attività finanziarie e reali (da 0,21 a 0,35), mentre le variabili che definiscono le connotazioni dello status Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 414 C. Quintano, R. Castellano e A. Regoli. abitativo identificano una quota di variabilità spiegata più bassa, ad eccezione della tipologia dell’abitazione (0,27). 4. LA COSTRUZIONE DEL MODELLO DI NON RISPOSTA PER LA VARIABILE REDDITO DELLE FAMIGLIE IN FUNZIONE DEI CONSUMI Nel presente lavoro, si è scelto di introdurre un meccanismo ignorabile di generazione della mancata risposta al reddito familiare, tralasciando la situazione di meccanismo non ignorabile, che richiederebbe un trattamento più 6 complesso per la ricostruzione dei dati . Si fa presente che, in un precedente lavoro (Quintano, Castellano e Regoli, 2001), si sono confrontati due meccanismi ignorabili, in cui si ipotizzava alternativamente che la probabilità di risposta al reddito dipendesse dalla variabile consumo oppure dalla variabile ricchezza. In quella sede, la presenza di due alternative era giustificata dalla maggiore enfasi assegnata nello studio alla formulazione del modello di non risposta, ma i risultati hanno spinto a privilegiare nel proseguimento la variabile consumo sia perché, come noto a priori, è una variabile della stessa natura del reddito, cioè di flusso, sia perché presenta una maggiore correlazione con il reddito stesso, che viene preservata anche alla fine del processo di ricostruzione. L’ipotesi sottostante la specificazione del meccanismo è che la probabilità di mancata risposta alla variabile reddito aumenti al crescere del livello di consumo; in altre parole, maggiore è l’ammontare di consumo dichiarato, maggiore è la probabilità di non rispondere alla domanda sul reddito. Un’ulteriore ipotesi contemplata è che per valori del consumo inferiori al primo quartile, la probabilità di non rispondere al reddito sia nulla, cioè in corrispondenza di un livello di consumo non superiore al primo quartile non si può avere un valore di reddito mancante. 6 Per alcuni recenti esempi di valutazione degli effetti di meccanismi di mancata risposta introdotti, si rinvia a Hu, Salvucci, Weng. e Cohen (1996), Hu, Salvucci e Cohen (1998), Nordholt (1998), Paraloglou ., Salvucci e Hurley (1999). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 415 La specificazione della probabilità di mancata risposta è avvenuta attraverso una funzione di distribuzione di una esponenziale negativa, del tipo x −Q1 −λ 1 − e σ pi = 0 se x > Q1 se x ≤ Q1 dove x rappresenta la variabile esplicativa, cioè il consumo, Q1 è il primo quartile e σ lo scarto quadratico medio della sua distribuzione, λ è stato scelto in maniera tale da fornire il 20% di mancate risposte. In questo caso, Q1=21.400, σ=26.182 e λ=0,443. La generazione delle mancate risposte è avvenuta attraverso l’estrazione di un sottocampione di 1421 osservazioni (il 20% del totale), con probabilità di estrazione proporzionale alla probabilità stimata in base al modello sopra 7 specificato . Il valore del reddito originario osservato su questo sottocampione è stato quindi sostituito da un valore mancante. In tal modo, la distribuzione del reddito originario risulta suddivisa in due sottoinsiemi, la distribuzione dei rispondenti (nR=5.691) e la distribuzione dei non rispondenti artificiali (nM=1.421) 5. LE DISTRIBUZIONI DEI RISPONDENTI E DEI NON RISPONDENTI ARTIFICIALI Le statistiche descrittive della distribuzione del reddito dei rispondenti (Tab. 5.1.) sono tutte sottostimate rispetto alla distribuzione originaria. Ciò conferma che lo specifico meccanismo di non risposta ha effettivamente inciso con probabilità maggiore su redditi mediamente più elevati, determinando anche una riduzione nella dispersione della distribuzione. 7 La selezione del sottoinsieme che avrà il ruolo di insieme dei non rispondenti artificiali è stata prodotta dalla procedura SURVEYSELECT di SAS v.8.1, secondo uno schema di probabilità proporzionale all’ampiezza. Per un approfondimento metodologico, si rinvia a Cicchitelli, Herzel e Montanari (1992). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 416 C. Quintano, R. Castellano e A. Regoli. Tab. 5.1. – Statistiche descrittive della variabile reddito familiare annuo in base al meccanismo di non risposta. Distribuzione dei rispondenti, al netto dei missing (nR= 5.691) e distribuzione dei non rispondenti, missing artificiali (nM = 1.421). Media Scarto quadratico medio Primo quartile Mediana Terzo quartile Asimmetria Curtosi Rispondenti (migliaia di lire) 42.919 35.701 21.858 34.702 54.876 6,54 114,99 Non rispondenti (migliaia di lire) 72.367 54.405 43.682 59.600 81.966 6,90 82,12 Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). In maniera speculare, una chiave di lettura alternativa dell’effetto del meccanismo introdotto, che ovviamente conferma gli elementi di valutazione considerati finora, emerge osservando la distribuzione dei non rispondenti artificiali. In particolare, il reddito medio dei non rispondenti artificiali supera il reddito medio originario di circa il 50%, raggiungendo il valore di 72,4 milioni. Anche la variabilità in termini di scarto quadratico medio è maggiore del 30,3% tra i non rispondenti. La Fig. 5.1. facilita il confronto tra la distribuzione dei rispondenti e quella dei non rispondenti, viste in relazione con la distribuzione originaria sul totale delle osservazioni. L’effetto dell’introduzione della mancata risposta si può evidenziare anche in termini di concentrazione espressa dal reddito medio per decimi di famiglie. La distribuzione dei rispondenti registra valori medi più bassi rispetto alla distribuzione originaria (Tab. 5.2.): la sottostima risulta particolarmente accentuata in corrispondenza dell’ultima classe (114,9 milioni contro 133 milioni, pari al 13,66% in termini percentuali). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 417 redorig redorig 1e+06 .1e+06 28.1 28.1 Rispondenti Non rispondenti redorig .1e+06 28.1 Totale Fig. 5.1. – Rappresentazione box-plot della distribuzione del reddito dei rispondenti (nR=5.691), dei non rispondenti artificiali (nM=1.421) e del totale delle osservazioni (n=7.112). Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 418 C. Quintano, R. Castellano e A. Regoli. Tab. 5.2. – Redditi medi e quote di reddito della variabile reddito familiare annuo per decimi di famiglie. Distribuzione dei rispondenti, al netto dei missing (nR=5.691). Decimi di famiglie Fino al 1° decile Dal 1° al 2° decile Dal 2° al 3° decile Dal 3° al 4° decile Dal 4° al 5° decile Dal 5° al 6° decile Dal 6° al 7° decile Dal 7° all’8° decile Dall’8° al 9° decile Oltre il 9° decile Valore di ripartizione (migliaia di lire) 13.900 19.632 24.440 29.319 34.702 41.340 50.040 61.100 78.576 - Quota di reddito (valori percentuali) 2,2 3,9 5,1 6,3 7,5 8,8 10,6 12,9 16,0 26,7 Reddito medio (migliaia di lire) 9.379 16.840 21.900 26.905 32.152 37.884 45.569 55.127 68.792 114.864 Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). 6. LA RICOSTRUZIONE DELLE MANCATE RISPOSTE PARZIALI CON L’IMPUTAZIONE DA DONATORE CON DISTANZA MINIMA Per ogni unità che presenta un valore mancante in una variabile, l’imputazione da donatore individua un’unità, simile secondo determinati criteri in base alle caratteristiche osservate, che svolga la funzione di donatrice; il valore osservato della variabile per questa seconda unità viene quindi sostituito al valore mancante della prima unità (Ford, 1983). Nel caso in cui le mancate risposte parziali si concentrano tutte su una sola variabile, le osservazioni che presentano valori mancanti costituiscono le unità incomplete da ricostruire, mentre le osservazioni che presentano valori osservati formano il serbatoio dei donatori. Così come sviluppato nella procedura RIDA (Ricostruzione delle Informazioni con Donazione Automatica; Abbate, 1997), il metodo del donatore con distanza minima valuta la somiglianza tra due unità in termini delle variabili osservate, introducendo un’opportuna metrica in base alla scala di misura di ogni variabile. Per variabili qualitative sconnesse (tipo X), la distanza è nulla se le due unità i e j presentano la stessa modalità e massima (pari a 1) se, al contrario, assumono modalità diverse, ossia: Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 419 0 se X i = X j DX ij = . 1 se X X ≠ i j Per variabili qualitative ordinabili con m classi (tipo C), la distanza normalizzata è data dal rapporto tra la differenza assoluta dei valori delle classi e il numero delle classi meno uno, cioè: se X i = X j 0 DCij = r − s m − 1 se X i = r, X j = s, r ≠ s Se la variabile è qualitativa classificata gerarchicamente (tipo G), la distanza (DG) è misurata in base al numero di cifre differenti a partire dall’ultima cifra. Date due generiche modalità (codici numerici Xi e Xj), due unità distano 0 se tutte le cifre della modalità sono uguali, distano 1 se solo l’ultima cifra è diversa, distano 2 se le ultime due cifre sono diverse, e così via. La normalizzazione della distanza avviene dividendo per il numero delle cifre. Per variabili quantitative (tipo N), la distanza è definita dal rapporto tra la differenza assoluta dei valori delle due unità e la differenza tra il valore massimo e minimo della variabile, ossia: DN ij = Xi − X j X max − X min Le variabili da utilizzare per il confronto possono essere suddivise in variabili di strato e variabili di matching. Le variabili di strato definiscono raggruppamenti di osservazioni omogenei al loro interno e vincolano la ricerca del donatore entro tali gruppi. Le variabili di matching sono quelle effettivamente utilizzate per il calcolo della distanza. La scelta delle variabili ausiliarie da Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 420 C. Quintano, R. Castellano e A. Regoli. considerare e del loro ruolo nell’ambito della procedura deve avvenire in base all’associazione con la variabile da ricostruire. Ad ogni variabile di matching, inoltre, può essere assegnato un peso, determinabile in base al grado di dipendenza tra ciascuna variabile di matching e la variabile che presenta dati mancanti. A partire dalle distanze elementari, è possibile definire una funzione di distanza mista Dij tra ogni osservazione incompleta i e ogni potenziale donatore j, ottenuta come somma ponderata delle singole distanze semplici, a cui viene aggiunto un fattore di penalizzazione U dovuto all’utilizzo ripetuto di una stessa unità donatrice: NX NC NG NN l =1 l =1 l =1 l =1 Dij = ∑ DX ijl ⋅ WX l + ∑ DCijl ⋅ WCl + ∑ DGijl ⋅ WGl + ∑ DN ijl ⋅ WN l + r j ⋅ U , dove NX, NC, NG e NN rappresentano il numero di variabili della stessa tipologia, WX, WC, WG e WN i pesi di ciascuna variabile e rj indica il numero di riutilizzi del donatore. Nell’ambito di ogni strato, il valore mancante di un’osservazione viene sostituito dal valore osservato riferito a quell’unità che presenta, tra tutti i potenziali donatori, il valore minimo della distanza mista Dij dall’unità incompleta. La procedura permette di fissare a priori il numero massimo di volte in cui uno stesso record donatore può essere utilizzato e anche il limite massimo della distanza tra due record alla quale può avvenire la donazione. 7. LA RICOSTRUZIONE DELLE MANCATE RISPOSTE PARZIALI CON L’IMPUTAZIONE MULTIPLA L’imputazione multipla, introdotta da Rubin (1987), sostituisce ad ogni valore mancante un vettore di m valori, con m≥2. In questo modo, si arriva a disporre di m insiemi di dati completi, ognuno dei quali può essere analizzato con le procedure statistiche standard. Le stime ricavate da ogni dataset sono Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 421 poi combinate tra di loro in modo da fornire una stima che rifletta in maniera appropriata la variabilità dovuta alla presenza delle mancate risposte. Se il parametro di interesse della popolazione si indica con Q e gli stimatori ricavati dagli m dataset Q1, con Q2,…,Qm, rispettivamente U1, U2,…,Um, lo stimatore combinato con varianza Q̂ si ottiene come media degli m stimatori: 1 m ˆ Q = ∑ Qi m i =1 La sua varianza è data dalla somma di tre componenti: la media delle m varianze calcolate sui dati completi (U ) , la varianza tra le stime calcolate sugli m dataset (componente between, B) e una funzione di quest’ultima e del numero m delle replicazioni (B/m): B Var (Qˆ ) = U + B + = U + (1 + m −1 ) ⋅ B , m 1 m 1 m dove U = Ui e B = Qi − Qˆ ∑ ∑ m i =1 m − 1 i =1 ( La componente di varianza ) 2 interna U è dovuta alla variabilità campionaria, la componente B riflette la variabilità del meccanismo di non risposta e la componente B/m la variabilità ulteriore dovuta al numero delle replicazioni effettuate; al tendere di m a + ∞ , questa componente tende ad annullarsi. Per costruire intervalli di confidenza e test di ipotesi sul parametro Q, la distribuzione approssimata di riferimento è la t di Student con v gradi di libertà, dove v = (m − 1) ⋅ (1 + r −1 ) 2 Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 422 C. Quintano, R. Castellano e A. Regoli. (1 + m )⋅ B r= −1 con U che misura l’incremento relativo della varianza causato dalla mancata risposta. La quota di informazione mancante dovuta alla non risposta si ricava dalla seguente formula: γ = r + 2 /(v + 3) r +1 e, al tendere di m a + ∞ , corrisponde alla percentuale di variabilità totale dovuta alla componente extracampionaria. Il principio dell’imputazione multipla si inquadra in un ambito bayesiano: le m imputazioni, infatti, sono m estrazioni dalla distribuzione predittiva a posteriori dei dati mancanti, una volta scelto un modello per i dati e per il meccanismo di non risposta. La distribuzione a posteriori dei dati mancanti, definita da: f (Ymanc | X , Yoss , R ) dipende dalle variabili esplicative X, dai valori osservati della stessa variabile obiettivo Y (Yoss) e dalla variabile risposta R. Dalla distribuzione a posteriori dei dati mancanti deriva poi la distribuzione a posteriori del parametro incognito Q, sulla quale si basa l’inferenza bayesiana. Ipotizzando ignorabile il meccanismo di generazione della mancata risposta, non è necessario includere la variabile R tra le condizionanti e la distribuzione a posteriori dei dati mancanti diviene: f (Ymanc | X , Yoss ) Nell’ipotesi ulteriore di specificazione di un modello esplicito per i dati, la procedura dell’imputazione multipla si sviluppa in tre fasi: Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 423 1. la scelta del modello 2. la stima dei parametri 3. l’imputazione Al primo stadio, si sceglie un modello per i dati (per esempio, il modello di regressione lineare multipla), da cui dipende la distribuzione a posteriori dei dati mancanti. Successivamente, nel passo di stima, viene formulata la distribuzione a posteriori dei parametri del modello al fine di poterne estrarre dei valori. Per l’imputazione si estrae un valore dalla distribuzione a posteriori dei dati mancanti, e questa operazione si svolge in due passi: nel primo si estrae un parametro dalla distribuzione a posteriori ottenuta nella fase di stima e poi si estrae un valore dalla distribuzione a posteriori dei dati mancanti, condizionatamente al parametro stimato. Ripetendo il procedimento m volte, si ottengono le m imputazioni. 8. LA VALUTAZIONE DONATORE DELLA PROCEDURA DI IMPUTAZIONE DA Per la sperimentazione del metodo da donatore, si è fatto ricorso al software RIDA, implementato nel sistema CONCORD (CONtrollo e CORrezione 8 Dati), sviluppato dall’ISTAT in ambiente SAS . L’insieme dei rispondenti (5.691 unità) rappresenta il serbatoio dei donatori. La distanza mista minima viene calcolata sulla base di quattro variabili di matching: queste variabili, che presentano la correlazione più alta con il reddito, sono la spesa per consumi e la ricchezza familiare (variabili numeriche), il titolo di studio e la qualifica professionale del capofamiglia (variabili categoriche). A ciascuna delle variabili di matching viene affiancato un 8 Si ringraziano il dott. Giulio Barcaroli del Servizio “Metodologia di base per la produzione statistica” dell’ISTAT per aver concesso la disponibilità all’uso del programma, peraltro non ancora definitivo, insieme al dott. Paolo Floris e Ercole Riccini Margarucci , anch’essi del Servizio “Metodologia di base per la produzione statistica” dell’ISTAT, per i frequenti contatti avuti per la soluzione dei vari problemi di funzionamento. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 424 C. Quintano, R. Castellano e A. Regoli. peso proporzionale all’intensità della sua associazione con il reddito. Come variabile di stratificazione è stato poi introdotto il numero di percettori: in base al numero di percettori si individuano, infatti, gruppi di famiglie omogenee al loro interno e disomogenee tra di loro con riferimento al reddito familiare. Questo permette di far eseguire la ricerca del donatore tra le famiglie che hanno lo stesso numero di percettori della famiglia con reddito mancante. Come informazioni di controllo della procedura, si fa riferimento al numero di volte in cui ciascun donatore viene utilizzato e al valore della distanza alla quale avviene l’accoppiamento. I record utilizzati più di una volta, fino ad un massimo di sei ripetizioni, sono 263. In quattro casi, poi, la ricerca del donatore si realizza a distanza nulla; in altre parole, per quattro famiglie con reddito mancante si individuano, nell’ambito dello stesso strato, altrettante famiglie che, nel serbatoio dei donatori, presentano i medesimi valori delle variabili di matching. La ricerca del donatore, infine, ha sempre esito positivo, cioè non si raggiunge mai il limite di riutilizzo di uno stesso donatore né il limite massimo della distanza tra due record. I risultati ottenuti con il metodo da donatore così definito (4 variabili di matching e 1 variabile di stratificazione) possono essere confrontati con una specificazione più generale e quindi meno affinata: questa considera come variabili di matching tutte le informazioni disponibili, alle quali viene dato lo stesso peso, e non introduce variabili di stratificazione (metodo del donatore con 17 variabili di matching). Con questo metodo, 254 donatori sono utilizzati più di una volta - al massimo 4 volte - e nessun accoppiamento avviene a distanza nulla. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 425 9. LA VALUTAZIONE DELLA PROCEDURA DI IMPUTAZIONE MULTIPLA: LA VARIABILITÀ CAMPIONARIA E NON CAMPIONARIA 9 Per l’imputazione multipla basata sulla regressione , il numero m di replicazioni è stato stabilito pari a 10, ritenendo questo valore una soglia di convergenza “ragionevole” per la stabilità dei risultati, condizionatamente al peso relativo dell’informazione mancante. Il modello di regressione utilizzato per le procedure di imputazione multipla è stimato sull’insieme dei rispondenti (5.691 unità). La variabile dipendente (reddito familiare) è espressa in forma logaritmica: la trasformazione è necessaria in quanto i dati espressi nella loro unità di misura di base non rispettano le ipotesi di normalità richieste dal modello. Tra le variabili esplicative, anche le altre variabili monetarie, consumo e ricchezza, sono introdotte nel modello con la trasformazione logaritmica. Essendo il modello di regressione utilizzato nell’ambito di una procedura di imputazione, la scelta delle covariate non sottintende necessariamente una relazione di dipendenza del reddito da tali variabili, intese come esplicative dei livelli di reddito. Nel caso della relazione reddito-consumo, anche se una parte della teoria economica utilizza il reddito come variabile indipendente per spiegare il consumo, qui, per imputare dati di reddito, si include invece il consumo tra le variabili esplicative del reddito. Ciò è motivato dalla considerazione che escludere il consumo equivale ad assumere una correlazione parziale nulla tra reddito e consumo, condizionatamente alle altre variabili incluse nel modello specificato per l’imputazione (Raghunathan e Paulin, 1998). Sempre allo scopo di evitare di assumere a priori una correlazione nulla tra il reddito e le altre variabili osservate, si rende necessario includere nel modello di regressione un elevato numero di variabili esplicative, anche a costo di considerare variabili dal contributo trascurabile (Rubin, 1996). 9 Da un punto di vista operativo, la procedura implementata per l’imputazione multipla è quella contenuta nel software SOLAS v.3.0. Per una aggiornata rassegna comparativa dei diversi software disponibili per l’imputazione multipla con regressione, si rinvia a Horton e Lipsitz (2001). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 426 C. Quintano, R. Castellano e A. Regoli. Per l’interpretazione dei risultati del modello di regressione stimato, si rinvia a Quintano, Castellano e Regoli (2001). Come indicatore di funzionamento del processo, la scomposizione della varianza dello stimatore combinato “reddito medio” rappresenta un’utile informazione di diagnostica per valutare l’impatto dei dati mancanti sui risultati finali. L’effetto della procedura di imputazione multipla sulla variabilità del reddito medio può essere valutata confrontando la varianza dello stimatore combinato con la varianza dello stimatore derivato da una procedura di imputazione singola; a questo scopo, il risultato derivante dalla prima replicazione (m=1) può essere letto come output dell’applicazione di un’imputazione singola. Come ci si poteva aspettare, la variabilità complessiva cresce quando si effettua un’imputazione multipla invece di una singola: l’aumento nella varianza è pari al 6,95% (Tab. 9.1.). Con riferimento al peso relativo delle componenti di variabilità campionaria e non campionaria, quest’ultima spiega circa il 10% della variabilità complessiva; tale quota non differisce molto dalla frazione di informazione mancante dovuta alla nonrisposta, che fornisce infatti la stessa informazione al tendere all’infinito del numero delle replicazioni effettuate. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 427 Tab. 9.1. – Procedura di imputazione multipla del reddito familiare annuo. Scomposizione della varianza dello stimatore reddito medio in base al numero delle replicazioni. m=1 m=10 Componenti della varianza U 262.411 254.005 B - 24.217 B/m - 2.422 262.411 280.644 - 6,95% Varianza totale Incremento % della varianza rispetto a m=1 Composizione % U 100,00% 90,51% 0,00% 9,49% Aumento relativo nella varianza dovuto alla non risposta - 0,1049 Gradi di libertà - 999 Percentuale di informazione mancante dovuta alla non risposta - 0,0967 B+B/m Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). Nota: U=varianza interna delle replicazioni; B=varianza tra le replicazioni 10. L’ACCURATEZZA DEI PROCESSI DI RICOSTRUZIONE NELL’INSIEME DEL COLLETTIVO In questo lavoro, al fine di procedere ad un giudizio globale delle procedure di imputazione del reddito, data la scelta effettuata di generare artificialmente i dati mancanti, si può pensare di privilegiare la valutazione degli scostamenti tra i redditi originari ed imputati delle singole unità del subcollettivo dei non rispondenti. Tuttavia, non si può fare a meno di considerare alcune connotazioni di tutto l’insieme delle determinazioni dei redditi, a seguito del compimento dei processi di ricostruzione, in quanto è proprio la distribuzione finale ricostruita che alimenta la matrice dei dati realmente a disposizione degli statistici economici. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 428 C. Quintano, R. Castellano e A. Regoli. Le statistiche descrittive della distribuzione dei redditi ricostruita attraverso i differenti metodi sono presentate nella Tab. 10.1. Se si utilizzano le procedure di imputazione da regressione (sia imputazione multipla che singola), il valore del reddito medio risulta sovrastimato rispetto al valore vero, mentre con le procedure basate sul metodo da donatore risulta sottostimato. Il valore massimo della media della distribuzione ricostruita secondo i differenti metodi è pari a 49,4 milioni (imputazione semplice con regressione) e il valore minimo è pari a 45,9 milioni (imputazione da donatore con il set completo di variabili di matching). Quanto ai principali indici di posizione, il primo e il secondo quartile di tutte le distribuzioni ricostruite sono inferiori ai rispettivi indici della distribuzione originaria; per il terzo quartile, si osserva, invece, che i metodi che utilizzano la regressione producono valori superiori rispetto a quello della distribuzione originaria, a differenza dei metodi da donatore. Tab. 10.1. – Statistiche descrittive della variabile reddito familiare annuo in base al metodo di stima dei dati mancanti. Distribuzione finale ricostruita (n F =n R +n I =7.112). Media Scarto quadratico medio Primo quartile Mediana Terzo quartile Asimmetria Curtosi Concentrazione Imputazione multipla da regressione (m=10). 17 variabili esplicative (migliaia di lire) 49.107 42.503 23.953 38.375 61.643 5,36 71,97 0,3853 Imputazione semplice da regressione. 17 variabili esplicative Imputazione da donatore. 17 variabili di matching (migliaia di lire) 49.414 43.200 23.908 38.400 61.940 5,09 59,46 0,3888 (migliaia di lire) 45.920 35.928 23.864 37.864 58.840 5,64 91,99 0,3580 Imputazione da donatore. 4 variabili di matching; 1 variabile di stratificazione (migliaia di lire) 47.395 38.097 24.264 38.840 61.225 5,95 92,12 0,3641 Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). L’imputazione da regressione approssima per eccesso anche l’indice di concentrazione, al contrario dei metodi che utilizzano il donatore. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 429 Le differenze, comunque contenute, tra le statistiche descrittive della distribuzione originaria e di quelle ricostruite sono in parte riconducibili al peso consistente dei rispondenti (80%) che formano il collettivo completo, e che attenua l’effetto dello specifico meccanismo di ricostruzione dei dati mancanti. Tenendo conto di un tipo di utilizzazione usuale dei dati di reddito nell’analisi economica, e in particolare nell’ambito dell’analisi della disuguaglianza, si è testato l’effetto delle due principali procedure di ricostruzione (imputazione multipla da regressione e imputazione da donatore con 4 variabili di matching ed una variabile di stratificazione) sulla distribuzione della quota di reddito e del reddito medio per decimi di famiglie. Nella distribuzione ricostruita con l’imputazione multipla (Tab. 10.2.), il 10% delle famiglie più ricche detiene il 28,5% del reddito e ad esse corrisponde un reddito medio pari a 140,2 milioni; nella distribuzione ricostruita con il metodo del donatore, invece (Tab. 10.3.), il 10% delle famiglie più ricche assorbe il 26,4% del reddito, corrispondente ad un reddito medio di 125,3 milioni. Questi risultati sono evidentemente coerenti con i valori sopra commentati dell’indice di concentrazione. Tab. 10.2. – Redditi medi e quote di reddito della variabile reddito familiare annuo per decimi di famiglie. Distribuzione finale ricostruita (n F =n R +n I =7.112). Imputazione multipla da regressione. Decimi di famiglie Fino al 1° decile Dal 1° al 2° decile Dal 2° al 3° decile Dal 3° al 4° decile Dal 4° al 5° decile Dal 5° al 6° decile Dal 6° al 7° decile Dal 7° all’8° decile Dall’8° al 9° decile Oltre il 9° decile Valore di ripartizione (migliaia di lire) 14.981 21.273 26.817 32.412 38.375 46.311 55.697 68.342 91.167 - Quota di reddito (valori percentuali) 2,1 3,8 4,9 6,0 7,2 8,6 10,4 12,6 15,9 28,5 Reddito medio (migliaia di lire) 10.290 18.375 24.022 29.534 35.291 42.350 50.934 61.790 78.426 140.198 Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 430 C. Quintano, R. Castellano e A. Regoli. Tab. 10.3. – Redditi medi e quote di reddito della variabile reddito familiare annuo per decimi di famiglie. Distribuzione finale ricostruita (n F =n R +n I =7.112). Imputazione da donatore (4 variabili di matching; 1 variabile di stratificazione) Decimi di famiglie Fino al 1° decile Dal 1° al 2° decile Dal 2° al 3° decile Dal 3° al 4° decile Dal 4° al 5° decile Dal 5° al 6° decile Dal 6° al 7° decile Dal 7° all’8° decile Dall’8° al 9° decile Oltre il 9° decile Valore di ripartizione (migliaia di lire) 15.000 21.516 27.152 32.936 38.840 46.334 55.267 67.065 85.630 - Quota di reddito (valori percentuali) 2,2 3,9 5,1 6,3 7,5 9,0 10,8 12,9 16,0 26,4 Reddito medio (migliaia di lire) 10.269 18.529 24.321 29.904 35.666 42.546 50.885 61.205 75.570 125.253 Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). Le procedure di imputazione vanno comparate tenendo conto del maggiore o minore grado di aderenza ai principi ai quali le politiche di qualità richiedono di ispirarsi. Tali principi, nel contesto della valutazione della ricostruzione dell'intero collettivo finale ricostruito, riguardano: a) la conservazione delle statistiche della distribuzione b) la conservazione della correlazione tra reddito e covariate 10.1. CONSERVAZIONE DELLE STATISTICHE DELLA DISTRIBUZIONE Le modificazioni di ciascuna costante caratteristica dei redditi delle 7.112 famiglie del campione a seguito dell’applicazione del metodo di imputazione per la ricostruzione dei redditi vengono segnalate dalla famiglia degli indici di distorsione, così espressa per una generica statistica T con riferimento alla distribuzione finale (fin) e originaria (orig): Distorsione assoluta D A = T fin − Torig Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 431 Distorsione relativa dove T fin DR = T fin − Torig Torig 1 m ˆ = T fin = ∑ Ti , fin nel caso in cui la ricostruzione avvenga con m i =1 l’imputazione multipla. In termini assoluti, la distorsione nel reddito medio generata dall’imputazione multipla è pari a +638mila lire, rispetto ad un valore di -1.073mila prodotto dal metodo da donatore; in termini di distorsione relativa, 1,32% contro –2,21% (Tab. 10.1.1.). Tab. 10.1.1. – Indicatori di valutazione della procedura di imputazione del reddito. Conservazione delle statistiche della distribuzione del reddito familiare annuo in base al metodo di stima dei dati mancanti (n F =n R +n I =7.112). Media Scarto quadratico medio 1° decile 2° decile Primo quartile 3° decile 4° decile Mediana 6° decile 7° decile Terzo quartile 8° decile 9° decile Asimmetria Curtosi Concentrazione Imputazione multipla da regressione (m=10). 17 variabili esplicative DA DR 638 1,32% 744 1,78% –19 –0,13% –319 –1,48% –574 –2,34% –434 –1,59% –728 –2,20% –1.005 –2,55% –889 –1,88% –287 –0,51% 353 0,58% 805 1,19% 4.315 4,97% –1,48 –21,60% –34,05 –32,11% 0,01 3,46% Imputazione da donatore. 4 variabili di matching; 1 variabile di stratificazione DA DR –1.073 –2,21% –3.661 –8,77% 0 0,00% –76 –0,35% –264 –1,07% –100 –0,37% –204 –0,61% –540 –1,37% –866 –1,83% –717 –1,28% –65 –0,11% –473 –0,70% –1.221 –1,41% –0,89 –12,98% –13,90 –13,11% –0,0083 –2,23% Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). Nota: DA = distorsione assoluta; DR = distorsione relativa. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 432 C. Quintano, R. Castellano e A. Regoli. Il metodo da donatore sottostima anche la variabilità espressa in termini di scarto quadratico medio (–8,77% in termini relativi contro una distorsione positiva e pari a 1,78% per l’imputazione multipla). Per i decili della distribuzione, l’imputazione da donatore ricostruisce valori che sono tutti inferiori agli originari; gli scostamenti sono comunque assai contenuti, inferiori al 2%. Con l’imputazione multipla si osservano, invece, distorsioni di segno negativo fino al settimo decile e di segno positivo per l’ottavo e il nono decile; in particolare, per l’ultimo decile, la differenza è consistente e pari a circa il 5%. 10.2. CONSERVAZIONE DELLA CORRELAZIONE TRA IL REDDITO E LE COVARIATE Per variabili quantitative, le differenze tra il coefficiente di correlazione nella distribuzione finale ricostruita (fin) e in quella originaria (orig) sono misurate dai seguenti indici: Distorsione assoluta Distorsione relativa dove rfin D A = rfin − rorig DR = rfin − rorig rorig 1 m = rˆfin = ∑ ri , fin nel caso in cui la ricostruzione avvenga con m i =1 l’imputazione multipla. Nella distribuzione ricostruita con l’imputazione, il coefficiente di correlazione tra reddito e variabili economiche subisce, in termini di distorsione relativa, una accentuata riduzione (Tab. 10.2.1.). La correlazione tra consumo e reddito, infatti, risulta sottostimata con entrambi i metodi di imputazione, in misura maggiore con il metodo da donatore (-16,11% contro –13,10%); la correlazione tra ricchezza e reddito, invece, evidenzia una distorsione minore quando l’imputazione viene effettuata da donatore (–8,75% contro –14,38%). Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 433 Tab. 10.2.1. – Indicatori di valutazione della procedura di imputazione del reddito. Conservazione della correlazione tra reddito familiare annuo e covariate in base al metodo di stima dei dati mancanti (n F =n R +n I =7.112). Imputazione multipla da regressione (m=10). 17 variabili esplicative DA Variabili quantitative Consumo familiare Ricchezza familiare Età del capofamiglia Numero di percettori Numero di componenti Superficie dell’abitazione Variabili categoriali Sesso del capofamiglia Titolo di studio del capofamiglia Stato civile del capofamiglia Qualifica professionale del capofamiglia Settore di attività del capofamiglia Qualifica professionale del coniuge Ripartizione territoriale Possesso di depositi bancari Possesso di titoli di Stato Possesso di obbligazioni e quote di fondi comuni Possesso di azioni e partecipazioni Titolo di godimento dell’abitazione Caratteristiche della zona Tipologia dell’abitazione Possesso di altri immobili –0,09 –0,06 –0,01 0,05 0,03 –0,01 –0,0010 –0,0209 0,0055 Imputazione da donatore. 4 variabili di matching; 1 variabile di stratificazione DR DA DR Coefficiente di correlazione lineare di Bravais-Pearson r –13,10% –0,11 –16,11% –14,38% –0,04 –8,75% –10,97% –0,02 –18,88% 12,64% 0,03 7,30% 13,45% 0,02 6,12% –2,49% –0,02 –7,64% Rapporto di correlazione η –0,52% 0,0012 –5,21% 0,0111 2,48% 0,0050 0,67% 2,76% 2,23% –0,0085 0,0043 0,0104 0,0010 –0,0074 0,0060 –2,27% 1,92% 2,96% 0,50% –2,59% 2,81% –0,0035 0,0002 0,0106 0,0000 0,0068 –0,0084 –0,93% 0,10% 3,02% –0,02% 2,39% –3,96% 0,0018 –0,0164 –0,0006 –0,0145 –0,0239 –0,0303 0,55% –4,75% –0,29% –7,46% –8,94% –10,50% –0,0143 –0,0321 0,0032 –0,0092 –0,0183 –0,0152 –4,40% –9,27% 1,44% –4,73% –6,84% –5,26% Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). Nota: DA = distorsione assoluta; DR = distorsione relativa. Per quanto riguarda, infine, le variabili di composizione familiare, l’imputazione da donatore, che utilizza il numero di percettori come variabile di stratificazione, determina una distorsione minore nel legame associativo tra reddito e numero di percettori e tra reddito e numero di componenti, a differenza di quanto accade con l’imputazione multipla. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 434 C. Quintano, R. Castellano e A. Regoli. Per variabili categoriali, i corrispondenti indici sono costruiti in funzione dell’indice di connessione: Distorsione assoluta Distorsione relativa dove η fin = ηˆ fin = D A = η fin − ηorig DR = η fin − ηorig ηorig 1 m ∑ηi , fin nel caso in cui la ricostruzione avvenga con m i =1 l’imputazione multipla. Se la ricostruzione dei dati mancanti è affidata al metodo da donatore, le relazioni tra ogni variabile categoriale ed il reddito subiscono distorsioni relative che, in valore assoluto, vanno da un minimo di 0,02% ad un massimo di 9,27%. Con l’imputazione multipla, al contrario, le distorsioni, in valore assoluto, sono comprese tra 0,29% e 10,50%. 11. L’ACCURATEZZA DEI PROCESSI DI SUBCOLLETTIVO DEI NON RISPONDENTI RICOSTRUZIONE NEL I principi delle politiche di qualità nel contesto della valutazione della ricostruzione nel solo subcollettivo dei non rispondenti riguardano: a) la conservazione dei singoli valori b) la conservazione delle statistiche della distribuzione dei valori imputati 11.1. CONSERVAZIONE DEI SINGOLI VALORI Un aspetto differente dalla valutazione dell’impatto della procedura di imputazione multipla sulla intera distribuzione è quello che investe l’accuratezza Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 435 nella ricostruzione dei microdati cancellati. Questa indicazione è fornita dai seguenti indicatori: Scarto medio assoluto 1 SA = nM nM ∑ Yk ,imp − Yk ,miss ⋅ wk ∑ wk k =1 k =1 Scarto medio relativo SR = nM 1 ∑ nM Yk ,imp − Yk ,miss Yk ,miss ∑ wk k =1 ⋅ wk k =1 Deviazione standard DS = 1 nM nM ∑ (Yk ,imp − Yk ,miss )2 ⋅ wk ∑ wk k =1 k =1 dove Yk ,imp 1 m ˆ = Yk ,imp = ∑ Yik ,imp nel caso in cui la ricostruzione avvenga m i =1 con l’imputazione multipla. Indicatore di reintegro al 10% R10 = 1 nM nM ∑Vk ⋅ wk , ∑ wk k =1 k =1 dove 1 Vk = 0 se Yk ,miss − 10%Yk ,miss < Yk ,imp < Yk ,miss + 10%Yk ,miss se {Yk ,imp ≤ Yk ,miss − 10%Yk ,miss }∪ {Yk ,imp ≥ Yk ,miss + 10%Yk ,miss } Lo scarto medio assoluto è pari a 22.634 per l’imputazione multipla e raggiunge il valore massimo di 35.375 per l’imputazione singola da regressione (Tab. 11.1.1.); anche in termini relativi, gli indicatori si muovono nella stessa direzione. Fra i due metodi da donatore, quello che considera solo 4 variabili di matching pesate e una variabile di stratificazione dà origine a differenze medie Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 436 C. Quintano, R. Castellano e A. Regoli. più piccole nei confronti dell’altro metodo che utilizza tutte le variabili esplicative come variabili di matching. Tab. 11.1.1. – Indicatori di valutazione della procedura di imputazione del reddito. Conservazione dei singoli valori dei redditi imputati in base al metodo di stima dei dati mancanti (n i =1.421). Scarto medio assoluto (SA) Scarto medio relativo (SR) Deviazione standard (DS) Indicatore di reintegro al 10% (R10) Imputazione multipla da regressione (m=10). 17 variabili esplicative 22.634 0,3153 42.298 0,2637 Imputazione semplice da regressione. 17 variabili esplicative 35.375 0,5052 58.360 0,1340 Imputazione da donatore. 17 variabili di matching 28.928 0,3760 55.363 0,1891 Imputazione da donatore. 4 variabili di matching; 1 variabile di stratificazione 25.272 0,3436 48.933 0,2137 Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). La percentuale media di casi in cui il reddito imputato ricade nell’intervallo intorno al corrispondente valore originario e di semiampiezza pari al 10% dello stesso valore originario (espressa dall’indicatore di reintegro R10) è massima e pari al 26,37% per l’imputazione multipla e minima (13,40%) per l’imputazione singola da regressione. In sintesi, in termini di conservazione dei singoli valori perturbati, la ricostruzione con l’imputazione multipla sembra da preferire rispetto agli altri metodi, presentando indicatori più favorevoli Di questi risultati occorre tener conto nelle situazioni in cui l’analisi dei redditi richiede di rivolgere l’attenzione al livello micro. Un esempio tipico riguarda le analisi longitudinali, in cui è indispensabile garantire che ogni singolo dato mancante sia ricostruito con la massima fedeltà a quello che sarebbe stato il dato effettivo, se si fosse osservato. Solo il rispetto di questa condizione permette di evitare incompatibilità nei percorsi longitudinali e nelle relazioni causali con le determinanti del reddito, per poter analizzare correttamente i processi dinamici di formazione e utilizzo delle risorse. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 437 Come per la valutazione della ricostruzione in termini aggregati, anche in questo caso ci si può concentrare solo sui risultati ottenuti con l’imputazione multipla da regressione e l’imputazione da donatore con 4 variabili di matching e una variabile di stratificazione. Più specificamente, all’interno della subdistribuzione dei redditi imputati con entrambe le procedure, i primi tre indicatori di valutazione della “conservazione dei singoli valori” sono stati ricalcolati per decimi di famiglie (Tab. 11.1.2.). Ancora una volta si evidenzia che la ricostruzione dei microdati appare meno efficace per le classi estreme di reddito, particolarmente per i redditi più bassi in termini di scarto medio relativo e per i redditi più alti in base allo scarto medio assoluto. Tab. 11.1.2. – Indicatori di valutazione della procedura di imputazione del reddito. Conservazione dei singoli valori per decimi di famiglie calcolati sulla distribuzione dei redditi imputati in base al metodo di stima dei dati mancanti (n i =1.421). Decimi di famiglie Fino al 1° decile Dal 1° al 2° decile Dal 2° al 3° decile Dal 3° al 4° decile Dal 4° al 5° decile Dal 5° al 6° decile Dal 6° al 7° decile Dal 7° all’8° decile Dall’8° al 9° decile Oltre il 9° decile Imputazione multipla da regressione (m=10). 17 variabili esplicative SA SR DS 12.494 0,5704 17.001 10.691 0,2910 18.323 14.962 0,3421 21.455 13.128 0,2630 18.255 13.913 0,2485 19.099 16.547 0,2602 22.050 18.308 0,2525 25.888 22.176 0,2653 29.999 33.658 0,3269 45.185 70.597 0,3318 109.697 Imputazione da donatore. 4 variabili di matching; 1 variabile di stratificazione SA SR DS 11.899 0,5175 17.854 11.478 0,3131 17.229 15.935 0,3624 22.053 21.563 0,4344 36.480 14.767 0,2627 20.045 19.163 0,3020 25.098 20.849 0,2880 34.050 20.072 0,2421 27.759 29.203 0,2834 35.895 87.979 0,4298 131.522 Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). Nota: SA = scarto medio assoluto; SR = scarto medio relativo; DS = deviazione standard. 11.2. CONSERVAZIONE DELLE STATISTICHE DELLA DISTRIBUZIONE Tale principio, già calato sull’insieme delle 7.112 osservazioni parzialmente ricostruite, viene applicato anche per i soli 1.421 dati ricostruiti utilizzando i seguenti indici, definiti sempre per una generica statistica T con Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 438 C. Quintano, R. Castellano e A. Regoli. riferimento alla distribuzione dei soli redditi imputati (imp) e alla corrispondente distribuzione originaria (miss): Distorsione assoluta Distorsione relativa dove Timp D A = Timp − Tmiss DR = Timp − Tmiss Tmiss 1 m ˆ = Timp = ∑ Ti ,imp nel caso in cui la ricostruzione avvenga con m i =1 l’imputazione multipla. Valutando il processo di ricostruzione dei dati sulla base della distribuzione dei soli redditi imputati, le distorsioni si amplificano rispetto a quelle calcolate sull’intera distribuzione completa finale. In particolare, con l’imputazione multipla, la media dei valori imputati supera del 4,68% la media dei valori cancellati (Tab. 11.2.1.); anche la variabilità e gli indici di posizione a partire dalla mediana risultano sovrastimati, questi ultimi di una quota progressivamente maggiore, che arriva al 19,33% per l’ultimo decile. Con l’imputazione da donatore, ad una stima per difetto della media e della variabilità si accompagnano sottostime in tutti gli indici di posizione, meno pronunciate nella parte centrale della distribuzione; per l’ultimo decile la distorsione è pari a –9,31%. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 439 Tab. 11.2.1. – Indicatori di valutazione della procedura di imputazione del reddito. Conservazione delle statistiche della distribuzione del reddito dei valori imputati in base al metodo di non risposta (ni = 1.421). Media Scarto quadratico medio 1° decile 2° decile Primo quartile 3° decile 4° decile Mediana 6° decile 7° decile Terzo quartile 8° decile 9° decile Asimmetria Curtosi Imputazione multipla da regressione (m=10). 17 variabili esplicative DA DR 3.389 4,68% 1.344 2,47% –4.788 –15,05% –4.434 –11,12% –4.307 –9,86% –3.945 –8,37% –2.164 –4,04% 853 1,43% 3.343 4,36% 8.749 9,73% 11.804 14,40% 14.954 12,63% 22.882 19,33% –3,18 –46,02% –49,16 –59,86% Imputazione da donatore. 4 variabili di matching; 1 variabile di stratificazione DA DR –5.695 –7,87% –12.833 –23,59% –1.578 –4,96% –2.938 –7,37% –2.914 –6,67% –3.138 –6,66% –2.044 –3,82% –652 –1,09% –1.108 –1,64% –555 –0,72% –2.093 –2,55% –4.123 –4,58% –11.022 –9,31% –1,41 –20,39% –17,26 –21,02% Fonte: Elaborazioni ad hoc degli Autori su dati originari rilevati per l’Indagine I Bilanci delle famiglie italiane nell’anno 1998 (Banca d’Italia, 2000). Nota: DA = distorsione assoluta; DR = distorsione relativa. 12. CONCLUSIONI La ricchezza informativa del dataset dell’Indagine sui bilanci delle famiglie italiane della Banca d’Italia garantisce la disponibilità di un gran numero di variabili da utilizzare per la ricostruzione dei valori mancanti di reddito familiare. Le potenzialità si estendono ulteriormente se si introduce come informazione ausiliaria anche quella riferita alla dimensione longitudinale dell’indagine, per le famiglie intervistate con successo in precedenti occasioni della stessa rilevazione. Il presente lavoro, tuttavia, sfrutta soltanto la dimensione trasversale dell’indagine, rinviando a successivi approfondimenti l’introduzione della componente longitudinale. La ricostruzione dei redditi è avvenuta attraverso due differenti metodi: l’imputazione multipla a partire da un modello di regressione e l’imputazione da donatore con il metodo della distanza minima Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 440 C. Quintano, R. Castellano e A. Regoli. Dalla valutazione del processo di ricostruzione in base al corretto ripristino dei singoli valori di reddito (secondo un punto di vista micro), si evidenzia che l’imputazione multipla presenta indicatori più favorevoli rispetto al metodo da donatore, con scarti medi sistematicamente inferiori. A livello aggregato, in virtù del tasso ridotto di dati perturbati e resi mancanti artificialmente (pari al 20%), l’intera distribuzione del reddito ricostruita con le due tecniche non presenta differenze rilevanti rispetto alla distribuzione originaria. Tuttavia, con l’imputazione multipla, la media e tutti gli indici di variabilità, sia in termini di dispersione sia in termini di concentrazione, vengono sovrastimati; inoltre, anche gli indici di posizione a partire dal terzo quartile risultano superiori ai corrispondenti indici della distribuzione originaria. Con il metodo da donatore, invece, tutti gli indici medi e di variabilità della distribuzione ricostruita risultano costantemente inferiori a quelli della distribuzione di partenza. Un’ulteriore conseguenza del processo di imputazione dei redditi è la forte riduzione del legame lineare con le altre variabili monetarie (consumi e ricchezza), anche se tali variabili sono utilizzate come variabili esplicative nella regressione per l’imputazione multipla e come variabili di matching per la ricerca del donatore con distanza minima. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 441 BIBLIOGRAFIA ABBATE C. (1997), La completezza delle informazioni e l’imputazione da donatore con distanza mista minima, Quaderni di ricerca, n. 4, pp. 67-102, ISTAT, Roma. BANCA D’ITALIA (1991), I bilanci delle famiglie italiane nell’anno 1989, Supplemento al Bollettino Statistico, n. 26. BANCA D’ITALIA (1993), I bilanci delle famiglie italiane nell’anno 1991, Supplemento al Bollettino Statistico, n. 44. BANCA D’ITALIA (1995), I bilanci delle famiglie italiane nell’anno 1993, Supplemento al Bollettino Statistico, n. 9. BANCA D’ITALIA (1997), I bilanci delle famiglie italiane nell’anno 1995, Supplemento al Bollettino Statistico, n. 14. BANCA D’ITALIA (2000), I bilanci delle famiglie italiane nell’anno 1998, Supplemento al Bollettino Statistico, n. 22. BEAUMONT J.F. (1999), A Robust Estimation Method in the Presence of Nonignorable Nonresponse, Proceedings of the Section on Survey Research Methods, American Statistical Association, pp. 819-824. BEAUMONT J.F. (2000), An Estimation Method for Nonignorable Nonresponse, Survey Methodology, Vol. XXVI, n. 2, pp.131-136. CANNARI L. e D’ALESSIO G. (1992), Mancate interviste e distorsione degli stimatori, Temi di Discussione, n. 172, Banca d’Italia. CASTELLANO R. (1993), L’imputazione dei redditi mancanti con medie condizionate, Quaderni di Discussione, Istituto di Statistica e Matematica, Istituto Universitario Navale, n. 6, Curto, Napoli. CICCHITELLI G., HERZEL A. e MONTANARI G.E. (1992), Il campionamento statistico, Il Mulino, Bologna. DEPOUTOT R. (1999), Reporting Quality: the Eurostat Experience, IASS Topics, 52 nd Session of ISI, August 10-18, 1999, Helsinki. EUROSTAT (1998), Proposal for a Quality Report in Statistics, Working Group Document. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 442 C. Quintano, R. Castellano e A. Regoli. FORD (1983), An Overview of Hot-Deck Procedures, in Madow W.G., Olkin I., Rubin D.B. (eds.), Incomplete Data in Sample Surveys, vol. II, pp. 185207. HORTON N.J. e LIPSITZ S.R. (2001), Multiple Imputation in Practice: Comparison of Software Packages for Regression Models with Missing Variables, The American Statistician, n. 55, vol. III, pp. 244-254. HU M., SALVUCCI S.M., WENG S. e COHEN M.P. (1996), Evaluation of Proc Impute and Schefer’s Imputation Software, Proceedings of the Section on Survey Research Methods, American Statistical Association, pp.287-292. HU M., SALVUCCI S.M. e COHEN M. P. (1998), Evaluation of Some Popular Imputation Algorithms, Proceedings of the Section on Survey Research Methods, American Statistical Association, pp. 308-313. KENNICKELL A.B. (1998), Multiple Imputation In The Survey Of Consumer Finances, Proceedings of the Business and Economic Statistics Section, pp.11-20. LITTLE R.J.A. e RUBIN D.B. (1987), Statistical Analysis with Missing Data, Wiley. LUZI O. (1998), L’editing selettivo come strumento per la razionalizzazione del processo di editing: un primo studio su occupazione, retribuzioni e orario di lavoro nelle grandi imprese, Quaderni di Ricerca, n. 3, ISTAT, Roma. NORDHOLT E.S. (1998), Imputation: Methods, Simulation Experiments, and Practical Examples, International Statistical Review, n. 66, vol. II, pp.157180. PARALOGLOU M.N., SALVUCCI S.M. e HURLEY P. (1999), A Comparison Of Two Imputation Alghoritms, Proceedings of the Section on Government and Section on Social Statistics, pp. 217-221. QUINTANO C., CASTELLANO R. e REGOLI A. (2001), How to Improve the Quality of the Income Variable in a Household Survey. A Simulation Study Through Multiple Imputation, International Conference on Quality in Official Statistics, 14-15 May 2001, Stockholm. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. La valutazione della ricostruzione di dati mancanti…. 443 QUINTANO C., CASTELLANO R. e ROMANO A.A. (1996), L’Imputazione delle mancate risposte nelle indagini con parte panel. Il caso dei redditi familiari della Banca d’Italia, Quaderni di Discussione, Istituto di Statistica e Matematica, Istituto Universitario Navale, n. 6, Curto, Napoli. RAGHUNATHAN T.E. e PAULIN G.D. (1998), Multiple Imputation Of Income In The Consumer Expenditure Survey: Evaluation of Statistical Inferences, Proceedings of the Business and Economic Statistics Section, pp.1-10. RUBIN D.B. (1987), Multiple Imputation For Nonresponse in Surveys, Wiley, New York. RUBIN D.B. (1996), Multiple Imputation After 18+ years, JASA, Vol. XCI, n. 343, pp. 473-489. Quintano C., Castellano R. e Regoli A. (2002), La valutazione della ricostruzione di dati mancanti…., in Quintano C. (a cura di), Scritti di Statistica economica 9, Quaderni di discussione, Istituto di Statistica e Matematica, Università degli Studi di Napoli “Parthenope”, n. 21, Napoli. 489 Posizione degli Autori, riassunto, summary e résumé 516 Claudio Quintano Professore Ordinario di Statistica economica Rosalia Castellano Professore Straordinario di Rilevazione e controllo di dati economici Andrea Regoli Ricercatore di Statistica economica Istituto di Statistica e Matematica, Facoltà di Economia, Università degli Studi di Napoli “Parthenope”. Riassunto La valutazione della ricostruzione di dati mancanti nella variabile reddito: un confronto tra imputazione multipla e da donatore L’obiettivo di questo lavoro è la valutazione della bontà del processo di ricostruzione della variabile reddito familiare, soggetta a mancate risposte parziali. A tale scopo si introducono due metodi di ricostruzione, rispettivamente l’imputazione da donatore e l’imputazione multipla, valutandone la performance sia a livello di microunità sia in termini di statistiche dell’intera distribuzione. La disponibilità di un patrimonio informativo ampio e variegato, quale quello offerto dall’Indagine sui bilanci delle famiglie italiane condotta dalla Banca d’Italia, permette di costruire un modello di non risposta che fa dipendere la probabilità di rispondere al reddito dal livello della spesa per consumi: in questo modo, si genera artificialmente nella variabile reddito una quota di missing data pari al 20%. 517 Summary The Evaluation of Income Missing Data Reconstruction: a Comparison Between Imputation from a Donor and Multiple Imputation The aim of this paper is to evaluate the goodness of the reconstruction process of household income, affected by item nonresponse. To this end, two methods are considered, respectively imputation from a donor and multiple imputation, whose performances are evaluated both in terms of microdata and of statistics of the whole distribution. The availability of a wide range of information, such as the one given by the Bank of Italy’s Survey of Italian Household Income and Wealth, allows to build an ad hoc nonresponse model, in which the probability of income to be missed depends on the consumption level; following this simulation approach, a 20% of missing data is artificially generated in household income variable. Résumé L’évaluation de la reconstruction des données de revenu à la suite de nonréponse: une comparaison entre l’imputation depuis un donneur et l’imputation depuis un donneur et l’imputation multiple L’objectif de ce travail est l’évaluation de la qualité de la reconstruction de la variable revenu familial, exposée aux nonréponses partielles. Dans ce but, nous introduisons deux méthodes pour la reconstruction, respectivement l’imputation depuis un donneur et l’imputation multiple, dont les performances sont évaluées tant en termes de micro-données que de statistiques de la distribution complète. La disponibilité d’une large richesse en information, en provenance de l’Enquête sur les Budgets Familiaux de la Banque d’Italie, permet de construire un modèle ad hoc de nonréponse qui fait dépendre la probabilité de répondre au revenu du 518 niveau des consommations; selon cette approche, nous avons introduit artificiellement dans la variable revenu familial une fraction de nonréponses qui atteint le 20%. La presente pubblicazione, per la quale sono stati adempiuti gli obblighi previsti dalle norme per la consegna obbligatoria di esemplari degli stampati e delle pubblicazioni di cui alla legge del 2 febbraio 1939 n. 374 e successive modificazioni, è soggetta alle norme vigenti in materia di tutela del diritto di Autore come previsto nella legge 22 aprile 1941 n. 633 e successive modifiche. Pertanto, è vietata la riproduzione non autorizzata, anche parziale, con qualsiasi mezzo effettuata compresa la fotocopia e la masterizzazione in conformità anche di quanto previsto dalle modifiche e integrazioni introdotte dalla legge 18 agosto 2000 n. 248. La pubblicazione, finita di stampare il 26 marzo 2002, è stata depositata il 27 marzo 2002 in copia cartacea e su supporto informatico (CD-ROM) presso i seguenti uffici: n. 1 copia presso l’Istituto di Statistica e Matematica– Facoltà di Economia – Università degli Studi di Napoli “Parthenope”, Via Medina, 40 – 80133 Napoli, protocollo Registro dello Stampatore n. 7 dell’anno 2002; n. 4 copie presso l’Ufficio Stampa della Prefettura di Napoli – consegnata all’Ufficio in qualità di stampatore; n. 1 copia presso l’Ufficio Stampa della Procura Generale della Repubblica di Napoli – consegnata all’Ufficio in qualità di stampatore; n. 1 copia agli uffici della Questura di Napoli – sezione Digos – consegnata all’Ufficio in qualità di Editori della Rivista “Scritti di Statistica Economica”. INIZIO DELL’ARTICOLO HOME ESCI