38 Studi e ricerche Studi e ricerche Temi&Strumenti Temi&Strumenti 38 I Unione europea Fondo sociale europeo STRATEGIE DI CAMPIONAMENTO PER IL MONITORAGGIO E LA VALUTAZIONE DELLE POLITICHE l volume raccoglie una serie di metodi di campionamento e di tecniche di stima sviluppati nel quadro della progettazione di indagini campionarie di natura socioeconomica, rivolte sia a imprese che a famiglie. L’implementazione di rilevazioni campionarie per la produzione di dati necessari al monitoraggio e alla valutazione delle politiche del lavoro è un’operazione che presenta diversi aspetti di complessità, legati essenzialmente alla natura multidimensionale dei fenomeni indagati. Le rilevazioni necessarie a produrre informazioni sull’attuazione di un provvedimento o sulla misura di impatto di una riforma del mercato del lavoro, perseguono generalmente obiettivi multipli spesso in contrasto tra loro: di qui l’esigenza di definire disegni campionari in grado di fornire soluzioni di compromesso e capaci di conciliare l’accuratezza dei dati prodotti, la tempestività e la rilevanza con i temi oggetto di interesse. Il volume ripercorre le tecniche sviluppate dall’Isfol per la pianificazione delle principali rilevazioni statistiche promosse dall’Istituto, esponendo le metodologie di campionamento, i diversi approcci all’inferenza utilizzati in fase di stima e i metodi di trattamento delle mancate risposte totali. STRATEGIE DI CAMPIONAMENTO PER IL MONITORAGGIO E LA VALUTAZIONE DELLE POLITICHE ISBN 978-88-543-0282-2 9 788854 302822 Istituto per lo sviluppo della formazione professionale dei lavoratori Istituto per lo sviluppo della formazione professionale dei lavoratori Temi&Strumenti Studi e ricerche 38 ISBN 978-88-543-0282-2 L’Isfol, Istituto per lo sviluppo della formazione professionale dei lavoratori, è stato istituito con D.P.R. n. 478 del 30 giugno 1973, e riconosciuto Ente di ricerca con Decreto legislativo n. 419 del 29 ottobre 1999, è sottoposto alla vigilanza del Ministero del Lavoro e della Previdenza Sociale. L’Istituto opera in base allo Statuto approvato con D.P.C.M. 19 marzo 2003, nel campo della formazione, delle politiche sociali e del lavoro al fine di contribuire alla crescita dell’occupazione, al miglioramento delle risorse umane, all’inclusione sociale ed allo sviluppo locale. L’Isfol svolge e promuove attività di studio, ricerca, sperimentazione, documentazione, informazione e valutazione, consulenza ed assistenza tecnica. Fornisce un supporto tecnico-scientifico al Ministero del Lavoro e della Previdenza Sociale, ad altri Ministeri, alle Regioni e Province Autonome, agli Enti locali, alle Istituzioni nazionali, pubbliche e private, sulle politiche e sui sistemi della formazione ed apprendimento lungo tutto l’arco della vita, del mercato del lavoro e dell’inclusione sociale. Svolge incarichi che gli vengono attribuiti dal Parlamento e fa parte del Sistema Statistico Nazionale. Svolge inoltre il ruolo di assistenza metodologica e scientifica per le azioni di sistema del Fondo sociale europeo, è Agenzia nazionale Lifelong Learning Programme – Programma settoriale Leonardo da Vinci e Struttura Nazionale di Supporto Equal. Presidente Sergio Trevisanato Direttore Generale Giovanni Principe La collana “Temi&Strumenti” – articolata in Studi e Ricerche, Percorsi, Politiche comunitarie – presenta i risultati delle attività di ricerca dell’Isfol sui temi di competenza istituzionale, al fine di diffondere le conoscenze, sviluppare il dibattito, contribuire all’innovazione e alla qualificazione dei sistemi di riferimento. La collana “Temi&Strumenti” è curata da Isabella Pitoni, responsabile Ufficio Comunicazione Istituzionale Isfol. 2007 – ISFOL Via G. B. Morgagni, 33 00161 Roma Tel. 06445901 http://www.isfol.it ISFOL STRATEGIE DI CAMPIONAMENTO PER IL MONITORAGGIO E LA VALUTAZIONE DELLE POLITICHE ISFOL EDITORE Il volume propone una serie di metodologie sul campionamento statistico e sui metodi di stima, sviluppate dall’Ufficio Statistico e dall’Area Analisi e valutazione delle politiche per l’occupazione tra il 2004 e il 2006. Le tecniche raccolte nel volume sono state messe a punto per la pianificazione delle indagini di campo orientate alla produzione di dati sul mercato del lavoro, nell’ambito del Programma Operativo Nazionale Ob. 3 (Misura A1 Azione 2, Attività 1). I contributi sono il frutto della collaborazione tra l’Isfol e Piero Demetrio Falorsi che ha contribuito in misura determinante allo sviluppo dell’Ufficio Statistico dell’Isfol, coordinato da Marco Centra tra il 2004 e il 2006. I curatori del volume ringraziano inoltre i ricercatori dell’Istat Marco Ballin, Stefano Falorsi e Alessandro Pallara che hanno contribuito alla redazione dei cap 4. Il volume è a cura di Marco Centra e Piero Demetri Falorsi. Sono autori del volume: Marco Ballin (Istat), cap. 4; Marco Centra (Isfol), introduzione, capp. 1, 2, 3; Piero Demetrio Falorsi (Istat), introduzione, capp. 2, 3, 4; Stefano Falorsi (Istat), cap. 4; Alessandro Pallara (Istat), cap. 4. Editing del volume: Anna Nardone. Coordinamento editoriale della collana “Temi & Strumenti”: Piero Buccione e Aurelia Tirelli. Collaborazione di Paola Piras. INDICE Introduzione Cap. 1 Cap. 2 Introduzione al problema dell’allocazione del campione 1.1 Introduzione 1.2 Relazione tra errore della stime e numerosità campionaria 1.3 Allocazione del campione nel campionamento stratificato 1.3.1 Allocazione proporzionale 1.3.2 Allocazione con medesimo errore negli strati 1.4 Un modello alternativo di allocazione 1.5 Un’applicazione empirica 1.6 La soluzione dell’allocazione nei domini di studio Definizione della numerosità campionaria e dell’allocazione del campione 2.1 Introduzione 2.2 Contesto di riferimento 2.2.1 Definizione dei parametri di interesse 2.2.2 Approccio all’inferenza 2.2.2.1 Approccio basato sul disegno di campionamento 2.2.2.2 Approccio assistito dal modello 2.2.2.3 Approccio predittivo 2.2.2.4 Approccio basato sulla varianza anticipata 2.2.2.5 Parametri non lineari 2.3 Decomposizione della variabilità negli strati 2.3.1 Risultato generale 2.3.2 Strategie di campionamento prese in considerazione pag. 9 13 13 15 18 20 24 27 33 37 49 49 50 50 54 55 59 61 63 63 64 64 65 5 2.3.3 2.3.4 2.3.2.1 Disegni di campionamento 2.3.2.2 Stimatori Decomposizione della varianza per la stima di totali in strategie campionarie di grande utilizzo applicativo 2.3.3.1 Disegno di campionamento CS 2.3.3.2 Disegno di campionamento NP 2.3.3.3 Disegno di campionamento DS 2.3.3.4 Disegno di campionamento DF 2.3.3.5 Disegno di campionamento PO 2.3.3.6 Varianza anticipata Decomposizione della varianza nel caso di stimatori non lineari 2.3.4.1 Parametri ottenuti come funzione non lineare dei totali Ycd 73 73 74 77 81 83 84 85 85 2.3.4.2 2.4 2.4.1 2.4.2 2.5 2.5.1 2.5.2 Cap. 3 6 Parametri ottenuti come soluzione di un sistema di equazioni di stima Allocazione univariata Allocazione ottima Allocazioni alternative 2.4.2.1 Allocazione ottima rispetto a una variabile ausiliaria x 2.4.2.2 Allocazione proporzionale 2.4.2.3 Allocazione proporzionale al totale della variabile d’interesse 2.4.2.4 Allocazione proporzionale al totale della variabile ausiliaria x 2.4.2.5 Allocazione esponenziale 2.4.2.6 Allocazione di compromesso 2.4.2.7 Allocazione basata su un modello di superpopolazione Allocazione multivariata e multidominio Soluzioni di costo minimo Soluzione di ottimo analoga al caso univariato pag. 65 71 La costruzione di stime campionarie mediante l’uso di variabili ausiliarie 3.1 Introduzione 3.2 Teoria statistica dello stimatore di regressione generalizzato 3.2.1 Lo stimatore di regressione generalizzato 3.2.2 Espressioni alternative dello stimatore 88 90 90 94 94 96 97 97 98 99 100 101 101 103 105 105 105 105 108 pag. 3.3 3.4 3.4.1 3.4.2 3.4.3 3.5 3.6 3.6.1 3.6.2 3.6.3 3.7 Cap. 4 Stimatore di regressione generalizzata come caso particolare dello stimatore di calibrazione Concetti sottostanti lo stimatore di regressione generalizzato Gruppo di riferimento del modello Livello del modello Tipo di modello Stima della varianza di campionamento e criterio di scelta delle variabili ausiliarie Stimatore di regressione generalizzata sotto diversi disegni di campionamento Campionamento casuale semplice senza reimmissione Campionamento stratificato Campionamento stratificato a grappoli Software per l’applicazione di metodi di stima lineare Il trattamento delle mancate risposte totali nelle indagini complesse 4.1 Introduzione 4.2 Diversi aspetti connessi al problema delle mancate risposte 4.2.1 Premessa 4.2.2 Cause ed effetti delle mancate risposte 4.2.3 Strumenti per la riduzione della distorsione 4.2.3.1 Prevenzione della mancata risposta 4.2.3.2 Disegni di rilevazione che prevedono un ritorno sulle unità non rispondenti 4.2.3.3 Trattamento dei dati per tenere conto della mancata risposta 4.2.4 Documentazione 4.3 Trattamento delle mancate risposte mediante la costruzione di pesi campionati 4.3.1 Premessa 4.3.2 Modellizzazione esplicita 4.3.2.1 Definizione delle celle di ponderazione 4.3.2.2 Scelta a priori 4.3.2.3 Tecniche basate su modelli logit o probit 4.3.2.4 Tecniche basate su modelli di regressione non parametrica 4.3.3 Modellizzazione implicita 4.3.3.1 Informazione ausiliaria disponibile per l’intera popolazione 109 111 111 112 115 117 119 119 120 121 122 125 125 126 126 127 128 129 130 131 131 131 131 134 140 140 141 143 144 144 7 pag. 4.3.3.2 4.3.4 4.3.5 Informazione ausiliaria disponibile solo per il campione 4.3.3.3 Informazione ausiliaria disponibile in parte per il campione e in parte per l’intera popolazione Stima della varianza Approfondimento delle condizioni che determinano la distorsione dello stimatore di calibrazione 4.3.5.1 Espressione generale della distorsione 4.3.5.2 Condizioni che garantiscono l’assenza di distorsione 4.3.5.3 Caso dello stimatore di calibrazione ˆ con distanza non lineare [12 ] Y 4.3.6 4.4 4.4.1 4.4.2 4.4.3 4.4.4 Criteri di scelta della strategia di stima 4.3.6.1 Criterio di variabilità 4.3.6.2 Criterio di riduzione della distorsione Brevi cenni all’esperienza delle indagini condotte nell’ambito della statistica ufficiale Premessa Indagini sulle famiglie Indagini sulle imprese Indagini sulle aziende agricole Riferimenti bibliografici 8 146 146 150 152 152 155 156 158 158 159 163 163 163 165 166 173 INTRODUZIONE Le attività connesse al monitoraggio e alla valutazione delle politiche richiedono dati in grado di assicurare una qualità elevata dell’informazione, declinata secondo i diversi aspetti che la caratterizzano (Brackstone, 1999; Fortini, 2000). Tra questi assumono particolare importanza la rilevanza, l’accuratezza e la tempestività. La rilevanza indica la capacità dell'informazione di soddisfare le esigenze conoscitive degli utenti dei dati. Nel contesto delle attività di monitoraggio e di valutazione delle politiche l’informazione prodotta deve essere in grado di rispondere a diversi obiettivi conoscitivi, dal momento che l’impatto delle politiche si articola secondo numerosi aspetti. Nella pratica applicativa gli obiettivi sono molteplici e coincidenti spesso con sottogruppi della popolazione di riferimento come ad esempio la componente giovanile della popolazione o particolari segmenti a rischio di emarginazione. Su tali gruppi l’impatto di una politica può essere differente anche in misura sensibile. Compito della ricerca è di rendere conto della misura di impatto per tutti i soggetti o i gruppi di soggetti interessati. L’accuratezza misura il grado di corrispondenza fra l’informazione utilizzata e il valore effettivo ma non noto, della caratteristica di interesse nella popolazione studiata. Il livello di accuratezza coincide, nell’ambito delle indagini campionarie, con il grado di attendibilità statistica dei dati prodotti ed è misurata tradizionalmente tramite indicatori di variabilità campionaria e di distorsione. La tempestività indica l’intervallo di tempo intercorrente fra il momento della diffusione dell'informazione prodotta e il periodo di riferimento dei dati. In particolare la tempestività del monitoraggio di una politica permette di intervenire in modo efficace modificando in corso d’opera gli interventi programmati. L’attività di monitoraggio e di valutazione delle politiche riguarda spesso provvedimenti specifici e richiede informazioni capillari sull’attuazione delle 9 INTRODUZIONE norme, informazioni generalmente non ricavabili, con il richiesto livello di dettaglio, da fonti statistiche correnti derivanti sia da indagini campionarie che da dati di natura amministrativa. Per ottenere i dati utili alle attività di monitoraggio e di valutazione è necessario quindi condurre specifiche indagini campionarie in grado di produrre l’informazione richiesta con il grado di accuratezza e il livello di dettaglio necessari. La progettazione e l’implementazione di tali indagini è un’operazione che presenta diversi aspetti di complessità, legati essenzialmente alla natura multidimensionale dei fenomeni da indagare. Le rilevazioni necessarie a produrre informazioni sulle modalità di attuazione di un provvedimento o sulla misura di impatto di una riforma del mercato del lavoro perseguono generalmente obiettivi multipli spesso in contrasto tra di loro, nel senso che le scelte che risultano ottime per un determinato obiettivo spesso sono molto poco efficienti nel raggiungimento di obiettivi differenti, rendendo le dimensioni della qualità spesso in conflitto tra loro. La rilevanza di una indagine, espressa come capacità di indagare fenomeni per loro natura multidimensionali, confligge con la tempestività. Infatti la necessità di fornire stime attendibili per ciascuna delle sottopopolazioni di interesse porta a progettare rilevazioni basate su questionari lunghi e articolati e su campioni di numerosità molto elevata. Tali aspetti comportano un dilatazione dei tempi sia di progettazione che di esecuzione dell’indagine, allungando l’intervallo tra la diffusione dei dati e il periodo di riferimento dei fenomeni studiati. L’accuratezza può confliggere con la rilevanza: il carattere multidimensionale dei fenomeni studiati definisce obiettivi differenti rispetto ai quali la progettazione dell’indagine prevede soluzioni spesso in conflitto tra loro. Anche l’accuratezza e la tempestività sono dimensioni della qualità spesso in conflitto: l’accuratezza di una indagine implica una elevata numerosità campionaria e un trattamento sofisticato dei dati, mentre un dato tempestivo è generalmente ottenuto tramite indagini di piccole dimensioni e con un trattamento molto semplificato dei dati. Il livello di complessità presentato da indagini campionarie condotte a fini di monitoraggio e di valutazione delle politiche necessita perciò di adeguati strumenti metodologici, che permettano di affrontare in modo rigoroso le questioni sopra richiamate, minimizzando i costi e ottimizzando i parametri di qualità. Il presente volume approfondisce alcuni aspetti specifici legati alla progettazione delle indagini campionarie volte a studiare aspetti di natura socio-economica, e orientate sia ad imprese che a famiglie. Il libro si articola in due parti: la prima parte è dedicata alle problematiche connesse alla definizione del disegno di campionamento; la seconda parte tratta gli aspetti connessi alla produzione delle stime campionarie, collocandosi nel contesto di un sistema informativo complesso in cui le stime prodotte dall’indagine 10 INTRODUZIONE sono supportate da un sistema integrato di dati provenienti da diverse fonti, sia statistiche che amministrative. In particolare la prima parte è composta di due contributi, il primo dei quali affronta in modo introduttivo il problema della determinazione della numerosità campionaria negli strati, noto come problema di allocazione, evidenziando i problemi connessi alla molteplicità degli obiettivi conoscitivi dell’indagine. In particolare si esamina il caso in cui l’indagine deve produrre stime affidabili per l’intera popolazione e per domini di studio coincidenti con gli strati del campione. I due obiettivi conducono a soluzioni ottimali differenti e in contrasto tra loro: si esaminano quindi le due soluzioni ottenute e si propone un criterio di compromesso che consente di rispondere a entrambi gli obiettivi, controllando in modo opportuno la perdita di efficienza rispetto alle soluzioni ottimali. La trattazione è limitata al caso della stima di proporzioni e all’utilizzo di disegni campionari semplici o stratificati. Il secondo lavoro generalizza quanto esposto nel capitolo precedente, tenendo conto di diversi aspetti di cui tener conto, in modo integrato, nella fase di progettazione di un’indagine: • il tipo di parametro di popolazione che si intende stimare. La soluzione ottima nel caso in cui si debba stimare il totale di una determinata variabile può essere differente dalle soluzioni relative ai casi in cui si intenda stimare un indice dei prezzi o il rapporto tra i totali della stessa variabile riferiti a due differenti istanti temporali; • il disegno di campionamento adottato. Il campionamento stratificato può essere realizzato mediante differenti schemi probabilistici di selezione delle unità negli strati; • l’approccio usato per l’inferenza. Il calcolo delle stime di un’indagine può essere realizzato basandosi su differenti approcci all’inferenza: l’approccio classico del campionamento da popolazioni finite, l’approccio predittivo o l’approccio assistito da modello; • la tipologia di informazione disponibile al momento della progettazione dell’indagine. La soluzione ottima è strettamente dipendente dal contesto informativo in base al quale l’indagine viene progettata. Ad esempio si possono conoscere le varianze a livello di strato, o come caso estremo può essere noto unicamente il numero di unità della popolazione a livello di strato. La seconda parte del volume si compone di due contributi, nel primo dei quali vengono descritte le principali caratteristiche statistiche dello stimatore di regressione generalizzata che consente di produrre stime campionarie caratterizzate da buone proprietà statistiche e operative che si possono sintetizzare nei seguenti punti: • flessibilità e facilità operativa. Le stime dei parametri di interesse vengono, infatti, ottenute ponderando ciascuna unità inclusa nel campione con un peso (detto anche coefficiente di riporto all’universo) che dal punto di vista logico può essere visto come il numero delle unità della popolazione oggetto di studio rappresentate dall’unità osservata nell’indagine; 11 INTRODUZIONE • efficienza. Le stime prodotte sono in genere contraddistinte da una variabilità di campionamento minore rispetto a quella ottenibile da metodi di stima più tradizionali; • coerenza dell’informazione diffusa. Le stime campionarie possono, infatti, riprodurre la struttura della popolazione di interesse nota da fonti esterne. Un parte del lavoro è dedicata all’illustrazione di un software generalizzato, implementato sul pacchetto SPSS, per l'applicazione di metodi di stima lineare ad una qualsiasi banca dati. L’ultimo lavoro presentato tratta in profondità gli aspetti connessi al trattamento delle mancate risposte. Tale argomento è particolarmente delicato nel contesto delle rilevazioni socio-economiche: trascurare il problema del trattamento delle mancate risposte, diffondendo basi di dati con informazioni mancanti o incomplete, potrebbe introdurre forti distorsioni nella stima di parametri rilevanti ai fini dell'analisi statistica. In particolare, i dati economici possono presentare delle caratteristiche che rendono, per certi aspetti, critico il trattamento dei dati mancanti. Ad esempio, la distribuzione di importanti variabili d’indagine può essere asimmetrica, per cui ignorare anche poche osservazioni, basando le analisi solo sulle unità osservate, potrebbe introdurre una forte distorsione sulle stime, dal momento che i rispondenti (e i non rispondenti) raramente costituiscono un sottoinsieme casuale dell'intero campione. L’attenzione è posta essenzialmente sul problema della mancata risposta totale nel contesto delle indagini campionarie sulle famiglie e sulle imprese, condotte nell’ambito della statistica ufficiale. Questo tema può essere approfondito sotto vari aspetti quali: (i) le cause, (ii) gli effetti, (iii) i metodi per la prevenzione, (iv) il trattamento statistico successivo alla fase di raccolta dei dati, (v) la documentazione degli effetti delle mancate risposte sulla qualità dell’indagine. In questo lavoro l’attenzione è focalizzata al tema del trattamento e della correzione delle mancate risposte attraverso la costruzione dei pesi campionari. Il volume nasce nell’ambito dell’attività dell’Ufficio Statistico e dell’Area Analisi e Valutazione delle Politiche per l’Occupazione dell’Isfol e ripercorre le metodologie utilizzate e sviluppate, nel corso degli ultimi anni, nel quadro del supporto metodologico fornito dall’Ufficio Statistico al disegno e alla progettazione delle indagini campionarie attivate dall’Istituto. I curatori del volume sono Marco Centra, attualmente coordinatore dell’Area Analisi e Valutazione delle Politiche per l’Occupazione dell’Isfol e responsabile dell’Ufficio Statistico dell’Isfol dal 2004 al 2006 e Piero Demetrio Falorsi, dirigente dell’Istat, che ha collaborato, in qualità di consulente, alle attività dell’Ufficio Statistico e dell’Area Analisi e Valutazione delle Politiche per l’Occupazione dell’Isfol. 12 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE* 1.1 Introduzione La progettazione e l’implementazione di un’indagine campionaria, di tipo probabilistico o ragionato, è un’operazione articolata in vari passi, ciascuno dei quali definisce le condizioni delle scelte da considerare nei passi successivi e presenta diversi aspetti di complessità. Tale complessità è essenzialmente legata alla natura multidimensionale dei fenomeni da indagare, il che ha come conseguenza il fatto che le indagini perseguono obiettivi multipli spesso in contrasto tra di loro, nel senso che le scelte che risultano ottime per un determinato obiettivo spesso sono molto poco efficienti nel raggiungimento di obiettivi differenti. Uno dei passi più importanti è quello connesso alla definizione della strategia di stratificazione. Per introdurre questa tematica è opportuno considerare che le informazioni desunte dalle indagini di campo, rivolte sia alle imprese che alle famiglie, sono generalmente legate ad alcune caratteristiche strutturali delle unità campionarie. Ad esempio, nelle indagini sulle imprese le variabili strutturali sono tipicamente individuate in base all’attività economica o alla classe dimensionale delle aziende. Per tenere conto di queste caratteristiche, le indagini campionarie, condotte su un particolare fenomeno, tendono a suddividere le unità della popolazione da indagare in strati – ciascuno dei quali è costituito da un particolare sottoinsieme di unità aventi specifiche caratteristiche strutturali – e ad osservare un campione di unità in ciascuno strato. La stratificazione consente di migliorare la qualità delle stime prodotte da un’indagine in molti modi. Generalmente viene sfruttato il legame tra le caratteristiche di statificazione e la caratteristica oggetto di stima: una maggiore omogeneità della variabile stimata in un singolo strato tende a rendere * Di Marco Centra. 13 CAPITOLO 1 più efficiente la stima a parità di numerosità campionaria, rispetto ad un campione casuale non stratificato. Oltre a migliorare, anche sensibilmente, l’attendibilità delle stime, il disegno stratificato permette di predeterminare nella fase di disegno il livello fiduciario delle stime prodotte. Una strategia di stratificazione è caratterizzata di diversi aspetti, di cui i due più importanti sono: • la definizione del criterio di stratificazione; • la determinazione del numero di unità da campionare in ciascuno strato. Quando il numero totale di unità da rilevare nell’intera indagine è fissato a priori – in genere in base a vincoli di costo – la determinazione della numerosità campionaria in ciascuno strato definisce un problema di allocazione di una numerosità totale prefissata. La definizione del criterio di stratificazione è un aspetto piuttosto complesso per vari ordini di motivi; qui di seguito se n’elencano i due più importanti. • Le variabili di stratificazione devono essere disponibili per tutte le unità della popolazione. In molte situazioni concrete le variabili che sarebbero utili per la stratificazione non sono disponibili nell’archivio di selezione e, in tal caso, la stratificazione viene basata su variabili correlate a quelle ideali per la stratificazione ma che rappresentano solo un’approssimazione di queste ultime. Il contesto delle indagini sulle imprese si presenta, comunque, diverso da quello delle indagini sulle famiglie. Nelle indagini sulle imprese è disponibile, presso l’Istituto nazionale di statistica, l’Archivio Statistico delle Imprese Attive (denominato ASIA). Da tale archivio sono selezionati i campioni della maggior parte delle indagini condotte dall’ISTAT e dal SISTAN caratterizzanti il sistema informativo della statistica ufficiale. In ASIA sono disponibili come variabili di stratificazione: il codice NACE di attività economica, il numero di addetti, la forma giuridica, ecc. Nelle indagini sulle famiglie non si dispone di un registro unico nazionale. Le anagrafi, infatti, risultano disponibili solo a livello locale; pertanto, nel primo stadio di campionamento, la popolazione può essere stratificata solo in base a variabili di tipo geografico come, ad esempio, la regione, la provincia, la tipologia di comune, ecc. • La natura multidimensionale del fenomeno da indagare implica che le indagini condotte su larga scala hanno obiettivi multipli. Ciò comporta che variabili di stratificazione utili per un obiettivo conoscitivo possono non essere tali quando si considera un obiettivo differente. D’altra parte, il problema non può essere risolto aumentando le variabili di stratificazione dal momento che nei casi concreti ciò implicherebbe la definizione di un numero troppo elevato di strati. Per ottenere stime corrette, in ciascuno strato deve essere selezionato un campione composto di almeno un’unità; nel caso in cui si voglia ottenere una stima corretta della varianza la dimensione minima del campione è di almeno due unità in ciascuno strato. Ciò può comportare la definizione di una numerosità campionaria troppo elevata, non sostenibile con le risorse assegnate all’indagine. 14 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE Come vedremo meglio nel corso di questo lavoro, la soluzione del problema di allocazione della numerosità campionaria negli strati presenta notevoli elementi di difficoltà, principalmente connessi alla natura multi obbiettivo delle indagini concrete. Una trattazione sistematica e completa dei vari aspetti connessi alla definizione della strategia di stratificazione esula dalle possibilità di questo lavoro; in questa sede ci si limiterà a trattare, relativamente a un caso semplificato, il problema dell’allocazione, evidenziando i problemi connessi alla molteplicità degli obiettivi conoscitivi dell’indagine. In particolare si esaminerà il caso in cui l’indagine deve produrre stime affidabili • per l’intera popolazione oggetto d’indagine; • per domini di studio coincidenti, nel caso in esame, con gli strati del campione. Come si vedrà in seguito i due obiettivi conducono a soluzioni ottimali differenti e in contrasto tra loro. Si esamineranno quindi le due soluzioni ottenute e si definirà successivamente un criterio di compromesso che consente di rispondere a entrambi gli obiettivi, controllando in modo opportuno la perdita di efficienza rispetto alle soluzioni ottimali. La trattazione è sviluppata relativamente al caso in cui il parametro oggetto di stima è rappresentato da una generica frazione della popolazione; tale parametro può riguardare, nel caso pratico, la quota di individui occupati con un determinato tipo di contratto, o il numero di aziende che utilizzano un particolare strumento di incentivo all’occupazione, ecc. Le medesime procedure qui esposte possono essere applicate anche alla stima di caratteristiche della popolazione di natura diversa, ad esempio la stima di una media. Tuttavia nelle indagini effettuate nell’ambito dell’attività di monitoraggio o valutazione delle politiche per l’occupazione vengono utilizzate più frequentemente stime di frequenze relative; si è quindi preferito, come accennato, limitare l’esposizione alla stima di una frequenza relativa della popolazione. La trattazione è articolata nel modo seguente: il par. 1.2 illustra, nel caso della stima di una proporzione, i fondamenti guidano il problema della determinazione della numerosità campionaria in un campione casuale semplice; nel cap. 3 viene affrontato il problema dell’allocazione di un campione stratificato di numerosità data, tenendo conto dell’attendibilità delle stime negli strati; infine viene accennata la formulazione del problema nel caso in cui i domini di interesse non coincidano con gli strati ma con loro aggregazioni. Il lavoro affronta aspetti specifici delle tecniche di campionamento, pertanto, si è evitato di riportare le nozioni basilari dell’inferenza e della teoria del campionamento, che sono date per acquisite. 1.2 Relazione tra errore delle stime e numerosità campionaria Un primo risultato necessario alla trattazione successiva riguarda la relazione funzionale tra l’errore campionario e la numerosità del campione. Il 15 CAPITOLO 1 problema prevede la stima, tramite un campione casuale semplice, di un parametro P, riferito ad una generica frazione di una caratteristica in una popolazione finita, in modo che l’errore relativo dovuto al campionamento non sia superiore, in modulo, ad un livello fissato, con una probabilità data. Per illustrare formalmente tale problema, si indichi con U la popolazione di interesse costituita da N unità e si denoti con yk il valore di una variabile dicotomica che assume il valore 1 se l’unità k (k=1,...,N) presenta una determinata caratteristica di interesse e il valore 0 altrimenti. Ad esempio, se la caratteristica d’interesse riguarda la condizione lavorativa e il parametro di interesse coincide con la proporzione di occupati nella popolazione, la variabile yk assume valore 1 se l’individuo k è occupato e assume valore 0 altrimenti. Il parametro di interesse è dato da P= 1 N ∑ yk . N k =1 Si supponga di aver selezionato dalla popolazione U un campione casuale semplice s, di dimensione n, senza reimmissione e con probabilità di estrazione uguali. La sima campionaria di P è data dalla proporzione, p, osservata nel campione, essendo p= 1 n ∑ yk . n k =1 Utilizzando un risultato standard della teoria del campionamento da popolazioni finite, la varianza V ( p ) della stima p nell’universo dei campioni è data da N −n V ( p) = Nn N ∑ ( yk − P) 2 = k =1 N −n P (1 − P ) Nn (1) Lo stimatore p, per n sufficientemente grande, ha, sullo spazio dei campioni, distribuzione normale con media P e varianza V ( p ) p ~ N [P, V ( p )] . Pertanto, la variabile trasformata z= p−P V ( p) . è distribuita come una normale standardizzata di media 0 e varianza 1 z ~ N (0, 1) . 16 (2) INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE L’intervallo di confidenza della stima p, al livello di probabilità (1- α ) è dato da p ± z1−α / 2 V ( p ) dove z1−α / 2 rappresenta il percentile della variabile normale standardizzata corrispondente ad un livello di probabilità pari a 1 − α ; ad esempio, fissando un livello di fiducia (1 − α ) pari a 0,95, il percentile assume valore 1,96. Il problema che si vuole risolvere è quello di determinare la numerosità campionaria n tale che il valore del parametro di interesse nella popolazione P e la sua stima campionaria p non differiscano, in valore relativo, oltre una soglia fissata ε , con probabilità pari a 1 − α , ossia ⎡ p−P ⎤ Pr ⎢ ≤ ε⎥ =1−α . ⎣ P ⎦ (3) Utilizzando le relazioni (2) e (3), si ottiene: ⎡ V ( p ) ⋅ z1−α / 2 ⎤ ≤ ε⎥ = 1−α . Pr ⎢ P ⎥⎦ ⎣⎢ Nel seguito, la quantità La (4) è soddisfatta se: ε (4) verrà denominata con errore relativo della stima p. V ( p ) ⋅ z1−α / 2 ≤ ε. P (5) Elevando entrambi i termini della (5) al quadrato ed esplicitando l’espressione della varianza di p, data dalla (1), la precedente espressione può essere riformulata come 1 P 2 ⋅ (N − n ) ⋅ P(1 − P ) ⋅ z 2 N ⋅n 1−α / 2 ≤ ε2. Esplicitando la disequazione rispetto al termine n si ottiene n≥ z12−α / 2 ⋅ (1 − P ) ⋅ N ε 2 ⋅ N ⋅ P + z12−α / 2 ⋅ (1 − P ) . La precedente disequazione può essere espressa rispetto al valore più basso che la soddisfa: 17 CAPITOLO 1 n= z12−α / 2 ⋅ (1 − P ) ⋅ N ε 2 ⋅ N ⋅ P + z12−α / 2 ⋅ (1 − P ) . (6) La (6), che definisce la numerosità campionaria minima necessaria per soddisfare la (3), mostra che la numerosità del campione aumenta al diminuire dell’errore relativo massimo ammesso. La (6) rende inoltre esplicita la relazione tra la numerosità campionaria e il valore del parametro oggetto di stima: a parità dell’errore relativo ε , la numerosità del campione aumenta al diminuire del valore di P nella popolazione. Tali evidenze non fanno che confermare che per ottenere una maggiore precisione delle stime occorre aumentare il campione e che per stimare una caratteristica rara nella popolazione è necessaria una numerosità campionaria più elevata. Il legame funzionale tra la dimensione campionaria e il livello di precisione delle stime, riportato dalla (6), si renderà necessario nella trattazione successiva per l’analisi di alcuni aspetti dell’allocazione nel campionamento stratificato. Introducendo nella (6), la seguente quantità K = z12−α / 2 ⋅ P (1 − P ) (7) è possibile esprimere la stessa in forma compatta: n= K⋅N . ε ⋅ P2 ⋅ N + K 2 (8) Per la trattazione successiva è opportuno esprimere la precedente relazione 2 esplicitandola rispetto ad ε : ε2 = K ⋅ (N − n ) . N ⋅ n ⋅ P2 (8b) 1.3 Allocazione del campione nel campionamento stratificato Di seguito verrà affrontato il problema dell’allocazione di un campione di numerosità fissata pari ad n in un contesto di seguito definito. L’indagine adotta un disegno di campionamento di tipo stratificato ed è finalizzata alla stima della frequenza relativa di una generica caratteristica di interesse riferita sia all’intera popolazione che a ciascuno degli strati in cui la popolazione è suddivisa. Al fine di illustrare formalmente il problema trattato, si denoti con U la popolazione di interesse, composta da N unità. Si supponga inoltre che essa sia partizionata in H strati e si denoti con U h (h=1,…,H) la popolazione del generico strato composta da N h unità, essendo 18 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE H H U≡ U Uh ; N= h =1 ∑ Nh . h =1 I parametri oggetto di stima sono H+1, costituiti dalle proporzioni, Ph (h=1,…,H), della variabile di interesse nei singoli strati e dalla proporzione della medesima variabile nell’intera popolazione, essendo: N 1 h Ph = ∑ yk ; N h k =1 (9) N H N 1 H h P= y k = ∑ h Ph . ∑ ∑ N h =1k =1 N h =1 (10) Si supponga di aver selezionato un campione stratificato con selezione senza reimmissione e probabilità di estrazione uguale negli strati. La dimensione campionaria in ciascuno strato è indicata con nh , dove: n= H ∑ nh (11) h =1 Sotto il disegno di campionamento sopra definito, le stime degli (H+1) parametri di interesse Ph (h=1,…,H) e P e sono date rispettivamente da n ph = p= 1 h ∑ yk , nh i =1 H ∑ ph (12) Nh . N (13) h =1 Le varianze delle stime suddette sono pari rispettivamente a: V ( ph ) = N h − nh Ph (1 − Ph ) ( N h − 1) nh H 2 ⎛ Nh ⎞ ⎜ ⎟ V ( ph ) STV ( p ) = N ⎠ h =1⎝ ∑ (14) (15) Il problema da risolvere riguarda l’allocazione del campione negli H strati, vale a dire il criterio con cui si determinano le dimensioni campionarie nh in ciascuno strato, nel rispetto vincolo definito dalla (11). 19 CAPITOLO 1 Al fine di studiare l’effetto di scelte allocative differenti sulla variabilità della stima p, è utile introdurre la statistica V ( p) deff = ST , V ( p) (16) definita come rapporto tra la varianza del campione stratificato e quella del campione casuale semplice di pari numerosità. Nel contesto in esame, la statistica (16), nota anche come effetto del disegno di campionamento, esprime l’impatto sulla precisione delle stime dovuto all’introduzione di un disegno di campionamento stratificato. Nel caso in cui si abbia deff > 1 , la strategia di stratificazione adottata – denotando con questo termine la coppia individuata dal regola di stratificazione e dal criterio di allocazione – è una scelta poco efficiente per quanto riguarda la stima della proporzione P, in quanto provoca un aumento della variabilità e una conseguente diminuzione della precisione della stima stessa rispetto al campionamento casuale semplice. Nel caso in cui si abbia deff ≤ 1 , la strategia di stratificazione è una scelta efficiente per la stima della proporzione P, in quanto aumenta la precisione della stima della proporzione. Di seguito saranno presi in considerazione tre differenti modelli di allocazione del campione negli strati: (i) l’allocazione proporzionale, (ii) l’allocazione che impone uno stesso errore della stima negli strati e, infine, (iii) un modello alternativo in grado di bilanciare, in un’ottica di compromesso, i vantaggi e gli svantaggi dei modelli precedenti. 1.3.1 Allocazione proporzionale Il metodo proporzionale di allocazione del campione negli strati è un caso particolare del modello di allocazione ottima, o di Neyman (Cicchitelli, Herzel, Montanari, 1991). L’allocazione ottima prevede che la numerosità del campione in ciascuno strato sia proporzionale alla numerosità della popolazione nello strato corrispondente, ponderata con una misura della variabilità della caratteristica oggetto di stima. Indicando con Sh la deviazione standard della caratteristica di interesse nello strato h, l’allocazione ottima, dato n, è definita: N h ⋅ Sh NE nh = n ⋅ H . (17) ∑ N h ⋅ Sh h =1 Nel contesto che si sta trattando, relativo alla stima della proporzione P, si ha S h = Ph (1 − Ph ) . 20 (18) INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE In tal modo la (17) può essere riformulata nel modo seguente: NE nh = n⋅ N h ⋅ Ph (1 − Ph ) H ∑ Nh ⋅ h =1 . (19) Ph (1 − Ph ) Rimandando alle fonti bibliografiche per una trattazione esaustiva dell’allocazione di Neyman, ci limitiamo qui a ricordare che l’idea che sottende al modello dell’allocazione ottima prevede che sia aumentata la numerosità del campione negli strati caratterizzati un elevato valore: (i) del numero N h di elementi nella popolazione; (ii) della variabilità del parametro oggetto di stima, espressa da Ph (1 − Ph ) . Il modello di Neyman pone alcune difficoltà applicative, riconducibili, in estrema sintesi, al fatto che generalmente le quantità S h non sono note e, nella pratica, vengono approssimate da stime già disponibili o ricavate con metodi indiretti. Se le quantità utilizzate per stimare le deviazioni standard negli strati della popolazione si discostano in maniera sensibile dal valore reale si otterrà un risultato, in termini di efficienza dell’allocazione, inferiore a quello ottimale. Un’alternativa percorribile è quella di ipotizzare l’uguaglianza dei valori S h negli strati, ottenendo un’allocazione del campione di numerosità n proporzionale a quella osservata nella popolazione. _ Posto: S h = S ∀ h , la (17) diviene: _ [ PR nh = n⋅ ] Nh ⋅ S H _ ∑ Nh S = n⋅ Nh . N (20) h =1 _ Nel contesto in esame la condizione S h = S ∀ h equivale a porre: [ ] S h = Ph (1 − Ph ) = P (1 − P ) . La (20) è detta allocazione proporzionale. Oltre alla elevata facilità di applicazione, sussistono ulteriori motivi che inducono a preferire, nella pratica, l’allocazione proporzionale a quella di Neyman. Al fine di comprendere la relazione tra l’allocazione di Neyman e quella proporzionale, si consideri che nella fase di progettazione del disegno di 21 CAPITOLO 1 campionamento i valori Ph possono essere determinati in base alle stime derivanti da indagini precedenti. Tali stime sono spesso caratterizzate da alta variabilità e risultare non attendibili. In questo quadro, per garantire la robustezza della soluzione individuata, la soluzione ragionevole è quella di ipotizzare un valore costante negli strati della proporzione Ph . Nei casi concreti considerati nelle indagini su larga scala, i valori delle proporzioni per strato Ph non variano in modo sensibile tra gli strati ma si distribuiscono in modo piuttosto addensato intorno al valore della proporzione per l’intera popolazione che ne costituisce peraltro la media ponderata. Per tali ragioni è lecito utilizzare l’ipotesi semplificatrice Ph ≅ P, (h = 1,..., H ) . Inoltre, confronti effettuati tra la varianza delle stime ottenute con campioni stratificati secondo l’allocazione ottima e campioni con allocazione proporzionale, hanno evidenziato che per ottenere riduzioni apprezzabili della varianza, passando dall’allocazione proporzionale a quella ottima, sia necessaria una elevata variabilità dei valori Ph . Pertanto, in molti casi concreti, l’allocazione proporzionale risulta essere una buona approssimazione di quella ottima. Una importante proprietà dell’allocazione proporzionale è quella per cui quando Ph ≅ P (h=1,…,H), la varianza del campione stratificato, relativamente alla stima p, è uguale a quella del campione casuale semplice. Si ha infatti: STV ( p ) = ≅ 2 H P (1 − P ) ⋅ ( N − n ) ⎛ N ⎞ ∑ h Nh ⋅ nh PR h ⎜⎝ Nh ⎟⎠ ≅ h PR h h =1 2 H P(1 − P ) ⋅ ( N h − PR nh ) ⎛ N h ⎞ ⎜ ⎟ = ∑ N ⋅ n N ⎝ ⎠ h PR h h =1 Nh 2 ) N ⎛⎜ N h ⎞⎟ = P(1 − P ) (N − n ) = V ( p ) . (21) =∑ N nN ⎝ N ⎠ h =1 Nh ⋅ n h N Nel contesto che si sta considerando, in cui Ph ≅ P (h=1,…,H), si possono H P(1 − P ) ⋅ ( N h − n evidenziare i seguenti aspetti: • l’allocazione ottima corrisponde a quella proporzionale; • il campione casuale semplice ha una varianza di campionamento uguale a quella campionamento stratificato ottimo; • qualsiasi regola di allocazione differente da quella proporzionale 22 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE comporta una varianza di campionamento più elevata rispetto a quella del campionamento casuale semplice; • il valore della statistica deff assume un valore sempre superiore ad 1 ed è pari ad 1 solo nel caso in cui si adotti il criterio di allocazione proporzionale. Vale la pena ribadire che nel caso generale in cui le proporzioni per strato Ph siano differenti tra loro, la statistica deff può assumere anche valori inferiori ad 1. Il contesto descritto in precedenza prevede che l’interesse sia focalizzato, oltre che sulla stima del parametro P riferito all’intera popolazione, anche alla stima dello stesso parametro all’interno degli strati. L’allocazione proporzionale, pur presentando aspetti positivi sulle stime riferite all’intera popolazione, non permette di controllare la precisione delle stime negli strati. Tale precisione, infatti, può variare anche in misura sensibile. Per esplicitare quest’ultimo aspetto si denoti con ε h2 = zα2 V ( ph ) Ph2 (22) l’errore relativo dello stimatore p h nello strato h. Sotto l’ipotesi che il valore della proporzione d’interesse sia uguale negli strati, Ph ≅ P ∀ h , la (22) può essere riformulata nel modo seguente [ ] N ⎞ ⎛ K ⋅ ⎜ Nh − n h ⎟ N − nh P (1 − P ) N ⎠ K ⋅ (N − n ) ⎝ . (23) = = ε h2 = zα2 ⋅ h 2 N N h nh P Nh ⋅ n ⋅ P2 Nh ⋅ n h ⋅ P2 N La (23) indica che l’errore campionario commesso nella stima di un medesimo valore del parametro negli strati della popolazione aumenta al diminuire del valore assoluto della popolazione nello strato. Vale a dire che se il parametro Ph in due strati differenti assume lo stesso valore, la precisione delle stime corrispondenti dipende dalla numerosità della popolazione nello strato; ciò si traduce nell’impossibilità di assicurare la medesima precisione a stime di parametri che presentano uguale valore tra due strati della popolazione. Ad esempio, nelle indagini dove un campione rappresentativo della popolazione nazionale è stratificato per regione e allocato proporzionalmente, è frequente il caso in cui stime di proporzioni approssimativamente uguali, riferite a regioni dove la popolazione è poco numerosa, risultano molto meno precise rispetto alle stime relative alle regioni più popolate. Nella pratica delle indagini campionarie di numerosità data, dove è frequente la presenza di strati in cui la popolazione è poco numerosa, si opera sovracampionando gli strati poco numerosi a scapito degli strati dove le quantità N h sono più elevate. In questo caso ci si allontana dall’allocazione 23 CAPITOLO 1 proporzionale, rinunciando progressivamente alle proprietà positive di tale disegno. In particolare l’effetto del disegno, misurato dalla statistica deff (16), sarà tanto più elevato quanto l’allocazione che prevede un sovracampionamento si discosta dall’allocazione proporzionale. In tale ottica, l’allocazione di un campione di numerosità fissata negli strati diviene un problema complesso, dove è necessario ottimizzare due obiettivi contrapposti: da un lato l’allocazione proporzionale del campione garantisce l’efficienza massima della stima riferita all’intera popolazione; dall’altro, se l’indagine prevede di fornire stime disaggregate per strato, è necessario abbandonare il disegno proporzionale per garantire la stessa precisione delle stime relative agli strati. Di seguito viene definito un metodo per allocare il campione di numerosità fissata in modo che la precisione dello stimatore sia uguale in ciascuno strato: l’allocazione così definita permette di raggiungere uno dei due obiettivi, vale a dire la massima omogeneità della precisione delle stime tra gli strati, ottenuta al prezzo di rinunciare al disegno proporzionale e di rendere meno efficiente lo stimatore riferito all’intera popolazione. Più avanti verrà definita un’allocazione di compromesso tra le due soluzioni proposte, secondo un metodo che permette di controllare aspetti positivi ed elementi critici delle due soluzioni. 1.3.2 Allocazione con medesimo errore negli strati In questo paragrafo sarà definita un’allocazione del campione, di numerosità fissata, in modo che la precisione dello stimatore, misurata tramite l’errore relativo, sia uguale in tutti gli strati. Analogamente a quanto fatto per il campione casuale semplice, è possibile definire la numerosità campionaria in ciascuno strato, UG nh , in funzione 2 dell’errore massimo ammesso in ogni strato. Posto UG ε l’errore relativo massimo ammesso, uguale per tutti gli strati, si ottiene che la numerosità campionaria dello strato h, UG nh (h=1,…,h), deve soddisfare il seguente sistema di (H+1) equazioni ⎧ 1 (N h − nh ) ⋅ Ph (1 − Ph ) 2 ⋅ z1−α / 2 = UG ε 2 ( h = 1,..., H ) ⎪ 2⋅ N h ⋅ nh ⎪ Ph ⎨H ⎪ n =n ⎪ UG h ⎩h =1 ∑ (24) La (24) definisce un sistema implicito di (H+1) equazioni così caratterizzato: − vi sono (H+1) incognite: le H numerosità campionarie UG nh (h=1,…,H) 2 e l’errore massimo atteso UG ε ; 24 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE − i termini noti sono n, N h (h=1,…,H) e Ph (h=1,…,H). Nel caso in cui valgono le condizioni: N h ≅ N / H = N (h=1,…,H) (ossia le dimensioni degli strati, espresse in termini di numero di unità, siano approssimativamente costanti). − Ph ≅ P (h=1,…,H), − le numerosità UG nh vengono ottenuta mediante la semplice relazione 2 UG nh =n/H (h=1,…,H) e l’errore UG ε è definito come UG ε 2 = 1 P 2 ⋅ H (N − n ) ⋅ P (1 − P ) 2 ⋅ z1−α / 2 N ⋅n In tutte le altre situazioni, in cui non valgono le condizioni semplificatrici 2 precedenti, le H numerosità UG nh (h=1,…,H) e il valore UG ε sono determinati risolvendo il sistema (24) in modo iterativo mediante il metodo delle tangenti di curva. I passi computazionali necessari alla risoluzione del sistema (24) sono illustrati nell’appendice 1. Sotto l’ipotesi che Ph ≅ P , (h=1,…,H), si ottiene l’espressione delle numerosità in ciascuno strato UG nh = Nh t ⋅ Nh + 1 (25) dove il parametro t, pari a ε 2 ⋅ P2 UG , t= K viene ricavato tramite la procedura iterativa riportata in appendice. Un aspetto particolarmente interessante del criterio di allocazione proporzionale è che, quando si ha Ph ≅ P (h=1,…,H), la numerosità UG nh , non dipende dal valore del parametro P nella popolazione, né dal livello di confidenza 1 − α : ciò risulta evidente osservando che in nessuna delle due espressioni, riportate in appendice, che definiscono l’allocazione uguale, la (A.3) e la (A.12), sono presenti i parametri P e α . Le implicazioni di tale risultato assumono particolare rilevanza nella determinazione della soluzione del problema dell'allocazione del campione, dal momento che è sufficiente individuare una sola allocazione in grado di assicurare che l'errore campionario commesso nella stima del parametro P sia uguale in tutti gli strati per qualsiasi valore del parametro stesso e indipendentemente dal livello di significatività richiesto. L’allocazione trovata si discosta dall’allocazione proporzionale che presenta, come rilevato in precedenza, un effetto del disegno pari a 1. Pertanto la 25 CAPITOLO 1 precisione dello stimatore p nel disegno che assicura l’omogeneità dell’errore relativo negli strati è inevitabilmente inferiore a quella dell’allocazione proporzionale. La misura dello scostamento è ricavabile tramite la statistica deff, per definire la quale è necessario conoscere la varianza dello stimatore p, sotto il criterio di allocazione proposto. Sotto l’ipotesi Ph ≅ P (h=1,…,H), la varianza dello stimatore p con l’allocazione uguale è pari a: UGV ( p ) = P ⋅ (1 − P ) ⋅ ( N h −UG nh ) N h2 ⋅ . ∑ 2 ⋅ N n N h UG h h =1 H (26) Come mostrato in appendice 2, l’effetto del disegno nel caso di allocazione con medesimo errore negli strati è pari a deffUG = UGV ( p ) = UG ε 2 2 H ∑ N h2 . (27) 2 h =1 N La (27) suggerisce che l’effetto dell’allocazione uguale è tanto più elevato quanto più la numerosità degli strati nella popolazione è eterogenea. L’impatto negativo del livello di eterogeneità della popolazione sulla precisione delle stime è un elemento costante dell’inferenza; tuttavia nel caso in esame non si tratta della variabilità di un parametro oggetto di stima, ma del livello di eterogeneità delle quote della popolazione negli strati. Per illustrare tale relazione, è possibile definire la statistica deff UG come V ( p) ε funzione del livello di eterogenità delle quote σ 2N h la varianza delle quote N h / N . Si denoti a tal fine con N h / N che definiscono la distribuzione della N popolazione negli strati: σ 2N h N 2 1 H ⎛ Nh 1 ⎞ 1 H N h2 1 = − ⎟ = − . ⎜ ∑ ∑ 2 H h =1⎝ N H⎠ H h =1 N H2 N h2 si ottiene ∑ 2 h =1 N H Esplicitando l’espressione precedente rispetto a ⎛ ⎞ ⎛ ⎞ 1 ⎟ 1 ⎜ 2 2 ⎜ 2 ⎟ = H ⋅ ⎜σ N + = ⋅ ⎜ H ⋅ σ N + 1⎟ . ⎟ 2 2 h ⎜ h H ⎟ H ⎜ ⎟ h =1 N N ⎝ N ⎠ ⎝ ⎠ H ∑ N h2 (28) Sostituendo l’ultimo termine della (28) nella (27), l’espressione dell’effetto del disegno assume la forma: 26 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE ε deffUG = UG 2 ε 2 1 ⋅ H ⎛ ⎞ ⎜ 2 2 ⎟ ⋅ ⎜ H ⋅ σ N + 1⎟ . h ⎜ ⎟ N ⎝ ⎠ Fissato il numero degli strati, la varianza delle quote 0 e ( H − 1) / H nell’intervallo 2 N h / N è compresa tra (Leti, 1997): ne consegue che l’effetto del disegno varia ⎡ UG ε 2 1 UG ε 2 ⎤ deffUG ∈ ⎢ ⋅ ; ⎥. 2 H ε 2 ⎥⎦ ⎣⎢ ε Ciò sta ad indicare che l’effetto del disegno con uguale allocazione negli strati è tanto minore quanto più la distribuzione della popolazione negli strati si avvicina all’equiripartizione e tanto maggiore quanto più la ripartizione della popolazione negli strati è eterogenea. Il valore del parametro deffUG può assumere quindi valori elevati, in particolare in disegni campionari che prevedono una stratificazione della popolazione con strati di numerosità molto differente, con il risultato che l’uguaglianza dell’errore relativo negli strati sia ottenuta al prezzo di una rilevante diminuzione della precisione della stima riferita all’intera popolazione. 1.4 Un modello alternativo di allocazione Si ricorda che il contesto affrontato riguarda una indagine che persegue un duplice obiettivo: • produrre stime efficienti per la stima della proporzione P, riferita all’intera popolazione; • produrre stime riferite agli strati con uguale livello di affidabilità. Da quanto esposto in precedenza ciascuno dei due criteri di allocazione sopra esaminati – quello proporzionale e quello con uguale errore negli strati – permette di raggiungere solo uno dei due obiettivi presi a riferimento, risultando inefficiente per l’altro. Di seguito viene definito un criterio di allocazione che permette di definire un compromesso tra l’allocazione proporzionale che, fissata la dimensione campionaria n, massimizza la precisione dello stimatore per l’intera popolazione, e l’allocazione che rende uguale l’errore campionario negli strati. L’allocazione di compromesso conduce a definire numerosità campionarie, denotate con λ nh , determinate da una combinazione convessa delle numerosità campionarie nello strato definite da ciascuno dei due criteri di allocazione sopra definiti λ nh = λ ⋅ PR nh ⋅ + (1 − λ )⋅UG nh (29) dove 0 ≤ λ ≤ 1 è un parametro determinabile in fase di disegno secondo 27 CAPITOLO 1 criteri illustrati più avanti. Al variare di λ nell’intervallo chiuso compreso tra 0 e 1 l’allocazione definita da λ nh permette di aumentare l’omogeneità dell’errore relativo negli strati ma, al contempo, diminuire la precisione dello stimatore p. Dalla (29) risulta immediato che i valori estremali di λ definiscono l’allocazione proporzionale, per λ =1, e l’allocazione con medesimo errore relativo negli strati, per λ =0. Sostituendo le corrispondenti espressioni, riportate nelle (20) e nella (25) la (29) può essere riformulata nel seguente modo λ nh = λ ⋅ n ⋅ Nh Nh . + (1 − λ ) ⋅ N t ⋅ Nh + 1 Si dimostra agevolmente che l’allocazione definita dalla (29) soddisfa, indipendentemente dal valore di λ , il vincolo dato dalla dimensione campionaria fissata e pari ad n. Sommando per strato entrambi i termini della (29) e applicando il vincolo definito dalla H+1esima equazione della (24) si ottiene: H H ∑ λ nh = ∑ λ ⋅ n ⋅ h =1 = h =1 λ ⋅n H Nh + (1 − λ ) ⋅ ∑ UG nh = N h =1 H ∑ N h + (1 − λ )⋅ n = n . N h =1 Sostituendo nella (29) l’espressione di n ottenuta dalla (8), le quantità λ nh 2 possono essere inoltre determinate come funzione degli errori, UG ε ed ε 2 , dei due criteri di allocazione considerati: ⎛ ⎜ λ nh = K ⋅ N h ⋅ ⎜ 2 λ ⎝ε ⋅N + K + ⎞ ⎟. 2 ⎟ UG ε ⋅ N h + K ⎠ 1− λ (30) 2 2 Si osservi che UG ε è funzione di ε (la funzione, come già visto, non è esplicitabile, ma la relazione tra le due quantità è comunque biunivoca); ne consegue che la quantità λ nh risulta determinata dai due soli parametri e λ. La varianza che lo stimatore p assume nel disegno lambda è pari a: λV ( p ) = dove 28 H N h2 ∑ λVh ( p) ⋅ N 2 h =1 ε2 (31) INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE λVh ( p ) = P(1 − P ) ⋅ ( N h − λ nh ) . N h ⋅λ n h (32) Una volta determinata l’espressione della varianza è possibile definire l’effetto del disegno dell’allocazione in modo analogo a quanto fatto per i modelli esposti in precedenza: V ( p) deff λ = λ V ( p) (33) Sostituendo le espressioni ricavate dalla (32), dalla (33) e dalla (1) si ottiene: ⎛ H N h2 ⎞ n deff λ = ⋅ ⎜⎜ ∑ − N ⎟⎟ . N ( N − n ) ⎝ h =1 λ n h ⎠ (34) Nelle applicazioni pratiche la scelta del valore di λ non è immediata né agevole. Gli scenari in cui è richiesto un campionamento efficiente sono estremamente variabili e dipendono da una serie articolata di elementi che influiscono sulla scelta del campione da utilizzare. Tra i fattori che hanno maggiore rilievo nella messa a punto di un piano di campionamento vanno ricordati: i. il tasso di sondaggio, all’aumentare del quale l’errore campionario diminuisce fino ad annullarsi per valori prossimi all’unità; se il tasso di sondaggio tende a 1, l’allocazione proporzionale e l’allocazione uguale tendono a coincidere; ii. la distribuzione della popolazione negli strati; una distribuzione omogenea, con valori molto simili delle quote N h N , avvicina l’allocazione con uguale errore tra gli strati al disegno proporzionale; viceversa, se la numerosità della popolazione varia considerevolmente tra uno strato e l’altro, le quantità PR nh e UG nh , ferma restando la dimensione campionaria n, risulteranno molto diverse. Ne consegue che in contesti dove il tasso di sondaggio è molto basso e dove la popolazione è stratificata in maniera eterogenea, il parametro λ ha effetti sensibili sulle prestazioni del disegno campionario e la scelta del livello di compromesso ottenuto tramite la (29) assume un’importanza cruciale. È utile pertanto mettere a punto alcuni strumenti in grado di orientare correttamente la scelta di λ , misurando, al variare del parametro, il guadagno ottenuto in termini di omogeneità dell’errore campionario tra gli strati e la perdita subita in termini di aumento dell’effetto del disegno. In corrispondenza dei valori estremi di λ si ha: λV ( p ) = V ( p ); se λ = 1 λV ( p ) =UGV ( p ); se λ = 0 . 29 CAPITOLO 1 L’effetto del disegno dell’allocazione lambda, espresso dalla (34), varia pertanto tra 1, per λ =1, e deffUG , ricavato dalla (27), per λ =0. Disponendo dei valori minimo e massimo dell’effetto del disegno al variare di possibile calcolare un indice relativo: I deff (λ ) = 1 − deff λ − 1 . deffUG − 1 λ, è (35) L’indice varia tra 0 e 1 e misura il guadagno relativo, in termini di efficienza dello stimatore p, al variare di λ . In modo analogo è possibile costruire un indice relativo che misuri l’omogeneità dell’errore all’interno degli strati al variare di λ . Una buona misura del livello di variabilità dell’errore negli strati è dato dallo scarto quadratico medio1. Si denoti con σ λ εh = 2 ⎞ 1 H ⎛⎜ 1 H ∑ λ ε h − H ∑ λ ε h ⎟⎟ H h =1⎜⎝ h =1 ⎠ (36) lo scarto quadratico medio dell’errore negli strati, dove λ εh = P (1 − P) z12−α 2 ⋅ (N h − λ nh ) N h ⋅ λ nh ⋅ P 2 = K ⋅ ( N h − λ nh ) . N h ⋅λ nh ⋅ P 2 La quantità definita dalla (36) assume valore 0 per λ =0, poiché, in corrispondenza di tale valore, l’allocazione lambda presenta lo stesso errore in tutti gli strati. Assume valore massimo, pari allo scarto quadratico medio dell’errore negli strati del campione con allocazione proporzionale, nel caso di λ =1 ⎡ 2 ⎤ ε2 ⋅N ⎢ H 1 2 ⎛⎜ H 1 ⎞⎟ ⎥ ( σ ) = . − ⋅ ∑ max ∑ λ εh H ⎢ h =1 N h H ⎜⎝ h=1 N h ⎟⎠ ⎥ λ∈[0, 1] (37) ⎦ ⎣ Anche in questo caso è possibile calcolare, tramite la (36) e la (37), un indicatore relativo del grado di omogeneità dell’errore negli strati al variare di λ Iσ ε (λ ) = 1 − σ λ εh max (σ λ ε h ) . (38) λ ∈[0, 1] 1 È possibile utilizzare altre misure di variabilità: intervallo di variazione, indici di eterogeneità, ecc. 30 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE Nella figura successiva è riportato l’andamento dei due indicatori I σ (λ ) e ε I deff (λ ) definiti rispettivamente dalla (35) e dalla (38), al variare di λ , ricavati da un’applicazione empirica illustrata nel par. 1.5. Fig. 1 - Indicatori dell’allocazione di compromesso in funzione del parametro λ Indicatore 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0 λ 0,1 0,2 0,3 0,4 0,5 0,6 I deff Ideff (λ ) 0,7 0,8 0,9 IsqmIσ 1,0 ε (λ ) Al tendere di λ ad 1 l’allocazione fornita dalla (29) tende a quella proporzionale e, di conseguenza, l’indicatore dell’omogeneità tende al suo minimo (massima variabilità dell’errore relativo negli strati), mentre l’indicatore relativo alla precisione dovuta all’effetto del disegno tende al suo massimo, vale dire all’effetto del disegno con allocazione proporzionale. Dai due indicatori succitati è possibile definire una funzione sintetica ξ (λ ) della perdita complessiva registrata al variare di λ : ξ (λ ) = 2 − [ I deff (λ ) + Iσ ε (λ )] . (39) [ ] La funzione ξ (λ ) è definita nell’intervallo λ ∈ 0, 1 ; in tale intervallo la funzione è continua e presenta due punti di massimo, entrambi pari ad 1, in corrispondenza di λ = 0 e di λ = 1 ; nell’intervallo aperto λ ∈ (0, 1) la fun31 CAPITOLO 1 zione ξ (λ ) è strettamente minore di 1. La funzione ξ (λ ) misura la per- dita complessiva dell’allocazione ottenuta in corrispondenza del valore di λ selezionato, sia in termini di aumento dell’effetto del disegno che in termini di eterogeneità dell’errore campionario negli strati. L’andamento della funzione di perdita è riportato nella figura successiva, anch’essa ricavata dall’applicazione empirica esposta nel par.1.5. Fig. 2 - Andamento della funzione di perdita ξ (λ ) 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0 λ 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Un criterio per determinare il valore ottimale di λ potrebbe essere quello di individuare il valore di λ a cui corrisponde il valore minimo della funzione di perdita definita dalla (39). Tale valore è determinato in maniera univoca derivando la funzione ξ (λ ) e annullando la derivata prima. Tuttavia, in alcune situazioni concrete, tale criterio conduce a soluzioni non accettabili. Può accadere che nel punto di minimo della funzione ξ (λ ) , almeno uno dei due indici I deff (λ ) e I σ ( λ ) si discosti notevolmente dai ε valori accettabili nell’applicazione che si sta prendendo in esame. La funzione di perdita deve quindi essere utilizzata con accortezza, al fine di determinare l’allocazione ottimale alle esigenze dell’indagine, e unitamente ad elementi ulteriori: il valore assoluto di deff λ , lo scarto quadratico medio dell’errore negli strati, il valore massimo dell’errore negli strati, l’intervallo di variazione dell’errore tra gli strati, ecc. Un’applicazione della funzione di perdita, congiuntamente ad altri indicatori della bontà dell’allocazione selezionata, è esposta nel paragrafo successivo. 32 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE 1.5 Un’applicazione empirica Il metodo di allocazione del campione esposto in precedenza è stato applicato ad un progetto di indagine dall’Area Mercato del lavoro dell’Isfol, relativa al monitoraggio dell’applicazione della legge 68/99 sugli incentivi all’ingresso nell’occupazione di soggetti disabili. L’indagine prevede la somministrazione di un questionario ad un campione di consulenti del lavoro, per acquisire informazioni sull’applicazione della legge oggetto di studio da parte dei loro clienti. L’unità di campionamento è il consulente del lavoro. Il campione è stratificato per regione; la popolazione, desunta dagli elenchi provinciali degli iscritti all’ordine, è pari a 18.907 consulenti del lavoro. Fig. 3 - Calcolo di UG UG ε tramite il procedimento iterativo Calcolo di ε UG ε tramite il procedimento iterativo 0,28 0,24 0,20 0,16 0,12 0,08 0,04 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Iterazione In primo luogo sono stati determinati i parametri di campionamento: α = 0,05 ; ε = 0,6 ; P = 0,50 . Vale a dire che si vuole ottenere un campione in grado di stimare una caratteristica della popolazione P avente una frequenza relativa pari al 50%, con un errore massimo ε del 6%, con probabilità (1 − α ) del 95%. Definiti i parametri fondamentali del campione, tramite la (8) è stata determinata la numerosità campionaria, che risulta pari a 1.010 consulenti del lavoro. Il passo successivo è volto a determinare l’errore uguale per tutti gli strati. Il procedimento iterativo converge in pochi passi ad un valore di UG ε = 0,26 , come evidenziato nella figura precedente. Le caratteristiche delle allocazioni calcolate sono riportate nello schema successivo. 33 CAPITOLO 1 Schema n. 1 - Parametri e caratteristiche delle diverse allocazioni calcolate Regione (strato) Piemonte Consulenti del lavoro iscritti agli ordini provinciali Numerosità campionaria 1.135 61 0,244 55 0,260 87 5 0,884 35 0,260 2.585 138 0,162 56 0,260 216 12 0,562 45 0,260 1.591 85 0,206 55 0,260 423 23 0,402 50 0,260 Valle D Aosta Lombardia Trentino A.A. Veneto Friuli V.G. Liguria Allocazione proporzionale Errore relativo Allocazione con errore costante per strato Numerosità campionaria Errore relativo 512 27 0,364 51 0,260 Emilia Romagna 1.196 64 0,238 54 0,260 Toscana 1.608 86 0,206 55 0,260 Umbria 321 17 0,460 48 0,260 Marche 635 34 0,328 52 0,260 2.445 130 0,166 55 0,260 Abruzzo 474 25 0,378 51 0,260 Molise 118 6 0,760 38 0,260 Lazio Campania 1.660 89 0,202 55 0,260 Puglia 1.375 73 0,222 54 0,260 Basilicata 192 10 0,596 44 0,260 Calabria 501 27 0,368 51 0,260 1.179 63 0,240 54 0,260 Sicilia Sardegna Italia 654 35 0,322 52 0,260 18.907 1.010 0,060 1.010 0,074 Effetto del disegno (deff) Scarto quadratico medio dell’errore negli strati ( σ λ εh ) 1,000 1,496 0,097 0,000 Applicando la (29) viene definita l’allocazione combinata in funzione del parametro λ : λ ⎛ ⎞ λ 1− λ ⎟⎟ n h = 1,96 2 ⋅ 0,25 ⋅ N h ⋅ ⎜⎜ + 2 2 2 2 ⎝ 0,03 ⋅ 18.907 + 1,96 ⋅ 0,25 0,13 ⋅ N h + 1,96 ⋅ 0,25 ⎠ (40) Applicando la (40) a ciascuno strato si ottiene l’espressione dell’allocazione del campione dei 1.010 consulenti del lavoro in funzione di λ , al variare del quale si hanno differenti allocazioni del campione. Per ogni allocazione 34 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE ottenuta risultano definiti l’effetto del disegno, lo scarto quadratico medio dell’errore relativo, gli indici relativi e la funzione di perdita. Di seguito sono riportati i parametri delle allocazioni ottenute in corrispondenza di tre valori di λ λ deff λ I deff (λ ) Iσ ε ( λ ) ξ (λ ) min( λ ε h ) max( λ ε h ) 0,27 1,248 0,50 0,86 0,64 0,109 0,159 0,57 1,093 0,81 0,67 0,52 0,095 0,209 0,70 1,049 0,90 0,24 0,55 0,090 0,244 h h La funzione di perdita ξ ( λ ) presenta il valore minimo per λ = 0,57. Tuttavia, in corrispondenza di tale valore, l’omogeneità dell’errore negli strati è giudicata troppo esigua (l’errore standard varia dal 18% registrato in Lombardia a quasi il 38% della Valle d’Aosta). Una scelta che migliora l’omogeneità dell’errore negli strati si ottiene ponendo λ = 0,27; in questo caso il campo di variazione dell’errore negli strati, compreso 21,8% e 31,8%, è considerato accettabile, al prezzo però di veder aumentato l’effetto del disegno. Quest’ultima allocazione, pur essendo notevolmente lontana dal minimo della funzione di perdita, è stata selezionata per l’indagine in questione. Il disegno campionario utilizzato è riportato nello schema seguente. Schema n. 2 - Parametri e caratteristiche delle allocazioni di compromesso Regione (strato) Consulenti del lavoro iscritti agli ordini provinciali (popolazione) Piemonte Valle D Aosta Allocazione di compromesso λ = 0,27 1.135 Numerosità campionaria 56 Errore relativo 0,256 87 26 0,318 2.585 78 0,218 216 36 0,298 1.591 63 0,242 Friuli V.G. 423 43 0,284 Liguria 512 45 0,280 Emilia Romagna 1.196 57 0,254 Toscana 1.608 63 0,242 Umbria 321 40 0,290 Marche 635 47 0,274 0,222 Lombardia Trentino A.A. Veneto Lazio 2.445 76 Abruzzo 474 44 0,282 Molise 118 30 0,310 1.660 63 Campania 0,240 segue schema 35 CAPITOLO 1 Schema n. 2 segue Allocazione di compromesso Consulenti del lavoro iscritti agli ordini provinciali (popolazione) Regione (strato) Puglia Numerosità campionaria 60 1.375 λ = 0,27 Errore relativo 0,248 Basilicata 192 35 Calabria 501 44 0,280 1.179 56 0,254 Sicilia Sardegna Italia 654 48 0,274 18.907 1.010 0, 680 Effetto del disegno (deff) Scarto quadratico medio dell’errore negli strati ( σ λ εh 0,300 1,248 0,0137 ) Nella figura successiva è riportato l’errore relativo negli strati del campione selezionato tramite il parametro λ , confrontato con l’errore dell’allocazione proporzionale. Fig. 4 - Errore nell'allocazione lambda e nell'allocazione proporzionale 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 Strato Allocazione lambda Italia Sardegna Sicilia Calabria Basilicata Puglia Campania Molise Lazio Abruzzo Marche Umbria Toscana Emilia R. Liguria Friuli V.G. Veneto Trentino A.A. Lombardia Valle d'Aosta Piemonte 0,00 Allocazione proporzionale Il procedimento seguito ha permesso, in sostanza, di livellare l’errore delle stime nelle regioni generalmente sensibili a problemi di significatività quali, ad esempio, la Valle d’Aosta e il Molise. Tale risultato è stato ottenuto a prezzo di accettare un valore dell’effetto del disegno, misurato dalla statistica deff, pari a 1,248. Tale valore è comunque contenuto rispetto al massimo 36 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE teorico, pari a 1,496, che si sarebbe ottenuto imponendo lo stesso errore in ciascuno strato. Il procedimento seguito ha permesso, in sostanza, di livellare l’errore delle stime nelle regioni generalmente sensibili a problemi di significatività quali, ad esempio, la Valle d’Aosta e il Molise. Tale risultato è stato ottenuto a prezzo di accettare un valore dell’effetto del disegno, misurato dalla statistica deff, pari a 1,248. Tale valore è comunque contenuto rispetto al massimo teorico, pari a 1,496, che si sarebbe ottenuto imponendo lo stesso errore in ciascuno strato. 1.6 La soluzione dell'allocazione nei domini di studio La soluzione esposta nel par. 1.3 può essere estesa al caso dei domini di studio. Si consideri il caso generale in cui si possano definire G partizioni distinte della medesima popolazione U. Si indichi con g (g=1, ,G) la generica partizione; ad esempio sia g una data suddivisone della popolazione U nelle regioni geografiche. Si indichi inoltre con Ugd, (dove d=1,…., Mg) un generico sottoinsieme di interesse – di dimensione Ngd – definito nell’ambito della partizione g; riprendendo l’esempio precedente, Ugd può indicare l’insieme delle unità di una determinata regione geografica. Sia Mg (41) N = N gd . d =1 ∑ Si supponga, inoltre, che ciascun dominio Ugd possa essere definito come aggregazione di strati elementari interi: U gd = UUh (g=1, …,G; d=1,…., Mg ) (42) ∑ Nh (g=1, …,G; d=1,…., Mg ). (43) h ∈ gd N gd = h ∈ gd In tal modo la partizione negli strati rappresenta una suddivisione più fine della popolazione rispetto alla generica partizione g, i domini della quale sono perciò ricavabili unendo insieme gli strati elementari. Si consideri come fissa la generica partizione g e si ipotizzi di voler definire un’allocazione delle n unità del campione s in modo che le stime riferite al generico dominio gd abbiano il medesimo errore relativo. I termini del problema sono analoghi a quanto esposto nel caso degli strati: vi sono quindi Mg+1 parametri di interesse definiti da i) le proporzioni Pgd relative a ciascun dominio 37 CAPITOLO 1 N N gd h Nh 1 1 Pgd = y = yk = ∑ Ph , ∑ ∑ ∑ k N gd k =1 N gd h∈gd k =1 N gd h∈gd (d=1,…,Mg) (44) ii) proporzione P per l’intera popolazione data da H M M g N g N N Nh gd gd P = ∑ Ph h = ∑ P = Pgd . ∑ ∑ h N N N N gd h =1 d =1 h∈gd d =1 (45) Si supponga di aver estratto un campione stratificato, di numerosità data n, con selezione senza reimmissione e con probabilità uguale negli strati. Si supponga inoltre di stimare gli Mg+1 i parametri Pgd (d=1,…,Mg) e P nel modo seguente: n Nh 1 h Nh p gd = ∑ yk = ∑ ph , (d=1,…,Mg) ∑ N n N gd h gd h∈gd k =1 h∈gd H M M g N g N Nh Nh gd gd p= ∑ ph = ∑ ph = ∑ p gd . ∑ N N h∈d N gd N h =1 d =1 d =1 Il problema di allocazione del campione si presenta, nel caso in questione, come un problema da risolvere in due stadi. Il primo stadio è relativo all’allocazione del campione in ciascun dominio di studio. Nel primo stadio si determinano quindi le numerosità campionarie ngd (d=1,…,Mg) essendo Mg ∑ n gd = n . (46) d =1 Il problema di allocazione del secondo stadio attiene alla definizione della numerosità campionaria in ciascuno strato in modo che ∑ nh = ngd . (47) h∈gd La procedura complessiva, articolata in due stadi, rispetta il vincolo della numerosità campionaria data, infatti dalle due relazioni precedenti si ricava: 38 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE Mg Mg ∑ ngd = ∑ ∑ nh = n . d =1 (48) d =1 h∈gd Per descrivere la procedura relativa al primo stadio, si consideri il caso in cui si voglia ottenere un errore di campionamento uguale in ciascuno dei domini di studio. Si adotta dapprima l’ipotesi semplificatrice che gli Mg domini corrispondano agli strati elementari dell’indagine. Analogamente a quanto fatto nel caso degli strati è possibile definire la numerosità campionaria in ciascun dominio, UG n gd , in funzione dell’errore massimo ammesso in ogni dominio. &&&g2 il quadrato dell’errore relativo massimo ammesso, uguale per Posto UG ε tutti i domini della partizione g, si ottiene che la numerosità campionaria del dominio gd, UG n gd (d=1,…,Mg), deve soddisfare il seguente sistema di (Mg+1) equazioni ⎧ 1 (N gd − n gd )⋅ Pgd (1 − Pgd ) 2 ⋅ z1−α / 2 = UG &ε&&2 ( d = 1,..., M g ) ⎪ 2 ⋅ N n ⋅ P ⎪ gd gd UG gd ⎨Mg ⎪ UG n gd = n ⎪⎩∑ d =1 (49) La (49) definisce un sistema implicito di (Mg +1) equazioni così caratterizzato: • vi sono (Mg+1) incognite: le Mg numerosità campionarie UG n gd (d=1,…,Mg) e l’errore massimo atteso UG ε&&&g2 ; i termini noti sono n, P, N gd e Pgd (d=1,…,Mg). Analogamente a quanto fatto nel caso degli strati, il problema allocativo sarà studiato ipotizzando che le proporzioni Pgd siano approssimativamente uguali nei vari domini di studio, ossia Pgd ≅ P , (d=1,…,Mg). Pertanto • riformulando la (25), sostituendo i domini agli strati, si ottengono le numerosità del campione nei domini della partizione g, in modo che gli errori delle stime dei parametri Pgd assumano il medesimo valore in ciascun dominio della partizione: UG n gd = N gd τ g ⋅ N gd + 1 (50) 39 CAPITOLO 1 dove τg assume una valenza analoga al parametro t presente nella (25) ed è il limite cui tende la successione analoga alla (A.12), riformulata in termini di domini della partizione g: Mg ∑ τ g ,i = d =1 Mg N gd τ g ,i −1 ⋅ N gd + 1 2 N gd −n + τ g ,i −1 ; τ g ,0 = 0 ∑ τ (t ⋅ N + 1)2 g ,i −1 gd d =1 La (50) assicura anche il rispetto della relazione (46). Nel secondo stadio della procedura di allocazione si fa cadere l’ipotesi che i domini coincidano con gli strati e si considera nuovamente il fatto che ciascun dominio è ottenibile come aggregazione di strati elementari. Una volta definite le numerosità ngd (d=1,…,Mg), è ora necessario definire un'allocazione del campione ngd negli strati elementari che compongono il dominio Ugd in grado di soddisfare la (47). Il problema è analogo a quello della migliore allocazione di una campione di numerosità n in H strati; anche in questo caso la soluzione ottima corrisponde all'allocazione proporzionale. Come mostrato nel par. 1.3, sotto l’ipotesi di omogeneità del valore del parametro negli strati che compongono il dominio, l’allocazione proporzionale garantisce che l’errore campionario della stima Pgd, ottenuta tramite &&&g , definito nel primo stadio un campionamento stratificato, sia pari a UG ε della procedura di allocazione esposta. Pertanto l’allocazione finale del campione negli strati elementari, UGg nh , che assicura il medesimo errore nei domini della partizione g è data da UGg n h =UG n gd ⋅ = Nh = τ g ⋅ N gd + 1 N gd Nh N = ⋅ h = N gd τ g ⋅ N gd + 1 N gd (h ∈ gd ; g = 1,..., G ) . (51) La (51) definisce, per ciascuno strato h, G allocazioni alternative, la generica delle quali, riferita alla partizione g, assicura l'uguaglianza della precisione delle stime dei parametri Pgd nei domini della partizione. La numerosità definita per una determinata partizione non assicura comunque un uguale errore di campionamento nei domini di una qualsiasi delle altre G-1 partizioni. Poiché il problema allocativo implica una soluzione unica sull’intera stratificazione è necessario definire un criterio di compromesso che 40 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE consenta di individuare una soluzione in grado di tener conto dei diversi obiettivi conoscitivi dell’indagine, espressi in termini di comparabilità delle stime prodotte in domini riferiti a partizioni differenti. Ad esempio una indagine sulle imprese può prevedere una partizione della popolazione definita dalla regione della sede legale e un’altra partizione definita in base all’attività economica dell’impresa. Parimenti un’indagine sulle famiglie può avere come obiettivo quello di produrre stime con uguale errore campionario sia rispetto al genere sia rispetto alle classi di età. Analogamente a quanto esposto nel par. 3.3, è possibile individuare una soluzione di compromesso tra le diverse allocazioni proposte, in grado di bilanciare, secondo gli scopi della ricerca e le risorse disponibili per l'indagine, le proprietà delle allocazioni che permettono di ottenere una identica precisione delle stime in ciascuna delle partizioni. Nell’individuare il criterio di compromesso è opportuno considerare anche l’allocazione PR nh , definita dalla (20), che consente di ottenere l’allocazione ottima per la stima relativa all’intera popolazione. La soluzione di compromesso, indicata dalla numerosità del campione in ogni strato h, è pari alla media delle numerosità di ciascuna delle allocazioni proposte, ponderata con coefficienti λ g (g=0,…,G) compresi tra 0 e 1, dove λ0 è il coefficiente relativo al peso dell'allocazione proporzionale. Indicando con * nh la soluzione per ogni strato si ottiene G ( ) λ0 , λ1 ,..., λ g ,..., λG ∈ [0; 1] , * nh = λ0 ⋅ PR nh + ∑ λ g ⋅UGg nh ; g =1 (52) dove G ∑λ g = 1, g =0 essendo quindi G λ0 = 1 − ∑ λg . g =1 Una soluzione banale alla (52) è data da λg = 1 (g=0,…,G) G +1 (53) che equivale ad assegnare un peso uguale: • all’obiettivo di avere una stima ottima per l’intera popolazione; • ai G obiettivi distinti definiti dall’avere un uguale errore di campionamento per tutti i domini di una data partizione. 41 CAPITOLO 1 Il numero di parametri coinvolti nella (52), G+1, è generalmente molto elevato, specialmente nelle indagini di natura socio-economica; diviene quindi computazionalmente complesso definire una soluzione di compromesso, basata sulla minimizzazione di una misura della perdita complessiva dell’efficienza in modo analogo a quanto riportato nella (39). Qualora si abbiano buoni motivi per non utilizzare la soluzione banale espressa dalla (53) è più opportuno utilizzare metodi differenti di allocazione basati sulla definizione di criteri di errore massimo ammesso per la stima riferita a ciascun dominio; in tal modo però la numerosità complessiva n non è determinabile a priori come nel caso in esame. Tali metodi sono ampiamente trattati nel par. 2.4 del capitolo successivo. 42 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE APPENDICE 1 METODO ITERATIVO PER LA DETERMINAZIONE DELLE NUMEROSITÀ CAMPIONARIE UG nh Ipotizzando un valore del parametro Ph costante negli strati e pari a P, ed estendendo la il sistema (24) può essere riformulato nel seguente modo alternativo K ⋅ Nh ⎧ ⎪ UG nh = 2 2 ⎪ UG ε ⋅ P ⋅ N h + K ⎨H ⎪ ∑ UG nh = n ⎪⎩h =1 ( h = 1,..., H ) . (A.1) Posto, per semplicità di notazione, 2 ε ⋅P t = UG K 2 (A.2) le prime H equazioni della (A.1) diventano: UG nh = Nh . t ⋅ Nh + 1 (A.3) Sommando per strato i due termini della (A.3) e applicando il vincolo espresso dall’ultima equazione del sistema (A.1) si ottiene: H n=∑ k =1 Nh . t ⋅ Nh +1 (A.4) La (A.4) fissa i termini del problema: occorre trovare un valore t , invariante tra gli strati, che sostituito nella (A.3) fornisce la numerosità del campione in ciascuno strato, assicurando il vincolo espresso dalla il vincolo espresso dall’ultima equazione del sistema (A.1). La relazione espressa dalla (A.4) non è invertibile e non è pertanto esplicitabile rispetto a t: è necessaria una procedura iterativa che approssimi la soluzione con tangenti alla curva. A tale scopo è necessario considerare la (A.4) una funzione R → R ; le quantità n e t assumono pertanto il significato di variabili e, nel prosieguo dell’esposizione sarà utile modificare leggermente la notazione: si indichi con n* la numerosità campionaria fissata e con t * il valore incognito che fornisce, tramite la (A.3), l’allocazione del campione negli strati. 43 CAPITOLO 1 Sia n = u (t ) una funzione R → R definita dalla (A.4): Nh ; t ⋅ Nh +1 H n = u (t ) = ∑ k =1 (A.5) sia definita, dalla (A.5), un’equazione implicita f ( n, t ) = 0 : H f ( n, t ) ≡ ∑ k =1 Nh −n = 0. t ⋅ Nh +1 (A.6) [ Sia definita l’equazione della tangente alla curva f nel generico punto t i , ni t = g i (n) . ] (A.7) [ ] Pertanto, fissato un punto arbitrario t 0 , n0 , la quantità t1 = g o (n* ) approssima la soluzione cercata; sostituendo t1 nella (A.5) si ricava H n1 = ∑ k =1 Nh , t1 ⋅ N h + 1 [ ] ottenendo il punto t1 , n1 . [ ] Tramite la tangente alla curva f nel punto t1 , n1 , definita dalla (A.7), si ottiene t 2 = g 1 (n* ) . La quantità t 2 approssima la soluzione cercata in misura migliore rispetto a t1 . Il procedimento iterativo converge verso la soluzione t* . Sostituendo il valore n = u (t ) nella (A.7) è possibile esprimere il processo iterativo tramite una sola espressione: t i +1 = g i [u (t i )] . (A.8) È ora sufficiente esprimere in forma esplicita le funzioni g i (n) e intervengono nella (A.8). L’equazione della tangente ad una generica funzione implicita nel punto (t i , ni ) è data da: ⎡ ∂f ⎤ ⎡ ∂f ⎤ ⋅ (n − ni ) + ⎢ ⎥ ⋅ (t − t i ) = 0 ⎢⎣ ∂n ⎥⎦ ⎣ ∂t ⎦ η =ti n = ni che, esplicitata rispetto a t, definisce la funzione t = g i (n) ; 44 u (t ) che f (t , n) = 0 INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE ⎡ ∂f ⎤ ⎢⎣ ∂n ⎥⎦ n = ni t= ⋅ ( ni − n ) + t i . ⎡ ∂f ⎤ ⎢⎣ ∂t ⎥⎦ t =ti (A.9) Derivando la funzione f rispetto a t e ad n, ed applicando la (A.9), si ricava la forma funzionale della tangente g i ( n ) : H N h2 ∂f = −∑ 2 ∂t h =1 (t ⋅ N h + 1) ∂f = −1 ; ∂n g i ( n) = (ni − n ) ∑ (t h =1 + ti . N h2 H i ⋅ N h + 1) (A.10) 2 [ ] Dalla (A.5), applicata al generico punto t i , ni , si ricava la forma funzionale della u (t ) : ni H = u (t i ) = ∑ k =1 Nh ti ⋅ N h + 1 (A.11) Sostituendo la (A.11) nella (A.10) e calcolando la funzione g nel punto n* si ottiene: H Nh − n* t ⋅ N + 1 i h ti +1 = g i ( n* ) = h =1 + ti . H N h2 ∑ (A.12) ∑ (t ⋅ N + 1)2 i h h =1 L’espressione (A.12) esplicita totalmente la (A.8) e permette di calcolare il valore t * che, applicato per ciascuno strato all’espressione definita dalla (A.3), fornisce l’allocazione cercata. Si osservi che nella notazione riportata nelle (A.12) non è presente il termine ni ; pertanto è sufficiente stabilire arbitrariamente un valore iniziale t 0 per determinare la soluzione cercata. Una volta fissata la numerosità campionaria n* , è univocamente determinata, tramite la (A.12) e la (A.3), l’allocazione che rende uguale l’errore relativo tra gli strati, UG nh , e il corrispondente errore relativo, UG ε 2; vale a dire che l’errore campionario associato al campionamento casuale semplice e l’errore commesso nel campionamento stratificato, e allocato secondo il disegno 45 CAPITOLO 1 UG, sono in relazione biunivoca. Ricordando che la quantità n ed ε sono legate dalla relazione (8) ne deriva che, una volta fissata la numerosità campionaria e la partizione della popolazione in strati, è univocamente determinata l’allocazione del campione che rende omogeneo l’errore della stima negli strati. 2 Sul piano operativo l’applicazione della (A.12) non è particolarmente complessa, tuttavia la scelta di un valore adeguato di t 0 permette una convergenza più veloce e la determinazione della soluzione in pochi passi. Il numero di passi necessari per ottenere una buona approssimazione di t * , dipende dal livello di omogeneità delle quantità N h : tanto più le numerosità degli strati nella popolazione sono simili, tanto più veloce sarà la convergenza verso il valore t * . Nel caso di disegni campionari che prevedono un numero elevato di strati e una accentuata eterogeneità tra le quantità N h , il valore di t 0 può agevolare molto i calcoli. Si ipotizzi, in un contesto puramente teorico, che la popolazione U sia equidistribuita negli H strati: N h' = N H [∀ h]. Applicando l’allocazione proporzionale del campione di numerosità n a tale popolazione si ottiene : ' PR nh = n ⋅ N h' n = N H [∀ h] l’errore negli strati può ora essere calcolato in ciascuno strato applicando la (8b). Posto 0 ε h l’errore in ciascuno strato dell’allocazione teorica appena definita, si ottiene: 2 0ε h = ( K ⋅ N h' − nh' N h' ⋅ nh' ⋅ P 2 ) ⎛N n ⎞ K ⋅⎜ − ⎟ 2 ⎝ H H ⎠ = K ⋅ H ⋅ (N − n ) = H ⋅ ε (A.13) = N n N ⋅ n ⋅ P2 P2 ⋅ ⋅ P2 H H dove ε è il quadrato dell’errore del campione casuale semplice di dimensione n. Il livello dell’errore espresso dalla (A.13) non dipende da h ed è perciò costante in ciascuno strato; essa rappresenta pertanto il valore che 2 assumerebbe 46 UG ε 2 se la popolazione fosse equidistribuita negli strati. INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE Ponendo quindi tale quantità come punto iniziale dal quale far partire il procedimento iterativo riportato nella (A.12): t0 = H ⋅ε 2 K si ottiene si ottiene il valore di un punto di origine della procedura iterativa che approssima la soluzione cercata in modo tale da far convergere l’algoritmo in maniera sensibilmente più rapida. Nelle applicazioni del metodo si è visto che la soluzione viene determinata in solo 2 o 3 iterazioni. 47 APPENDICE 2 VALORE DELL’EFFETTO DEL DISEGNO NELL’ALLOCAZIONE UGUALE L’effetto del disegno di campionamento nell’allocazione uguale è dato da V ( p) deffUG = UG . V ( p) Tale quantità può essere riformulata nel modo seguente. H deffUG = P ⋅ (1 − P ) ⋅ ( N h −UG nh ) N h2 N ⋅n ⋅∑ ⋅ = P ⋅ (1 − P ) ⋅ ( N − n ) h =1 N h ⋅UG nh N2 = H ( N h −UG nh ) n ⋅∑ ⋅ Nh = N ⋅ ( N − n ) h =1 UG nh = ⎛ H ⎞ N h2 n ⋅⎜ ∑ − N⎟ = ⎟ N ⋅ ( N − n ) ⎜⎝ h =1 UG nh ⎠ = ⎛1 H ⎞ N h2 n ⋅⎜ ∑ − 1⎟ . ⎟ N − n ⎜⎝ N h =1 UG nh ⎠ Sostituendo nell’espressione precedente la formulazione di UG nh data dalla (A.1), si ha ⎛ 1 H N h2 ⋅UG ε 2 + N h ⋅ K ⎞ n ⋅⎜ ∑ − 1⎟ = ⎟ N − n ⎜⎝ N h =1 K ⎠ 2 2 2 H ⎛ 1 H N h ⋅UG ε ⎞ n⋅UG ε n ⎟= = ⋅⎜ ∑ ⋅ ∑ N h2 . ⎟ (N − n ) ⋅ N ⋅ K N − n ⎜⎝ N h =1 K h =1 ⎠ deffUG = Inserendo nella precedente relazione, l’espressione di n data dalla (8) si ottiene K ⋅ N ⋅UG ε 2 H ε 2 H N h2 ε2 ⋅N + K deffUG = ⋅ N h2 = UG . 2 2 K⋅N ⎞ ⎛ ε N h = 1 h = 1 ⎜N − 2 ⎟⋅N ⋅K ∑ ⎝ ∑ ε ⋅N +K⎠ 48 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA E DELL’ALLOCAZIONE * DEL CAMPIONE 2.1 Introduzione La definizione della numerosità campionaria nel campionamento stratificato rappresenta un problema di notevole complessità, in quanto l’individuazione di una soluzione ottima può dipendere da differenti aspetti di seguito elencati. • Il tipo di parametro di popolazione che si intende stimare. La soluzione ottima nel caso in cui si debba stimare il totale di una determinata variabile può essere differente dalle soluzioni relative ai casi in cui si intenda stimare un indice dei prezzi o il rapporto tra i totali della stessa variabile riferiti a due differenti istanti temporali. • Il disegno di campionamento adottato. Il campionamento stratificato può essere realizzato mediante differenti schemi probabilistici di selezione delle unità negli strati, come ad esempio: il campionamento casuale semplice il campionamento a probabilità variabile, ecc. • La molteplicità degli obbiettivi dell’indagine. Questa infatti può avere un unico obiettivo di stima o obiettivi molteplici, dovendo in tal caso produrre stime relative a differenti sottoinsiemi della popolazione sotto studio. • L’approccio usato per l’inferenza. Il calcolo delle stime di un’indagine può essere realizzato basandosi su differenti approcci all’inferenza: l’approccio classico del campionamento da popolazioni finite, l’approccio predittivo (basato su particolari modelli di superpopolazione) o l’approccio assistito da modello. Ciascuno degli approcci suddetti può definire tipi di stimatori differenti come, ad esempio lo stimatore di HorvitzThompson, lo stimatore di regressione generalizzato o lo stimatore predittivo. Le soluzioni ottime variano al variare dell’approccio considerato. • La tipologia di informazione disponibile al momento della progettazione dell’indagine. La soluzione ottima è strettamente dipendente dal con* Di Marco Centra, Piero Demetrio Falorsi. 49 CAPITOLO 2 testo informativo in base al quale l’indagine viene progettata. Ad esempio si possono conoscere le varianze a livello di strato, o come caso estremo può essere noto unicamente il numero di unità della popolazione a livello di strato. Il particolare contesto di una data indagine, di cui bisogna tenere conto nella definizione della soluzione da adottare per l’indagine stessa, è definito quindi da una data specificazione degli aspetti sopra elencati. Il presente lavoro cerca di affrontare in modo unificato i differenti contesti d’indagine, individuando uno schema generale di soluzione a cui può essere riportato, mediante opportuni adattamenti il particolare contesto che caratterizza una singola indagine. A tal fine, nel par. 2.2, si illustrano gli strumenti statistici utili a caratterizzare un particolare contesto d’indagine. Nel par. 2.3, si riporta un risultato generale sulla decomposizione della varianza nel campionamento stratificato e si approfondisce come tale risultato può essere particolarizzato a specifici contesti caratterizzanti le indagini su larga scala. Infine, i parr. 2.4 e 2.5 affrontano il problema della determinazione della numerosità campionaria rispettivamente per i casi in cui l’indagine abbia un unico obiettivo di stima (caso univariato) o gli obiettivi di stima siano molteplici. 2.2 Contesto di riferimento 2.2.1 Definizione dei parametri di interesse Prima di illustrare in modo dettagliato la notazione simbolica adottata nel lavoro, è utile precisare che, relativamente agli obiettivi conoscitivi che cerca di perseguire, ciascuna indagine statistica può essere classificata in base alle modalità incrociate di due fattori: 1° il numero di parametri che vengono stimati; in tal senso possiamo distinguere tra indagini − univariate, se hanno l’obiettivo di stimare un unico parametro di popolazione; − multivariate, se forniscono stime di un pluralità di parametri; 2° la molteplicità dei sottoinsiemi di popolazione rispetto ai quali devono essere prodotte le stime dei parametri di interesse; in tal senso possiamo distinguere tra indagini − unidominio, se hanno l’obiettivo di stimare i parametri di interesse solo a livello dell’intera popolazione; − multidominio, le stime dei parametri di interesse non debbono essere fornite solo per la popolazione nel suo complesso ma anche per specifiche sottopolazioni di essa, denominate domini (Cicchitelli et al., 1991 ch. 8). Quasi tutte le indagini condotte su larga scala sono di tipo multivariato e multidominio; ad esempio la Rilevazione Trimestrale ISTAT sulle Forze di Lavoro (in seguito denominata come RTFL) è multidominio in quanto fornisce stime per differenti livelli territoriali (l’intero territorio nazionale, la regio50 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA ne e la provincia) ciascuno dei quali costituisce uno specifico dominio; nel contempo l’indagine è multivariata in quanto per ciascun dominio vengono fornite le stime di differenti parametri di popolazione (numero occupati, numero di persone in cerca di occupazione, ecc.). Si osservano comunque anche combinazioni di tipo diverso, ad esempio alcune indagini congiunturali dell’ISTAT, possono essere classificate come univariate e multidominio in quanto forniscono le stime di un unico parametro, (ad esempio le vendite) per differenti sottopopolazioni di imprese identificate dalla classificazione dell’attività economica. La notazione simbolica che di seguito si introduce è piuttosto articolata per tenere conto in modo rigoroso della complessità degli obiettivi propri delle indagini statistiche. Ciò detto si indichi con U la popolazione di interesse composta da N unità statistiche e si identifichi con k (k = 1,..., N ) la singola unità facente parte della popolazione medesima. Si supponga che U sia partizionata in H strati e si denoti con U h (h=1,…,H) la popolazione del generico strato composta da N h unità, essendo H H U≡ U Uh h =1 ; N= ∑ Nh , h =1 dove la generica unità dello strato h viene denotata con uhk (k=1,…, N h ). A fini formali si indica con d un generico dominio (d =1,…,D) e con U d la sottopopolazione di unità ad esso appartenenti. Tale notazione è di tipo generale e permette di trattare le differenti situazioni che si incontrano nelle indagini concrete come casi particolari; ad esempio, nel caso di un indagine unidominio si ha: D=1, U D ≡ U . I D domini di interesse non costituiscono una partizione della popolazione U, ma possono identificare insiemi parzialmente sovrapposti; ciò significa che una medesima unità può appartenere a due (o più) domini distinti. Riprendendo l’esempio dell’indagine RTFL si nota che un medesimo individuo appartiene a tre distinti domini di interesse: l’intero territorio nazionale, la regione e la provincia. Nelle indagini concrete si osservano relazioni diverse che legano la partizione della popolazione di interesse negli strati con la suddivisione della stessa nei domini di studio: • domini pianificati; i domini di studio sono definiti come aggregazione di interi strati elementari. Ad esempio, nel caso dell’indagine RTFL, essendo gli strati costruiti nell’ambito della provincia, i domini di interesse definiti dalla provincia, o da aggregazioni di province (come ad esempio le regioni), risultano essere domini pianificati; • domini non pianificati; i domini di studio sono costituiti come aggre51 CAPITOLO 2 gazione di parti di strati elementari. Questo è il caso più generale in cui ciascuno strato comprende sottopopolazioni differenti, di unità per ciascuna delle quali si vogliono produrre le stime di interesse. Ad esempio nel caso dell’indagine RTFL, ciascuno strato elementare, definito a livello geografico come aggregazione delle popolazioni di differenti comuni, comprende individui sia di sesso maschile che femminile. Poiché nella RTFL i parametri di interesse vengono stimati separatamente per sesso (ad esempio, le persone in cerca di occupazione di sesso maschile e di sesso femminile), il sesso degli individui conduce alla definizione di due domini non pianificati: i maschi e le femmine. Si denoti quindi con Yc una generica variabile di interesse (c =1,…,C) e si indichi con yc ,hk (c=1,…, C; h=1,…,H; k=1,…, N h ) il valore della specifica variabile Yc, relativo all’unità uhk , ossia la k–esima unità appartenente alla popolazione U h . Ad esempio, nel caso di un’indagine che presenta il duplice obiettivo di stimare il reddito e la spesa, si ha: c=1, per il reddito; c = 2 = C per la spesa; e, relativamente allo specifico individuo uhk si indica con • y1,hk il reddito dell’individuo e con • y2 ,hk la spesa dello stesso. Tale notazione è di tipo generale; ad esempio nel caso di un indagine univariata si ha C=1. Indicando, infine, con δ d ,hk (d=1,…, D; h=1,…,H; k=1,…, N h ) la variabile indicatrice che assume valore 1 se all’unità uhk appartiene al dominio d, e assume valore 0, altrimenti, è possibile introdurre la variabile se uhk ∈ U d ⎧y ycd ,hk = yc,hk δ d ,hk = ⎨ c,hk se uhk ∉ U d ⎩0 (c=1,…, C; d=1,…, D; h=1,…,H; k=1,…, N h ). I parametri di interesse possono essere ottenuti come specifiche funzioni definite sui (NxCxD) valori ycd ,hk . Nella trattazione che segue, affronteremo in modo esplicito i seguenti casi: • parametri che costituiscono una funzione lineare dei valori • • 52 ycd ,hk ; parametri ottenuti come funzione non lineare di parametri lineari; parametri che costituiscono una funzione implicita dei valori ycd ,hk . DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA Parametri che costituiscono una funzione lineare dei valori ycd ,hk Un parametro che assume una particolare rilevanza è il totale del carattere Yc nel dominio d Nh H Ycd = ∑∑ H ycd ,hk = h =1 k =1 dove ∑Ycd ,h , (2.1) h =1 Ycd ,h denota il totale, relativamente alla popolazione dello strato U h del carattere Yc nel dominio d. Qualora sia nota la consistenza della popolazione N d , un parametro deri- vato dalla (1) e che assume particolare rilevanza nelle indagini su larga scala è la media del carattere Yc nel dominio d Y Ycd = cd . Nd (2.1.b) Nel caso in cui variabile Yc sia una variabile dicotomica – che è pari a 1 se un’unità assume una determinata caratteristica d’interesse ed è pari a 0, altrimenti – il parametro Ycd assume il significato della proporzione Pcd di unità che presentano la caratteristica d’interesse nel dominio d. Si fa notare che tutti i parametri di tipo lineare possono essere ricondotti alla forma (2.1), mediante un’opportuna definizione delle variabili elementari ycd ,hk . Ad esempio, nel caso del valore medio, Ycd , si può definire la variabile trasformata qcd , hk = 1 ycd , hk Nd In tal modo si ha che la media Ycd può essere espressa come il totale nel dominio delle variabili trasformate qcd , hk Ycd = 1 Nd H Nh ∑∑ H ycd ,hk = Qcd = h =1 k =1 Nh ∑ ∑ qcd ,hk . h =1 k =1 Parametri ottenuti come funzione non lineare dei parametri Ycd Nel seguito della trattazione tali parametri saranno indicati come ( θ A&&& , A&&& = f YA&&& , A&&& C D C D ) (2.2) 53 CAPITOLO 2 in cui, f (⋅) denota una funzione non lineare e differenziabile del vettore YA&&& , A&&& = {Ycd : c ∈ AC&&& , d ∈ AD &&&} dei totali di popolazione Ycd , dove C D AC&&& e AD &&& indicano specifici sottoinsiemi delle C variabili di interesse e dei D domini. Un parametro che assume particolare rilevanza nelle indagini concrete è il rapporto, riferito allo specifico dominio d, tra i totali Yc e Yc’ di variabili differenti Y R(c ,c' ), d = cd Yc' d (con c ≠ c’) Nel caso appena descritto l’insieme e c’, mentre l’insieme (2.2.b) AC&&& contiene due elementi: le variabili c AD &&& contiene come unico elemento il dominio d. Parametri che costituiscono una funzione implicita dei valori ycd ,hk È tipico il caso delle equazioni di stima H Z (ω) = Nh ∑ ∑ f (y z, hk ω) = 0 (2.3) h =1 k =1 f (⋅ ω) è una funzione implicita che dipende dal parametro incognito ω e dal vettore delle variabili di interesse y z , hk = ( yc1 , d1 , hk ,..., yc z , d z , hk ,..., yc Z , DZ , hk )′ avendo indicato con dove yc z ,d z ,hk la generica variabile d’interesse relativa alla all’unità hk, essendo la variabile identificata dalla coppia di pedici ( c z , d z ) ( c z = c1,..., cZ ; d z = d1,..., d Z ) di cui il primo relativo alla specifica variabile ed il secondo attinente al dominio di stima. Un esempio di questo tipo di parametri è riportato nel par. 2.3.4.2. 2.2.2 Approccio all’inferenza Dal generico strato U h (h=1,…,H) si seleziona il campione sh , costituito da nh unità, essendo nh ≤ N h . Il campione totale, denotato con s, è definito dall’unione dei campioni dei vari strati H s= U sh . h =1 54 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA Poiché gli strati formano una partizione delle popolazione U, la dimensione totale del campione n è naturalmente data da: H n= ∑ nh . (2.4) h =1 La selezione, dalle delle N h unità della popolazione dello strato U h (h=1,…,H), nh unità costituenti il campione, può essere effettuata con disegni di campionamento probabilistici o non probabilistici. La stima di un generico parametro di interesse può essere realizzata adottando differenti approcci all’inferenza: (a) approccio basato sul disegno di campionamento; (b) approccio assistito da modello; (c) approccio predittivo. Esiste una relazione tra il tipo di campionamento e l’approccio all’inferenza su cui si vuole fondare la stima. Con disegni di campionamento probabilistici la stima di un particolare parametro di interesse può essere effettuata alternativamente con uno dei tre approcci sopra elencati. Mentre, adottando un disegno campionario di tipo non probabilistico, la stima può essere ottenuta unicamente mediante un approccio predittivo. Per semplificare la trattazione, nel seguito del lavoro ipotizzeremo che, nel caso di un campionamento probabilistico, la stima di un generico parametro di popolazione viene effettuata unicamente mediante gli approcci (a) o (b); si tratterà l’approccio (c) unicamente nel caso di un campionamento non probabilistico. Si descrivono di seguito le principali caratteristiche degli approcci sopra elencati. Nell’ultimo paragrafo di questa sezione si illustra anche una misura di variabilità, nota in letteratura come varianza anticipata, che rappresenta un ponte tra l’approccio basato sul disegno di campionamento e quello predittivo. 2.2.2.1 Approccio basato sul disegno di campionamento Qualora si adotti un disegno di campionamento probabilistico, l’inclusione di un’unità nel campione viene determinata da un meccanismo di tipo casuale. Un concetto fondamentale in tale approccio è quello di disegno di campionamento che, dal punto di vista formale definisce una funzione di probabilità p(s) sul supporto Ψ , dove p(s) denota la probabilità che il campione s sia selezionato dalla popolazione U e Ψ indica l’insieme di tutti i possibili campioni estraibili da U. Ciascun disegno di campionamento definisce un particolare universo dei campioni costituito dal sottoinsieme S di Ψ caratterizzato dai campioni aventi probabilità p ( s ) > 0 . Si ha quindi 55 CAPITOLO 2 ∑ p( s ) = s∈Ψ ∑ p( s ) = 1 s∈S Ciascun disegno di campionamento viene quindi realizzato mediante uno specifico schema di campionamento, termine con il quale viene denotato il meccanismo probabilistico di selezione delle unità che assegna le probabilità p(s) ai campioni di Ψ .Si denoti, quindi, con a, uno specifico disegno di campionamento stratificato di tipo probabilistico e si indichi con a s al generico campione selezionato con tale disegno in cui H U as = a sh , (2.5) h =1 essendo a sh il campione selezionato nello strato h. Il disegno di campionamento a determina un universo dei campioni, denotato con a sh , dove il generico campione a sh ( a sh ∈ a Sh ) ha probabilità p( a sh ) di essere osservato, essendo ∑ p ( a sh ) = 1 . (2.6) a sh ∈ a Sh L’universo complessivo dei campioni generati dal disegno a, denotato con aS, è dato dall’unione degli universi dei campioni dei vari strati H aS = U a Sh . (2.7) h =1 La probabilità del campione a s di essere osservato, indicata con definita come p( a s ) , è H p( a s ) = ∏ p ( a sh ) (2.8) h =1 essendo ∑ a s∈ a S H p( a s ) = ∏ ∑ h =1 a sh ∈ a Sh H p ( a sh ) = ∏ 1 = 1. (2.9) h =1 Le proprietà inferenziali di una generica stima vengono studiate facendo riferimento ai valori attesi delle stima nell’universo dei campioni a S . Per illu56 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA ~ strare formalmente il concetto di valore atteso si indichi con a ,b Ycd ( a s ) la Ycd determinata con un generico stimatore, denotato con b, sui dati raccolti dal campione a s , dove stima del totale ~ a ,b Ycd ( a s ) = H ~ ∑ a,bYcd ,h (a sh ) (2.10) h =1 ~ essendo a ,b Ycd ,h ( a sh ) la stima relativa allo strato h. ~ Il valore atteso dello stima a ,b Ycd ( a s ) nell’universo dei campioni è dato da H ( ) ∑ ∑ ( ) ~ Ed a ,b Ycd ( a s ) = ~ a ,bYcd ,h ( a sh ) p ( a sh ) . (2.11) h =1 a sh ∈a Sh In genere si richiede che il metodo di stima adottato sia corretto. La proprietà di correttezza può essere definita come ~ Ed a ,b Ycd ( a s ) − Ycd = 0 . (2.12) Per stimatori corretti, la varianza di campionamento è definita da ( ) 2 ~ ~ Vd ( a ,b Ycd ( a s )) = Ed a ,b Ycd ( a s ) − Ycd = H = ~ Vd ( a ,b Ycd ,h ( a sh )) = ∑ h =1 H ~ ∑ (a,bYcd ,h (a sh ) − Ycd ,h ) p (a sh ) . (2.13) h =1 Un ruolo fondamentale nell’approccio approccio inferenziale che si sta esaminando è definito dalle probabilità di inclusione semplici e congiunte delle unità nel campione. La probabilità di inclusione semplice dell’unità uhk nel campione, denotata con a π hk , è formalmente definita come a π hk = p(uhk ∈ a s ) = p(uhk ∈ a sh ) = ∑ p( a sh ) a λhk (2.14) a sh ∈ a Sh essendo a λhk una variabile dicotomica che assume valore 1 se l’unità uhk è selezionata nel campione a sh e valore 0 altrimenti. La probabilità congiunta, indicata con a π hk ,h ′k ′ , definisce la probabilità che la coppia di unità ( uhk , uh ′k ′ ) sia osservata nel campione; formalmente essa è definita come. 57 CAPITOLO 2 a π hk ,h ′k ′ = p((uhk , uh ′k ′ ) ∈ a s ) = ∑ a s∈ a S p( a s ) a λhk a λh′k ′ . (2.15) È immediato verificare che nei campioni stratificati, la probabilità in parola è data da ⎧ a π hk ⎪ a π hk , h ′k ′ = ⎨ a π hkk ′ ⎪ π ⎩ a hk aπ h ′k ′ se hk = h' k ' se h = h′ e k ≠ k ′ se h ≠ h′ . (2.16) L’espressione esplicita delle probabilità di inclusione semplici e congiunte dipenderà dalle specifiche caratteristiche del disegno di campionamento a preso in esame; tali probabilità permettono di definire lo stimatore di Horvitz Thompson che gioca un ruolo fondamentale nell’approccio all’inferenza basato sul disegno di campionamento e che, come è facilmente verificabile, gode della proprietà di correttezza: ~ a , E Ycd = H nh 1 ∑∑ a π hk y cd ,hk . (2.17) h =1 k =1 Per riportarci a una forma generale, che verrà largamente adottata nel seguito di questo lavoro, lo stimatore (2.17) può essere visto come somma ponderata dei dati campionari ~ a , E Ycd = H nh ∑∑ a,E whk ycd ,hk , (2.18) h =1k =1 dove a , E whk = 1 a π hk (2.19) denota il peso di campionamento anche noto come peso base. Nelle precedenti espressioni il pedice a alla sinistra dello stimatore e del peso definisce il piano di campionamento utilizzato; si ricorda infatti che l’espressione esplicita delle probabilità di inclusione e del corrispondente peso dipende dal particolare disegno di campionamento adottato. Il pedice E serve a denotare lo stimatore; si usa la lettera E in quanto lo stimatore (2.17) costituisce una particolare forma di stimatore espansione. Utilizzando un risultato standard della teoria del campionamento da popolazioni finite (Särndal, et al., 1992, cap. 3), la varianza di campionamento dello stimatore (2.17) viene quindi definita come: 58 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA H Nh Nh ( ) ∑ ∑ ∑( a π hkl −a π hk aπ hl ) ycdπ ,hk a hk ( ) ∑ ∑ ∑ ( a π hkl −aπ π hk a hkl ~ Vd a, E Ycd = h =1k =1 l =1 La stima della varianza è data da: ~ ~ Vd a , E Ycd = H nh nh aπ hl ) h =1k =1 l =1 ycd ,hl a π hl .(2.20) ycd ,hk ycd ,hl (2.21) a π hk a π hl 2.2.2.2. Approccio assistito da modello L’approccio all’inferenza assistito da modello porta alla costruzione dello stimatore di regressione. In tale approccio si ipotizza che : (a) la variabile di interesse ycd ,hk sia legata a un vettore, ( ) x hk = x1, hk ,..., xg , hk ,..., xG , hk ′ , di G variabili ausiliarie dal seguente modello statistico, detto anche modello di superpopolazione : ycd ,hk = β'cd x hk + ε cd ,hk E m (ε cd ,hk x hk ) = 0 , (2.22) E m (ε cd ,hk x hk ) = g hk σ cd 2 , 2 (2.23) dove si è indicato con: β cd un vettore incognito di G coefficienti di regressione; ε cd ,hk il residuo casuale del modello; E m (.) l’operatore di valore at- teso sotto il modello; g hk uno scalare il cui valore è noto a priori, che consente di trattare i problemi di eteroschedasticità del modello; (b) il totale delle variabili ausiliarie X= H Nh ∑∑ x hk h =1k =1 sia conosciuto in base a una fonte amministrativa o a una stima campionaria molto affidabile. Valendo le condizioni (a) e (b) precedenti, nell’approccio all’inferenza assistito da modello (Särndal, et al., 1992), si definisce lo stimatore di regressione che risulta in genere migliore di quello di espansione, in quanto sfrutta la conoscenza dei valori delle variabili ausiliarie nella popolazione. Nel contesto in esame lo stimatore di regressione del totale Ycd è dato da 59 CAPITOLO 2 ~ a,R Ycd = nh H ∑ ∑ a,R whk ycd ,hk (2.24) h =1 k =1 dove i pesi campionari a,R whk sotto la strategia a,R sono ottenuti come prodotto del peso base, a,E whk , per il fattore correttivo a,R whk γ hk = a,E whk γ hk (2.25) essendo ⎡ γ hk = a , E whk ⎢1 + (X − a,E X ) a,ET −1 ~' ~ ⎣⎢ x hk ⎤ ⎥ g hk ⎦⎥ in cui ~ a,E X = H nh ∑∑ a , E whk x hk ; ~ a,E T = h =1k =1 H nh ∑∑ h =1k =1 x hk x'hk a,E whk . g c,hk Per dimensioni campionarie sufficientemente grandi, si dimostra che: (i) lo stimatore di regressione è corretto; (ii) l’espressione esplicita della sua varianza campionaria può essere bene approssimata utilizzando la tecnica di linearizzazione. In tal modo si ha ( H Nh Nh ) ∑ ∑ ∑ ( a π hkl −a π hk ~ Vd a , R Y pd = aπ hl ) h =1k =1 l =1 ε cd ,hk ε cd ,hl a π hk a π hl (2.26) Una stima robusta della (2.26) è data da (Kott, 1990): ( H nh nh ) ∑ ∑ ∑( a π hkl −a π hk aπ hl ) ~ ~ Vd a, R Y pd = h =1k =1 l =1 ε~cd ,hk γ hk ε~cd ,hl γ hl a π hk a π hl (2.27) dove ~ ' ε~cd ,hk = yc,hk − βcd x hk , (2.28) in cui ⎡ H nh x x ' ⎤ ~ hk hk βcd = ⎢ aE whk ⎥ ⎢⎣h =1k =1 g hk ⎥⎦ ∑∑ −1 H nh ∑∑ h =1k =1 a , E whk x hk g hk ycd ,hk . (2.29) 60 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA Ponendo a confronto le relazioni (2.20) e (2.26), si nota che la varianza dello stimatore di regressione ha la medesima espressione della varianza dello stimatore espansione, salvo il fatto che, per lo stimatore di regressione, le variabili di interesse ycd ,hk sono sostituite dalle variabili residuo ε cd ,hk . Per quanto riguarda le stime delle varianze definite dalle relazioni (2.21) e (2.27) si nota che la stima della varianza dello stimatore di regressione può essere ottenuta dalla medesima espressione di quella adottata per lo stimatore di espansione, salvo la sostituzione delle variabili di interesse ycd ,hk da variabili ottenute come prodotto dei residui stimati ε~cd ,hk per i correttori del peso base γ cd ,hk . 2.2.2.3. Approccio predittivo L’inferenza campionaria è fondata su un modello statistico che lega la variabile d’interesse ad un vettore di variabili ausiliarie. Si adotta in genere il modello di superpopolazione definito dalle espressioni (2.22) e (2.23). La stima campionaria di un totale viene quindi determinata mediante la somma dei valori osservati sul campione e la somma dei valori predetti relativamente alle unità non osservate nel campione. Tali valori sono ottenuti sulla base: della stima, determinata con i dati campionari, del vettore β cd del modello statico (2.22); • della conoscenza delle variabili ausiliarie relativamente alle unità non campionate. Lo stimatore predittivo del totale della variabile di interesse può essere quindi definito come • ~ NP, R Ycd = N h − nh ⎡ nh ⎤ ~ ⎢ ycd ,hk + ycd ,hk ⎥ ⎥⎦ h =1⎢⎣ k =1 k =1 H ∑∑ ∑ (2.30) dove ~ ycd ,hk denota il valore predetto della quantità ycd ,hk , che sulla base del modello (2.22) e (2.23) è definibile come −1 H nh ⎡ ⎤ ⎡ H nh x ⎤ ~ x hl x'hl ~ hl ⎥ ⎢ ycd , hk = x′hk βcd = x′hk ⎢ ycd , hl ⎥ . ⎢h =1 l =1 g hl ⎥ ⎢ h =1 l =1 g hl ⎥ ⎣ ⎦ ⎣ ⎦ (2.31) ∑∑ ∑∑ Si noti che nella precedente espressione (2.30), si usa la sigla NP in sostituzione dell’indice a che denota il disegno di campionamento; ciò è stato fatto per mettere in luce che il disegno di campionamento cui si sta facendo riferimento è di tipo non probabilistico. Ciò non esclude che lo stimatore di 61 CAPITOLO 2 tipo (2.30) possa essere utilizzato anche nel caso in cui il disegno di campionamento adottato per la selezione del campione sia di tipo probabilistico. Con semplici passaggi algebrici, lo stimatore (2.30) può essere ricondotto alla forma generale di somma ponderata dei dati campionari ~ NP,R Ycd = H nh ∑∑ NP,R whk ycd ,hk (2.32) h =1 k =1 in cui ⎛ H nh ⎜ x hk NP,R whk = 1 + ⎜ X − ⎜ h =1 k =1 ⎝ ∑∑ ' ⎞ ⎛ H nh x hk x'hk ⎟⎜ ⎟⎜ ⎟ ⎝ h =1k =1 g c, hk ⎠ ∑∑ ⎞ ⎟ ⎟ ⎠ −1 x hk . (2.33) g hk Le proprietà statistiche degli stimatori, nell’approccio considerato, sono definite rispetto al modello di superpopolazione adottato e non rispetto alla distribuzione di probabilità indotta dal disegno di campionamento. La correttezza da modello dello stimatore è definita come ( ) ~ Em NP, R Ycd ( a s ) − Ycd = 0 . (2.34) La varianza da modello dello stimatore è definita come ( ) ( ) 2 ~ ~ Vm NP, R Ycd − Ycd = Em NP, R Ycd − Ycd . (2.35) Sotto il modello di superpopolazione precedentemente introdotto, la varianza da modello dello stimatore (2.30) è definita da: ( H ⎡ nh N h − nh ⎤ 2 ⎥ g hk σ cd ⎥⎦ k =1 ) ∑ ⎢ ∑ ( NP,R whk − 1) 2 ghk σ cd2 + ∑ ⎢ ~ Vm NP, R Ycd − Ycd = h =1⎣ k =1 (2.36) Una stima campionaria della (2.36), corretta sotto il modello (2.22) e (2.23) è data da ( H ⎡ nh N h − nh ⎤ 2 , ⎥ g hk σ~cd ⎥⎦ k =1 ) ∑ ⎢ ∑ ( NP,R whk − 1) 2 ghk σ~cd2 + ∑ ⎢ ~ ~ Vm NP, R Ycd − Ycd = h =1⎣k =1 (2.37) dove 2 σ~cd = 1 n − G −1 H nh 1 ∑∑ ghk ( yc,hk − ~yc,hk )2 h =1k =1 denota la stima con i dati campionari della componente di varianza 62 (2.38) 2 σ cd . DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA 2.2.2.4 Approccio basato sulla varianza anticipata Un’ulteriore misura di variabilità dagli interessanti sviluppi applicativi è la varianza congiunta rispetto al modello e al piano di campionamento adottato, detta anche varianza anticipata (Särndal et al., 1992, pag. 451). Quando si adottano piani di campionamento non informativi (Cicchitelli et al., 1992, pag. 382), in cui le probabilità di inclusione non dipendono dai valori assunti dalle variabili d’interesse, tale varianza può essere espressa come ( [ ( ) )] ~ ~ VA a,b Ycd − Ycd = Ed Vm a,bYcd − Ycd . (2.39) In Särndal et al. (1992, pag. 451) si dimostra che per disegni di campionamento di tipo probabilistico, sotto il modello definito dalle espressioni (2.22) e (2.23), la varianza in oggetto per la generica strategia di campionamento di tipo (a,R) è data da: ( =− H Nh (1 − aπ hk ) ) ∑∑ ~ VA a , R Ycd = a π hk h =1k =1 H Nh ∑∑ 2 + g hk σ cd h =1k =1 2 g hk σ cd = H Nh 2 g hk σ cd ∑∑ h =1k =1 a π hk . (2.40) Una stima campionaria corretta (sotto il disegno di campionamento e sotto il modello) della (2.40) è definita da ( H nh H nh ~2 ) ∑ ∑ π1 ghk σ~cd2 + ∑∑ ghk σ2 cd π a hk ~ ~ V A a , R Ycd = − (2.41) h =1k =1 a hk h =1k =1 2.2.2.5 Parametri non lineari Una volta prescelto l’approccio all’inferenza, definito essenzialmente dalla strategia di campionamento adottata – individuata dalla coppia (a,b) in cui a denota il disegno di campionamento e b il tipo di stimatore – si ottengono i pesi campionari a,b whk con cui ponderare i dati elementari e le stime ~ campionarie a ,b Ycd dei totali di popolazione. Mediante tali statistiche è possibile ottenere anche una stima di parametri non lineari come quelli definiti nelle espressioni (2.2) e (2.3). La stima dei parametri θ A&&& , A&&& = f YA&&& , A&&& , illustrati nella (2.2), viene C ottenuta come ~ ( ~ ( D a ,b θ AC &&& , AD &&& = f a ,b YAC &&& , AD &&& ) C D ) (2.42) 63 CAPITOLO 2 ~ in cui a ,b YA&&& , A&&& denota il vettore delle stime campionarie dei totali C D ~ a ,b YAC &&& , AD &&& { } ~ = a ,b Ycd : c ∈ AC&&&, d ∈ AD &&& . Ad esempio, la stima del rapporto R(c ,c' ), d = Ycd Yc' d (con c ≠ c’) è definita da ~ a ,b R( c,c ' ),d Y = cd Yc ' d (2.42.b) Le stime campionarie di parametri, definiti nella (2.3) come soluzione di un H Nh sistema di equazioni di stima del tipo Z (ω) = f y z ,hk ω = 0 , ∑∑ ( h =1 k =1 sono ottenute come H nh ~ a ,b Z (ω) = ) ∑ ∑ a,b whk f (y z,hk ω~) = 0 , (2.43) h =1 k =1 ~ denota una stima del parametro incognito ω . in cui ω 2.3. Decomposizione della variabilità negli strati 2.3.1. Risultato generale In questo paragrafo si illustra un risultato generale, sulla variabilità nel campionamento stratificato che è alla base di tutti i metodi di allocazione successivamente illustrati nei parr. 2.4 e 2.5. Per illustrare tale risultato, si indichi con θ un particolare parametro di popolazione – definito alterna- ~ tivamente da una delle espressioni (2.1), (2.2), (2.3) – e si denoti con a ,b θ la corrispondente stima campionaria, ottenuta con la strategia di ~ ~ campionamento (a,b). Si denoti, inoltre con V ( a ,b θ ) la varianza di a ,b θ che, a seconda del particolare contesto preso in esame, può indicare, alternativamente una varianza da campionamento, una varianza da modello, o una varianza anticipata. ~ La varianza V ( a ,b θ ) può essere espressa come somma di due componenti ( ~ ) ~ ~ V a,b θ = V0 ( a,b θ ) + Vcamp ( a,b θ ) = 64 H ~ H ∑ V0, h (a,bθ ) + ∑ h =1 h =1 ~ Vh ( a,b θ ) nh (3.1) DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA dove il primo addendo, H ~ V0 ( a ,bθ ) = ~ ∑V0,h (a,bθ ) , (3.2) h =1 pur essendo indipendente dalla scelta del numero di unità del campione da allocare in ciascuno strato nh (h=1,…,H), è funzione della strategia di campionamento adottata e dalle caratteristiche della popolazione; mentre, il secondo addendo, ~ Vcamp ( a,b θ ) = H ∑ ~ Vh ( a, b θ ) nh , (3.3) h =1 è, al contrario, strettamente dipendente dalla definizione delle numerosità campionarie nh (h=1,…,H). Si può ottenere una decomposizione analoga alla (3.1), relativamente alla stima della varianza H H V~ ( θ~ ) ~ ~ ~ ~ ~ ~ ~ ~ h a,b V a, b θ = V0 ( a,b θ ) + Vcamp ( a,b θ ) = V0, h ( a, b θ ) + nh h =1 h =1 (3.4) dove H V~ ( θ~ ) ~ ~ ~ ~ h a,b V0 ( a ,bθ ) e Vcamp ( a,b θ ) = nh h =1 ( ) ∑ ∑ ∑ costituiscono le stime campionarie, determinate con la strategia (a,b) delle corrispondenti quantità ~ ~ V0 ( a ,bθ ) e Vcamp ( a,b θ ) . Nei successivi paragrafi si illustra come la decomposizione della varianza nei due addendi possa essere applicata nel caso della stima di totali a differenti contesti campionari rilevanti nell’ambito delle indagini concrete. In particolare il par. 2.3.2 descriverà, a grandi linee, cinque contesti campionari frequentemente adottati nelle indagini a larga scala sulle imprese e sulle famiglie. Successivamente, il par. 2.3.3, illustrerà la particolarizzazione delle espressioni (3.1) e (3.4) nei contesti considerati, relativamente al caso di parametri di tipo lineare. Infine, il par. 3.4. estenderà i risultati del par 2.3.3 al caso di parametri non lineari. 2.3.2. Strategie di campionamento prese in considerazione 2.3.2.1 Disegni di campionamento Come precedentemente introdotto, le indagini statistiche su larga scala, basate su disegni stratificati, possono adottare schemi di campionamento 65 CAPITOLO 2 diversi. Una particolare importanza rivestono i disegni di campionamento di seguito elencati: • Campionamento Casuale Semplice (di seguito denotato con la sigla CS); • Campionamento Non Probabilistico (NP); • Campionamento a Due Stadi (DS); • Campionamento a Due Fasi (DF); • Campionamento di Poisson (PO). Tali disegni verranno di seguito brevemente illustrati. Campionamento Casuale Semplice La selezione delle unità avviene in ciascuno strato senza reimissione e a probabilità uguali. Questo disegno è piuttosto rilevante nell’ambito della statistica ufficiale in quanto è quello comunemente adottato nelle indagini ISTAT sulle imprese, istituzioni e aziende agricole, condotte per via postale e nelle indagini di tipo CATI sulle imprese e sulle famiglie. La probabilità di inclusione semplici e congiunte sono date da cs π hk = nh Nh ⎧ nh ⎪⎪ N h = π cs hkk ′ ⎨ n ( n −1) h ⎪ h ⎪⎩ N h ( N h−1) (3.5) se k = k ′ (3.6) se k ≠ k ′ Campionamento Non Probabilistico Tale tipo di campionamento trova ampia applicazione nelle indagini in cui non si dispone di liste da cui selezionare il campione. L’inferenza viene costruita adottando particolari modelli di superpopolazione che legano le variabili di interesse a variabili di tipo ausiliario di cui si conoscono i totali nella popolazione di interesse. Le indagini per quote rappresentano un tipico caso di campionamento non probabilistico in cui le quote costituiscono gli strati di campionamento. Campionamento a Due Stadi Questo disegno di campionamento assume un importanza fondamentale nella statistica ufficiale in quanto è quello comunemente adottato nelle indagini ISTAT sulle famiglie condotte tramite intervista diretta. Tale schema può essere implementato con metodologie diverse che prevedono soluzioni differenti per il primo e il secondo stadio di campionamento. Nelle indagini condotte nell’ambito della statistica ufficiale, in genere in ciascuno strato, la selezione delle unità di primo stadio è fatta con probabilità variabili e senza 66 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA reimmissione; mentre la selezione delle unità di secondo stadio è fatta senza reimmissione e con probabilità uguali. Si supponga che le N h unità della popolazione U h siano raggruppate in M h gruppi (o clusters) (con N h < M h ) che costituiscono la popolazione U1,h delle Unità di Primo Stadio (UPS) del campionamento e si indichi con U hi la generica UPS. Si assuma che dal generico strato h sia selezionato, senza reimmissione e con probabilità variabili un campione s1,h di mh UPS, mediante il disegno di campionamento p1, h (⋅) . Il campione di primo stadio s1 è pertanto costituito dall’unione dei campioni dei vari strati H s1 = s1, h . U h =1 Le probabilità di inclusione delle UPS i′ =1,…, M h ' ) sono definite da U hi e U h′i′ (h=1,…,H; i=1,…, M h ; ⎧π1,hi per ( h = h' ) e (i = j ) ⎪ per ( h = h' ) e (i ≠ i′) DS π1, hi , h′i′ = Pr ((U hi e U h′i′ ) ∈ s1 ) = ⎨π1, hii′ ⎪π ⎩ 1,hi π1,h′i′ per ( h ≠ h' ) (3.7) Si supponga, inoltre, che dalla popolazione U hi – costituita dalle N hi unità elementari della UPS hi (h=1,…, H; i=1,…, M h ) – sia selezionato, senza reimmissione e a probabilità uguali, un campione, s2 hi , di nhi di Unità di Secondo Stadio (USS), essendo mh ∑ nhi = nh . i =1 Si denoti quindi con u2hij la generica USS. Condizionatamente all’evento che le UPS U hi e U hi′ (h=1,…,H; i=1,…, M h ; i′ =1,…, M h ' ) siano state incluse nel campione di primo stadio s1 , le probabilità di inclusione nel campione delle USS u2hij e u2h′i′j ′ sono definite da 67 CAPITOLO 2 DS π 2, hij , h'i′j ′ ⎧ nhi ⎪ ⎪ N hi ⎪n = ⎨ hi ⎪ N hi ⎪ nhi ⎪N ⎩ hi = Pr ((uhik e uh'i′j ′ ) ∈ ( s2,hi ∩ s2, h'i′ ) (U hi e U h'i′ ) ∈ s1) = per ( hij = h′i′j′) nhi − 1 N hi − 1 nh'i′ N h'i′ per ( h = h' ) e (i = i′) e ( j ≠ j′) (3.8) per ( h ≠ h' ) e (i ≠ i′) In tal modo, le probabilità di inclusione congiunta nel campione s delle USS u2hij e u2h′i′j ′ è data da DS π hij , h 'i′j ′ = Pr ((u2 hij , u2 h 'i′j ′ ) ∈ s ) = π1, hij , h 'i′j ′ π 2, hij , h'i′j ′ . (3.9) Conseguentemente, le probabilità di inclusione finale per l’unità finale u 2 hik appartenente all’UPS U hi è data da DS π hik = π1, hi nhi . N hi Si ricorda che la USS u 2 hik corrisponde all’unità elementare di campionamento che nelle rimanenti parti di questo testo viene denotata come uhk . Al fine di ricondursi al tipo di simbologia generale utilizzata nel lavoro, le probabilità d’inclusione semplici e congiunte, precedentemente introdotte, vengono quindi riformulate come DS π hk , h′k ′ = Pr ((uhk e uh′k ′ ) ∈ s (uhk = u2hij ) e (uh′k ′ = u2h′i′j′ )) = nhi ⎧ per ( h = h' ) e ( i = i ' ) e ( j = j ' ) ⎪ DS π hk = π1, hi N hi ⎪ ⎪ DS π hkk ′ = π1, hi nhi nhi − 1 per ( h = h' ) e (i = i′) e ( j ≠ j ' ) ⎪ N hi N hi − 1 =⎨ n n ⎪ DS π hkk ′ = π1, hii′ hi hi′ per ( h = h' ) e (i ≠ i′) N hi N hi′ ⎪ ⎪ nhi nh'i′ per ( h ≠ h' ) ⎪π1, hi π1, h′i′ N hi N h'i′ ⎩ (3.10) 68 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA Campionamento a Due Fasi Il campionamento in due fasi può essere realizzato con modalità differenti. Nel presente lavoro si considera un disegno di tipo generale in prima fase e un disegno di seconda fase di tipo stratificato con selezione senza reimissione e a probabilità uguali negli strati. Questo disegno trova applicazione soprattutto nei casi in cui, ad esempio per le richieste comunitarie, è necessario produrre stime anticipate, ossia prima che si sia completata la fase di raccolta ed elaborazione dei dati. In tali situazioni è usuale selezionare un sottocampione (campione di seconda fase) del campione principale, che costituisce il campione di prima fase. Per le unità del sottocampione vengono adottate procedure di raccolta ed elaborazione dei dati che consentono di produrre i risultati voluti in tempi più rapidi consentendo in tal modo di rispettare i vincoli di competitività richiesti. Il disegno di campionamento in due fasi, qui considerato, può essere illustrato nel modo seguente (Särndal et al., 1992, pp. 357). Si supponga che dalla popolazione U sia selezionato un campione, denotato con DF1 s di ampiezza DF1 n . Il campione DF1 s , indicato nel seguito come campione di prima fase, è selezionato con disegno di campionamento arbitrario che definisce probabilità di inclusione semplici e congiunte definite da DF 1π hk = Pr (uhk ∈ DF 1s ) DF 1π hk ,h ' k ' (3.11) = Pr ((uhk e uh ′k ′ ) ∈ DF 1s ) . Il campione di prima fase di unità appartenenti allo strato DF 1 sh (3.12) Uh , = DF 1 s I U h , è costituito da DF 1 nh unità. Nella seconda fase si selezionano nh unità dalle DF 1 nh del campione di prima fase, mediante campionamento casuale semplice senza reimmissione, in cui nh = ν h DF1nh 0 <νh < 1 (3.13) dove le quantità ν h sono costanti definite a priori (h = 1,…,H). Si assume inoltre che essendo l’insieme DF1 s , sufficientemente ampio risulti quasi nulla la probabilità che qualcuno degli insiemi campionari DF 1 sh (h=1,…,H) risulti vuoto. Al termine del processo in due fasi sopra illustrato, si può determinare il va* lore di una probabilità π hk determinata mediante il prodotto della probabilità di inclusione di prima fase per la probabilità di inclusione di seconda fase: * π hk = DF 1 π hk vhk . (3.14) 69 CAPITOLO 2 * Come chiarito in (Särndal et al., 1992 pp. 347-348), la probabilità π hk non costituisce formalmente una probabilità di inclusione, ma permette di costruire uno stimatore espansione, denominato stimatore π * , che risulta corretto sotto il disegno di campionamento DF. In tale contesto, il peso base, con cui ponderare i dati campionari è definito come: DF , E whk = 1 DF 1π hk vhk (3.15) Campionamento di Poisson Tale tipo di campionamento trova crescente applicazione nell’ambito della statistica ufficiale essenzialmente per due ordini di motivi: • esso permette di realizzare in modo relativamente semplice il coordinamento (positivo o negativo) della selezione di diversi campioni (Holhson, 1995), sia per occasioni differenti della stessa indagine sia per indagini differenti che si effettuano nel medesimo arco temporale; • la varianza del campionamento di Poisson costituisce il limite superiore della varianza dei disegni campionari differenti che adottino le medesime probabilità di inclusione del primo ordine. Ciò permette di avere un’indicazione della variabilità per schemi campionamento complessi – come ad esempio il campionamento bilanciato (Deville et al. 2003), il campionamento con selezione delle unità senza reimmissione e a probabilità variabili – che vengono adottati in particolari contesti di indagine e per i quali risulta notevolmente complicato determinare l’espressione analitica della probabilità di inclusione congiunte, rendendo pertanto quasi impossibile la conseguente definizione della variabilità campionaria secondo le espressioni (2.20) e (2.21). Per illustrare il campionamento in oggetto si supponga di conoscere relativamente all’unità uhk il valore di una variabile ausiliaria, denotato con xhk , che assume sempre valori positivi. Per la selezione nel campione dell’unità uhk si procede nel seguente modo: • si genera, dalla distribuzione uniforme Unif (0,1), la variabile casuale indipendente zhk ; • se zhk ≤ nh xhk Nh ∑ xhk , l’unità viene inclusa nel campione, altrimenti k =1 l’unità non viene osservata. Per implementare il metodo è necessario assicurarsi in antecedenza alla fase di selezione che per tutte le unità della popolazione sussista la 70 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA condizione nh xhk Nh ∑ xhk ≤ 1 . k =1 Le unità per le quali tale condizione non sussiste vanno messe in uno strato a parte, del quale si procede a una osservazione censuaria. La procedura di campionamento sopra illustrata determina probabilità di inclusione semplici e congiunte definite da nh xhk PO π hk = Xh PO π hk ,h ′k ′ = PO (3.16) π hk POπ h ′k ′ , (3.17) essendo Xh = Nh ∑ xhk . k =1 2.3.2.2 Stimatori Indipendentemente dal disegno di campionamento utilizzato, le stime di interesse possono essere ottenute con differenti metodi. In questo lavoro si prenderanno in esame due stimatori che assumono particolare rilevanza nell’ambito della statistica ufficiale: • lo stimatore espansione (denotato nel seguito con la lettera E) • lo stimatore regressione (R ). Come indicato precedentemente, la generica stima del totale Ycd ottenuta con la strategia definita dalla coppia (a,b) in cui a (nel nostro caso a=CS, NP, DS, DF, PO) denota il disegno di campionamento e b (b=E o R) lo stimatore viene indicata con H nh ~ a ,b Ycd = ∑∑ a ,b whk ycd ,hk (3.18) h =1k =1 dove a ,b whk indica il coefficiente di riporto all’universo o peso campionario assegnato all’unità uhk in base alla strategia (a,b). Stimatore espansione Nei disegni di campionamento CS, DS, e PO, il peso a , E whk dello stimatore espansione, detto anche peso base, viene calcolato come 71 CAPITOLO 2 a,E whk = 1 a π hk , (3.19) ottenendo quindi lo stimatore di Horvitz-Thompson riportato nell’espressione (2.17). Nel disegno di campionamento DF, il peso è determinato mediante l’espressione (3.15), definendo quindi lo stimatore stimatore π * . Per quanto riguarda il campionamento NP, lo stimatore espansione viene ottenuto ipotizzando il seguente modello di superpolazione, ycd ,hk = β'cd x hk + ε cd ,hk , ( E m ε cd , hk x hk )2 = σ cd2 ,h , ( ) E m ε cd , hk x hk = 0 , (3.20) in cui β cd = ( μ1,..., μh ,..., μ H )′ e x hk corrisponde a un vettore H dimensionale in cui è pari a 1 solo la posizione h (corrispondente allo strato h) e sono pari a zero tutti gli altri valori. In tale situazione si ha quindi H Nh X= x hk = ( N1,..., N h ,..., N H )′ . Secondo questo modello, si ha ∑∑ h =1k =1 pertanto Em ( ycd ,hk ) = μh . In tale situazione si ha che il valore predetto per un’unità appartenente allo strato h è data dal valore medio di n 1 h ~ ~ ycd ,hk . strato ycd ,hk = μh = nh k =1 ∑ Di conseguenza, lo stimatore espansione, sotto il disegno NP è dato da N h − nh H ⎡ nh ⎤ ~ ~ NP , E Ycd = ∑ ⎢ ∑ y cd , hk + ∑ y cd , hk ⎥ = h =1 ⎣ k =1 k =1 ⎦ H ⎤ ⎡ nh 1 nh = ∑ ⎢∑ y cd ,hk + ( N h − n h ) ∑ y cd ,hk ⎥ = n h k =1 h =1 ⎣ k =1 ⎦ = H nh ∑∑ h =1k =1 Nh ycd ,hk = nh H nh ∑∑ NP,E whk ycd ,hk . h =1k =1 dove il peso base è espresso come NP,E whk = N h / nh . 72 (3.21) DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA Stimatore di regressione Lo stimatore di regressione del totale Ycd , basato sul il modello di superpopolazione illustrato nelle espressioni (2.22) e (2.23), è dato da H nh ~ a,R Ycd = ∑ ∑ a,R whk ycd ,hk h =1 k =1 dove i pesi campionari a,R whk per i disegni di campionamento CS, DS, DF e PO sono definiti dall’espressione (2.25), mentre nel caso del disegno di campionamento NP sono definiti dall’espressione (2.33). 2.3.3 Decomposizione della varianza per la stima di totali in strategie campionarie di grande utilizzo applicativo 2.3.3.1 Disegno di campionamento CS Sostituendo le espressioni (3.5) e (3.6) nelle formule (2.20) e (2.21) si ottengono, per il disegno di campionamento preso in esame, le usuali espressioni della varianza e della stima della varianza della stima di un totale: H ( ) ∑ N h (Nnh − nh ) E S 2cd ,h h (3.22) ( ) ∑ N h (Nnh − nh ) E S~2cd ,h h (3.23) ~ V CS,E Ycd = ~ ~ V CS,E Ycd = h =1 H h =1 essendo 1 2 E Scd ,h = Nh − 1 ~2 E Scd ,h = 1 nh − 1 Nh ⎛ N ⎞ 1 h ⎜y ⎟ − y cd ,hk ⎟ ⎜ cd ,hk N h k =1⎝ k =1 ⎠ ∑ nh ⎛ 2 ∑ (3.24) 2 n ⎞ 1 h ⎜y − ycd ,hk ⎟ . cd hk , ⎜ ⎟ nh k =1⎝ k =1 ⎠ ∑ ∑ (3.25) Mediante semplici passaggi algebrici, si ottiene: ⎛ H ~ V CS,E Ycd = ⎜ − N h E S 2 cd ,h ⎜ ⎝ h =1 ⎛ H ~ ~ ~ V CS,E Ycd = ⎜ − N h E S 2cd ,h ⎜ ⎝ h =1 ( ( ) ) ∑ ∑ ⎞ H N2 h ⎟+ ⎟ ⎠ h =1 ⎞ H N2 h ⎟+ ⎟ ⎠ h =1 ∑ ∑ 2 E S cd ,h nh ~2 E S cd , h . nh (3.26) (3.27) 73 CAPITOLO 2 Da cui è immediato derivare ~ V0 (CS,E Ycd ) = − H ∑ N h E S 2cd ,h ~ ; Vh (CS,E Ycd ) = N h2 E S 2 cd ,h (3.28) h =1 ~ ~ V0 (CS,E Ycd ) = − H ∑ N h E S 2cd ,h ; ~ ~ Vh (CS,E Ycd ) = N h2 E S 2 cd ,h (3.29) h =1 Per quanto riguarda lo stimatore di regressione, è utile rifarsi a quanto illustrato nel par. 2.2.2.in cui si è notato che la varianza dello stimatore di regressione ha la medesima espressione della varianza dello stimatore espansione, salvo il fatto che, per lo stimatore di regressione, le variabili di interesse ycd ,hk sono sostituite dalle variabili residuo ε cd ,hk . Mentre per quanto riguarda la stima della varianza si ricorda che essa può essere ottenuta dalla medesima espressione adottata per lo stimatore di espansione, salvo la sostituzione delle variabili di interesse ycd ,hk con variabili ottenute come prodotto dei residui stimati ε~cd ,hk per i correttori del peso base γ cd ,hk . Si ha pertanto ~ V0 (CS,R Ycd ) = − H ∑ N h R S 2cd ,h ~ ; Vh ( CS,R Ycd ) = N h2 R S 2 cd ,h (3.30) h =1 ~ ~ V0 (CS,R Ycd ) = − 2 R S pd ,ch = ~2 R Scd ,ch = 2.3.3.2 H ~ ∑ N h R S 2cd ,h ~ ~ ; Vh ( CS,E Ycd ) = N h2 R S 2 cd ,h (3.31) h =1 Nh 1 Nh − 1 1 nh − 1 ∑ε cd2 ,hk , k =1 2 n ⎛ ⎞ 1 h ⎜ γ ε~ γ hk ε~cd ,hk ⎟ . − hk cd hk , ⎜ ⎟ nh k =1 ⎝ k =1 ⎠ nh ∑ ∑ Disegno di campionamento NP ( (3.32) ~ Si ricorda che nell’approccio in questione, la varianza V NP,b Ycd la varianza da modello, illustrata nel par. 2.2.2.3., si ha pertanto ( ) ( ) ) denota ~ ~ V NP,b Ycd = Vm NP,b Ycd − Ycd . ~ Si consideri dapprima lo stimatore NP, E Ycd ottenuto sulla base del modello semplificato (3.20). Sulla base dell’espressione (3.21) si può porre 74 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA ( H =− H ⎡ nh ⎛ Nh 2 N h − nh ⎤ ⎞ 2 2 ⎥ ⎢ ⎜ ⎟ − 1⎟ σ cd , h + g hk σ cd , h = ⎢ ⎜n ⎥ ⎠ h =1 ⎣ k =1⎝ h k =1 ⎦ ) ∑∑ ~ V NP, E Ycd = ∑ 2 N hσ cd ,h H ∑ + h =1 ∑ 2 N h2 σ cd ,h . nh h =1 (3.33) Dal precedente sviluppo deriva quindi ~ V0 ( NP,E Ycd ) = − H ∑ N h σ cd2 ~ 2 Vh ( NP,E Ycd ) = N h2 σ cd ,h . ; (3.34) h =1 Adottando le medesime linee di sviluppo, nel contesto in cui la varianza deve essere stimata si ha ~ ~ V0 ( NP,E Ycd ) = − H ~ 2 Vh ( NP,E Ycd ) = N h2 σ~cd ,h , ∑ Nhσ~cd2 ,h ; (3.35) h =1 dove 1 2 σ~cd ,h = nh − 1 2 nh ⎛ n ⎞ 1 h ⎜y ⎟ − y cd , hk ⎟ . ⎜ cd , hk nh k =1⎝ k =1 ⎠ ∑ ∑ (3.36) Per quanto riguarda, invece, lo stimatore di regressione, è opportuno fare riferimento ad una particolare versione del modello (2.22) e (2.23), introdotto in Valliant (2000, cap. 6), particolarmente utile nel caso di popolazione stratificate ' ycd , hk = βcd , h x hk + ε cd , hk E m (ε cd ,hk x hk ) = 0 , (3.37a) ( E m ε cd , hk x hk )2 = ghk σ cd2 ,h , (3.37b) in cui g hk = λ′ x hk ; g hk = α′ x hk (3.37c) essendo λ e α due vettori i cui valori sono noti a priori. Si supponga anche che il campione selezionato realizzi in ciascuno strato la seguente equazione di bilanciamento 75 CAPITOLO 2 Nh 1 nh nh ∑ k =1 ∑ xhk x hk = Nk =1 (h=1,…,H). h g hk (3.37d) ∑ g hk k =1 Una descrizione esauriente delle condizioni di bilanciamento esula dalle finalità del presente lavoro; per una descrizione dettagliata si rimanda a quanto riportato nel libro di Vaillant (2000, cap. 3,4 e 6). Nel presente contesto ci si limita ad osservare che nell’ottica dell’approccio approccio predittivo, spesso i campioni vengono selezionati in modo da rispettare equazioni di bilanciamento analoghe alla (3.37d). Il bilanciamento permette di definire in modo semplificato gli stimatori di varianza minima dei parametri d’interesse; viene, inoltre, garantita la robustezza dell’inferenza prodotta. Sotto le relazioni (3.37a),…,( 3.37d), lo stimatore non distorto di minima varianza del totale Ycd è dato da (Vaillant, 90, p. 174) NP , R Ycd , hk = nh ∑ ycd ,hk NP, R wcd ,hk (3.38) h =1 in cui Nh ( NP , R wcd , hk = nh g hk ) −1 ∑ g hl l =1 La varianza da modello dello stimatore (3.38) è data da ( ) ( ) ~ ~ V NP , R Ycd = Vm NP, R Ycd − Ycd = 2 N H ⎞ 1 ⎛⎜ h 2 = g hl ⎟ σ cd − ,h ⎟ n ⎜ h =1 h ⎝ l =1 h =1 ⎠ H ∑ ∑ ⎛ Nh ⎞ 2 ⎜ g hl ⎟ σ cd ,h . ⎜ ⎟ ⎝ l =1 ⎠ ∑ ∑ Dalla precedente espressione deriva quindi ~ V0 ( NP,R Ycd ) = − H ⎛ Nh ⎞ 2 ⎜ g hl ⎟ σ cd ,h ; ⎜ ⎟ h =1 ⎝ l =1 ⎠ ∑ ∑ 2 ⎛ Nh ⎞ ~ 2 Vh ( NP,R Ycd ) = ⎜ g hl ⎟ σ cd ,h . ⎜ ⎟ ⎝ l =1 ⎠ ∑ 76 (3.39) DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA Nel contesto in cui la varianza deve essere stimata, si ha ~ ~ V0 ( NP,R Ycd ) = − 2 ⎛ Nh ⎞ ⎞ ⎛ Nh ~ 2 , 2 ; ⎟ ⎜ ~ g hl ⎟ σ~cd g hl σ cd , h Vh ( NP,R Ycd ) = ⎜ ,h ⎜ ⎟ ⎟ ⎜ = 1 l h =1 ⎝ l =1 ⎝ ⎠ ⎠ H ∑ ∑ ∑ (3.40) in cui 1 cd , h = nh − G − 1 σ~ 2 essendo nh 1 ∑ ghk ( yc,hk − ~yc,hk )2 k =1 ⎡ nh x x ' ~ hl hl yc, hk = x′hk ⎢ ⎢ l =1 g hl ⎣ ∑ ⎤ ⎥ ⎥ ⎦ −1 n ⎡ h ⎤ ycd , hl ⎥ . ⎥ ⎦ x hl ⎢ ⎢ l =1 g hl ⎣ ∑ 2.3.3.3 Disegno di campionamento DS L’espressione usuale della varianza dello stimatore espansione, sotto il disegno di campionamento in oggetto è data da: H H ⎛ nh ⎞ ( ) ∑V (DS,E Y~cd ,h ) = ∑V ⎜⎜ ∑ DS , E whk ycd ,hk ⎟⎟ (3.41) h =1 h =1 ⎝ k =1 ⎠ ~ dove V ( DS,E Ycd ,h ) denota la varianza campionaria della stima per strato, ~ V DS,E Ycd = definita da ( ) ~ V DS,E Ycd ,h = = Mh Mh 2 M 2 h N Y ′⎞ chi ( N hi − nhi ) E Scd , hi − cd ,hi ⎟⎟ + π1hi′ ⎠ π1chi nhi ⎝ π1hi i =1 (3.42) ⎛ Ycd , hi ∑ ∑ (π1hii' − π1hi π1hi' ) ⎜⎜ i =1 i′=1 ∑ essendo Ycd ,hi = ∑ ycd ,hk ; k∈U hi N hi ⎛ 2 ⎞ 1 1 ⎜ ⎟ 2 ycd , hij − ycd , hij ′ ⎟ . E Scd , hi = ⎜ N hi − 1 ⎜ Nh ′ ⎟ j =1⎝ j =1 ⎠ ∑ N hi ∑ (3.43) La precedente espressione non risulta utile per risolvere il problema allocativo, nel contesto campionario in oggetto; una formulazione più utile a 77 CAPITOLO 2 tale scopo può essere ottenuta definendo le varianze per strato come funzione della statistica deff (Kish,1966) che misura il rapporto tra la varianza di campionamento del disegno di campionamento complesso sulla varianza di un ipotetico disegno di campionamento casuale semplice di uguale numerosità in termini di unità finali di campionamento. Si ha quindi H N h ( N h − nh ) ~ 2 V DS,E Ycd = (3.44) E Scd , h E deff cd , h nh h =1 ( ) ∑ dove, ( ~ E deff cd ,h = V DS,E Ycd ,h ) N h (N h − nh ) 2 E Scd ,h . nh Dopo semplici passaggi algebrici si ottiene quindi H ~ V0 ( DS,E Ycd ) = − N h E S 2cd ,h E deff cd ,h ; h =1 ~ Vh ( DS,E Ycd ) = N h2 E S 2 cd ,h E deff cd ,h . (3.45) ∑ (3.46) La (3.46) non è una relazione operativa se non è conosciuto il valore della statistica E deff cd ,h . Un criterio per arrivare a determinare il valore della statistica in oggetto è basato, sull’espressione riportata in Särndal et al. (1992 pp. 130) in cui la statistica E deff cd ,h è espressa in funzione dell’indice di correlazione intraclasse, E ρ cd ,h , e del rapporto tra il numero di unità primarie nello strato mh e il numero, nh ,di unità finali campione dello strato stesso, ossia ⎞ ⎛ nh − 1⎟⎟ ⎠ ⎝ mh E deff cd , h = 1 + E ρ cd , h ⎜⎜ (3.47) Essendo E ρ cd ,h = 1 − 2 E S 1cd ,h 2 E S cd ,h (3.48) in cui 2 E S 1cd ,h 1 = Nh − M h M h N hi ⎛ 2 Y ⎞ ⎜⎜ ycd ,hij − cd , hi ⎟⎟ . N hi ⎠ i =1 j =1⎝ ∑∑ (3.49) Nei disegni di campionamento concretamente posti in essere, le quantità mh vengono definite a priori in base a valutazioni di costo o organizzative; 78 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA ad esempio, nell’indagine RTFL, si pone mh =2 e nell’indagine ISTAT sui consumi delle famiglie si ha mh =3. Viceversa la dimensione campionaria di unità finali nello strato, nh , viene ottenuta risolvendo uno specifico problema di allocazione. Qui di seguito si illustra una procedura iterativa che permette di calcolare il valore della statistica E deff cd , h , consentendo in tal modo di definire il valore delle espressioni (3.46). Tale procedura si basa sulla conoscenza, a livello di singolo strato delle seguenti statistiche: • il coefficiente di correlazione intraclasse E ρ cd ,h ; il numero mh di unità primarie per strato. La procedura in oggetto è articolata nei seguenti passi, dove si indica con τ ( τ = 0,1,2,...) la generica iterazione. • Passo 1. Inizializzazione. All’iterazione iniziale, τ = 0 , si pone τ =0 opt nh = mh . Passo 2. Iterazione. Alle iterazioni successive τ = 1,2... si calcola il valore delle seguenti statistiche −1 ⎛ τopt ⎞ nh τ ⎜ ⎟; = 1 + ρ − 1 (3.50) deff E cd ,h E cd ,h ⎜ ⎟ mh ⎝ ⎠ H τ ~ V0 ( DS,E Ycd ) = − τ ~ Vh ( DS,E Ycd ) = N h2 E S 2 cd ,h τE deff cd ,h . ∑ N h E S 2cd ,h τ E deff cd ,h ; (3.51a) h =1 (3.51b) τ Si determina quindi il numero ottimo opt nh di unità finali campione dello strato h, sulla base delle statistiche (3.50) e (3.51) e applicando uno dei metodi illustrati nei parr. 2.4 e 2.5. Passo 3. Uscita. Se vale la condizione H ∑ τopt−1nh =optτ nh ≤ φ , (3.52) h =1 dove φ è una quantità piccola a piacere, il processo iterativo finisce e il va- ~ ~ lore della statistiche E deff cd ,h , V0 (CS,E Ycd ) , Vh ( CS,E Ycd ) sono posti uguale a quelli dell’iterazione corrente, definiti rispettivamente dalle espres79 CAPITOLO 2 sioni (3.49), (3.50) e (3.51). Altrimenti si pone τ = τ + 1 e il passo 2 viene iterato fino a che la condizione di uscita (3.52) non viene rispettata. La procedura iterativa, appena illustrata, permette di ottenere una stima della statistica E deff cd ,h , rendendo in tal modo operativa la relazione (3.46). Nel contesto in cui le variabilità campionarie devono essere stimate, la relazione (3.46) viene sostituita dalla corrispondente relazione fondata sulle stime campionarie H ~ ~ ~ ~ V0 ( DS,E Ycd ) = − N h E S 2 cd ,h E d eff cd ,h ; ∑ ~ Vh ( DS,E Ycd ) = h =1 ~ ~ N h2 E S 2 cd ,h E d eff cd ,h . (3.53) Disponendo di un’indagine precedente, basata su un campionamento DS, le stime campionarie coinvolte nella (3.53) possono essere determinate come ~ ~ ⎞ ⎛ nh − 1⎟⎟ , ⎠ ⎝ mh E d eff cd ,h = 1 + E ρ cd ,h ⎜⎜ essendo ρ~ E cd ,h =1− (3.54) ~2 E S 1cd ,h 2 E S cd ,h (3.55) in cui ~2 E S 1cd ,h 1 Nh − M h = 2 ⎛ ⎛n ⎞⎞ N hi ⎟ ⎟ 1 ⎜ hi ⎜ .(3.56) w y y − DS , E hk ⎜ cd , hij cd , hij ′ N hi ⎜⎜ ′ nhi ⎟⎟ ⎟⎟ ⎜ i =1 j =1 ⎝ j =1 ⎠⎠ ⎝ mh nhi ∑∑ ∑ Può, comunque, essere difficoltoso, ottenere una stima affidabile del coef~ ficiente di correlazione intraclasse a livello di strato E ρ cd ,h ; specie se, come avviene nelle indagini concrete, il numero di unità primarie per strato è di dimensione ridotta ( mh =2 o mh =3). In tale situazione, conviene ipotizzare la costanza, almeno approssimativa, del coefficiente di correlazione per strato ~ ~ ~ ~ E ρ cd ,1 ≅ ⋅ ⋅ ⋅ ≅ E ρ cd ,h ≅ ⋅ ⋅ ⋅ ≅ E ρ cd , H ≅ E ρ cd . (3.57) L’effetto del disegno di campionamento, a livello di strato, si calcola quindi come 80 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA ~ ⎛ nh − 1⎞⎟ , ⎟ ⎠ ⎝ mh ~ E d eff cd ,h = 1 + E ρ cd ⎜⎜ (3.58) determinando nel modo seguente una stima del coefficiente di correlazione a livello complessivo ~ S 21cd ~ E (3.59) E ρ cd = 1 − ~2 S cd E dove ~2 E S 1cd = 2 ⎛ ⎛n ⎞⎞ 1 ⎜ hi N hi ⎟ ⎟ ; ⎜ ycd , hij ′ DS , E whk ⎜ ycd , hij − H nhi ⎟⎟ ⎟⎟ N hi ⎜⎜ ′ ⎜ = 1 = 1 = 1 = 1 j h i j ⎝ ⎠⎠ ⎝ N− Mh mh nhi H 1 ∑ ∑∑∑ ∑ h =1 (3.60) H mh nhi 2 1 ~ ⎞ ⎛ DS , E whk ⎜ ycd , hk − DS , EYcd ⎟ .(3.61) N ⎝ ⎠ h =1 i =1 j =1 ~ ~2 Disponendo delle stime campionarie E d eff cd ,h , E S cd , h e avendo defini~2 E S cd = 1 N −1 ∑∑∑ to il numero di unità campione per strato, si può determinare il valore delle ~ ~ ~ ~ statistiche V0 (CS,E Ycd ) e Vh (CS,E Ycd ) mediante l’algoritmo iterativo precedentemente illustrato. Per quanto riguarda infine lo stimatore di regressione, le statistiche ~ ~ ~ ~ ~ ~ V0 ( DS,R Ycd ) , Vh ( DS,R Ycd ) , V0 ( DS,R Ycd ) , Vh ( DS,R Ycd ) possono es- sere determinate secondo quanto sopra illustrato, salvo il fatto che per le ~ ~ statistiche V0 ( DS,R Ycd ) , V0 ( DS,R Ycd ) le variabili di interesse ycd ,hk sono sostituite dalle variabili residuo ε cd ,hk ; mentre, le stime ~ ~ ~ ~ V0 ( DS,R Ycd ) , Vh ( DS,R Ycd ) possono essere ottenuta con le medesime ~ ~ ~ ~ espressioni utilizzate per V0 ( DS,E Ycd ) , Vh ( DS,E Ycd ) salvo la sostituzione delle variabili di interesse ycd ,hk con variabili ottenuta come prodotto dei residui stimati ε~cd ,hk per i correttori del peso base γ cd ,hk . 2.3.3.4 Disegno di campionamento DF Nel disegno di campionamento preso in esame, la varianza della stima 81 CAPITOLO 2 ~ DF,E Ycd è definita come somma di due addendi relativi, rispettivamente, alla prima e alla seconda fase di campionamento ( ) ~ V DF,E Ycd = DF1,EVcd + DF 2 ,EVcd (3.62) dove H H Nh N h′ h′ =1 k =1 k '=1 ∑ ∑ ∑( DF 1,EVcd = ∑ h =1 DF 1 π hk ,h 'k ' − DF 1 π hk π h 'k ' ). DF 1 ⎛ y pd ,chk y pd ,chk ⎞ ⎟⎟ ⋅ ⎜⎜ π π DF 1 hk DF 1 h ' k ' ⎝ ⎠ (3.63) ⎡H ⎤ DF 1 nh ( DF 1 nh − nh ) = V E S ⎢ DF 2 ,E cd d1 DF 2 cd ,h ⎥ , nh ⎢⎣h =1 ⎥⎦ (3.64) ∑ in cui 2 DF 1 nh ⎛ y DF 1 nh y ⎞ 1 1 cd ,hk cd ,hk ⎟ , ⎜ S = − DF 2 cd ,h ⎜ ⎟ DF 1 nh − 1 k =1 ⎝ DF 1π hk DF 1 nh − 1 k =1 DF 1π hk ⎠ ∑ ∑ (3.65) avendo indicato, inoltre, con Ed 1 (.) il valore atteso rispetto al disegno di campionamento di prima fase. Al fine di superare il problema di determinare un’espressione esplicita di DF 2 ,EVcd , si può prendere in considerazione una stima corretta della ( ~ ) varianza V DF,E Yab , espressa da: ( ) ~ ~ ~ ~ V DF,E Yab = DF 1,EVcd + DF 2 ,EVcd , in cui ~ DF 1,EVcd = H H DF 1 nh DF 1 nh ′ ∑∑ ∑ ∑ h =1 h′=1 k =1 (3.66) (DF1π hk ,h'k ' − DF1 π hk DF1π h'k ' ) ⋅ * π hk ,h ' k ' k ' =1 ⎛ y pd ,chk y pd ,chk ⎞ ⎟⎟ , ⋅ ⎜⎜ ⎝ DF 1π hk DF 1π h 'k ' ⎠ ~ DF 2 ,EVcd = H ∑ h =1 82 (3.67) DF 1 nh ( DF 1 nh nh − nh ) ~ DF 2 Scd ,h , (3.68) DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA essendo ~ DF 2 Scd , h = 1 nh − 1 nh ⎛ y ycd , hk ⎜ cd , hk − 1 ⎜ nh − 1 π π k =1 ⎝ DF1 hk k =1 DF1 hk nh ∑ ∑ ⎧ ⎪ DF 1π hk ν h nh − 1 ⎪ * * π hk ,h 'k ' = ⎨ DF 1π hk ,hk ' ν h nh − 1 ⎪ * ⎪ DF 1π hk ,h′k ' ν h ν h′ ⎩ ⎞ ⎟ ⎟ ⎠ 2 (3.69) per k = k ′ per h = h' e k ≠ k' . (3.70) per h ≠ h' e k ≠ k' Sulla base delle espressioni (3.66), (3.67), (3.68) e (3.69) si possono definire i due addendi della decomposizione (3.4) della stima della varianza H ~ ~ ~ ~ V0 ( DF,E Ycd ) = DF 1,EVcd − (3.71) DF 1 nh DF 2 Scd ,h ∑ h =1 ~ ~ Vh ( DF,E Ycd ) = H ~ ∑ DF1nh2 DF 2Scd ,h . (3.72) h =1 Per il disegno di campionamento che si sta trattando, si possono definire espressioni alternative di stimatore di regressione (Särndal et al., 1992, cap. 9); nel presente lavoro, si considera comunque solo la forma definita nelle espressioni (2.24) e (2.25). Analogamente agli altri casi, quindi, le stime ~ ~ ~ ~ delle componenti V0 ( DF,R Ycd ) , Vh ( DF,R Ycd ) possono essere ottenuta ~ ~ ~ ~ con le medesime espressioni utilizzate per V0 ( DF,E Ycd ) , Vh ( DF,E Ycd ) salvo la sostituzione delle variabili di interesse ycd ,hk con variabili ottenute come prodotto dei residui stimati ε~cd ,hk per i correttori del peso base γ cd ,hk . 2.3.3.5 Disegno di campionamento PO Nel disegno di campionamento preso in esame, le probabilità di inclusione congiunte sono espresse come prodotto delle probabilità di inclusione semplici. Per la qual cosa, tenendo presente le espressioni (2.20), (3.16) e (3.17), si ha H Nh (1 − POπ hk ) y 2 = ~ V PO , E Ycd = cd ,hk PO π hk h =1k =1 ( ) ∑∑ 83 CAPITOLO 2 H Nh =− ∑∑ =− ∑∑ ∑∑ 2 y cd ,hk + 2 ycd , hk N 2 X h h ycd ,hk . + n x h hk h =1 k =1 h =1 k =1 H Nh H Nh 2 y cd ,hk h =1k =1 π h =1 k =1 PO hk H ∑ = ∑ (3.73) Sulla base della precedente espressione, è quindi immediato definire l’espressione formale dei due addendi costituenti la (3.1) ( H Nh ) ∑∑ ~ V0 PO , E Ycd = − 2 ycd ,hk ; ( ) ~ Vh PO , E Ycd = X h h =1k =1 Nh ∑ k =1 2 ycd ,hk xhk . (3.74) Le stime campionarie dei addendi definiti nella (3.74) sono date da H nh ( ) ∑∑ 1π ycd2 ,hk PO hk ( ) ~ ~ V0 PO , E Ycd = − h =1k =1 nh ~ ~ Vh PO , E Ycd = X h ; 2 ycd ,hk ∑ PO π hk xhk . (3.75) k =1 Per quanto riguarda infine lo stimatore di regressione, ci si comporta analogamente a quanto fatto negli disegni di campionamento esaminati. 2.3.3.6 Varianza anticipata Si consideri un generico disegno di campionamento a in cui le probabilità di inclusione del primo ordine siano analoghe a quelle definite nella (3.16) nh xhk (3.76) a π hk = Xh Adottando l’approccio basato sulla varianza anticipata, sulla base di quanto illustrato nel par. 2.2.2.4. si ha H Nh H Nh 2 g hk σ cd ~ ~ 2 V a, R Ycd = VA a, R Ycd = − g hk σ cd + = π hk a h =1 k =1 h =1 k =1 Nh H Nh H 2 Xh ghk σ cd 2 . (3.77) ghk σ cd =− + nh xhk h =1k =1 h =1 k =1 ( ) ∑∑ ( ) ∑∑ ∑ ∑∑ ∑ Sulla base della precedente espressione è quindi immediato definire i due addendi costituenti la (3.1) 84 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA ( H Nh ( ) ∑∑ ~ V0 a , R Ycd = − ~ 2 ;V g hk σ cd h a , R Ycd h =1k =1 )= Xh Nh ∑ k =1 2 g hk σ cd . (3.78) xhk Le stime campionarie dei due addendi della (3.78) sono date da H nh 1 ~ ~ 2 V0 a , R Ycd = − g hk σ~cd ; π a hk h =1k =1 ( ) ∑∑ ( ) ~ ~ Vh a , R Ycd = X h nh ∑ k =1 2 g hk σ~cd a π hk xhk (3.79) 2.3.4 Decomposizione della varianza nel caso di stimatori non lineari Parametri ottenuti come funzione non lineare dei totali Ycd 2.3.4.1 In generale si indichi con ( θ A&&& , A&&& = f YA&&&, A&&& D C una funzione D C non ) lineare e differenziabile del vettore YA&&& , A&&& = {Ycd : c ∈ AC&&& ,d ∈ AD &&& } dei totali di popolazione Ycd dove AC &&& C D e AD &&& indicano specifici sottoinsiemi delle C variabili di interesse e dei D domini. {~ ~ Inoltre si indichi con a ,b YA&&& , A&&& = Ycd : p ∈ AC &&& , d ∈ AD &&& C D } il vettore delle stime campionarie di YA&&& , A&&& ,ottenute con la strategia di campionamento C D caratterizzata dal disegno di campionamento a (che nel caso trattato nel presente può corrispondere alternativamente ai disegni CS, NP, DS, DF o PO) e dallo stimatore b (b = E o R). Una stima naturale del parametro θ A&&& , A&&& è quella di tipo plug-in (Binder e C D Patak, 1994) ottenuta sostituendo nella funzione f (⋅) il vettore YA&&& , A&&& C D ~ con il vettore delle stime campionarie a ,b YA&&& , A &&& C D ( ~ ~ ) = f a ,b YA&&& ,A&&& . a ,bθ AC&&& , AD &&& C D Nel caso in cui le stime campionarie ~ a ,b Ycd costituenti il vettore ~ a ,b YA&&& , A &&& siano stime non distorte dei corrispondenti totali di popolaC D 85 CAPITOLO 2 ~ zione, la stima a ,b θ A&&& , A&&& è approssimativamente non distorta per n suffiC D cientemente grande. ~ L’approssimazione del primo ordine dell’errore campionario di a ,bθ A&&& , A&&& è C D data da ~ a ,b θ AC &&& , AD &&& ( ∑ ∑ c∈AC &&& d ∈AD &&& dove K cd = δ f δ ) ( ) ~ − θ A&&& , A&&& = f a ,b YA&&& , A&&& − f YA&&& , A&&& ≈ C D C D C D ~ ≅ K cd a ,b Ycd − Ycd ~ a ,bYcd ~ a ,b Ycd =Ycd ( ) (3.80) denota la derivata parziale della funzione ~ f (⋅) rispetto alla stima a ,b Ycd valutata al valore atteso Ycd . Dalla (3.80) è possibile dimostrare che la varianza approssimata di ~ è data da a ,b θ AC&&& , AD &&& ⎛ ⎞ ~ ⎜ ⎟ ~ V a ,bθ A&&& , A&&& ≅V ⎜ K cd a ,b Ycd − Ycd ⎟ . C D ⎜ c∈A&&& d ∈A&&& ⎟ D ⎝ C ⎠ ) ( ∑ ∑ ( ) (3.81) Essendo ⎞ ⎛ ⎟ ⎜ V⎜ K cd Ycd ⎟ = 0 , la (3.81) diventa ⎟ ⎜ c∈A&&& d ∈A&&& D ⎠ ⎝ C ∑ ∑ ⎞ ⎛ ⎜ ~ ⎟ V a ,bθ A&&&, A&&& ≅ V ⎜ Kcd Ycd ⎟ = C D ⎟ ⎜ c∈A&&& d ∈A&&& D ⎠ ⎝ C ⎛ ⎞ H nh ⎡ H nh ⎤ ⎜ ⎟ ⎢ V w z =V K cd a ,b hk hk ⎥ , a ,b whk ycd ,hk ⎟ = ⎜ ⎢ ⎥⎦ ⎜ c∈A&&& d ∈A&&& ⎟ h =1k =1 ⎣ h =1k =1 D ⎝ C ⎠ ( ~ ) ∑ ∑ ∑ ∑ ∑∑ ∑∑ (3.82) in cui zhk = ∑ ∑ Kcd ycd ,hk c∈AC &&& d ∈AD &&& 86 (3.83) DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA rappresenta la variabile linearizzata riferita alle unità elementari. ~ Dalla (3.82), quindi si desume che la varianza del parametro a ,b θ A&&& , A&&& è D C ~ ottenibile in modo analogo alla stima del totale Ycd in cui le variabili elementari ycd ,hk sono sostituite dalle variabili linearizzate z hk . In pratica, i valori Ycd coinvolti nelle derivate K cd non si conoscono, comunque questi valori possono essere sostituiti dalle corrispondenti stime ~ ~ campionarie Ycd , ottenendo in tal modo una stima, K cd , delle derivate parziali. È così possibile determinare una stima, ~ zhk , delle variabili linearizzate z hk ~ zhk = ~ ∑ ∑ Kcd ycd ,hk c∈AC &&& d ∈AD &&& ~ ( ~ La stima della varianza V a,bθ A&&& , A&&& C D (3.84) ) può essere quindi ottenuta come stima della varianza del totale ⎡ H nh ⎤ ~ ~ ~ ~ V a ,bθ A&&& , A&&& = V ⎢ w z a ,b hk hk ⎥ C D ⎢⎣ h =1k =1 ⎥⎦ in cui le variabili ~ zhk sostituiscono le variabili elementari ycd ,hk . ( ) ∑∑ (3.85) Per esemplificare quanto appena illustrato, si consideri il caso in cui Ycd Yc' d • il parametro da stimare sia il rapporto R( c, c' ), d = • la strategia di campionamento adottata sia del tipo (CS,E). (con c ≠ c’) Si ipotizzi, inoltre, di stimare il parametro in parola mediante il rapporto delle stime dirette ~ ~ CS , E Ycd R( c,c'),d = ~ . CS , E Yc ′d ~ ~ Nell’esempio considerato le derivate parziali, K cd e K c′d sono espresse rispettivamente da ~ K cd = 1 ~ ; CS , E Yc ′d ~ ~ K cd = − R( c,c ' ),d 1 ~ . CS , E Yc ′d Le variabili linearizzate sono quindi formulate come: 87 CAPITOLO 2 ~ z hk = 1 ~ ~ ( y cd ,hk − R( c,c '),d y c′d ,hk ) . CS , E Yc′d La varianza può quindi essere stimata come ~ H V~ ( R ~ ~ ~ ~ h ( c,c ' ),d ) V ( R( c,c '),d ) = V0 ( R( c,c ' ),d ) + nh h =1 dove ∑ ~ ~ V0 ( R(c,c '),d ) = − H ∑ h =1 ~ ~ Vh ( R( c,c ' ),d ) = N h2 1 Nh nh − 1 1 nh − 1 nh ⎛ ⎞ ⎜z − 1 ⎟ z hk ⎟ ⎜ hk n h k =1 k =1⎝ ⎠ nh ∑ 2 ∑ 2 nh ⎛ ⎞ ⎜z − 1 zhk ⎟ . hk ⎜ ⎟ nh k =1⎝ k =1 ⎠ nh ∑ ∑ 2.3.4.2 Parametri ottenuti come soluzione di un sistema di equazioni di stima Si consideri il parametro H Nh Z (ω ) = ∑ ∑ f (y z, hk ω ) = 0 h =1 k =1 già illustrato nell’equazione (2.3). Si supponga di condurre un campionamento stratificato, definito dalla ~ una stima di ω , dove strategia (a,b) e si indichi con ω H nh ~ Z (ω~ ) = ∑ ∑ a,b whk f (y z, hk ω~ ) = 0 . (3.86) h =1 k =1 Lo sviluppo in serie di Taylor può essere utilizzato per stimare la varianza di ω~ . Si scriva H nh δ f y z , hk ω ~ ~ ~ ~ 0 = Z (ω ) ≈ Z (ω ) + (ω − ω ) = a ,b whk δω ~ ω =ω h =1 k =1 H nh ∑∑ ~ = Z (ω ) + (ω~ − ω ) essendo 88 ∑ ∑ a,b whk K hk , h =1 k =1 ( ) (3.87) DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA K hk = δ f (y z , hk ω ) δω . (3.88) ω~ =ω Dalla precedente si ottiene l’approssimazione al primo ordine della varianza, definita da −1 −1 ⎛ H nh ⎞ ⎛ H nh ⎞ ~ ⎜ ⎟ ⎜ ⎟ V (ω~ − ω ) = ⎜ a , b whk K hk ⎟ V ( Z (ω )) ⎜ a , b whk K hk ⎟ , ⎝ h =1 k =1 ⎠ ⎝ h =1 k =1 ⎠ ∑∑ ∑∑ (3.89) nota come stima sandwich della varianza. Essa è ottenuta definendo le ~ e sostituendo il termine di varianza nel mezzo derivate parziali intorno a ω con una appropriata stime di tipo plug-in. Per un valore arbitrario di ω si ha ⎛ H nh ⎞ ( ) ~ ⎟ V ( Z (ω )) = V ⎜ a, b whk f y z , hk ω ⎟ , ⎜ ⎝ h =1 k =1 ⎠ (3.90) ~ ~ ~ ~ ⎟ V ( Z (ω )) = V ⎜ a,b whk f (y z , hk ω ) ⎟ . ⎜ ⎠ ⎝ h =1 k =1 (3.91) ∑∑ ~ al valore la cui stima di tipo plug-in è ottenuta sostituendo la stima ω incognito ω , ⎞ ⎛ H nh ∑∑ Riunendo le precedenti espressioni si ha quindi −1 −1 ⎛ H nh ⎞ ~ ~ ⎛ H nh ⎞ ~ ~ ⎟ ⎟ ~ ⎜ V (ω − ω ) = ⎜⎜ a, b whk K hk ⎟ V ( Z (ω )) ⎜ a , b whk K hk ⎟ = ⎝ h =1 k =1 ⎠ ⎝ h =1 k =1 ⎠ ∑∑ ∑∑ H nh ⎞ ~⎛⎜ ⎟ ~ =V w z a, b hk hk ⎟ ⎜ ⎝ h =1 k =1 ⎠ ~ rappresenta la variabile linearizzata definita come in cui z ∑∑ (3.92) hk −2 ⎛ H nh ⎞ ⎜ ⎟ ~ ~ z hk = ⎜ a, b whk K hk ⎟ f y z , hk ω . ⎝ h =1 k =1 ⎠ ∑∑ ( ) (3.93) ~ ~ − ω ) viene Con i precedenti sviluppi, quindi, la stima della varianza V (ω ricondotta alla stima del totale delle varibili linearizzate ~ zhk . 89 CAPITOLO 2 Un tipico esempio di parametri definiti come soluzione di un sistema di equazioni di stima è riportato in (Chambers e Skinner, 2004, pag. 40) in cui si ipotizza un modello in cui le variabili y z, hk sono indipendenti con fun- ( ) zione di densità data da g y z, hk ω . Presupponendo di osservare tutta la popolazione un approccio alla stima basato sul principio di verosimiglianza, ~ come soluzione della seguente equazione di definisce una stima di ω massima verosimiglianza Nh H ∑∑ Z (ω ) = h =1 k =1 δ log g (y z , hk ω ) =0. δω ( Pertanto, nell’esempio in questione, la funzione f y z , hk ( ) f y z , hk ω = δ log g (y z , hk ω ) , δω ω ) è definita come La stima campionaria di pseudo verosimiglianza di ω è definibile risolvendo ~ la seguente equazione di massima verosimiglianza per ω ~ Z (ω~ ) = nh H ∑∑ h =1 k =1 2.4. δ log g (y z , hk ω~ ) =0 a , b whk δ ω~ Allocazione univariata 2.4.1. Allocazione ottima Si indichi con θ un particolare parametro di popolazione – definito alternati- ~ vamente da una delle espressioni (2.1), (2.2), (2.3) – e si denoti con a ,b θ la corrispondente stima campionaria, ottenuta con la strategia di campiona- ~ ~ mento (a,b). Si denoti, inoltre con V ( a ,b θ ) la varianza di a ,b θ che, a seconda del particolare contesto preso in esame, può indicare, alternativamente una varianza da campionamento, una varianza da modello o una varianza anticipata. ~ Come illustrato nel paragrafo precedente, la varianza V ( a, b θ ) e la sua sti- ~ ~ ma corretta V ( a, b θ ) possono essere espresse come somma di due componenti H H V ( θ~ ) ~ ~ ~ ~ h a,b ; V a, b θ = V0 ( a, b θ ) + Vcamp ( a , b θ ) = V0, h ( a, b θ ) + nh h =1 h =1 ( 90 ) ∑ ∑ DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA ( ) ~ ~ ~ ~ ~ ~ V a,b θ = V0 ( a,b θ ) + Vcamp ( a, b θ ) = H ~ H V ( θ~ ) h a,b ∑V0, h ( a,bθ ) + ∑ h =1 h =1 nh Si assume che il costo totale dell’indagine L’ possa essere definito mediante il semplice modello: L' = L0 + L (4.1) dove H L= ∑ Lh n h , (4.2) h =1 in cui L0 indica il complesso dei costi fissi non influenzati dalla definizione delle numerosità campionarie e Lh (h=1,…, H ) denota il costo unitario (supposto costante) per rilevare le variabili di interesse nello strato h. La costante L0 include ad esempio, i costi di progettazione, di reperimento delle liste, ecc.; mentre L è la parte dei costi che varia in funzione dell’allocazione negli strati. L’allocazione ottima, per una data strategia di campionamento, definita dalla ( ~ coppia (a,b), minimizza il prodotto L Vcamp a , b θ vamente L o ( ) ) tenendo fissi alternati- ~ Vcamp a, b θ . Ciò è equivalente a minimizzare la varianza per un costo prefissato o alternativamente a minimizzare il costo avendo fissato il livello di accuratezza (definita in termini di variabilità campionaria) accettabile. Avendo determinato L o ( ) ~ Vcamp a,b θ , il valore minimo può essere derivato alternativamente con la tecnica dei moltiplicatori di Lagrange (Hansen et al., 1953) o usando la diseguaglianza di Cauchy Schwarz (Stuart, 1954). ( ⎡H ~ Vh a ,bθ ⎢ ⎢⎣h =1 ∑ ( ) 2 ⎤ Lh ⎥ , ⎥⎦ H che si realizza quando ) ~ L Vcamp a, b θ è Il minimo globale del prodotto nh ∝ ∑ ( ~ Vh a ,bθ h =1 Nel caso in cui si tenga fisso il costo ) Lh (Kish, 1976). L = L'− L0 , si ha 91 CAPITOLO 2 ⎡ ⎡ ~ ⎤⎢ L'− L0 ⎢ Vh a,bθ ⎥ ⎢ ⎢H opt n h = ⎢ ⎥ Lh ~ ⎢⎣ ⎥⎦ ⎢ Vl a,bθ ⎢ ⎣ l =1 ( ⎤ ⎥ ⎥ ⎥. Ll ⎥⎥ ⎦ ) ∑ ( ) (4.3) Nel caso in cui si tenga fissa la varianza ( ) ( ) ( ) ~ ~ ~ Vcamp a, b θ = V a, b θ −V0 a, b θ , si ha ⎡ H ~ Vl a,bθ Ll ⎡ ~ ⎤⎢ ⎢ Vh a,bθ ⎥ ⎢ l =1 opt nh = ⎢ ⎥⎢ ~ ~ Lh ⎢⎣ ⎥⎦ ⎢V a,bθ −V0 a,bθ ⎢ ⎣ ( ∑ ( ) ( ) ) ( ⎤ ⎥ ⎥ ⎥ . ⎥ ⎥ ⎦ (4.4) ) Il criterio di allocazione di Neyman è finalizzato alla minimizzazione (i) della varianza dello stimatore per un prefissato valore della numerosità campioH nh , o (ii) della dimensione campionaria n, naria complessiva n = ∑ h =1 avendo definito il livello di accuratezza accettato. Tale criterio corrisponde all’allocazione ottima in cui si pone L0 = 0 e Lh = 1 (h=1,…, H ). Se la numerosità campionaria complessiva n è fissata, l’allocazione di Neyman è data da ney nh = n H ( ~ Vh a,bθ ) ∑ Vl (a,bθ ) ~ . (4.5) l =1 ( ~ ) ( ~ ) ( ~ ) Avendo determinato la varianza, V camp a , b θ = V a , b θ − V 0 a , b θ , il criterio di Neyman, definisce la seguente numerosità ⎤ ⎡ H ney nh 92 ( ~ = Vh a,bθ ) ∑ ( ) ~ ⎢ Vl a,bθ ⎢ l =1 ⎢ ~ ~ ⎢V −V0 a,bθ a ,b θ ⎢ ⎣ ( ) ( ⎥ ⎥ ⎥. ⎥ ⎥ ⎦ ) (4.6) DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA In alcune situazioni, per qualche strato h si può verificare che opt nh > N h , ossia che la numerosità campionaria, definita alternativamente dalle espressioni (4.3) o (4.4), possa risultare superiore alla corrispondente numerosità di popolazione. In tali situazioni è necessario fare ricorso a metodi di calcolo iterativi (Cochran,1977. pp. 104, Mergeson, 1988) basati essenzialmente sul seguente schema: in ciascun passo di calcolo le equazioni (4.3) e (4.4) sono ridefinite in modo tale che L e ( ~ Vcamp a ,bθ ) corrispondano ai costi variabili degli strati da campionare (per i quali nello specifico passo di calcolo risulta opt nh < N h ), mentre L0 è ricalcolato in modo da includere sia i costi fissi originali sia i costi aggiuntivi necessari a raccogliere le informazioni per le unità degli strati da censire, per cui, in base alle equazioni (4.3) o (4.4) risulta opt nh ≥ N h e per i quali si pone opt nh = N h . L’algoritmo si interrompe quando per tutti gli strati si verifica la condizione opt nh ≤ N h (h=1,…,H). Il calcolo delle numerosità ottimali opt nh può essere determinato solo se sono conosciuti i valori veri di ~ ~ V0 ( a ,bθ ) e Vh ( a ,bθ ) (h=1,…,H). Tale situazione non è realistica; tuttavia, nelle indagine ripetute è possibile approssimare i valori veri con i valori ~ ~ V0 ( a ,bθ ) e stimati ~ ~ Vh ( a ,bθ ) desumibili dalle indagini precedenti; l’allocazione risultante non corrisponde esattamente a quella ottima ma ne costituisce un’approssimazione. In pratica, la numerosità campionaria che viene calcolata costituisce comunque un’approssimazione di quella ottimale; ciò è dovuto a circostanze differenti: la necessità di arrotondare ai numeri interi le numerosità ottenute, o la necessità di assicurare una numerosità campionaria minima in ciascuno strato al fine di calcolare la varianza, ecc.. Tuttavia è importante notare che moderate deviazioni dalle numerosità ottimali hanno effetti molto limitati sulla efficienza delle stime. In Cochran (1977 pp. 115-116) e Kish (1976) viene illustrata un’espressione molto utile che definisce l’Incremento Relativo (IR) del prodotto ottiene, tenendo fissi L o naria ) ) ~ Vcamp a ,bθ e utilizzando numerosità campio- nh (h=1,…,H) diverse da quelle ottime: H H IR = dove ( ( ~ L Vcamp a ,bθ che si ∑ h =1 K h Fh ⎛F ⎞ ∑ ⎜⎜⎝ Khh ⎟⎟⎠ − 1 h =1 93 CAPITOLO 2 ⎛ ~ K h ∝ opt nh / nh e Fh = ⎜⎜ Vh a,bθ ⎝ ( ) Lh ⎞ ⎟ ⎟ ⎠ ⎛H ~ ⎜ V θ l a b , ⎜ ⎝ l =1 ∑ ( ) ⎞ Ll ⎟ . ⎟ ⎠ H Nel caso in cui Lh = 1 (h=1,…, H ) e L = ∑ Lh si dimostra (Cochran, h =1 1977, pag. 115,116) che ⎡ n ⎛ n − n ⎞2 ⎤ ⎢ h ⎜ h opt h ⎟ ⎥. IR = ⎟ ⎥ nh ⎢ n ⎜⎝ ⎠ ⎦ h =1⎣ H ∑ Di conseguenza si ha 2 ⎡ H ⎛ nh − opt nh ⎞⎤ ⎟⎟⎥ . IR ≤ ⎢ Max ⎜⎜ nh ⎠⎦ ⎣ h =1 ⎝ Ad esempio, se la massima differenza relativa rispetto all’allocazione ottima H ⎛n − h opt nh ⎞ ⎟⎟ è pari al 0,20, l’incremento massimo negli strati Max ⎜⎜ nh h =1 ⎝ ⎠ 2 dell’Indice IR sarà uguale a (0,20) = 0,04 . In tal modo si può argomentare che differenze moderate dall’allocazione ottima non hanno un impatto molto rilevante sulla variabilità risultante. 2.4.2. Allocazioni alternative In questo paragrafo si illustrano alcune regole di allocazione che possono risultare utili in particolari situazioni applicative o quando il contesto informativo non consente di conoscere tutti gli elementi necessari per il calcolo dell’allocazione ottima. Al fine di esemplificare l’esposizione e per meglio illustrare le relazioni che intercorrono tra le allocazioni alternative proposte e quelle ottimali, nel seguito si ipotizza che il contesto informativo in base al quale definire il problema di allocazione sia il seguente: • l’unico vincolo su cui fondare il calcolo dell’allocazione negli strati sia costituito dalla numerosità campionaria complessiva n • le stime campionarie siano costruite mediante lo stimatore espansione. In tale situazione informativa, quindi, l’allocazione ottima di riferimento è quella di Neyman definita dall’espressione (4.5). 2.4.2.1. Allocazione ottima rispetto a una variabile ausiliaria x Si supponga di conoscere per ciascuna unità della popolazione il valore di 94 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA una variabile ausiliaria x g altamente correlata con la variabile di interesse e che assume sempre valori positivi. Si indichi con x g ,hk il valore di tale variabile relativa all’unità hk e con x gd ,hk la variabile trasformata se uhk ∈ U d ⎧x x gd ,hk = x g ,hk δ d ,hk = ⎨ g ,hk se uhk ∉ U d ⎩0 (d=1,…, D; h=1,…,H; k =1,…, N h ). In tale contesto informativo il problema di allocazione ottima può venire risolto adottando il criterio di Neyman, illustrato nell’espressione (4.5) ed ipotizzando che l’indagine sia finalizzata a massimizzare l’efficienza della stima espansione del totale della variabile ausiliaria ~ a,E X gd = H nh 1 ∑∑ a π hk x gd ,hk . h =1 k =1 Il numero di unità da campionare nello strato h è quindi ottenuto come x nh =n H ~ Vh ( a, E X gd ) ∑ ~ Vl ( a, E X gd ) . (4.7) l =1 Nel caso di disegno campionario di tipo CS, la (4.7) conduce alla seguente formula di calcolo nh = n H N h S x d ,h g ∑ N h S x g d ,h l =1 dove 2 Nh ⎛ Nh ⎞ 1 1 2 ⎜x S x d ,h = x gd ,hk ⎟ . gd ,hk − ⎟ g Nh − 1 ⎜ Nh k =1⎝ k =1 ⎠ ∑ ∑ Nel caso della stima di un totale, se la correlazione tra x gd ,hk e ycd ,hk è perfetta, la (4.7) definisce la medesima allocazione ottima (secondo Neyman) che si sarebbe ottenuta in base alla (4.5); tale allocazione viene comunque bene approssimata anche nel caso in cui la correlazione assuma valori elevati, superiori a 0,70. 95 CAPITOLO 2 2.4.2.2. Allocazione proporzionale L’allocazione proporzionale è definita da prop nh Nh =n . H (4.8) ∑ Nh h =1 Tale allocazione può essere sempre calcolata in quanto le numerosità Nh della popolazione negli strati risultano sempre conosciute. Inoltre se i rapporti ~ V1 ( a ,b θ ) N1 = ~ V2 ( a ,b θ ) N2 = ... = ~ Vh ( a ,b θ ) Nh = .... = ~ VH ( a ,b θ ) NH =C (4.9) sono uguali e pari a una costante C, l’allocazione proporzionale corrisponde a quella ottima di Neyman. Tale situazione si verifica frequentemente nelle indagini caratterizzate dalla strategia di campionamento (CS, E) e finalizzate a produrre stime di frequenze assolute o di proporzioni come quelle descritte nella formula (1.b) Ycd = N d Pcd = H Nh H h =1 k =1 h =1 ∑ ∑ ycd ,hk = ∑ Pcd ,h N h , in cui ycd , hk è una variabile dicotomica che è pari ad 1 se l’unità uhk , soddisfa la duplice condizione di appartenere al dominio d e di assumere la caratteristica c d’interesse e d è pari a 0 altrimenti. In tale contesto spesso avviene che le proporzioni della variabile d’interesse nei diversi strati Pcd , h siano piuttosto simili, per cui si può porre ~ Vh ( CS , E Pcd ,h ) = N h2 Pcd ,h (1 − Pcd ,h ) ≅ N h2 Pcd (1 − Pcd ) essendo ~ CS , E Pcd ,h = 1 ~ CS , EYcd ,h , Nh da cui deriva il fatto che la condizione (4.9) risulta verificata in quanto ~ Vh ( CS , E Pcd ,h ) Nh 96 = N h Pcd (1 − Pcd ) = Pcd (1 − Pcd ) = C . Nh (4.10) DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA 2.4.2.3. Allocazione proporzionale al totale della variabile d’interesse Se i valori assunti dalla variabile ycd , hk risultano sempre non negativi, è possibile adottare un criterio di allocazione proporzionale al totale di tale variabile, Nh ∑ k =1 ytot nh = n ycd , hk Ycd = Ycd , h Ycd . (4.11) Questo criterio può essere usato quando: • • i totali Ycd , h siano conosciuti in base a dati passati, ad esempio in base alla fonte censuaria; i fenomeni di interesse presentino una certa stabilità temporale. Se i rapporti ~ V1 ( a ,b θ ) Ycd ,1 = ~ V2 ( a ,b θ ) Ycd , 2 = ... = ~ Vh ( a ,b θ ) = .... = Ycd ,h ~ VH ( a ,b θ ) Ycd ,H =C. (4.12) sono uguali e pari a una costante C, l’allocazione (4.11) corrisponde a quella ottima di Neyman. Nel caso della stima di un totale, in una strategia di rilevazione di tipo (CS, E), la (4.12) implica la costanza del coefficiente di variazione negli strati ~ Vh (CS , E Yc, d ) N h E Scd , h N h E Scd ,h S = = E cd , h = C . Ycd , h Ycd , h Ycd , H N h Ycd , h Nel caso descritto nel paragrafo precedente in cui ycd , hk è una variabile = ( ) dicotomica ed in cui vale la condizione Pcd , h 1 − Pcd , h ≅ Pcd (1 − Pcd ) , la (4.12) viene verificata in quanto ~ Vh ( CS , EYcd , h ) Ycd , h ≅ Nh Pcd (1 − Pcd ) N h Pcd = (1 − Pcd ) Pcd . 2.4.2.4. Allocazione proporzionale al totale di una variabile ausiliaria x Se i valori assunti dalla variabile x gd , hk risultano sempre non negativi, è possibile adottare un criterio di allocazione proporzionale al totale di tale variabile 97 CAPITOLO 2 Nh ∑ x gd , hk k =1 xtot nh = n H N h ∑ ∑ = x gd , hk X gd , h X gd . (4.13) h =1 k =1 La giustificazione della (4.13) è quella che se il rapporto ~ Vh ( a,bθ ) X cd , h è pressappoco costante al variare dello strato, allora l’allocazione definita dalla (4.13) approssima abbastanza bene quella ottima di Neyman. 2.4.2.5. Allocazione esponenziale Il criterio di allocazione esponenziale, proposto da Bankier (1995) per affrontare la situazione in cui esistano grandi differenze nelle dimensioni degli strati, risolve il seguente problema di minimo vincolato, dove la funzione obiettivo è data da 2 ~ H ⎡ ⎤ V Y a,b cd h , ⎢X α ⎥ = min (4.14) gd ,h Y ⎢ ⎥ cd h , h =1 ⎣ ⎦ ∑ ( ) ed il vincolo è espresso da H nh = n , h =1 ∑ essendo α una costante scelta in modo opportuno. La soluzione del precedente problema mediante il metodo dei moltiplicatori di Lagrange individua la seguente soluzione: ( ) ( ~ ~ Vh a,b Ycd ⎡ H α Vl a,b Ycd α ⎢ X gd ,h esp nh = n X gd ,h Ycd ,h Ycd ,h ⎢ l =1 ⎣ ∑ ) ⎤⎥ ⎥ ⎦ −1 . (4.15) Nel caso della stima di un totale, l’allocazione ottima di Neyman costituisce un caso particolare dell’allocazione (4.14) ottenibile nel caso in cui si ponga α =1 e X gd ,h = Ycd ,h . Una scelta opportuna del valore della costante α rende possibile incrementare in modo considerevole la precisione della stima relativa ai piccoli 98 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA ~ strati a ,b Ycd ,h , introducendo solo una piccola perdita di precisione nella ~ stima complessiva a ,b Ycd . Esperienze empiriche suggeriscono di definire il valore della costante α all’interno dell’intervallo 0,33 ≤ α ≤ 0 ,5 . 2.4.2.6. Allocazione di compromesso Il criterio di allocazione di compromesso sviluppato nel lavoro di Centra e Falorsi (2006), affronta un problema analogo a quello dell’allocazione esponenziale in cui l’indagine debba produrre stime a livello di strato e per l’intera popolazione sotto studio. Il lavoro che considera il caso della stima di una proporzione ed è sviluppato per la strategia (CS,E), propone la seguente soluzione comp nh in cui: λ = λ ney nh + (1 − λ ) ug nh (4.16) è un parametro compreso tra 0 e 1, da fissare in modo opportuno ; ney nh è definita secondo l’espressione (4.5) relativamente al caso in cui la ~ stima sia CS , E Pcd ; ug nh viene individuata risolvendo, mediante un complicato algoritmo iterativo, il seguente problema di minimo vincolato: ⎧H ∑ ⎪ ug nh = n ⎪h =1 ⎨ ~ Vh ( CS , E Pcd , h ) ~ ⎪ =V ⎪V0, h ( CS , E Pcd , h ) + n ug h ⎩ . (4.17) (h = 1,..., H ) La (4.17) definisce una dimensione campionaria che garantisce che tutte le stime di strato abbiano un uguale errore di campionamento, pari a V , garantendo al contempo la numerosità complessiva del campione. Fissando il valore di λ pari a 1, si ottiene l’allocazione di Neyman ottima ~ per la stima CS , E Pcd , ma che al contempo può indurre una grande variabilità dei coefficienti di variazione delle stime per strato. Viceversa, un valore di λ pari a 0, garantisce che le stime degli strati abbiano la medesima variabilità, allontanandosi però dalla soluzione ottimale per la stima comples- ~ siva CS , E Pcd . La definizione di un valore del parametro λ intermedio tra 0 e 1 permette di individuare una esplicita soluzione di compromesso tra i differenti obiettivi dell’indagine. Nel lavoro sopra riportato viene definito anche un criterio di ottimalità per la scelta di λ , basato sull’analisi dell’effetto del disegno di campionamento. Si fa notare che nel caso in cui: 99 CAPITOLO 2 • le numerosità N h siano sufficientemente grandi; • valga, almeno approssimativamente la condizione Pcd ,1 ≅ Pcd ,2 ≅ ... ≅ Pcd ,h ≅ ... ≅ Pcd , H = Pcd , la (4.16) può essere utilmente approssimata da: acomp nh = λ ney nh + (1 − λ ) n . H (4.18) 2.4.2.7. Allocazione basata su un modello di superpopolazione Spesso nella fase della definizione del disegno di campionamento si conosce solo la variabilità negli strati di una variabile ausiliaria che potrebbe essere correlata con la variabile d’interesse. Nei lavoro di Dayal (1985) Godfrey et al. (1984) si illustra il caso in cui la variabile d’interesse e quella ausilia siano legate da un modello lineare del tipo q ycd ,hk = α + β x gd ,hk + ecd ,hk x gd ,hk , dove si è indicato con: αe β (4.19) i coefficienti di regressione di tipo costante; q un parametro costante; ecd ,hk la componente residua di tipo casuale, i cui valori attesi sotto il modello introdotto sono dati da ( ) ( ) 2 2 2 Em ecd . ,hk x gd ,hk = 0 , Em ecd ,hk x gd ,hk = δ (4.20) La regola di allocazione di Dayal è finalizzata a minimizzare, la varianza anticipata (Isaki e Fuller, 1982), ossia il valore atteso sotto il modello (4.16) della varianza di campionamento per un dato costo o una definita dimensione del campione n. Se n è fissato, la regola di allocazione di Dayal per la strategia di campionamento (CS,E) è data da: Nh β day nh = n H ∑ l =1 Nl 2 1 S x2 d , h + δ 2 g N β 2 S x2 g d ,l +δ2 H Nh ∑∑ xgd2q,hk h =1 k =1 1 N . (4.21) H Nh ∑∑ xgd2q,lk h =1 k =1 Nel caso in cui δ = 0 allora la (4.18) è uguale all’allocazione ottima rispetto alla variabile ausiliaria x definita dalla (4.7). 100 DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA 2.5. Allocazione multivariata e multidominio Come illustrato nel par. 2.2, in generale le indagini campionarie sono di tipo multivariato e multidominio, devono quindi produrre stime per una pluralità di parametri di interesse in ciascuno dei domini di studio, caratterizzanti la popolazione sotto esame. Per descrivere tale situazione, si denoti con θα ( α = 1,2,.., Ω ) un generico parametro di interesse. Ad esempio, supponendo che l’indagine debba produrre stime dei totali Ycd (c=1,…,C; d=1,…,D), si ha che • i parametri di interesse sono in numero pari al prodotto C D ; • il parametro θα corrisponde al singolo totale Ycd ; • l’indice α assume valori da 1 a Ω dove Ω = C D . Si presupponga di avere selezionato un campione mediante il disegno di campionamento stratificato a e di voler stimare il generico parametro θα ~ mediante lo stimatore a ,b θα . Si supponga, inoltre, che per la varianza del suddetto stimatore valgano le decomposizioni illustrate nel par. 2.3.1, ossia che risulti: ( ~ ) ~ ~ V a ,b θα = V0 ( a ,b θα ) + Vcamp ( a ,b θα ) = ( ) ~ ~ ~ ~ ~ ~ V a,bθα = V0 ( a,bθα ) + Vcamp (a,bθα ) = H H V ( θ~ ) h a ,b α ~ ∑V0,h (a,bθα ) + ∑ h =1 H h =1 H ~ ∑V0,h (a,bθα ) + ∑ h =1 nh ~ Vh ( a,bθα ) h =1 nh Nel contesto appena introdotto, il problema di definizione della dimensione del campione negli strati può essere affrontato mediante due differenti approcci: 1. il primo risolve il problema, individuando la soluzione di costo minimo ~ che garantisce che ciascuna delle stime diffuse a ,bθα ( α = 1,2,.., Ω ) abbia un prefissato di accuratezza; 2. il secondo approccio determina una soluzione generale di ottimo come nel caso univariato. 2.5.1. Soluzione di costo minimo ~ In questo approccio, per ciascuna stima a ,bθα ( α = 1,2,.., Ω ) si definisce ~ ~ * un valore soglia V ( a ,bθα ) della varianza V ( a ,bθα ) . La soluzione ottima cerca di minimizzare il costo variabile dell’indagine sotto 101 CAPITOLO 2 il vincolo che varianza della generica stima non sia superiore al valore soglia fissato per la stima stessa; in simboli ⎧ H ∑ Lh nh = min ⎪⎪ ⎨ h =1 ⎪ ~ ~ * ⎪⎩ V ( a ,b θα ) ≤ V ( a ,bθα ) per α = 1,2,.., Ω Come mostrato in Bethel (1989) esistono dei valori (4.22) λα ( α = 1,2,.., Ω ) tali che consentono di individuare la soluzione al problema (4.22) mediante la seguente relazione Ω ~ ∑ λα Vh (a,bθα ) beth nh = α =1 . Lh (4.23) Nel lavoro di Bethel si prova anche la convergenza di un algoritmo iterativo che consente di determinare i valori numerici dei coefficienti λα ( α = 1,2,.., Ω ). Un algoritmo iterativo più semplice dal punto di vista applicativo è illustrato in Chromy (1987). L’algoritmo è articolato nei passi di seguito illustrate. 1. Si denoti con (τ )λ all’iterazione τ (con τ 2. All’iterazione iniziale, α il valore di =0,1,…) λα ( α = 1,2,.., Ω ) calcolato τ = 0 , si pone (τ ) λα = 1 . 3. Nelle successive iterazioni ( τ =1,2,…) si calcolano i valori (τ ) n h, mediante l’equazione (4.23) Ω ∑ (τ ) n = α =1 h (τ −1)λ V ( θ~ ) α h a ,b α . Lh 4. Si calcolano i valori delle varianze all’iterazione H V ( θ~ ) ~ ~ h a ,b α (τ ) . V a ,bθα = V0 ( a ,bθα ) + (τ ) n h h =1 ( ) ∑ 5. Si calcolano i valori aggiornati di aggiornamento 102 (τ )λ α mediante l’equazione di DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA ( ( ) ) ~ ~ ⎡ (τ ) (τ ) λ = (τ −1)λ ⎢ V a ,b θα − V0 ( a ,bθα ) α α⎢ ~ ~ * ⎢⎣ V a ,b θα − V0 ( a ,b θα ) ⎤ ⎥ ⎥ ⎥⎦ 2 ( α = 1,2,.., Ω ). (τ ) λα . I passi 3,4 e 5 sono ripetuti utilizzando i valori aggiornati La soluzione, beth nh (h=1,…,H) di costo minimo è ottenuta quando per tutti α ( α = 1,2,.., Ω ) si ha ~ ~ ~ ~ (τ ) V a ,b θα ≤ V * a ,b θα e (τ −1)λα (τ )V a ,bθα − V * a ,b θα = 0 . i valori di ( ) ( ( ( ) ) ( )) L’algoritmo appena illustrato è stato implementato all’ISTAT in una macro SAS (Falorsi et al. 1998) e all’Isfol in un programma SPSS (Centra, 2006). Non esiste la prova matematica della convergenza dell’algoritmo appena illustrato; ma, in tutte le esperienze empiriche condotte, l’algoritmo ha trovato una soluzione di ottimo convergendo dopo un numero limitato di iterazione, in genere inferiori a 15. Il principale problema di tipo concettuale è quello della definizione dei valori ~ * soglia V ( a ,b θα ) . In genere tali valori sono individuati, con numerose ~ * prove empiriche finalizzate a individuare i valori V ( a ,b θα ) che consentono di ottenere una dimensione campionaria compatibile con le risorse da assegnare all’indagine e al contempo di diffondere stime sufficientemente affidabili. Un’interessante soluzione al problema, applicata al contesto delle indagini sulle imprese condotte dal Bureau of the Census è riportata in Hidirogloou et al. (1995). 2.5.2. Soluzione di ottimo analoga al caso univariato Nel lavoro di Chatterjee (1967) si propone di scegliere i valori nh che per ~ ciascuna stima, a ,bθα , minimizzano il valore medio dell’incremento proporzionale di varianza rispetto alla soluzione ottima univariata. Se, relativamente allo strato h, si indica con α nh la dimensione campionaria ottima ~ univariata per la stima a ,bθα , la soluzione proposta è la seguente ⎡ Ω 2 ⎢ cha nh = n α nh ⎢ α =1 ⎣ ∑ H Ω ∑ ∑ h =1 2 α nh α =1 ⎤ ⎥ . ⎥ ⎦ (4.24) Una situazione alternative riportata in Cochran (1977, pp. 121) è quella di minimizzare la seguente funzione quadratica, avendo fissato il costo totale dell’indagine L’: 103 CAPITOLO 2 Η V ( θ~ ) ⎤ ⎫ ⎧⎪ Ω ⎡ ~ h a ,b α ⎪ Min ⎨ ϕα ⎢V0 ( a ,bθα ) + ⎥⎬ , nh nh ⎪ ⎢ ⎥⎦ ⎪⎭ h =1 ⎩α =1 ⎣ ∑ ∑ dove (0 < ϕα < 1) sono costanti fisse, essendo (4.25) Ω ∑ ϕα =1. α =1 La (4.25) viene minimizzata definendo un valore di nh pari a ~ coch nh =n ϕα Vh (a,bθα ) Lh H ∑ l =1 ~ ϕα Vl (a,bθα ) Ll . (4.26) L’approccio proposto da Cochran è raramente usato nelle usato nelle indagini su larga scala, in quanto risulta piuttosto complessa la definizione delle costanti ϕα . 104 LA COSTRUZIONE DI STIME CAMPIONARIE MEDIANTE L’USO DI VARIABILI AUSILIARIE* 3.1 Introduzione Nella presente capitolo vengono descritte le principali caratteristiche statistiche e informatiche di un metodo di stima che consente la costruzione di stime campionarie, basate sulla teoria dello stimatore di regressione generalizzata. Tali stime sono caratterizzate da buone proprietà statistiche e operative che si possono sintetizzare nei seguenti punti: • flessibilità e facilità operativa. Le stime dei parametri di interesse vengono, infatti, ottenute ponderando ciascuna unità inclusa nel campione con un peso (detto anche coefficiente di riporto all’universo) che dal punto di vista logico può essere visto come il numero delle unità della popolazione oggetto di studio rappresentate dall’unità osservata nell’indagine; • efficienza. Le stime prodotte sono in genere contraddistinte da una variabilità di campionamento minore rispetto a quella ottenibile da metodi di stima più tradizionali; • coerenza dell’informazione diffusa. Le stime campionarie possono, infatti, riprodurre la struttura della popolazione di interesse nota da fonti esterne. La restante parte del documento è organizzata nel modo di seguito descritto. Il par. 2. è finalizzato ad illustrare la teoria statistica sottostante lo stimatore di regressione generalizzato; il par. 3. è dedicato a illustrare il software generalizzato, implementato sul pacchetto SPSS, per l’applicazione di metodi di stima lineare ad una qualsiasi banca dati. 3.2 Teoria statistica dello stimatore di regressione generalizzato 3.2.1 Lo stimatore di regressione generalizzato una popolazione finita U costituita da N elementi, U = {1,..., k ,..., N } . Dalla popolazione U viene selezionato un campione s, Si * consideri Di Marco Centra, Piero Demetrio Falorsi. 105 CAPITOLO 3 di n unità, mediante un disegno di campionamento che assegna al campione s la probabilità p(s) di essere selezionato. Si indichino con ∑ =∑ πk = π kl s⊃k p (s ) s ⊃ ( k ,l ) p (s ) la probabilità di inclusione dell’unità k e la probabilità di inclusione della coppia di unità (k,l). Sia y la variabile di interesse, la cui misurazione sull’elemento k viene denotata con y k . L’obiettivo è quello di stimare il totale della variabile di interesse Y= ∑ U yk . Sia ( x k = x1k ,..., x pk ,...x Pk )' il vettore di P variabili ausiliarie riferito all’unità k. Si supponga inoltre che, per ciascun elemento di s si possa osservare la coppia ( y k , x k ) . Si assuma infine che il totale delle variabili ausiliarie X= ∑U x k = (∑U x1k ,..., ∑U x pk ,..., ∑U xPk ) ' sia conosciuto in base a una fonte censuaria o amministrativa. Si cerca uno stimatore di Y che faccia un uso efficiente dell’informazione ausiliaria sopra riportata. Uno stimatore che risponde alle caratteristiche suddette è lo stimatore di regressione generalizzata ~ ˆ + YREG = X' B dove ak = 106 1 πk ∑ a (y s k k ˆ − x'k B ) (1) LA COSTRUZIONE DI STIME CAMPIONARIE è il peso base, e il vettore B̂ è ottenuto come soluzione, sulla base dei dati campionari, delle equazioni normali ⎛⎜ ⎝ ∑a s k ˆ = x k x'k c k ⎞⎟ B ⎠ ∑a s x k y k ck k (2) essendo c k definito in base alla struttura di varianza del modello di regressione lineare sottostante lo stimatore di regressione generalizzata. Tale modello indicato con ξ è basato sulle seguenti ipotesi y k = x'k β + ε k E ξ (ε k ) = 0 , per k ∈ U . Vξ (ε k ) = c k σ 2 , Cξ (ε k , ε l ) = c k σ 2 (3) (∀ k ≠ l ) avendo indicato con E ξ (⋅) , Vξ (⋅) , Cξ (⋅) gli operatori di valore atteso, varianza e di covarianza sotto il modello ipotizzato. Il legame tra il modello (3) e lo stimatore (1) può essere esplicitato nel modo seguente: se le coppie ( y k , x k ) fossero osservabili per tutti gli N elementi della popolazione U, allora si potrebbe ottenere una stima di regressione generalizzata della relazione lineare tra la y e la x risolvendo il sistema di equazioni normali basato sui dati censuari ⎛⎜ ⎝ ∑U x k x'k c k ⎞⎟ B = ⎠ ∑U x k yk ck . (4) Tuttavia il vettore B non può essere calcolato poiché le coppie ( yk ,x k ) possono essere osservate solo sul campione. Pertanto, si sostituisce la (4) con le corrispondenti equazioni normali (2) che permettono di ottenere la stima B̂ base ai dati campionari. Ciò inoltre permette il calcolo dei residui campionari e~k = y k − x 'k Bˆ (5) coinvolti nella (1). Un’importante proprietà da porre in luce è quella che (Särndal et al., 1992), ~ sotto condizioni piuttosto generali, lo stimatore YREG risulta uno stimatore consistente del parametro d’interesse Y, qualsiasi sia la combinazione dei valori del vettore della popolazione finita y1 ,..., y k ,..., y N , ossia che ( ) ~ lim E p YREG = Y n→ N 107 CAPITOLO 3 dove E p (⋅) indica il valore atteso rispetto al disegno di campionamento utilizzato. La consistenza non dipende, comunque, dalla veridicità del modello (3), in tal senso si può affermare che l’approccio utilizzato per l’inferenza resta valido anche nel caso il modello (3) non risulti adeguato a descrivere la relazione esistente tra la variabile d’interesse e le variabili ausiliarie, si tratta quindi di un approccio in cui l’inferenza è assistita dal modello adottato, piuttosto che di un approccio in cui l’inferenza è basata interamente sul modello ipotizzato. 3.2.2 Espressioni alternative dello stimatore Per meglio comprendere le proprietà dello stimatore (1) è utile fare riferimento a tre espressioni alternative dello stesso. La prima di queste è data da ( ) ~ ˆ 'B ˆ YREG = Ŷ + X − X (6) in cui Ŷ = ∑a s k yk , ˆ = X ∑a s k x'k costituiscono le stime dirette o di Horvitz Thompson (1952) di Y e X, e il terˆ 'B ˆ costituisce un aggiustamento di regressione dello stimamine X − X tore diretto. Una seconda espressione può essere sostituendo ottenuta nella ( ) (5), il vettore B̂ con la sua espressione esplicita definita da ˆ = ⎛⎜ B ⎝ ∑ a k x k x'k c k ⎞⎟ s ⎠ −1 ) ∑ s ak x k x'k ( ~ ˆ ' ⎛⎜ YREG = Ŷ + X − X ⎝ ( ∑ = ∑ ⎡ ˆ ' ⎛⎜ ak y k ⎢1 + X − X s ⎝ ⎣⎢ = ∑ s ak g k yk essendo 108 ck ⎞⎟ ⎠ ) ∑ s ak x k x'k ˆ ' ⎛⎜ ak y k + X − X s ⎝ = ∑ s ak x k yk ( c k , si ottiene quindi −1 x k ak ck = ck ⎞⎟ ⎠ ) ∑ s ak x k x'k −1 ck ⎞⎟ ⎠ x k ak ck = −1 ⎤ x k a k ck ⎥ = ⎦⎥ (7) LA COSTRUZIONE DI STIME CAMPIONARIE ⎡ ˆ ' ⎛⎜ g k = ⎢1 + X − X ⎝ ⎣⎢ ) ∑ s ak x k x'k ( ck ⎞⎟ ⎠ −1 ⎤ x k ak ck ⎥ . ⎦⎥ (8) Le espressioni (7) e (8) mostrano che per ottenere la stima del totale Y si devono utilizzare dei pesi finali (k ∈ s) wk = a k g k (9) ottenuti come prodotto del peso base, a k , per un fattore correttivo, g k ,che dipende dal modello (3). 3.3 Stimatore di regressione generalizzata come caso particolare dello stimatore di calibrazione Un’importante proprietà dello stimatore di regressione generalizzata è quella della calibrazione, ossia che le stime campionarie delle variabili ausiliarie corrispondono ai valori noti degli stessi; infatti, partendo dalle espressioni (7) ed (8) si ha: ~ YREG = ∑ s ak g k x 'k = ⎡ ˆ )' ⎛⎜ = ∑ ak ⎢1 + (X − X a x x' s ⎝ ∑s k k k ⎢⎣ ( ) ∑ s ak x k x'k ˆ ' + (X − X ˆ )' = X' . =X ˆ ' + X−X ˆ ' ⎛⎜ =X ⎝ c k ⎞⎟ ⎠ −1 ck ⎞⎟ ⎠ −1 ⎤ x k ak ck ⎥ x'k = ⎥⎦ ∑ s x k x'k ck = La proprietà, appena illustrata, mostra che lo stimatore di regressione generalizzata può essere visto come un caso particolare dello stimatore di calibrazione, ossia una classe di stimatori del tipo ~ Y= ∑ s wk yk , in cui i pesi finali wk sono ottenuti come soluzione del seguente problema di minimo vincolato finalizzato ad individuare dei pesi finali wk che risultino il meno distante possibile dai pesi base ak e che al contempo consentano di rispettare la condizione di calibrazione, ossia che le stime campionarie delle variabili ausiliarie corrispondono ai valori noti degli stessi: 109 CAPITOLO 3 (∑s ck D(ak , wk )) ⎧Min ⎪ wk ⎨ w ⎪ ⎩ s k ∑ xk = X , (10) dove D(ak , wk ) 1 definisce una funzione generale di distanza tra il peso base e il peso finale. Nel caso in cui la funzione di distanza adottata sia quella Euclidea, espressa da D(ak , wk ) = 1 (ak g k - ak )2 , 2 ak (11) si ottiene lo stimatore di regressione generalizzata. Per dimostrare tale asserzione basta osservare che la soluzione analitica del sistema (10), in cui la funzione di distanza è espressa dalla (11) si ottiene si ottiene risolvendo il sistema lineare in n+P equazioni in n+P incognite 2(ak − wk ) ⎧ δL = λ 'x k ⎪⎪δ w = − ak k ⎨δ L ⎪ w x =X = s k k ⎪⎩ δ λ k = 1,...., n ∑ , (12) ottenuto ponendo pari a zero le derivate prime del Lagrangiano L= ∑ s ck (wk - ak )2 − λ ' ( ak ∑ s wk x k − ∑U x k ) dove λ denota il vettore colonna (P-dimensionale) dei coefficienti di Lagrange. Si consideri la k-esima (k = 1,…,n) tra le prime n equazioni del sistema (12); dopo semplici passaggi si ottiene: ⎛ ⎞ 1 x 'k λ ⎟⎟ . wk = a k ⎜⎜1 + ⎝ 2 ck ⎠ (13) Premoltiplicando entrambi i membri della (13) per x k e sommando su s, si ottiene ∑s xk wk = ∑s ⎛ ⎞ 1 x k x'k λ ⎟⎟ = ak ⎜⎜1 + ⎝ 2 ck ⎠ 1 Nel lavoro di Ballin et al. (2000) vengono elencate le distanze comunemente usate nella definizione dello stimatore di Calibrazione. 110 LA COSTRUZIONE DI STIME CAMPIONARIE ˆ = =X−X ⎛ = λ = 2⎜⎜ ⎝ 1 2 ∑s ∑s ak ak 1 x k x'k λ = ck ⎞ 1 x k x'k ⎟⎟ ck ⎠ −1 (X − Xˆ ). (14) Sostituendo la forma esplicita del vettore λ definita dalla (14) nella (13) si ottiene la medesima espressione del peso finale del peso finale dello stimatore di regressione generalizzata, definita dalle espressioni (8) e (9). 3.4 Concetti sottostanti lo stimatore di regressione generalizzato Una definizione più precisa dello stimatore di regressione generalizzata passa attraverso l’introduzione di tre concetti che specificano ulteriormente la relazione della variabile d’interesse con il relativo modello di regressione (3). Questi sono: • il gruppo di riferimento del modello; • il livello del modello; • il tipo di modello. 3.4.1 Gruppo di riferimento del modello Data una partizione completa della popolazione U, {U1, …, Ud, …, UD }, si definisce il generico gruppo di riferimento del modello Ud, un sottoinsieme (o sottopopolazione) in cui, sono noti i totali di una o più variabili ausiliarie non essendo necessario che l’insieme delle variabili ausiliarie sia lo stesso per ciascuna sottopopolazione. il campione sd appartenente al gruppo di riferimento d, definito come s d = s ∩ U d , deve essere sempre costituito da un numero di unità maggiore del numero di totali noti. Valendo le precedenti condizioni è possibile definire un modello separato per le unità di ciascun gruppo. Rispetto al modello (3), in cui il gruppo di riferimento è l’intero universo U, si costruisce, quindi, un modello di regressione per ciascun sottoinsieme Ud, espresso da y k = x ′dk β d + ε k , per k ∈Ud (15) in cui valgono le ipotesi del modello (3) ed avendo denotato con x dk il vettore dei valori assunti, dall’unità k, sulle variabili ausiliarie utilizzate per la costruzione del modello, nella sottopopolazione Ud. Il vettore β d viene stimato come −1 ⎛ x dk x′dk ⎞ x y ˆ ⎟⎟ ak ak dk k . B d = ⎜⎜ sd ck ⎠ ck ⎝ sd ∑ ∑ 111 CAPITOLO 3 Lo stimatore di regressione generalizzata basato su una suddivisione dell’universo in gruppi di riferimento è dato da, D ~ YREG = a g y , sd k k k d =1 nel quale per −1 ∑∑ ⎞ ⎛ x dk x′dk ⎟ '⎜ ˆ g k = 1 + (X d − X d ) ⎜ ⎜ k ∈s π k ck ⎟⎟ ⎠ ⎝ d ∑ in cui Xd = ∑U d x dk , X̂ d = x dk ck ∑ sd ak x dk . Con lo stimatore appena illustrato, la stima del residuo ~ ˆ ek = yk − x'dk B d (15.b) ε k è data da: (15.c) 3.4.2 Livello del modello Il livello del modello fa riferimento al tipo di unità usato nella formulazione del modello (3). Si dice che un modello è riferito alle unità elementari se, come nel caso della (3), le quantità relative fanno riferimento alle unità elementari coinvolte nel campionamento e i totali noti sono relativi a gruppi di unità elementari. Per i disegni di campionamento di unità elementari a uno stadio semplice (ad esempio campionamento stratificato di unità elementari) si possono definire unicamente modelli a livello di unità elementari. Per disegni di campionamento in cui le unità finali di campionamento costituiscono cluster di unità elementari2, il modello può essere formulato sia a livello di cluster, sia a livello di unità elementari. Per i disegni di campionamento a più stadi possono essere adottati differenti livelli di modello, ciascuno dei quali relativo a uno specifico stadio del campionamento. Nel caso che il modello sia formulato a livello di unità elementari, il vettore X di totali noti è un vettore di totali riferiti a gruppi di unità elementari; nel caso che il modello sia formulato a livello di cluster il vettore X di totali noti è un vettore di totali riferiti a gruppi di cluster. Per illustrare tale aspetto, si definisca con U I = {1,K, i,K, N I }l’universo dei cluster, e si indichi con 2 Ad esempio, nel caso delle indagini sulle famiglie in cui la famiglia costituisce l’unità finale di campionamento (cluster) ed in cui vengono rilevati tutti i componenti – unità elementari – della famiglia medesima. 112 LA COSTRUZIONE DI STIME CAMPIONARIE YIi = ∑k∈i yk e ∑k∈i x k X Ii = il totale della variabile di interesse e del vettore delle variabili ausiliarie per il generico cluster i. Si supponga che da U I venga selezionato un campione s I , di nI unità, mediante un disegno di campionamento che assegna al campione s I la probabilità p( s I ) di essere selezionato. Si indichino con π Ii = ∑ sI ⊃ i π Iij = p (s I ) ∑ sI ⊃ (i, j ) p(sI ) la probabilità di inclusione del cluster i e la probabilità di inclusione della coppia di cluster (i,j). Si può quindi definire il seguente modello di regressione YIi = X ′Ii β I + ε Ii , in cui: β I ξI (i=1...,NI) (16) = ( βI1 ,..., β Ip ,..., βIP ) ' denota il vettore dei P coefficienti di re- gressione incogniti; ε i è una variabile casuale per la quale il valore atteso, la varianza e la covarianza sotto il modello ξI sono definiti rispettivamente da: Eξ I (ε Ii ) = 0 , Varξ I (ε Ii ) = cIiσ I2 , Covξ (ε Ii , ε Ij ) = 0 I (∀ i ≠ j ) ; (17) essendo le cIi (per i ∈ U I ) delle costanti note. Lo stimatore di regressione definito a livello di cluster assume, dunque, la seguente espressione: ~ YREG = ∑i∈sI aIi g Ii YIi = ∑i∈sI aIi g Ii ∑ k∈i yk (18) in cui aIi = 1 π Ii 113 CAPITOLO 3 denota il peso base e ⎛ ⎜ X X′ ' ˆ g Ii = 1 + ( X I − X I ) ⎜ aIi Ii Ii cIi ⎜ i∈s ⎝ I ∑ ⎞ ⎟ ⎟ ⎟ ⎠ −1 X Ii cIi (19) è il fattore correttivo del peso base; avendo inoltre indicato con X I = ∑U X Ii I ˆ =∑ X a X I Ii Ii s I il vettore di totali noti riferiti all’universo dei cluster e la corrispondente stima di Horvitz Thompson. Con lo stimatore appena illustrato, la stima del residuo ε k , a livello di unità elementare è data da: ~ ˆ . ek = yk − x'k B I (19.b) La stima dei residui a livello di cluster è ottenuta come somma dei residui delle unità elementari facenti parte del cluster. Espressioni analoghe alla (18) e alla (19) si ottengono quando la popolazione U I è partizionata in U I1 ,K,U Id ,K,U ID gruppi di riferimento. In tale caso si può ipotizzare di definire la relazione che lega la variabile oggetto d’indagine e le variabili ausiliarie come YIi = X ′Idi β Id + ε i ∀ (i ∈U Id ) in cui X Idi è il vettore dei totali calcolati sul cluster i delle variabili ausiliarie utilizzate per la costruzione del modello nella sottopopolazione U Id . Lo stimatore di regressione si può, pertanto, formulare attraverso la relazione ~ YREG = D D ∑ ∑i∈sId aIi g Ii YIi = ∑ ∑i∈sId aIi g Ii ∑k∈i yk d =1 (20) d =1 in cui sId = sI ∩ U Id ; 114 (21) LA COSTRUZIONE DI STIME CAMPIONARIE ⎛ ˆ ) ' ⎜ ∑ a X Ii X ′Ii g Ii = 1 + ( X Id − X Id ⎜ Ii cIi ⎝ i∈sId ⎞ ⎟ ⎟ ⎠ −1 X Ii c Ii (22) è il fattore correttivo calcolato a livello di cluster, essendo X Id = ∑U X Ii Id ˆ =∑ X a X Id Ii Ii s Id Con lo stimatore appena illustrato, la stima del residuo ε k , a livello di unità elementare è data da: ˆ . e~k = y k − x 'k B Id (22.b) La stima dei residui a livello di cluster è ottenuta come somma dei residui delle unità elementari facenti parte del cluster. Si evidenzia che un modello a livello di unità elementare corrisponde ad uno stimatore che attribuisce un peso finale diverso per tutte le unità elementari appartenenti ad una medesima unità finale di campionamento; viceversa, un modello a livello di cluster di unità elementari corrisponde ad uno stimatore che attribuisce un peso finale uguale per tutte le unità elementari appartenenti ad una medesima unità finale di campionamento. In alcune situazioni particolari, quindi, l’adozione di un modello a livello di cluster (ad esempio, a livello di famiglia) comporta che il peso finale di tutti gli elementi dello stesso cluster risulti uguale. In tal modo è possibile risolvere i problemi di coerenza interna (vedi Ballin et al. 2000) che potrebbero essere ingenerati nel caso in cui l’indagine debba produrre stima sia a livello di cluster che a livello di unità elementari Infine, si ricorda che mentre, per impostare un modello a livello di unità elementare non vi sono vincoli sul tipo di disegno campionario adottato, per definire nel software un modello di regressione a livello di cluster è necessario aver utilizzato un disegno in cui le unità finali di campionamento sono dei grappoli. 3.4.3 Tipo di modello La scelta delle variabili ausiliarie e del parametro ck determina il tipo di modello sottostante allo stimatore di regressione generalizzata. In particolare, la specificazione del vettore x k e ck , associata con la definizione del livello e del gruppo di riferimento, conducono a noti stimatori che possono essere derivati, anche, al di fuori della teoria degli stimatori di calibrazione. Nello schema seguente (mutuata da Pagliuca, 2002), relativamente a campioni di unità elementari, si descrive il legame esistente tra alcuni degli stimatori più usati in letteratura e la classe degli stimatori di cali115 CAPITOLO 3 brazione. Nello schema il vettore delle variabili ausiliaria, corrisponde a uno scalare, indicato con xk o xdk a seconda che si faccia riferimento ai modelli di regressione (3) o (15). Schema n. 3 - Casi particolari dello stimatore di calibrazione per campioni di unità elementari Stimatore Gruppi di riferimento del modello Tipo di modello Valori assunti Valori da assunti da xk o xdk HorvitzThompson Hàjek Totale popolazione Totale popolazione ck Fattore correttivo Forma dello stimatore gk πk πk 1 Ŷ 1 1 N / N̂ Ŷ N N̂ X / X̂ Ŷ X X̂ Rapporto semplice Totale popolazione xk xk Rapporto separato Ciascun gruppo coincide con uno strato (d≡h) xdk xdk H Yˆ h ∑ Xˆ X h / X̂ h h =1 h= indice di strato Rapporto combinato Totale popolazione Ciascun gruppo d è Rapporto costruito combinato come per sottopo- aggregazione polazioni di strati xk xk X / ∑h X̂ h xdk xdk X d / ∑h∈d Xˆ h h Xh ∑h Ŷh X ∑h X̂ h ∑h∈d Yˆh ∑ ˆ d =1 ∑ h∈d X h D Xd segue schema 116 LA COSTRUZIONE DI STIME CAMPIONARIE Schema n. 3 segue Stimatore Tipo di modello Valori assunti Valori da assunti da xk Gruppi di riferimento del modello o xdk Rapporto poststratificato* Rapporto poststratificato separato** Ciascun gruppo coincide con un post-strato (d≡a)† Ciascun gruppo coincide con una combinazione tra post-strato e strato (d≡a∩h) Ciascun Rapporto gruppo postcoincide con stratificato un post-strato combinato** (d≡a) ck Fattore correttivo Forma dello stimatore gk xdk xdk ˆ a X / aX xdk xdk ˆ a X h / aX h xdk xdk ˆ a X h / ∑h a X h A ˆ aY ∑ ˆ aX X a =1 a A H ∑∑ ˆ aYh a =1 h =1 a a Xˆ h Xh ∑h aYˆh X ˆ a a =1 ∑h a X h A ∑ *Utilizzato con un disegno semplice; ** utilizzato con disegno stratificato; † Il generico poststrato è indicato con a (a=1, ...., A). 3.5 Stima della varianza di campionamento e criterio di scelta delle variabili ausiliarie ~ Uno stimatore della varianza di campionamento dello stimatore YREG caratterizzato da buone proprietà in ambito condizionale e non condizionale (Särndal et al. 1989; Kott, 1990) è dato da π kl − π k π l (23) (a k g k e~k )(al g l e~l ). π kl dove i fattori correttivi g k e i residui ~ ek dipendono dalle scelte relative ai ( ) ~ ~ V YREG = ∑k∈s ∑ l∈s gruppi di riferimento del modello e del livello del modello. Per il modello a livello di unità elementari, i fattori correttivi e i residui sono espressi in modo alternativo dalle espressioni: • (8) e (5), se si utilizza un unico gruppo di riferimento del modello, che coincide con l’intera popolazione • (15.b) e (15.c), se si utilizzano D gruppi di riferimento del modello. 117 CAPITOLO 3 Per il modello a livello di cluster, utilizzabile per i disegni in cui si campionano cluster interi di unità elementari, i fattori correttivi e i residui sono espressi in modo alternativo dalle espressioni: • (19) e (19.b), se si utilizza un unico gruppo di riferimento del modello, che coincide con l’intera popolazione • (22) e (22.b), se si utilizzano D gruppi di riferimento del modello. Al fine di valutare l’efficienza di una strategia di stima proposta è utile porre a raffronto la varianza (23) con quella dello stimatore diretto (che non utilizza l’informazione ausiliaria disponibile), definendo un indice di efficienza del tipo ( ~ ~ V YREG deff stim = ˆ Ŷ V in cui () V̂ Yˆ = ∑k∈s () ∑ l∈s ) (24) π kl − π k π l (ak y k )(al yl ) . π kl (25) Un confronto tra le due espressioni della varianza mette in luce che la differenza essenziale tra la (23) e la (25) dipende dal fatto che la varianza lo stimatore di regressione generalizzato si basa sul prodotto dei residui ~ ek per i fattori correttivi g k, mentre la varianza dello stimatore diretto si basa sui valori originari, y k , della variabile d’interesse; conseguentemente, con sufficiente grado di generalità si possono evidenziare i seguenti aspetti: • lo stimatore di regressione generalizzata è tanto più efficiente, rispetto allo stimatore diretto, quanto più il modello (3) è predittivo, ossia quanto più i residui ~ ek sono prossimi allo zero. Nel caso limite in cui tutti i residui sono nulli, risulta pari a zero anche la varianza di campionamento; • i correttori g k possono introdurre un fattore varianza aggiuntivo nella varianza di campionamento, qualora essi risultino molto variabili (Kish, 1965). Tale variabilità dei pesi correttivi può essere introdotta dal fatto di considerare troppe variabili ausiliarie rispetto alle dimensioni del campione. In base quanto appena illustrato, il criterio di scelta delle variabili ausiliarie da considerare nella specificazione del modello (3) dovrebbe essere guidato da una logica di parsimonia e, considerando solo una logica basata sull’efficienza, una specifica variabile ausiliaria dovrebbe essere presa in considerazione nella costruzione dello stimatore di regressione unicamente nel caso in cui la riduzione di varianza connessa al potere predittivo del modello (3) sia superiore all’incremento di varianza dovuto all’aumento della variabilità dei pesi campionari. In tal senso si propone una procedura per l’individuazione delle variabili ausiliarie, di tipo step-wise, articolata nei seguenti passi: 1) si individua, mediante un giudizio soggettivo, la variabile più importante, rispetto agli obiettivi conoscitivi dell’indagine; 2) si effettua un’analisi statistica finalizzata a ordinare l’insieme delle variabili ausiliarie rispetto al potere predittivo che ciascuna di esse ha sulla 118 LA COSTRUZIONE DI STIME CAMPIONARIE variabile di interesse, considerando come variabile dipendente quella individuata al passo precedente e come variabili esplicative tutto l’insieme delle variabili ausiliarie disponibili. A tale scopo si può ricorrere a tecniche di regressione non parametrica (Breiman et al., 1967) o anche tecniche di regressione di tipo step-wise; 3) si costruisce lo stimatore di regressione generalizzato, considerando unicamente la variabile più influente e si determinano le varianze (23) e (25), calcolando quindi l’indicatore di efficienza (24); 4) si costruisce quindi lo stimatore di regressione generalizzato, considerando le due variabili più influenti e si determina il nuovo indicatore di efficienza. Qualora tale indicatore sia inferiore a quello calcolato al punto (3), anche la seconda variabile viene presa in considerazione nella costruzione della strategia di stima; 5) si ripete il passo (4) considerando le variabili ausiliarie in ordine di influenza decrescente. Si termina questa iterazione, allorché l’introduzione di una nuova variabile produce un valore dell’indicatore di efficienza superiore a quello ottenuto nel passo precedente. 3.6 Stimatore di regressione generalizzata sotto diversi disegni di campionamento Nel presente paragrafo sono presentate le espressioni dello stimatore di re~ ~ ~ gressione YREG , e il relativo stimatore della varianza, V YREG , per disegni di campionamento di particolare rilevanza applicativa. ( ) 3.6.1 Campionamento casuale semplice senza reimmissione Le probabilità di inclusione semplici e congiunte nel caso del campionamento casuale semplice senza reimmissione sono definite da: n ⎧ ⎪π k = N π kl = ⎨ n n −1 ⎪ ⎩ N N −1 per k = l per k ≠ l (26) Lo stimatore di regressione è espresso da N ~ YREG = n n ∑ yk g k k =1 dove i fattori correttivi g k vengono espressi dalla (8), se si utilizza un unico gruppo di riferimento del modello, che coincide con l’intera popolazione mentre vengono definiti dalla (15.b), se si utilizzano D gruppi di riferimento del modello. Sostituendo la (26) nella (24), si ottiene lo stimatore della varianza: 119 CAPITOLO 3 2 ⎞ 1 N (N − n ) 1 ~ ~ ⎟ ⎜ ~ ~ V YREG = g k ek − g k ek ⎟ ⎜ n n −1 n ⎟ ⎜ k =1⎝ k =1 ⎠ (27) dove residui ~ e vengono espressi dalla (5), se si utilizza un unico gruppo di ( n ⎛ ∑ ) n ∑ k riferimento del modello, mentre vengono definiti dalla (15.c), se si utilizzano D gruppi di riferimento del modello. 3.6.2 Campionamento stratificato Sia U una popolazione suddivisa in H strati e si indichi con: h (h=1, …, H) l’indice del generico strato costituito da Nh unità, dove ∑h N h = N ; k (k=1, …, Nh) l’indice della generica unità finale di campionamento appartenente allo strato h. Il parametro da stimare si può in questo caso esprimere con H Nh Y = ∑ ∑ y hk , h =1k =1 dove y hk rappresenta il valore assunto dalla variabile d’interesse sull’unità elementare k inclusa nello strato h. Si supponga di aver estratto da U, attraverso un disegno casuale stratificato, un campione s, in cui per ciascuno strato h la selezione delle nh unità ( h nh = n) sia stata effettuata con reimmissione e probabilità uguali. In tale contesto le probabilità di inclusione sono definite da: ∑ ⎧ nh ⎪π k = Nh ⎪ ⎪⎪ n n − 1 π kl = ⎨ h h ⎪ Nh Nh −1 ⎪ nh nh' ⎪ ⎪⎩ N h N h' per (k = l ) ∈ s h per (k ≠ l ), (k ,l ) ∈ s h (28) per (k ∈ s h ), (l ∈ s h' ) , h ≠ h' e lo stimatore di regressione generalizzata per il totale Y si può scrivere come H N ~ YREG = ∑ h h =1 nh 120 nh ∑y k =1 hk g hk LA COSTRUZIONE DI STIME CAMPIONARIE in cui: chk rappresenta il fattore di eteroschedasticità connesso all’unità hk ; il termine N h nh rappresenta il coefficiente diretto dell’unità k appartenente allo strato h e dove i fattori correttivi g hk vengono espressi dalla (8), se si utilizza un unico gruppo di riferimento del modello, che coincide con l’intera popolazione mentre vengono definiti dalla (15.b), se si utilizzano D gruppi di riferimento del modello. Sostituendo la (28) nella (24), quest’ultima assume la ben nota forma: nh ⎛ ⎞ ⎜ ⎟ N h ( N h − nh ) 1 1 ~ ~ ~ ~ − V YREG = g e g e hk hk hk hk ⎟ ⎜ nh nh − 1 nh ⎜ ⎟ h =1 k =1⎝ k =1 ⎠ ( ) H ∑ ∑ nh 2 ∑ ehk vengono espressi dalla (5), se si utilizza un unico gruppo di dove residui ~ riferimento del modello, mentre vengono definiti dalla (15.c), se si utilizzano D gruppi di riferimento del modello. 3.6.3 Campionamento stratificato a grappoli Si definisca con U I l’universo di riferimento dei grappoli (già precedentemente) suddiviso in H strati e in relazione al generico strato h si indichi con: i (i=1, …, Nh) l’indice della generico grappolo di unità elementari; k (k=1, …, Mhi) l’indice della generica unità elementare appartenente al grappolo i dello strato h. Inoltre, si denoti sinteticamente con (hik) la generica unità elementare k inclusa nel grappolo i dello strato h. In questo caso il parametro si può rappresentare come H N h M hi Y = ∑∑∑ yhik h =1 i =1 k =1 dove , y hik è il valore della variabile d’interesse osservato sull’unità elementare (hik). Sia sI un campione di nI grappoli ottenuto attraverso un disegno casuale stratificato, in cui per ciascuno strato si estraggono senza reimmissione e probabilità variabili nh grappoli essendo π hik la probabilità d’inclusione costante per tutte le unità elementari appartenenti al grappolo i dello strato h, e pari alla probabilità di inclusione π hi dello stesso grappolo i. Nel campionamento a grappoli la definizione dello stimatore di regressione generalizzata varia a seconda del livello del modello utilizzato. La scelta del livello influisce sulla forma dello stimatore nella definizione del fattore correttivo. In generale lo stimatore è espresso come 121 CAPITOLO 3 H nh 1 ~ YREG = ∑∑ h =1 i =1 π hi M hi ∑y hik g hik , (29) k =1 in cui per il modello a livello di unità elementari, ghik è dato alternativamente dalla: • (8), se si utilizza un unico gruppo di riferimento del modello, che coincide con l’intera popolazione • (15.b), se si utilizzano D (d=1,…,D) gruppi di riferimento del modello. Per il modello a livello di cluster si ha che ghik è dato dalla • (19), se si utilizza un unico gruppo di riferimento del modello, che coincide con l’intera popolazione • (22), se si utilizzano D (d=1,…,D) gruppi di riferimento del modello. Essendo per questo disegno di campionamento molto complessa la determinazione delle probabilità congiunte di selezione tra due cluster appartenenti al medesimo strato (Brewer, 1983), in genere si ricorre a una forma approssimata per il calcolo della varianza basata sull’ipotesi che nell’ambito di ciascuno strato la selezione sia stata effettuata con reimmissione (Verma et al. 1980): ( ) H ~ var YREG = ∑ h =1 nh nh 2 ( e~hi − e~hi ) , ∑ nh − 1 i=1 (30) essendo ~ ehi = M hi ∑ π hik k =1 1 ~ ehik g hik , 1 ~ ehi = nh nh ∑ ~ehi i =1 dove i residui sono espressi a seconda del livello del modello. Per il modello ehik è dato alternativamente dalla: a livello di unità elementari, ~ • • (5), se si utilizza un unico gruppo di riferimento del modello, che coincide con l’intera popolazione (15.c), se si utilizzano D (d=1,…,D) gruppi di riferimento del modello. Per il modello a livello di cluster si ha che ~ ehik è dato dalla • • (19.b), se si utilizza un unico gruppo di riferimento del modello, che coincide con l’intera popolazione (22.b), se si utilizzano D (d=1,…,D) gruppi di riferimento del modello. 3.7 Software per l’applicazione di metodi di stima lineare Il software permette l’applicazione della soluzione del sistema di stima ad un qualunque data-set di dati individuali. Il programma è stato scritto in linguaggio SPSS. 122 LA COSTRUZIONE DI STIME CAMPIONARIE Il programma necessita di due data-set in input: il primo relativo alla base di dati individuali a cui imporre i totali noti; il secondo relativo ai totali noti. La procedura restituisce un data-set di dati individuali identico a quello utilizzato a monte del processo, con l’aggiunta della variabile relativa al correttore del peso base. Il data-set dei dati individuali ha una struttura unità-variabili e può contenere un numero qualsiasi di variabili, tra le quali quelle selezionate per l’applicazione del metodo di stima lineare, vale a dire le variabili i cui totali coincideranno, al termine dell’intera procedura, con i totali noti. La base dati deve contenere l’informazione sugli eventuali domini sui quali sono stratificati i totali, una variabile che permetta l’identificazione dei record e il peso base. Le variabili obiettivo devono essere ovviamente numeriche, tuttavia è possibile utilizzare anche variabili categoriali applicando una procedura di dicotomizzazione delle modalità: in tal caso i totali imposti coincidono con le frequenze osservate in ciascun dominio. Si osservi che nel caso si utilizzi una variabile categoriale dicotomizzata la matrice binaria contiene una variabile ridondante: nell’esempio ciascuna delle variabili occupato, in cerca di occupazione, inattivo, contiene un valore binario corrispondente alla condizione dell’individuo; dal momento che la condizione è esaustiva (ogni individuo deve presentare almeno una condizione occupazionale) la somma per riga è ovviamente pari a 1, ne segue che la matrice contiene una colonna pari ad una combinazione lineare delle altre. Questa caratteristica può generare problemi nell’algoritmo della procedura, che prevede l’inversione delle matrici: in tali casi la procedura applica un metodo di inversione generalizzato di matrici, in grado di funzionare anche su matrici con elementi non indipendenti. Di seguito è riportato un esempio della struttura del database a cui imporre i totali noti sulle sole variabili obiettivo. Il data-set dei totali noti contiene i valori che la procedura imporrà al data-set dei dati individuali sulle variabili corrispondenti; anche in questo caso il dataset deve contenere una variabile identificativa dell’eventuale dominio di stratificazione, coerente con quella utilizzata per i dati individuali. L’algoritmo opera calcolando per ciascun dominio il vettore dei totali osservati dal data-set dei dati individuali; estrae il vettore dei totali noti per il dominio corrispondente dal data-set dei totali noti e applica la soluzione ottenendo un vettore di correttori del peso base il cui ordine coincide con il numero di individuo del dominio. Una volta applicata la procedura a tutti i domini si ottiene un vettore di ordine pari al numero di individui della base di dati individuali, che applicato come fattore moltiplicativo al peso base, permette ai dati individuali di riprodurre la distribuzione nei domini di ciascuna delle variabili obiettivo. Il programma effettua una analisi approfondita del correttore, calcolando parametri e forma della distribuzione, fornendo all’utente la possibilità di valutare i risultati della procedura. 123 CAPITOLO 3 Variabili obiettivo Dominio= Genere x Area Maschio-Nord Femmina-Nord Maschio-Centro Femmina-Sud Maschio-Sud ……………….. ……………….. ……………….. ……………….. Femmina-Sud Peso base a1 a2 a3 a4 a5 … … ai … an In Id Reddito Occ. di occ. Inat- Var Var Var tivo 1 2 3 Individuo 1 Individuo 2 Individuo 3 Individuo 4 Individuo 5 ………… ………… Individuo i ………… Individuo n Variabile numerica Dominio=Genere x Area cerca Altre variabili Reddito Occupato Variabile categoriale dicotomizzata In cerca Inattivo di occ. Maschio-Nord Maschio-Centro Maschio-Sud Femmina-Nord Femmina-Centro Femmina-Sud Il correttore del peso base ottenuto non è necessariamente positivo: non essendo accettabili peso nulli o negativi il programma effettua una analisi preventiva del campo di variazione del correttore, individuando i valori negativi e, successivamente propone una soluzione al problema attribuendo ai correttori negativi il valore medio del correttore nel dominio. Se la soluzione proposta si discosta sensibilmente da quella ottimale è consigliabile rinunciare alla procedura o rimodularla selezionando variabili obiettivo differenti. 124 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI NELLE INDAGINI COMPLESSE* 4.1 Introduzione I dati raccolti mediante indagini statistiche, sia censuarie che campionarie, presentano spesso, per una serie di ragioni, un’alta percentuale di mancate risposte (MR). Trascurare il problema del trattamento delle MR, diffondendo basi di dati con informazioni mancanti o incomplete, potrebbe introdurre forti distorsioni nella stima di parametri rilevanti ai fini dell’analisi statistica. Mentre per gli utenti finali dei dati di un’indagine statistica può risultare difficile risolvere in maniera soddisfacente il problema della integrazione delle informazioni mancanti, di solito l’ente che ha la responsabilità della raccolta e della diffusione dei dati stessi può disporre sia di maggiori conoscenze sui motivi della non risposta che di informazioni ausiliarie, non di pubblico dominio, che consentono un adeguato trattamento delle MR. Storicamente, i metodi per il trattamento delle MR sono stati sviluppati nel contesto delle indagini socio-demografiche sulle famiglie e con riferimento principalmente a variabili di tipo qualitativo e solo nell’ultimo decennio sono stati estesi all’ambito delle indagini economiche e alle variabili di tipo quantitativo. In particolare, i dati economici possono presentare delle caratteristiche che rendono, per certi aspetti, critico il trattamento dei dati mancanti. Ad esempio, la distribuzione di importanti variabili d’indagine può essere asimmetrica, per cui ignorare anche poche osservazioni, basando le analisi solo sulle unità osservate, potrebbe introdurre una forte distorsione sulle stime, dal momento che i rispondenti (e i non rispondenti) raramente costituiscono un sottoinsieme casuale dell’intero campione. Le MR sono distinte in vari modi a seconda delle finalità dell’analisi. Con riferimento alle strategie messe in atto per la ricostruzione delle informazioni mancanti, occorre distinguere tra MR parziali e totali. Nelle indagini campionarie, in presenza di MR * Di Marco Ballin, Piero Demetrio Falorsi, Stefano Falorsi e Alessandro Pallara. 125 CAPITOLO 4 totali, si ricorre di solito a varie tecniche di riponderazione delle unità rispondenti al fine di tenere conto anche delle unità non rispondenti, mentre generalmente le MR parziali sono controllate mediante l’imputazione dei valori mancanti. Per una panoramica generale sulle metodologie e le tecniche per il trattamento delle MR si veda, tra gli altri, Madow et al. (1983), Kalton e Kaspryzk (1986), Little e Rubin (1987). In questo lavoro l’attenzione sarà posta essenzialmente sul problema della MR totale nel contesto delle indagini campionarie sulle famiglie e sulle imprese condotte nell’ambito della statistica ufficiale. Come sarà discusso nel par. 4.2, questo tema può essere approfondito sotto vari aspetti quali: (i) le cause, (ii) gli effetti, (iii) i metodi per la prevenzione, (iv) il trattamento statistico successivo alla fase di raccolta dei dati, (v) la documentazione degli effetti delle MR sulla qualità dell’indagine. Ciascuno di questi aspetti è molto ampio e potrebbe essere l’oggetto di uno specifico articolo. In questo lavoro l’attenzione sarà limitata ad alcune specifiche problematiche che risultano particolarmente rilevanti nel contesto delle indagini complesse condotte nell’ambito della statistica ufficiale. In particolare nel par. 4.3 sarà approfondito il tema della correzione delle MR attraverso la costruzione dei pesi campionari; nel par. 4.4 saranno dati brevi cenni al trattamento delle MR nelle indagini condotte nell’ambito della statistica ufficiale, sia quelle sulle imprese, che quelle sulle famiglie. 4.2 Diversi aspetti connessi al problema delle mancate risposte 4.2.1 Premessa Una fondamentale caratteristica del disegno di campionamento probabilistico è di assegnare a ciascuna unità della popolazione oggetto d’indagine una probabilità di inclusione maggiore di zero definita sulla base di una data procedura di selezione delle unità. Se le probabilità di inclusione sono note per tutte le unità della popolazione è possibile ottenere uno stimatore corretto Yˆ del totale, Y, della generica variabile y oggetto di indagine. Se, inoltre, sono note e maggiori di zero le probabilità di inclusione congiunte per tutte le coppie di unità appartenenti alla popolazione, il disegno è detto misurabile1, in quanto è possibile ottenere una stima approssimativamente non distorta dell’errore di campionamento di Yˆ . L’errore campionario è, però, solamente una delle parti dell’errore che influenza le stime. Infatti, nella pratica delle indagini campionarie su larga scala di natura sociodemografica ed economica non sono, in genere, pienamente soddisfatte le seguenti condizioni: i) coincidenza tra la popolazione di riferimento e la base di campionamento; ii) coincidenza tra la procedura di selezione casuale effettivamente impiegata con lo schema di selezione teorico, in base al 1 Tra i disegni di campionamento non misurabili comunemente impiegati si ricordano i disegni probabilistici stratificati ad uno o più stadi con selezione di una sola unità campionaria o cluster di unità per ciascuno strato. 126 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI quale vengono definite le probabilità di inclusione delle unità; iii) coincidenza tra campione selezionato e campione osservato; iv) coincidenza tra valore osservato e valore vero per ciascuna variabile oggetto di indagine; v) assenza di errori nel processo di trattamento dei dati. Tutte le situazioni di allontanamento da queste condizioni introducono qualche forma di errore non campionario, che è in genere di difficile misurazione e costituisce un serio ostacolo nella valutazione della qualità dell’inferenza. L’allontanamento dalle condizioni i) e iii), in particolare, produce errori di mancata osservazione che possono essere di due tipi: • sottocopertura, nel caso di incompletezza della base campionaria, ovvero alcune unità della popolazione non possono essere identificate ed intervistate; • mancata risposta, che deriva dalla mancata osservazione delle variabili di interesse per alcune unità del campione selezionato. La mancata risposta può, a sua volta, essere: (a) mancata risposta totale, nel caso in cui non sia osservata nessuna delle variabili di interesse; (b) mancata risposta parziale, nel caso in cui non vengano raccolte le informazioni per alcune delle variabili oggetto d’indagine. 4.2.2 Cause ed effetti delle mancate risposte In letteratura esistono diverse definizioni di mancata risposta e diversi modi per misurare il fenomeno (Cochran, 1977; Kendall, Buckland e Kish, 1965; Dalenius, 1983; Hidiroglou, Drew e Gray, 1993). In accordo con le definizioni proposte in questi lavori è possibile classificare le principali cause della mancata risposta in (a) mancato contatto, (b) rifiuto a rispondere (c) impossibilità a rispondere. Tra i motivi di mancato contatto, si ricordano: • irreperibilità di alcune unità selezionate nel campione, dovuta, ad esempio, ad assenza nel periodo di svolgimento dell’indagine o ad inadeguatezza dei metodi di ricerca delle unità da intervistare (tracking); • imperfezioni della lista, dovute, ad esempio, a ritardi nell’aggiornamento della stessa o ad errori negli indirizzi o nei numeri di telefono. Tra le principali motivazioni di rifiuto alla risposta vi sono: • costi di partecipazione eccessivi, sia propriamente monetari (ad esempio le informazioni devono essere richieste al proprio commercialista), sia di altra natura (ad esempio i tempi di partecipazione all’indagine sono troppo lunghi o l’orario di svolgimento dell’indagine è poco indicato per quell’unità); • paura di violazione della propria privacy, dovuta, ad esempio, alla natura dell’argomento investigato o alla paura dell’uso delle informazioni fornite a fini extra statistici (ad esempio controlli fiscali); • mancanza di motivazioni, causata, ad esempio, da un rifiuto a priori dell’indagine statistica come strumento per la raccolta di informazioni. Infine, tra le cause più comuni dell’impossibilità o incapacità di risposta si 127 CAPITOLO 4 ricordano la malattia dell’intervistato e la non conoscenza dell’argomento per quanto riguarda le indagini sulle famiglie o il tipo di contabilità adottato nel caso di indagini sulle imprese. Gli effetti del fenomeno della mancata risposta sono sostanzialmente tre: aumento dei costi di rilevazione, aumento della varianza campionaria ed introduzione di una componente distorsiva nelle stime. Facendo riferimento ai disegni di campionamento di tipo complesso comunemente adottati nelle indagini ISTAT, l’aumento della varianza è dovuto a due fattori: riduzione delle numerosità campionarie teoriche definite ex ante, negli strati e negli stadi, nella fase di progettazione del disegno; aumento della variabilità dei coefficienti di riporto dovuti ai metodi di ponderazione dei dati. La distorsione è certamente il più grave degli effetti della mancata risposta; per spiegare in che modo si determina è possibile ricorrere a due approcci. Il primo approccio, (Cochran 1977, pag. 361), assume che la mancata risposta sia il risultato di un meccanismo deterministico; ovvero assume che la popolazione possa essere suddivisa in due strati: quello dei rispondenti e quello dei non rispondenti; relativamente a questo approccio si ricorda il lavoro di Falorsi et al. (1992) che estende i risultati di Cochran al caso dei campioni complessi adottati nelle indagini ISTAT. Il secondo approccio, al contrario, assume che la mancata risposta sia il risultato di un meccanismo aleatorio, in base al quale ciascuna unità ha una sua probabilità di risposta. Nel primo approccio la distorsione dipende dalle differenze esistenti, nelle caratteristiche oggetto di indagine, tra lo strato dei rispondenti (osservato con il campione) e quello dei non rispondenti. Nel secondo approccio, invece, la distorsione è dovuta all’ignoranza da parte del ricercatore delle probabilità di risposta associate a ciascuna unità del campione selezionato. È opportuno notare che, mentre l’aumento di varianza è in generale misurabile, l’impatto della distorsione sulle stime è, invece, di difficile valutazione in entrambi gli approcci; infatti, con il primo sarebbe necessaria l’osservazione di un campione estratto dalla popolazione dei non rispondenti, mentre con il secondo è richiesta la conoscenza del modello stocastico che genera la non risposta. 4.2.3 Strumenti per la riduzione della distorsione Gli effetti negativi della mancata risposta possono essere attenuati sia nella fase di progettazione dell’indagine sia, a posteriori, nella fase di costruzione delle stime, trattando opportunamente i dati rilevati sui soli rispondenti. In entrambe le fasi gioca un ruolo cruciale l’identificazione delle cause delle MR, per almeno due motivi. Il primo è che ciascuna tipologia di mancata risposta presuppone un trattamento differente (ad esempio l’irreperibilità – che potrebbe essere causata dall’uscita dell’unità dal campo di osservazione – va trattata in modo differente dal rifiuto a rispondere); il secondo motivo è connesso al fatto che, identificando correttamente le MR, è possibile proget128 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI tare future indagini in modo da ottenere più alti tassi di risposta; se ad esempio, sono molto alti i tassi di mancata risposta per incapacità a rispondere, potrebbe essere necessario rivedere il questionario dell’indagine in modo da renderlo più comprensibile. Naturalmente, per una corretta identificazione è necessario progettare la fase di rilevazione sul campo in modo da raccogliere tutte le informazioni utili in tal senso. Gli strumenti che si sono dimostrati efficaci nella fase di progettazione dell’indagine sono: • il ricorso a strategie di prevenzione della mancata risposta; • l’uso di disegni di rilevazione che prevedono un ritorno sulle unità non rispondenti. Gli strumenti utilizzabili nella fase di trattamento dei dati per la costruzione delle stime campionarie sono: • la modificazione dei pesi campionari dei rispondenti; • l’imputazione delle MR. 4.2.3.1 Prevenzione della mancata risposta L’obiettivo della prevenzione del rifiuto a rispondere, può essere raggiunto impiegando congiuntamente tutte le tecniche in grado di limitare la pressione statistica sulle unità. Gli strumenti e i metodi disponibili per ottenere questo risultato possono essere distinti tra (cfr. de Vries, Keller, Willeboordse, 1996): (i) strumenti e metodi che riducono la pressione complessiva esercitata dall’Istituto di statistica; (ii) strumenti e metodi che riducono la pressione dovuta a ciascuna indagine. Tra gli strumenti atti a ridurre la pressione statistica complessiva, in particolare con riferimento alle indagini sulle imprese, è importante menzionare: • l’armonizzazione delle definizioni adottate di popolazione oggetto d’indagine; • l’impiego di metodi di selezione coordinata dei campioni; • il preavviso, all’inizio dell’anno, di tutte le indagini in cui ciascuna unità verrà coinvolta; • il coordinamento temporale delle fasi di somministrazione dei questionari delle diverse indagini; • l’uso di dati amministrativi. Tra gli strumenti atti a ridurre la pressione statistica della singola indagine vanno annoverati: • l’uso di strategie campionarie basate su disegni di campionamento ottimi che facciano un uso intensivo di variabili ausiliarie; • l’adozione di definizioni di unità statistica tali che facciano riconoscere ciascuno elemento della popolazione come un elemento rilevante del fenomeno indagato; • l’adozione di concetti e definizioni coerenti con quelli comunemente 129 CAPITOLO 4 adottati dalle unità intervistate; l’adozione di questionari personalizzati (con, ad esempio, prestampati i dati raccolti con precedenti indagini sulla stessa unità); • il ritorno di informazioni utili e facilmente accessibili alle unità rispondenti; • il ricorso alla rilevazione elettronica dei dati (EDC e EDI). Nel contesto delle indagini sulle famiglie, il tema della riduzione della pressione statistica risulta meno rilevante ai fini della prevenzione del rifiuto a rispondere; sembrano invece più importanti altri aspetti quali ad esempio, la garanzia della riservatezza, la predisposizione di questionari di facile comprensione, la formazione dei rilevatori. 4.2.3.2 Disegni di rilevazione che prevedono un ritorno sulle unità non rispondenti Tra le strategie d’indagine che mirano ad attenuare le conseguenze delle MR nella fase di rilevazione si ricordano quelle che prevedono la conduzione di un indagine sui non rispondenti, l’effettuazione dei solleciti alla risposta2, la sostituzione delle unità non rispondenti. La conduzione di una indagine suppletiva sul campione dei non rispondenti permette l’eliminazione della distorsione causata dalla mancata risposta, a condizione che: (a) non vi sia, nel corso dell’indagine suppletiva, caduta campionaria per mancata risposta; (b) sia stata correttamente individuata nel campione la popolazione dei non rispondenti. La procedura per l’effettuazione di questa seconda fase dell’indagine prevede (Särndal et al., 1992, cap. 15): (i) l’individuazione delle unità campionarie appartenenti alla popolazione dei non rispondenti; (ii) la selezione di un campione casuale tra queste unità; (iii) la rilevazione dei dati con tecniche differenti da quelle usate nella prima fase dell’indagine, in modo da garantire l’assenza di caduta campionaria; (iv) l’adozione di uno stimatore, in cui il sottocampione delle unità rilevate nell’indagine suppletiva rappresenti anche la rimanente parte (non indagata) dei non rispondenti. L’indagine suppletiva sui non rispondenti non deve essere confusa con la tecnica della sostituzione delle unità non rispondenti che mira esclusivamente a far coincidere le dimensioni del campione selezionato e del campione osservato e quindi mira ad una sostanziale uguaglianza tra le varianze attese definite in fase progettuale e quelle ottenute al termine della rilevazione (Zannella, 1983). Quest’ultima tecnica, pur avendo avuto una larga applicazione in passato (ad esempio nell’indagine sulle forze di lavoro), viene impiegata sempre più raramente poiché, in molte occasioni, gli indubbi vantaggi organizzativi che essa presenta rispetto alla effettuazione di una indagine suppletiva, non sono sufficienti a compensare i problemi che può 2 Relativamente ai solleciti è interessante l’esperienza dell’indagine Long Form del Censimento Intermedio dell’Industria e dei Servizi dell’ISTAT, illustrata in Ballin, Brancato et al. (2000). 130 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI causare. Tra questi si ricordano (Vehovar, 1999): l’introduzione di ulteriori fattori distorsivi; l’aumento nel corso del tempo del tasso di mancata risposta e l’introduzione di elementi non casuali nel processo di selezione del campione. 4.2.3.3 Trattamento dei dati per tenere conto della mancata risposta In tale fase, successivamente alla raccolta dei dati (e quindi all’evidenziarsi del fenomeno della mancata risposta), si cerca di trattare le informazioni sulle unità campionarie rispondenti in modo da correggere almeno in parte gli effetti distorsivi nelle stime finali introdotti dalle MR. Due sono i metodi tradizionalmente riportati in letteratura (cfr., ad esempio, Little, 1986): il metodo della modificazione dei pesi campionari dei rispondenti – che sarà trattato diffusamente in questo lavoro - e il metodo dell’imputazione – che essendo utilizzato principalmente nel trattamento delle MR parziali non sarà approfondito in questa sede. I due metodi, che utilizzano entrambi il principio di fare rappresentare le unità non rispondenti dalle unità rispondenti conducono a soluzioni equivalenti tranne nel caso di stime per sottoclassi (Little, 1986). 4.2.4 Documentazione Nella fase di presentazione dei risultati dell’indagine dovrebbe essere buona norma pubblicare, insieme agli errori di campionamento, anche alcune misure degli errori non campionari. Relativamente alle MR tali misure possono assumere un duplice aspetto: • indici descrittivi della qualità del processo. Alcuni dei più importanti indici di questo tipo sono presentati in Hidiroglou et al. (1993). Nel contesto delle indagini ISTAT è disponibile il Sistema Informativo di Documentazione dell’Indagine (SIDI) che fornisce un ambiente in cui alcuni degli indici suddetti sono calcolati in modo standardizzato (Signore et al.,1998); • indici che misurano la distorsione – un esempio in tal senso sono gli indici di slippage riportati in Gambino et al. (1998). Gli indici in oggetto sono costruiti ponendo a confronto i valori conosciuti di alcuni parametri della popolazione con le corrispondenti stime ottenute con i pesi base, il cui significato verrà illustrato nel paragrafo che segue. 4.3 Trattamento delle mancate risposte mediante la costruzione di pesi campionari 4.3.1 Premessa Al fine di chiarire gli argomenti successivamente illustrati è utile introdurre la seguente simbologia. Si indichi con U la popolazione oggetto d’indagine di numerosità N e si supponga che da essa sia stato selezionato il campione s – di dimensione n –, mediante un disegno di campionamento che assegna, 131 CAPITOLO 4 alla generica unità k, la probabilità π k di essere inclusa nel campione s; si indichiamo inoltre con s r (con s r ⊆ s ) il campione – di dimensione nr – delle unità rispondenti. Con riferimento all’unità k-esima di U, si denoti, infine yk, il valore della variabile y oggetto d’indagine; con: x k = ( x1k ,.., x pk ,..., x Pk )′ , un vettore di P variabili ausiliarie x = (x1 ,.., x p ,..., x P )′ –esplicative del fenomeno della mancata risposta – di cui si conosce il valore per tutte le unità di U o, alternativamente di s. Il totale della variabile y oggetto d’indagine può essere espresso come: Y= ∑ yk . (1) k∈U Nella maggior parte delle indagini campionarie su larga scala, per la costruzione di stime campionarie del totale Y, vengono usualmente impiegati pesi costruiti in modo da (Rizzo et al., 1996): (i) tenere conto delle differenti probabilità di inclusione delle unità selezionate nel campione; (ii) correggere, almeno parzialmente, per le MR totali; (iii) garantire che le distribuzioni campionarie pesate per certe variabili ausiliarie siano conformi alle distribuzioni note per le stesse variabili (tentando in tal modo di compensare per la non copertura e di migliorare la precisione delle stime campionarie). Di solito il valore di tali variabili ausiliarie è noto solo in forma aggregata e non per le singole unità della popolazione. Un’espressione generale della stima del totale Y è Yˆ = ∑ y k wk . (2) k∈sr Conformemente ai tre obiettivi precedenti, il peso wk assegnato alla k-esima unità rispondente viene spesso definito come prodotto di tre fattori wk = d k γ 1k γ 2 k (3) dove si è indicato con: d k = (1/ π k ), il peso base, espresso come reciproco γ 1k , il fattore correttivo per distorsione indotta dalla MR); γ 2 k della probabilità di inclusione; la MR (adeguato cioè, a attenuare la il fattore di post- stratificazione (atto a garantire che le distribuzioni campionarie pesate per certe variabili ausiliarie siano conformi alle distribuzioni note per le variabili stesse. Come vedremo successivamente, in molti contesti di indagine, tuttavia, le fasi di correzione della mancata risposta e di post-stratificazione sono sviluppate in modo congiunto; per cui il peso finale viene determinato, calco132 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI lando un unico fattore correttivo, γk , atto a tenere conto di entrambi gli aspetti succitati, in tal caso si ha wk = d k γ k . (3.a) Per semplificare la notazione, nel seguito del lavoro, in generale, il fattore correttivo per la MR sarà indicato semplicemente come γ k . La base teorica dell’introduzione di un fattore correttivo atto a correggere il peso base di ciascuna unità rispondente per tenere conto delle MR totali è quella del campionamento in due fasi, in cui: • nella prima fase si selezionano le unità del campione, s, mediante il disegno di campionamento prescelto, che assegna alle unità della popolazione le probabilità di inclusione π k = Pr (k ∈ s ) • per (k ∈U ) ; nella seconda fase, in base ad un meccanismo aleatorio ignoto, le unità del campione s vengono suddivise in due sottoinsiemi: quello dei rispondenti e quello dei non rispondenti; detto meccanismo aleatorio può essere sintetizzato assegnando a ciascuna unità del campione la probabilità di risposta θ k = Pr(k ∈ sr | s) , che rappresenta la probabilità di inclusione nella seconda fase del campionamento. Da quanto detto risulta evidente che, in base alla teoria del campionamento in due fasi, la conoscenza delle probabilità di risposta per ciascuna delle unità rispondenti, consentirebbe di ottenere una stima corretta del totale Y, come Yˆ = ∑ yk d k θ k−1 , (4) k ∈s r essendo in questo caso γ k = θ k−1 . Tuttavia, poiché in generale non sono note le probabilità θk ma unicamente θˆk , definita in base all’assunzione di un particolare modello di risposta, le stime che si ottengono sostituendo nella (4) al posto di θ k il una loro stima suo valore stimato, θˆk , sono generalmente distorte. Per quanto riguarda la costruzione dei fattori correttivi, γ k = θˆk−1 , nelle indagini ISTAT, così come nella pratica delle indagini campionarie su larga scala condotte dagli Istituti nazionali di statistica, vengono adottati due 133 CAPITOLO 4 approcci distinti: • il primo adotta una modellizzazione esplicita delle probabilità di risposta, e ipotizza l’esistenza di un legame funzionale tra le probabilità di risposta θ k e un insieme di variabili ausiliarie x k (per k ∈ s) disponibili sia per il campione dei rispondenti che per quello dei non rispondenti; il secondo, che adotta una modellizazione implicita delle probabilità di risposta, si basa sull’utilizzazione degli stimatori di ponderazione vincolata (Deville e Sarndäl, 1992 e Falorsi e Rinaldelli, 1999) in cui le distribuzioni di variabili ausiliarie stimate sul campione dei rispondenti sono vincolate ad essere uguali alle corrispondenti distribuzioni stimate sul campione di prima fase (oppure calcolate sull’intera popolazione). Come sarà illustrato successivamente, anche in quest’ultimo approccio i fattori correttivi, possono essere visti come una stima – ottenuta assumendo particolari modelli di risposta – del reciproco delle probabilità di risposta. Questa sezione è dedicata a descrivere gli approcci più consolidati in letteratura e nella pratica corrente delle indagini campionarie per il trattamento delle MR; non sono riportati alcuni lavori più recenti, come quello Kott (2006) che tratta in modo congiunto il problema della sottocopertura e il problema della MR e gli interessanti lavori di Montanari e Ranalli (2006 e 2005) che trattano la mancate risposta mediante il ricorso a tecniche di calibrazione semiparametrica. In particolare, il seguito di questa sezione è articolato nel modo seguente: il par. 4.3.2 descrive la costruzione degli stimatori sotto una modellizzazione esplicita della MR; il par. 4.3.3 introduce la modellizzazione implicita; nel par. 4.3.4 viene riportata una forma piuttosto generale di stima della varianza; il par. 4.3.5 è dedicato all’approfondimento delle condizioni mediante i quali gli stimatori proposti possono ridurre la distorsione; il par. 4.3.6 discute i criteri che devono essere seguiti per selezionare l’informazione ausiliaria alla base della costruzione degli stimatori. • 4.3.2 Modellizzazione esplicita Nelle applicazioni concrete viene in genere adottata una delle tre seguenti ipotesi sul meccanismo probabilistico di generazione delle MR: A. la probabilità di risposta è costante per tutte le unità del campione; B. la probabilità di risposta è variabile ed è differente per ciascuna unità del campione; C. la probabilità di risposta è costante all’interno di specifici sottoinsiemi di unità. A. Probabilità di risposta costante Il caso più semplice di modellizzazione esplicita è quello in cui si ipotizza una probabilità di risposta costante per tutte le unità della popolazione: Pr (k ∈ sr | s ) = θ k = θ in cui si assume inoltre che: 134 (con θ > 0) (5.a) IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI Pr((k , l ) ∈ sr | s ) = θ k θl = θ 2 ( k ≠ l ) . (5.b) Tale modello ipotizza un meccanismo di risposta del tipo Missing Completely at Random, (MCAR), Little e Rubin, 1976). Secondo tale meccanismo (Bethlem, 1999) la probabilità di non osservare un valore della variabile y è indipendente dal valore della y così come dal valore delle variabili ausiliarie; in tal modo il campione dei rispondenti sr costituisce un sottoinsieme casuale di s. Se il modello MCAR è vero, la probabilità θ , può essere stimata in modi alternativi: ˆ = nr n (6.a) ˆ = k∈sr 1/ π k (6.b) [ 6. a ] θ ∑1 / π k [ 6.b ]θ ∑ ∑1 / π k k∈s ˆ = k∈s r N [ 6. c ] θ . (6.c) Ciascuna delle stime succitate conduce alla definizione di: • un corrispondente correttore del peso base [b ] γ k • (b= 6.a, 6.b, 6.c) un peso finale [ b ] wk • ~ = [b ]θ −1 = d k [b ]γ k (b= 6.a, 6.b, 6.c) una specifica forma di stimatore ˆ= [ b ]Y ∑ yk d k k ∈s r [ b ]γ k = ∑ yk k ∈s r [ b ] wk (b= 6.a, 6.b, 6.c). Come si nota, il correttore, il peso finale e lo stimatore, derivanti da una specifica stima della probabilità, sono denotati con lo stessa cifra, riportata tra parentesi quadre, nel pedice a sinistra. Nel caso appena esaminato, la cifra corrisponde al numero della formula di calcolo della probabilità di risposta; in generale, la cifra corrisponderà al numero della prima formula del testo che riporta una tra le seguenti entità: la probabilità di risposta, il correttore, il peso finale e lo stimatore. Si noti che utilizzando la stima della probabilità di risposta riportata nella (6.c), si arriva alla definizione del ben noto stimatore rapporto: 135 CAPITOLO 4 ˆ= [ 6.c ]Y ∑k∈sr yk ∑ yk / π k dk [ 6.c ]γ k = k ∈s r ∑1 / π k N. k ∈s r Valendo la condizione MCAR, ciascuno degli stimatori ( [ 6.a ]Yˆ , [ 6.b ]Yˆ , [ 6.c ]Yˆ ) sopra introdotti producono una stima approssimativamente non distorta di Y (cfr. Sarndal et al., 1992, pp. 576-577). Tale stima differisce da una situazione di risposta completa solo per il fatto che si basa sull’insieme di rispondenti sr e non sull’intero campione s. Il modello di risposta ipotizzato appare però poco realistico; ed è utile valutare la distorsione degli stimatori ˆ, [ 6.a ]Y ˆ, [ 6.b ]Y ˆ per differenti distribu- [ 6.c ]Y zioni delle risposte, ipotizzando, ad esempio una probabilità di risposta variabile per ciascuna unità del campione, pur assumendo sempre indipendenza tra le risposte. In questo caso si può mostrare (cfr. Särndal et al., 1992, pag. 577) che la distorsione e la distorsione relativa di degli stimatori in parola dipendono dalla correlazione nella popolazione tra la variabile di studio y e la probabilità di risposta θ. La distorsione relativa è tanto maggiore quanto maggiore è tale correlazione, in altre parole quanto più ci si allontana da un meccanismo di (mancata) risposta ignorabile verso uno non ignorabile (Little e Rubin, 1987). B. Probabilità di risposta variabile e differente per ciascuna unità del campione Secondo questa ipotesi si suppone che le probabilità di risposta, θ k , siano diverse per tutte le unità appartenenti al campione s. Per arrivare a una stima delle probabilità in oggetto si adotta un metodo noto in letteratura come response propensity scoring (Rosenbaum e Rubin, 1983; Little, 1986), basato su una procedura articolata come segue. In primo luogo, si sceglie una forma funzionale g (β′ x k ) atta a predire le probabilità di risposta come valore atteso, sotto uno specifico modello, della variabile indicatrice r (pari a uno se l’unità k è rispondente e pari a zero altrimenti) Pr (k ∈ sr | s ) = θ k = Pr (rk = 1) = g (β′ x k ) (7) in cui β è un vettore P dimensionale di parametri incogniti. Nel contesto in esame, possono essere scelte come forme funzionali quelle definite dai modelli logit e probit, espresse rispettivamente da: g (β ′ x k ) = 136 1 1 + exp(β′ x ) (8.a) IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI g (β′ x k ) = 1 . 1 + β′ x (8.b) Una volta determinata una stima, β̂ , del vettore β , è quindi possibile predire per ogni unità k di s, la probabilità di risposta θˆk come ˆ = g (βˆ ′ x ) . k [ 9 ]θ k (9) Il correttore per MR è quindi ottenuto come [9] γ k = [9 ]θˆk−1 = [ g (βˆ ′ x k )]−1 , definendo lo stimatore del totale ˆ= [9 ]Y ∑ yk k∈s r dk [ 9 ]γ k = ∑ yk d k [ g (βˆ ′ x k )] −1 . k∈s r Nella terminologia introdotta da Little e Rubin (1976), il modello di risposta, sopra delineato è del tipo Missing at Random, (MAR); esso ipotizza che la probabilità di risposta sia indipendente dalla y, ma dipenda dal vettore x (Bethlem, 1999). Lo stimatore ˆ viene comunque raramente usato nella [9 ]Y pratica delle indagini concrete in quanto: • le stime ˆ = g (βˆ ′ x ) sono spesso instabili, soggette ad alta variak [ 9 ]θ k bilità; • • si possono facilmente generare valori della probabilità [ g (βˆ ′ x k )] prossimi a zero; come conseguenza del punto precedente, potrebbero essere definiti dei ˆ ′ x )]−1 con valori troppo elevati il che potrebbe correttori [ 9 ] γ k = [ g (β k causare la generazione di stime con valori anomali. C. Probabilità di risposta variabile nell’ambito di specifici gruppi Una strategia di stima spesso adottata nella pratica delle indagini campionarie che cerca di superare gli inconvenienti sopra delineati (relativamente agli approcci A e B), si basa sulla assunzione di una probabilità di risposta costante per sottoinsiemi di unità rispondenti. Sotto questa ipotesi, il campione s è suddiviso in Hs gruppi omogenei, detti anche celle di ponderazione. La generica cella di ponderazione, denotata con s h (h=1,....., Hs), contiene nh unità di cui nhr rispondenti, essendo 137 CAPITOLO 4 Hs Hs h =1 h =1 ∑ nh = n e ∑ nhr = nr ; qualora le celle di ponderazione siano definite mediante variabili ausiliarie conosciute per la popolazione U, è anche possibile determinare, una partizione di U nelle Hs celle di ponderazione, denotando con U h (h=1,....., Hs) la cella di ponderazione h-esima di dimensione N h . Vale il seguente modello Pr(k ∈ sr | s ) = θ sh > 0 per ogni k∈ s h (10.a) Pr((k , l ) ∈ sr | s) = Pr(k ∈ sr | s) Pr(l ∈ sr | s) per ogni k≠l, (k , l ) ∈s. (10.b) Dato s, tutte le unità in s h hanno la stessa probabilità di risposta e differenti gruppi hanno probabilità diverse; il meccanismo di risposta è indipendente. Il modello (10) ipotizza un meccanismo MAR quando prende in considerazione l’intero campione s; nell’ambito della generica cella di ponderazione s h si ipotizza l’esistenza di un meccanismo MCAR. Se il modello MAR, definito dalla (10) è vero, le probabilità θ sh , possono essere stimate alternativamente come ˆ [11. a ]θ s h n = hr nh ˆ = [11.b ]θ sh (11.a) ∑1 / π k k∈shr ∑1 / π k . (11.b) k∈sh Nel caso siano note le dimensioni N h delle celle di ponderazione, la probabilità θ s può essere anche stimata da h ˆ [11.c ]θ s h ∑1 / π k = k ∈shr Nh . (11.c) Coerentemente con ciò, sono definibili tre correttori del peso base e tre stimatori del totale Y,espressi rispettivamente da: ˆ −1 (k∈ s ), (b=11.a, 11.b, 11.c), h [ b ] γ k = [ b ]θ s h ˆ [ b ]Y = Hs ∑ ∑ h =1 k∈shr 138 yk d k [ b ]γ k (b=11.a, 11.b, 11.c). IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI Si noti che utilizzando l’espressione (11.c) si definisce il ben noto stimatore del rapporto-poststratificato: ˆ= [11. c ] Y Hs ∑ ∑ yk d k [11. c ]γ k = h =1 k∈shr Hs ∑ yk / π k ∑ ∑hr 1 / π k h =1 k ∈s Nh . k∈shr Il modello di risposta, introdotto nelle espressioni (10) permette di risolvere i problemi derivanti dall’uso dello stimatore ˆ (alta variabilità dalle stime [ 9 ]Y delle probabilità di risposta e/o generazione di stime con valori anomali); inoltre, esso può portare ad una significativa riduzione della distorsione dovuta alla non risposta rispetto al modello (5) di partenza (che ipotizzava una probabilità di risposta costante su tutta la popolazione). In Kalton e Maligalig (1991), viene dimostrato che la distorsione approssimata dei tre stimatori sopra introdotti ( [11,a ] Yˆ , ˆ e [11,b ] Y ˆ ) è funzione [11,c ] Y delle covarianze per cella tra la probabilità di risposta e la variabile d’interesse B( Yˆ ) = Y − E( [b ] ˆ [b] Y ) = Hs ∑ θ −1 ∑ ( yk − Yh ) (θk − θh ) h =1 k ∈s hr (b=11.a, 11.b, 11.c) essendo Yh = 1 Nh ∑ k∈U h yk , θh = 1 Nh ∑ k∈U h θk , avendo indicato con E(.) il valore atteso nell’universo dei campioni. Come vedremo successivamente nel par. 4.3.6, la precedente relazione costituisce un’espressione particolare di una forma generale che caratterizza la distorsione di questo tipo di stimatori. Per quanto riguarda la scelta della particolare forma di stimatore da adottare si nota che i tre stimatori sono equivalenti dal punto di vista della riduzione della distorsione. Di conseguenza lo stimatore da prescegliere dovrebbe es- ˆ presenta in genere variabilità minore degli altri due stimatori ( [11.a ]Yˆ e [11.b ] Yˆ ) in quanto esso sere quello a varianza minima. Lo stimatore, [11. c ] Y sfrutta la conoscenza, a livello di popolazione delle variabili ausiliarie; il che permette di conoscere con certezza la dimensione, N h , per ciascun delle celle di ponderazione; mentre negli altri stimatori tale quantità viene stimata. In alcune situazioni, tuttavia, può essere, comunque, preferibile adottare gli stimatori ˆe [11.a ] Y ˆ , in luogo dello stimatore [11.b ] Y ˆ . Ciò è vero [11.c ] Y 139 CAPITOLO 4 soprattutto quando è disponibile solo per il campione s (e non per la popolazione U) qualche variabile ausiliaria fortemente esplicativa del meccanismo della mancata risposta. Questo è, ad esempio, il caso illustrato da Ballin, Brancato et al. (2000) con riferimento all’indagine Long Form del Censimento Intermedio dell’Industria e Servizi; un altro esempio si ha nelle indagini di tipo longitudinale quando si osserva una mancata risposta di una unità che ha partecipato all’indagine in occasioni precedenti. Il problema più rilevante ai fini della riduzione della distorsione è quello di riuscire a definire in modo efficace le celle di ponderazione; a questo aspetto sarà dedicato il successivo par. 4.3.2.1. 4.3.2.1 Definizione delle celle di ponderazione Per la definizione delle celle di ponderazione si possono adottare metodologie alternative: • scelta a priori sulla base della conoscenza del fenomeno; • tecniche basate su modelli logit o probit; • tecniche non parametriche (Niyonsenga, 1994; Giommi,1987), tra cui assumono particolare rilevanza quelle basate sugli alberi di regressione (Rizzo, Kalton, e Brick, 1996). 4.3.2.2 Scelta a priori Il metodo della scelta a priori è quello maggiormente adottato nella pratica delle indagini della statistica ufficiale. Di solito, le celle di ponderazione sono formate in base al giudizio soggettivo del responsabile dell’indagine che cerca di raggruppare le unità secondo variabili strutturali importanti rispetto al fenomeno indagato. Volendo adottare in modo rigoroso tale approccio, occorre analizzare le distribuzioni del campione s – tra rispondenti e non rispondenti – in celle definite dall’incrocio delle modalità delle variabili strutturali, cercando di determinare le celle di ponderazione in modo che: • in ciascuna cella sh (h=1,…, H s ) si realizzino numerosità campionarie, nh e nhr adeguate a garantire stime sufficientemente affidabili delle probabilità • θ sh ; le proporzioni di rispondenti in celle differenti siano significativamente differenti tra loro. Il metodo suesposto risulta particolarmente indicato nel caso in cui per spiegare il fenomeno della mancata risposta siano disponibili solo poche variabili ausiliarie e non vi è, quindi, la possibilità di modellizzare la mancata risposta in modo adeguato. Questo è, ad esempio, il caso delle indagini di tipo telefonico, dove si dispone unicamente di informazioni sulla localizzazione geografica dei rispondenti e dei non rispondenti. Nelle indagini sulle famiglie le celle sono in genere formate dall’incrocio di variabili di tipo (i) demografico (il sesso, la classe di età, o il numero di 140 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI componenti della famiglia); (ii) geografico (la regione, o ad esempio il tipo di comune). Nelle indagini sulle imprese le celle sono formate in base a variabili di archivio di tipo economico – strutturale (come la classificazione dell’attività economica secondo la classificazione NACE o la dimensione definita, nella maggior parte dei casi in funzione del numero di addetti dell’impresa) o di tipo geografico. 4.3.2.3 Tecniche basate su modelli logit o probit Il primo passo per la costruzione delle celle di ponderazione è quello di predire – come definito dall’espressione (9) – la probabilità di risposta ˆ = g (βˆ ′ x ) k [ 9 ]θ k per ciascuna unità di s (o, alternativamente di U). Successivamente, le celle di ponderazione possono essere costruite utilizzando metodologie alternative. La prima tecnica, cfr. Eltinge e Yansaneh (1997), si rifà alla teoria della stratificazione ottima (Cochran 1977, pp. 127-134) e determina le celle di ponderazione suddividendo il campione s (o la popolazione U) mediante la tecnica degli uguali quantili delle probabilità predette ˆ . In base a tale metodo [ 9 ]θ k ogni cella di ponderazione contiene un numero uguale di quantili della distribuzione delle probabilità di risposta. Indicando rispettivamente con i valori estremali del generico percentile (con della distribuzione ˆ ( k ∈ s ), appartengono alla generica cella di tutte le unità per le quali risulta θˆα < [ 9 ]θˆk ≤ θˆβ . delle probabilità predette ponderazione, sh, θˆα < θˆβ ) θˆα e θˆβ [ 9 ]θ k Disponendo di un buon insieme di regressori, x, di solito la maggior parte della riduzione della distorsione dovuta alla mancata risposta si ottiene formando un numero relativamente piccolo di celle di ponderazione (5 o 6), cfr. Eltinge e Yansaneh (1997). Se il meccanismo di risposta ha però una forte dipendenza da una variabile esplicativa che non risulta disponibile per la regressione, non si riesce a diminuire la distorsione, qualunque sia il numero delle celle di ponderazione preso in considerazione. Un interessante applicazione di questo metodo nel contesto delle indagini ISTAT sulle imprese viene riportato nel lavoro di Ballin, Brancato et al. (2000). Una variante di questa tecnica viene presentata nel lavoro di Little (1986) in cui si propone di regredire la variabile d’interesse y (rilevata sui rispondenti) sulle variabili ausiliarie x e di formare le celle di ponderazione con la tecnica degli uguali quantili dei valori ŷk predetti mediante la regressione. Tale tecnica viene raramente adottata nelle indagini essenzialmente per due ragioni: (i) le indagini sono in genere di tipo multiobbiettivo e risulta quindi 141 CAPITOLO 4 difficile scegliere un’unica variabile y d’interesse; (ii) spesso la mancata risposta è informativa nel senso che essa può essere legata alla variabile d’interesse, per cui può risultare non corretto formare celle di ponderazione in base ai valori ŷ k predetti sulle informazioni dei soli rispondenti. Altri metodi di formazione delle celle di ponderazione che si rifanno alla tecnica del response propensity scoring sono riportate nel lavoro di Rizzo, Kalton e Brick (1996). Secondo tali proposte, la prima operazione da intraprendere è quella di individuare un sottoinsieme di variabili ausiliarie di tipo qualitativo che risultino essere dei predittori sufficientemente esplicativi del meccanismo di mancata risposta; tale individuazione viene effettuata utilizzando tecniche sviluppate nell’ambito dei modelli lineari generalizzati; utili indicazioni in tal senso sono riportate nel documento tecnico Eurostat (1995) relativo all’indagine Panel Comunitaria. Il secondo passo della procedura consiste nella stima delle probabilità di risposta sulla base di un modello logistico senza interazioni in cui le variabili esplicative sono quelle selezionate al passo precedente. Avendo completato i due passi appena illustrati si possono adottare soluzioni differenti per la definizione dei fattori correttivi per le MR: • un primo metodo, indicato come metodo logistico predetto, assegna ai rispondenti di ciascuna delle celle definite dall’incrocio delle variabili esplicative, un correttore per mancata risposta, dato dal reciproco della probabilità di risposta predetta in base al modello logistico; • un secondo metodo, indicato come metodo logistico misto definisce un fattore correttivo in modo differente in ciascuna delle celle definite dall’incrocio delle variabili esplicative. Nelle celle in cui siano presenti un numero di unità campionarie rispondenti superiore ad una determinata soglia (in genere 30) il fattore correttivo viene ottenuto come reciproco del tasso di risposta osservato nella singola cella; nelle rimanenti celle il fattore correttivo è dato dal reciproco della probabilità di risposta predetta in base al modello logistico; • il terzo metodo, indicato come metodo logistico collassato, non fa uso delle probabilità predette in quanto il fattore correttivo è dato dal tasso di risposta osservato nella cella (definite dall’incrocio delle variabili esplicative) a cui appartiene l’unità rispondente, purché la cella contenga un numero di unità campionarie rispondenti superiore ad una determinata soglia; le celle con numerosità inferiore vengono aggregate (i) unendo classi che presentano valori vicini delle probabilità di risposta predette e (ii) aggregando le modalità delle variabili meno esplicative. Tale metodo è analogo a quello impiegato nell’indagine Survey on Income Partecipation Program (SIPP) condotta negli Stati Uniti. Nel lavoro di De Vitiis et al. (2000), sviluppato nel contesto delle indagini ISTAT sulle famiglie di tipo longitudinale, viene presentata una applicazione dei tre metodi appena illustrati. 142 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI 4.3.2.4 Tecniche basate su modelli di regressione non parametrica La scelta della partizione che individua le celle di ponderazione s h (h=1,…, H s ) viene effettuata utilizzando i metodi di segmentazione binaria (Breiman et al., 1984). La partizione è ottenuta attraverso una sequenza di suddivisioni binarie sulle variabili ausiliarie x che prendono la forma di condizioni lineari sui livelli di una o più variabili ausiliarie, disponibili per tutte le unità del campione s. Il processo di segmentazione genera sottoinsiemi distinti e di crescente omogeneità interna, con riferimento ad una misura di distanza definita sulla variabile d’interesse rk . I sottoinsiemi generati dal processo di segmentazione sono denominati come nodi. All’inizio della procedura tutto il campione s costituisce il nodo iniziale o nodo padre da cui parte il processo di suddivisione. In ciascun passo di segmentazione, un nodo padre, s p , viene scisso in due nodi figli, s p1 e s p 2 , di dimensione rispettivamente pari a n s p1 e n s p 2 ; la suddivisione in parola è realizzata scegliendo, tra tutte le possibili partizioni in due sottoinsiemi di s p (definibili in base ai valori delle variabili ausiliarie), quella che, in base ad una opportuna metrica, genera (i) la maggiore distanza dei valori medi della variabile risposta nei due nodi figli rs p1 = 1 n s p1 ∑ rk ; k ∈s p1 rs p 2 = 1 ns p1 ∑ rk ; k ∈s p 2 (ii) la maggiore omogeneità, rispetto alla distribuzione della variabile rk , nell’ambito di ciascun nodo figlio. Quando un nodo figlio non è ulteriormente suddiviso, esso costituisce un nodo finale. Le H s celle di ponderazione coincidono con l’insieme dei nodi finali individuati dal processo di segmentazione. Il metodo in parola è realizzato da appositi software – come ad esempio il software CART o la procedura C&RT di SPSS – che consentono di controllare in vario modo il processo di segmentazione. Un’opzione standard consente di imporre il vincolo che il numero di unità in un nodo figlio sia superiore ad una determinata soglia (in genere 50 o 30). Questo vincolo è molto importante, in quanto la probabilità di risposta viene stimata sui nodi finali; se questi fossero caratterizzati da una numerosità troppo esigua, le stime della probabilità di risposta risulterebbero poco attendibili. È previsto anche un processo di pruning volto a identificare la partizione in nodi finali caratterizzata da: (i) un numero minimo di nodi finali; (ii) un alto potere esplicativo rispetto alla distribuzione della variabile target (nel caso in esame data da rk ). 143 CAPITOLO 4 4.3.3 Modellizzazione implicita Lo stimatore di ponderazione vincolata è il metodo di stima generalmente usato per calcolare le stime campionarie nelle indagini condotte nell’ambito della statistica ufficiale. Tale metodo è adatto anche a correggere, almeno parzialmente, le distorsioni causate dalla presenza di MR. Esso può essere applicato in modo differente a seconda che l’informazione ausiliaria sia disponibile solo per il campione teorico o per l’intera popolazione. 4.3.3.1 Informazione ausiliaria disponibile per l’intera popolazione Lo stimatore di ponderazione vincolata, costituisce una classe generale di stimatori, che possono essere rappresentati nella forma ∑ yk [12]wk ˆ= [12 ] Y (12) k∈sr dove [12 ] wk , che rappresenta il peso finale associato alla unità k-esima, può essere espresso come [12 ] wk = dk [12 ]γ k essendo [12 ] γ k determinato come soluzione del seguente problema di minimo vincolato ⎧ ⎧ ⎫ ⎪ Min ⎪⎨ ∑ ck D(d k [12]γ k , d k )⎪⎬ ⎪ [12 ] γ k ⎪⎩k∈sr ⎪⎭ . ⎨ ⎪ ⎪ ∑ d k [12]γ k x k = ∑ x k k∈U ⎩k∈sr ck è una costante nota (generalmente connessa alla dimensione dell’unità k-esima) e D (d k [12 ]γ k , d k ) è una generica funNel precedente sistema zione di distanza tra il peso diretto e il peso finale. La famiglia degli stimatori di ponderazione vincolata contiene come casi particolari gli stimatori più noti tra cui: Horvitz-Thompson, rapporto, rapporto post-stratificato, ratio-raking e regressione generalizzata. Ad esempio, lo stimatore rapporto si ottiene d k [12 ]γ k - d k 2 γ , c = x e = ; D d d ponendo k k [12 ] k k pk dk ( ) ( in tale contesto, il correttore del peso diretto è dato da [12] γ k 144 = ∑ x pk ∑ x pk dk . k∈U k∈sr ) IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI Nello schema seguente sono riportate le funzioni di distanza più frequentemente usate nella pratica delle indagini campionarie. Per semplificare la notazione, nello schema il correttore di calibrazione sarà indicato semplicemente come γ k e non come [12 ] γ k . Schema n. 4 - Principali funzioni di distanza impiegate per la determinazione dei correttori dei pesi diretti Denominazione Espressione Lineare (d kγ k - d k )2 ( ⎧d γ -d ⎨ k k k ⎩∞ Lineare Troncata(*) ) dk 2 d k se L < γ k < M altrimenti d k γ k ln(γ k ) − d k γ k + d k Logaritmica ⎧ ⎛ M −γ k ⎞ ⎛γ − L⎞ ⎪(γ k − L) ln⎜ k ⎟ se L < γ k < M ⎟ + (M − γ k )ln⎜ ⎨ 1 − L ⎝ M −1 ⎠ ⎠ ⎝ ⎪⎩∞ altrimenti Logaritmica Troncata (*) dk (γ k − 1)2 2γ k Chi quadrato Modificato Minima − d k ln(γ k ) + d k γ k − d k Entropia 2d k Hellinger ( )2 γ k −1 (*) L ed M sono due costanti tali che L<1<M. É utile rilevare quanto segue. • La distanza lineare conduce a definire il classico stimatore di regressione generalizzata, in cui il correttore è definito in forma esplicita come [12 ] γ k = 1 + [12]λ′ x k dove ′ ⎞ ⎛ ⎟ ⎜ [12 ] λ ′ = X − ∑ d k x k ⎟ ⎜ k∈sr ⎠ ⎝ −1 ⎞ ⎛ 1 ⎜ d k x k x′k ⎟ . ∑ ⎟ ⎜ k∈s ck ⎠ ⎝ r L’uso di tale distanza può dar luogo a pesi finali negativi, che in alcune situazioni potrebbero essere non accettabili, ad esempio nel caso in cui le variabili di interesse possano assumere solo valori positivi. • le distanze logaritmica, chi-quadrato modificato, minima entropia ed Hellinger conducono a pesi finali positivi; • la distanza logaritmica può dar luogo a pesi finali molto elevati; 145 CAPITOLO 4 • il generico peso finale ottenuto da ciascuna delle due distanze troncate è sempre compreso nell’intervallo (d k L, d k M ) , potendo risultare anche negativo se L è minore di zero; ovviamente con L maggiore di zero, i pesi finali assumono sempre valori positivi. Come vedremo successivamente, dal punto di vista teorico le distanze che risultano più interessanti per il trattamento delle MR sono la distanza logaritmica e la distanza lineare. 4.3.3.2 Informazione ausiliaria disponibile solo per il campione Nel caso in cui l’informazione ausiliaria sia disponibile solo per il campione s, lo stimatore di ponderazione vincolata può essere rappresentato nella forma ˆ= [13] Y ∑ yk d k [13]γ k = ∑ yk [13]wk k∈sr (13) k∈sr in cui il correttore del peso diretto [13] γ k viene determinato come soluzione del seguente problema di minimo vincolato ⎧ ⎧ ⎫ ⎪ ⎪ Min ⎪⎨ ck D (d k [13]γ k , d k )⎬ ⎪⎪ [13] γ k ⎪ ⎪⎭ ⎩k∈s r ⎨ ⎪ d k [13]γ k x k = xk dk ⎪ ⎪⎩k∈sr k ∈s ∑ ∑ ∑ 4.3.3.3 Informazione ausiliaria disponibile in parte per il campione e in parte per l’intera popolazione In Särndal e Lundström (2005) viene proposto una stimatore di calibrazione che tiene conto di tutta l’informazione ausiliaria disponibile sia a livello di intera popolazione che unicamente per il campione teorico s. A livello di singola unità k, si denoti con: * • x k un vettore di variabili ausiliarie di cui si conosce il totale X * = ∑ x *k nella popolazione U ; k ∈U x ok un vettore di variabili ausiliarie di cui si conosce la stima di HorvitzThompson costruita sul campione s • ˆo = X ∑ xok d k . k∈s Gli stimatori di calibrazione, introdotti in precedenza possono essere ricavati nelle due seguenti situazioni informative: 146 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI InfoU- è la situazione in cui si conosce solo il vettore di variabili ausiliarie x*k ; lo stimatore di calibrazione assume la forma già definita nell’espressione (12); corrisponde al caso in cui sono disponibili solo le variabili ausiliarie InfoSxok ; lo stimatore di calibrazione assume la forma già riportata nell’espressione (13). Il caso più generale, denotato come InfoUS, trattato nel lavoro sopraccitato, è caratterizzato nel modo seguente • a livello della generica unità k del campione s è disponibile un vettore ⎛ x* ⎞ x k di variabili ausiliarie definito come x k = ⎜ ok ⎟ ⎜x ⎟ ⎝ k⎠ • il vettore dei totale noti X è determinato come segue ⎛ x*k ⎞⎟ ⎜ ⎛ X * ⎞ ⎜ k∈U ⎟ X =⎜ o⎟=⎜ ⎟. ⎟ ⎜X ⎝ ˆ ⎠ ⎜ x ok d k ⎟ ⎜ ⎟ ⎝ k∈s ⎠ ∑ ∑ Lo stimatore è definito come ˆ= [14 ] Y ∑ yk d k [14 ]γ k k∈s r dove [14 ] wk = dk [14 ]γ k = ∑ yk [14 ] wk (14) k ∈sr , essendo i fattori correttivi, [14 ] γ k , calcolati risolvendo il seguente problema di minimo vincolato ⎧ ⎧ ⎫ ⎪ Min ⎪⎨ ∑ ck D(d k [14]γ k , d k )⎪⎬ ⎪ [14 ] γ k ⎪⎩k∈sr ⎪⎭ . ⎨ ⎛ x*k ⎞ ⎛ X* ⎞ ⎪ ⎜ ⎟ ⎜ ⎟ ⎪ ∑ d k [14]γ k ⎜ xo ⎟ = ⎜ X ˆo⎟ ⎝ k⎠ ⎝ ⎠ ⎩k∈sr In Särndal e Lundström (2005) si propone di utilizzare la distanza lineare e un peso ck pari a 1, viene quindi definita la forma esplicita del correttore come (formula 6.9, in Särndal e Lundström, 2005) [14 ] γ k = 1 + [14 ]λ ′ x k in cui 147 CAPITOLO 4 ⎛ ⎞ ⎜ d k x k ⎟⎟ [14 ] λ ′ = ⎜ X − ⎜ ⎟ k ∈s r ⎝ ⎠ ′ ∑ ⎛ ⎞ ⎜ d k x k x ′k ⎟⎟ ⎜⎜ ⎟ ⎝ k∈sr ⎠ −1 ∑ . Sempre nello stesso volume (formula 7.14) viene definita anche la seguente forma di stimatore di calibrazione, basato sull’uso di variabili strumentali ˆ= [15] Y ∑ yk d ak [15]γ k = k ∈s r ∑ yk [15] wk = d ak [15]γ k (15) k ∈s r in cui [15] γ k = 1 + [15]λ′ z k , [15] wk essendo ′ ⎛ ⎞ ⎜ ⎟ [15] λ ′ = X − ∑ d ak x k ⎜ ⎟ k∈sr ⎝ ⎠ ⎛ ⎞ ⎜ ⎟ ′ d z x ak k k ⎜ k∑ ⎟ ⎝ ∈sr ⎠ −1 denotando inoltre con d ak un peso ( d ak ≥ 1 ) da assegnare all’unità kesima e con z k un vettore di P variabili strumentali. Lo stimatore ˆ rappresenta una forma piuttosto generale, mediante la [15] Y quale possono essere derivati molti degli stimatori utilizzati nel contesto di MR, attraverso un’opportuna specificazione di alcuni elementi dello stimatore stesso; in particolare: il peso d ak e i vettori x k , z k e X. Ad esempio, il classico stimatore di regressione generalizzata [12 ] Ŷ , basato sull’uso della distanza lineare, può essere ottenuto ponendo: d ak = d k , x k = x *k , z k = (1 / ck ) x *k , X = X* . È interessante notare che la forma dello stimatore ˆ consente di definire [15] Y anche stimatori sviluppati sotto approcci inferenziali differenti da quello degli stimatori assistiti da modello, considerati nel presente lavoro. 148 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI Schema n. 5 - Definizioni di particolari stimatori per MR mediante specificazioni degli elementi caratterizzanti lo stimatore [15] Yˆ Elementi caratterizzanti lo stimatore [15] Yˆ Stimatore dak xk [ 6. a ] Y dak = dk x k = x*k = π k zk = 1 ˆ dak = dk x k = x ok = 1 zk = 1 ˆ [ 6. b ] Y zk X X = X* = X = Xo = x k = x *k = 1 zk = 1 X=X = [11. a ] Y dak = dk x k = x ok = π k δ k z k = 1P X = Xo = ˆ dak = dk x k = xok = δ k z k = 1P X = Xo = dak = dk x k = x*k z k = 1P X = X* = dak = dk x k = x*k zk = 1 * xk ck X = X* dak = dk x k = x ok zk = 1 o xk ck ˆo X=X ˆ [11.b ] Y ˆ [11. c ] Y ˆ [12 ] Y Distanza Lineare ˆ [13] Y Distanza Lineare ˆ [14 ] Y Distanza Lineare ˆ [16 ] Y = δk dak = dk ⎛ x* ⎞ x k = ⎜ ok ⎟ ⎜x ⎟ ⎝ k⎠ 1 zk = ck dak = 1 x k = x *k zk = ∑1 / π k = N̂ s k∈s * dak = dk ˆ [ 6. c ] Y ∑π k = n k ∈U ∑1 = N k∈U ∑π k / π k = n k∈s ∑ δk / π k = Nˆ s k ∈s ∑ δk = N k∈U ⎛ x*k ⎞ ⎜ ⎟ ⎜ xo ⎟ ⎝ k⎠ 1 * xk ck ∑ ⎛ x*k ⎞⎟ ⎜ ⎛ X * ⎞ ⎜ k ∈U ⎟ X =⎜ o⎟ =⎜ ⎟ ⎜X ⎟ ˆ ⎝ ⎠ ⎜ x ok d k ⎟ ⎜ ⎟ ⎝ k ∈s ⎠ ∑ X = X* Si consideri, ad esempio Lo stimatore introdotto sotto l’approccio predittivo (Valliant, 2000) e che fonda l’inferenza unicamente sul modello di superpopolazione che lega la variabile d’interesse y e il vettore delle variabili ausiliarie x. Esso può essere espresso nella forma: ˆ = Y + Yˆ sr U − sr = [16 ] Y ∑ yk d ak k∈sr [16 ]γ k = ∑ yk [16 ] wk (16) k∈sr 149 CAPITOLO 4 essendo −1 ⎞ ⎛ 1 1 x k )′ ⎜⎜ x k x ′k ⎟⎟ x k yk Ysr = ∑ yk , YˆU − sr = ( X − c c ⎟ ⎜ k k k∈sr k∈sr ⎠ k∈sr ⎝ k∈sr ′ −1 ⎛ ⎞ ⎛ ⎞ 1 1 ⎜ x k ⎟⎟ ⎜⎜ x k x ′k ⎟⎟ x k , [16 ] wk = d ak [16 ]γ k [16 ] γ k = 1 + ⎜ X − ck ck ⎜ ⎟ ⎜ ⎟ k ∈s r ⎠ ⎝ k ∈s r ⎝ ⎠ ∑ ∑ Lo stimatore ∑ ∑ ∑ ˆ può essere ricondotto allo stimatore [16 ]Y ˆ ponendo [15] Y d ak = 1 , x k = x*k , z k = (1 / ck ) x *k , X = X* . Nello schema n. 5 viene mostrato come è possibile arrivare alla definizione di particolari stimatori per MR mediante specificazioni degli elementi caratterizzanti lo stimatore ˆ. [15] Y Come si desume anche dallo schema, l’unico stimatore, tra quelli sopra introdotti, che non può essere ricavato a partire da ˆ è lo stimatore [15] Y ˆ [9]Y che, peraltro, trova scarsa applicazione nelle indagini concrete. Nello schema si è indicato con 1 P un vettore colonna di P valori pari a 1 e si sono n , δ k , N̂ s e N, definiti rispettivamente come n = ( n1 ,..., nh ,..., n H s )′ , δ k = (δ1k ,..., δ hk ,..., δ H s k )′ , N̂ s = δk d k , introdotti i simboli ∑ k∈s N = ( N1 ,..., N h ,..., N H s )′ , essendo δ hk una variabile indicatrice, pari a 1 se k ∈ sh e pari a 0 altrimenti. 4.3.4 Stima della varianza In questo paragrafo è riportata la stima della varianza dello stimatore ˆ. [15] Y Come si è visto, tale stimatore costituisce una forma generale a cui possono essere ricondotti molti degli stimatori adottabili in caso di mancate risposte. Nella trattazione si farà riferimento a quanto riportato nel cap. 4 del libro di Särndal e Lundström (2005) prima citato. Una stima asintoticamente corretta della varianza dello stimatore ˆ , in [15] Y dak = dk , è data da cui Vˆ ([15]Yˆ ) = VˆSAM + VˆNR 150 (17) IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI dove VˆSAM è la varianza dovuta al campionamento, mentre VˆNR è la varianza dovuta al processo generatore delle mancate risposte. I due addendi in parola sono espressi rispettivamente da VˆSAM = ∑ ∑ (dk dl − dkl )([15]γ k eˆk* ) ([15]γ l eˆl* ) + l∈sr k∈sr − ∑ d k ( d k − 1) [15]γ k ([15]γ k − 1) (eˆk* )2 (17.a) ∑ [15]γ k ([15]γ k − 1) (dk eˆk )2 (17.b) k ∈s r VˆNR = k∈sr in cui ( ) ' eˆk* = yk − x*k Bˆ * ; ( ) ( ) ˆ = y − x* ' B ˆ * − x o ' Bˆ o eˆk = yk − x ′k B k k k ⎞ ˆ*⎞ ⎛ ⎛B ⎟ ˆB = ⎜ ⎟ = ⎜ dak [15]γ k zk x′k ⎟ o ⎜ ⎜⎜ B ⎟ ˆ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ k∈sr ⎠ ∑ −1 ⎛ ⎞ ⎜ ⎟ dak [15]γ k zk yk ⎟ . ⎜⎜ ⎟ ⎝ k∈sr ⎠ ∑ La formula (17) può apparire piuttosto complessa; tuttavia, per alcune strategie di campionamento largamente usate possono essere derivate espressioni facili ed intuitive del calcolo della varianza. Si consideri ad esempio la seguente situazione, caratterizzante larga parte delle indagini sulle imprese. • Il disegno di campionamento adottato è del tipo stratificato. Dalla popolazione del generico strato U h (h=1,…,H) si seleziona senza reimmissione e a probabilità uguali il campione sh di dimensione nh . • Le celle di ponderazione coincidono con gli strati, per cui si ha H s = H . Nella cella di ponderazione sh si registrano nhr unità rispondenti. • Si adotta lo stimatore ˆ. [11. c ] Y Nel contesto appena descritto si ha: π k = nh N h [15] γ k ; = nh nhr ; x k = x*k = z k =δ k = (δ1k ,..., δ hk ,..., δ Hk )′ , 151 CAPITOLO 4 essendo eˆk* δ hk una variabile indicatrice pari a 1 se k ∈ sh e pari a 0 altrimenti ; n 1 hr = eˆk = y k − yl . nhr l =1 ∑ Utilizzando le approssimazioni nh nh − 1 ≈ 1 e nhr nhr − 1 ≈ 1 , nel caso in esame si ha VˆSAM ≈ H ⎛ 1 1 ⎞ ∑ N h2 ⎜⎜⎝ nh − N h ⎟⎟⎠ Shr2 h =1 VˆNR ≈ H ⎛ 1 1 ⎞ ∑ N h2 ⎜⎜⎝ nhr − nh ⎟⎟⎠ Shr2 h =1 Vˆ ([15]Yˆ ) = VˆSAM + VˆNR = H ⎛ 1 1 ⎞ ∑ N h2 ⎜⎜⎝ nhr − N h ⎟⎟⎠ Shr2 , h =1 essendo 4.3.5 nhr ⎛ 2 n 1 hr ⎞⎟ 2 ⎜ S hr = yk − yl . ⎟ nhr − 1 ⎜ nhr k =1⎝ l =1 ⎠ 1 ∑ ∑ Approfondimento delle condizioni che distorsione dello stimatore di calibrazione determinano la 4.3.5.1 Espressione generale della distorsione Se l’insieme dei rispondenti è sufficientemente grande, la distorsione dello stimatore ˆ con d = d =1/ π può essere approssimata da (Sarndäl e ak k k [15]Y Lundström, 2005, cap. 9): ( ) B ([15]Yˆ ) = E E θ ([15] Yˆ | s ) − Y ≈ − ∑ (1 − θk ) eθ k dove Eθ ([15] Yˆ | s ) , denota il valore atteso di dell’insieme osservato nel campione sr , essendo eθ k = yk − x ′k BθU in cui 152 (18) k∈U ˆ , dato s, al variare [15]Y IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI BθU ⎛ ⎞ = ⎜ θk zk x′k ⎟ ⎜ ⎟ ⎝ k∈U ⎠ ∑ −1 ∑θk zk yk . k∈U Dall’esame dell’espressione (18) si notano due importanti caratteristiche sulla natura della distorsione dello stimatore di calibrazione: • la distorsione non dipende dal disegno di campionamento adottato nell’indagine, ma unicamente dalla scelta delle variabili ausiliarie e dalle probabilità di risposta individuali; • si evidenzia la necessità di individuare un vettore x di variabili ausiliarie che abbia la capacità di ridurre la distorsione. Il vettore deve essere noto almeno a livello di campione teorico s. Il fatto di conoscere il vettore a livello di intera popolazione U non modifica la distorsione ma ha effetto unicamente sulla variabilità. In altri termini, nell’ottica di ridurre la distorsione le situazioni informative InfoU e InfoS (vedi par. 4.3.3.3) risultano equivalenti. Per illustrare alcune successive considerazioni sulla relazione (18) è opportuno considerare i risultati di seguito riportati. Risultato 1 ∑ eθ k in generale non è pari a zero. Essa è pari a 0, La somma dei residui k∈U solo se la probabilità di risposta è costante ( θ k = θ , k=1,…,N) e il vettore z k contiene una variabile z pk identicamente uguale a 1. Considerando le equazioni normali della regressione si ha infatti ∑θk zk x′k BθU − ∑θk zk k∈U k∈U yk = 0P in cui 0 P denota un vettore colonna P-dimensionale i cui termini sono tutti pari a 0. Dalla precedente espressione deriva il seguente sistema di equazioni ∑θk zk ( yk − x′k BθU ) = ∑θk zk eθ k = 0P , k∈U k∈U la cui generica equazione è data da ∑θk z pk eθ k = 0 (p=1,…,P). (18.a) k∈U Nel caso in cui probabilità di risposta è costante θk = θ , (k=1,…,N) e z pk è identicamente uguale a 1, la (18.a) diventa 153 CAPITOLO 4 ∑θk z pk eθ k = ∑ k∈U eθ k = 0 . k∈U Risultato 2 Nel caso in cui sia μ′ z k = 1 (per ciascun k ∈ U ), dove μ è un vettore conforme a z k comune per tutte le unità della popolazione, si hanno tre espressioni alternative della distorsione: B ([15]Yˆ ) = − ∑ eθ k , (19.a) k∈U B ([15]Yˆ ) = ∑ x′ ( B k U k∈U B ([15]Yˆ ) = − BθU ) , (19.b) ∑ x′k BeθU , (19.c) k∈U essendo ⎛ ⎞ BU = ⎜⎜ ∑ z k x′k ⎟⎟ ⎝ k∈U ⎠ −1 ∑ zk k∈U yk ; BeθU ⎛ ⎞ = ⎜⎜ ∑θk z k x′k ⎟⎟ ⎝ k∈U ⎠ −1 ∑θk zk ek k∈U in cui ek = yk − x′k BU . Di seguito viene riportata la dimostrazione dell’espressione (19.a); le due espressioni alternative (19.b e 19.c) si possono ricavare in modo analogo. Valendo la relazione μ′ z k = 1 , la distorsione può essere espressa come B ([15]Yˆ ) = − ∑ eθ k + ∑θk eθ k = k∈U =− essendo ∑ eθ k + μ′ ∑ z kθ k eθ k = − ∑ eθ k , k∈U μ′ ∑ z kθ k eθ k = 0 . k∈U Si ha infatti 154 k∈U k∈U k∈U IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI −1 ⎡⎛ ⎤ ⎞ ⎢ ⎜ ⎟ ∑zkθk eθ k = μ′ ∑ zkθk yk − ∑zkθk x′k ⎢⎜ ∑θk zk x′k ⎟ ∑θk zk yk ⎥⎥ = k∈U k∈U k∈U ⎠ k∈U ⎣⎝ k∈U ⎦ = ∑ z kθ k yk − ∑ θ k z k yk = 0 . k∈U k∈U La condizione μ′ z k = 1 viene rispettata da molti stimatori che hanno un rilevante sviluppo applicativo, ad esempio per lo stimatore di poststratificazione ˆ , si ha [11. c ] Y 1′P x k = 1′P δ k = 1 ; di conseguenza il vettore μ′ è pari a 1′P . 4.3.5.2. Condizioni che garantiscono l’assenza di distorsione Dall’esame dell’espressione (18) si possono enucleare una serie di condizioni che garantiscono l’assenza di distorsione. Condizione 1 La distorsione dello stimatore costanti θk ≈ θ ˆ è nulla quando le probabilità θ sono k [15] Y (k ∈ U ); si ha infatti B ([15]Yˆ ) ≈ − (1 − θ ) ∑ eθ k ≈ 0 . k∈U Infatti, in base a quanto dimostrato nel risultato 1, in modelli di regressione che prevedono l’intercetta, la somma ∑ eθ k è pari a zero nel caso in cui k∈U θk ≈ θ . Condizione 2 Nel caso in cui sia μ′ z k = 1 (per ciascun k ∈ U ), la distorsione dello stimatore ˆ è nulla quando le probabilità θ sono costanti; si ha infatti, in k [15] Y base alla relazione (19.a) B ([15]Yˆ ) = − ∑ eθ k k∈U In base a quanto dimostrato nel risultato 1, in modelli di regressione che prevedono l’intercetta, la somma ∑ eθ k è pari a zero nel caso in cui k∈U 155 CAPITOLO 4 θk ≈ θ . Condizione 3 La distorsione è quasi nulla nel caso in cui, per ciascun k ∈ U , sia φk = 1 = 1 + μ′ z k , θk dove φk = (20) 1 è anche detto parametro di influenza. θk Dalla precedente relazione si ha 1 − θ k = θ k μ′ z k . Inserendo, questo risultato nell’espressione (18) si ottiene B ([15]Yˆ ) = − ∑ (1 − θ k ) eθ k = k∈U =− ∑ (θ k μ′ z k ) eθ k = k∈U −1 ⎤ ⎡ ⎛ ⎞ = − μ′ ⎢ ∑ θ k z k yk + ∑ θ k z k x′k ⎜ ∑ θ k z k x′k ⎟ ∑ θ k z k yk ⎥ = 0 . ⎜ ⎟ ⎥ ⎢k∈U k∈U ⎝ k∈U ⎠ k∈U ⎦ ⎣ Condizione 4 La distorsione è quasi nulla nel caso in cui, per ciascun k ∈ U , sia valido il seguente modello lineare y k = β′ x k , dove β denota un vettore di P parametri di regressione. 4.3.5.3 Caso dello stimatore di calibrazione Si consideri lo stimatore logaritmica ( D dk [12]γ k ˆ con distanza non lineare [12 ] Y ˆ e si supponga di avere adottato la distanza [12 ] Y ) , d k = d k γ k ln (γ k ) − d k γ k + d k . Allo scopo di semplificare la trattazione matematica dell’argomento si fa riferimento al caso, di particolare interesse nelle applicazioni pratiche, in cui ck=1 e in cui i totali di riferimento sono costituiti dalle frequenze assolute di una tabella doppia in cui la prima variabile x1 ha A modalità distinte e la seconda variabile x2 ha B modalità distinte. Nel seguito si indica con: Uab e con sr,ab le 156 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI unità della popolazione e del campione dei rispondenti appartenenti alla cella individuata dalla modalità a (a=1,…,A) della prima variabile e dalla modalità b (b=1,…,B) della seconda variabile. Nel caso in questione xk è un vettore colonna contenente A+B valori xk = (δ1., k ,..., δ a., k ,..., δ A., k ,..., δ.1, k ,..., δ.b, k ,..., δ.B, k )' dove: δ a., k è una variabile dicotomica che ha valore pari a 1 se l’unità kesima assume la modalità a della variabile x1 e valore pari a 0 altrimenti; δ .b, k è una variabile dicotomica che ha valore pari a 1 se l’unità k-esima assume la modalità b della variabile x2 e valore pari a 0 altrimenti. Mediante alcuni passaggi algebrici, si riesce a dimostrare che nel caso in questione per tutte le unità appartenenti alla cella (ab) il correttore del peso base è pari al prodotto di due fattori (Binder, 1988) che possono essere visti come un effetto riga e un effetto colonna [12 ] γ k = μˆ a μˆ b (per k ∈ s r ,ab ). (21) Sostituendo la (21) nella (12), si ottiene che lo stimatore del totale Y può essere espresso come A ˆ [12 ] Y = ∑ B ∑ ∑ yk dk μˆ a μˆb . (22) a =1 b =1 k∈sr , ab Seguendo Binder e Theberge(1988), si può dimostrare che la (12) è una stima consistentemente corretta del totale Y qualora: • tutte le unità appartenenti alla generica cella (ab) abbiano una probabilità di risposta costante pari a θ ab ; • θ ab sia μ a e μb definito in base all’espressione indicano rispettivamente di i valori attesi θ ab = ( μa μb ) −1 , nell’universo dei dove campioni μˆ a e μˆb . Qualora le due precedenti condizioni non siano soddisfatte, la distorsione dello stimatore (21) è definita da (Kalton e Maligalig, 1991) A B ([12]Yˆ ) = ∑ ∑ (N ab ( μa μb ) −1 − N ab )(Yab − Ya. − Yb. + Y / N ) B (23) a =1 b =1 dove N ab indica il numero di unità della popolazione nella cella (ab), in cui 157 CAPITOLO 4 Yab = 1 ∑ yk ; N ab k∈U ab B Ya. = ∑ b =1 A N ab N ab Yab ; Y.b = ∑ Yab ; N a. a =1 N .b essendo B N a. = ∑ N ab ; b =1 A N .b = ∑ N ab . a =1 La (23) diventa un utile guida operativa per la formazione delle celle di ponderazione; infatti, al fine di annullare la distorsione, è necessario definire sulle due variabili ausiliarie ( A × B ) celle di ponderazione che approssimino quanto più possibile la condizione Yab − Ya. − Yb. + Y / N = 0 . 4.3.6 Criteri di scelta della strategia di stima Nessuno degli stimatori precedentemente considerati risulta essere quello ottimale in tutte le situazioni di MR. Pertanto, nei casi concreti, per effettuare la scelta della migliore strategia di stima è necessario condurre una complessa operazione di analisi dei dati mirata alla valutazione delle prestazioni di ciascun specifico stimatore. I criteri suggeriti (cfr. Eltinge e Yansaneh, 1997; Rizzo, Kalton e Brick, 1996) per la scelta dello stimatore fanno riferimento: (i) alla variabilità di una particolare forma di stimatore; (ii) alla capacità dello stimatore di ridurre la distorsione. 4.3.6.1 Criterio di variabilità Per quanto riguarda la scelta del particolare metodo di stima basata sul criterio della variabilità, si ricorda la ben nota relazione di Kish (1992) in cui l’effetto sulla variabilità delle stime derivante dall’uso di una particolare forma di stimatore viene posto uguale a (1+CV2) dove CV è il coefficiente di variazione dei pesi finali. Di conseguenza, a parità di distorsione, andrebbe preferito uno stimatore in cui è minimizzata la variabilità dei pesi. Si riportano inoltre alcune considerazioni che possono guidare nella scelta del vettore delle variabili ausiliarie x. Un criterio generale è quello di evitare variabili ausiliarie che potrebbero causare valori troppo alti dei correttori [15] γ k , con la conseguente produzione di pesi finali wk anomali, che potrebbero avere impatto negativo nella variabilità dello stimatore. Ciò può essere dovuto ad una serie di ragioni. La prima ragione è che vi può essere la collinearità (o quasi collinearità) tra le variabili x; sarebbe quindi opportuno eliminare le variabili ausiliarie ridondanti, ad esempio mediante una tecnica backward. Un altro problema può essere ingenerato dall’inclusione nel vettore x k di una variabile continua x pk con distribuzione notevolmente asimmetrica; 158 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI valori elevati di x pk possono causare la produzione di valori anomali dei correttori [15] γ k . Il problema può essere evidenziato attraverso un’ispezione grafica in cui i correttori sono rappresentati sull’asse delle ordinate e le variabili x pk sull’asse delle ascisse. Una tecnica prudente è quella di non utilizzare direttamente una variabile continua, nel processo di ponderazione, ma usare una sua trasformata suddivisa in classi. Un ultimo criterio da adottare è quello della numerosità minima per cella. Se coerentemente a quanto sopra illustrato, le variabili ausiliarie costituiscono tutte modalità di variabili qualitative (o di trasformate in classi di variabili quantitative), i gruppi determinati dai differenti profili delle variabili suddette dovrebbero assicurare una numerosità minima di unità rispondenti, in genere superiore a 30. 4.3.6.2 Criterio di riduzione della distorsione Per quanto riguarda la scelta dello stimatore basata sul criterio di riduzione della distorsione, il primo aspetto da prendere in considerazione è il risultato illustrato nel par. 4.3.5.1 che, nell’ottica di ridurre la distorsione, le situazioni informative InfoU e InfoS (vedi par. 4.3.3.3) risultano equivalenti. È quindi essenziale individuare un buon insieme di predittori x che abbiano una buona capacità di riduzione della distorsione. A tale scopo può essere utile condurre un’analisi di sensitività, volta ad analizzare le stime dei parametri d’interesse ottenute in corrispondenza di diversi stimatori. Se i valori di dette stime risultano essere molto prossimi tra di loro, la scelta ricade naturalmente sullo stimatore che minimizza la variabilità campionaria. È necessario, invece, approfondire l’analisi qualora i valori stimati fossero notevolmente differenti. Esempi di analisi in tal senso, con riferimento alle indagini ISTAT, sono riportati nel lavoro di Ballin, Brancato et al. (2000) in cui la distorsione è stimata prendendo come riferimento una variabile ausiliaria non utilizzata per la correzione della mancata risposta e nel lavoro di De Vitiis et al. (2000) in cui le stime d’interesse sono poste a confronto con stime prodotte da altre indagini. Qui di seguito sono riportati alcuni principi che debbono guidare nella scelta delle variabili ausiliarie; i primi tre principi sono mutuati da quanto descritto in Sarndäl e Lundström (2005, p. 110). Principi che devono guidare la scelta delle variabili ausiliarie Principio 1 Il vettore delle variabili ausiliarie dovrebbe spiegare la distribuzione dei parametri di influenza φk = 1 / θk . Questo principio trova la sua razionalità nella condizione 3, atta a garantire la non distorsione, illustrata nel par. 4.3.5.2. 159 CAPITOLO 4 Principio 2 Il vettore delle variabili ausiliarie dovrebbe spiegare le principali variabili di analisi. Questo principio trova la sua razionalità nella condizione 4 del par. 4.3.5.2. Principio 3 Il vettore delle variabili ausiliarie dovrebbe permettere di identificare i principali domini oggetto di studio. Questo principio trova la sua razionalità nel fatto che le indagini su larga scala, debbono produrre stime riferite non solo al totale della popolazione ma anche per i principali domini di studio. Principio 4 Qualora, in accordo a quanto illustrato nel par. 4.3.6.1, le variabili ausiliarie costituiscano tutte modalità di variabili qualitative, i gruppi determinati dai differenti profili delle variabili ausiliarie dovrebbero individuare sottoinsiemi di unità aventi una medesima probabilità di risposta. Questo principio trova la sua razionalità nelle condizioni 1 e 2 del par. 4.3.5.2. ed è coerente con le tecniche di correzione della mancata risposta basate sulle celle di ponderazione. Tecniche ed indicatori utili all’individuazione delle variabili ausiliarie Nonostante i principi sopra definiti possano offrire un utile ausilio nell’individuazione delle variabili ausiliarie, nelle situazioni concrete la grande disponibilità di informazioni ausiliarie e la possibilità di combinarle in differenti modi induce un’oggettiva difficoltà nell’individuazione concreta del vettore x in specifici contesti di indagine. Riportiamo qui di seguito alcuni indicatori o regole operative che possano guidare la scelta delle variabili ausiliarie. Indicatore per il principio 1 Per chiarezza di notazione, nel seguito si indicheranno con x e [α ] z due particolari insiemi di variabili ausiliarie, denotando con [α ] x k e [α ] z k i [α ] corrispondenti valori riferiti all’unità k. La maggiore difficoltà operativa all’applicazione della condizione 3 del par. 4.3.5.2. è quella che i valori dei parametri di influenza φk non sono = 1 + μ′ z k non è verificabile sui dati osservati. Si ricercano quindi dei valori proxi di φk , denotati con φ̂k , tali che (i) i valori φ̂k siano linearmente connessi al vettore z k osservato per le specifiche realizzazioni degli insiemi s e sr , conosciuti; per cui la condizione φk 160 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI (ii) i valori φ̂k assicurino una corretta calibrazione del vettore x k nell’inferenza da sr a s. I valori φ̂k devono quindi riflettere la relazione esistente tra l’insieme dei rispondenti sr e il campione teorico s. Per una data scelta dei vettori [ α ] x k e [ α ] z k , i punti (i) ed (ii) precedenti portano a definire le condizioni φˆ k ∑ [ α]x k d k φˆ k = k ∈s r = 1 + [ α ] λ ′ zk e ∑ [ α] x k d k , k ∈s da cui discende ⎛ φˆk = [α]γ k = 1 + ⎜ ∑dk ⎜ k∈s ⎝ ′ ⎞ ⎟ [α]xk − ∑dk [α]xk ⎟ k∈sr ⎠ ⎛ ⎜ d k ⎜ k∑ s ∈ ⎝ r ⎞ ⎟ [α]zk [α]x′k ⎟ ⎠ −1 [α]zk . Dato i vettori [ α ] x k e [ α ] z k , l’indicatore proposto da Sarndäl e Lundström (2005, pag. 118) è il seguente [ α ] IND1 = 1 ∑ dk k ∈s r ∑ d k ([ α] γ k − [ α] γ ) 2 , k ∈s r in cui [α ] γ= 1 ∑ dk k∈sr ∑ k∈sr [α ] γ k dk . Più il valore dell’indicatore sale, più il vettore [α] x mostra una buona capacità di predire i valori incogniti 1 / θ k . La razionalità di questa affermazione risiede nel fatto che più varia [ α ] IND1 , più le variabili ausiliarie prescelte riflettono le differenze individuali dei parametri di influenza delle singole unità e quindi lo stimatore lo stimatore di calibrazione corrispondente dovrebbe essere ben protetto dalla distorsione. Naturalmente, nelle situazioni concrete, l’indicatore [ α ] IND1 può essere fatto crescere in modo artificialmente alto. Una buona regola operativa è quella di seguire quanto esposto nel par. 4.3.6.1, limitandosi quindi ad esaminare solo quei vettori [ α ] x che rispondano a criteri di parsimonia. 161 CAPITOLO 4 Indicatore per il principio 2 L’indicatore proposto si basa sul principio del coefficiente di determinazione. IND 2 y = 1 − [α ] ∑d k [α ] k∈sr ∑d k∈sr k γ k ( y k − α yˆ k ) 2 [α ] [ ] γ k ( y k − α Yˆ ) 2 [ ] essendo ⎛ ˆ k = [ α ]x ′k ⎜ ∑ d k [ α ] γ k [ α] y ⎜ k ∈s ⎝ r ∑ d k [α] γ k yk k ∈s r ˆ . [ α]Y = ∑ d k [α] γ k ⎞ ⎟ [ α ] z k [ α ] x ′k ⎟ ⎠ −1 ∑ dk k ∈s r [ α] γ k [ α] z k yk k ∈s r L’indicatore varia nell’intervallo [0,1]. Più è vicino ad 1 migliore è la capacità delle variabili ausiliarie [ α ] x di spiegare la specifica variabile di interesse y. Esso può avere un valore comparativamente alto per alcune variabili di interesse ma non per le altre. L’utilizzo di questo indicatore implica quindi l’individuazione del sottoinsieme delle variabili di interesse ritenute più importanti (su cui calcolare l’indicatore) e la definizione di un ordinamento delle variabili suddette che rifletta l’importanza delle variabili rispetto agli obiettivi conoscitivi della specifica indagine. Regola operativa per il principio 3 Il principio 3 si sostanzia nel fatto che il vettore delle variabili ausiliarie dovrebbe includere le variabili indicatrici di appartenenza ai domini dell’indagine. Per il principio di parsimonia dovrebbero essere considerati solo quei domini relativamente ai quali si sono osservate almeno 30 unità nel campione dei rispondenti. Regola operativa per il principio 4 Le regole operative per il principio 4 sono state illustrate nel par. 4.3.2.1. dedicato alla costruzione delle celle di ponderazione. Una volta che le celle di ponderazione siano state costruite con una del tecniche, illustrate nel paragrafo in parola, il vettore x k dovrebbe includere le variabili indicatrici di appartenenza alle celle suddette. 162 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI 4.4 Brevi cenni all’esperienza delle indagini condotte nell’ambito della statistica ufficiale 4.4.1 Premessa Il trattamento delle MR nelle indagini condotte nell’ambito della statistica ufficiale costituisce un quadro in forte evoluzione, con una notevole eterogeneità di soluzioni. Un primo fattore che spiega tale eterogeneità è costituito dai differenti contesti di indagine (famiglie ed imprese) e dalle informazioni ausiliarie disponibili che richiedono soluzioni differenti. Un secondo fattore è costituito dalle storia delle singole indagini; sicuramente le indagini progettate più recentemente incorporano nel processo di stima un trattamento delle MR più raffinato di quello delle indagini che storicamente sono state progettate prima. Dal punto di vista della scelta dei metodi si usano, in generale, gli stimatori con classi di ponderazione stabilite a priori oppure gli stimatori di ponderazione vincolata. Gli stimatori che usano una modellizzazione esplicita delle MR mediante modelli logit o probit sono stati analizzati soprattutto in lavori di ricerca e trovano scarsa applicazione nella pratica delle indagini. Sono, comunque, da sottolineare i seguenti aspetti: • le ricerche svolte hanno evidenziato che, per quanto riguarda la riduzione della distorsione, a parità di variabili ausiliarie utilizzate gli stimatori basati sui modelli logit o probit conducono a risultati molto simili a quelli assicurati dagli stimatori di ponderazione vincolata, richiedendo, peraltro, un lavoro metodologico notevolmente più complesso; • gli stimatori di ponderazione vincolata sono in genere caratterizzati da una variabilità minore di quella di altri stimatori; • i modelli di tipo logit risultano peraltro molto utili, per la definizione delle variabili ausiliarie di cui tenere conto nella fase di correzione delle MR per quanto attiene (i) la selezione delle variabili esplicative; (ii) l’eventuale suddivisione in classi delle stesse. Come conseguenza dei punti sopra citati, nella pratica delle indagini ISTAT si adotta in genere una metodologia per il trattamento delle MR totali articolata nei seguenti passi: • mediante modelli logit si studia il legame esistente tra le variabili ausiliarie disponibili e il fenomeno della mancata risposta totale al fine di individuare le variabili maggiormente esplicative del fenomeno; • si utilizzano le variabili individuate al passo precedente per la costruzione dello stimatore di ponderazione vincolata. 4.4.2 Indagini sulle famiglie Le indagini sulle famiglie hanno una lunga tradizione nella storia dell’Istituto. Le principali indagini di questo tipo vengono condotte mediante intervista diretta e il fenomeno delle MR risulta piuttosto limitato, con tassi di mancata risposta compresi tra il 15% e il 5%. 163 CAPITOLO 4 L’indagine più antica è quelle sulle forze di lavoro. In tale indagine si è utilizzato fino a gennaio 1999 una forma di stimatore post-stratificato in cui (Falorsi e Falorsi, 1994): • le classi di ponderazione sono definite a priori suddividendo la popolazione per regione, sesso e classi di età quinquennali; • ciascun componente di una data famiglia rispondente ha un correttore differente a seconda del sesso e della classe di età; • i totali Nh sono determinati sulla base delle statistiche di fonte anagrafica. A partire da aprile 1999, lo stimatore appena descritto è stato modificato per ottenere stime coerenti per famiglie ed individui; a tal fine si è introdotto uno stimatore di ponderazione vincolata con le medesime classi di ponderazione dello stimatore post-stratificato, in cui però (i) viene definito un medesimo correttore per tutti i componenti di ciascuna famiglia intervistata e (ii) si tiene conto di alcuni totali noti (su sesso e classi di età) definiti a livello provinciale. Nell’indagine Multiscopo - aspetti della vita quotidiana, che ha una tradizione più recente, le stime oggetto d’indagine sono calcolate con uno stimatore di ponderazione vincolata in cui (Russo et al. 1993): • i totali noti sono di fonte anagrafica e sono costituiti da: (i) i totali della popolazione per sesso e classi di età; (ii) i totali della popolazione per sesso secondo la tipologia di comune (comuni metropolitani, altri comuni suddivisi in classi dimensionali in base alla popolazione residente); • tutti i componenti di una famiglia presentano il medesimo peso finale (potendo così ottenere senza problemi stime per individui e per famiglie). La rilevazione sui Consumi delle Famiglie, recentemente ristrutturata, prevede la sostituzione delle famiglie non rispondenti e utilizza uno stimatore di ponderazione vincolata in cui come totali di riferimento si utilizza la distribuzione regionale per sesso e classi di età di fonte anagrafica. Negli ultimi anni sono state condotte, nell’ambito dell’indagine Multiscopo, alcune rilevazioni di tipo telefonico. In particolare tali indagini sono: l’indagine telefonica sulla sicurezza del cittadino condotta nel 1997 e l’indagine telefonica sulla domanda turistica in Italia condotta correntemente dall’ISTAT con cadenza trimestrale. Per la prima delle indagini sopra menzionate, in cui veniva selezionato un componente casuale all’interno di ciascuna famiglia campione, si è utilizzato un complesso meccanismo di sostituzione all’interno della famiglia, basato su una operazione di continuo monitoraggio che teneva sotto controllo le dimensioni campionarie per definite sottopopolazioni di individui che in tali indagini risultano in genere affette da sottocopertura (Falorsi et al., 1999); invece per la sostituzione delle famiglie in entrambe le indagini si sono adottati criteri di sostituzione legati alla vicinanza geografica delle unità. In entrambe le indagini, le stime campionarie sono ottenute con uno stimatore analogo a quello utilizzato nell’indagine Multiscopo aspetti della vita quotidiana, che assicura inoltre che la distribuzione delle famiglie per numero di componenti coincida con quella stimata con l’indagine annuale della Multiscopo; questo vincolo viene introdotto perché nelle 164 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI indagini telefoniche risultano notevolmente sottorappresentate le famiglie con pochi componenti. 4.4.3 Indagini sulle imprese Dall’inizio degli anni 90 l’Istituto ha iniziato a condurre le indagini sulle imprese utilizzando disegni di campionamento rigorosamente probabilistici. Ciò è stato reso possibile anche dalla disponibilità, dopo l’effettuazione del Censimento Intermedio delle Industria e Servizi, della prima versione dell’Archivio Statistico delle Imprese Attive (ASIA), che viene aggiornato annualmente mediante l’integrazione e l’armonizzazione di diversi archivi amministrativi3. Tale archivio viene utilizzato come lista per l’estrazione dei campioni di tutte le indagini condotte dall’Istituto e fornisce inoltre informazioni ausiliarie utili alla costruzione delle stime e alla correzione delle MR. Le indagini sulle imprese, che si basano di solito su una tecnica di rilevazione postale, soffrono di elevati tassi di mancata risposta, alcune volte superiori al 50%. Nel passato le indagini prevedevano solamente solleciti postali (da uno a tre solleciti secondo l’indagine) effettuati a “pioggia” su tutte le imprese del campione; negli ultimi anni, tuttavia, si è cercato di elevare i tassi di risposta prevedendo, per alcune indagini, differenti tecniche di rilevazione (solleciti telefonici, rilevatori sul campo ed anche uso di informazioni di fonte amministrativa) dedicate all’acquisizione di informazioni sui soli non rispondenti; è molto importante a tale proposito l’esperienza condotta nelle indagini Short-Form e Long-Form del Censimento Intermedio (cfr. Ballin, Pallara et al., 2000) Per la correzione delle MR si usa lo stimatore di ponderazione vincolata facendo uso di: • variabili disponibili sulla versione dell’archivio ASIA da cui è stato selezionato il campione; in genere si usano variabili di tipo (i) economico (si adottano, a seconda dell’indagine, diversi livelli della classificazione dell’attività economica secondo la classificazione NACE); (ii) dimensionale (di solito definita in termini di addetti); (iii) geografico (la regione o la ripartizione della sede d’impresa); • variabili che descrivono la tecnica di rilevazione utilizzata per la singola unità (ad esempio si utilizza una variabile indicatrice, che indica se l’unità è stata interessata o meno al sollecito telefonico). Le stime finali sono infine prodotte calcolando un fattore di post-stratificazione, in grado di correggere anche per la sottocopertura, utilizzando le informazioni disponibili sulla versione più aggiornata di ASIA. A tal fine viene utilizzato uno stimatore di ponderazione vincolata del tipo (11), dove il peso diretto viene sostituito con quello corretto per il fattore di mancata risposta precedentemente calcolato. 3 L’adozione di un unico archivio ha permesso tra l’altro una maggior coerenza tra le definizioni di universo adottate tra le diverse indagini, limitando in questo modo l’inclusione delle stesse imprese in universi che per definizione dovevano risultare disgiunti. 165 CAPITOLO 4 Sono da citare infine gli investimenti che l’ISTAT sta effettuando per minimizzare la pressione statistica sulle imprese e che, sulla base delle esperienze effettuate da altri Istituti Nazionali di Statistica, avranno certamente una ricaduta positiva sul tasso di partecipazione alle indagini. A tal fine l’Istituto ha avviato alcuni progetti strategici per l’uso dei dati amministrativi, mirati ad integrare (o sostituire) le informazioni raccolte con alcune indagini, e per la limitazione della sovrapposizione dei campioni relativi alle diverse indagini (Ballin, Casciano e Righi, 2000)4. Tra i progetti per l’uso di dati amministrativi hanno particolare rilevanza quello relativo all’uso di dati INPS per la produzione di statistiche correnti su occupazione e retribuzioni (Falorsi et al., 2000) e quello relativo all’uso dei dati di bilancio sulle società di capitale per l’integrazione delle informazioni raccolte mediante le indagini sui conti economici delle imprese. 4.4.4 Indagini sulle aziende agricole In questo paragrafo si illustra con un certo dettaglio il caso dell’indagine sulla Struttura e Produzione delle Aziende agricole (SPA), in cui le MR vengono ben documentate e trattate con un notevole grado di approfondimento. Per ridurre gli errori dovuti alla mancata risposta (totale e parziale) da parte dei rispondenti dell’indagine SPA, in fase di progettazione dell’indagine vengono esaminate assieme ai responsabili degli uffici di statistica e degli assessorati all’agricoltura coinvolti nella rilevazione, le problematiche che caratterizzano normalmente una rilevazione di questo tipo e le misure necessarie (specifica formazione dei rilevatori e sensibilizzazione nei riguardi dei conduttori di azienda agricola) per aumentare il grado di collaborazione dei rispondenti. Inoltre, prima dell’avvio della rilevazione i conduttori dell’azienda agricola vengono informati dell’indagine mediante l’invio di una lettera di preavviso. Allo scopo di migliorare la qualità del dato raccolto la collaborazione tra Regioni, Province autonome ed ISTAT inizia fin dalla fase di definizione dei contenuti, di scelte delle metodologie connesse alla rappresentatività dei risultati, e prosegue con lo sviluppo del questionario d’azienda e la stesura del libretto di istruzione. Nel corso della rilevazione, a garanzia della qualità dei dati, viene usualmente fornito un costante ed adeguato supporto di assistenza alla rete di rilevazione durante tutta la fase di raccolta e revisione dei dati; risolvendo molti casi di non corretta interpretazione dei quesiti e stimolando alla collaborazione anche coloro che presentano scarso interesse per l’indagine (fornendo chiarimenti sulla utilità dell’indagine per la collettività e per il privato, nonché sul ruolo dell’azienda agricola per l’economia locale). Inoltre, per agevolare i contatti con le aziende campione viene inviato a ciascuna regione prima dell’avvio delle operazioni di rilevazione, l’esito delle principali 4 Le indagini sulla quale è avvenuta l’estrazione del campione con tecniche di selezione coordinata sono: “Struttura del costo del lavoro”, “Prodcom”, “Prodcom settore tessile”, “Prodcom settore chimico” “Indagine sui conti economici delle piccole e medie imprese”. 166 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI indagini svolte dall’ISTAT (ad esempio nel caso dell’indagine sulla struttura vengono rinviati i principali risultati della precedente indagine) e gli aggiornamenti anagrafici registrati sulle aziende del campione selezionato. Per descrivere le problematiche relative al processo di mancata risposta è opportuno fare riferimento alla figura successiva. In questo vengono definite le unità risolte, ovvero di unità per le quale è stato possibile accertare l’eleggibilità nel campo di osservazione dell’indagine, in quest’indagine. Poiché tale l’accertamento può avvenire solo attraverso l’aggiornamento di alcune variabili effettuato nel corso dell’intervista ne consegue che vi è una corrispondenza biunivoca tra il concetto di unità risolta e quello di unità rispondente, e tra i concetti di unità non risolta e unità non rispondente. Poiché non è disponibile alcun aggiornamento sulla struttura della popolazione successiva al 2000, l’indagine può essere rappresentata come una rilevazione in due fasi. Lo scopo della prima fase è quello di stimare la dimensione e la struttura dell’universo mentre lo scopo della seconda fase è stimare i parametri d’interesse con riferimento alla popolazione stimata nella prima fase. Conseguentemente, le unità che dichiarano di aver cessato la propria attività, avendo fornito tutta l’informazione utile ad un loro impiego nella successiva fase di elaborazione vengono classificate come unità rispondenti. Nella seconda fase dell’indagine, tali unità vengono successivamente classificate come unità non eleggibili. All’interno di ciascuna cella del grafo sono riportati la dizione e i codici dei quesiti 2 e 3 (p. 2 del questionario) con cui viene classificata ciascuna unità del campione. Fa eccezione la cella (C.4) delle unità non risolte per altro motivo. Queste sono generalmente unità per le quali non è disponibile alcuna informazione registrata su supporto digitale o per le quali non vi è stato nemmeno un tentativo di intervista da parte del rilevatore. Negli schemi 6 e 7 sono riportati per ciascuna regione e a livello nazionale i seguenti indicatori e l’analisi della loro composizione: • tasso di risposta nella prima fase dell’indagine: (B)/(A), nella figura 5 • tasso di mancata risposta nella prima fase dell’indagine: (C)/(A) • tasso di eleggibilità alla seconda fase dell’indagine: (D)/B) • tasso di non eleggibilità alla seconda fase dell’indagine: (E)/(B). Per correggere gli effetti distorsivi sulle stime del fenomeno della mancata risposta totale – complessivamente misurata dall’indicatore (C)/(A) – i pesi campionari sono stati corretti con l’inverso del tasso di risposta in ciascuno strato. Nello schema n. 8 utilizzando alcune variabili presenti nella lista di selezione, pertanto disponibili sia per i rispondenti che per i non rispondenti, è riportato il confronto tra le stime ottenute nell’ipotesi che tutte le unità campionarie avessero risposto e le stime degli stessi aggregati ottenute utilizzando i soli rispondenti ed il peso campionario corretto secondo il criterio appena illustrato. 167 CAPITOLO 4 Figura n. 5 - Grafo per la classificazione delle unità campionarie (A) :T otale Unità (campione+nuove) (B) Unità Risolte (unità rispondenti) (C) Unità Non Risolte (non rispondenti) (B.1): unità non più esistenti (C.1): assenza del conduttore - (B.2): unità attive (C.2): Rifiuto - (B.3): unità temporaneamente inattive (C.3) Indirizzo errato (C.4): altri motivi (nessun codice) (D) Unità attive (unità eleggibili) (D.1) Unità attive anche al censimento (D.2) Nuove aziende (D.3) Unità temporaneamente inattive 168 (E) Unità Non esistenti (unità non eleggibili) (E.1) T erreni destinati ad usi non agricoli (E.4) Assorbita (E.2) T erreni abbandonati (E.5) Fusa (E.3) Cessata attività zootecnica (E.6) Smembrata IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI Schema n. 6 - Tasso di risposta e sua composizione (prima fase) Regioni e Totale Province unità autonome (A) Totale Unità nuove (A1) Totale unità rispondenti (B) Tas- Composizione so di del tasso di risposta risposta di prima fase: (B)/ Non più Attive esistenti (B.2)/ (B.1)/(B) (B) Temporaneamente inattive (B.3)/(B) (A) Italia 55030 537 51188 0,94 0,12 0,88 0,00 Piemonte 3700 21 3460 0,91 0,09 0,91 0,00 0,01 V. d’Aosta 430 2 393 0,99 0,08 0,91 Lombardia 5300 79 5247 0,94 0,02 0,97 0,01 Bolzano 700 3 655 0,97 0,05 0,95 0,00 Trento 700 0 681 0,97 0,07 0,91 0,02 Veneto 4000 47 3897 0,94 0,13 0,85 0,02 Friuli V.G. 1300 6 1218 0,92 0,13 0,86 0,01 Liguria 1350 3 1245 0,99 0,10 0,90 0,00 Emilia R. 3250 26 3221 0,95 0,09 0,88 0,02 Toscana 3000 55 2845 0,98 0,05 0,94 0,01 Umbria 1500 13 1468 0,99 0,05 0,92 0,02 Marche 1350 10 1337 0,88 0,07 0,92 0,01 Lazio 3850 0 3385 0,99 0,06 0,94 0,01 Abruzzo 1350 9 1330 0,99 0,08 0,92 0,00 Molise 1250 8 1237 0,92 0,09 0,88 0,02 Campania 3300 37 3052 0,88 0,03 0,96 0,00 Puglia 6700 72 5902 0,91 0,04 0,96 0,01 Basilicata 1100 15 1000 0,90 0,04 0,94 0,02 Calabria 3000 19 2689 0,83 0,05 0,94 0,01 Sicilia 5150 71 4281 0,96 0,06 0,92 0,01 Sardegna 2750 41 2645 0,94 0,12 0,88 0,00 Schema n. 7 - Tasso di mancata risposta e sua composizione (prima fase) Regioni e Province autonome Italia Piemonte Totale unità non rispondenti (C) Tasso di Composizione del tasso mancata di mancata risposta risposta di prima fase: (C)/(A) Assenza Rifiuto (C.1)/(C) (C.2)/(C) indirizzo errato (C.3)/(C) 4379 261 0,08 0,07 0,41 0,56 0,16 0,17 0,24 0,11 V. d’Aosta 39 0,09 0,41 0,41 0,15 Lombardia 132 0,02 0,34 0,35 0,17 segue schema 169 CAPITOLO 4 Schema n. 7 segue Totale unità Regioni e non Province rispondenti autonome (C) Tasso di Composizione del tasso mancata di mancata risposta risposta di prima fase: (C)/(A) 0,07 0,03 indirizzo Assenza Rifiuto (C.1)/(C) (C.2)/(C) 0,77 0,63 0,21 0,32 errato (C.3)/(C) Bolzano Trento 48 19 0,00 0,05 Veneto 150 0,04 0,45 0,38 0,15 Friuli V.G. 88 0,07 0,23 0,23 0,16 Liguria 108 0,08 0,09 0,05 0,14 Emilia R. 55 0,02 0,42 0,35 0,22 Toscana 210 0,07 0,54 0,09 0,36 Umbria 45 0,03 0,56 0,20 0,09 Marche 23 0,02 0,65 0,22 0,09 Lazio 465 0,12 0,31 0,14 0,27 Abruzzo 29 0,02 0,69 0,10 0,07 Molise 21 0,02 0,43 0,00 0,00 Campania 285 0,09 0,22 0,15 0,27 Puglia 870 0,13 0,36 0,18 0,25 Basilicata 115 0,10 0,14 0,01 0,06 Calabria 330 0,11 0,55 0,14 0,26 Sicilia 940 0,18 0,50 0,07 0,33 Sardegna 146 0,05 0,33 0,38 0,25 Schema n. 8 - Effetto della correzione dei pesi per l’attenuazione dell’effetto della mancata risposta totale. Confronto tra stime effettuate con tutto il campione e stime effettuate con i soli rispondenti Regioni e Province autonome Italia Superficie agricola Unità di dimensione utilizzata (SAU) economica (UDE) (000 ha) (000) Campione Solo Campione Solo Unità di Bovino Adulto (UBA) (000) Campione Manodopera extrafamiliare (ULA) Solo Campione Solo Completo rispondenti Completo rispondenti Completo rispondenti Completo rispondenti 13.216 13.479 19.611 20.031 11.654 11.772 219.059 223.250 1.062 1.098 1.354 1.381 1.193 1.215 4.555 4.224 V. d’Aosta 74 76 29 29 33 33 327 345 Lombardia 1.059 1.066 2.474 2.495 2.870 2.887 14.920 15.016 3.250 Piemonte Bolzano 262 263 383 381 140 140 3.238 Trento 140 138 281 282 62 62 2.050 2.017 Veneto 858 856 1.805 1.811 1.783 1.777 10.903 10.888 Friuli V.G. 238 248 432 451 284 289 2.753 3.057 61 67 280 328 24 26 1.453 1.709 Liguria segue schema 170 IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI Schema n. 8 segue Superficie agricola Unità di dimensione Regioni e utilizzata (SAU) economica (UDE) Province (000 ha) (000) autonome Campione Solo Campione Solo Unità di Bovino Adulto (UBA) (000) Campione Manodopera extrafamiliare (ULA) Solo Campione Solo Completo rispondenti Completo rispondenti Completo rispondenti Completo rispondenti Emilia R, 1.100 1.104 2.258 2.266 1.413 1.420 17.093 17.187 Toscana 885 874 1.061 1.055 308 297 15.588 15.742 Umbria 358 359 329 326 263 206 5.304 5.373 Marche 478 479 490 491 265 264 3.245 3.266 Lazio 700 714 935 981 424 437 7.054 7.264 Abruzzo 422 428 455 461 203 204 3.228 3.261 Molise 211 212 189 190 142 143 1.452 1.453 Campania 583 602 1.343 1.395 549 585 19.522 19.874 42.809 Puglia 1.317 1.384 2.003 2.111 249 280 40.272 Basilicata 548 608 424 461 154 173 5.145 5.371 Calabria 560 571 855 859 192 198 23.451 23.495 Sicilia 1.270 1.303 1.541 1.580 408 430 31.174 31.153 Sardegna 1.031 1.029 692 698 696 704 6334 6.496 171 RIFERIMENTI BIBLIOGRAFICI RIFERIMENTI BIBLIOGRAFICI BALLIN M., FALORSI P.D., RUSSO A. (2000), “Condizioni di coerenza e metodi di stima per le indagini campionarie sulle imprese”, Rivista di Statistica Ufficiale, n. 2/2000, ISTAT, pp. 31-52 BALLIN M., CASCIANO M.C. E RIGHI P. (2000), “Nota metodologica per l’indagine sui conti economici delle piccole e medie imprese 1998”, Documento interno ISTAT BALLIN M., PALLARA A., SCEPI G. E SUCCI R. (2000), “Alcuni risultati sulla qualità dell’archivio ASIA ottenuti dall’indagine Short Form del censimento dell’industria e dei servizi”, Atti del convegno SIS, Verso i censimenti del 2000, Udine 2-4 giugno 1999 BALLIN M., BRANCATO G., FALORSI P.D., CAPPONI T., RUBINO A. E VICARI P. (2000), Le strategie adottate per la prevenzione ed il trattamento delle mancate risposte totali nell’indagine Long Form, Atti delle giornate di studio ISTAT-SIEDS, La qualità dell’informazione statistica, Roma, 6-7 aprile 2000 BANKIER M.D. (1988), “Power Allocation: Determining Sample Sizes for Subnational Areas”, The American Statistician, 42. pp.174-177 BINDER D.A. E THEBERGE A. (1988), Estimating the variance of raking-ratio estimators, The Canadian Journal of Statistics, 16, pp.47-55 BETHEL, J. (1989), “Sample Allocation in Multivariate Survey”, Survey Methodology, 15, pp.47-57 BREIMAN L., FRIEDMAN J.H., OLSHEN R.A. E STONE C.J. (1984), Classification and Regression Trees, Wadsworth International, Belmont, CA BREWER K.R.V., HANIF M. (1983), Sampling with Unequal Probabilities, Springer-Verlag, New-York CHANG T. E KOTT P.S. (2006), “Using calibration weighting to adjust for nonresponse or coverage errors under a plausible model”, Technical report, available at Http://www.nass.usda.gov/research/reports/cal_ paper8.pdf CHATTERJEE S. (1972), “A study of optimum in multivariate multipurpose surveys”, Skand. Akt. 55, 73-80 COCHRAN W.G. (1977), Sampling Techniques, J. Wiley, New York 173 RIFERIMENTI BIBLIOGRAFICI CHROMY J. (1987), “Design Optimisation with Multiple Objectives”, Proceedings of the Survey Research Methods Section, American Statistical Association, pp.194-199 DAVIES P., SMITH P. (2001), Model Quality Report in Business Statistics, vol. 1. Theory and Methods for Quality evaluation, EUROSTAT DAYAL S. (1985), “Allocation of Sample Using Values of Auxiliary Characteristics”, Journal of Statistics Planning and Inference, 11, pp.321-328 DALENIUS T. (1983), “Some reflections on the problem of missing data”, in Madow W.G. e Olkin I. (eds.), Incomplete Data in Sample Surveys, vol. 3, pp. 411-413, Academic Press, New York DE VITIIS C., FALORSI P.D., FALORSI S. E RUSSO A. (2000), “Aggiustamenti per mancate risposte: un confronto di alcuni metodi, Società Italiana di Statistica”, XL Riunione Scientifica, Firenze 26-28 aprile 2000, pp. 447450 DEVILLE J.C., SÄRNDAL C.E. (1992), “Calibration Estimators in Survey Sampling”, Journal of the American Statistical Association, vol. 87, pp. 367-382 DE VRIES W., KELLER W. E WILLEBOORDSE A. (1996), “Reducing the response burden: some developments in the Netherlands”, International Statistical Review, 64, 2, pp.199-213 ELTINGE J.E. E YANSANEH I.S. (1997), “Diagnostics for formation of nonresponse adjustment cells, with an application to income nonresponse in the U.S. consumer expenditure survey”, Survey Methodology, 23, 1, pp.33-40 ESTEVAO V., HIDIROGLOU M.A. E SARNDAL C.E. (1995), “Methodological Principles for a Generalized Estimation System at Statistics Canada”, Journal of Official Statistics, 11, (2), pp.181-204 EUROSTAT (1995), “Longitudinal weighting”, Doc.PAN 51/95, working group European community household panel FALORSI P.D., FALORSI S. E RUSSO A. (1992), “La mancata risposta totale nei campioni complessi: un applicazione all’indagine campionaria sui consumi sulle famiglie”, Rapporto di ricerca n. 23 CON.PRI., Dipartimento di Scienze Statistiche “Paolo Fortunati”, Università degli Studi di Bologna FALORSI S. E FALORSI P.D. (1994), “Indagine sulle forze di lavoro: descrizione della procedura di stima attualmente utilizzata ed analisi di metodi di stima alternativi”, Quaderni di Ricerca, ISTAT, n. 4/1994 FALORSI P.D., FALORSI S. (1998), “The Italian generalized estimation package: some experimental results for estimation on households surveys with different non response mechanism”, Quaderni di Ricerca, ISTAT, n. 4, pp.63-94 FALORSI P.D, BALLIN M. E SCEPI G. (1998), “Un software Generalizzato per le indagini sulle imprese”, Statistica Applicata, 2 174 RIFERIMENTI BIBLIOGRAFICI FALORSI S. E RINALDELLI C. (1999), “Un software generalizzato per il calcolo delle stime e d egli errori di campionamento”, Statistica Applicata, Italian Journal of Applied Statistics, 10, (2), pp. 217-234 FALORSI S., PAGLIUCA D., SCEPI G. (1999), Generalised Software for Sampling Errors – GSSE”, Proceedings of the Seminar on Exchange of Technology and Know-How (ETK 99), held in Prague, Czech Republic on the 13-15 October 1999, pp. 169-175 FALORSI P.D., FALORSI S., PALLARA A. E RUSSO A. (2000), “Un metodo di stima per piccole sottopopolazioni di imprese basato sull’uso di archivi amministrativi”, Atti del convegno SIS, Verso i censimenti del 2000, Udine 2-4 giugno 1999 GAMBINO J.G., SINGH M.P., DUFOUR J., KENNEDY B. E LINDEYER J. (1998), “Methodology of the Canadian Labour Force Survey”. Statistics Canada, Occasional paper no. 71-526-XPB GIOMMI A. (1987), “Nonparametric methods for estimating individual response probabilities”, Survey Methodology, 13, pp. 127-134 GODFREY J., ROSHWALB A. E WRIGHT R. (1984), “Model Based Stratification in Inventory Cost Estimation”, Journal of Business and Economic Statistics, 2, pp.1-9 HANSEN M. H., HURWITZ W. N., MADOW W.G. (1953), Sample Survey Methods and Theory, vol. 2, Wiley J., New York HIDIROGLOU M.A., LATOUCHE M., AMSTRONG B. E GOSSEN M. (1995), “Improving Survey Information Using Administrative Records: The Case of the Canadian Employment Survey”, Annual Research Conference, U.S. Department of Commerce HIDIROGLOU M.A., DREW J.D. E GRAY B.G. (1993), “A framework for measuring and reducing nonresponse in surveys”, Survey Methodology, 19, 1, pp.81-94 HORVITZ D.G., THOMPSON D.J. (1952), “A Generalization of Sampling without Replacement from Finite Universe”, Journal of the American Statistical Association, vol. 47, pp. 663-685 ISAKI C.T., FULLER W.A. (1982), “Survey Design under Regression Superpopulation Model”, Journal of American Statistical Association, 66, 411-414. ,77, pp.89-96 KALTON G., KASPRYZK D. (1986), “The treatment of missing survey data”, Survey Methodology, 12, pp.1-17 KALTON G., MALIGALIG D.S. (1991), “A comparison of methods of weighting adjustment for nonresponse”, Proceedings of the Section on Survey Research methods, American Statistical Association, pp. 409 428 KISH L. (1965), Survey Sampling, Wiley J., New York KISH L. (1992), “Weighting for unequal Pi”, Journal of Official Statistics, 8, (2), pp. 183-200 KOTT P.S. (1990), “Estimating the Conditional Variance of a Design Consistent Regression Estimator”, Journal of Statistical Planning and Inference, 24, 287-289 175 RIFERIMENTI BIBLIOGRAFICI LITTLE R.J.A. (1986), “Survey nonresponse adjustment for estimates of means”, International Statistical Review, 54, pp. 139-157 LITTLE R.J.A. E RUBIN D.B. (1987), “Statistical Analysis with Missing Data”, John Wiley & Sons, Inc, New York MADOW W.G., OLKIN I. E RUBIN D.B. (1983), Incomplete Data in Sample Surveys. (voll. 1-3), Academic Press, New York MERGERSON J.W. (1988), “Allocations requiring 100% Sampling in Some Strata”, NASS Staff Report Number number SSB-88-10, Washington, DC, National Agricultural Statistical Service MONTANARI G.E. E RANALLI M.G. (2005), “Nonparametric model calibration estimation in survey sampling”, Journal of the American Statistical Association, 100, 1429-1442 PAGLIUCA D. (2002), GENESEES v 1.0 (GENEralised software for Sampling Errors Estimation in Surveys) Manuale Utente e aspetti metodologici, ISTAT NIYONSENGA T. (1994), “Nonparametric estimation of response probabilities in sampling theory”, Survey Metodology, 20, 2, pp.177-184 RIZZO L., KALTON G. E BRICK M.J. (1996), “A comparison of some weighting adjustment methods for panel nonresponse”, Survey Methodology, 22, 1, pp.43-53 SÄRNDAL C.E., SWENSSON B. AND WRETMAN J. (1989), The weighted residual technique for estimating the variance of the general regression estimator of the finite population total, Biometrika, vol. 76, n. 3, pp. 527-537 SÄRNDAL C.E., SWENSONN B., WRETMAN J. (1992), Model Assisted Survey Sampling, Springer-Verlag New York SÄRNDAL C.E., LUNDSTRÖM S. (2005), Estimation in Surveys with Nonresponse, Springer-Verlag New York STUART A.(1986), “A simple presentation of optimum sampling results”, Journal of Royal Statistical Society, B16, 239-241 SIGMAN R.S., MONSOUR N. (1995), “Selecting Samples from List Frames of Business, in Business Survey Methods, Wiley J., New York SIGNORE M., BRANCATO G. E D’ANGIOLINI G. (1998), ”Building up the quality profile of ISTAT surveys”, Proceedings of the Joint IASS/IAOS Conference: “Statistics for Economic and Social Development, Aguascalientes, Mexico SINGH A.C., MOHL C.A. (1996), “Understanding CalibrationEstimators in Survey Sampling”, Survey Methodology, vol. 22, n. 2, pp. 107-115 ROSENBAUM P.R. E RUBIN D.B. (1983), The central role of the propensity score in observational studies for causal effect”, Biometrika, 70, pp. 4155 RUSSO A., FALORSI S. E FALORSI P.D. (1993), Strategia di campionamento e attendibilità delle stime, in Indagine Multiscopo sulle Famiglie, Istituto Nazionale di Statistica, vol. 1, pp. 33-66, Roma VEHOVAR V. (1999), “Field substitution and unit nonresponse”, Journal of Official Statistics, 15, (2), pp.335-350 176 RIFERIMENTI BIBLIOGRAFICI VERMA V., SCOTT C. E O’MUIRCHEARTAIGH C. (1980), “Sample Designs and Sampling Errors of the Word Fertility Survey”, Journal of the Royal Statistical Society A, vol. 143, Part. 4, pp. 431-473 WOLTER K. M. (1985), Introduction to variance estimation. Springer-Verlag, New York WOODRUFF R.S. (1971), “A Simple Method for Approximating the Variance of a Complicated Estimate”, Journal of the American Statistical Association, vol. 66, n. 334, pp. 411-414 ZANNELLA F. (1983), “L’analisi delle sostituzioni nell’indagine ISTAT sulle condizioni di salute della popolazione”, Atti del Convegno della Società Italiana di Statistica, Trieste 21-23 aprile, 1983, pp. 581-604 177 Temi & Strumenti - Studi e ricerche Isfol, Sviluppo locale. Prima analisi e compendium dei programmi nelle regioni dell’obiettivo 1, Roma, Isfol, 2004 (Temi&Strumenti. Studi e ricerche; 1) Isfol, Mobilità e trasparenza delle competenze acquisite: l’esperienza Europass Formazione in Italia, Roma, Isfol, 2005 (Temi&Strumenti. Studi e ricerche; 2) Isfol, Il Fondo Sociale Europeo 2000-2006. Quadro Comunitario di sostegno Ob. 3. Valutazione intermedia. 1° e 2° Parte, Roma, Isfol, 2005 (Temi&Strumenti. Studi e ricerche; 3) Isfol, Percorsi di orientamento. Indagine nazionale sulle buone pratiche, Roma, Isfol, 2005 (Temi&Strumenti. Studi e ricerche; 4) Isfol, Tra orientamento e auto-orientamento, tra formazione e auto-formazione, Roma, Isfol, 2005 (Temi&Strumenti. Studi e ricerche; 5) Isfol, La qualità del lavoro, Roma, Isfol, 2005 (Temi&Strumenti. Studi e ricerche; 6) Isfol, Passo alla Pratica. Una pratica Isfol di consulenza orientativa, Roma, Isfol, 2005 (Temi&Strumenti. Studi e ricerche; 7) Isfol, Investire nella progettualità delle associazioni di promozione sociale. Compendium progetti legge 383/2000 triennio 2002-2004, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 8) Isfol, Pensare al futuro. Una pratica di orientamento in gruppo, Roma, Isfol, 2005 (Temi&Strumenti. Studi e ricerche; 9) Isfol, Accogliere e integrare. Esperienze Equal in tema di immigrazione, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 10) Isfol, Consulenza alla persona e counseling: ambiti di intervento, approcci, ruolo e competenze del counselor, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 11) Isfol, Istruzione e formazione professionale: verso la costruzione di nuovi scenari e nuove competenze per gli operatori del sistema, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 12) Isfol, L’accompagnamento al successo formativo. Strategie e modelli operativi dei centri per l’impiego, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 13) Isfol, Bilanci pubblici ed equità di genere, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 14) Isfol, Atlante comparato sui Servizi per l’impiego nell’Unione europea ampliata, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 15) Isfol, Bi.dicomp. Un percorso ISFOL di Bilancio di Competenze, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 16) Isfol, Le dimensioni del coping e dell’attribuzione causale nell’orientamento: due strumenti ISFOL, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 17) Isfol, Verso il lavoro. Organizzazione e funzionamento dei servizi pubblici per i cittadini e le imprese nel mercato del lavoro. Monitoraggio 2004, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 18) Isfol, Standard delle competenze nell’Istruzione e Formazione Tecnica Superiore. Percorsi metodologici e di sperimentazione, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 19) Isfol, Esperienze di validazione dell’apprendimento non formale e informale in Italia e in Europa, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 20) Isfol, Il Libretto Formativo del Cittadino, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 21) Isfol, Valutare gli interventi per l’occupabilità: le misure di inserimento al lavoro, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 22) Isfol, Orientare l’Orientamento, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 23) Isfol, Dall’analisi della domanda alla valutazione della consulenza di orientamento: Val.ori, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 24) Isfol, Dialoghi sull’orientamento. Dalle esperienze ai modelli, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 25) Isfol, Fondo nazionale per il diritto al lavoro dei disabili. Monitoraggio 2004, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 26) Isfol, Formazione, istruzione e lavoro. Valutazione delle politiche sostenute dal Fondo sociale europeo 2000-2006 nell’Italia del Centro-Nord, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 27) Isfol, Conciliazione vita/lavoro: un traguardo possibile. L’esperienza di Equal, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 28) Isfol, Volontariato e pianificazione sociale di zona: la partecipazione. Indagine pilota sul volontariato, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 29) Isfol, La mobilità costretta. La mobilità geografica dei giovani italiani: caratteristiche e prospettive delle Regioni del Mezzogiorno, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 30) Isfol, Il ruolo delle città della governance multilivello delle politiche occupazionali, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 31) Isfol, Terza Relazione al Parlamento sullo Stato di Attuazione della Legge 12/3/99 N.68, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 32) Isfol, Il Label europeo uno strumento per la promozione e la valorizzazione dell’insegnamento e dell’apprendimento linguistico. L’esperienza in Italia nell’ambito della formazione professionale, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 33) Isfol, Nuove tecnologie e promozione sociale, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 34) Isfol, Sviluppo sostenibile e processi di partecipazione. Figure professionali per la gestione dei conflitti socio-ambientali, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 35) Isfol, Nomenclatura e classificazione delle unità professionali, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 36) Isfol, Dinamiche di intervento in un contesto open-learnig, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 37) Isfol, Strategie di campionamento per il monitoraggio e la valutazione delle politiche, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 38) Temi & Strumenti - Percorsi Isfol, Orientarsi tra tempi di lavoro e tempi di vita, Roma, Isfol, 2006 (Temi&Strumenti. Percorsi; 1) Isfol, A scuola mi oriento, Roma, Isfol, 2006 (Temi&Strumenti. Percorsi; 2) Isfol, Funzioni, competenze e profili formativi, Roma, Isfol, 2006 (Temi&Strumenti. Percorsi; 3) Isfol, Associa si racconta, Roma, Isfol, 2007 (Temi&Strumenti. Percorsi; 4) Isfol, Alla ricerca delle mie competenze. Una guida per orientarsi tra servizi e pratiche di bilancio, Roma, Isfol, 2007 (Temi&Strumenti. Percorsi; 5) Isfol, Prossima fermata: imparare a scegliere. Guida per orientarsi, Roma, Isfol, 2007 (Temi&Strumenti. Percorsi; 6) Isfol, Le parole dell’orientamento: un puzzle da comporre, Roma, Isfol, 2007 (Temi&Strumenti. Percorsi; 7) I.G.E.R. srl viale C.T. Odescalchi, 67/A 00147 Roma Finito di stampare dicembre 2007